最近实在是有点忙,没啥时间写博客了。趁着周末水一文,把最近用 huggingface transformers 训练文本分类模型时遇到的一个小问题说下。
阅读全文本文结合 A Visual Survey of Data Augmentation in NLP 和最新的综述论文 A Survey of Data Augmentation Approaches for NLP,大致总结了目前 NLP 领域的通用数据增强方法和几种针对如 NER 的序列标注模型进行适配的变种方法,关于后者,重点介绍了基于 mixup 改进的 SeqMix 方法。
阅读全文
好久没更新博客了,最近一直在忙,既有生活上的也有工作上的。道阻且长啊。
阅读全文
2021 年 3 月 2 日的时候,Guido 发推说 3.10.0a6 出来了,文档也已经有了,4 月 5 日会释出 a7,5 月 3 日出 b1。本文先介绍一下最新版 Python 的安装,然后来看下这个模式匹配新功能。
阅读全文重装系统和 node、hexo,部署博客到线上后,发现显示空白。
阅读全文
简单来说,两者都是对词的归一化,但 Stemming(中文一般译为词干提取,以下简称 stem)更为简单、快速一些,通常会使用一种启发式方法去掉一个词的结尾。 Lemmatization(中文一般译为词形还原,以下简称 lemma)更为「智能」一些,上下文相关,有一个 vocab,不在其中的词不会被处理:
阅读全文
上周末在北京参加了 PyCon China 2020,这是第一次参加 PyCon China,有一些简单感受,在此简要记录下。
阅读全文
平常我们查看 GPU 信息,比如哪个进程在占用 GPU,占用了多少,GPU 利用率怎么样等信息,都是使用 nvidia-smi,但这些信息都是实时的,也就是说你无法查看一定时间段内的变化情况。
阅读全文