TensorBoard Projector 简易指南

12月 17, 2021

本文将会从原始文本出发（中文），经过训练 embedding、生成所需文件等步骤，一步一步，最终使用 TBP 来可视化 embedding，并解决不能使用中文标签的问题。
阅读全文

使用 Transformers 在你自己的数据集上训练文本分类模型

11月 07, 2021

最近实在是有点忙，没啥时间写博客了。趁着周末水一文，把最近用 huggingface transformers 训练文本分类模型时遇到的一个小问题说下。

NLP 中的通用数据增强方法及针对 NER 的变种

9月 12, 2021

本文结合 A Visual Survey of Data Augmentation in NLP 和最新的综述论文 A Survey of Data Augmentation Approaches for NLP，大致总结了目前 NLP 领域的通用数据增强方法和几种针对如 NER 的序列标注模型进行适配的变种方法，关于后者，重点介绍了基于 mixup 改进的 SeqMix 方法。
阅读全文

理解 PyTorch 中的 gather 函数

8月 21, 2021

好久没更新博客了，最近一直在忙，既有生活上的也有工作上的。道阻且长啊。
阅读全文

Ghost SSL 证书过期的解决办法

5月 01, 2021

今天访问我的 Ghost 博客的时候，发现进不去了，证书显示已过期，自己部署的 flask 服务也访问不了了，那么是怎么回事？

阅读全文

Python 3.10 的新功能：模式匹配 Pattern Matching

3月 04, 2021

2021 年 3 月 2 日的时候，Guido 发推说 3.10.0a6 出来了，文档也已经有了，4 月 5 日会释出 a7，5 月 3 日出 b1。本文先介绍一下最新版 Python 的安装，然后来看下这个模式匹配新功能。

阅读全文

hexo 生成的 html 文件为空的问题

2月 28, 2021

重装系统和 node、hexo，部署博客到线上后，发现显示空白。

阅读全文

Lemmatization VS Stemming

2月 25, 2021

简单来说，两者都是对词的归一化，但 Stemming（中文一般译为词干提取，以下简称 stem）更为简单、快速一些，通常会使用一种启发式方法去掉一个词的结尾。 Lemmatization（中文一般译为词形还原，以下简称 lemma）更为「智能」一些，上下文相关，有一个 vocab，不在其中的词不会被处理：
阅读全文

第 1 页共 1 页

Alan Lee