本文将会从原始文本出发(中文),经过训练 embedding、生成所需文件等步骤,一步一步,最终使用 TBP 来可视化 embedding,并解决不能使用中文标签的问题。
阅读全文

Lemmatization VS Stemming

简单来说,两者都是对词的归一化,但 Stemming(中文一般译为词干提取,以下简称 stem)更为简单、快速一些,通常会使用一种启发式方法去掉一个词的结尾。 Lemmatization(中文一般译为词形还原,以下简称 lemma)更为「智能」一些,上下文相关,有一个 vocab,不在其中的词不会被处理:
阅读全文

作者的图片

Alan Lee

NLP and Python developer, sometimes datavis, he/him. Stick to what you believe.


author.job


北京