最近同事说了这么一个需求:假设有两个字符串 target 和 source,要在 source 中寻找 target,但不要求 target 在 source 中是连续的,并返回索引。一般来说 target 是一个较短的词语,source 是一个包含 target 的较长句子,target 在 source 中不一定连续,且可能有多个。
阅读全文

BERT 是如何分词的

BERT 表示 Bidirectional Encoder Representations from Transformers,是 Google 于 2018 年发布的一种语言表示模型。该模型一经发布便成为争相效仿的对象,相信大家也都多少听说过研究过了。本文主要聚焦于 BERT 的分词方法,模型实现细节解读见 BERT 是如何构建模型的
阅读全文

作者的图片

Alan Lee

NLP and Python developer, sometimes datavis, he/him. Stick to what you believe.


author.job


北京