Photo by Damian Patkowski on Unsplash
阅读全文
最近看一篇 Google 的论文:《Encode, Tag, Realize: High-Precision Text Editing》,看源码的时候发现其前期预处理的时候用了最长公共子序列(Longest Common Subsequence,LCS)算法来生成词汇表。之前只是知道这个算法,但是具体解法并不是很清楚。如果你经常刷题,可能会很熟悉了,但是我对刷题一直保持排斥态度,所以不太懂。趁这个机会来看看这个 LCS。
阅读全文
BERT 表示 Bidirectional Encoder Representations from Transformers,是 Google 于 2018 年发布的一种语言表示模型。该模型一经发布便成为争相效仿的对象,相信大家也都多少听说过研究过了。本文主要聚焦于 BERT 的分词方法,模型实现细节解读见 BERT 是如何构建模型的。
阅读全文
阅读全文译者注:
- 本文翻译自 Sebastian Ruder 于 2018 年 4 月 16 日发表的文章 Text Classification with TensorFlow Estimators,文章和 Julian Eisenschlos 共同撰写,原先发表在 TensorFlow 博客。
- 文中括号或者引用块中的 斜体字 为对应的英文原文或者我自己注释的话(会标明「译者注」),否则为原文中本来就有的话。
- 目录保留英文原文。
- 你如果对 TensorFlow 中的 Datasets 和 Estimators 还不是很了解,那么可以参考我写的理解 Estimators 和 Datasets。
- 本人水平有限,如有错误欢迎指出。