计算 LSTM 的参数量

2020 年 6 月 4 日

理论上的参数量

阅读全文

理解编辑距离

2020 年 5 月 22 日

顾名思义，编辑距离（Edit distance）是一种距离，用于衡量两个字符串之间的远近程度，方式是一个字符串至少需要多少次基础变换才能变成另一个字符串，可应用在拼写检查、判断 DNA 相似度等场景中。根据可操作的基础变换不同，可分为以下几种：
阅读全文

寻找所有公共子序列并返回索引

2020 年 5 月 22 日

最近同事说了这么一个需求：假设有两个字符串 target 和 source，要在 source 中寻找 target，但不要求 target 在 source 中是连续的，并返回索引。一般来说 target 是一个较短的词语，source 是一个包含 target 的较长句子，target 在 source 中不一定连续，且可能有多个。
阅读全文

Bandizip 无广告版

2020 年 5 月 15 日

Photo by JJ Ying on Unsplash
阅读全文

BERT 是如何构建模型的

2020 年 5 月 8 日

Photo by Damian Patkowski on Unsplash
阅读全文

Hexo 博客添加 Google Adsense ads.txt

2020 年 4 月 10 日

申请完 Google Adsense 后，需要将一段代码和一个 ads.txt 文件加入到博客中。前者比较好实现，按照官方教程进行即可。如果不添加后者，你的网站仍然可以展示广告，但是会收到如下警告：
阅读全文

博文变动记录

2020 年 4 月 8 日

现在我有三个博客：
阅读全文

理解最长公共子序列算法

2020 年 4 月 7 日

最近看一篇 Google 的论文：《Encode, Tag, Realize: High-Precision Text Editing》，看源码的时候发现其前期预处理的时候用了最长公共子序列（Longest Common Subsequence，LCS）算法来生成词汇表。之前只是知道这个算法，但是具体解法并不是很清楚。如果你经常刷题，可能会很熟悉了，但是我对刷题一直保持排斥态度，所以不太懂。趁这个机会来看看这个 LCS。
阅读全文

试用开源标注平台 Label Studio

2020 年 3 月 15 日

Photo by Josh Sorenson on Unsplash
阅读全文

二分查找真的很快吗

2019 年 10 月 28 日

很常见的一个题目：给定升序排序数组 a，查找 a 中大于等于 x 的第一个数的索引。
阅读全文

理论上的参数量

Alan Lee