Alan Lee

Alan Lee

Natural Language Processing, Deep Learning, and Always Learning.

Pixel 重置后卡在检查更新界面的一种解决办法
我的 Pixel 3 XL 前几天安装了 Android 11 beta 版,但是感觉比较卡,有些应用经常卡死。遂退出了测试版,重新安装 10 正式版。 注意:从测试版退出来是要清除数据的,相当于重置。而正式版转到测试版是不需要的。 BUT,正常重启安装后,系统就卡在「正在检查更新……」界...
计算 LSTM 的参数量
理论上的参数量之前翻译了 Christopher Olah 的那篇著名的 Understanding LSTM Networks,这篇文章对于整体理解 LSTM 很有帮助,但是在理解 LSTM 的参数数量这种细节方面,略有不足。本文就来补充一下,讲讲如何计算 LSTM 的参数数量。 建议阅读...
理解编辑距离
顾名思义,编辑距离(Edit distance)是一种距离,用于衡量两个字符串之间的远近程度,方式是一个字符串至少需要多少次基础变换才能变成另一个字符串,可应用在拼写检查、判断 DNA 相似度等场景中。根据可操作的基础变换不同,可分为以下几种: 莱文斯坦距离(Levenshtein dist...
寻找所有公共子序列并返回索引
最近同事说了这么一个需求:假设有两个字符串 target 和 source,要在 source 中寻找 target,但不要求 target 在 source 中是连续的,并返回索引。一般来说 target 是一个较短的词语,source 是一个包含 target 的较长句子,target 在...
Bandizip 无广告版
Photo by JJ Ying on Unsplash Bandizip 是一款很好用的全平台解压/压缩工具,我最常用的功能就是「自动解压」: 若压缩包中只有一个文件,则会将其提取到当前位置。 当压缩包中的所有文件都放在一个文件夹中时,它们将被提取到当前位置。 在其他情况下,文件将被提取到...
BERT 是如何构建模型的
Photo by Damian Patkowski on Unsplash Good things take time, as they should. 前面我写了一篇文章来讲 BERT 是如何分词的,现在,轮到该说说 BERT 模型是如何定义的了。 BERT 模型的大致结构可能大家已经很...
Hexo 博客添加 Google Adsense ads.txt
申请完 Google Adsense 后,需要将一段代码和一个 ads.txt 文件加入到博客中。前者比较好实现,按照官方教程进行即可。如果不添加后者,你的网站仍然可以展示广告,但是会收到如下警告: 那么什么是 adx.txt 呢? 根据 Google 官方的描述: 授权数字卖家 (ads...
博文变动记录
现在我有三个博客: Alan Lee,独立博客 The North Cloud Gate,独立博客 CSDN 知乎 之前我的技术类文章都是在 1 和 3 上同步发表,造成了严重的信息冗余,博客划分不够细。因此接下来一段时间我会按照如下的划分,来调整博客上的文章: Alan Lee:主要用...
理解最长公共子序列算法
最近看一篇 Google 的论文:《Encode, Tag, Realize: High-Precision Text Editing》,看源码的时候发现其前期预处理的时候用了最长公共子序列(Longest Common Subsequence,LCS)算法来生成词汇表。之前只是知道这个算法,...
试用开源标注平台 Label Studio
Photo by Josh Sorenson on Unsplash 数据标注是人工智能背后的女人。—— 我说的 初探在 reddit 上看到一个人提了一个问题:What is your favourite (free) labelling tool?,你最喜欢的(免费)标注工具是什么。由...
Alan Lee
Always Learning