Alan Lee

Alan Lee

Natural Language Processing, Deep Learning, and Always Learning.

Bandizip 无广告版
Photo by JJ Ying on Unsplash Bandizip 是一款很好用的全平台解压/压缩工具,我最常用的功能就是「自动解压」: 若压缩包中只有一个文件,则会将其提取到当前位置。 当压缩包中的所有文件都放在一个文件夹中时,它们将被提取到当前位置。 在其他情况下,文件将被提取到...
BERT 是如何构建模型的
Photo by Damian Patkowski on Unsplash Good things take time, as they should. 前面我写了一篇文章来讲 BERT 是如何分词的,现在,轮到该说说 BERT 模型是如何定义的了。 BERT 模型的大致结构可能大家已经很...
Hexo 博客添加 Google Adsense ads.txt
申请完 Google Adsense 后,需要将一段代码和一个 ads.txt 文件加入到博客中。前者比较好实现,按照官方教程进行即可。如果不添加后者,你的网站仍然可以展示广告,但是会收到如下警告: 那么什么是 adx.txt 呢? 根据 Google 官方的描述: 授权数字卖家 (ads...
博文变动记录
现在我有三个博客: Alan Lee,独立博客 The North Cloud Gate,独立博客 CSDN 知乎 之前我的技术类文章都是在 1 和 3 上同步发表,造成了严重的信息冗余,博客划分不够细。因此接下来一段时间我会按照如下的划分,来调整博客上的文章: Alan Lee:主要用...
理解最长公共子序列算法
最近看一篇 Google 的论文:《Encode, Tag, Realize: High-Precision Text Editing》,看源码的时候发现其前期预处理的时候用了最长公共子序列(Longest Common Subsequence,LCS)算法来生成词汇表。之前只是知道这个算法,...
试用开源标注平台 Label Studio
Photo by Josh Sorenson on Unsplash 数据标注是人工智能背后的女人。—— 我说的 初探在 reddit 上看到一个人提了一个问题:What is your favourite (free) labelling tool?,你最喜欢的(免费)标注工具是什么。由...
二分查找真的很快吗
很常见的一个题目:给定升序排序数组 a,查找 a 中大于等于 x 的第一个数的索引。 有多种方法来完成这个题目,大部分人第一反应都是二分查找。我喜欢从实践出发来想问题。我有几个问题: 二分查找真的很快吗?如果快,快多少? 实际中我们应该怎么写才能更好地完成这个题目? 本文就是来回答这两个问...
BERT 是如何分词的
BERT 表示 Bidirectional Encoder Representations from Transformers,是 Google 于 2018 年发布的一种语言表示模型。该模型一经发布便成为争相效仿的对象,相信大家也都多少听说过研究过了。本文主要聚焦于 BERT 的分词方法,后...
Ghost 博客平台安装和配置
Ghost 是一个博客发布平台,和 Hexo 等类似。本文简要介绍如何安装和配置 Ghost,环境为 Ubuntu 16.04 系统上,假设你已经拥有一个服务器和一个域名。 安装安装过程主要参考官方教程,下面我总结下: 在系统上创建一个新用户。一般安装 Ghost 会使用一个新用户,当然这也...
sklearn 如何计算 TFIDF
文中代码见 GitHub Gist 或者使用 nbviewer 查看。 什么是 TFIDF简单来说,在一个文档集中,TFIDF 反映了一个词在一篇文档中的重要程度,或者说这个词在这篇文档中具有多大的「标志性」。我们可以用其作为每个词的权重进而通过计算余弦相似度来比较两篇文档的相似性。 TF...
Alan Lee
Always Learning