Alan Lee

Alan Lee

Natural Language Processing, Deep Learning, and Always Learning.

二分查找真的很快吗
很常见的一个题目:给定升序排序数组 a,查找 a 中大于等于 x 的第一个数的索引。 有多种方法来完成这个题目,大部分人第一反应都是二分查找。我喜欢从实践出发来想问题。我有几个问题: 二分查找真的很快吗?如果快,快多少? 实际中我们应该怎么写才能更好地完成这个题目? 本文就是来回答这两个问...
BERT 是如何分词的
BERT 表示 Bidirectional Encoder Representations from Transformers,是 Google 于 2018 年发布的一种语言表示模型。该模型一经发布便成为争相效仿的对象,相信大家也都多少听说过研究过了。本文主要聚焦于 BERT 的分词方法,后...
Ghost 博客平台安装和配置
Ghost 是一个博客发布平台,和 Hexo 等类似。本文简要介绍如何安装和配置 Ghost,环境为 Ubuntu 16.04 系统上,假设你已经拥有一个服务器和一个域名。 安装安装过程主要参考官方教程,下面我总结下: 在系统上创建一个新用户。一般安装 Ghost 会使用一个新用户,当然这也...
sklearn 如何计算 TFIDF
文中代码见 GitHub Gist 或者使用 nbviewer 查看。 什么是 TFIDF简单来说,在一个文档集中,TFIDF 反映了一个词在一篇文档中的重要程度,或者说这个词在这篇文档中具有多大的「标志性」。我们可以用其作为每个词的权重进而通过计算余弦相似度来比较两篇文档的相似性。 TF...
理解主成分分析
译者注: 本文翻译自 Rishav Kumar 于 2019 年 1 月 2 日发表的文章 Understanding Principal Component Analysis 文中括号或者引用块中的 斜体字 为对应的英文原文或者我自己注释的话(会标明「译者注」),否则为原文中本来就有的话...
我的网易云音乐 2018 年度听歌报告
一年又一年。 2019 年 1 月 4 日,2018 年的网易云音乐的年度听歌报告终于来了,比去年晚了两天,又是我该写听歌报告的时候了。 然而今年写这个的时间比去年晚了 10 天 😂 没办法,事情繁忙,没有在学校的时候的充裕时间了。 话不多说,报告开始。 遇见你 真好 这是报告首页,今年的个...
Plotly 初步
简介Plotly 是一个用于绘制交互式图表的工具库,基于 React 和 Flask,基本功能免费,可以在 Jupyter Notebook 上进行在线或者离线绘图,支持 Python、MATLAB 和 R 等许多语言,其同类产品(Python 领域)是 bokeh,但是 plotly 绘制的...
在本地使用远程 Jupyter Lab 服务器
注:本文中所说的内容同样适用于 Jupyter Notebook,如需了解 Jupyter Lab 可以查看项目地址。强烈推荐使用 Jupyter Lab。 前言一般来说,我们都是在本地使用 Jupyter Lab,但有时候我们需要(想)在远程服务器上运行 Jupyter Lab,因为配置...
Alan Lee
Always Learning