Lee's Space Station

Lee's Space Station

Always Learning

BERT 是如何分词的
BERT 表示 Bidirectional Encoder Representations from Transformers,是 Google 于 2018 年发布的一种语言表示模型。该模型一经发布便成为争相效仿的对象,相信大家也都多少听说过研究过了。本文主要聚焦于 BERT 的分词方法,后...
使用 Mailgun 配置 Ghost 邮箱
Ghost 可以通过邮箱邀请作者入驻,一起创作,也可以通过邮箱找回密码。这个邮箱不是随便一个普通的邮箱就可以,需要一个专门的邮箱账号,Ghost 官方推荐的是 mailgun 邮箱服务,mailgun 一个月 10000 封邮件免费,这已经足够了。由于我的服务器和域名都是腾讯云的,本文就简单讲...
Ghost 博客平台安装和配置
Ghost 是一个博客发布平台,和 Hexo 等类似。本文简要介绍如何安装和配置 Ghost,环境为 Ubuntu 16.04 系统上,假设你已经拥有一个服务器和一个域名。 安装安装过程主要参考官方教程,下面我总结下: 在系统上创建一个新用户。一般安装 Ghost 会使用一个新用户,当然这也...
sklearn 如何计算 TFIDF
文中代码见 GitHub Gist 或者使用 nbviewer 查看。 什么是 TFIDF简单来说,在一个文档集中,TFIDF 反映了一个词在一篇文档中的重要程度,或者说这个词在这篇文档中具有多大的「标志性」。我们可以用其作为每个词的权重进而通过计算余弦相似度来比较两篇文档的相似性。 TF...
有点坑的 np.array_split
假如我们想要把一个 array-like 的东西拆分成多个小组(或者叫 bucket),给定组的数目或者组的大小,最后一组不足则保持原样。 那么我们想到的可能是 np.array_split() 函数。我们使用其官方例子来说明一下。 例子 1: 把一个含有 8 个元素的列表拆分成 3 组,那么...
理解 Python 中的 for 循环
译者注: 本文翻译自 Trey Hunner 于 2019 年 6 月 18 日发表的文章 Loop Better: a deeper look at iteration in Python 文中括号或者引用块中的 斜体字 为对应的英文原文或者我自己注释的话(会标明「译者注」),否则为原文...
理解主成分分析
译者注: 本文翻译自 Rishav Kumar 于 2019 年 1 月 2 日发表的文章 Understanding Principal Component Analysis 文中括号或者引用块中的 斜体字 为对应的英文原文或者我自己注释的话(会标明「译者注」),否则为原文中本来就有的话...
我的网易云音乐 2018 年度听歌报告
一年又一年。 2019 年 1 月 4 日,2018 年的网易云音乐的年度听歌报告终于来了,比去年晚了两天,又是我该写听歌报告的时候了。 然而今年写这个的时间比去年晚了 10 天 😂 没办法,事情繁忙,没有在学校的时候的充裕时间了。 话不多说,报告开始。 遇见你 真好 这是报告首页,今年的个...
修改 logging 时间
问题在记录一些必要信息时,我通常会使用 logging 模块,在输出信息时同时可以输出时间和日志等级,例如使用 basicConfig 来先设定日志格式: 123logging.basicConfig(format='%(asctime)s %(levelname)s: %(message)s...
Alan Lee
Always Learning
FRIENDS
MyCSDN Say Thanks