Alan Lee

关于 LLaMA 1

2023-11-23T11:18:00.000Z

这篇博文提供了对Meta AI发布的LLaMA 1论文的深入分析，强调了LLaMA在开源大型语言模型中的重要性。文中详细介绍了LLaMA的基本信息、优化代码、模型结构和数据集处理，并对其在不同任务上的表现进行了评估。作者指出，尽管LLaMA在创新方面不突出，但作为一个高效、开源的基础模型，在当前ChatGPT闭源的情况下，它满足了大众的需求。[ChatGPT 4]

Supervisor 简易指南

2023-07-02T00:26:00.000Z

日常开发的时候，我们可能经常需要同时运行或维护多个程序（服务），时间一长可能就记不住了，运行命令都不一定能记得。而且一旦服务器崩了或者其他意外情况，这些服务还得手动去启动，很是麻烦（当然你也可以使用 init 等来设置开机自启）。这时就需要一个页面来统一管理了。

Supervisor 登场！

Supervisor 是一个用于管理和监控进程的工具，使用 Python 开发，可以确保在出现意外情况时，进程能够持续运行，并在失败后自动重启，通常用于监控服务器进程，如 Web 服务器和应用程序服务器。

Pros：

自动重启：当进程意外退出或崩溃时，Supervisor 会自动重启进程，确保进程持续运行，减少因意外情况导致的服务中断时间。
监控和日志：Supervisor 可以监控进程的状态，并提供详细的日志和报告。
配置简单：配置文件采用 INI 格式，使用简单，可以根据需要定义进程的启动命令、运行参数、日志路径等。
多进程管理：Supervisor 可以同时管理多个进程，可以方便地添加、删除和管理多个进程。
Web 界面：Supervisor 提供了一个简单易用的 Web 界面，用户可以通过浏览器直观地查看和管理进程，包括启动、停止、重启和查看日志等操作。

Cons：

Web 界面过于粗糙，只有启停、查看日志等操作，进程 CPU 占用、内存使用等都没有。

不过说起来这是我第二次使用 supervisor 了，第一次还是几年前，东西都忘了。这次使用的时候查了好多资料才正常跑起来，所以为了方便下一次使用，以及有需要的同道们，特此记录一下，后面有什么新的需要记录的再更新。

安装

Supervisor 是一个 python package，所以对 pythonista 来说，安装方式再熟悉不过了：

1	pip install supervisor

配置

配置文件用来配置 supervisor 本身的一些设置以及你要添加的程序，一般叫 supervisord.conf 。如果你启动的时候没有用 -c 来指定配置文件的地址，那么 supervisor 会自动按照以下顺序来寻找：

../etc/supervisord.conf (Relative to the executable)
../supervisord.conf (Relative to the executable)
$CWD/supervisord.conf
$CWD/etc/supervisord.conf
/etc/supervisord.conf
/etc/supervisor/supervisord.conf (since Supervisor 3.3.0)

可配置项很多，我一般不会从头写，都是基于默认配置来修改。我们可以用 echo_supervisord_conf > supervisord.conf 来将默认配置写到 supervisord.conf 中。

如果在语句后直接添加注释，那么必须与语句隔一个空格。比如
❌ "a=b;comment"
✔️ "a=b ;comment"

下面我就讲下和默认配置不一样的地方。

`inet_http_server`

[inet_http_server]         ; inet (TCP) server disabled by default
port=*:9001        ; ip_address:port specifier, *:port for all iface
username=your_username              ; default is no username (open server)
password=your_password               ; default is no password (open server)

这个 section 与后面的 web 界面以及 supervisorctl 与 supervisord 的通信有关。默认是只能本地连接（localhost），而且没有用户名密码，如果需要从其他服务器上访问 web，那么则需要使用 * 来指定允许所有 ip 访问。为了安全考虑建议设置用户名密码。

`supervisorctl`

[supervisorctl]
serverurl=unix:///tmp/supervisor.sock ; use a unix:// URL  for a unix socket
serverurl=http://127.0.0.1:9001 ; use an http:// url to specify an inet socket
username=liyajun              ; should be same as in [*_http_server] if set
password=liyajun123                ; should be same as in [*_http_server] if set

这里就是配置 supervisorctl 与 supervisord 通信的地方。主要是 serverurl （端口）与用户名密码需要和上面配置的一致，否则会出现拒绝链接或者认证失败的错误。

`program:x`

[program:your_program_name]
command=your_program_run_command
process_name=%(program_name)s
directory=your_program_run_dir
autostart=true
autorestart=unexpected
redirect_stderr=true
stdout_logfile=your_program_log      ; stdout log path, NONE for none; default AUTO
stdout_logfile_maxbytes=50MB   ; max # logfile bytes b4 rotation (default 50MB)
stdout_logfile_backups=10     ; # of stdout logfile backups (0 means none, default 10)

这个 section 就是重头戏了，我们在这里配置需要启动的程序，一个配置文件可以有多个这个 section。

[program:your_program_name] ：your_program_name 就是你的程序名字，想叫什么就叫什么，别太离谱就行。
command ：你的程序的执行命令，你平常怎么执行的这里就怎么写，但是 executable 最好写绝对地址，比如你用 python app.py 来执行程序，那么这个 python 最好写成绝对地址，尤其你有多个 python 环境时。你可以用 which python 来查看绝对地址。
process_name ：默认就是程序名（your_program_name），这个名字会在 web 界面上显示。
directory ：指定运行时需要 cd 到的目录（工作目录），也即你的程序文件所在的目录。
autostart ：是否在 supervisord 启动时启动程序。
autorestart ：是否在程序退出时自动重启。有三个值可选：
- false ：不自动重启。
- unexpected ：默认值。当 exit code 不在预料之内时，重启。什么叫不在预料之内？这个值是由 exitcodes 指定的，默认为 0。
- true ：无论如何都自动重启。
redirect_stderr ：是否将 stderr redirect 到 stdout。
stdout_logfile ：stdout 日志文件。
stdout_logfile_maxbytes ：单个日志文件的最大大小。
stdout_logfile_backups ：保留多少份日志文件。

启动

1	supervisord -c supervisord.conf

更新配置文件

当我们更新了配置文件后，需要让 supervisor 也更新一下，我在网上查到的说是需要先 reread 再 update，但是我查询了文档，文档是这么写的：

reread：

Reload the daemon’s configuration files, without add/remove (no restarts)

update：

Reload config and add/remove as necessary, and will restart affected programs

很明显 update 已经做了 reread 的工作，而且还会 restart。

所以更新配置文件后，只需执行 update 即可更新 supervisor：

1	supervisorctl update

如果你的配置文件移动了位置，那么需要重启 supervisord：

查询 supervisord PID：supervisorctl pid 。
杀死 supervisord 进程：kill supervisord_pid 。
用新配置文件启动 supervisord：supervisord -c new_supervisord.conf 。

Web 管理界面

前面提到过有一个 web 管理界面，根据 inet_http_server 的配置，使用相应的 ip 和端口在浏览器上访问即可，默认是 9001 端口。界面样式如下：

Supervisor web 管理界面。

在这个界面上可以看到所有已配置程序的状态，可以启停和查看日志，直接点击 Name 列可以查看最后几行的日志，而点击 Tail -f * 可以看到实时日志，不过这个在我这里特别慢，不知道为社么。

`supervisord` 与 `supervisorctl`

刚才我们用了 supervisord 和 supervisorctl 两个命令，你可能会疑惑这两个有什么区别。其实我们一般使用的时候，用前者启动 supervisor 主程序，用后者来管理我们自己所添加的 program。所以 supervisord 就像个后台的 server，而 supervisorctl 是一个前台的 client，有很多 action（subcommand）可以执行，比如上面的 update 和 reread 就是两个 action。而 supervisord 是没有的。

supervisorctl 常用的 action 有：

status ：查看 program 状态。
update ：更新配置文件并重启相关 program。
pid ：获取 supervisord 的 PID。

其他不是很常用，感兴趣的可以去文档查看。

END

两种方法教你在小米电视上观看 YouTube

2023-06-17T08:01:00.000Z

问题

我一直有个想法是在我家的小米电视上看 YouTube，之前都是手机上下载专门用来投屏 YouTube 的软件（Tubio），缺点是操作稍显复杂，清晰度不能选择，字幕投不上。经过前几天在电视上折腾小白网盘、电视家等经验，这次就想再来试下实现这个想法。

解决方法

按理来说，想要看 YouTube，就需要电视上装一个 VPN 软件和 YouTube。电视也是基于 Android 系统做的，所以还比较好实现。VPN 软件我们就可以使用和手机上一样的 ssr 或者 clash。我大概讲下我测试的两种方法。

方法1：SSR + SmartTube

这个方法是我看网上传的最多的，但是首先说下这个方法我失败了。

SmartTube（GitHub）是一个专门用于在电视上观看 YouTube 的免广告应用，那为什么不用官方的 YouTube app 呢？因为官方的需要依赖 Google 服务框架那一套东西，比较麻烦，而这个 app 是不需要的。其有 stable 和 beta 两个版本，下载 stable 即可。

下载 SSR apk 和 SmartTube apk 到 U 盘上，然后插到电视上，分别安装。
配置好你的 SSR，测试下看能不能正常连接。我的就在这步卡住了，根本连接不了，订阅是更新成功了，但是选择节点后测试失败。
假设你上一步成功了，安装并打开 SmartTube，能正常加载首页就表示成功了，你也可以选择登陆自己的账号，点上方的小人根据提示操作即可。

方法 2：一台挂着梯子的电脑 + SmartTube

这个是我成功的方法，也是我认为最方便最简洁的方法，搜索的时候在一个 YouTube 视频看到的。

将电脑梯子设置为局域网可访问。

允许局域网连接。
使用 ifconfig 或者梯子控制台界面找到电脑的 ip 和端口。

查看并记住你的本机地址。

查看并记住代理端口。
在 SmartTube 上，在左侧选择 设置 ➡️ 一般 ➡️ 互联网审查 ➡️ 使用网页代理，根据提示填入刚才的 ip 和端口即可，代理类型选择 HTTP，测试一下，两个都 OK 就表示成功连接了代理。

设置让 SmartTube 使用网页代理。

填入 ip 和端口。
确定退出回到首页，就可以看到能成功加载了。登录账号啥的和方法 1 相同，也可以选择清晰度和字幕，和电脑上几乎一样，非常方便。

首页成功加载。

通过以上两种方法，你就可以方便地在小米电视上观看 YouTube，享受大屏幕带来的视觉效果啦～

END

批量导出 QQ 邮箱邮件

2023-05-26T01:21:00.000Z

问题

我想导出我的 QQ 邮箱中某个文件夹下的所有文件，eml 或者 mbox 格式都行，但是我发现 QQ 邮箱网页端没这个功能，只能一封一封导出为 eml。QQ 邮箱也没有 Mac 或者 windows 客户端。然后我尝试用 Mac 自带邮件客户端、foxmail、outlook、thunderbird 客户端来导出，结果发现都存在一个问题：邮件不完整，似乎只能显示近一个月内的邮件。我怀疑是这些客户端的设置没弄好，但找了一圈发现没有相关设置。

解决方法

后来我再去查看 QQ 邮箱网页端的设置时发现，有个「收取选项」设置，默认为「最近 30 天」。这下就破案了，只需改为全部即可，然后在客户端刷新或重新添加账户。

修改「收取选项」为「最近 30 天」

如果你想导出 QQ 邮箱中某个文件夹下的所有文件，可以尝试这个方法：

在 QQ 邮箱网页端将「收取选项」设置为「全部」；
在你的电脑上下载一个支持导出邮件的客户端，例如 Mac 自带邮件客户端、foxmail、outlook、thunderbird 客户端等；
在客户端中添加 QQ 邮箱账户，并选择要导出的文件夹；
根据客户端的要求导出即可。

eml 和 mbox 格式

eml 格式是一种用于存储电子邮件的文件格式，其英文全称为 “email message format”。一个 eml 文件通常包括邮件的头部信息和正文内容，可以使用邮件客户端或者文本编辑器打开。下面是一个 eml 文件的简单示例：

From: [sender@example.com](mailto:sender@example.com)
To: [recipient@example.com](mailto:recipient@example.com)
Subject: This is a test email

This is the body of the email.

在 Python 中读取一个 eml 文件，可以使用 Python 内置的 email 模块。下面是一个读取 eml 文件并打印邮件头部和正文内容的 demo 代码：

import email

with open('example.eml', 'rb') as fp:
    msg = email.message_from_binary_file(fp)

print('From:', msg['From'])
print('To:', msg['To'])
print('Subject:', msg['Subject'])
print('Body:', msg.get_payload())

mbox 格式是另一种常见的存储邮件的文件格式，其英文全称为 “mailbox format”。一个 mbox 文件通常包括多个邮件，每个邮件之间用一个特殊的分隔符隔开，可以使用邮件客户端或者文本编辑器打开。下面是一个 mbox 文件的简单示例：

From sender@example.com Wed May 18 13:48:45 2022
Return-Path: 
X-Spam-Checker-Version: SpamAssassin 3.4.2 (2018-09-13) on example.com
...
This is the body of the email.

From recipient@example.com Wed May 18 14:03:10 2022
Return-Path: 
X-Spam-Checker-Version: SpamAssassin 3.4.2 (2018-09-13) on example.com
...
This is another email.

在 Python 中读取一个 mbox 文件，可以使用 Python 内置的 mailbox 模块。下面是一个读取 mbox 文件并打印每个邮件的头部和正文内容的 demo 代码：

import mailbox

mbox = mailbox.mbox('example.mbox')

for msg in mbox:
    print('From:', msg['From'])
    print('To:', msg['To'])
    print('Subject:', msg['Subject'])
    print('Body:', msg.get_payload())

END

2023 五一北京周边行 3/3 —— 北京野生动物园

2023-05-17T09:15:00.000Z

前言

由于图片较多，所以将分三篇文章发出。本文是第三篇。其他两篇见第一篇和第二篇。

见第一篇前言。

北京野生动物园

北野也是一个很久之前就在收藏夹里的地方。北京有两个野生动物园，之前我还有点分不清，现在终于搞清了，一个是八达岭野生动物园，一个就是位于大兴的北京野生动物园。前者就是发生了私自下车导致被老虎拖走事件的动物园。

经过在小红书上一段时间的有针对性的冲浪，发现大家去那主要奔着两个地方：猛兽区和小火车。两者都是有优速通的，不买的话旺季（周末节假日）可能要排队几个小时，最夸张的是有个人说活排了 6 个小时……

我们这次主要奔着猛兽区，剩余的地方随便闲逛。我们早上 5 点起床，6 点出发，7 点 10 分左右到达北区停车场，南区似乎已经满了。不过南北区距离大门口都差不多。7 点 45 进入大门。

北野临时停车场之一。在快到北野的时候，路上有好几个这种牌子，应该是南区北区停满之后就要往这里引导了。之前看公众号上说南区北区 + 临时停车场总共有大概 8000 左右车位，可太夸张了。

排队安检。注意抖音买的票需要换票，携程等买的不需要。

大门。

接下来就是直冲猛兽区了。先说下排队盛况，排队确实是无限回形针。先是木栈道排队，然后进入蓝房子（河马馆），此处大概要拐六七道。然后通过一个羊肠小道进入一个大型回形针区域，此处大概要拐十几道。然后进入最后一个区域，此时需要存车了，到这就快了，同样是回形针区域，慢慢排就是了，上面屏幕上可能会写“此处排队时间 60 分钟”之类的的话，这个预估似乎偏大。

木栈道排队。

河马馆排队。里面真的有河马，所以味道很冲。

曙光。到这里就快了，准备好钱买肉吧！

笼车和肉。一杯 50，包括牛肉和鸡肉。9 点 40 左右坐上车，排队一个小时四十分钟左右。

网上总有人说坐哪边猛兽多之类的，但左右都差不多，棕熊区右边看到的是湖水，左边是瀑布。其他动物左右均有，司机也会提醒动物在哪一边。你也可以站起来去有动物的一边拍照喂食。司机也会讲解提醒哪个动物喜欢吃什么肉。

棕熊区。就是围着这个小池子转，每辆车都会在图中蓝色和粉色车子那里停，大概得个十几分钟。水里陆地都有棕熊。有电网限制它们的活动区域。

棕熊。棕熊是主要的食物消耗者，有的棕熊只吃牛肉，不吃鸡肉。司机会建议你能喂多喂，到后面你可能肉都抛不出去了。

棕熊信步。从后门拍摄。

水虎。非常幸运，这只老虎最后从水里出来找我们要肉了。

白虎。由于其毛色在野外太扎眼，据说已经没有野生白虎了。

夹着尾巴跑的狼。

工作车。这车是早晚用来释放和回收动物的。那它现在怎么停在这？据司机说，可能是因为这些狼之前在打架，他们害怕这些车，也就是在它们眼里这个车就是狼王，狼王一来都不敢动了，起一个震慑作用。

黑熊。

狮子。

唯一在动的猎豹。

然后就从猛兽区出来了。出来后有个餐厅，里面是只能在他们那买东西之后才能坐，外面是都可以坐。

未知蓝房子。似乎是一个剧场，很多人在这里拍照，容易出片。

犀鸟。在这个屋里扑棱扑棱从这头飞到那头，有点怕扑棱到自己哈哈哈。

惠风和畅。

怡然自乐。这两张图让我想起了日本那个景点，也是两边都是这种红色柱子。

奇妙旅程票价。

犀牛。

大象喂食。每人 30，旁边的那个细白线是电网。

长颈鹿。喂食价格同上。

小熊猫馆。人很多，要来的话趁早。

顺便说几个关于熊猫的冷知识：

小熊猫和大熊猫没有关系。
小熊猫比大熊猫更为“濒危”。
panda 最初指小熊猫，而大熊猫叫 giant panda 。
bearcat 指另一个物种熊狸。
猫熊比大熊猫更准确。

树人。门口有很多“参天大树”。

有趣的狐獴。

说个题外话，Mac 自带输入法似乎打不出「獴」字。

有趣的狐獴 2。

北线游览区结束点。

霸王龙与火烈鸟。火烈鸟真的很好看，强烈推荐，北京动物园里有个火烈鸟展区，超漂亮！

水乡。

全程轨迹图。海拔在 20 米左右（忽略后面那段）。

END

2023 五一北京周边行 2/3 —— 野鸭湖国家湿地公园

2023-05-17T08:47:00.000Z

前言

由于图片较多，所以将分三篇文章发出。本文是第二篇。其他两篇见第一篇和第三篇。

见第一篇前言。

野鸭湖国家湿地公园

野鸭湖在北京的西北方向，金海湖则是东北方向。根据维基百科的介绍：

野鸭湖国家湿地公园位于北京市延庆区西南部的延庆镇、康庄镇)、张山营镇和延庆农场交界处，总面积283.4公顷，具有水库、河流、沼泽、季节性泛滥地等多种湿地类型，是北京地区湿地面积最大的湿地生态系统和北京唯一一家国家级湿地公园。

前面提到这一天本来不是去这里的，而是去北野，但可惜没抢到这一天的优速通（实测也没必要抢优速通，下面再说）。这个地方也是之前在小红书种草的，后来查了查感觉也还可以（主观感觉因人而异），而且门票也不算贵，正好还有个亲鹿苑，可以零距离喂小鹿🦌，所以就去了这里。

小红书上提到这里，基本就是一个瞭望塔的图，很多人说这里上不去了，也就没去的必要了。但是出来就是来溜溜的，上不上去的无所谓。

从停车场走向景区。景区大门还在前面一点，这个区域挺空旷的，出来的时候风巨大，很多人帽子都吹掉了。两边是鸟类的装饰。我们到这里大概是 9 点，没想到一个区域的停车场就已经停满了，本来以为应该没这么多人，大家到得都挺早的。

景区大门。

景区大门前的小路。这条小路两边的树长得很好，路上全是阴凉地。

门口的“氛围组”。正巧遇到他们在门口，他们应该是为门口剧场的表演宣传的，同时增加一些游园乐趣。后面在景区里也看到了他们，沿着湖边走。话说最近这小青蛙挺火的啊。

亲水平台上的表演。在原来氛围组的基础上又加了一些演员，这些演员应该就是剧场演出的演员。挺辛苦的，大太阳下晒着没有一点遮挡，大部分是女生。表演是 10 点半有一场，他们在正式表演前给大家来了个“预告片”。主持人一直说大家尤其是带着孩子的可以上去和演员们一起唱跳 rap（bushi），一起互动拍照，说白了就是气氛搞起来！

演员与小鸭。后来发现，这群鸭子应该是我在景区里见过最多的鸭子了，好像不太对得起野鸭湖这个名字……

巡游中的氛围组。呼应前文……

亲鹿苑大门。30 一位，实际上就是喂食包的钱，里面是萝卜和白菜。

小明星。这只带犄角的小鹿算是里面的小明星了，大家都爱喂它吃，因为它有犄角？

山桥水。这个桥似乎是通往一个小岛，岛上有烽火台遗址和船台（坐船的地方？）。

来张广角的。景区里有大量芦苇。

芦苇。附近蛙声一片。

景区全景图。可以看到基本上就是围着湖转一圈，可以租赁电瓶车或者自行车。前文提到的瞭望塔就在左上角。

木栈道。湖边基本上都有这种木栈道，不过天热的时候可太晒了，飞虫应该也多。

风车 1。这里应该是官厅水库区域，牌子上写的是康西草原，没开放不让进，但是我看里面有玩车的。

风车 2。这一片都是风车。

瞭望塔。这个就是传说中的瞭望塔，距离我这拍摄地还有好远一段距离，也是没开放的。

广角湖面。这小米 11 ultra 的相机滤镜可太强了，关掉滤镜还是这样，饱和度过高，颜色严重失真。

一张特写的飞机云。恰巧那天碰见了，在蓝天的衬托下显得格外漂亮，我的最爱。

瞭望塔近景。

官厅水库。现在看到的这片水域应该就是官厅水库了。照片同样由我们夸张的小米 11 ultra 贡献。

湖中间的木栈道。这一条长长的木栈道位于湖中间，可以直接从半路穿湖到达对面亲水平台和门口。这条栈道感觉有点年久失修，有些地方翘起来挺危险的，没有任何护栏。走在上面风贼大。

结束。这纯走一圈还真挺累的。

全程轨迹图。海拔明显高了，大概在 480 米左右。

END

2023 五一北京周边行 1/3 —— 北京金海湖风景区

2023-05-17T05:34:00.000Z

前言

由于图片较多，所以将分三篇文章发出。本文是第一篇。其他两篇见第二篇和第三篇。

今年五一是疫情放开后第一个较长的适合出去旅游的节假日，五天的假期相信很多人都会出去走一周，释放一下被三年疫情憋坏的心情。我们也不例外，不过我们出去主要的动机是带着孩子出去走走，而不是疫情原因。

放假前就看到很多假期人会很多的新闻，比如北京交通委说预计五一假期北京出行规模将超 2023 年春运，同时也超过 2019 年同期水平，说明已经基本恢复到疫情前水平了。小红书等平台上那些景区游客爆满的新闻也比比皆是。

所以我们决定不走这些类型的景点：

热门
外地游客常去
公共交通方便
市区
需要爬山的

当然有些要求是 soft 的，不那么死，视情况而定。为了避免假期第一天和最后一天的“盛况”，我们也决定这两天待在家里休整，中间三天出去。

这么筛选下来，基本就是北京周边三日亲子游了，这些地方外地游客一般不会去，人应该相对较少。所以做了一番调研后，初选出以下景点：

4 月 30 号，北京金海湖风景区
5 月 1 号，北京野生动物园
5 月 2 号，天津东疆亲海公园

但是北野人肯定会很多，所以我们计划抢猛兽区优速通。但是我半夜 12 点没抢到，感觉不到 10 秒就没了，太夸张了。遂第二天半夜 12 点继续抢 2 号的，这次多叫了几个人，虽然抢到了，但是是中午 12 点的。这个点动物们都基本上吃饱睡觉午休了，所以点不太好，所以我们打算那天去早点，然后排队看看情况。

所以最终行程变为了：

4 月 30 号，北京金海湖风景区
5 月 1 号，野鸭湖国家湿地公园
5 月 2 号，北京野生动物园

我先说下这几天的总花费，四大一小，租车 + 油费 + 门票 + 吃喝 + 其他费用，无住宿，大约 300 元/人/天（不算一小）。

接下来谈一谈对这几个景点的感受。

北京金海湖风景区

先来一段百度百科的介绍：

金海湖风景区，又称海子水库，位于北京市平谷区城东18千米处金海湖镇上宅村南，距北京85千米，位于北京、天津、唐山交界处的三角地带，素有”小北戴河”之称。据平谷区志记载，在清康熙十八年（1679年），平谷、三河发生了一次大地震，从而形成了河峡谷。1959年，初建。1985年，金海湖水库辟为旅游区，称金海湖公园。1988年，更为金海湖风景区。金海湖风景区总面积22平方千米，其中建筑面积0.8平方千米，水域面积6.5平方千米。金海湖风景区西依金海湖大坝，三面环水，三面青山环绕，四面飞檐明柱，有千岛湖的湖观山色，湖光塔、金花公主墓、望海亭、锯齿崖等自然景观、人文景观数十处。有游船、快艇、帆船、脚踏船、电瓶船、赛龙舟等娱乐项目。

之前在社交平台上听说过好几次这里了，一直想去看看，但是鉴于太远就没去，但这次正好符合我们的要求。实际上去之前我也不太清楚有啥可玩的，就知道有个毕加索坝体彩绘，还有大片水域，快艇帆船啥的。但是我们是带着孩子出行，对她来说，一切都是新鲜的。

为了避免堵车，我们早上 6 点左右起床，7 点出发，大约 9 点半到达。下面就跟着照片游览一下吧～

景区全景图。靠中间画着四个红色枫叶🍁的地方叫锯齿崖，著名景点，但是我们去的时候没开放。

坝体彩绘就是后面那个红色的斜坡，前面的这块大草坪是露营区域，收费，100 元/人。

景区里的一个小饭馆。

走上坝有两个选择：爬楼梯（路短省时间、费力）和坐扶梯（绕路、省力）。我们带着孩子而且第一次去就跟着人群走了，后来返回的时候才知道有爬楼梯这个选项。

扶梯上坝路线，坝的西面（左）就是彩绘。

上坝之后向西看。

上坝之后向东看，左上方是蹦极的，那天还真见到有人玩。照片是 Google 相册自动风格化后的。

蹦极跳完后，绳子会慢慢放下，把人放到这上面，那个戴帽子的会接游客下来。

顺着坝一直往前走，就到了金花公主墓：

金花公主墓。

站在去往金花公主墓的走廊上看金海湖大坝。

登上游船去往桃花岛。这是去桃花岛的唯一方式。还有一个碧波岛，打听了才知道从景区内过不去，得从景区外另一个门进去，但是票是一次性的……平常碧波岛应该是可以坐这个游船过去的。船票 130 每人，最后你网上订票的时候订游船 + 门票的联票，因为这个联票价格也是 130。在这里排队人很多，由于工作人员工作不到位（排队方式不清晰），导致我前面的游客还跟工作人员吵了一下。

到达桃花岛。这里露营似乎也是收费的。我看到一家人正在搭帐篷，然后走过来一个拿个牌子的工作人员跟其交谈，后来那家人就把帐篷收起来了。这个岛上除了大片草地，还有卖小吃的、小型动物园（鸵鸟、孔雀和兔子等）、小型游乐场。哦对了，这里的烤肠 5 元/根，而景区入口的 10 元。

金海湖帆船。价格和游船差不多，但是好像很少有人坐，大部分人坐游船，其次是快艇。

在坝上看景区入口那块露营地。

全程轨迹图。可以看到海拔不是很高，也就 100 米左右。

END

pandas 读取合并单元格并保留合并信息

2023-04-27T10:16:00.000Z

前言

当我们使用 pandas 的 read_excel 方法读取 Excel 文件时，我们可能会遇到一个很棘手的问题：如何正确读取包含合并单元格的 Excel 表格。如果我们只是用原先的 read_excel 方法读取，那么合并单元格的信息将会丢失，从而导致我们的数据出现重复或缺失的情况。我看了下网上的文章几乎都没有很好的解决办法，大部分都是用 fillna 之类的方法去填充，很明显这是不行的，下面我会举例说明。唯一看到一篇方向正确的文章，但是却稍显繁琐，还要先存一个中间文件再读取。

在本篇文章中，我们将会探讨如何使用 pandas 正确地读取包含合并单元格的 Excel 表格，简单高效全面，同时支持 xlsx 和旧格式 xls。

本篇文章使用两个内容相同、格式不同的文件来演示说明。内容截图如下：

样例文件

可以看到里面有纵向合并（一班、二班、三班），有横向合并（钱一的语文和数学），也有横纵合并（二班三班的语文数学）。

fillna 的问题

当我们直接使用 read_excel 读取时，会变成下面这个样子：

填充失败

可以看到合并单元格没有被正确填充，除了第一个单元格外其他都是 NaN ，而我们期望的是它们都用相同值填充。

当然我们可以使用 fillna 来实现，不过该方法只能是“具体情况具体分析”，横向、纵向、横纵合并单元格的情况都要根据情况用不同的 fill method，在这里我们至少需要分三种情况来进行处理，显得非常繁琐。一旦变了表格，你的代码就得变，普适性太差。

按理说，Excel 本身应该保留了合并单元格的信息，比如哪些单元格被合并了，它们的值是什么。应该存在一种工具可以读取出这种信息。

So，这就是 openpyxl 和 xlrd 派上用场的时候了。

Solution

pandas 内部实际上也是用的这两个包。根据官方文档：

enginestr, default None
If io is not a buffer or path, this must be set to identify io. Supported engines: “xlrd”, “openpyxl”, “odf”, “pyxlsb”. Engine compatibility :
• “xlrd” supports old-style Excel files (.xls).
• “openpyxl” supports newer Excel file formats.
• “odf” supports OpenDocument file formats (.odf, .ods, .odt).
• “pyxlsb” supports Binary Excel files.
Changed in version 1.2.0: The engine xlrd now only supports old-style .xls files. When engine=None, the following logic will be used to determine the engine:
• If path_or_buffer is an OpenDocument format (.odf, .ods, .odt), then odf will be used.
• Otherwise if path_or_buffer is an xls format, xlrd will be used.
• Otherwise if path_or_buffer is in xlsb format, pyxlsb will be used.
New in version 1.3.0.
• Otherwise openpyxl will be used.
Changed in version 1.3.0.

简单来说，默认情况下（engine=None）：

如果是 OpenDocument 格式的文件，那么使用 odf 解析。
如果是 xls 格式，那么使用 xlrd 解析。
如果是 xlsb 格式，那么使用 pyxlsb 解析。
其他格式都使用 openpyxl 解析。

原先这些包是可以读取合并单元格这种格式信息的（虽然文档很不完善），但是经过 pandas 后不知道怎么回事就没了。所以这里我们就显式地用这些包来读取和操作。

总体思路就是：

用相应的方法读取 Excel 文件，得到 workbook。
根据 sheet name 取 sheet。
解析这个 sheet，得到 dataframe。
获取合并单元格及值和范围。
根据范围，在 dataframe 中设置相应值。

完整代码如下：

import pandas as pd
from openpyxl import load_workbook
from xlrd import open_workbook

def read_xlsx(file, sheet_name=None, header=None):
    """读取 xlsx 格式文件。"""
    excel = pd.ExcelFile(load_workbook(file), engine="openpyxl")
    sheet_name = sheet_name or excel.sheet_names[0]
    sheet = excel.book[sheet_name]
    df = excel.parse(sheet_name, header=header)

    for item in sheet.merged_cells:
        top_col, top_row, bottom_col, bottom_row = item.bounds
        base_value = item.start_cell.value
        # 1-based index转为0-based index
        top_row -= 1
        top_col -= 1
        # 由于前面的几行被设为了header，所以这里要对坐标进行调整
        if header is not None:
            top_row -= header + 1
            bottom_row -= header + 1
        df.iloc[top_row:bottom_row, top_col:bottom_col] = base_value
    return df

def read_xls(file, sheet_name=None, header=None):
    """读取 xls 格式文件。"""
    excel = pd.ExcelFile(open_workbook(file, formatting_info=True), engine="xlrd")
    sheet_name = sheet_name or excel.sheet_names[0]
    sheet = excel.book[sheet_name]
    df = excel.parse(sheet_name, header=header)

    # 0-based index
    for top_row, bottom_row, top_col, bottom_col in sheet.merged_cells:
        base_value = sheet.cell_value(top_row, top_col)
        # 由于前面的几行被设为了header，所以这里要对坐标进行调整
        if header is not None:
            top_row -= header + 1
            bottom_row -= header + 1
        df.iloc[top_row:bottom_row, top_col:bottom_col] = base_value
    return df

我们再次用这两个函数读取一下示例文件：

读取 xlsx 格式文件。

读取 xls 格式文件。

可以看到 xlsx 和 xls 格式文件都能正确读取，同时支持指定 sheet name 和 header。

需要注意的问题

如果原先的合并单元格内容为空，那么 openpyxl 的结果会是 None ，而 xlrd 仍然是空字符串。
openpyxl 的 merged_cells 方法似乎在文档中并未出现，忘记了在哪看到的这个方法。

Reference

API Reference — xlrd 2.0.1 documentation

END

tqdm+requests：显示下载速度

2023-04-09T03:57:00.000Z

Introduction

在进行大规模数据爬取和下载时，经常需要下载大文件，这时候就需要一个可以显示下载进度和速度的工具，以便于我们能够更好地掌控下载的情况，同时也可以避免下载过程中出现问题导致浪费时间和流量。

因此，我们需要一个可以显示下载进度和速度的工具，以便于我们更好地掌控下载的情况，避免浪费时间和流量。

本文将介绍在 Python 中如何使用 tqdm 和 requests 来实现下载进度和速度的显示。

How

要使用 tqdm 和 requests 来显示下载进度和速度，我们需要先安装 tqdm 和 requests 模块。安装方法如下（如已安装请跳过）：

1	pip install tqdm requests

安装完成后，我们可以使用以下代码来下载文件并显示下载进度和速度：

from pathlib import Path

import requests
from tqdm import tqdm

def download(url, folder="./", headers=None) -> str:
    """下载文件并显示进度和速度。"""
    Path(folder).mkdir(exist_ok=True, parents=True)
    local_filepath = Path(folder) / url.split("/")[-1]
    headers = headers or {
        "user-agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/111.0.0.0 Safari/537.36"
    }
    with requests.get(url, stream=True, headers=headers) as r:
        r.raise_for_status()
        size = int(r.headers["Content-Length"])
        chunk_size = 8192
        # 重点。
        with tqdm(
            unit="B",            # 1
            unit_scale=True,     # 2
            unit_divisor=1024,   # 3
            miniters=1,          # 4
            desc=f"Downloading {local_filepath.name}",  # 5
            total=size,          # 6
        ) as pbar:
            with open(local_filepath, "wb") as f:
                for chunk in r.iter_content(chunk_size=chunk_size):
                    f.write(chunk)
                    pbar.update(len(chunk))  # 7

    return local_filepath

这段代码的核心是 tqdm，我们使用 tqdm 来创建进度条，然后在循环中更新进度条，实现了下载进度和速度的显示。详细解释如下：

unit="B"：将进度条的单位设置为字节。
unit_scale=True：开启自动缩放功能，根据文件大小自动转换为 KB、MB、GB 等单位，默认是用 SI 公制单位（即 1000 进制），如果想使用二进制单位，则可以指定下面的 unit_divisor 。
unit_divisor=1024：设置单位缩放的除数为1024，即二进制单位。
miniters=1：设置进度条更新的最小步数。对于小文件，进度条可能会更新得太频繁，这个参数可以控制更新频率。
desc="Downloading"：设置进度条的描述。
total=size：设置要下载的文件的总大小，这个值从HTTP响应的 Content-Length 头部获取。
pbar.update(len(chunk))：更新进度条，显示已下载的数据大小。len(chunk)表示当前下载的数据块大小（单位为字节）。

效果如下：

效果图。

Alternative

又是设置一堆 tqdm 参数又是需要在循环中增加 update 语句，可能有些人会觉得稍显麻烦，有点侵入性，那我这里有一个不那么麻烦的的近似方法：

def download(url, folder) -> str:
    """一个近似方法。"""
    Path(folder).mkdir(exist_ok=True, parents=True)
    local_filepath = Path(folder) / url.split("/")[-1]
    if local_filepath.exists():
        logger.warning(f"{local_filepath} exists, skip.")
        return local_filepath
    with requests.get(url, stream=True, headers=headers) as r:
        r.raise_for_status()
        size = int(r.headers["Content-Length"])
        chunk_size = 8192
        # 重点。
        n_chunks = (size + chunk_size - 1) // chunk_size
        with open(local_filepath, "wb") as f:
            for chunk in tqdm(
                r.iter_content(chunk_size=chunk_size),
                total=n_chunks,                # 1
                unit="KB",                     # 2
                unit_scale=chunk_size / 1024,  # 3
            ):
                f.write(chunk)
    return local_filepath

这个程序只需要在原来的 r.iter_content() 外像平常一样包一层 tqdm，然后设置较少的参数即可，省掉了一些参数和 update 语句：

total=n_chunks：由于我们是分块下载的，一个很明显的思路是 total 我们只需要设置为总的块数即可，和深度学习中的 batch 类似。
unit="KB"：这里我们门强制让其使用 KB 为单位，而不是自动转换。
unit_scale=chunk_size / 1024 ：由于 total 设置的是块的数量，默认速度就会显示每秒多少个块，但是我们想让其显示每秒多少 B 或者 KB 之类的，这里我们就用这个参数来让块数 ⨉ 块大小得出来 B 数，然后再除以 1024 的到 KB 数。如果你想得到 MB 数，只需再除以 1024，并设置 unit="MB"即可。

为什么说这是“近似”做法呢？这是因为我们 unit_scale 直接乘的是块大小，然而每次得到的数据量并不一定是块大小这么大，最后一个块可能会偏小。道理很简单，把 10 按块大小为 3 拆分，最后一个块大小为 1。但是由于我们的块大小不会太大，这个影响微乎其微。

Thoughts

进度和速度显示可能是很多程序员忽略的一个问题，但是我觉得非常重要，可以说 you always need ETA(tqdm)。但是在使用的时候要注意刚开始的速度可能并不准确，尤其是任务队列中的处理时间不尽相同时。

Reference

END

为什么我的 client CPU 和 server GPU 都很闲？

2023-01-13T09:32:00.000Z

问题

前段时间我在跑数据批处理任务时，发生了一件怪事：client 部署在 CPU 服务器上，server 部署在 GPU 服务器上（模型），client 处理过程中会向 server 发请求。执行了一段时间后通过监控发现，client 这边的 CPU 和 server 这边的 GPU 利用率都不满，client 那边几乎可以忽略不计，server 那边只有 40% 左右。这是为什么？谁在消耗时间？正常情况下 server 应该是满的。

尝试和解决

先来大致说下数据批处理流程。流程分为两部分：client 和 server。client 主要负责整个数据处理流程，其中包括向多个模型服务发起请求，不涉及 GPU，部署在 CPU 服务器上。server 就是模型服务，部署在 GPU 服务器上，负责 load 模型和 inference。开始处理的时候，会临时起多台 GPU server，然后上面加一层负载，client 就用这个负载地址来请求 server。

那天在启动任务开始处理的时候，已经有其他任务在用 server 了，而且是同一个负载地址。我们在启动这个新任务的时候，为了满足计算需求，直接往这个负载下加了 10 台 GPU server。然后启动 client，任务开始。

启动后 client 的情况：

启动后的 client htop。

server 情况：

启动后的 server GPU 利用率。

server 这边显示的是所有服务器的 GPU 的情况，包括旧任务的，而且此时旧任务还没有完成。但是新任务一开始基本就出现了利用率的下降，请求量也出现了下滑（但是没有利用率那么明显）：

负载请求量。

从日志中可以看到旧任务一些进程已经结束了，但是也不至于出现这么大的波动。这就很奇怪了，为什么新任务一开始 server 那边就打不满了呢，按理说应该更满才对，而且请求量也没上去，反而跌了。

我先是用 py-spy 检查了其中一个进程到底在干什么，这个工具的一个重要功能就是可以检查处于运行状态下的进程在干什么。结果如下：

py-spy 结果。

可以看到，时间基本都消耗在了网络相关函数上，比如 readinto (sockent.py) 、send (requests/sessions.py) 、urlopen (urllib3/connectionpool.py) 、begin (http/client.py) 和 _make_request (urllib3/connectionpool.py) 。很明显，问题出在网络上。正常情况 BeautifulSoup 相关操作应该占比较大一部分。

运维测试了下网络，延迟很低，网络很通畅……

然后我在监控中看到 server 镜像版本是旧的，而且这个旧镜像是有问题的，根本启动不起来。从监控中也可以看到这几台 server 利用率一直是 0，也就是说根本没收到请求。如果 server 没起来，那么负载应该是不能连接的，但我在 client 这边并没看到负载连接失败的报错，而且我在 client 程序最前面加了一个负载连接测试，不通过会直接 raise error，程序就会退出，而现在程序是正常运行的。这是为什么呢？还记得前面说过这个负载是和旧任务共用的吗，问题就在这里，这里实际上用的还是旧任务的 server，所以不会出现连接错误。

把这个问题解决了后，问题依旧，server GPU 利用率稍微降低了些，但波动很小：

解决 server 镜像问题后的 GPU 利用率。

尽管大家觉得还是很离奇，但是当时时间很晚了，大家建议尝试增加 client 这边的并行核数（joblib 的 n_cores），毕竟 client 这边不满 server 也不满的另一个可能的原因是并发不够，同时打出去的请求不够多。

后来的小时测试发现速度增加了 5 万/小时，但是不知道这是谁的功劳，或者说这个速度是不是存在水分都不一定，因为我不是特别确定之前的速度。由于时间很晚了，这件事暂且告一段落了。

后来同事向我反馈线上 api 总是超时，之前不会。我进去看了下日志发现是有个子任务超时了，进一步发现 dev 服务器上的 GPU 特别满，按理说应该不可能，请求的人没那么多。这时我突然想到，为了方便在负载地址和 dev 地址之间切换，我在配置文件里区分了 prd 和 dev，批处理数据时需要先用如下语句来初始化配置：

1	config = Config('prd') # or 'dev'

这个语句在两个程序中会出现，我突然想到我在其中一个程序中似乎还是用的 dev ，有可能会导致批处理用了 dev 服务器上的模型服务。进去一看，果然！

这就解释了为什么 client 和 server 都很闲：

client 很闲是因为 dev 服务器忙不过来，瓶颈在 GPU 这边，即使增加 client 核数也没用；
server 也不忙是因为一部分请求根本没发到负载。

但是为什么 server GPU 利用率下降了那么多，只能用旧任务一些进程结束来解释了，当然负载可能也存在问题（后来决定按照任务来生成不同的负载地址，做一下隔离，能避免如服务器没起来但负载仍可以连接的情况，也可以更好地看到不同任务地情况）。

改成 prd 后 client 这边 CPU 正常了：

修正后的 client htop 结果。

总结

经过这件事，意识到几点：

特别注意配置文件中的配置项是否正确。
配置尽量初始化一次，然后全局使用。
Profiling 工具很重要，尤其是能 profile running program 的。
尝试了很多种方法后仍然不能解决问题，卡住了，先放一放。
Be patient。

END

NuPhy Air75 矮轴键盘体验

2022-12-27T03:32:00.000Z

我不是一个键盘专家之类的，所以文中有些表述可能有误，欢迎指正。

开箱

被这个 nuphy air75 种草过很多次，最近又被种草了，结合最近实际及家人的支持（说是新年礼物），就在京东上和键盘皮套一起下单了。第二天就送到了，鉴于当前疫情形势，这么快的速度送到令我惊讶，尤其是和我 20 天前买的东西一起送到……

到手之后外包装是一个什么食物的箱子，具体什么我忘了，但是上面写着易碎物品，一瞬间我还以为买的其他东西到了。打开之后就是空气袋和键盘、皮套的盒子了。我不是一个二次元爱好者，所以这键盘盒的包装对我来说不是惊喜，而是有点惊吓……

键盘盒包装

把里面的包装盒抽出来，黑色主体、绿黄橙点缀，看起来挺大气：

里面的包装盒

包装盒里面是绿为主体，和键盘的 ESC 键的绿相呼应，还挺特别。

包装盒里面

里面的东西如下：

包装清单

我目前用到的除了键盘，还有就是键帽拉拔器（键盘默认是 Mac 键帽，需要替换成 Windows 键帽，不过有意思的是，默认模式却是 Win）、磁性脚垫（实际感觉垫高有限）、说明书（各种快捷键真的多），USB 线是用来有线连接、充电时使用，如果使用 nupyh console，似乎也必须有线连接，这东西主要是用来重新指派键及自定义灯光。电量显示用右侧测光灯的不同颜色来表示，刚拿到手时我看了下电量（Windows + |）还是绿的，表明电量 > 80%，用了一两天变成橙色了（20%~80%）。

话不多说，来说说优缺点。

Pros & Cons

Pros：

颜值高。这是最吸引我的点。我原来用的是 ikbc F87 红轴，当然不是说原来的丑（丑我也不会买啊……），原来的简洁大方，现在的活力多彩，不捧一踩一，只是视觉上习惯了。

ikbc F87 与 NuPhy Air75 对比。Source：自己做的。
矮轴。但导致我下定决心换一个的重要因素，就是现在这个是矮轴，就是说键程短。我用 F87 用久了觉得，键程太长了，久了手累，想要普通键盘那种短键程 + 机械键盘的手感。Air75 完美符合，打起来轻松多了，不用再多敲“深”一点了，而且手感也好很多。
声音小。前面说了我原来是红轴，现在这个是茶轴。买之前我在网上查了下区别，说主要是茶轴比红轴有段落感。也听了下声音，感觉上差别不是很大。鉴于我已经用过红轴了，就买了茶轴的。但实际到手用了之后发现，声音差别可太大了，茶轴的明显声音更为沉闷，更小，听起来更舒适更有感觉。
小，轻。小不用说了，ikbc F87 是 87 键，air75 是 84 键，而且取消了那些不同功能区的间隔。轻很明显，拿起来感觉上轻一半，查了下具体数据，前者重 1100 克，后者 523 克，果然两倍。
有线、无线、蓝牙三种连接方式。
双侧侧光灯。由于键盘背光偏弱，白天正常环境亮度下几乎感觉不到背光，但是这两侧的流光灯很亮，但也不至于太过于刺眼，挺有感觉的。除了装饰，主要是用来指示状态，比如大写锁定（左侧）、电量显示（右侧）、连接状态（左侧）等。
字体粗大舒适。字体明显要比 F87 粗大，尤其是主键盘区，粗得很明显，而且字体也合我口味。
皮套漂亮……这个属于是败家的，花瓶。

Cons：

键帽不透光。这就导致很黑的环境中你可能真的就是盲打了，不过这种情况比较少，几乎不会在很黑的环境中用电脑，不然屏幕多刺眼。

我这是有一点环境光，很黑的环境中字几乎看不到。
背光偏弱。无论是相比于 F87 还是直观感受，背光确实偏弱，尤其是白天几乎看不到，即使调到最大亮度（从关闭到最亮共 5 档，按 Fn + ↑/↓ 调节）。
没有 Insert 键。Xshell 默认是 Shift + Insert 粘贴（也可以鼠标中键，但是不习惯），但是发现那边被一个 cat 键占据了，这个键是用来唤醒语音助手的，不过基本用不到，可以在 nuphy console 上重新指派为 Insert 键（目前来说不建议重新指派，见下）。

重新指派 cat 键为 Insert 键的问题

默认 cat 键用于唤醒语音助手，不过基本用不到，又缺少一个 Insert 键，所以自然而然会想将其重新指派为 Insert 键。

但是你重新指派后就会发现，F 功能键变为纯多媒体键了，例如 F1/F2 只能用来控制亮度，F2 不再能重命名，失去了原有功能。下面的操作都解决不了问题：

加上 Fn；
使用 Fn + TAB + F 来切换功能键模式；
在 console 中恢复出厂设置；
重启电脑。

其实这是一个 known issue，可以在 nuphy console v1.0.2 的 CHANGELOG 中看到，同时在官方 discord 中也看到了相关回复，说等 v1.0.2 发布就可以了，但没说啥时候发布。

最终我在 discord 中看到一个人的回复说可以尝试长按 Fn + TAB + R 来 reset。我尝试之后发现确实可以，解决办法如下：

长按 Fn + TAB + R 重置键盘（ console 上的恢复出厂设置没用）直到键盘背光灯闪烁，此时双侧侧光灯变蓝，随后左侧侧光灯蓝灯闪烁（表示等待蓝牙连接），此时你的电脑右下角应该就会弹出通知让你连接键盘，连接即可。

键盘连接通知

Final Thoughts

总之对这次决定下单购买还是不后悔的，目前用起来很满意，最满意的三点：矮轴，声音，手感。想换键盘的可以试试。不过在 console v1.0.2 发布之前，还是建议不要重新指派 F row key。

End

深度学习环境创建指南

2022-12-04T04:15:00.000Z

前言

作为机器学习从业者，我们需要一些 package 来辅助我们的工作。很多人也说现在干机器学习都是调包侠，我不是很赞同这种说法，技术越来越进步，进步的意义就在于越来越便捷，越来越 user-friendly，或者说高层，就像汽车一样。

越来越便捷就可以把宝贵时间留给更有意义的工作，比如数据处理和模型设计。而且可以降低入行门槛，一个行业如果从业者人数太少也不利于行业发展，参考之前传统武术独门绝技啥的传男不传女的规定。另一方面，调包是必要的，但如果你知其然且知其所以然，那更有利于你的工作，特别是 debug 的时候。

包括在 package 的安装方面，现在也是越来越方便，比刚出来的时候方便多了，像 TensorFlow 的安装都还需要专门写一篇文章来讲，我现在 CSDN 上访问量最高的文章就是在 Windows 上安装 TensorFlow 的文章，实在是有点意外。

而本文叫深度学习环境创建指南而不是机器学习环境创建指南，主要是为了强调深度学习相关工具的安装。

安装

为了避免重复劳动，后续可以快速创建环境，以及给有需要的人作参考，本文基于我的工作经历，记录一下 Windows 10 下一个基础深度学习环境的安装，主要包括 PyTorch 和 TensorFlow，其他 package 想起来再加。

1. 创建并激活 conda 环境

1 2	conda create -n dl python=3.9 conda activate dl

2. PyTorch

1	conda install pytorch torchvision torchaudio pytorch-cuda=11.6 -c pytorch -c nvidia

测试：

>>> import torch
>>> torch.__version__
'1.13.0'
>>> torch.version.cuda
'11.6'
>>> torch.cuda.is_available()
True
>>> torch.cuda.device_count()
1
>>> torch.cuda.get_device_name()
'GeForce GTX 1060'

3. TensorFlow

根据 TensorFlow 官网说明，TensorFlow 2.10 是最后一个在原生 Windows 上支持 GPU 的版本。从 2.11 开始，如果你需要在 Windows 上使用 GPU 版 TensorFlow，就必须得在 WSL 中安装了。

# 我系统上之前似乎已经安装了cuda 11.2，所以这里我就直接安装了。
# 如果你系统上没有cuda，那么可以先用conda安装cudatoolkit，然后再用pip安装TensorFlow；
# 详细参考官方教程（注意切成英文版）：https://www.tensorflow.org/install/gpu#windows_setup
pip install tensorflow-gpu

测试：

>>> import tensorflow as tf
>>> tf.__version__
'2.10.1'
>>> tf.test.is_built_with_cuda()
True
>>> tf.test.gpu_device_name()
2022-12-04 11:49:37.252105: I tensorflow/core/platform/cpu_feature_guard.cc:193] This TensorFlow binary is optimized with oneAPI Deep Neural Network Library (oneDNN) to use the following CPU instructions in performance-critical operations:  AVX AVX2
To enable them in other operations, rebuild TensorFlow with the appropriate compiler flags.
2022-12-04 11:49:38.082555: I tensorflow/core/common_runtime/gpu/gpu_device.cc:1616] Created device /device:GPU:0 with 4632 MB memory:  -> device: 0, name: GeForce GTX 1060, pci bus id: 0000:01:00.0, compute capability: 6.1
'/device:GPU:0'
>>> tf.sysconfig.get_build_info()
OrderedDict([('cpu_compiler',
                'C:/Program Files (x86)/Microsoft Visual Studio/2019/Community/VC/Tools/MSVC/14.29.30133/bin/HostX64/x64/cl.exe'),
                ('cuda_compute_capabilities',
                ['sm_35', 'sm_50', 'sm_60', 'sm_70', 'sm_75', 'compute_80']),
                ('cuda_version', '64_112'),
                ('cudart_dll_name', 'cudart64_112.dll'),
                ('cudnn_dll_name', 'cudnn64_8.dll'),
                ('cudnn_version', '64_8'),
                ('is_cuda_build', True),
                ('is_rocm_build', False),
                ('is_tensorrt_build', False),
                ('msvcp_dll_names', 'msvcp140.dll,msvcp140_1.dll'),
                ('nvcuda_dll_name', 'nvcuda.dll')])

4. 其他杂项

1	pip install notebook transformers datasets pandas jieba loguru

最后这个环境已经有 8.67 GB 了……

Reference

END

关于 C4 数据集

2022-08-22T13:04:19.000Z

参考 Documenting Large Webtext Corpora: A Case Study on the Colossal Clean Crawled Corpus。

从 365 百万 domain 中抓取，共计大约 1560 亿 token。
用来训练 T5 和 Switch Transformer。
Raffel et al. (2020) 提供了重新创建 C4 的脚本，但是运行这些脚本大概需要数千刀。
C4 是以 Common Crawl 2019 年 4 月的 snapshot 为基础创建的，使用了很多 filter 来过滤文本。
这些 filter 的作用包括：
1. 删除没有 terminal punctuation mark 的行。
2. 删除少于 3 个词的行。
3. 删除少于 5 个句子的文档。
4. 删除包含包含 Lorem ipsum 这种 placeholder 文本的文档。
5. 删除包含“List of Dirty, Naughty, Obscene, or Otherwise Bad Words”中任何单词的文档。
6. 删除非英文文档，非英文的标准是使用 langdetect 得到的英文概率小于 0.99，所以 C4 主要是英文文档。
应用了 filter 的数据集版本叫 C4.EN，没应用的叫 C4.EN.NOCLEAN，没有使用 blcoklist 的 C4.EN 叫 C4.EN.NOBLOCKLIST。三个版本的简单统计如下图，其中 token 数是用 spacy 的 English tokenizer 分词后统计的：
三个版本的 C4.EN 统计
来源网址中，按 TLD（top-level domains）统计，前三名是 .com、.org、.co.uk，其中 .gov 和 .mil 占比也不少，后者尽管不在 top25 中，但是也有 33 百万 token。
按网站统计，前三名是 patents.google.com、en.wikipedia.com、en.m.wikipedia.com。
按发表时间统计，92% 都发表在数据集收集前的一个十年中（2011-2019），分布是长尾分布 long-tailed，大部分都在数据收集前的 10-20 年间。这是从 C4.EN 中采样得来的，采样大小为 1 百万。发表时间是按照该网址被 Internet Archive 首次索引收录的时间算的，所以真实发表时间实际更早一点。
按地理位置统计，作者使用了一个 IP-country 数据库，从原始数据集中随机采样了一个大小为 17 万 5 千的样本集。前五名是美国（51.3%）、无法分辨、德国、英国和加拿大。中国排在第 18，香港排在第 16。值得注意的是，按人口算第 2、3、4 大说英语的国家——印度、巴基斯坦、尼日利亚、菲律宾，在数据集中占比只有美国的 3.4%、0.06%、0.03%、0.1%，尽管他们有数千万人说英语。
C4 包含大量机器生成的文本，machine-generated text，主要包括专利的机器翻译和 ocr 文本。前面说过，按网站统计 patents.google.com 排第一，这是专利网站，Google 会使用机器翻译模型翻译非英文专利，也会使用 ocr 将扫描文本识别出来。识别哪些文本是机器生成的也是一个活跃的研究领域。
C4 中存在 benchmark data contamination 现象，即下游任务的训练集或测试集出现在 C4 中，造成了数据污染。具体来说，分为两种情况：input-and-label contamination 和 input contamination。
一些 seq2seq 任务的 label 其实就是 input 中的文本，例如抽取式摘要，如果这种任务的 input 出现在了预训练数据集中，那么其 label 也相当于出现在了预训练数据集中，那么我们有理由认为模型实际上只是在背书而没有做真正的推理。作者分析了 3 个生成式任务的7个数据集，发现均有不同程度（1.87-24.88%）的污染，target 文本为单句的匹配率（完全匹配）要明显高于多句。
Input contamination 同样会对下游任务造成影响。作者发现有 2-50% 的 GLUE input 出现在 C4 中。对于分类任务来说，虽然不包含 label 的训练集出现在 C4 中并不影响最终性能，但是对 zero-shot 和 few-shot 来说，这仍然是一个值得慎重对待的问题。
C4 带有明显的种族偏见，“Jewish”更容易与积极情绪挂钩，而“Arab”更容易与消极情绪挂钩。
对被排掉的文档进行随机抽样，得到 10 万份文档，然后进行 k-means 聚类，k=50，使用 TF-IDF 进行 embedding，然后使用 PCA 进行降维可视化。但最终发现只有 16 个类，且三分之一的是性相关文档。
相比于种族，提及性取向的文档更有可能被排除，例如 lesbian 和 gay。这个结论是通过计算点互信息 PMI 得到的。
非裔美国英语 AAE 和西班牙裔美国英语 Hisp 更有可能被排除。
许多被排除的文档并不包含 offensive 和 sexual 内容。
97.8% 的 C4.EN 是白人英语 WAE，AAE 和 Hisp 分别只有 0.07% 和 0.09%。
在创建数据集的过程中，评估 bias 很重要。
在清洗 web-crawled 数据时，作者反对使用黑名单的方法来排除文档。
作者分析的是 C4.EN，所以本文结论可能并不适合其他语言。
GPT-3 的作者在训练完成之后，才发现存在 benchmark contamination。由于重新训练非常昂贵，他们没有重新训练，转而分析不同任务受到该现象的影响，发现确实会影响相关 benchmark 的性能。

Disqus 有评论但没显示的一种解决方案

2022-04-23T03:29:00.000Z

问题

前段时间将博客的主题从 hexo-theme-tranquilpeak 换到了 hexo-theme-archer，虽然一些功能上没有原主题好，比如侧边栏目录，但是新主题更为简洁清爽，自定义程度比较高，语法上也支持“扩展的” markdown 语法，比如支持如下 image 语法，居中显示，可显示注释：

1	{% image fancybox center /path/to/image "图片注释" %}

而且很重要一点，twitter 分享很友好，有预览：

Twitter 分享截图

但后来使用过程中发现，原来文章中的 disqus 评论不见了，但 disqus 评论框是能够正常加载的。而且在其他页面上是能够看到这些文章的评论数的，但是点进去却又显示不出来。

可以看到这些文章都是有评论的

但是点进去又看不到评论

而且在控制台可以看到有很多 disqus 相关链接的 404 报错。

解决

由于原主题上 disqus 是正常的，所以我去找了找原主题的 disqus 相关代码，其中有段代码是这样的：

1	this.page.identifier = "<%- page.title %>";

而新主题的相关代码是这样的：

    <% if (post.disqusIdentifier) { %>
this.page.identifier = '<%= post.disqusIdentifier %>';
    <% } else { %>
this.page.identifier = '<%= post.path %>';
    <% } %>

虽然我不太懂 js 代码，但是差不多也能看出来这段定义的 this.page.identifier 和原主题还是很不一样的。一个是 title，一个是 disqusIdentifier 或者 path。这显然差距是很大的，结合前面说的链接 404 错误，应该就是这里出了问题，identifier 变了，用现在新的 identifier 去找，当然找不到了。

所以我尝试将新主题的 this.page.identifier 直接改为：

1	this.page.identifier = '<%= post.title %>';

然后 hexo s，duang！果然就可以了！

Problem Solved!

END

沉默的代价 —— 来自 zip 的教训

2022-03-29T10:05:00.000Z

波澜不惊

记不太清楚那天的天气了。我像往常一样起床上班地铁轰隆一小时。

到公司抓紧时间写好处理数据的代码，然后告诉运维帮我开 24 台 GPU 服务器。

“ip.txt”

没过一会儿，运维甩给我一个包含 24 个服务器 IP 的文件。

“我有一些依赖要安装，代码要放上去，还得配 aws，难不成我要一台一台连接上去，然后一台一台敲上去？”

我咨询了下运维有没有什么捷径可走，运维说 xshell。此时的我有点疑惑，因为我之前几乎没怎么用过 xshell，向来都是 VS Code 和 Windows Terminal。

下了一个 30 天试用版，地方也好找，“发送键到所有会话”，啪啪啪在一台机器上输入命令，命令马上复制到了其他机器，很快就部署完了。

开始启动 1000 核的 client，开个 htop 看到 client 这边波澜不惊，开个 nvtop 发现 server 那边也是波澜不惊，只不过是高水位的波澜不惊。

Client htop。情况类似，忽略内存情况，CPU 占用非常低，毕竟不是 CPU-bound 任务。

Server nvtop。情况类似，GPU 打得满满的。

我去接杯水，看着他们波澜不惊，我心里也波澜不惊了。

惊涛骇浪

由于我是处理完一批上传一批结果的，所以最终全部处理完之后，需要合并一下结果。单看每一份文件似乎没啥问题，但是合并完去重之后发现，非常多重复的，理论上来说是不可能的，肯定是哪里出了问题。

于是我回去翻代码，看看是哪里写重了还是循环里变量重复使用还是怎么回事，然后我把注意力放到了下面的这段代码上：

texts = ['Here', 'are', 'some', 'texts']
ids = ['Here', 'are', 'text', 'ids']
batch_size = 2
lines = []
for i in range(0, len(texts), batch_size):
    batch_texts = texts[i : i+batch_size]
    try:
        batch_probs = parser.parse(batch_texts)
        batch_probs = ['\t'.join(map(str, probs)) for probs in batch_probs]
  except Exception as e:
        logger.error(f"{e}")
        batch_probs = ['\t'.join(['None'] * 5)] * len(batch_texts)
    lines.extend([f"{id_}\t{probs}" for id_, probs in zip(ids, batch_probs)])
upload_s3(lines)

注意最后一行的 zip，第一个是每个样本对应的 id，shape 为 (len(texts),) ；第二个是样本对应的概率 shape 为 (batch_size, num_labels) 。

所以问题就来了，len(texts) != batch_size ，也就是说 zip 的两个参数长度不等。那么此时 Python 会怎么办？

取短舍长。

当较短的参数消耗完时，迭代就会停止：

1 2	>>> list(zip(range(3), ['fee', 'fi', 'fo', 'fum'])) [(0, 'fee'), (1, 'fi'), (2, 'fo')]

而不是抛出异常，甚至 warning 也不会抛出。所以运行时你不会发现任何问题。这就很危险了。

幸好 Python 社区也注意到了这个问题，2020 年 Brandt Bucher 发了一个 PEP 618，提议为 zip 函数增加一个参数 strict 以进行长度检查。该 PEP 最终通过并合并在了 3.10 版本中。所以如果你是用的是 >=3.10 的版本并且想要两个参数完全相等，那么可以指定 strict=True 来强制限定，如果长度不等则会抛出 ValueError 异常：

>>> list(zip(range(3), ['fee', 'fi', 'fo', 'fum'], strict=True))
Traceback (most recent call last):
  ...
ValueError: zip() argument 2 is longer than argument 1

所以，我得改下代码重新跑，再花一次 24 台 GPU 服务器的钱。虽然钱不是我出，但是还是觉得挺愧疚。

风平浪静

由于各种原因，切版本是不太现实的。所以直接将 ids 改为 batch_ids 即可。但为了以后一旦写错让程序抛出异常，我还是在 zip 前手动加了一个 assert 来进行长度检查。以后在涉及 zip 的地方，一定要多加检查，使用 assert 或者 strict=True 来显式抛出异常。Python 的默认行为也太容易出错了，我觉得至少得抛出个 warning 吧。

所以，zip，顾名思义，拉链。拉链的两边长度不等时，根据生活经验，你只能拉到较短一边的尽头。Python 中的 zip 同理，如果 A 和 B 长度不等，那么 zip(A, B) 的结果长度就是 min(A, B)。这不是问题。

问题在于，这是静默发生的。

算是一个自己不小心挖的坑吧，修复 bug，再次运行，回归风平浪静。

Reference

END

嵌入 Altair 绘图到 Hexo 博客中

2022-02-04T10:57:00.000Z

Altair 是又一个 Python 绘图库，可交互，基于 Vega 和 Vega-Lite，官方称其为 Declarative Visualization in Python，声明式可视化绘图。在我看来这是一个比较轻量级的绘图库，可能和 Bokeh 是一类，相比 Plotly 要轻很多。由于其可交互的特性，当我们需要在博客上分享某些图时，读者阅读时要方便有效很多。

本文主要聚焦于如何在 hexo 这种静态博客中嵌入或者说显示 altair plot，但如何使用 altair 并不在本文讨论范围内。我之前也写过一篇文章讲如何嵌入 bokeh，感兴趣的话可以瞅上两眼。

下面我们就直入主题吧。

单张图

我们先从一个热力图说起。最近电视剧《开端》很热，反炸CP、司锅姨、今麦郎等梗也是非常多。我也是刚看完没多久，觉得确实很不错，国内相关题材上算是最好的一个了，但感觉最后一集实在是有些仓促……

话扯远了，说回正题。

我抓取了《开端》的豆瓣小组上的帖子，总共约 2.7 万篇。其中有一个字段是“最后回应时间”，表示该帖子最后一次被回复的时间。我们可以据此推断出在哪些时间段讨论比较热烈，所以这就是我们今天要绘制的热力图，横轴是一天中的 24 小时，纵轴是以天为单位的日期，日期范围是最早和最晚帖子的被回复日期（截至我抓取时 2 月 3 日）。

原始数据样例如下：

原始数据样例

然后我们先把 last_reply_time 拉出来，获取对应的 hour，按照天进行 resample 并统计每个小时内的贴子数，最终处理成 altair 需要的格式，即 x、y、z 各成一列：

grouped = df.resample('D', on='last_reply_time')
name2counter = {}
for name, g in grouped:
    counter = Counter(dict.fromkeys(range(24), 0))
    counter.update(g.last_reply_time.dt.hour)
    name2counter[datetime.strftime(name, '%Y-%m-%d')] = counter
heatmap_data = pd.DataFrame(name2counter)
heatmap_data = heatmap_data.reset_index().melt(id_vars=['index'])
heatmap_data.columns = ['小时', '日期', '计数']

最终得到的数据样例如下：

	小时	日期
0	0	2022-01-02
1	1	2022-01-02
2	2	2022-01-02
3	3	2022-01-02
4	4	2022-01-02

这就是我们要传给 altair 的数据了，横轴是 小时，纵轴是 日期，颜色使用 计数：

chart = alt.Chart(altair_data).mark_rect().encode(
    x='小时:O',  # 格式为 列名:数据类型，O 表示 ordinal，离散的有序数据
    y='日期:O',
    color='计数:Q',  # Q 表示 quantitative，连续数据
    tooltip=['日期', '小时', '计数']
).properties(title='《开端》豆瓣小组讨论热力图')

最终的效果图如下：

开端豆瓣小组讨论热力图

可是我们如何将这个图放到我们的博客里呢？

最简单的方式就是导出为 PNG 或者 SVG，就像上面这样，可是这样的话就丢失了可交互性这个重要的特性了。所以最佳方案就是显示绘图的同时保留可交互性。

根据官方文档上的说法，可选的方案有导出为 JSON 或者 HTML。前者需要配合 vegaEmbed 使用，后者也需要，只不过已经内置在 HTML 中了。由于前者需要将 JSON 文件托管在某个地方，因此我们不选用这种方案。我们将使用 HTML 的方式。

我们可以使用 chart.save('chart.html') 来导出到 HTML 文件，下面是一个该文件的样例：


<html>
<head>
  <script src="https://cdn.jsdelivr.net/npm/vega@5">script>
  <script src="https://cdn.jsdelivr.net/npm/vega-lite@4">script>
  <script src="https://cdn.jsdelivr.net/npm/vega-embed@6">script>
head>
<body>
  <div id="vis">div>
  <script type="text/javascript">
    var spec = {
      "$schema": "https://vega.github.io/schema/vega-lite/v4.json",
      "config": {
        "view": {
          "continuousHeight": 300,
          "continuousWidth": 400
        }
      },
      "data": {
        "url": "https://vega.github.io/vega-datasets/data/cars.json"
      },
      "encoding": {
        "color": {
          "field": "Origin",
          "type": "nominal"
        },
        "x": {
          "field": "Horsepower",
          "type": "quantitative"
        },
        "y": {
          "field": "Miles_per_Gallon",
          "type": "quantitative"
        }
      },
      "mark": "point"
    };
    var opt = {"renderer": "canvas", "actions": false};
    vegaEmbed("#vis", spec, opt);
  script>
body>
html>

按理说我们需要让有 altair plot 的页面加载 <% } %>

在博文中加入绘图代码。然后写博客时，在上面的 metadata 里加上 vega: true，然后将导出的 HTML 文件中的内容直接复制到想要显示绘图的位置，如本文：

---
title: 嵌入 Altair 绘图到 Hexo 博客中
date: 2022-02-04 14:19:00
tags:
  - hexo
  - Python
  - DataViz
vega: true
---

这样就可以显示出 altair plot 了，并且鼠标 hover 可以显示当前点的信息，保留了可交互性：

`多张图`

从上面的样例可以看出，绘图其实是显示在 id="vis" 的 div 中。而一个 HTML 中 id 不能重名。所以当我们有多张图需要显示时，我们必须更改第二以及后面的图的 id，比如我们可以直接递增，如 vis2。具体来说，要改的地方有 3 个：

<div id="vis2">div> 
<script>
(function(vegaEmbed) {
    var spec = ...  // 此处太长，暂时省略
    var embedOpt = {"mode": "vega-lite"};

    function showError(el, error){
        el.innerHTML = ('<div class="error" style="color:red;">'
                        + 'JavaScript Error: ' + error.message + '
'
                        + "This usually means there's a typo in your chart specification. "
                        + "See the javascript console for the full traceback.
"
                        + '');
        throw error;
    }
    const el = document.getElementById('vis2');  // 修改 2
    vegaEmbed("#vis2", spec, embedOpt)           // 修改 3 
    .catch(error => showError(el, error));
})(vegaEmbed);

下面我们将上面的热力图稍微改下，将计数视为 O 类型数据，即离散有序数据，此时便会以离散的 colorscale 来显示数据：

`Reference`



一个 UnboundLocalError 引发的神奇问题
2022-01-17T13:00:00.000Z
问题
最近在写一个工作上的代码时，遇到要使用嵌套函数的情况，但是总是报一个 UnboundLocalError 的错误。我把问题代码抽象出来如下：
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
def outer():
    outer_list = []
    outer_int = 0

    def inner():
        print('INNER')
        print(f"outer_list={outer_list}")
        print(f"outer_int={outer_int}")
        outer_list.append(1)
        outer_int = 1
    
    inner()
    print('OUTER')
    print(f"outer_list={outer_list}")
    print(f"outer_int={outer_int}")

outer()
运行该代码会报如下 UnboundLocalError 错误，显示 outer_int 未定义：
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
INNER
outer_list=[]
---------------------------------------------------------------------------
UnboundLocalError                         Traceback (most recent call last)
-7-0c4860f923cf> in ()
     16 
     17 
---> 18 outer()

1 frames
-7-0c4860f923cf> in outer()
     10         outer_int = 1
     11 
---> 12     inner()
     13     print('OUTER')
     14     print(f"outer_list={outer_list}")

-7-0c4860f923cf> in inner()
      6         print('INNER')
      7         print(f"outer_list={outer_list}")
----> 8         print(f"outer_int={outer_int}")
      9         outer_list.append(1)
     10         outer_int = 1

UnboundLocalError: local variable 'outer_int' referenced before assignment
outer_list 和 outer_int 同样在 outer() 里进行了定义，按理说在嵌套函数里都可以获取到，但是现在表明只有 outer_list 可以获取到。
但是如果你将第 10 行 outer_int = 1 注释掉，你会发现又不报错了，又可以访问到 outer_int 了：
1
2
3
4
5
6
INNER
outer_list=[]
outer_int=0
OUTER
outer_list=[1]
outer_int=0
这是怎么回事？
猜想与证明
首先表明，这是 feature 而不是 bug！
然后我们需要先引入几个术语：
自由变量 free variable。自由变量一般是相对于嵌套函数来说的。一个嵌套函数的自由变量是指该函数用到了该变量，但其定义并不在该函数内的非全局变量。在上面的代码中， outer_list 和 outer_int 都是 inner() 的自由变量，它们都在 inner() 中被用到，但是定义却是在 outer() 函数中，而且它们也很明显不是 global 的。“自由”意味着它们可以在不同函数之间”自由穿梭“。此外用 nonlocal 声明的变量也是自由变量。
Cell 变量 Cell variable（我不太确定中文叫法，暂且就叫 cell 变量吧）。单元变量其实本质上是一种局部变量，是同一变量在不同视角下的说法，该变量在外部函数中定义，但是在内部函数被引用。在上面的代码中， outer_list 和 outer_int 都是 outer() 的 cell 变量，但对 inner() 来说，它们同时也是其下的自由变量。
由上面的现象我们可以猜想，可能是由于 inner() 函数中对 outer_int 的重新赋值导致其从自由变量变为 inner() 函数的局部变量，然后引发 UnboundLocalError 。
那如何证明我们的猜想呢？
这就又要引入一个概念叫字节码 bytecode。Python 代码执行流程是先将你写的代码编译为一种中间代码，然后运行时再由解释器解释这些中间代码为机器代码来执行。这种中间代码就叫字节码。
如果你观察过运行 Python 文件后的目录变化情况，你会发现在你第一次运行完一个 Python 文件后，当前目录会生成一个 __pycache__ 目录，里面存放着和你运行的 Python 文件同名的文件，只不过后缀是 .pyc ，这些文件里存放的就是字节码。
这些字节码里存放着编译后的各种底层操作，我们可以从这些字节码里看到详细的操作细节。但是字节码是二进制文件，我们需要使用内置的 dis 模块来帮助我们反汇编（disassembly）这些字节码，生成格式化后的、人类阅读友好的字节码指令。
为方便我们后面讨论，我先将两个关键的字节码指令及其意义列出如下：
LOAD_FAST ：将指向局部对象 co_varnames[var_num] 的引用推入栈顶。对应于局部变量。
LOAD_GLOBAL ：加载名称为 co_names[namei] 的全局对象推入栈顶。对应于全局变量。
LOAD_DEREF ：加载包含在 cell 的第 i 个空位中的单元并释放可用的存储空间。将一个 cell 所包含对象的引用推入栈顶。对应于自由变量和 cell 变量。
相应的还有 STORE_* 的指令，其意义和 LOAD_* 相反，我就不赘述了。
OK，我们现在来看下注释前代码的字节码（Python 3.7.12，下同）：
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
  2           0 BUILD_LIST               0
              2 STORE_DEREF              0 (outer_list)

  3           4 LOAD_CONST               1 (0)
              6 STORE_FAST               0 (outer_int)

  5           8 LOAD_CLOSURE             0 (outer_list)
             10 BUILD_TUPLE              1
             12 LOAD_CONST               2 (0x7f9f518cdf60, file "", line 5>)
             14 LOAD_CONST               3 ('outer..inner')
             16 MAKE_FUNCTION            8
             18 STORE_FAST               1 (inner)

 12          20 LOAD_FAST                1 (inner)
             22 CALL_FUNCTION            0
             24 POP_TOP

 13          26 LOAD_GLOBAL              0 (print)
             28 LOAD_CONST               4 ('OUTER')
             30 CALL_FUNCTION            1
             32 POP_TOP

 14          34 LOAD_GLOBAL              0 (print)
             36 LOAD_CONST               5 ('outer_list=')
             38 LOAD_DEREF               0 (outer_list)
             40 FORMAT_VALUE             0
             42 BUILD_STRING             2
             44 CALL_FUNCTION            1
             46 POP_TOP

 15          48 LOAD_GLOBAL              0 (print)
             50 LOAD_CONST               6 ('outer_int=')
             52 LOAD_FAST                0 (outer_int)
             54 FORMAT_VALUE             0
             56 BUILD_STRING             2
             58 CALL_FUNCTION            1
             60 POP_TOP
             62 LOAD_CONST               0 (None)
             64 RETURN_VALUE

Disassembly of 0x7f9f518cdf60, file "", line 5>:
  6           0 LOAD_GLOBAL              0 (print)
              2 LOAD_CONST               1 ('INNER')
              4 CALL_FUNCTION            1
              6 POP_TOP

  7           8 LOAD_GLOBAL              0 (print)
             10 LOAD_CONST               2 ('outer_list=')
             12 LOAD_DEREF               0 (outer_list)  <---- HERE
             14 FORMAT_VALUE             0
             16 BUILD_STRING             2
             18 CALL_FUNCTION            1
             20 POP_TOP

  8          22 LOAD_GLOBAL              0 (print)
             24 LOAD_CONST               3 ('outer_int=')
             26 LOAD_FAST                0 (outer_int)  <---- HERE
             28 FORMAT_VALUE             0
             30 BUILD_STRING             2
             32 CALL_FUNCTION            1
             34 POP_TOP

  9          36 LOAD_DEREF               0 (outer_list)
             38 LOAD_METHOD              1 (append)
             40 LOAD_CONST               4 (1)
             42 CALL_METHOD              1
             44 POP_TOP

 10          46 LOAD_CONST               4 (1)
             48 STORE_FAST               0 (outer_int)
             50 LOAD_CONST               0 (None)
             52 RETURN_VALUE
注意我标记 <---- HERE 的那两行，即第 7 行和第 8 行所对应的字节码。
我们可以看到， outer_list 是一个自由变量，其相关的指令都是 *_DEREF ，第 7 行使用 LOAD_DEREF 来加载 outer_list 。而 outer_int 是一个 inner() 的局部变量，其相关的指令都是 *_FAST ，第 8 行使用 LOAD_FAST 来加载 outer_int 。但是 outer_int 在 inner() 中并未定义，所以会引发 UnboundLocalError 。
我们再来看下注释后的字节码指令：
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
  2           0 BUILD_LIST               0
              2 STORE_DEREF              1 (outer_list)  <---- HERE

  3           4 LOAD_CONST               1 (0)
              6 STORE_DEREF              0 (outer_int)  <---- HERE

  5           8 LOAD_CLOSURE             0 (outer_int)
             10 LOAD_CLOSURE             1 (outer_list)
             12 BUILD_TUPLE              2
             14 LOAD_CONST               2 (0x7fa67ec76ed0, file "", line 5>)
             16 LOAD_CONST               3 ('outer..inner')
             18 MAKE_FUNCTION            8
             20 STORE_FAST               0 (inner)

 12          22 LOAD_FAST                0 (inner)
             24 CALL_FUNCTION            0
             26 POP_TOP

 13          28 LOAD_GLOBAL              0 (print)
             30 LOAD_CONST               4 ('OUTER')
             32 CALL_FUNCTION            1
             34 POP_TOP

 14          36 LOAD_GLOBAL              0 (print)
             38 LOAD_CONST               5 ('outer_list=')
             40 LOAD_DEREF               1 (outer_list)
             42 FORMAT_VALUE             0
             44 BUILD_STRING             2
             46 CALL_FUNCTION            1
             48 POP_TOP

 15          50 LOAD_GLOBAL              0 (print)
             52 LOAD_CONST               6 ('outer_int=')
             54 LOAD_DEREF               0 (outer_int)
             56 FORMAT_VALUE             0
             58 BUILD_STRING             2
             60 CALL_FUNCTION            1
             62 POP_TOP
             64 LOAD_CONST               0 (None)
             66 RETURN_VALUE

Disassembly of 0x7fa67ec76ed0, file "", line 5>:
  6           0 LOAD_GLOBAL              0 (print)
              2 LOAD_CONST               1 ('INNER')
              4 CALL_FUNCTION            1
              6 POP_TOP

  7           8 LOAD_GLOBAL              0 (print)
             10 LOAD_CONST               2 ('outer_list=')
             12 LOAD_DEREF               1 (outer_list)
             14 FORMAT_VALUE             0
             16 BUILD_STRING             2
             18 CALL_FUNCTION            1
             20 POP_TOP

  8          22 LOAD_GLOBAL              0 (print)
             24 LOAD_CONST               3 ('outer_int=')
             26 LOAD_DEREF               0 (outer_int)  <---- HERE
             28 FORMAT_VALUE             0
             30 BUILD_STRING             2
             32 CALL_FUNCTION            1
             34 POP_TOP

  9          36 LOAD_DEREF               1 (outer_list)
             38 LOAD_METHOD              1 (append)
             40 LOAD_CONST               4 (1)
             42 CALL_METHOD              1
             44 POP_TOP
             46 LOAD_CONST               0 (None)
             48 RETURN_VALUE
我们可以看到 outer_list 和 outer_int 现在都是自由变量了，自然也不会引发 UnboundLocalError 了。
那么为什么 outer_list 可以在 inner() 中引用并改变呢？其实 outer_list 并没有被改变，其 id 没有变，只是增加了一个值，其内存中的地址并没有变（变量的地址指的是起始地址）。也就是说， outer_list 是一个可变对象，而 outer_int 是一个不可变对象。正是由于不可变对象的这个特性， inner() 中对 outer_int 的重新赋值导致编译器认为其是一个局部变量，而在前面 print 的时候还没定义，自然引发了错误，这也同时可以避免你对一个不可变对象的误操作。如果你将 print 去掉，程序也不会报错，这就相当于创建了一个新对象。
总结
所以，如果你想要在嵌套函数中使用外部函数的不可变对象并想要对其改变，例如 int 对象的 +=  操作，则要么使用可变对象替换之，要么在嵌套函数中使用 nonlocal 声明之，使之变成一个自由变量。
Reference
Cell Objects — Python 3.10.2 documentation
Python behind the scenes #5: how variables are implemented in CPython
END


UpSet Plot 简易指南（一）
2022-01-08T02:05:00.000Z
我们都知道在展示几个集合的交集情况时，应该使用维恩图，非常直观。但是当集合数大于 3 的时候，维恩图就很难绘制了，或者说即使绘制出来，可读性也非常差，让人看得云里雾里。
最近 The Illustrated Transformer 的作者 Jay Alammar 发了个推提到了这个问题：
What symptoms do covid patients report?

Visualized via a ven diagram and by an https://t.co/ba5KTcXKDK plot in Altair https://t.co/SOc8qPyOZ2

The two bar charts provide great slices of the data. pic.twitter.com/fDxUMlJoi6
— Jay Alammar (@JayAlammar) December 24, 2021
 
说的是两幅图的比较。看下面这个展示不同新冠症状报告人数的维恩图。哪个圆圈代表什么，交集代表什么，已经很难看出来了。
杂乱的维恩图
再看下面这幅图：
瞬间清晰多了是不是
我们不仅可以很直观地看出来疲劳 Fatigue 的报告人数最多，还可以知道同时报告疲劳和嗅觉丧失 Anosmia 的人最多。
再比如，下面这张出自发表在 Nature 上的《The banana (Musa acuminata) genome and the evolution of monocotyledonous plants》，该图意图是展现香蕉和其他五个物种的基因组之间的交叉重合关系，每个颜色的大圈代表一个物种的基因组：
香蕉和其他五个物种的基因组之间的交叉关系
一眼看起来还挺好看，但是仔细看你就会发现很容易乱，交叉实在是太多了。那绘制成上面说的那种图会是什么样呢？
瞬间清晰多了是不是
这样看就舒服多了。很明显可以看出来这六个物种的基因组大部分都是相同的。
这种图就叫 UpSet。我后来具体查了查，发现这种图实在是太有用了，所以决定写一个简易教程，帮助更多人入门。
UpSet 是一种用于可视化多个集合的交叉情况的图形，可以看做是增强的维恩图，专门用来应付这种情况，非常适合集合数多于 3 个时交集情况的展示，由哈佛医学院视觉计算组于 2014 年的论文《UpSet: Visualization of Intersecting Sets》中提出，算是比较新的了。
UpSet 由三部分组成，分别解释如下：
其中蓝色部分也可以看作是绿色部分的 xtick label。底图源自 r-graph-gallery.com。
看起来挺复杂？没关系，你没必要自己 plot it from scratch。upsetplot 是这方面的能手。
和其他 Python 包一样，首先需要使用 pip 安装：
1
$ pip install upsetplot
主要方法
upsetplot 的主要 API 是 plot() 方法。主要参数如下：
data ： pd.Series 或者 pd.DataFrame ，一般来说是 MultiIndex 的，用来表示 object 的归属情况（归属于哪个集合），其值为 0/1 或者 True/False。这个参数一般是由内置函数生成的，不用自己创建，包括 from_contents、 from_indicators、 from_memberships，可以根据你的源数据的格式选择合适的函数。具体用法下面介绍。
fig ： plt.figure() 对象，可以指定绘制在哪个 figure 上。保存图时有用，如果你不传此参数，直接使用 plt.savefig() 保存，会得到一个空图。
你也可以传入其他参数，这些参数同时也是 UpSet() 的参数，主要有：
sort_by：subset（即绿色部分）的排序依据，可选的有 cardinality、degree（默认值）和 None。cardinality 表示根据 subset 的大小排序。degree 表示 subset 中包含的 set 的数量（即蓝色部分每列黑色圆圈的数量，自由度），会根据这个数量进行排序。set，或者叫 category，就是图中的红色部分。None 表示根据数据原本的出现顺序排序。
subset_size：如何计算 subset 大小（即绿色部分的柱高），可选的有 auto（默认值）、count 和 sum。auto 表示当 data 是 DataFrame 时，使用 count，除非另一个默认为 None 的参数 sum_over 被指定为非 None。count 表示用 group（subset）的行数作为 subset 大小。sum 就表示对 data 进行求和，或者在 sum_over 指定的列上进行求和。
min_subset_size：最小 subset 大小。有时候 subset 过多，需要用此参数来限制 subset 数量。
max_subset_size：最大 subset 大小。有时候 subset 过多，需要用此参数来限制 subset 数量。
min_degree：最小 degree。有时候不想显示 degree 为 0（即某列中全是灰色圆圈，没有黑色圆圈）或 1 的情况，可以用此参数来限制。
max_degree：最大 degree。类上。
基本框架
绘图的基本框架非常简单：
1
2
3
4
5
6
plot(
    data=data,
    sort_by='cardinality',
    subset_size='count',
    **kwargs
)
kwargs 就是 UpSet() 的其他参数。
准备数据
绘图的核心就是 data 参数，因此如何准备你的数据是至关重要的。
前面我们提到过生成 data 的函数主要有三个：from_contents、from_indicators和from_memberships，下面我们分别来看下传给这三种函数的数据是什么样子的。
from_contents
from_contents 期望的数据格式是一个 dict，key 为 category name（或者叫集合名称），value 为集合中包含的对象列表，这些对象必须是 int 或者 str 格式，即 value 必须是 list of int 或者 list of str。
例如下面这样：
1
2
3
4
5
contents = {
    "set1": ["a", "b", "c"],  # set1 包含 a、b、c 三个对象
    "set2": ["b", "d"],       # set2 包含 b、d 两个对象
    "set3": ["e"]             # set3 包含 e 一个对象
}
传给 from_contents 后生成的数据如下：
1
2
3
4
5
6
7
8
>>> from_contents(contents)  # DataFrame
                  id
set1  set2  set3    
True  False False  a
      True  False  b
      False False  c
False True  False  d
      False True   e
这返回的数据就是一个 MultiIndex DataFrame，将之传给 plot() 即可绘图，如下图左边：
其等效的维恩图如下：
与上图等效的维恩图
from_indicators
indicator 是“指示符”的意思，类似指示函数 indicator function 返回的是 0 和 1，from_indictors 也期望输入是一个只包含 bool 类型的数据。可以是一个 dict、一个 DataFrame，但总归是一个表格类型数据。列名是集合名称，value 是 True/False，表示某个对象属不属于该集合，所以 value  list 的长度或者 DataFrame 的长度就是对象数量。
例如：
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
# dict 类型的输入
indicators_dict = {
    "set1": [True, True, True, False, False],
    "set2": [False, True, False, True, False],
    "set3": [False, False, False, False, True]
}

# DataFrame 类型的输入
indicators_df = pd.DataFrame(indicators)
#     set1   set2   set3
# 0   True  False   True
# 1  False   True   True
# 2   True  False  False
# 3  False  False  False

plot(from_indicators(indicators), subset_size='count')
# or plot(from_indicators(indicators_df), subset_size='count')，效果相同
结果图同上。
from_memberships
from_memberships 就比较直接了，是一个嵌套 list，每个 item 也是一个 list，表示一个对象的归属情况，里面的每个 item 是 str 类型的集合名称，即每个对象的”会员关系“ memberships，它们都是哪家的会员。
我们还是沿用上面的例子：
1
2
3
4
5
6
7
memberships = [
    ['set1'],          # a 归属于 set1
    ['set1', 'set2'],  # b 归属于 set1 和 set2
    ['set1'],          # c 归属于 set1
    ['set2'],          # d 归属于 set2
    ['set3']           # e 归属于 set3
]
传给 from_memberships 后生成的数据如下：
1
2
3
4
5
6
7
8
9
>>> from_memberships(memberships)  # Series
set1   set2   set3 
True   False  False    1
       True   False    1
       False  False    1
False  True   False    1
       False  True     1
Name: ones, dtype: int64
>>> plot(from_memberships(memberships), subset_size='count')  # 绘图
最后的结果图和上面一致。
复现
现在我们来尝试复现一下本文开头提到的 Jay Alammar 的推特中的图。
我们这里使用的是最新数据，所以最终结果可能和原图有所不同。
原图中的数据来自 https://ndownloader.figshare.com/files/22339791，我们可以直接使用 pd.read_csv() 来读取，
1
2
3
4
5
6
7
8
9
10
>>> df = pd.read_csv("https://ndownloader.figshare.com/files/22339791")
>>> df.shape
(1764, 6)
>>> df.head()
   id  Shortness of Breath  Diarrhea  Fever  Cough  Anosmia  Fatigue
0   1                    0         0      0      0        1        1
1   2                    0         0      0      0        1        1
2   3                    0         0      0      0        1        1
3   4                    0         0      0      0        1        1
4   5                    0         0      0      0        1        1
我们可以看到输出的 dataframe 非常符合 from_indicators() 的情况，所以我们用之来绘制 UpSet。但是在这之前，我们需要先删掉 id 列并把数据类型转成 bool ：
1
2
3
4
5
6
7
8
>>> df = df.drop('id', axis=1).astype(bool)
>>> df.head()
   Shortness of Breath  Diarrhea  Fever  Cough  Anosmia  Fatigue
0                False     False  False  False     True     True
1                False     False  False  False     True     True
2                False     False  False  False     True     True
3                False     False  False  False     True     True
4                False     False  False  False     True     True
然后我们就使用 from_indicators() 来绘图了：
1
plot(from_indicators(df), subset_size='count', sort_by='cardinality')
和原图的结论基本相同。
和原图的结论基本相同。
下一篇，我们将看到更多的实际例子以及如何解决一个棘手的问题。
END
Reference
UpSetPlot documentation — upsetplot 0.6.0 documentation
UpSet Home


TensorBoard Projector 简易指南
2021-12-17T09:44:19.000Z
TensorBoard（TB）是一个非常棒的模型可视化工具，早期我也写过一篇文章来详细介绍各个面板。
不过士别三日，当刮目相待。现在的 TB 和那时相比变化太多了，增加了许多功能面板，绝大部分我都还没怎么用过。其中最吸引我的面板之一就是 Projector，虽然我现在工作中并不怎么用到。
现在终于抽出时间，来完整体验并写一篇 TensorBoard Projector（TBP）的简易教程。
本文将会从原始文本出发（中文），经过训练 embedding、生成所需文件等步骤，一步一步，最终使用 TBP 来可视化 embedding，并解决中文标签不能显示的问题。
我们先来看下最终效果：
Embedding Projector
虽然说现在 BERT 等预训练模型大行其道，但我还是想从更“复古”的词向量出发。当然如果你想使用 BERT 来生成 embedding，也是完全没有问题的，框架是相同的。
此外，这个过程和你所使用的库无关，无论你是 Numpy、Scipy 还是 TensorFlow、PyTorch，只要能够得到 embedding 向量，那就都没有问题。
使用 TBP 可视化 embedding 的基本逻辑是很简单的：
得到一些词及其 embedding。
将他们按照 TBP 认可的对应关系放到文件中。
TBP 读取文件并可视化。
相应的我们需要下列文件：
原始文本和 embedding 模型：用以得到词及其 embedding。
metadata.tsv、 tensor.tsv 和 sprite.jpg：分别用于存放词、embedding 和词对应的图片（当然也可以是 PNG），最后一个用于解决中文标签不能显示的问题。
projector_config.pbtxt：用于告诉 TBP 上述文件的位置以及其他配置。
下面我们就来一步一步看如何得到这些文件。
词及词向量
原始文本来自习大大的讲话数据库，使用spacy分句，共得到约 38 万句子。然后使用 jieba 和自定义词典进行分词，得到tokenized_sents.txt，该文件格式是一行一个分词后的句子，词之间空格分隔。词向量使用gensim的fasttext模型训练得到，维度300。为减少词的数量，去掉停用词。
1
2
3
4
5
# Train embeddings
model = FastText(vector_size=300, window=5, min_count=10)
model.build_vocab(corpus_file='tokenized_sents.txt')
model.train(corpus_file='tokenized_sents.txt', total_examples=model.corpus_count, epochs=10, total_words=model.corpus_total_words)
model.save('fasttext.model')
metadata.tsv 和 tensor.tsv
metadata.tsv 的常见格式有两种：没有表头，只有一列；有表头，有两列。前者（格式 1）就是 NLP 中常见的 vocab.txt 的格式，一行一个词。后者（格式 2）的两列一般表示 index 和 label。label 就表示该样本所属的标签，一般多见于分类数据集。实际上格式 1 是格式 2 的特例，相当于默认认为其行号就是 index，行内容就是 label。
metadata.tsv 也可以有多列，多出来的列可以用来表示其他属性信息。
tensor.tsv 用于存储与 metadata.tsv 对应的 embeddings。顺序必须一致，即 metadata.tsv 中第 i 行的词，其 embedding 也必须是 tensor.tsv 中的第 i 行。embedding 中数字用 \t 分隔。
接上，我们得到模型后，使用其得到的 vocab 及对应的 embedding 来生成这两个文件：
1
2
3
4
5
6
7
8
9
10
11
12
13
14
stopwords = Path("hit_stopwords.txt").read_text(encoding="utf8").splitlines()
model = FastText.load("fasttext.model")
words = [word for word in model.wv.key_to_index.keys() if word not in stopwords]  # 排除掉停用词
logdir = Path('projector/')  # 文件存储目录

metadata_filename = 'metadata.tsv'
lines = ["index\tlable"]  # 此处我们存成两列，你也可以不要表头，只存词
for i, word in enumerate(words):
    lines.append(f"{i}\t{word}")
logdir.joinpath(metadata_filename).write_text("\n".join(lines), encoding="utf8")

tensor_filename = 'tensor.tsv'
lines = ["\t".join(map(str, model.wv[word])) for word in words]
logdir.joinpath(tensor_filename).write_text("\n".join(lines), encoding="utf8")
sprite.jpg
正如开头给出的效果图一样，图中每个点都是有一个 label 的，这个 label 就是词。如果我们直接这样启动 tensorboard，会看到如下页面：
Projector 默认页面，不显示 3D 标签
但启用 3D 标签模式的话，我们将会看到下图所示的样子：
点击左上角的“A”开启 3D 标签模式后
我们可以看到所有的中文词都不见了，只剩下了数字字母等标签。
这是因为 tensorboard 目前还不支持所有 Unicode 字符标签，只支持 ascii 字符。
BUT！关闭 3D 标签模式后，如果你点击其中一个点，你会惊奇地发现又能显示中文标签了：
中文标签又回来了
一个 workaround 是将汉字转成图片，用图片来作为 label，就像官方给出的 mnist 例子一样：
官方 Mnist 例子
但是由于每个词所含字的数量都不同，同时又需要尽量让词铺满整个图片，所以不同图片中字的 fontsize 都是不同的，需要视情况调整，这是一个迭代的过程。而转图片我们可以借助 PIL 来完成：
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
def text2image(text, imgfile):
    image = Image.new("RGB", (50, 50), color=(255, 255, 255))
    draw = ImageDraw.Draw(image)
    fontsize = 1  # starting font size
    fontpath = "simhei.ttf"

    # portion of image width you want text width to be
    img_fraction = 0.9

    font = ImageFont.truetype(fontpath, fontsize)
    while (font.getsize(text)[0] < img_fraction * image.size[0]) and (
        font.getsize(text)[1] < img_fraction * image.size[1]
    ):
        # iterate until the text size is just larger than the criteria
        fontsize += 1
        font = ImageFont.truetype(fontpath, fontsize)

    # optionally de-increment to be sure it is less than criteria
    fontsize -= 1
    font = ImageFont.truetype(fontpath, fontsize)

    # print('final font size',fontsize)
    draw.text((0, 0), text, font=font, fill=(0, 0, 0))  # put the text on the image
    image.save(imgfile)  # save it
当我们把所有词都转成图片后，再将这些图片，按照一定规则拼接到一起，最终形成的这么一个大图，就是所谓的 sprite.jpg。
Sprite Image
Mnist 例子中的 sprite image
那么按照什么规则来拼接呢？
sprite.jpg 必须是正方形，每个小图也最好是正方形，意味着行列上的小图数量必须是相等的，而且 tensorboard 读这个 sprite 的时候是按照行优先的顺序读的。所以假设你有 8 张小图，那么最终的摆放顺序就是下面这样：
8 张小图时的摆放顺序
最后那一格是空白的，也就是全白。
当然也有可能最后一行都是空白的，例如你有 5 张小图，那么要想每行每列上的小图数量是一样的，那么每行每列上就得有 3 张小图：
5 张小图时的摆放顺序
这样不仅第二行最后一格是空白的，就连第三行整行都是空白的。
所以总结来说，假设你有 $n$ 张小图，那么每行每列上小图的数量就是 $\lceil \sqrt n \rceil$，即根号 $n$ 然后上取整。
具体代码如下：
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
def text2image(text, imgfile):
    image = Image.new("RGB", (50, 50), color=(255, 255, 255))
    draw = ImageDraw.Draw(image)
    fontsize = 1  # starting font size
    fontpath = "simhei.ttf"

    # portion of image width you want text width to be
    img_fraction = 0.9

    font = ImageFont.truetype(fontpath, fontsize)
    while (font.getsize(text)[0] < img_fraction * image.size[0]) and (
        font.getsize(text)[1] < img_fraction * image.size[1]
    ):  # 保证词在行列上均不超出图片范围
        # iterate until the text size is just larger than the criteria
        fontsize += 1
        font = ImageFont.truetype(fontpath, fontsize)

    # optionally de-increment to be sure it is less than criteria
    fontsize -= 1
    font = ImageFont.truetype(fontpath, fontsize)

    # print('final font size',fontsize)
    draw.text((0, 0), text, font=font, fill=(0, 0, 0))  # put the text on the image
    image.save(imgfile)  # save it
projector_config.pbtxt
在得到了 metadata.tsv 、 tensor.tsv 和 sprite.jpg 后，我们还需要告诉 tensorboard 这些文件的位置和每个小图的维度，所以我们需要一个 .pbtxt 文件来指定这些信息。
我们可以用以下程序来生成该文件：
1
2
3
4
5
6
7
8
9
from tensorboard.plugins import projector

config = projector.ProjectorConfig()
embedding = config.embeddings.add()
embedding.metadata_path = metadata_filename
embedding.tensor_path = tensor_filename
embedding.sprite.image_path = sprite_filename
embedding.sprite.single_image_dim.extend([unit_dim, unit_dim])  # unit_dim 就是小图维度
projector.visualize_embeddings(logdir, config)
然后就会得到一个名为 projector_config.pbtxt 的文件，文件内容如下：
1
2
3
4
5
6
7
8
9
embeddings {
  metadata_path: "metadata.tsv"
  sprite {
    image_path: "sprite.jpg"
    single_image_dim: 50
    single_image_dim: 50
  }
  tensor_path: "tensor.tsv"
}
当然你也可以按照这个格式直接手动创建这个文件。
启动
万事俱备，只欠东风。
现在我们终于可以启动 tensorboard 了：
1
$ tensorboard --logdir=projector/
projector/ 就是你上面指定的 logdir 。
然后根据提示在浏览器打开 http://localhost:6006/#projector 就可以看到页面了，你可以在这里尝试不同降维算法的效果，也可以点击或搜索图上的词来查看其相似词，大致评估下 embedding 的效果。
“捷克共和国”的近义词
扩展
Embedding Projector 中的点不仅仅可以是图像、词，理论上只要是可以 embedding 的东西，就可以显示。而且你懂的，万物皆可 embedding……😂
Reference
Taking the TensorBoard Embedding Projector to the Next Level | Towards Data Science
Visualizing Image Feature Vectors through TensorBoard | by Takuma Yamaguchi (Kumon) | Medium
TensorBoard: Embedding Visualization · tfdocs
Projector plugin hangs with “Fetching sprite image…” · Issue #3840 · tensorflow/tensorboard
[projector] unicode not supported for 3D mode labels · Issue #386 · tensorflow/tensorboard
python - PIL how to scale text size in relation to the size of the image - Stack Overflow
END


使用 Transformers 在你自己的数据集上训练文本分类模型
2021-11-07T02:37:00.000Z
最近实在是有点忙，没啥时间写博客了。趁着周末水一文，把最近用 huggingface transformers 训练文本分类模型时遇到的一个小问题说下。
背景
之前只闻 transformers 超厉害超好用，但是没有实际用过。之前涉及到 bert 类模型都是直接手写或是在别人的基础上修改。但这次由于某些原因，需要快速训练一个简单的文本分类模型。其实这种场景应该挺多的，例如简单的 POC 或是临时测试某些模型。
我的需求很简单：用我们自己的数据集，快速训练一个文本分类模型，验证想法。
我觉得如此简单的一个需求，应该有模板代码。但实际去搜的时候发现，官方文档什么时候变得这么多这么庞大了？还多了个 Trainer API？瞬间让我想起了 Pytorch Lightning 那个坑人的同名 API。但可能是时间原因，找了一圈没找到适用于自定义数据集的代码，都是用的官方、预定义的数据集。
所以弄完后，我决定简单写一个文章，来说下这原本应该极其容易解决的事情。
数据
假设我们数据的格式如下：
1
2
3
0 第一个句子
1 第二个句子
0 第三个句子
即每一行都是 label sentence 的格式，中间空格分隔。并且我们已将数据集分成了 train.txt 和 val.txt 。
代码
加载数据集
首先使用 datasets 加载数据集：
1
2
from datasets import load_dataset
dataset = load_dataset('text', data_files={'train': 'data/train_20w.txt', 'test': 'data/val_2w.txt'})
加载后的 dataset 是一个 DatasetDict 对象：
1
2
3
4
5
6
7
8
9
10
DatasetDict({
    train: Dataset({
        features: ['text'],
        num_rows: 3
    })
    test: Dataset({
        features: ['text'],
        num_rows: 3
    })
})
类似 tf.data ，此后我们需要对其进行 map ，对每一个句子进行 tokenize、padding、batch、shuffle：
1
2
3
4
5
6
7
8
9
10
11
12
13
14
def tokenize_function(examples):
    labels = []
    texts = []
    for example in examples['text']:
        split = example.split(' ', maxsplit=1)
        labels.append(int(split[0]))
        texts.append(split[1])
    tokenized = tokenizer(texts, padding='max_length', truncation=True, max_length=32)
    tokenized['labels'] = labels
    return tokenized

tokenized_datasets = dataset.map(tokenize_function, batched=True)
train_dataset = tokenized_datasets["train"].shuffle(seed=42)
eval_dataset = tokenized_datasets["test"].shuffle(seed=42)
根据数据集格式不同，我们可以在 tokenize_function 中随意自定义处理过程，以得到 text 和 labels。注意 batch_size 和 max_length 也是在此处指定。处理完我们便得到了可以输入给模型的训练集和测试集。
训练
1
2
3
4
5
6
7
8
9
model = AutoModelForSequenceClassification.from_pretrained("bert-base-cased", num_labels=2, cache_dir='data/pretrained')
training_args = TrainingArguments('ckpts', per_device_train_batch_size=256, num_train_epochs=5)
trainer = Trainer(
    model=model,
    args=training_args,
    train_dataset=train_dataset,
    eval_dataset=eval_dataset
)
trainer.train()
你可以根据情况修改训练 batchsize per_device_train_batch_size 。
增加准确率显示
我们在训练的时候一般会监测测试准确率来评估模型性能，而 transformers 在训练过程中默认是不会输出准确率的，而且训练完也不会输出的。这样的话我们想要一个准确率的话，只能再手动加载一下模型然后走一下预测，略显麻烦。
但 transformers 也是支持计算并输出准确率的，我们可以为 Trainer 指定 compute_metrics 参数。
compute_metrics 参数必须是一个函数，用于计算准确率等 metrics 的函数。该函数的输入是 transformers.EvalPrediction 对象，包含模型的输出（logits）和正确标签，其本质上是一个 namedtuple，相应的 field 为 predictions 和 label_ids；输出必须是一个字典，key 为 metric name，value 为 metric value。
关于 metric 的计算，datasets 实际上已经为我们提供了一些内置函数。你可以用 datasets.list_metrics() 来获取目前所有可用的 metric。但是在 load_metric() 时，需要从 GitHub 下载处理程序，鉴于国内网络状况，这步通常都会卡住：
1
2
# https://github.com/huggingface/datasets/blob/21bfd0d3f5ff3fbfd691600e2c7071a167816cdf/src/datasets/config.py#L21
REPO_METRICS_URL = "https://raw.githubusercontent.com/huggingface/datasets/{revision}/metrics/{path}/{name}"
解决这种情况有几种办法：
挂梯子。
load_metric() 支持从本地加载计算程序，所以你可以把 metric 计算代码放到你本地，然后把地址传进去。
不使用 load_metric()，而是我们自己根据 predictions 和 label_ids 来计算。
本文接下来就是使用最后一种方法，较为灵活。我们可以使用 scikit-learn 来计算这些 metric。实际上 datasets 中的 accuracy 也是使用 sklearn.metrics.accuracy_score 来计算的。
来看代码：
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
from sklearn.metrics import accuracy_score, f1_score


def compute_metrics(eval_pred) -> dict:
    logits, labels = eval_pred
    predictions = np.argmax(logits, axis=-1)
    acc = accuracy_score(labels, predictions)
    f1 = f1_score(labels, predictions, average='micro')
    return {"accuracy": acc, 'f1': f1}


training_args = TrainingArguments(
    # 其他参数
    evaluation_strategy="epoch",
    # 其他参数
)

trainer = Trainer(
    # 其他参数
    args=training_args,
    eval_dataset=eval_dataset,
    compute_metrics=compute_metrics,  # <-- 计算metric
    # 其他参数
)
注意一定要加上上面 TrainingArguments 中的 evaluation_strategy="epoch"，该参数默认是 "no"，即不进行 evaluation。我们此处指定为 "epoch" 表示在每个 epoch 结束时进行 evaluation。其他可选的值为 "steps"，表示每 eval_steps 进行一次 evaluation，默认为 500 steps。
然后运行我们即可看到类似如下的输出：
1
2
3
4
5
6
7
8
9
10
11
12
13
14
***** Running training *****
  Num examples = 43410
  Num Epochs = 5
  Instantaneous batch size per device = 48
  Total train batch size (w. parallel, distributed & accumulation) = 48
  Gradient Accumulation steps = 1
  Total optimization steps = 4525
{'loss': 0.82, 'learning_rate': 4.447513812154696e-05, 'epoch': 0.55}
 20%|████                           | 905/4525 [06:20<21:36,  2.79it/s]
 The following columns in the evaluation set  don't have a corresponding argument in `BertForSequenceClassification.forward` and have been ignored: text.        
***** Running Evaluation *****
  Num examples = 5426
  Batch size = 8
{'eval_loss': 0.7136639952659607, 'eval_accuracy': 0.7051234795429414, 'eval_f1': 0.7051234795429414, 'eval_runtime': 20.5673, 'eval_samples_per_second': 263.817, 'eval_steps_per_second': 33.014, 'epoch': 1.0}
我们可以看到在第一个 epoch 结束之后进行了 evaluation，accuracy 和 f1 也被正确返回了（会加上 eval_ 前缀）。
只保存性能最好的 checkpoint
根据 save_strategy 的不同，训练时默认每隔一定时间段就保存一次模型 checkpoint。如果训练 epochs 比较多，会保存很多 ckpt。但有时我们硬盘空间有限，或者由于其他原因不想保存这么多的 ckpt，只想保存最佳模型的。
transformers 也可以很方便地实现这个功能。
严格来说会保存两个 ckpt：一个最佳的，一个最后的（用于接续训练）。
默认情况下，我们只需要给 TrainingArguments 多加两个参数：
load_best_model_at_end=True：训练结束加载最佳模型。
save_total_limit=1：总共保存 1 个模型 ckpt（实际是两个）。
那么如何判断最佳呢？
通过 metric_for_best_model 和 greater_is_better 来共同判断。要想判断最佳，我们首先需要知道评判标准是什么，这就是前者的作用。默认是 loss，在 eval_dataset 上的 loss，你也可以指定为 compute_metrics() 所返回的 metric name（带不带 eval_ 都行）。其次我们需要知道这个标准是越大越好还是越小越好，这就是后者的作用。如果是标准是 loss，那么会自动设置为 False，因为 loss 是越小越好。但如果你指定为其他的标准，记得手动设置下这个参数。
来看代码：
1
2
3
4
5
6
training_args = TrainingArguments(
    # 其他参数
    load_best_model_at_end=True,
    save_total_limit=1,
    # 其他参数
)
完整代码
完整代码见 GitHub。
END

Alan Lee

关于 LLaMA 1

Supervisor 简易指南

安装

配置

inet_http_server

supervisorctl

program:x

启动

更新配置文件

Web 管理界面

supervisord 与 supervisorctl

END

两种方法教你在小米电视上观看 YouTube

问题

解决方法

方法1：SSR + SmartTube

方法 2：一台挂着梯子的电脑 + SmartTube

END

批量导出 QQ 邮箱邮件

问题

解决方法

eml 和 mbox 格式

END

2023 五一北京周边行 3/3 —— 北京野生动物园

前言

北京野生动物园

END

2023 五一北京周边行 2/3 —— 野鸭湖国家湿地公园

前言

野鸭湖国家湿地公园

END

2023 五一北京周边行 1/3 —— 北京金海湖风景区

前言

北京金海湖风景区

END

pandas 读取合并单元格并保留合并信息

前言

fillna 的问题

Solution

需要注意的问题

Reference

END

tqdm+requests：显示下载速度

Introduction

How

Alternative

Thoughts

Reference

END

为什么我的 client CPU 和 server GPU 都很闲？

问题

尝试和解决

总结

END

NuPhy Air75 矮轴键盘体验

开箱

Pros & Cons

重新指派 cat 键为 Insert 键的问题

Final Thoughts

End

深度学习环境创建指南

前言

安装

1. 创建并激活 conda 环境

2. PyTorch

3. TensorFlow

4. 其他杂项

Reference

END

关于 C4 数据集

Disqus 有评论但没显示的一种解决方案

问题

解决

END

沉默的代价 —— 来自 zip 的教训

波澜不惊

惊涛骇浪

风平浪静

Reference

`inet_http_server`

`supervisorctl`

`program:x`

`supervisord` 与 `supervisorctl`

`多张图`

`Reference`