在多语言文本处理时,作者因使用 NFKD 规范化导致韩文字符被过度分解,影响了文本分类效果。这篇博文分享了 Unicode 规范化在韩文上的坑点,并提醒在 NLP 任务中需谨慎选择字符规范化方式。[ChatGPT 4o]

阅读全文

Supervisor 简易指南

这篇文章介绍了 Supervisor 的功能和优势,它是一个用于管理和监控进程的工具,可以确保进程持续运行并在意外情况下自动重启。它具有简单的配置、多进程管理和提供 Web 界面等特点。虽然 Web 界面有限,但是对于同时运行和维护多个程序的需求非常实用。[ChatGPT]
阅读全文

本文介绍了如何使用 Python 中的 tqdm 和 requests 模块来显示下载进度和速度。通过创建进度条并在循环中更新进度条,实现了下载进度和速度的显示。此外,本文还提供了一个近似方法,省略了一些参数和 update 语句。[Notion AI]

阅读全文

本文将会从原始文本出发(中文),经过训练 embedding、生成所需文件等步骤,一步一步,最终使用 TBP 来可视化 embedding,并解决不能使用中文标签的问题。
阅读全文

作者的图片

Alan Lee

NLP and Python developer, sometimes datavis, he/him. Stick to what you believe.


author.job


北京