在多语言文本处理时,作者因使用 NFKD 规范化导致韩文字符被过度分解,影响了文本分类效果。这篇博文分享了 Unicode 规范化在韩文上的坑点,并提醒在 NLP 任务中需谨慎选择字符规范化方式。[ChatGPT 4o]
阅读全文这篇文章介绍了 Supervisor 的功能和优势,它是一个用于管理和监控进程的工具,可以确保进程持续运行并在意外情况下自动重启。它具有简单的配置、多进程管理和提供 Web 界面等特点。虽然 Web 界面有限,但是对于同时运行和维护多个程序的需求非常实用。[ChatGPT]
阅读全文
使用 pandas 读取带合并单元格的 Excel 的正确方法。[ChatGPT]
阅读全文本文介绍了如何使用 Python 中的 tqdm 和 requests 模块来显示下载进度和速度。通过创建进度条并在循环中更新进度条,实现了下载进度和速度的显示。此外,本文还提供了一个近似方法,省略了一些参数和 update 语句。[Notion AI]
阅读全文本文分析了一个跑数据批处理任务时,client 和 server GPU 利用率都不满的问题,并对其进行了尝试和解决。最后发现是由于配置文件中的误配置引起的,改正后问题得到解决。[text-davinci-003]
阅读全文Altair 是一个很棒的可交互的 Python 绘图库,如何在你的博客文章中嵌入这种图的同时保留可交互特性呢?
阅读全文
UnboundLocalError
错误是如何出现的?其深层次原因是什么?
阅读全文
使用 UpSet 清晰展示集合交叉关系,弥补维恩图在展示多集合时的不足。
阅读全文本文将会从原始文本出发(中文),经过训练 embedding、生成所需文件等步骤,一步一步,最终使用 TBP 来可视化 embedding,并解决不能使用中文标签的问题。
阅读全文
好久没更新博客了,最近一直在忙,既有生活上的也有工作上的。道阻且长啊。
阅读全文