在多语言文本处理时,作者因使用 NFKD 规范化导致韩文字符被过度分解,影响了文本分类效果。这篇博文分享了 Unicode 规范化在韩文上的坑点,并提醒在 NLP 任务中需谨慎选择字符规范化方式。[ChatGPT 4o]
阅读全文在多语言文本处理时,作者因使用 NFKD 规范化导致韩文字符被过度分解,影响了文本分类效果。这篇博文分享了 Unicode 规范化在韩文上的坑点,并提醒在 NLP 任务中需谨慎选择字符规范化方式。[ChatGPT 4o]
阅读全文NLP and Python developer, sometimes datavis, he/him. Stick to what you believe.
author.job