关于 LLaMA 1

11月 23, 2023

这篇博文提供了对Meta AI发布的LLaMA 1论文的深入分析，强调了LLaMA在开源大型语言模型中的重要性。文中详细介绍了LLaMA的基本信息、优化代码、模型结构和数据集处理，并对其在不同任务上的表现进行了评估。作者指出，尽管LLaMA在创新方面不突出，但作为一个高效、开源的基础模型，在当前ChatGPT闭源的情况下，它满足了大众的需求。[ChatGPT 4]

阅读全文

沉默的代价 —— 来自 zip 的教训

3月 29, 2022

zip 的默认行为及实际中带来的隐患。
阅读全文

TensorBoard Projector 简易指南

12月 17, 2021

本文将会从原始文本出发（中文），经过训练 embedding、生成所需文件等步骤，一步一步，最终使用 TBP 来可视化 embedding，并解决不能使用中文标签的问题。
阅读全文

使用 Transformers 在你自己的数据集上训练文本分类模型

11月 07, 2021

最近实在是有点忙，没啥时间写博客了。趁着周末水一文，把最近用 huggingface transformers 训练文本分类模型时遇到的一个小问题说下。

阅读全文

NLP 中的通用数据增强方法及针对 NER 的变种

9月 12, 2021

本文结合 A Visual Survey of Data Augmentation in NLP 和最新的综述论文 A Survey of Data Augmentation Approaches for NLP，大致总结了目前 NLP 领域的通用数据增强方法和几种针对如 NER 的序列标注模型进行适配的变种方法，关于后者，重点介绍了基于 mixup 改进的 SeqMix 方法。
阅读全文

Lemmatization VS Stemming

2月 25, 2021

简单来说，两者都是对词的归一化，但 Stemming（中文一般译为词干提取，以下简称 stem）更为简单、快速一些，通常会使用一种启发式方法去掉一个词的结尾。 Lemmatization（中文一般译为词形还原，以下简称 lemma）更为「智能」一些，上下文相关，有一个 vocab，不在其中的词不会被处理：
阅读全文

Constituency Parsing with a Self-Attensive Encoder 论文解读

11月 16, 2020

之前没咋涉略过 parsing 部分，最近有用到，遇到一个实现的很不错的库：benepar，无论是速度、代码还是性能上，伯克利出品。而本文要讲的论文就是 benepar 的参考论文：Constituency Parsing with a Self-Attensive Encoder，代码和论文作者都是一个人：Nikita Kitaev，论文发表于 ACL 2018。代码还参考了作者的另一篇论文：Multilingual Constituency Parsing with Self-Attention and Pre-Training。
阅读全文

计算 LSTM 的参数量

6月 04, 2020

理论上的参数量

阅读全文

理解编辑距离

5月 22, 2020

顾名思义，编辑距离（Edit distance）是一种距离，用于衡量两个字符串之间的远近程度，方式是一个字符串至少需要多少次基础变换才能变成另一个字符串，可应用在拼写检查、判断 DNA 相似度等场景中。根据可操作的基础变换不同，可分为以下几种：
阅读全文

寻找所有公共子序列并返回索引

5月 22, 2020

最近同事说了这么一个需求：假设有两个字符串 target 和 source，要在 source 中寻找 target，但不要求 target 在 source 中是连续的，并返回索引。一般来说 target 是一个较短的词语，source 是一个包含 target 的较长句子，target 在 source 中不一定连续，且可能有多个。
阅读全文

下一页
第 1 页共 2 页

理论上的参数量

Alan Lee