# 中文NER总结

总共看过了5篇近些年的中文NER的核心思路，下面对这些paper进行一个汇总总结：

1. 对于中文NER，paper的写作方向都是基于"词汇增强"来展开的，花式的设计字-词融合方式的角度进行的，进而更加充分利用的上词信息特征
2. 如何改造模型本身来更好的兼容字-词进行融合

## 各paper的一句话内容

| 方法          | 一句话内容                                                                                           | 优缺点                                                      |
| ----------- | ----------------------------------------------------------------------------------------------- | -------------------------------------------------------- |
| LatticeLSTM | "词汇增强"的开山鼻祖，设计改造了LSTM的门结构做到的字词的融合                                                               | 效率低，不能batch训练；存在信息缺失                                     |
| WC-LSTM     | 在LatticeLSTM基础上，提出了4种不同的挂词策略，使得可以batch训练；双向的LSTM分别做了正向、反向不同挂词逻辑                                 | 改进了LatticeLSTM不能batch的问题；但仍然存在信息缺失                       |
| SoftLexicon | 在WC-LSTM基础上，更进一步提出了BMES的挂词逻辑，解决信息缺失的问题；同时，所设计的核心思想脱离了模型相关，可迁移应用到任何的模型结构上                        | 改进了WC-LSTM的信息缺失问题；模型无关                                   |
| FLAT        | "网格式"挂词逻辑改成了"展平式"挂词逻辑，然后通过attention进行信息交互；改造了原Transformer，设计了4种不同的相对位置编码                        | 把Transformer拉入进来提高了模型的拟合能力；改用attention进行字词融合，无信息缺失       |
| LEBERT      | 原WC-LSTM的作者，改进了信息缺失的问题，挂的词表内使用attention进行信息交互；改造了原Transformer，增加了Lexicon Adapter结构，魔改结构增强适配字词融合 | 引入预训练的强大能力，更进一步强化模型能力；改进了原信息缺失问题；魔改增强了Transformer的字词融合能力 |

目前，我司线上的模型：

是使用了SoftLexicon的字-词融合方式，主要是因为它模型无关，可以很容易的迁移到原线上模型结构 ，且充分利用上了词的信息，与字输入进行交互；

而没有使用Transformer-based的结构，主要原因是：目前的线上模型的充分设计后的参数量已经比较大了，拟合能力已经完全满足业务需求，Transformer确实能提高模型精度，但带来的开销过大，精度与开销比，不是很接受，所以弃用此Transformer-based的相关方案。。

> 写在最后，黑猫白猫，拿着耗子都是好猫，paper的各路学者提供了充分的脑洞"开发"，常保持跟踪业内的最新研究进展，有助于提升实际落地实施的能力和知识储备。。
