中文NER总结
总共看过了5篇近些年的中文NER的核心思路,下面对这些paper进行一个汇总总结:
对于中文NER,paper的写作方向都是基于"词汇增强"来展开的,花式的设计字-词融合方式的角度进行的,进而更加充分利用的上词信息特征
如何改造模型本身来更好的兼容字-词进行融合
各paper的一句话内容
方法 | 一句话内容 | 优缺点 |
---|---|---|
LatticeLSTM | "词汇增强"的开山鼻祖,设计改造了LSTM的门结构做到的字词的融合 | 效率低,不能batch训练;存在信息缺失 |
WC-LSTM | 在LatticeLSTM基础上,提出了4种不同的挂词策略,使得可以batch训练;双向的LSTM分别做了正向、反向不同挂词逻辑 | 改进了LatticeLSTM不能batch的问题;但仍然存在信息缺失 |
SoftLexicon | 在WC-LSTM基础上,更进一步提出了BMES的挂词逻辑,解决信息缺失的问题;同时,所设计的核心思想脱离了模型相关,可迁移应用到任何的模型结构上 | 改进了WC-LSTM的信息缺失问题;模型无关 |
FLAT | "网格式"挂词逻辑改成了"展平式"挂词逻辑,然后通过attention进行信息交互;改造了原Transformer,设计了4种不同的相对位置编码 | 把Transformer拉入进来提高了模型的拟合能力;改用attention进行字词融合,无信息缺失 |
LEBERT | 原WC-LSTM的作者,改进了信息缺失的问题,挂的词表内使用attention进行信息交互;改造了原Transformer,增加了Lexicon Adapter结构,魔改结构增强适配字词融合 | 引入预训练的强大能力,更进一步强化模型能力;改进了原信息缺失问题;魔改增强了Transformer的字词融合能力 |
目前,我司线上的模型:
是使用了SoftLexicon的字-词融合方式,主要是因为它模型无关,可以很容易的迁移到原线上模型结构 ,且充分利用上了词的信息,与字输入进行交互;
而没有使用Transformer-based的结构,主要原因是:目前的线上模型的充分设计后的参数量已经比较大了,拟合能力已经完全满足业务需求,Transformer确实能提高模型精度,但带来的开销过大,精度与开销比,不是很接受,所以弃用此Transformer-based的相关方案。。
写在最后,黑猫白猫,拿着耗子都是好猫,paper的各路学者提供了充分的脑洞"开发",常保持跟踪业内的最新研究进展,有助于提升实际落地实施的能力和知识储备。。
最后更新于