overview
命名实体识别任务(NER)是几乎所有NLP应用场景下的最核心任务之一,覆盖到:会话系统、智能客服、知识图谱、细粒度情感分析、事件抽取。
1:中文NER任务的特点
中文无分词边界,分词存在误差
与英文NER相比,中文NER通常采取基于字符的方式。究其缘由,由于中文分词存在误差,所以基于字符的NER系统通常好于基于词汇(经过分词)的方法。
字粒度信息缺乏语义信息
虽然字粒度通常好于基于词汇的的方法,但是,从中文的角度,使用字符的NER是没有使用到词汇信息的,不成词的单字没有严格的语义含义,而NER任务又是对于实体边界非常敏感的任务。
在基于字符的NER系统中引入词汇信息,是近年来NER的研究重点。这种引入词汇的方法一般称为"词汇增强",即引入词汇信息可以增强NER性能。
2:近些年的中文NER的经典佳作
这里整理了共计6篇的经典paper,按照会议的录用时间,顺序排序如下:
Lattice LSTM: Chinese NER Using Lattice LSTM(ACL 2018)
WC-LSTM: An Encoding Strategy Based Word-Character LSTM for Chinese NER Lattice LSTM(NAACL 2019)
Simple-Lexicon: Simplify the Usage of Lexicon in Chinese NER(ACL 2020)
FLAT: Chinese NER Using Flat-Lattice Transformer(ACL 2020)
Porous Lattice Transformer Encoder for Chinese NER(ACL 2020)
LEBERT: Lexicon Enhanced Chinese Sequence Labelling Using BERT Adapter(ACL2021)
PS:我排除了一些Graph NetWork有关的paper(主要是感觉模型略微有一些花哨,我又不是很涉略图神经网络)后面有精力想拓展的可以再进行展开:
CGN: Leverage Lexical Knowledge for Chinese Named Entity Recognition via Collaborative Graph Network( EMNLP2019)
LGN: A Lexicon-Based Graph Neural Network for Chinese NER(EMNLP2019)
Multi-digraph: A Neural Multi-digraph Model for Chinese NER with Gazetteers(ACL2019)
最后更新于