CtrlK

NRE

1. 基于RNN的模型

下面2个模型都是算全监督学习下的模型范畴，并不涉及到MIL（多示例学习/远程监督）。

模型1.1：bi-LSTM on RE

论文连接：Zhang (2015). Relation classification via recurrent neural network.

1.1.1 模型创新点

其实，但从模型上来看，这压根就是一个标准的bi-LSTM模型的，这里面比较亮的创新点在于：

对于实体对显示的添加了Position indicators（位置指示符）；
<e1>people<\e1>have been moving back into <e2>downtown<\e2>。
就是直接在原句子中增加了2个字符的起始与停止的位置，然后就没有然后了。
对于bi-LSTM的处理：是直接将前向的output和后向output进行加和处理的：
$h_t = h_t^{fw}+h_t^{fw}$
PS：其实如果想做对比组试验的话，也可以使用拼接处理的。
在bi-LSTM后面添加的Max-Pooling操作的；
在原文中的解释是说：“RNN的反复连接的积累往往会很快忘记长期的信息，并且由于梯度消失的烦人问题，句子结尾的监督很难传播到模型训练的早期步骤。”
并且也阐述了选择Max-Pooling而非Mean-Pooling的原因：“作者认为句子中的关键词对于关系分类更重要，因此选择Max-Pooling”。

1.1.2 模型效果

从自身来看的话，加了Position indicators（位置指示符）还是起到了很好的效果的。

而且对于RNN来讲，单单增加了max-pooling后，效果提升就非常明显了，还是有说法的！

与其他模型比较来看的话，和使用多尺寸卷积核的CNN效果是持平的。（那个模型在CNN for RE中会详细分析到的）

模型1.2：Att-bi-LSTM on RE

文章链接：Zhou. (2016). Attention-Based Bidirectional Long Short-Term Memory Networks for Relation Classification.

1.2.1 模型创新点

模型称得上创新点也称不上创新点的：也就是在bi-LSTM上加attention了，这个应该算是attention is all you need之后的模型常规操作了，所以感觉模型创新点就很弱了，其他操作就和问题1中的模型完全一样的（当前去除了max-pooling）。

加的Attention应该算是self-attention吧（还是简化版的）？——后面补充上Attention的原理知识后，回到这里进行确认【TODO 待确认】！！

Attention Layer：其实就是一个对LSTM的每一个step的输出做一个加权的过程，而非仅仅只取最后一个step。设H为bi-LSTM所有step的输出矩阵，然后做如下操作后，得到最终attention计算后的weight vector：

1.2.2 模型效果

感觉就是基本操作，没啥可太多评价，让人眼前一亮的地方，因为模型其实并没有针对于关系抽取做出太多眼前一亮的设计思路，所以，结果比较，，看看就好！

2. 基于CNN的模型

参考资料：https://shomy.top/2018/02/28/relation-extraction/

模型2.1： PCNN模型

Zeng et al.,2015《Distant Supervision for Relation Extraction via Piecewise Convolutional Neural Networks》

模型2.2: PECNN模型

参考资料：https://cloud.tencent.com/developer/news/197006

Yunlun Yang et al.,2016 《A Position Encoding Convolutional Neural Network Based on Dependency Tree for Relation Classification》

上一页NER 下一页远程监督

最后更新于5年前

这有帮助吗？