# 平安科技

## 第1部分：项目问的内容

### 1.1 相似句判定项目

1.让我解释一下特征提取为什么是用OneHot，这块我可能笔误了，其实是word2vec

2.我的数据增强是怎么做的？

3.在提取特征之后，做的3种不同的特征，q1-q2,q1\*q2,max(q1,q2)^2都是啥意义？

4.增加了这些特征之后，对于精度有什么样的影响？

4.我一正例负例的采样是怎么构建的？（他可能当成我是个ranking的任务了）

5.问我知道ranking loss么？都有哪些ranking loss？我用的是什么loss？

6.拿到这个任务，为什么选择孪生网络来建模？

### 1.2 知识图谱项目

1.实体有多少个种类？训练数据样本是多大的？总共实体个数是多少？怎么进行标注数据的？关系又是多少种？怎么标的数据？

2.F1分数里面的，p和recall是怎么样的？

3.在bilstm-crf这里面加的attention的q/k/v都是啥？

4.对于PCNN的这块特征构建是怎么弄的？详细解释一下？postion Embedding是怎么来的？上下位词是依据什么得到的上下位词？（其实是前后词的Embedding）那这个前后词是一个字、还是一个词、还是一个实体？如果2个实体是挨着的话，那送入的是什么？如果刚好实体在最后呢，前后词怎么办呢？

5.这里看到用的是CRF，那解释一下CRF和HMM的区别？

## 第2部分：Python基础问题

1.深拷贝浅拷贝？一个类的进行了实例化为了a后，b对a进行了拷贝，那在b上做的操作会影响到a么？

2.字符串的判定is还是==的区别？

3.list添加元素有哪些，insert和apend在时间效率上的区别

4.如果换用链表的话，insert和append的效率上的区别嘞

5.dict如果想要判定是否存在某一个key，如果不存在的话，插入一个。怎么做？除了用迭代keys的查索引的话，还会用dict本身的什么方法？(get)

6.用python去做线程和进程能讲讲么？

7.用过redis内存数据库么？（上学时候用过，可是都忘了）

8.看到用albert，能解释一下albert与bert的区别么？

9.为什么选用albert，而不是roberta、xlnet其他的呢？那你这个项目是个离线做的？（解释了一下为什么我只是离线做了这个，没有提交线上docker）
