平安科技
第1部分:项目问的内容
1.1 相似句判定项目
1.让我解释一下特征提取为什么是用OneHot,这块我可能笔误了,其实是word2vec
2.我的数据增强是怎么做的?
3.在提取特征之后,做的3种不同的特征,q1-q2,q1*q2,max(q1,q2)^2都是啥意义?
4.增加了这些特征之后,对于精度有什么样的影响?
4.我一正例负例的采样是怎么构建的?(他可能当成我是个ranking的任务了)
5.问我知道ranking loss么?都有哪些ranking loss?我用的是什么loss?
6.拿到这个任务,为什么选择孪生网络来建模?
1.2 知识图谱项目
1.实体有多少个种类?训练数据样本是多大的?总共实体个数是多少?怎么进行标注数据的?关系又是多少种?怎么标的数据?
2.F1分数里面的,p和recall是怎么样的?
3.在bilstm-crf这里面加的attention的q/k/v都是啥?
4.对于PCNN的这块特征构建是怎么弄的?详细解释一下?postion Embedding是怎么来的?上下位词是依据什么得到的上下位词?(其实是前后词的Embedding)那这个前后词是一个字、还是一个词、还是一个实体?如果2个实体是挨着的话,那送入的是什么?如果刚好实体在最后呢,前后词怎么办呢?
5.这里看到用的是CRF,那解释一下CRF和HMM的区别?
第2部分:Python基础问题
1.深拷贝浅拷贝?一个类的进行了实例化为了a后,b对a进行了拷贝,那在b上做的操作会影响到a么?
2.字符串的判定is还是==的区别?
3.list添加元素有哪些,insert和apend在时间效率上的区别
4.如果换用链表的话,insert和append的效率上的区别嘞
5.dict如果想要判定是否存在某一个key,如果不存在的话,插入一个。怎么做?除了用迭代keys的查索引的话,还会用dict本身的什么方法?(get)
6.用python去做线程和进程能讲讲么?
7.用过redis内存数据库么?(上学时候用过,可是都忘了)
8.看到用albert,能解释一下albert与bert的区别么?
9.为什么选用albert,而不是roberta、xlnet其他的呢?那你这个项目是个离线做的?(解释了一下为什么我只是离线做了这个,没有提交线上docker)
最后更新于