千言-面向中文短文本实体链接比赛方案分享

项目描述

主要流程描述：

指称项分类模型。输入指称项和包含指称项的原文本拼接，输出指称项的类型。
候选实体召回。遍历知识库，把知识库实体的关系转化为：“实体id-实体信息” 和 “实体指称-实体id” 的映射。从原文本的mention文本出发，根据“实体指称-实体id”匹配实体文本召回候选实体。
候选实体特征提取。首先用指称项分类模型，来预测输入数据的指称项的实体类型。根据候选实体召回结果，对于有召回的实体：用“实体id-实体信息”提取处实体信息，按顺序组织实体信息的文本内容后拼接原始文本丰富实体的语义信息，最后把指称项的实体类型加入构成完整的实体候选集合。对于无召回的实体，就无需进行候选实体排序，直接与排序结果进行后处理整合即可。
候选实体排序模型。输入标记指称项的原始文本和候选实体信息的拼接，输出指称项和候选实体的匹配程度。
后处理。整合“候选实体排序模型”和“指称项分类模型”的输出结果，生成最后的提交结果。

-|data
-|work
-README.MD
-Duel2020_solution.ipynb

Name		Name	Last commit message	Last commit date
Latest commit History 4 Commits
Duel2020_solution.ipynb		Duel2020_solution.ipynb
LICENSE		LICENSE
README.md		README.md
requirements.txt		requirements.txt