Skip to content

ZhiWenMo/Duel2020_solution

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

4 Commits
 
 
 
 
 
 
 
 

Repository files navigation

千言-面向中文短文本实体链接比赛方案分享

项目描述

主要流程描述:

  1. 指称项分类模型。输入指称项和包含指称项的原文本拼接,输出指称项的类型。
  2. 候选实体召回。遍历知识库,把知识库实体的关系转化为:“实体id-实体信息” 和 “实体指称-实体id” 的映射。从原文本的mention文本出发,根据“实体指称-实体id”匹配实体文本召回候选实体。
  3. 候选实体特征提取。首先用指称项分类模型,来预测输入数据的指称项的实体类型。根据候选实体召回结果,对于有召回的实体:用“实体id-实体信息”提取处实体信息,按顺序组织实体信息的文本内容后拼接原始文本丰富实体的语义信息,最后把指称项的实体类型加入构成完整的实体候选集合。对于无召回的实体,就无需进行候选实体排序,直接与排序结果进行后处理整合即可。
  4. 候选实体排序模型。输入标记指称项的原始文本和候选实体信息的拼接,输出指称项和候选实体的匹配程度。
  5. 后处理。整合“候选实体排序模型”和“指称项分类模型”的输出结果,生成最后的提交结果。

项目结构

-|data
-|work
-README.MD
-Duel2020_solution.ipynb

使用方式

在AI Studio上运行本项目

About

No description, website, or topics provided.

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published