Skip to content

Latest commit

 

History

History
76 lines (53 loc) · 2.99 KB

README_CN.md

File metadata and controls

76 lines (53 loc) · 2.99 KB

English | 简体中文

为了用户更好的使用DeepKE完成实体识别任务,我们提供一个简单易用的基于词典匹配的实体识别自动标注工具

词典

  • 词典格式如下所示:

  • 预提供了两个实体词典(中英文各一个),使用实体词典+jieba词性标注对样本进行自动标注。

    • 中文示例词典中, 我们采用(人民日报)数据集. 它是NER相关的数据集,包含人员 (PER)、位置 (LOC) 和组织 (ORG) 相关的命名实体识别。

    • 英文示例词典中,我们采用Conll数据集。它包含人员 (PER)、位置 (LOC) 和其他 (MISC) 相关的命名实体识别。你可通过如下命令获得Conll数据集

    wget 120.27.214.45/Data/ner/few_shot/data.tar.gz
  • 若需要构建领域自建词典,请参照预提供词典格式(csv)

    实体 词性
    杭州 LOC
    ... ...

源文件

  • 输入的词典格式为csv(包含两列,分别是实体以及对应的标签)。

  • 待自动打标的数据(txt格式按行分隔,如下图所示)应放在source_data路径下,脚本会遍历此文件夹下的所有txt格式的文件,逐行进行自动打标。具体示例如下:

输出文件

  • 输出文件包含三个:example_train_cn.txt, example_dev_cn.txt, example_test_cn.txt,分别对应训练集、验证集和测试集。我们自动将源文件数据划分为三份,比例为0.8:0.1:0.1。输出文件的格式如下:

环境

运行环境:

  • jieba = 0.42.1

参数解释

  • language: 可选cn(中文)或en(英文)
  • source_dir: 语料库路径(遍历此文件夹下的所有txt格式的文件,逐行进行自动打标,默认为source_data
  • dict_dir: 实体词典路径(默认为vocab_dict.csv
  • test_rate, dev_rate, test_rate: 训练集、验证集、测试集占比(请确保总和为1,默认0.8:0.1:0.1

运行

  • 中文
python prepare_weaksupervised_data.py --language cn --dict_dir vocab_dict_cn.csv
  • 英文
python prepare_weaksupervised_data.py --language en --dict_dir vocab_dict_en.csv