使用方法

基于源码安装

首先下载源码

git clone https://github.com/everks/dial-clean.git

然后进行安装

cd dial_clean
python setup.py install

最后调用命令即可

dial-clean --raw_dir xxx --out_dir xxx

也可以使用pypi安装

pip install dial-clean

Auguments

除去raw_dir与out_dir外，其他均为可选参数

general

参数	描述
out_dir	清洗后的文件输出目录
raw_dir	待处理文件所在mull
n_p	多进程数
batch_size	单个进程最大处理session数
tool_dir	工具数据所在目录（如黑名单）
raw_format	待处理文件的格式（默认为jsonl，目前可使用jsonl和tsv）
dirty_dir	存储清洗出来的脏数据，如为空则不存

convenient

默认filter_type是all，即所有的filter均启用，用户可以将其设置为custom来手动选择参数

参数	描述
filter_type	通过filter_type可以进行调整(default: all)

session level filter

参数	描述
no_utter_dup	dialog句间去重后如果集合len小于2，则丢弃数据
no_session_ad	根据关键词去除广告
context_filter	根据context内容进行清除(目前去除以vo:或三个以上数字结尾的context)

utter level filter

参数	描述
split_multi_repost	将微博转发数据按"//@aaa XXXX //@bbb XXX"撕开成多句
no_toupiao	判断是否是微博投票
remove_all	去除所有非中文和英文的字符
no_specific_utter	删除一些特定句子（包括图片相关内容）
de_specific	去除句中固定pattern
de_reply_tag	去除微博中 "回复 @XXX:"
de_angle	去除其中XX为非中文
de_url	去除 url
de_weibo_url	去除 http:\t.c
de_brackets	去除某些特定源中的 "[XXX]", 如微博，大部分应该是emoji表情
de_hashtag	去除句中 "# XXX#"
de_emotion	去除句中 ": XXX:"
no_mention	去除包含 @XXX 的句子
de_mention	去除句子中 "@Cindy"， "@Bob:"， "@Amy:" 等
de_single_repost_mention	去掉 "@XXX:"
de_repost	去除句中 "//XXX"
de_showall	去除某些特定源中的 "...显示全部"，如知乎
de_emoji	去除emoji
de_alpha_num	去除长串无意义的数字字母组合
de_phone	将11位以上的连续数字删除
de_qq	去除qq号
cleantext_clean	使用clean-text 清理（电话号、邮箱、unicode错误等）
bert_clean	使用transformers BertTokenizer 中非法字符检查函数清理句子
contain_zh	删掉不包含中文的句子
no_special_topic	过滤包含特定名单词的对话
no_str_blacklist	过滤包含黑名单词的对话
de_duplicated	句中短语降重（待用后缀算法优化）
no_short	去除过短的句子(默认长度为<2)
no_long	去除过长的句子(默认长度为>300)
simplified	将繁体字转换为简体字
punc_regularized	进行标点符号规格化
de_other_brackets	将【】等括号删除，保留中间内容，针对知乎源

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

README.md

README.md

使用方法

基于源码安装

也可以使用pypi安装

Auguments

general

convenient

session level filter

utter level filter

Files

README.md

Latest commit

History

README.md

File metadata and controls

使用方法

基于源码安装

也可以使用pypi安装

Auguments

general

convenient

session level filter

utter level filter