知识图谱课程设计 - 电影知识图谱构建 - 第15组

使用方法

将原始dump文件切分为页面

mv ./data/wiki.xml ./data/page.xml
python XML_split.py ./data/page.xml page 1
rm ./data/page.xml

筛选电影相关页面（类别推断）
```
python filter.py
```
- 页面按类别保存于./filtered_data/actor/page*.xml、./filtered_data/director/page*.xml、./filtered_data/writer/page*.xml
根据已有本体进行事实抽取
```
python fact_extract.py
```
- 得到的初步图谱数据保存于./graph/graph_base.csv
属性清洗
```
python data_normalize.py
```
- 得到的清洗后图谱数据保存于./graph/graph.csv
补全、可视化等
- 将图谱csv文件导入至neo4j中进行后续操作（详见报告）
- ./graph/graph.csv去除一些特殊字符后得到./graph/graph.csv
- 运行neo4j服务器
- 导入节点
```
python visualize.py
```

Name		Name	Last commit message	Last commit date
Latest commit History 2 Commits
graph		graph
LICENSE		LICENSE
Presentation.pdf		Presentation.pdf
README.md		README.md
Report.pdf		Report.pdf
XML_split.py		XML_split.py
convert.py		convert.py
data_normalize.py		data_normalize.py
fact_extract.py		fact_extract.py
filter.py		filter.py
improved_extract.py		improved_extract.py
norm_utils.py		norm_utils.py
requirements.txt		requirements.txt
utils.py		utils.py
visualize.py		visualize.py