GithubHelp home page GithubHelp logo

guanngxu / economic_audit_knowledge_graph Goto Github PK

View Code? Open in Web Editor NEW
122.0 5.0 52.0 97.84 MB

经济责任审计知识图谱:网络爬虫、关系抽取、领域词汇判定

Python 16.61% Shell 0.03% HTML 8.70% CSS 13.83% JavaScript 60.33% PHP 0.02% Makefile 0.01% CoffeeScript 0.31% Java 0.16%
neo4j java knowledge-graph spider

economic_audit_knowledge_graph's Introduction

经济责任审计知识图谱

此项目不再维护,由于当时水平有限,里面代码写的极其糟糕,几百行的函数等等都是不符合设计的,希望小伙伴不要把这种习惯带入到自己的代码中。你可以通过从具体案例了解知识图谱构建流程大致了解流程。项目始于 2018-02,终于 2018-05。原本计划毕业后继续整理,奈何自己的懒惰遇上了工作的繁忙,此后便没有继续整理,索性将当时的毕业论文与后期没有完成的书籍贴上来,供大家参考。

写书的计划是我还没有毕业时与电子工业出版编辑找到我希望能写一本书,因为内容中涉及到大量爬虫,而且爬目标网站是政府网站(不允许爬),加之 19 年网上时不时曝出某某程序员因爬虫而入狱的故事,出版社和我难免不会恐惧。

我做毕设时有一部分数据来源于导师,这部分数据属于涉密数据,总之就是各种因素加在一起这本书的出版计划泡汤了,书籍存放的是第一、二、三章的内容,当然前三章还有部分内容没有完成,但主体内容已经完备,是一个不错的参考。

第四章没有写,第五章主要是关于 Neo4J 数据库的相关知识,这些内容您可以通过网络博客轻松查到;第六章计划内容是该知识图谱可视化的实现,准备使用 tornado + vue 重新实现(程序中所给的不是这种实现方式),web 相关的内容你也可以在网上轻松查到,如果您花时间重新实现了 web 程序,欢迎您提交您的代码。

程序

存放经济责任审计知识图谱构建过程中的所有程序

数据

存放最终使用的数据

论文

我的毕业论文

书籍

未写完的书籍

说明

数据来源

所有实体数据来源于互动百科

关系数据分两部分,一部分是从wikidata中直接爬的

另一部分是使用程序抽取的事实三元组,将所有新闻数据和词条解释都进行实体关系抽取

事实三元组抽取程序传送门:基于依存分析的实体关系抽取程序

构建流程

image

效果展示

实体查询

image

image

关系查询

image

image

image

使用

数据文件夹中的数据导入neo4j数据库

实体信息导入程序:https://github.com/mengxiaoxu/economic_audit_knowledge_graph/tree/master/程序/实体信息导入程序

关系数据导入:

# 导入关系数据
LOAD CSV  WITH HEADERS FROM "file:///relation.csv" AS line
MATCH (entity1:Hudong{title:line.Hudong1}) , (entity2:Hudong{title:line.Hudong2})
CREATE (entity1)-[:RELATION { type: line.relation }]->(entity2)

# 添加索引
CREATE CONSTRAINT ON (c:Hudong)
ASSERT c.title IS UNIQUE

可以参考:农业知识图谱说明

感谢

汉语言处理包HanLP

中文文本分类

农业知识图谱

事实三元组抽取

开放中文实体关系抽取

中文自然语言处理相关资料

economic_audit_knowledge_graph's People

Contributors

guanngxu avatar

Stargazers

 avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar

Watchers

 avatar  avatar  avatar  avatar  avatar

economic_audit_knowledge_graph's Issues

一个小问题,请指教

请问一下你的流程图里面那个从文本分类模型到领域词库是如何做到的,另外就是如何从互动百科“获取领域词条信息10w个”,这里是将爬的文章分词再丢到互动百科去看有没有吗?如果是这样的话,如果分词不准该怎么办呢?谢谢指教。

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.