GithubHelp home page GithubHelp logo

pwxcoo / chinese-xinhua Goto Github PK

View Code? Open in Web Editor NEW
10.7K 312.0 2.5K 35.42 MB

:orange_book: 中华新华字典数据库。包括歇后语,成语,词语,汉字。

License: MIT License

Python 76.31% Jupyter Notebook 23.69%
data scraper chinese-traditional python3 chinese chinese-characters chinese-nlp chinese-language chinese-simplified json-dataset

chinese-xinhua's People

Contributors

pwxcoo avatar t-xiwu avatar zscn avatar

Stargazers

 avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar

Watchers

 avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar

chinese-xinhua's Issues

中文参数被encodeURI转码后返回数据为空

使用axios发送请求,例如查询成语‘兴高采烈’,查看控制台请求详情,汉字被encodeURI编码了,返回的数据为空,请问这个问题如何解决呢?我是新手,还望不吝赐教,非常感谢!

download

下载下来,解压文件破损

博主,你好,请问此字库不维护了吗?

博主,你好,

请问不维护字库了吗?

看日期已经有一些日子没有更新字库了。

PS:我已经拿过来准备弄一些平舌音的功能,免费开放出去,供学普通话者使用(-_-好多app此类收费真是贵,测试一次要4元RMB,我是真心穷)。但我发现有些常用字不存在、有些多音字分成了两条数据。取数据时有点麻烦。我准备合并成一条数据。希望博主一起维护吧。

成语json数据重复

数据表设置为一键时发现,大约有1000个左右
没有统计大概有:
因材施教
愚不可及
雨打风吹(四次重复)
与世沉浮
于虎某皮
玉不琢,不成器(三次重复)
狱货非宝
玉叶金枝
浴血奋战
还用很多很多很多
建议过滤一下

成语的出处全部缺少上引号

成语的json文件中的出处全部缺少了上引号,由于很多出处不是在右书名号后加上引号,而是应该在“回”后加上引号,导致本地修改异常麻烦,不知能否再完善一下?

数据请求次数

接口请求次数有限制吗?还有能不能支持模糊查询?

”蝚“字的拼音错误

{
    "word": "蝚",
    "oldword": "蝚",
    "strokes": "8",
    "pinyin": "kūn",
    "radicals": "",
    "explanation": "蝚kūn 1.虫的总名。今通作\"昆\"。",
    "more": "搜索与“蝚”有关的包含有“蝚”字的成语 查找以“蝚”打头的成语接龙"
},

”蝚“字的拼音不是"kūn",应该为"róu"

成语拼音标注错误

在尝试写成语接龙程序中发现的拼音标注错误:

成语 原文标注 应为
独清独醒 dúu qīng dú xǐng dú qīng dú xǐng
关东出相,关西出将 guēn dōng chū xiàng, guān xī guān dōng chū xiàng, guān xī chū jiàng
关门闭户 guēn mén bì hù guān mén bì hù
九回肠 jiǔì huí cháng jiǔ huí cháng

部分拼音错误

可能还有其他的,处理时用pypyin库对比时发现,下面列举几个

挨家挨户 āi ji āi hù
苍白无力 āng bái búi lì
风云变幻 fēng yún bià huàn

typo

"riddle": "拽(zhu",
"answer": "i拉)着大嫂叫姑姑"

你好,我是**网警!

请于3日内到所在管辖区域派出所报到!否则视为逃犯,将发布国际一级红色通缉令!谨记!

没有【两情相悦】

如题,部分成语收录不全,比如没有【两情相悦】,建议爬虫和数据分别使用不同的仓库,这样便于补全数据

与商务出版社官方的新华字典数据差异

首先感谢楼主在资料整理上的辛苦和贡献,有没有研究过与商务出版社官方的新华字典数据差异?新华字典最权威的版本出自商务出版社,其它出版社多少都有点问题。我们想构建一个中文学习基础平台所以需要一份权威数据。如有答复将非常感谢!

ci.json格式有问题

用Visual Studio Code 打开ci.json有问题

其他几个文件(iditom.json,word.json)打开会自动格式化(排版) ci.json不会

脚本的requests建议用连接池

s = requests.session()
s.get()

有一个脚本是多线程的,根据我查到的资料来看session不支持线程安全,必须每个线程用一个,就没有意义了。

其余脚本我虽然可以改,但是owner似乎没有积极维护,所以我就不开PR了。

多音字

每个汉字的pinyin字段应该是一个数组

成语接龙首字匹配

成语接龙的规则应该是后者接前者的最后一个字的发音,不包括音调,更不是汉字。因为没有纯音节的字段,所以无法这样查找,所做出来的成语接龙很受局限

貌似有重复的

就拿兴高采烈来说 有两条数据 唯一不同的就是 example 字段的最后一句 也希望能对数据做一些优化处理 很不错的项目

你好,请与上海市徐汇分局联系

算了,不要联系了,直接自己买付手铐过来吧,带点随身衣物,不要超过2公斤,门口有称重,超重罚款。
温馨提示,带个充电宝,否则你会无聊致死。

数据源的问题?

您好,我想请教一下的 你抓取的数据源是什么网站呢?

我这边想做一个划词翻译的中文 的插件,想看看数据源的数据是长什么样的 ? 在看看版权啊。 现在好多汉字都不认识 😅

为什么要导出 json 格式的文件呢?

为什么要导出 json 格式的文件呢?请教下使用的时候要怎么用?之前你开放的 api 接口是将数据导入到库里的吗?有使用全文搜索引擎吗?

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.