GithubHelp home page GithubHelp logo

xycjscs / knowledgebase-xiaoyibao Goto Github PK

View Code? Open in Web Editor NEW
4.0 1.0 2.0 429 KB

这是xiaoyibao扩展项目中的知识库项目,用于存储生成RAG所需的医疗专业资料。

Home Page: https://github.com/PancrePal-xiaoyibao/PancrePal-xiaoyibao.git

License: Apache License 2.0

HTML 5.23% TypeScript 87.21% MDX 7.56%

knowledgebase-xiaoyibao's Introduction

KnowledgeBase-xiaoyibao

Data submission Web deployment PDF downloader

这是 xiaoyibao 扩展项目中的知识库项目,用于存储生成 RAG 所需的医疗专业资料。

Open in GitHub Codespaces Open in Gitpod

你可以在此获得什么?

最终获益者为患者;仓库直接使用者为小胰宝或其他开源项目的技术人员;内容贡献者为医学相关专家。

面对此仓库,患者和医疗卫生人员可直接在渲染的网站上阅读 pdf 资料;小胰宝相关开发人员可快速构建 RAG 知识库测试 LLM;其他开发人员可获取可用于预训练的专病语料和微调的 QA 对。

数据库目录

访问当前的数据库目录

您可以通过此链接查看并访问我们的数据库目录,以便获取相关的信息和资源。

维基百科形式的协作

文档以维基百科的形式进行协同创作,任何人可以修改文档中的任何内容,包括删减不合适的目录。

安装基础环境

1. 安装 Node.js 和 Git

Windows

winget install OpenJS.NodeJS.LTS Git.Git -h
#
choco install nodejs-lts git -y

Mac

brew install git node@18

Linux

2. 安装 PNPM

npm install pnpm -g

3. 下载源码

cd ~/Desktop
git clone https://github.com/xycjscs/KnowledgeBase-xiaoyibao.git
cd KnowledgeBase-xiaoyibao

4. 安装依赖

pnpm install

数据下载、转换、上传

1. 安装 cURL

Windows

在 CMD 或 PowerShell 等原生命令行中运行需安装 cURL:

winget install cURL.cURL -h
#
choco install curl -y

Mac

已内置。

Linux

已内置。

2. 配置环境变量

在项目根目录的 .env 文件中,将相应变量值替换为你实际使用的值。

3. 执行命令

pnpm tool nutritionDB.yml

详细用法可执行:

pnpm tool -h

Web 前端开发

启动开发环境

npm start

构建生产环境

pnpm build

计划准备

1. 癌症患者营养食谱知识库

对应数据库文件为 nutritionDB.yml

2. 癌症患者心理辅导知识库

对应数据库文件为 PsychologicalDB.yml

3. 高尿酸人群饮食知识库

对应数据库文件为 HyperuricemiaDB.yml

资料通过“下载链接+下载脚本”形式储存。

计划仓库中不同 YAML 文档存储不同的 {标题-说明-链接} 库,README 文件自动读取 YAML 文件渲染首页,下载脚本自动读取 YAML 并执行下载。

待开发功能或资料

  • 自动化 PDF 文档转 Markdown 文本

  • 支持非PDF格式资料:html/doc/xls/txt等

  • QA 对数据库

  • 专业人士审核机制

  • 考虑到LLM开发人员多熟悉Python环境,增加以python实现主要或全部功能

  • 自动将文档更新于一链接

knowledgebase-xiaoyibao's People

Contributors

techquery avatar xycjscs avatar samqin123 avatar

Stargazers

yaowen zhu avatar 张志诚 avatar Richard Lin avatar  avatar

Watchers

 avatar

knowledgebase-xiaoyibao's Issues

PDF 转 Markdown 的可行性

@xycjscs 我看 Read Me 上写了:

自动化 PDF 文档转 Markdown 文本

成熟工具我倒是找好了:

  1. https://github.com/bsorrentino/pdf-tools
  2. https://github.com/opengovsg/pdf2md

但是浏览了现有数据中所有 PDF 链接后,发现大多数文档制作非常精美,有很不规则的图文排版,很适合人类阅读,但不利于程序识别。

所以我的疑问是:做这个功能目的为何?因为现代 Web 浏览器内置 PDF 渲染能力,人类阅读已经非常舒服了,做文本转换是为了给 AI 训练吗?

整合现有数据处理脚本,并支持多种数据源格式

感谢👍 我会尽快试用并精简原有代码。在实践中我们发现大量资料以html形式存在于网络。下载器和转换器未来需要兼容不同格式的文件。不知道您能否帮忙?

HTML 到 Markdown 的转换 JavaScript 工具库就更多了,再加上另一个 Python 上传脚本的逻辑,我其实可以写到一个 Node.js 脚本里,会比现在清晰得多。

最初由 TechQuery 在 #3 (comment) 发布

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.