如果喜欢本项目,请给本项目留下 Star⭐️,或者请作者喝杯咖啡呀 => 打赏作者 ❤️!
Easy Dataset 是一个专为创建大型语言模型(LLM)微调数据集而设计的应用程序。它提供了直观的界面,用于上传特定领域的文件,智能分割内容,生成问题,并为模型微调生成高质量的训练数据。
通过 Easy Dataset,您可以将领域知识转化为结构化数据集,兼容所有遵循 OpenAI 格式的 LLM API,使微调过程变得简单高效。

| Windows | MacOS | Linux | |
Setup.exe |
Intel |
M |
AppImage |
git clone https://github.com/ConardLi/easy-dataset.git
cd easy-dataset
npm install
npm run build npm run start
http://localhost:1717如果你想自行构建镜像,可以使用项目根目录中的 Dockerfile:
克隆仓库:
git clone https://github.com/ConardLi/easy-dataset.git
cd easy-dataset
构建 Docker 镜像:
docker build -t easy-dataset .
运行容器:
docker run -d -p 1717:1717 -v {YOUR_LOCAL_DB_PATH}:/app/local-db --name easy-dataset easy-dataset
注意: 请将 {YOUR_LOCAL_DB_PATH} 替换为你希望存储本地数据库的实际路径。
打开浏览器,访问 http://localhost:1717
![]() | ![]() |
![]() | ![]() |
![]() | ![]() |
![]() | ![]() |
![]() | ![]() |
easy-dataset/ ├── app/ # Next.js 应用目录 │ ├── api/ # API 路由 │ │ ├── llm/ # LLM API 集成 │ │ │ ├── ollama/ # Ollama API 集成 │ │ │ └── openai/ # OpenAI API 集成 │ │ ├── projects/ # 项目管理 API │ │ │ ├── [projectId]/ # 项目特定操作 │ │ │ │ ├── chunks/ # 文本块操作 │ │ │ │ ├── datasets/ # 数据集生成和管理 │ │ │ │ ├── generate-questions/ # 批量问题生成 │ │ │ │ ├── questions/ # 问题管理 │ │ │ │ └── split/ # 文本分割操作 │ │ │ └── user/ # 用户特定项目操作 │ ├── projects/ # 前端项目页面 │ │ └── [projectId]/ # 项目特定页面 │ │ ├── datasets/ # 数据集管理 UI │ │ ├── questions/ # 问题管理 UI │ │ ├── settings/ # 项目设置 UI │ │ └── text-split/ # 文本处理 UI │ └── page.js # 主页 ├── components/ # React 组件 │ ├── datasets/ # 数据集相关组件 │ ├── home/ # 主页组件 │ ├── projects/ # 项目管理组件 │ ├── questions/ # 问题管理组件 │ └── text-split/ # 文本处理组件 ├── lib/ # 核心库和工具 │ ├── db/ # 数据库操作 │ ├── i18n/ # 国际化 │ ├── llm/ # LLM 集成 │ │ ├── common/ # 通用 LLM 工具 │ │ ├── core/ # 核心 LLM 客户端 │ │ └── prompts/ # 提示词模板 │ │ ├── answer.js # 答案生成提示词(中文) │ │ ├── answerEn.js # 答案生成提示词(英文) │ │ ├── question.js # 问题生成提示词(中文) │ │ ├── questionEn.js # 问题生成提示词(英文) │ │ └── ... 其他提示词 │ └── text-splitter/ # 文本分割工具 ├── locales/ # 国际化资源 │ ├── en/ # 英文翻译 │ └── zh-CN/ # 中文翻译 ├── public/ # 静态资源 │ └── imgs/ # 图片资源 └── local-db/ # 本地文件数据库 └── projects/ # 项目数据存储
我们欢迎社区的贡献!如果您想为 Easy Dataset 做出贡献,请按照以下步骤操作:
git checkout -b feature/amazing-feature)git commit -m '添加一些惊人的功能')git push origin feature/amazing-feature)请确保适当更新测试并遵守现有的编码风格。
本项目采用 Apache License 2.0 许可证 - 有关详细信息,请参阅 LICENSE 文件。