README.zh-CN.md · main · cehn-2025/eseydataset

cehn-2025/eseydataset

Public

WeChat Login

Code Issues Pull requests Events Packages Insights

main

eseydataset/README.zh-CN.md

ConardLi<1009903985@qq.com>

fix: readme

134d8cbb

PreviewCode viewBlame

GitHub Downloads (all assets, all releases)

一个强大的大型语言模型微调数据集创建工具

简体中文 | English

功能特点 • 快速开始 • 使用文档 • 贡献 • 许可证

如果喜欢本项目，请给本项目留下 Star⭐️，或者请作者喝杯咖啡呀 => 打赏作者 ❤️！

概述

Easy Dataset 是一个专为创建大型语言模型（LLM）微调数据集而设计的应用程序。它提供了直观的界面，用于上传特定领域的文件，智能分割内容，生成问题，并为模型微调生成高质量的训练数据。

通过 Easy Dataset，您可以将领域知识转化为结构化数据集，兼容所有遵循 OpenAI 格式的 LLM API，使微调过程变得简单高效。

功能特点

智能文档处理：支持 PDF、Markdown、DOCX 等多种格式智能识别和处理
智能文本分割：支持多种智能文本分割算法、支持自定义可视化分段
智能问题生成：从每个文本片段中提取相关问题
领域标签：为数据集智能构建全局领域标签，具备全局理解能力
答案生成：使用 LLM API 为每个问题生成全面的答案、思维链（COT）
灵活编辑：在流程的任何阶段编辑问题、答案和数据集
多种导出格式：以各种格式（Alpaca、ShareGPT）和文件类型（JSON、JSONL）导出数据集
广泛的模型支持：兼容所有遵循 OpenAI 格式的 LLM API
用户友好界面：为技术和非技术用户设计的直观 UI
自定义系统提示：添加自定义系统提示以引导模型响应

快速演示

https://github.com/user-attachments/assets/6ddb1225-3d1b-4695-90cd-aa4cb01376a8

本地运行

下载客户端

Windows	MacOS		Linux
Setup.exe	Intel	M	AppImage

使用 NPM 安装

克隆仓库：


   git clone https://github.com/ConardLi/easy-dataset.git
   cd easy-dataset

安装依赖：


   npm install

启动开发服务器：


   npm run build

   npm run start

打开浏览器并访问 http://localhost:1717

使用官方 Docker 镜像

克隆仓库：


git clone https://github.com/ConardLi/easy-dataset.git
cd easy-dataset

更改 docker-compose.yml 文件：


services:
  easy-dataset:
    image: ghcr.io/conardli/easy-dataset
    container_name: easy-dataset
    ports:
      - '1717:1717'
    volumes:
      - ${LOCAL_DB_PATH}:/app/local-db
      - ${LOCAL_PRISMA_PATH}:/app/prisma
    restart: unless-stopped

注意： 请将 {YOUR_LOCAL_DB_PATH}、{LOCAL_PRISMA_PATH} 替换为你希望存储本地数据库的实际路径，建议直接使用当前代码仓库目录下的 local-db 和 prisma 文件夹，这样可以和 NPM 启动时的数据库路径保持一致。

注意： 如果需要挂载数据库文件（PRISMA），需要提前执行 npm run db:push 初始化数据库文件。

使用 docker-compose 启动


docker-compose up -d

打开浏览器并访问 http://localhost:1717

使用本地 Dockerfile 构建

如果你想自行构建镜像，可以使用项目根目录中的 Dockerfile：

克隆仓库：


git clone https://github.com/ConardLi/easy-dataset.git
cd easy-dataset

构建 Docker 镜像：


docker build -t easy-dataset .

运行容器：


docker run -d \
  -p 1717:1717 \
  -v {YOUR_LOCAL_DB_PATH}:/app/local-db \
  -v {LOCAL_PRISMA_PATH}:/app/prisma \
  --name easy-dataset \
  easy-dataset

注意： 请将 {YOUR_LOCAL_DB_PATH}、{LOCAL_PRISMA_PATH} 替换为你希望存储本地数据库的实际路径，建议直接使用当前代码仓库目录下的 local-db 和 prisma 文件夹，这样可以和 NPM 启动时的数据库路径保持一致。

注意： 如果需要挂载数据库文件（PRISMA），需要提前执行 npm run db:push 初始化数据库文件。

打开浏览器，访问 http://localhost:1717

使用方法

创建项目

在首页点击"创建项目"按钮；
输入项目名称和描述；
配置您首选的 LLM API 设置

处理文档

在"文本分割"部分上传您的文件（支持 PDF、Markdwon、txt、DOCX）；
查看和调整自动分割的文本片段；
查看和调整全局领域树

生成问题

基于文本块批量构造问题；
查看并编辑生成的问题；
使用标签树组织问题

创建数据集

基于问题批量构造数据集；
使用配置的 LLM 生成答案；
查看、编辑并优化生成的答案

导出数据集

在数据集部分点击"导出"按钮；
选择您喜欢的格式（Alpaca 或 ShareGPT）；
选择文件格式（JSON 或 JSONL）；
根据需要添加自定义系统提示；
导出您的数据集

文档

有关所有功能和 API 的详细文档，请访问我们的文档站点
查看本项目的演示视频：Easy Dataset 演示视频
查看本项目的论文：Easy Dataset: A Unified and Extensible Framework for Synthesizing LLM Fine-Tuning Data from Unstructured Documents

社区教程

贡献

我们欢迎社区的贡献！如果您想为 Easy Dataset 做出贡献，请按照以下步骤操作：

Fork 仓库
创建新分支（git checkout -b feature/amazing-feature）
进行更改
提交更改（git commit -m '添加一些惊人的功能'）
推送到分支（git push origin feature/amazing-feature）
打开 Pull Request（提交至 DEV 分支）

请确保适当更新测试并遵守现有的编码风格。

加交流群 & 联系作者

https://docs.easy-dataset.com/geng-duo/lian-xi-wo-men

许可证

本项目采用 AGPL 3.0 许可证 - 有关详细信息，请参阅 LICENSE 文件。

引用

如果您觉得此项目有帮助，请考虑以下列格式引用


@misc{miao2025easydataset,
  title={Easy Dataset: A Unified and Extensible Framework for Synthesizing LLM Fine-Tuning Data from Unstructured Documents},
  author={Ziyang Miao and Qiyu Sun and Jingyuan Wang and Yuchen Gong and Yaowei Zheng and Shiqi Li and Richong Zhang},
  year={2025},
  eprint={2507.04009},
  archivePrefix={arXiv},
  primaryClass={cs.CL},
  url={https://arxiv.org/abs/2507.04009}
}

Star History

_{由 ConardLi 用 ❤️ 构建 • 关注我：公众号｜B站｜掘金｜知乎｜Youtube}

35/F,Tencent Building,Kejizhongyi Avenue,Nanshan District,Shenzhen

京ICP备11018762号-111