Easy Dataset 是一个专为创建大型语言模型(LLM)微调数据集而设计的应用程序。它提供了直观的界面,用于上传特定领域的文件,智能分割内容,生成问题,并为模型微调生成高质量的训练数据。
通过 Easy Dataset,您可以将领域知识转化为结构化数据集,兼容所有遵循 OpenAI 格式的 LLM API,使微调过程变得简单高效。

https://github.com/user-attachments/assets/6ddb1225-3d1b-4695-90cd-aa4cb01376a8
| Windows | MacOS | Linux | |
Setup.exe |
Intel |
M |
AppImage |
git clone https://github.com/ConardLi/easy-dataset.git
cd easy-dataset
npm install
npm run build npm run start
http://localhost:1717git clone https://github.com/ConardLi/easy-dataset.git
cd easy-dataset
docker-compose.yml 文件:services:
easy-dataset:
image: ghcr.io/conardli/easy-dataset
container_name: easy-dataset
ports:
- '1717:1717'
volumes:
- ${LOCAL_DB_PATH}:/app/local-db
- ${LOCAL_PRISMA_PATH}:/app/prisma
restart: unless-stopped
注意: 请将
{YOUR_LOCAL_DB_PATH}、{LOCAL_PRISMA_PATH}替换为你希望存储本地数据库的实际路径,建议直接使用当前代码仓库目录下的local-db和prisma文件夹,这样可以和 NPM 启动时的数据库路径保持一致。
注意: 如果需要挂载数据库文件(PRISMA),需要提前执行
npm run db:push初始化数据库文件。
docker-compose up -d
http://localhost:1717如果你想自行构建镜像,可以使用项目根目录中的 Dockerfile:
git clone https://github.com/ConardLi/easy-dataset.git
cd easy-dataset
docker build -t easy-dataset .
docker run -d \ -p 1717:1717 \ -v {YOUR_LOCAL_DB_PATH}:/app/local-db \ -v {LOCAL_PRISMA_PATH}:/app/prisma \ --name easy-dataset \ easy-dataset
注意: 请将
{YOUR_LOCAL_DB_PATH}、{LOCAL_PRISMA_PATH}替换为你希望存储本地数据库的实际路径,建议直接使用当前代码仓库目录下的local-db和prisma文件夹,这样可以和 NPM 启动时的数据库路径保持一致。
注意: 如果需要挂载数据库文件(PRISMA),需要提前执行
npm run db:push初始化数据库文件。
http://localhost:1717![]() | ![]() |
![]() | ![]() |
![]() | ![]() |
![]() | ![]() |
![]() | ![]() |
我们欢迎社区的贡献!如果您想为 Easy Dataset 做出贡献,请按照以下步骤操作:
git checkout -b feature/amazing-feature)git commit -m '添加一些惊人的功能')git push origin feature/amazing-feature)请确保适当更新测试并遵守现有的编码风格。
https://docs.easy-dataset.com/geng-duo/lian-xi-wo-men
本项目采用 AGPL 3.0 许可证 - 有关详细信息,请参阅 LICENSE 文件。
如果您觉得此项目有帮助,请考虑以下列格式引用
@misc{miao2025easydataset, title={Easy Dataset: A Unified and Extensible Framework for Synthesizing LLM Fine-Tuning Data from Unstructured Documents}, author={Ziyang Miao and Qiyu Sun and Jingyuan Wang and Yuchen Gong and Yaowei Zheng and Shiqi Li and Richong Zhang}, year={2025}, eprint={2507.04009}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2507.04009} }