
Easy Dataset 是一个专为创建大型语言模型(LLM)微调数据集而设计的应用程序。 它提供了直观的界面,用于上传特定领域的文件,智能分割内容,生成问题,并为模型微调生成高质量的训练数据。 通过 Easy Dataset,您可以将领域知识转化为结构化数据集,兼容所有遵循 OpenAI 格式的 LLM API,使微调过程变得简单高效。
什么是 Easy Dataset
目前各行各业都在积极探索微调自己行业的大模型,其实微调的过程不是难事,最难的是数据集准备的环节,高质量领域数据集的构建始终面临多重挑战。在大模型微调领域,常见问题包括:
- 完全不知道怎么做,纯人工做,急需提高效率
- 直接将文档丢给 AI ,但是 AI 对于大文件生成的 QA 对效果比较差
- AI 本身有上下文的限制,一次不能生成太多的问题,分批生成后面又会生成重复的问题
- 已经有整理出来的数据集了,想有一个批量管理数据集的地方,可以进行标注和验证
- 对于数据集有细分领域的需求,不知道如何去构建领域标签
- 想要微调推理模型,但是不知道推理微调数据集中的 COT 怎么构造
- 想从一个格式的数据集转换成另一个格式的数据集,不知道怎么转换
Easy DataSet(https://github.com/ConardLi/easy-dataset)就是通过系统性解决方案实现从文献解析到数据集导出的全流程闭环。
Easy Dataset 架构
核心模块
- 模型配置中心:支持 OpenAI 格式 API (如 DeepSeek 及各种三方模型提供商)及本地模型(Ollama),内置模型测试
Playground
,支持多模型对比。 - 智能文献处理:采用「章节感知递归分块」算法,基于 Markdown 结构(#/##标题)实现语义级分割,确保单块内容完整(最小/最大长度可配),附带大纲提取与摘要生成。
- 领域标签体系:AI 自动生成二级领域树,支持手动修正,为每个 QA 对绑定精准标签,降低重复率。
数据生成
- 问题批量生成:基于文本块语义,按字符密度动态生成问题(可配置),支持批量创建与中断恢复。
- 答案智能构建:关联原始文本块生成答案,支持推理模型(如DeepSeek-R1)生成带思维链(COT)的复杂答案。
- 质量校验机制:提供问题/答案的批量删除、手动编辑及AI优化(输入指令自动润色),确保数据可用。
格式适配
- 多格式导出:支持 Alpaca、ShareGPT 标准格式,自定义字段映射,包含领域标签与 COT 信息。
- 数据集广场:聚合 HuggingFace、Kaggle 等多平台数据源,支持关键字一键检索,解决「数据从哪来」的初始难题。
Easy Dataset 功能
-多模型统一管理:支持 OpenAI 标准协议 的模型接入,兼容 Ollama,用户仅需配置 模型名称、API地址、密钥 即可完成适配。内置模型库预填主流厂商端点,支持删除/新增自定义模型,所有配置 本地加密存储,保障数据安全。
- 文本分块:设置最小/最大字符数(默认150-300字),支持递归分块时的章节感知(优先保留 Markdown 标题结构);
- 问题生成:自定义每N字符生成1个问题(默认240字/问题),控制生成密度;
- 并发数量:支持配置批量任务并发数量(批量问题、数据集生成),加快任务速度;
-文献处理:智能分块引擎与处理,当前仅支持 Markdown(可以通过 MinerU 等工具转换 PDF/Word 等格式),后续会支持更多格式。
- 章节感知分割:优先按
#/##/###
标题切分,保留完整章节 - 递归字符截断:超长段落按句号→逗号递归切分,确保块长在配置区间
- 块元数据:自动生成每块摘要(基于模型抽取)、字数统计、关联原始目录
-问题生成与管理:单块生成、批量生成、质量过滤,列表视图,可查看和管理已经生成好的所有问题
-数据集管理:可以查看已经生成好的所有数据集,包括创建时间、使用模型、领域标签、是否有思维链等,可对不满意的数据集进行调整和删除。支持数据集质检与标注、多格式导出等。
-数据集广场:支持多平台搜索,聚合 HuggingFace、Kaggle、Opendatalab 等多个平台,输入关键词即可一站式检索,支持跳转原平台下载。
如何使用
Easy Dataset 支持客户端、NPM、Docker 三种启动方式,完全在本地处理数据,无需担心数据隐私问题。普通用户可直接下载、运行支持 Windows、MacOS 和 Linux 的客户端。
使用 NPM 启动
项目基于 Next 构建,所以本地只要有 Node 环境就可以通过 NPM 直接启动,适合开发者。
1.克隆仓库
git clone https://github.com/ConardLi/easy-dataset.git
cd easy-dataset
2.安装依赖
npm install
3.启动服务器
npm run build
npm run start
Docker启动(适合私有部署)
如果需要自行构建镜像,在云服务或者内网环境私有部署,可以使用项目根目录中的 Dockerfile。
1.克隆仓库
git clone https://github.com/ConardLi/easy-dataset.git
cd easy-dataset
2.构建 Docker 镜像
docker build -t easy-dataset .
3.运行容器
docker run -d -p 1717:1717 -v {YOUR_LOCAL_DB_PATH}:/app/local-db --name easy-dataset easy-dataset
注意: 将 {YOUR_LOCAL_DB_PATH}
替换为希望存储本地数据库的实际路径。
本文采用 CC BY-NC 4.0 许可协议。商业转载、引用请联系本站获得授权,非商业转载、引用须注明出处。
链接:https://appmark.cn/sites/easy-dataset.html -APPMARK
txtai 是一个开源的 AI 驱动的语义搜索平台,它利用自然语言处理和机器学习技术,为开发者提供强大的文本数据索引、搜索和理解能力。