文档
CorpusForge 文档
轻量级语料标注平台,基于 Next.js 16 + IndexedDB
功能特性
🚀
AI 预标注
智谱清言 GLM-4 驱动的智能预标注
💾
本地存储
基于 IndexedDB 的浏览器本地存储
📦
多格式导出
支持 JSONL、CSV、Label Studio 等格式
🏷️
灵活标注
支持文本分类、NER 实体标注
⚡
拖拽导入
支持 JSON/JSONL 格式批量导入
🔒
简洁认证
硬编码单用户,适合个人使用
技术栈
Next.js16.1
App Router
shadcn/ui
New York variant
Tailwind CSSv4
Utility-first CSS
Zustand
状态管理
IndexedDBDexie
数据存储
Zhipu AI
智谱清言
快速开始
前置要求
• Node.js 18+
• pnpm 8+
安装
克隆项目并安装依赖
git clone https://github.com/liubin18911671739/corpus-forge.git
cd corpus-forge
pnpm install运行
启动开发服务器
pnpm dev访问 http://localhost:3000
登录信息
用户名: robin
密码: 123.yiyun.chat
开发命令
pnpm typecheck # TypeScript 类型检查
pnpm lint # ESLint 代码检查
pnpm format # Prettier 格式化
pnpm test # 运行测试(监视模式)
pnpm test:run # 运行一次测试
pnpm test:coverage # 测试覆盖率报告数据导入
支持格式
JSON 数组或 JSONL(每行一个 JSON)
JSON 数组
[
{ "text": "这是一段文本", "metadata": { "source": "news" } },
{ "text": "另一段文本" }
]JSONL
{"text": "这是一段文本", "metadata": {"source": "news"}}
{"text": "另一段文本"}数据导出
支持多种格式导出标注结果:
- JSON - 完整的标注数据
- JSONL - 每行一条记录,适合 LLM 训练
- CSV - 表格格式
- Label Studio - Label Studio 兼容格式
AI 预标注
智谱清言集成
支持文本分类预标注和 NER 实体识别预标注
配置方式:
- 在标注页面点击 AI 按钮
- 输入智谱 AI API Key(将保存在浏览器本地)
- 一键生成预标注结果
环境变量配置(可选,用于部署)
NEXT_PUBLIC_ZHIPU_API_KEY=your_api_key
NEXT_PUBLIC_ZHIPU_BASE_URL=https://open.bigmodel.cn/api/paas/v4示例数据
项目提供了示例语料库,可用于快速体验:
example/corpus-simple.jsonl- 简单示例example/corpus-examples.json- 完整示例
(在应用内通过拖拽上传导入)