文档

CorpusForge 文档

轻量级语料标注平台,基于 Next.js 16 + IndexedDB

功能特性

🚀

AI 预标注

智谱清言 GLM-4 驱动的智能预标注

💾

本地存储

基于 IndexedDB 的浏览器本地存储

📦

多格式导出

支持 JSONL、CSV、Label Studio 等格式

🏷️

灵活标注

支持文本分类、NER 实体标注

拖拽导入

支持 JSON/JSONL 格式批量导入

🔒

简洁认证

硬编码单用户,适合个人使用

技术栈

Next.js16.1

App Router

shadcn/ui

New York variant

Tailwind CSSv4

Utility-first CSS

Zustand

状态管理

IndexedDBDexie

数据存储

Zhipu AI

智谱清言

快速开始

前置要求

• Node.js 18+

• pnpm 8+

安装
克隆项目并安装依赖
git clone https://github.com/liubin18911671739/corpus-forge.git
cd corpus-forge
pnpm install
运行
启动开发服务器
pnpm dev

访问 http://localhost:3000

登录信息

用户名: robin

密码: 123.yiyun.chat

开发命令
pnpm typecheck    # TypeScript 类型检查
pnpm lint         # ESLint 代码检查
pnpm format       # Prettier 格式化
pnpm test         # 运行测试(监视模式)
pnpm test:run     # 运行一次测试
pnpm test:coverage # 测试覆盖率报告

数据导入

支持格式
JSON 数组或 JSONL(每行一个 JSON)

JSON 数组

[
  { "text": "这是一段文本", "metadata": { "source": "news" } },
  { "text": "另一段文本" }
]

JSONL

{"text": "这是一段文本", "metadata": {"source": "news"}}
{"text": "另一段文本"}

数据导出

支持多种格式导出标注结果:

  • JSON - 完整的标注数据
  • JSONL - 每行一条记录,适合 LLM 训练
  • CSV - 表格格式
  • Label Studio - Label Studio 兼容格式

AI 预标注

智谱清言集成
支持文本分类预标注和 NER 实体识别预标注

配置方式:

  1. 在标注页面点击 AI 按钮
  2. 输入智谱 AI API Key(将保存在浏览器本地)
  3. 一键生成预标注结果

环境变量配置(可选,用于部署)

NEXT_PUBLIC_ZHIPU_API_KEY=your_api_key
NEXT_PUBLIC_ZHIPU_BASE_URL=https://open.bigmodel.cn/api/paas/v4

示例数据

项目提供了示例语料库,可用于快速体验:

  • example/corpus-simple.jsonl - 简单示例
  • example/corpus-examples.json - 完整示例

(在应用内通过拖拽上传导入)

准备好开始了吗?

立即开始使用 CorpusForge 进行数据标注