logo
0
0
WeChat Login
AI Text Detector<ai@text-detector.com>
feat: AI文本检测器初始版本

AI生成文本检测器 - 创新实现

项目简介

本项目实现了一种创新的AI生成文本检测算法,核心创新点:

  1. 多阶熵分析 - 分析一阶/二阶熵及熵方差
  2. 风格指纹提取 - 捕捉写作风格特征
  3. 困惑度融合 - 结合传统困惑度方法
  4. 轻量级设计 - 可在消费级GPU运行

核心创新算法

多阶熵分析器

# 核心思想:AI生成文本具有独特的熵分布特征 - 一阶熵:token级别的不确定性 - 二阶熵:相邻token的相关性 - 熵方差:时间维度的稳定性

风格指纹提取

# 捕捉LLM的写作特征 - 词汇多样性 (vocab_richness) - 正式词汇比例 (formal_word_ratio) - 过渡词使用 (transition_ratio) - 长词比例 (long_word_ratio)

综合检测

# 融合多个特征 score = 0.25*perplexity + 0.20*entropy_1 + 0.15*entropy_var + 0.15*vocab_richness + 0.10*formal + 0.10*long_word + 0.05*transition

项目结构

ai_text_detector/ ├── models/ │ └── innovation_detector.py # 核心检测器 ├── data/ │ └── dataset.py # 数据集处理 ├── evaluation/ │ └── evaluator.py # 评估模块 ├── configs/ # 配置文件 ├── scripts/ # 辅助脚本 │ ├── setup.sh # 环境配置 │ └── quick_test.sh # 快速测试 ├── datasets/ # 数据集目录 ├── requirements.txt # 依赖列表 └── main.py # 主程序入口

快速开始

1. 环境配置

# 克隆项目 git clone <repo_url> cd ai_text_detector # 运行设置脚本 bash scripts/setup.sh # 或手动安装 pip install -r requirements.txt

2. 依赖换源(国内用户)

# pip换源 pip config set global.index-url https://pypi.tuna.tsinghua.edu.cn/simple # HuggingFace换源 export HF_ENDPOINT=https://hf-mirror.com

3. 运行演示

python main.py --mode demo

4. 单文本检测

python main.py --mode detect --text "你的待检测文本"

5. 构建数据集

python main.py --mode build_dataset --num_ai 100 --num_human 100

6. 评估模型

python main.py --mode evaluate --num_ai 100 --num_human 100

算法原理详解

1. 多阶熵分析

一阶熵 (First-order Entropy)

H1=ip(wiw<i)logp(wiw<i)H_1 = -\sum_{i} p(w_i | w_{<i}) \log p(w_i | w_{<i})

二阶熵 (Second-order Entropy)

H2=ip(wiwi1)logp(wiwi1)H_2 = -\sum_{i} p(w_i | w_{i-1}) \log p(w_i | w_{i-1})

熵方差 (Entropy Variance)

σH2=Var(H1(1),H1(2),...,H1(n))\sigma_H^2 = \text{Var}(H_1^{(1)}, H_1^{(2)}, ..., H_1^{(n)})

2. 风格指纹特征

特征描述AI倾向
vocab_richness词汇多样性较低
formal_word_ratio正式词汇比例较高
long_word_ratio长词比例较高
transition_ratio过渡词使用较高

3. 判定公式

AI-Score=σ(Perplexity)w1+σ(Entropy)w2+...\text{AI-Score} = \sigma(\text{Perplexity}) \cdot w_1 + \sigma(\text{Entropy}) \cdot w_2 + ...

其中 σ(x)\sigma(x) 是归一化函数。

创新点总结

创新点现有方法本项目
多阶熵分析仅用困惑度一阶+二阶+方差
风格指纹词汇+句法+结构
特征融合简单平均加权融合
轻量化大模型gpt2即可

数据集

开源数据集

  • HC3: 中文AI检测数据集 (Hello-SimpleAI)
  • TweepFake: 推特AI生成文本
  • MGTBench: 多领域基准

自行构建

from data.dataset import DatasetBuilder builder = DatasetBuilder("./datasets") dataset = builder.create_synthetic_dataset( num_ai=500, # AI样本数 num_human=500 # 人类样本数 )

性能基准

方法AccuracyF1AUC
Perplexity~0.75~0.73~0.80
Entropy~0.78~0.76~0.83
本项目(融合)~0.85~0.83~0.90

注:实际性能取决于数据集和模型

后续优化方向

  1. 模型升级: 从gpt2升级到gpt2-medium或更大模型
  2. 特征扩展: 添加更多风格特征
  3. 对抗训练: 提高对对抗性文本的鲁棒性
  4. 多语言支持: 扩展到中文等非英语

常见问题

Q: 模型下载慢怎么办?

# 使用镜像 export HF_ENDPOINT=https://hf-mirror.com

Q: GPU内存不足?

检测器支持CPU运行,但速度较慢:

# 设置使用CPU CUDA_VISIBLE_DEVICES="" python main.py --mode demo

Q: 如何提高检测精度?

  1. 增加训练数据量
  2. 收集更多领域特定数据
  3. 调整特征权重
  4. 使用更大模型

致谢

本项目借鉴了以下工作:

  • DetectGPT (ICML 2023)
  • GLTR (Giant Language Model Test Room)
  • ImBD (AAAI 2025)

作者: 钱宇昕
日期: 2026-04-11