logo
0
0
WeChat Login

保单信息提取系统

基于AI的保单信息自动提取系统,支持从PDF、DOC、DOCX文档和图片中提取保单关键信息。

功能特性

  • 🔍 智能提取: 使用AI模型自动提取保单信息
  • 📄 多格式支持: PDF、DOC、DOCX、PNG、JPG、JPEG
  • 🔗 URL下载: 支持从OSS文件下载链接获取文件
  • 📤 文件上传: 支持本地文件上传处理
  • 并发处理: 多线程并发处理,提高效率
  • 🛡️ 标准响应: 统一的API响应格式

快速开始

环境要求

  • Python 3.12
  • Docker (可选)

本地运行

# 1. 安装依赖
pip install -r requirements.txt

# 2. 配置环境变量
echo "DASH_SCOPE_API=your_api_key" > .env
echo "DASH_SCOPE_PROXY=your_base_url" >> .env

# 3. 启动服务
python app.py

API接口

文件上传提取

curl -X POST http://localhost:5001/identify_api/extract_policy \
  -F "files=@policy.pdf" \
  -F "temperature=0.5" \
  -F "max_workers=5"

URL下载提取

curl -X POST http://localhost:5001/identify_api/extract_policy_from_urls \
  -H "Content-Type: application/json" \
  -d '{
    "urls": ["https://oss.example.com/policy.pdf"],
    "temperature": 0.5,
    "max_workers": 5
  }'

响应格式

成功响应

{
    "code": "0",
    "msg": "success",
    "data": [
        {
            "filename": "policy.pdf",
            "result": "{\"保单编号\": \"...\", \"投保人名称\": \"...\"}"
        }
    ]
}

错误响应

{
    "code": "1",
    "msg": "错误描述",
    "data": []
}

支持的文件类型

  • 文档: PDF (.pdf), DOC (.doc), DOCX (.docx)
  • 图片: PNG (.png), JPG (.jpg), JPEG (.jpeg)

项目结构

├── app.py                    # Flask应用入口
├── controller/
│   └── identifyApi.py       # API接口控制器
├── service/
│   └── identifyService.py   # 核心业务逻辑
├── requirements.txt          # Python依赖
├── Dockerfile               # Docker镜像构建
├── docker-compose.yml       # Docker Compose配置
└── .dockerignore           # Docker构建忽略文件

配置说明

环境变量

  • DASH_SCOPE_API: AI模型API密钥
  • DASH_SCOPE_PROXY: AI模型服务地址

参数说明

  • temperature: AI模型温度参数 (0.0-1.0),默认0.5
  • max_workers: 并发处理线程数,默认5

开发

本地开发

# 安装开发依赖
pip install -r requirements.txt

# 启动开发服务器
python app.py

测试

# 测试API接口
curl -X POST http://localhost:5001/identify_api/extract_policy_from_urls \
  -H "Content-Type: application/json" \
  -d '{"urls": ["https://example.com/test.pdf"]}'

About

No description, topics, or website provided.
Language
Python78.5%
gitignore11.7%
Markdown7.2%
Dockerfile1.2%
Others1.4%