[疑问] GPU版知识库的OCR能力为何需GPU？NPC在CPU环境已支持OCR · Issue #6

cnb/plugins/cnbcool/knowledge-base-gpu

Public

WeChat Login

Code Issues

Pull requests Events Packages Insights

[疑问] GPU版知识库的OCR能力为何需GPU？NPC在CPU环境已支持OCR#6

Open

AcidBunny

created 6 days ago

Edit

AcidBunny

您好，

我注意到 cnb/plugins/cnbcool/knowledge-base-gpu 知识库插件在提供 OCR 能力时，需要 GPU 环境支持。

然而，根据我们在反馈仓库中的讨论反馈 Issue #4034，CNB NPC 在 CPU 环境下也能提供 OCR 服务。

请问这是否是设计如此，即 GPU 版知识库插件的 OCR 模块必须依赖 GPU 才能运行，还是说有优化的空间，使其在 CPU 环境下也能执行基础 OCR 任务？

期待您的解答，谢谢。

黎志航

Owner

不一样的实现。在 npc 中是传统 OCR（简单到也就是提取文本），无法处理表格、图片等内容，甚至不能处理双栏，仅仅把文本全部提取出来，无任何格式支持。

GPU 版本使用大模型（hunyuan-ocr）来识别，具体您可以查阅相关大模型OCR的实现。

如果您在 CPU 环境下也能跑出一样的效果，请立即给我们插件和 npc 提供这个重要的能力，谢谢。

@samsong(AcidBunny)

黎志航

Owner

另外再补充，简易OCR在 npc 场景下是兜底方案，当模型支持 vision 的时候图片会被 vision 模型处理，并且 npc 场景下数据量少，大模型有能力理解和分析这些数据。

换到知识库场景，如果前置等数据不能被完美解析，入知识库将毫无意义，漂亮数据进去精准检索的难度都非常大了。一坨屎进去出来只会更拉。

大量企业花大价格来整理自己的数据，无论人工也好，视觉模型也好。

所以我想表达的是，在知识库场景要是没有效果很好的 OCR ，不如不做，不如交给用户自己去用其他方法把资料整理得当再入库。

仅此而已。

AcidBunny

Creator

那么，混元ocr能不能做成按credits 计费的api，接入cnb ai 网关呢？这是一个简单想法，因为cnbgpu资源可能不够用而使用计费网关可以保证流水线不因没抢到GPU而失败

AcidBunny

withdrew a comment.

Assignee

None yet

Label

None yet

Priority

None yet

Time period

Property

Add custom properties to record and label key information

Participant

35/F,Tencent Building,Kejizhongyi Avenue,Nanshan District,Shenzhen

京ICP备11018762号-111