[疑问] GPU版知识库的OCR能力为何需GPU?NPC在CPU环境已支持OCR#6
您好,
我注意到 cnb/plugins/cnbcool/knowledge-base-gpu 知识库插件在提供 OCR 能力时,需要 GPU 环境支持。
cnb/plugins/cnbcool/knowledge-base-gpu
然而,根据我们在反馈仓库中的讨论 反馈 Issue #4034,CNB NPC 在 CPU 环境下也能提供 OCR 服务。
请问这是否是设计如此,即 GPU 版知识库插件的 OCR 模块必须依赖 GPU 才能运行,还是说有优化的空间,使其在 CPU 环境下也能执行基础 OCR 任务?
期待您的解答,谢谢。
不一样的实现。在 npc 中是传统 OCR(简单到也就是提取文本),无法处理表格、图片等内容,甚至不能处理双栏,仅仅把文本全部提取出来,无任何格式支持。
GPU 版本使用大模型(hunyuan-ocr)来识别,具体您可以查阅相关大模型OCR的实现。
如果您在 CPU 环境下也能跑出一样的效果,请立即给我们插件和 npc 提供这个重要的能力,谢谢 。
@samsong(AcidBunny)
另外再补充,简易OCR在 npc 场景下是兜底方案,当模型支持 vision 的时候图片会被 vision 模型处理,并且 npc 场景下数据量少,大模型有能力理解和分析这些数据。
换到知识库场景,如果前置等数据不能被完美解析,入知识库将毫无意义,漂亮数据进去精准检索的难度都非常大了。一坨屎进去出来只会更拉。
大量企业花大价格来整理自己的数据,无论人工也好,视觉模型也好。
所以我想表达的是,在知识库场景要是没有效果很好的 OCR ,不如不做,不如交给用户自己去用其他方法把资料整理得当再入库。
仅此而已。
那么,混元ocr能不能做成按credits 计费的api,接入cnb ai 网关呢?这是一个简单想法,因为cnbgpu资源可能不够用 而使用计费网关可以保证流水线不因没抢到GPU而失败
您好,
我注意到
cnb/plugins/cnbcool/knowledge-base-gpu知识库插件在提供 OCR 能力时,需要 GPU 环境支持。然而,根据我们在反馈仓库中的讨论 反馈 Issue #4034,CNB NPC 在 CPU 环境下也能提供 OCR 服务。
请问这是否是设计如此,即 GPU 版知识库插件的 OCR 模块必须依赖 GPU 才能运行,还是说有优化的空间,使其在 CPU 环境下也能执行基础 OCR 任务?
期待您的解答,谢谢。