Iron Man 风格 AR 助手 - 由多模态 AI 驱动
中文文档 | English (Active Protocol)
Jarvis WorldSense 将你的电脑变身为一个完全交互式的 AI 助手,配备 钢铁侠抬头显示器 (HUD)。它能看到你所见,听懂你所说,并即时回应。
git clone https://github.com/quyangminddock/LLaVA-WorldSense.git
cd LLaVA-WorldSense
conda create -n jarvis python=3.10 -y conda activate jarvis
pip install -r requirements.txt
注意: 如果你想使用旧版
LLaVA-1.57B/13B 模型,你需要单独安装原版 LLaVA 库。对于默认的 TinyLLaVA 体验,这是不需要的。
brew install portaudio pip install pyaudio
推荐模式 (TinyLLaVA + Web UI):
python main.py --llava-model tinyllava/TinyLLaVA-Phi-2-SigLIP-3.1B --web
访问界面: 在 Chrome/Safari 浏览器中打开 **http://localhost:8080**。
提示: 首次运行会自动下载 TinyLLaVA 模型 (~6GB),请耐心等待。
| 动作 | 控制 |
|---|---|
| 开启 HUD | 点击 "Toggle Camera" 启动 AR 系统。 |
| 语音指令 | 点击 "🎙️" 一次即可。连续对话模式将保持激活。 |
| 快速分析 | 说 "What do you see?" 进行快速扫描。 |
| 深度扫描 | 说 "Tell me details" 进行全面分析。 |
系统预设为 全英文模式 (English Mode)。
| 组件 | 设置 | 说明 |
|---|---|---|
| 语音输入 | en-US | 仅响应英语指令。 |
| 系统人设 | Jarvis | 简洁、乐于助人、专业。 |
| 视觉模型 | TinyLLaVA | 3.1B 参数, FP16 精度。 |
Jarvis 运行在 TinyLLaVA-Phi-2-SigLIP-3.1B 之上,这是一个小而强大的多模态模型。
| 组件 | 技术栈 | 优势 |
|---|---|---|
| 视觉编码器 | SigLIP-384 | 优于 CLIP。能更好地理解图片中的细节和文字。 |
| 语言核心 | Microsoft Phi-2 | 2.7B 推理强者。逻辑和数学能力媲美大模型。 |
| 连接器 | MLP Projection | 高效地将视觉特征转化为语言 Token。 |
portaudio。欢迎斯塔克工业的工程师们!详情请阅读 CONTRIBUTING.md。
MIT 许可证。为 AI 交互的未来而构建。
"Sometimes you gotta run before you can walk."