
GPUStack は、AI モデルを実行するためのオープンソース GPU クラスタマネージャーです。
GPUStack は、systemd または launchd ベースのシステムでサービスとしてインストールするスクリプトを提供しており、デフォルトポートは 80 です。この方法で GPUStack をインストールするには、以下を実行します:
curl -sfL https://get.gpustack.ai | sh -s -
管理者として PowerShell を実行し(PowerShell ISE の使用は避けてください)、以下のコマンドを実行して GPUStack をインストールします:
Invoke-Expression (Invoke-WebRequest -Uri "https://get.gpustack.ai" -UseBasicParsing).Content
手動インストール、Docker インストール、または詳細な構成オプションについては、インストールドキュメントを参照してください。
gpustack chat llama3.2 "tell me a joke."
このコマンドは Hugging Face からモデル(約 12GB)をダウンロードします。ダウンロード時間はネットワーク速度に依存します。モデルを実行するために十分なディスクスペースと VRAM(12GB)があることを確認してください。問題が発生した場合は、このステップをスキップして次に進むことができます。
gpustack draw hf.co/gpustack/stable-diffusion-v3-5-large-turbo-GGUF:stable-diffusion-v3-5-large-turbo-Q4_0.gguf \
"A minion holding a sign that says 'GPUStack'. The background is filled with futuristic elements like neon lights, circuit boards, and holographic displays. The minion is wearing a tech-themed outfit, possibly with LED lights or digital patterns. The sign itself has a sleek, modern design with glowing edges. The overall atmosphere is high-tech and vibrant, with a mix of dark and neon colors." \
--sample-steps 5 --show
コマンドが完了すると、生成された画像がデフォルトビューアに表示されます。プロンプトと CLI オプションを実験して出力をカスタマイズできます。

http://your_host_ipを開いて GPUStack UI にアクセスします。ユーザー名adminとデフォルトパスワードで GPUStack にログインします。デフォルト設定のパスワードを取得するには、以下のコマンドを実行します:Linux または macOS
cat /var/lib/gpustack/initial_admin_password
Windows
Get-Content -Path "$env:APPDATA\gpustack\initial_admin_password" -Raw
Playground - Chatをクリックします。これで UI プレイグラウンドで LLM とチャットできます。
ナビゲーションメニューでAPI Keysをクリックし、New API Keyボタンをクリックします。
Nameを入力し、Saveボタンをクリックします。
生成された API キーをコピーして安全な場所に保存します。作成時にのみ一度だけ表示されることに注意してください。
これで API キーを使用して OpenAI 互換 API にアクセスできます。例えば、curl を使用する場合:
export GPUSTACK_API_KEY=your_api_key
curl http://your_gpustack_server_url/v1-openai/chat/completions \
-H "Content-Type: application/json" \
-H "Authorization: Bearer $GPUSTACK_API_KEY" \
-d '{
"model": "llama3.2",
"messages": [
{
"role": "system",
"content": "You are a helpful assistant."
},
{
"role": "user",
"content": "Hello!"
}
],
"stream": true
}'
GPUStack はllama-box(バンドルされたllama.cppとstable-diffusion.cppサーバー)、vLLM、Ascend MindIE、vox-boxをバックエンドとして使用し、幅広いモデルをサポートしています。以下のソースからのモデルがサポートされています:
ローカルファイルパス
| カテゴリ | モデル |
|---|---|
| 大規模言語モデル(LLM) | Qwen, LLaMA, Mistral, DeepSeek, Phi, Gemma |
| ビジョン言語モデル(VLM) | Llama3.2-Vision, Pixtral , Qwen2.5-VL, LLaVA, InternVL2.5 |
| 拡散モデル | Stable Diffusion, FLUX |
| 埋め込みモデル | BGE, BCE, Jina |
| リランカーモデル | BGE, BCE, Jina |
| 音声モデル | Whisper(音声認識)、CosyVoice(音声合成) |
サポートされているモデルの完全なリストについては、推論バックエンドドキュメントのサポートされているモデルセクションを参照してください。
GPUStack は/v1-openaiパスの下で以下の OpenAI 互換 API を提供します:
例えば、公式のOpenAI Python API ライブラリを使用して API を利用できます:
from openai import OpenAI
client = OpenAI(base_url="http://your_gpustack_server_url/v1-openai", api_key="your_api_key")
completion = client.chat.completions.create(
model="llama3.2",
messages=[
{"role": "system", "content": "You are a helpful assistant."},
{"role": "user", "content": "Hello!"}
]
)
print(completion.choices[0].message)
GPUStack ユーザーは UI で独自の API キーを生成できます。
完全なドキュメントについては、公式ドキュメントサイトを参照してください。
Python(バージョン 3.10 から 3.12)をインストールします。
make buildを実行します。
ビルドされた wheel パッケージはdistディレクトリにあります。
GPUStack への貢献に興味がある場合は、コントリビューションガイドをお読みください。
問題がある場合や提案がある場合は、サポートのためにコミュニティに参加してください。
Copyright (c) 2024 The GPUStack authors
Apache License, Version 2.0(以下「ライセンス」)に基づいてライセンスされています。 このライセンスの詳細については、LICENSEファイルを参照してください。
適用法で要求されるか、書面で合意されない限り、 ライセンスに基づいて配布されるソフトウェアは「現状のまま」で配布され、 明示または黙示を問わず、いかなる種類の保証や条件もありません。 ライセンスに基づく許可と制限を規定する特定の言語については、 ライセンスを参照してください。