logo
0
0
WeChat Login
linyinli<yinlin@gpustack.ai>
docs: fix typos and minor corrections

GPUStack


Documentation License WeChat Discord Follow on X(Twitter)


English | 简体中文 | 日本語


demo

GPUStack は、AI モデルを実行するためのオープンソース GPU クラスタマネージャーです。

主な機能

  • 幅広い GPU 互換性: Apple Mac、Windows PC、Linux サーバー上のさまざまなベンダーの GPU をシームレスにサポート。
  • 豊富なモデルサポート: LLM、VLM、画像モデル、音声モデル、埋め込みモデル、リランクモデルを含む幅広いモデルをサポート。
  • 柔軟な推論バックエンド: llama-box(llama.cpp と stable-diffusion.cpp)、vox-box、vLLM、Ascend MindIE と統合。
  • マルチバージョンバックエンドサポート: 異なるモデルの多様なランタイム要件を満たすために、推論バックエンドの複数バージョンを同時実行。
  • 分散推論: ベンダーやランタイム環境をまたぐ異種 GPU を含む、シングルノードおよびマルチノードのマルチ GPU 推論をサポート。
  • スケーラブルな GPU アーキテクチャ: インフラストラクチャに GPU やノードを追加することで簡単にスケールアップ。
  • 堅牢なモデル安定性: 自動障害回復、マルチインスタンス冗長性、推論リクエストのロードバランシングで高可用性を確保。
  • インテリジェントなデプロイ評価: モデルリソース要件、バックエンドとアーキテクチャの互換性、OS の互換性、その他のデプロイ関連要因を自動的に評価。
  • 自動スケジューリング: 利用可能なリソースに基づいてモデルを動的に割り当て。
  • 軽量な Python パッケージ: 最小限の依存関係と低い運用オーバーヘッド。
  • OpenAI 互換 API: OpenAI の API 仕様と完全に互換性があり、シームレスな統合を実現。
  • ユーザーと API キー管理: ユーザーと API キーの管理を簡素化。
  • リアルタイム GPU 監視: GPU 性能と使用率をリアルタイムで追跡。
  • トークンとレートメトリクス: トークン使用量と API リクエストレートを監視。

インストール

Linux または macOS

GPUStack は、systemd または launchd ベースのシステムでサービスとしてインストールするスクリプトを提供しており、デフォルトポートは 80 です。この方法で GPUStack をインストールするには、以下を実行します:

curl -sfL https://get.gpustack.ai | sh -s -

Windows

管理者として PowerShell を実行し(PowerShell ISE の使用は避けてください)、以下のコマンドを実行して GPUStack をインストールします:

Invoke-Expression (Invoke-WebRequest -Uri "https://get.gpustack.ai" -UseBasicParsing).Content

その他のインストール方法

手動インストール、Docker インストール、または詳細な構成オプションについては、インストールドキュメントを参照してください。

はじめに

  1. llama3.2モデルを実行してチャットする:
gpustack chat llama3.2 "tell me a joke."
  1. stable-diffusion-v3-5-large-turboモデルで画像を生成する:

💡 ヒント

このコマンドは Hugging Face からモデル(約 12GB)をダウンロードします。ダウンロード時間はネットワーク速度に依存します。モデルを実行するために十分なディスクスペースと VRAM(12GB)があることを確認してください。問題が発生した場合は、このステップをスキップして次に進むことができます。

gpustack draw hf.co/gpustack/stable-diffusion-v3-5-large-turbo-GGUF:stable-diffusion-v3-5-large-turbo-Q4_0.gguf \ "A minion holding a sign that says 'GPUStack'. The background is filled with futuristic elements like neon lights, circuit boards, and holographic displays. The minion is wearing a tech-themed outfit, possibly with LED lights or digital patterns. The sign itself has a sleek, modern design with glowing edges. The overall atmosphere is high-tech and vibrant, with a mix of dark and neon colors." \ --sample-steps 5 --show

コマンドが完了すると、生成された画像がデフォルトビューアに表示されます。プロンプトと CLI オプションを実験して出力をカスタマイズできます。

Generated Image

  1. ブラウザでhttp://your_host_ipを開いて GPUStack UI にアクセスします。ユーザー名adminとデフォルトパスワードで GPUStack にログインします。デフォルト設定のパスワードを取得するには、以下のコマンドを実行します:

Linux または macOS

cat /var/lib/gpustack/initial_admin_password

Windows

Get-Content -Path "$env:APPDATA\gpustack\initial_admin_password" -Raw
  1. ナビゲーションメニューでPlayground - Chatをクリックします。これで UI プレイグラウンドで LLM とチャットできます。

Playground Screenshot

  1. ナビゲーションメニューでAPI Keysをクリックし、New API Keyボタンをクリックします。

  2. Nameを入力し、Saveボタンをクリックします。

  3. 生成された API キーをコピーして安全な場所に保存します。作成時にのみ一度だけ表示されることに注意してください。

  4. これで API キーを使用して OpenAI 互換 API にアクセスできます。例えば、curl を使用する場合:

export GPUSTACK_API_KEY=your_api_key curl http://your_gpustack_server_url/v1-openai/chat/completions \ -H "Content-Type: application/json" \ -H "Authorization: Bearer $GPUSTACK_API_KEY" \ -d '{ "model": "llama3.2", "messages": [ { "role": "system", "content": "You are a helpful assistant." }, { "role": "user", "content": "Hello!" } ], "stream": true }'

サポートされているプラットフォーム

  • macOS
  • Linux
  • Windows

サポートされているアクセラレータ

  • NVIDIA CUDA(Compute Capability 6.0 以上)
  • Apple Metal(M 系チップ)
  • AMD ROCm
  • Ascend CANN
  • Hygon DTK
  • Moore Threads MUSA
  • Iluvatar Corex
  • Cambricon MLU

サポートされているモデル

GPUStack はllama-box(バンドルされたllama.cppstable-diffusion.cppサーバー)、vLLMAscend MindIEvox-boxをバックエンドとして使用し、幅広いモデルをサポートしています。以下のソースからのモデルがサポートされています:

  1. Hugging Face

  2. ModelScope

  3. ローカルファイルパス

モデル例:

カテゴリモデル
大規模言語モデル(LLM)Qwen, LLaMA, Mistral, DeepSeek, Phi, Gemma
ビジョン言語モデル(VLM)Llama3.2-Vision, Pixtral , Qwen2.5-VL, LLaVA, InternVL2.5
拡散モデルStable Diffusion, FLUX
埋め込みモデルBGE, BCE, Jina
リランカーモデルBGE, BCE, Jina
音声モデルWhisper(音声認識)、CosyVoice(音声合成)

サポートされているモデルの完全なリストについては、推論バックエンドドキュメントのサポートされているモデルセクションを参照してください。

OpenAI 互換 API

GPUStack は/v1-openaiパスの下で以下の OpenAI 互換 API を提供します:

例えば、公式のOpenAI Python API ライブラリを使用して API を利用できます:

from openai import OpenAI client = OpenAI(base_url="http://your_gpustack_server_url/v1-openai", api_key="your_api_key") completion = client.chat.completions.create( model="llama3.2", messages=[ {"role": "system", "content": "You are a helpful assistant."}, {"role": "user", "content": "Hello!"} ] ) print(completion.choices[0].message)

GPUStack ユーザーは UI で独自の API キーを生成できます。

ドキュメント

完全なドキュメントについては、公式ドキュメントサイトを参照してください。

ビルド

  1. Python(バージョン 3.10 から 3.12)をインストールします。

  2. make buildを実行します。

ビルドされた wheel パッケージはdistディレクトリにあります。

コントリビューション

GPUStack への貢献に興味がある場合は、コントリビューションガイドをお読みください。

コミュニティに参加

問題がある場合や提案がある場合は、サポートのためにコミュニティに参加してください。

ライセンス

Copyright (c) 2024 The GPUStack authors

Apache License, Version 2.0(以下「ライセンス」)に基づいてライセンスされています。 このライセンスの詳細については、LICENSEファイルを参照してください。

適用法で要求されるか、書面で合意されない限り、 ライセンスに基づいて配布されるソフトウェアは「現状のまま」で配布され、 明示または黙示を問わず、いかなる種類の保証や条件もありません。 ライセンスに基づく許可と制限を規定する特定の言語については、 ライセンスを参照してください。