日本語ローカル LLM 「ELYZA」と vLLM を試す

Swallow-70b-hf

自分の GPU (GeForce GTX 1080 Ti) では重すぎて１時間待っても3文字くらいしか応答がなかった。ちょっと実用性がないので採用を諦めた。

Swallow は前回かなり残念な感じだったので別のモデルを試すことにした。そこで ELYZA 社の上記のモデル。

ELYZA

まともな回答してる！

これだよ、これ！！

前回の Swallow は何だったのかと思うほどきちんとした回答が返ってきた。応答速度も数分かかるものの許容範囲レベル。ひとまずモデルとしては ELYZA-japanese-Llama-2-13b-fast-instruct で決定することにした。

vLLM はローカル LLM を高速化できるライブラリ。

vllm/vllm-openai という Docker イメージがあるので試しに使ってみたが、 GPU メモリーリークを起こして動かなかった。自分の GPU が貧弱なためか、設定を変える必要があるのかいまいちよくわからない。

ノート PC の GPU でもメモリーリークしたので多分設定を変える必要がある。

引き続き試すとして、一旦は llama-cpp-python で動かすことにする。

※どの記事のコメントかわかるように本文に記事タイトルなどを入れてください。