日本語ローカル LLM 「ELYZA」と vLLM を試す

前回の 【悲報】日本語ローカル LLM がアホすぎる件 から次のことを試した。

Swallow-70b-hf

自分の GPU (GeForce GTX 1080 Ti) では重すぎて1時間待っても3文字くらいしか応答がなかった。 ちょっと実用性がないので採用を諦めた。

ELYZA-japanese-Llama-2-13b-fast-instruct

Swallow は前回かなり残念な感じだったので別のモデルを試すことにした。 そこで ELYZA 社の上記のモデル。

ELYZA

まともな回答してる!

これだよ、これ!!

前回の Swallow は何だったのかと思うほどきちんとした回答が返ってきた。 応答速度も数分かかるものの許容範囲レベル。 ひとまずモデルとしては ELYZA-japanese-Llama-2-13b-fast-instruct で決定することにした。

vLLM による高速化

vLLM はローカル LLM を高速化できるライブラリ。

vllm/vllm-openai という Docker イメージがあるので試しに使ってみたが、 GPU メモリーリークを起こして動かなかった。 自分の GPU が貧弱なためか、設定を変える必要があるのかいまいちよくわからない。

ノート PC の GPU でもメモリーリークしたので多分設定を変える必要がある。

引き続き試すとして、一旦は llama-cpp-python で動かすことにする。


掲示板にコメントする
※どの記事のコメントかわかるように本文に記事タイトルなどを入れてください。
一覧に戻る