X公式アカウント @Arctanote

ローカルVLMで領収書・レシートを読ませてみたら、想像以上に実用的だった話

ローカルVLMで領収書・レシートを読ませてみたら、想像以上に実用的だった話

ローカルVLMで領収書・レシートを読ませてみたら、想像以上に実用的だった話 はじめに 自宅PC(ローカル環境)で動かせるLLM/VLMは、正直なところ「検証用」「お試し用」くらいの位置づけだと思っていました。 普段はクラウド型の高性能AIを使えるため、ローカルLLMを日常業務の主力にする意味はあまりないだろう、という...

ローカルVLMで領収書・レシートを読ませてみたら、想像以上に実用的だった話 はじめに 自宅PC(ローカル環境)で動かせるLLM/VLMは、正直なところ「検証用」「お試し用」くらいの位置づけだと思っていました。 普段はクラウド型の高性能AIを使えるため、ローカルLLMを日常業務の主力にする意味はあまりないだろう、という認識です。 ただし、ローカルAIには明確な価値があります。 データを外部に送らず、手元のPCだけで処理できることです。 そこで今回は、LM Studioを使い、ローカルVLMで領収書・レシート画像を読み取り、どの程度の精度と速度が出るのかを試しました。 結論から言うと、想像以上に良かったです。 --- 検証環境 今回の検証環境は以下です。 項目 内容 --- --- OS Windows GPU NVIDIA GeForce RTX 3080 VRAM 10GB メインメモリ 64GB 実行環境 LM Studio 検証モデル Qwen3.6 35B A3B 量子化 GGUF / Q4KM 入力 領収書・レシート画像 出力 JSON形式の項目抽出 RTX 3080は現在の生成AI用途としてはハイエンドではありません。 特にVRAM 10GBという制約があるため、大型モデルをそのまま快適に動かすには厳しい部分があります。 それでも、MoE系モデルを使うことで、かなり現実的な速度で動作しました。 --- 最初に試したモデル:Qwen3.6 27B Dense まずは、Qwen3.6 27B Denseを試しました。 画像 モデルは以下です。 このモデルはDenseモデルです。 つまり、推論時に基本的にモデル全体を使うタイプです。 実際に動かしてみると、ThinkモードをONにしていた状態では、単純な「こんにちは」でも60秒以上と、かなり時間がかかりました。 ThinkモードをOFFにすると応答開始は速くなりましたが、出力生成はまだ遅く、私の環境では実用的ではありませんでした(VRAMを多く搭載したグラフィックボードが欲しくなる瞬間でもあります……) --- 2...