ローカルVLMで領収書・レシートを読ませてみたら、想像以上に実用的だった話

ローカルVLMで領収書・レシートを読ませてみたら、想像以上に実用的だった話はじめに自宅PC（ローカル環境）で動かせるLLM/VLMは、正直なところ「検証用」「お試し用」くらいの位置づけだと思っていました。普段はクラウド型の高性能AIを使えるため、ローカルLLMを日常業務の主力にする意味はあまりないだろう、という認識です。ただし、ローカルAIには明確な価値があります。データを外部に送らず、手元のPCだけで処理できることです。そこで今回は、LM Studioを使い、ローカルVLMで領収書・レシート画像を読み取り、どの程度の精度と速度が出るのかを試しました。結論から言うと、想像以上に良かったです。 --- 検証環境今回の検証環境は以下です。項目内容 --- --- OS Windows GPU NVIDIA GeForce RTX 3080 VRAM 10GB メインメモリ 64GB 実行環境 LM Studio 検証モデル Qwen3.6 35B A3B 量子化 GGUF / Q4KM 入力領収書・レシート画像出力 JSON形式の項目抽出 RTX 3080は現在の生成AI用途としてはハイエンドではありません。特にVRAM 10GBという制約があるため、大型モデルをそのまま快適に動かすには厳しい部分があります。それでも、MoE系モデルを使うことで、かなり現実的な速度で動作しました。 --- 最初に試したモデル：Qwen3.6 27B Dense まずは、Qwen3.6 27B Denseを試しました。画像モデルは以下です。このモデルはDenseモデルです。つまり、推論時に基本的にモデル全体を使うタイプです。実際に動かしてみると、ThinkモードをONにしていた状態では、単純な「こんにちは」でも60秒以上と、かなり時間がかかりました。 ThinkモードをOFFにすると応答開始は速くなりましたが、出力生成はまだ遅く、私の環境では実用的ではありませんでした（VRAMを多く搭載したグラフィックボードが欲しくなる瞬間でもあります……） --- 2...

Published: 2026-05-21T14:58:25.842Z Updated: 2026-05-21T14:58:25.842Z