X公式アカウント @Arctanote

音声認識とテキスト変換について

音声認識とテキスト変換について

音声のテキスト化技術を整理してみる ― WebRTC・Web Speech API・Whisperを使って考えたこと ― 音声をテキストに変換する、いわゆる「音声認識」は、 今ではブラウザだけでも簡単に試せる時代になりました。 ただ、実際にサービスへ組み込もうとすると、 「思っていたより難しいな」と感じることも多くあ...

音声のテキスト化技術を整理してみる ― WebRTC・Web Speech API・Whisperを使って考えたこと ― 音声をテキストに変換する、いわゆる「音声認識」は、 今ではブラウザだけでも簡単に試せる時代になりました。 ただ、実際にサービスへ組み込もうとすると、 「思っていたより難しいな」と感じることも多くあります。 この記事では、 WebRTC / Web Speech API / Whisper といった代表的な技術について、 一人セッション(独り言・思考整理・記事作成補助)という視点から、 私なりに整理してみた内容をまとめています。 なお、後半に出てくる技術評価については、 あくまで個人的な経験と主観に基づくものである点は、 あらかじめご理解ください。 --- WebRTCは音声を文字にする技術ではない まず最初に、基本的なところから整理します。 WebRTCは、 音声をテキストに変換する技術ではありません。 WebRTCの役割 WebRTCが担っているのは、主に次のようなことです。 マイクやカメラからの音声・映像取得 低遅延でのリアルタイム通信 ブラウザ間のP2P通信 暗号化(DTLS / SRTP)による安全な伝送 つまり、 「音声をきれいに、リアルタイムで扱うための通信技術」 という位置づけになります。 --- WebRTCの音声がクリアに聞こえる理由 WebRTCで通話をすると、 「普通に録音するより声がはっきり聞こえる」 と感じることがあります。 これは、WebRTC内部で以下のような処理が自動的に行われているためです。 エコーキャンセレーション(AEC) ノイズ抑制(NS) 自動ゲイン制御(AGC) 通話用途に最適化されたオーディオパイプライン これらは特別な設定をしなくても有効になっており、 人の声が聞き取りやすい状態に整えられます。 --- 「この音声を音声認識に使えたら」と思った話 ここで自然に浮かぶ疑問があります。 WebRTCでここまで音声が整うなら、 その音声をそのまま音声認識に渡せたら、 精度も上がるのでは? 私自身も、まさにそ...