「新しい音声認識の動向（分散型音声認識など）」

中原　常信　岸　慶騎
株式会社アドバンスト・メディア

【はじめに】

　40年近い歴史を持つ音声認識も21世紀に入り実用化が加速し始めた。AmiVoice Medical for Radiology(放射線画像診断レポート音声認識システム）に代表される大語彙連続音声認識（ディクテーション）も認識率97%以上（当社調べ）を実現し、医療分野において広く普及しつつある。人間にとって最も自然なコミュニケーション手段である音声インターフェイスの実用化は、今後ますます加速し、我々の日常生活での利用シーンが見られる日も近い。音声認識の普及において、テクノロジーによる裏づけは必須である。今後、普及が予想されるテクノロジーの一部を紹介する。

【分散型音声認識(DSR:Distributed Speech Recognition)：AmiVoice DSR】

　ユビキタス社会の牽引役として、携帯情報端末（ＰＤＡ）や、ＰＨＳ、携帯電話等のモバイル環境でのIT化が進んでいる。このモバイル環境での音声認識を実現できれば、利用シーンは飛躍的に拡大する。携帯端末は、そのコンパクトさゆえに表示や操作に大きな制約を強いられており、声による情報検索や情報入力によって効率化を図るべく、音声認識が既に利用されている。しかし、携帯端末のメモリ制限によって、語彙数及び精度性能において制限を受け、特化されごく限定された会話パターンでしか実用化できないという大きな課題を抱えていた。この問題を解決するテクノロジーがAmiVoice DSR(分散型音声認識）（図1)である。音響分析(FE)部と認識デコーダ(DC)部を分離したクライアント・サーバ(C/S)システムとすることで、携帯端末でもAmiVoiceの性能を最大限発揮することが可能となった。DCへの音声情報は、約1/30に圧縮された特徴量として送信され、ナローバンドにおいても高品質かつ伝送ノイズの影響を受けない音声データを送信することができる。また、N対Nのネットワーク構築も可能である為、複数利用者の同時使用、膨大な辞書、言語モデルの構築、用途や使用端末によるリソースの自動選択、システムダウンに備えた監視機能、メンテナンスの容易性等、あらゆるニーズに答えられる完成度の高いアーキテクチャを備えている。これまでスタンドアロン型では困難だった、場所を選ばない音声入力が可能となる（図2）。また、ハンズフリー、アイズフリーが実現できる為、作業しながらでも音声入力できるので、確実性、迅速性、効率性、安全性等、多くのメリットが得られる。

図1

図2

【おわりに】

　自由な発話の中から特定の言葉を認識するキーワードスポッティング、膨大な記録音声の中から特定の言葉を高速検索するメディア・トラッキング技術、車載等騒音下利用での雑音処理技術、言葉の意図を読み取る意味理解、多言語翻訳等、利用シーンの拡大に向け、様々な技術が実用化されつつある。音声認識に関わる技術は語り尽くせない。高精度音声認識エンジンAmiVoiceをベースとして、これら技術を集結することで、あらゆるシーンでの高精度音声認識が利用できつつある。携帯で、仕事場で、家庭で、車で、レストランで、空港で、切符売場で、擬人エージェントやロボットと自然な会話で、効率よくサービスを享受できる日は近い。
　医療分野においても電子カルテシステムなどのITが急速に普及する昨今、臨床現場でのドクター、ナースによるキーボードやマウスによる入力負担が問題となっている。しかも患者への情報開示、紹介率の向上、地域連携の推進、診療データの蓄積による疾病の体系化、病院経営の分析と安定化、万が一の医療過誤訴訟の際の克明な診療記録など、医療現場では今後ますます診療記録の入力の重要性が増している。これらの状況を打開する策の一つとして、音声認識技術の進歩と普及は、IT化へ向けた動向を支えるものであるといっても過言ではない。
　Eメールの普及などで、話をする機会が失われていく今日、話す文化が形成されることも、人間本来の姿として歓迎すべきことではないだろうか。

株式会社アドバンスト・メディア（Advaned Media, Inc.）
〒170-6048
東京都豊島区東池袋3-1-1サンシャイン60　48F
Tel：03-5958-1091
Fax:03-5958-1033
URL：http://www.advanced-media.co.jp
E-mail：kishi@advanced-media.co.jp