音声認識が得意な音声と不得意な音声
音声認識にも得意・不得意があります。最も認識率が高いのは、ニュース番組をライン録音したような明瞭な音声で、逆に最も認識率が低いのは、大人数の雑談をICレコーダー1台で録音したり、スマホをポケットに入れた隠し取りのような場合です。なお、当社では音声認識は使用しておりません。

1.音声認識が得意な音声
・明瞭な録音
音が明瞭であるほど認識率は上がります。一番良いのは、ライン録音されたものやネット動画の音声、次に良いのは、マイクを使用した発言をスピーカーのそばで録音したものです。
・話者が少ない
1~3人ぐらいの少人数で、かつ、相手の話にかぶせないように話すと認識しやすいです。
・滑舌が良い
アナウンサーのようにきれいに話せると認識率は上がります。
・平易な内容
誰もが理解できるような一般的な言葉は認識しやすいです。
・原稿を読んでいる場合
言いよどみがないので認識しやすいです。
2.音声認識が不得意な音声
・不明瞭な録音
10人以上いる会議を1台のICレコーダーで録音したものや、大きなホールのようなところで反響してしまった音声などは認識率が下がります。人数が多いとICレコーダーから距離が離れて不明瞭になりますし、大きなホールでも、舞台袖の両脇にスピーカーが置いてあるような場合は、その近くで録音すると反響が抑えられますが、天井埋め込みや吊り下げ式のスピーカーは、音源からの距離が遠いために反響して不明瞭になります。また、隠し取りの場合は、録音している方の発言はよく聞こえても、相手の発言が聞き取れないことが多くあります。
・話者が多い
大人数でも司会や議長がいる会議などでは、発言の許可を得てから話すので相手の発言にかぶることはあまりありませんが、仕切る人がおらず、ざっくばらんに話しているような場合は、どうしてもごちゃごちゃになりがちで認識しにくくなります。
・滑舌が悪い
かんだり、つっかえたり、口が回っていないようなところはうまく認識できません。
・専門的な内容
一部の人にしか通じない言葉や固有名詞、略語、専門用語、または方言や外国語が混じると認識しにくくなります。
・雑談
よくあるのが、ひそひそ話のように声が小さくなると認識しにくくなります。逆に、誰かが面白いことを言ってみんなが笑いながら話したりするのも認識しにくいというか、認識できないと思います。
3.認識率
一般的に、得意な音声でも90~95%、不得意な音声では80%以下に下がり、半分も認識できないような場合もあります。90%でも優秀なほうですが、A4サイズ1枚の標準的な文字数を40字×35行=1400字とすれば、文字でぎっしり埋め尽くされていたとして10%は140字ですから、1行当たり3.5字の誤認識が現れることになります。当社でも何度か使ってみたことがありますが、それを修正していく時間を含めると、最初から人力で起こしたほうが速い結果となりましたので、当社では音声認識は使っていません。今のところは、慣れていないため時間がかかったり、根気強くない方で、ところどころ間違いがあっても概要が分かればよいという方に向いているものだと思います。