
音声認識が得意な音声と不得意な音声
音声認識にも得意・不得意があります。最も認識率が高いのは、ニュース番組をライン録音したような明瞭な音声で、逆に最も認識率が低いのは、大人数の雑談をICレコーダー1台で録音したり、スマホをポケットに入れた隠し取りのような場合です。なお、当社では音声認識は使用しておりません。

Zoom等を使用したオンライン・ハイブリッド会議の開催方法
ハンドマイクのスピーカーとマイクスピーカーを離して置いていませんか?
ハウリングは起こしませんので、ハンドマイクのスピーカーの前にマイクスピーカーとICレコーダーを置いてください。

録音に必要なICレコーダーの台数
席の間隔にもよりますが、確実に録音するため、当社では3人に1台を目安に置いています。
写真のようなレイアウトの場合は、長辺に3台、短辺に1台、合計8台が必要です。
手持ちのICレコーダーが少ない場合は、最低でも2台を中心に向けて角の対角に置いていただくか、できれば4台を四隅もしくは辺の中央に置きます。
この規模ではハンドマイクを使用し、スピーカーの近くと、予備的にスピーカーの対角に、ICレコーダーを2台置くことをお勧めします。
リアル文字起こし【比較検証】人力起こし VS 音声認識修正
人力で起こしていくパターンと、音声認識を修正していくパターンを、同じ音声で同じ人が行って比較検証しています。
今回は無料の中でも比較的精度が良いことで有名な音声認識を使用しました。結果は1勝1引き分けで人力のほうに軍配が上がりましたが、鍛え抜かれた有料のアプリや学習を積み重ねた音声認識であれば、もう少しケバが取れて後の修正作業が楽になってくるかもしれません。(2025年4月時点の検証結果)
リアル文字起こし(1)ケバ取り忠実起こし
録音状態が良く、ケバもあまりない話し方のため、ほぼ互角の結果となりました。興味深いのは、(2)のほうもそうですが、人力起こしと音声認識を修正した結果は、読点の位置や聞き取りにくいところの処理などが同じではないということです。人力起こしで聞き取りにくかったためスペースを空けておいたところを、音声認識は「各国の知ったのは」としたのでそのまま直しませんでしたが、人力起こしでは、最終的に文脈から「各国の人に言ったのは」としています。忠実起こしですので穴を空けてよいレベルではありますが、同じ音声を起こしても、人や手段によって結果が異なることがお分かりいただけると思います。
音声時間 | 0:03:14 |
---|---|
人力起こしに要した時間 | 0:11:51 |
音声認識に要した時間 | 0:11:44(音声認識時間0:00:38+修正時間0:11:06) |
上記2本の動画は、2025年1月24日に新橋で行われた玉木雄一郎氏の街頭演説を基に有限会社アルファテキストが制作したものです。
リアル文字起こし(2)ケバ取り整文起こし
録音状態は(1)と同じですが、人力のほうが約25%速い結果となりました。恐らく、音声認識の結果にケバが多く修正に時間がかかったのと、整文を行ったためと思われます。音声認識修正編は、字幕の解説にも書いていますが、ケバの修正に気を取られて肝心の名前の間違いに気づけていません。この仕事をしている人は、音声を聞きながらケバを取って指定の表記で起こし、熟練者は同時に整文までしていきますので、本来は文字化する時点でできている処理を後からすることで、人力で起こすより時間がかかるだけでなく、校正の目も行き届いていないことがお分かりいただけると思います。
音声時間 | 0:03:58 |
---|---|
人力起こしに要した時間 | 0:13:09 |
音声認識に要した時間 | 0:17:37(音声認識時間0:01:26+修正時間0:16:11) |
上記2本の動画は、2025年1月24日に新橋で行われた鳩山紀一郎氏の街頭演説を基に有限会社アルファテキストが制作したものです。