文字起こし技能テスト(R)は、文字起こし、音声起こし、テープ起こし、書き起こしなど、録音された音声を文字化する技能を評価するテストです。
第4回までは「音声起こし技能テスト」第5回から「文字起こし技能テスト」に変更いたしました。

プロの視点

VoXTが「リスピーカー」を募集中――株式会社アドバンスト・メディア

今回は、株式会社アドバンスト・メディアにお話をお聞きしました。コールセンターや医療現場などさまざまな場所で、同社の音声認識技術が活用されています。今回は、VoXT(ボクスト)事業部の志村亮一様と小泉奈央子様にお話を伺いました。
okosoは過去にも同社に取材していますが、在宅ワーカー募集中であることをご紹介するのは今回が初めてです。

――御社では、音声認識技術を活用して地方議会の議事録も手がけられていますね。VoXTで募集されている在宅スタッフは、議会案件の音声認識結果を校正するような仕事ですか。

志村 こちらで在宅の方にお願いするのは、「VoXT フル」にご依頼いただいた案件で、インタビュー、講演会、などの音声が主体になります。地方議会の音声の書き起こしも依頼します。

「VoXT セルフ」は、音声認識ソフトを援用してユーザーが自分で文字起こしデータを仕上げるサービス。「VoXT フル」は、音声を預かってスタッフが文字起こしして納品する。

――「リスピーカー」を募集されているんですね。

志村 音声どおりにマイクに向かって復唱して認識させることを、リスピークといいます。当社では、リスピークによって文字起こしするスタッフを「リスピーカー」と呼んでいます。
本来、音声起こしのスキルは、発言の内容を正確に理解できるとか、国語力があるなどが重要です。それらの能力が高いのにキーボード入力が遅いために諦めてしまっている方に、ぜひリスピークでの作業をご検討いただければと思っています。
また、今は体力があっても、いつかは入力スピードが衰えたり、毎日何時間もタイピングするのが疲れるようになるかもしれません。リスピークでの文字起こしは、身体的な負担が小さいのが特徴です。

――リスピーカーに応募するのは、音声認識に興味を持っている方が多いですか。

小泉:「音声認識に興味があります」と志望動機を書いてくださる方は多いです。応募をいただいたら、音声認識ツール(※)をお渡しして、トライアルのときから使っていただきます。ツールはもちろん無償で提供しています。
トライアルデータを送っていただいた後は、こちらで確認・修正した結果をお返しして、求める方向性をご説明します。また、業務の詳細な条件をお渡しして、リスピーカーになっていただけるようでしたら正式にお申し込みくださいとご連絡しています。

※この音声認識ツールは、音声再生・音声認識・テキスト入力をオールインワンでできる、業務用に販売されているソフトウエアとのことです。

――実務をスタートしたら、必ずリスピークで作業するという決まりですか。

志村 今後みんながリスピークで作業するような状態をつくれればとは思っていますが、キーボードで打たないでほしいと依頼してはいません。速く打てるのなら、それはそれでいいことですし。

――どんな人に応募してもらいたいですか。

志村 音声認識やリスピークに興味を持っている方にトライしていただければと思います。学生でも主婦でも定年退職された方でも、地域や年齢・性別は問いません。

小泉 最初は多少不慣れな感じでも、質問にお返事を返しつつ仕事をお願いしていくと、ほんの数回で見違えるほど良い文字起こしをするようになる方って、いらっしゃいます。知的好奇心がある方なのだろうなと思います。そういう方にぜひご応募いただきたいです。

――音声認識ソフトを試したけど使えないと言って撤退してしまう方もいるようです。

志村 キーボード入力も、最初は苦労しながら徐々に身に付けていかれたと思います。音声認識も同様に、使う側の学習や慣れが必要ですし、ソフトウエアもユーザーの発音の特徴を学習して認識率を上げていくわけです。
ですから、ちょっと試しただけで「使えない」と思われるのは残念です。それも、われわれの啓発がまだ足りていないところかもしれませんね。

――音声の自動認識技術がもっと進歩したら、リスピーカーさんも私たちも仕事が無くなってしまうのではありませんか。

志村 たしかに自動認識技術は進歩しています。スマートフォンで検索するとき、単語や短文を音声で認識させることは、今や普通です。
しかし、会議や座談会といった入り組んだ自然会話を認識させることは、まだまだ困難です。われわれは諦めず取り組んでいきますが、マイク無しの音声や、複数の人の声が入り乱れる音声などの場合、100%に近い自動認識率は今後10年程度では難しいのではないかと思っております。

――やっぱり難しいものなんですね。

しかも、仮に100%発言どおりに文字化されたとしたら、使いにくいデータになってしまうはずです。人間の言葉は言い間違いがつきものですし、読んだとき分かりにくい言い回しなどもあります。人が手を入れるプロセスは必ず残るはずです。

――あれこれ心配するより、興味があるなら音声認識を使ってみるほうが賢いですね。

志村 柔軟な人は真っ先に使って、格闘して、ああでもないこうでもないと試しながら、自分なりの手法を身につけていかれると感じます。音声認識を援用することで、同じ作業時間で今までの倍の長さの音声を起こせるようになるかもしれません。人の作業力を増やしていくサポートツールとして使っていただけます。

小泉 心配な方は、まずは実際に音声認識を試してみられてはと思います。当社のトライアルを受けていただければツールをご提供しますので。それで興味があったらそのままリスピーカーになっていただければ、私たちもうれしいです。

株式会社アドバンスト・メディア VoXT事業部
志村亮一様 小泉奈央子様
音声起こし活用推進協議会 会員

<脱線した話題>
――会議や座談会など話者数の多い音声は、話者の特定に苦労します。警察の声紋鑑定のような、声の特徴で話者を識別するシステムって市販されているのでしょうか。御社で開発はされていますか。

志村 声紋認証という技術があります。例えば地方自治体等の会議で発言者が一人一人順番でしゃべるようなシーンでは一人一人の声の特徴で識別することができて実際使われております。ただ複数の話者が入り乱れて人の耳で聞いても特定が難しいシーンをコンピューターで識別するのは難しいですね。

(うーん、有効な状況は限られるんですね…)

____________

音声起こしポータルサイトokosoより

Pocket