Googleの音声入力の凄さと音声認識のあるアプリの作り方

公開日：2016/11/21　更新日：2019/09/09　

※本ページにはプロモーション(広告)が含まれています

音声コマンドも用意されていて、コマンドを使用することで編集や書式設定も簡単におこなうことができます。

音声コマンド

「Select all（すべて選択）」
「Select line（行を選択）」
「Deselect（選択を解除）」
「Bold（太字）」
「Italicize（斜体）」
「Underline（下線）」
「Make bigger（拡大）」
「Make smaller（縮小）」
「Center align（中央揃え）」
「Left align（左揃え）」
「Right align（右揃え）」

これ以外にもたくさんの音声コマンドがあり、さまざまな操作をおこなえるようになっています。すべての書式設定や編集方法を覚えるのは大変ですが、主に使う機能を覚えておくだけでも、マウスやキーボードを使うことなく文章作成できるようになります。

6.無料で使える
7.どの端末でも使える
8.音声入力中でもキーボード入力ができる
9.タイピングが苦手でも安心して使える
10.寝ながらでも文章が書ける
11.目を休めながら文章が書ける

2.Googleの音声入力のデメリット
2.音声認識のあるアプリの作り方
- 音声認識機能を組み込む（OpenEars）
- 音声認識と音声合成を組み込む（PerC SDK）
まとめ

6.無料で使える

音声を自動でテキストにしてくれる夢のような技術ですが、利用料金は一切かかりません。完全に無料で使うことができます。

音声入力ソフトの中には有料なものも数多くある中で精度もスピードも速いGoogleの音声入力をタダで使えるのは本当にありがたいです。これは多くの人に使ってもらうことで音声入力の精度をより高める目的もあるかと思います。

7.どの端末でも使える

Googleの音声入力を利用する条件は、ブラウザが「Google Chrome」であることくらいです。そのため、端末は選びません。パソコンやスマートフォン、Apple製品も関係ありません。ブラウザを開ける端末であれば音声入力機能を利用することができます。

8.音声入力中でもキーボード入力ができる

音声入力中でもキーボード入力ができるメリットもあります。音声入力中に言い間違えしてしまった時、素早くキーボード入力によって修正することができるのです。

基本は音声入力を行いつつも、修正する必要に迫られた時はキーボード入力で適切に修正。このような使い分けができるのも魅力の一つとなります。

9.タイピングが苦手でも安心して使える

タイピングが苦手な人でも素早くテキスト入力できるメリットもあります。パソコンのキーボード入力やスマートフォンのフリック入力などがどうしても慣れないという人も少なくありません。どうしても向き不向きはありますから、別の入力方法があるというだけで大きな価値があるかと思います。

タイピングやフリック入力が苦手という人こそ音声入力を試してみてください。

10.寝ながらでも文章が書ける

タイピングを行う時はキーボードに向き合う姿勢を保つのが一般的です。寝ながらタイピングも不可能ではありませんが、長時間続けるには難しい一面も。

一方、音声入力であれば喋るだけで良いので、どんな体勢でも文章をかけてしまうのです。椅子に思いっきり背もたれながら、デスクに肘をつきながら、もっと言ってしまえば寝ながら文章を書くこともできてしまいます。

特定の姿勢を維持する必要がない音声入力は、程よい気分転換にもなるおすすめの入力方法です。

11.目を休めながら文章が書ける

パソコンやスマートフォンの画面を長時間見ているとどうしても目への疲れが溜まっていきます。自分では実感しにくいものですが、目へのダメージは日々確実に蓄積してしまうものです。

タイピング中は画面を確認しながら行う必要がありますから、目を休める暇はありませんよね。これが音声入力であれば、目をつむりながら文章を書くことも。修正箇所は後でタイピングで行えば完璧です。

目を休めつつ文章を書くことができる音声入力は、体にも優しいシステムと言えます。

2.Googleの音声入力のデメリット

ここまでGoogleの音声入力やGoogleドキュメントの特徴を見てきました。様々なメリットが見られましたが、デメリットもいくつか存在します。

周囲に人がいる時はやりにくい

一つ目は周囲に人がいる時は使いづらいという点。一人で喋るのが恥ずかしいということもありますが 人に聞かれてはいけない内容 の場合もあります。マイクが雑音を拾って正しい音声入力が行えない可能性もあります。

このような問題から、音声入力は一人でいる時にしか使いにくいという問題も抱えています。オフィスなど他の人がいるような場所ではタイピング入力する必要があるでしょう。基本的には自宅で一人の時に音声入力する使い方になりそうです。

修正作業は必須

高い精度で音声入力を行えるというものです。しかし誤字脱字など一定数のミスが発生してしまいます。音声入力したテキストをそのまま提出するわけにもいきませんので 文章校閲は必須作業 となります。

一定数のミスがあるとは言え、タイピングで入力する手間を考えれば遥かに楽な事は確かですから積極的に使いたい機能とも言えます。音声入力によっておおまかな文章を作成した後、確認しながら手作業で修正していく使い方が理想となりそうです。

音声入力が途切れることがある

Googleドキュメントの音声入力中に突然 音声入力が途切れてしまう という報告も一定数あります。音声入力オン状態であるにも関わらず、音声を拾わず入力が止まってしまうという現象です。

この事態が発生した時の対処法は 「Ctrl + Shift + S」を二回押す ことです。音声入力のオンオフを切り替えるショートカットキーを二回押すことで再び音声入力オン状態にするというものです。

2.音声認識のあるアプリの作り方

ここでは、音声認識のあるアプリの大枠の作り方について紹介いたします。

音声認識機能を組み込む（OpenEars）

音声認識機能を組み込むことで、音声認識のあるアプリを作ることができます。音声認識機能で組み込めるものは、「DOCOMO音声入力API」や「iOS SDK用音声認識機能ライブラリVocalkitの使い方」「音声合成ライブラリOpenEars」など、さまざまなものがあります。

これらを使って音声認識機能を実装していくには、サイトからパッケージをダウンロードしたあとに、フレームワークの追加をおこないます。ここでは、OpenEarsを使った場合にします。フレームワークの追加が完了したら、headerファイルをインポートします。headerファイルのインポートが済んだあとは、OELanguageModelGeneratorの設定へと進みます。

その後、OEPocketsphinxControllerの設定へと移ります。OEPocketsphinxControllerの設定が完了したら、OEEventsObserverの設定をして完了となります。

音声認識と音声合成を組み込む（PerC SDK）

PerC SDKを使ってアプリに音声認識と音声合成を組み込む場合は、EnableVoiceRecognitionで音声認識機能を有効にして音声エンジンのセットアップをおこないます。音声エンジンのセットアップ完了後、音声認識されたテキストを取得します。テキストになった音声は、OnRecognizedで受け取ります。

テキストの取得まで完了したら、音声合成に進みます。音声合成をおこなう場合は、PerC SDKに音声データを変換してもらいます。util_pipelineとvoice_out.hの２つのヘッダーファイルを使い、ワイドキャラクターを扱えるようにします。

その後、PXCVoiceSythdsis::QueryProfileで取得し、音声エンジンを設定したあとにスピーカーから出力します。これにより、入力した文字を音声化したものが、スピーカーから聞こえるようになります。