Googleの音声入力の凄さと音声認識のあるアプリの作り方

LINEで送る
Pocket

52a8407edde6836e7d5e3e486603d344_s

TVCMなどで機能があることを知っている人は多いと思いますが、Googleの音声入力を使ったことはありますか?フリック入力やタイピングの方が速く入力できるから必要ない!と考える人もいると思います。

しかし、Googleの音声入力は年々進化しており、精度が高くほぼ正確に入力することが可能です。今回は、「Googleの音声入力の凄さと音声認識のあるアプリの作り方」について紹介いたします。

スポンサーリンク

1.Googleの音声入力の凄さ

114a06b02f38d240a819db74ec557331_s

さまざまな音声入力ソフトなどがありますが、Googleの音声入力の精度と速度は群を抜いています。使い勝手も良く、誤字脱字がほとんどありません。ここでは、Google音声入力の精度の高さだけでなく、便利に使える操作方法について紹介します。

1.精度高く検索できる

以前までは音声入力=精度が低いイメージを持っていた人も多かったと思いますが、最近のGoogleの音声入力は精度が非常に高まっています。スマホで使う場合は、Googleアプリを開き音声入力マークをタップするか「OK Google」と声を発すれば音声入力ができるようになります。

「赤い ジャケット」など、単語を並べて検索もできますし、「近くにあるカフェ」「◯◯温泉までのルートは?」なども音声入力で検索できます。

その他にも、交通状況を確認できたり、計算や単位を変換することができたり、画像検索、英語への翻訳、電話をかけたり、メールを送信、アプリ起動やアラーム設定など、音声入力による検索で何でも操作することができます。また、声を発してから読み取るまでの速度も速いため、ほとんどストレスを感じることなく日常でも使うことができます。

2.Googleドキュメントでも使える

音声入力が使えるのは検索だけではありません。設定すれば、Googleドキュメントでも使え、音声入力で文章を作成していくことも可能です。

Googleドキュメントで音声入力を使いたい場合は、Google Chromeブラウザを使用し、パソコンのマイク機能をオンに設定します。

「ツール」をクリックして「音声入力」を選択し、マイクを押して声を発します。入力が終わったら、マイクをクリックして終了です。入力ミスがあった場合は、カーソルを該当箇所に移動させ音声で修正することもできます。

場合によっては、タイピングよりも速く入力していくことが可能です。

3.句読点を追加するこができる

音声入力では、文字だけでなく句読点を入力することもできます。

句読点を入力する場合は、「Period(ピリオド)」「Comma(カンマ)」「Exclamation point(感嘆符)」「Question mark(疑問符)」「New line(改行)」「New paragraph(改段落)」を音声入力すれば句読点も追加できます。

句読点の追加もできることで、音声入力だけで文章作成ができるようになります。

4.世界各国の言語に対応

Googleの音声入力が対応しているのは、日本語と英語だけではありません。

  1. アラビア語
  2. ブルガリア語
  3. チェコ語
  4. デンマーク語
  5. ドイツ語
  6. ギリシャ語
  7. スペイン語
  8. フィンランド語
  9. フィリピン語
  10. フランス語
  11. クロアチア語
  12. ハンガリー語
  13. インドネシア語
  14. アイスランド語
  15. イタリア語
  16. 日本語
  17. 韓国語
  18. マレーシア語
  19. オランダ語
  20. ノルウェー語
  21. ポーランド語
  22. ポルトガル語
  23. ルーマニア語
  24. ロシア語
  25. 中国語(簡体)
  26. 中国語(繁体)
  27. 中国語(香港)

上記以外にも多くの国の言語に対応しています。さまざまな言語を使って音声入力をすることができますし、現地で何か探したいときにも使えます。

5.音声コマンドで編集や書式設定もできる

音声コマンドも用意されていて、コマンドを使用することで編集や書式設定も簡単におこなうことができます。

  1. 「Select all(すべて選択)」
  2. 「Select line(行を選択)」
  3. 「Deselect(選択を解除)」
  4. 「Bold(太字)」
  5. 「Italicize(斜体)」
  6. 「Underline(下線)」
  7. 「Make bigger(拡大)」
  8. 「Make smaller(縮小)」
  9. 「Center align(中央揃え)」
  10. 「Left align(左揃え)」
  11. 「Right align(右揃え)」

これ以外にもたくさんの音声コマンドがあり、さまざまな操作をおこなえるようになっています。すべての書式設定や編集方法を覚えるのは大変ですが、主に使う機能を覚えておくだけでも、マウスやキーボードを使うことなく文章作成できるようになります。

2.音声認識のあるアプリの作り方

e93f43d04c1ee8b96af1d7bbd16ad948_s

ここでは、音声認識のあるアプリの大枠の作り方について紹介いたします。

音声認識機能を組み込む(OpenEars)

音声認識機能を組み込むことで、音声認識のあるアプリを作ることができます。音声認識機能で組み込めるものは、「DOCOMO音声入力API」や「iOS SDK用音声認識機能ライブラリVocalkitの使い方」「音声合成ライブラリOpenEars」など、さまざまなものがあります。

これらを使って音声認識機能を実装していくには、サイトからパッケージをダウンロードしたあとに、フレームワークの追加をおこないます。ここでは、OpenEarsを使った場合にします。フレームワークの追加が完了したら、headerファイルをインポートします。headerファイルのインポートが済んだあとは、OELanguageModelGeneratorの設定へと進みます。

その後、OEPocketsphinxControllerの設定へと移ります。OEPocketsphinxControllerの設定が完了したら、OEEventsObserverの設定をして完了となります。

音声認識と音声合成を組み込む(PerC SDK)

PerC SDKを使ってアプリに音声認識と音声合成を組み込む場合は、EnableVoiceRecognitionで音声認識機能を有効にして音声エンジンのセットアップをおこないます。音声エンジンのセットアップ完了後、音声認識されたテキストを取得します。テキストになった音声は、OnRecognizedで受け取ります。

テキストの取得まで完了したら、音声合成に進みます。音声合成をおこなう場合は、PerC SDKに音声データを変換してもらいます。util_pipelineとvoice_out.hの2つのヘッダーファイルを使い、ワイドキャラクターを扱えるようにします。

その後、PXCVoiceSythdsis::QueryProfileで取得し、音声エンジンを設定したあとにスピーカーから出力します。これにより、入力した文字を音声化したものが、スピーカーから聞こえるようになります。

まとめ

いかがでしたでしょうか?今回、Googleの音声入力の凄さと音声認識のあるアプリの作り方について紹介いたしました。Googleの音声入力は、非常に精度が高くなっており、入力スピードもかなりの速さです。

ちょっとした検索や調べ物だけでなく、文章を入力していくこともできます。これから、どんどんアップデートされ、さらに使いやすくなっていくと思われ、近い将来音声入力の方がタイピングよりも確実に速く精度が高いものとなることでしょう。ぜひ、今のうちから慣れておくように少しずつ使ってみましょう。

スポンサーリンク

LINEで送る
Pocket

Facebookでのご購読が便利です