いよいよGoogle検索を通して鼻歌で曲を探すことができるようになりました。(Googleアシスタント等に入力される)音声検索で音の連鎖でマッチングした結果を表示するようです。米国現地時間10月15日にGoogleが発表しました。
Googleの発表内容
The Keywordで発表されたGoogleの記事を和訳していますので、まずはご覧ください。
頭の中に流れている曲名は?鼻歌で検索
「ダァーダァーダァーダァーダァーダァーナァーナァーナァーオォーイェー」という歌をご存知ですか? ギターのコードで「ダ・ナ・ナ・ナ・ナ・ナ・ナ」と始まる曲です。メロディが頭の中で流れているにもかかわらずその曲の名前や歌詞が出てこない時、どれだけイライラするか、Googleもよく分かっています。 本日Search Onでは、歌詞やアーティスト名を知らない、もしくは完璧なリズムで歌わなくても、Googleがどの曲かを判断できる新しい機能を発表します。
イヤーワーム(音楽が頭にこびりついて離れない)には鼻歌検索
今日より、イヤーワームに対して、鼻歌を歌ったり、口笛を吹いたり、メロディーを歌ったりして、Googleに解決してもらいましょう。使用しているモバイル端末で、Googleアプリの最新バージョンを開くか、Google検索ウィジェットを見つけて、マイクのアイコンをタップして「この曲は何ですか」と言うか、「曲を検索」ボタンをタップします。そして、10~15秒ほど鼻歌を歌いましょう。Googleアシスタントでも、同じように簡単です。「Hey Google, what’s this song?」と言って、曲をハミングします。この機能は現在、iOSでは英語、Androidでは20以上の言語に対応しています。将来的にはさらに多くの言語に拡張していく予定です。
鼻歌を歌い終わった後、機械学習アルゴリズムが曲にマッチする可能性のある曲を特定します。この機能を使うのに音程を完璧にして歌う必要ありません。検索した鼻歌に基づいて、最適と判断した結果を表示します。その後、最もマッチしていると思った局を選択して、その曲とアーティストに関する情報を探索したり、付属のミュージックビデオを観てみたり、お気に入りの音楽アプリでその曲を聴いたり、歌詞を見つけたり、レビューを読んだり、(そういうのがあれば)曲のその他アレンジをチェックしたりすることができます。
機械がどのように曲調を学習するのか
では、鼻歌検索はどんな仕組みで機能しているのでしょう? 簡単にご説明すると、曲のメロディーは指紋のようなものでして、それぞれが固有のもので同じものはありません。Googleでは機械学習モデルを構築し、検索者の鼻歌や口笛、歌声を適切な“指紋”として照合させることが出来るようになりました。
検索でメロディを口ずさむと、機械学習モデルは音声をなぞり、その曲のメロディを定量化した順列に変換します。今回のGoogleの機械学習モデルは、実際に人間が歌ったり、口笛を吹いたり、鼻歌を歌ったり、スタジオで録音したりする等の様々な実験に基づいて曲を識別するよう訓練されています。このアルゴリズムでは、伴奏楽器や合奏ハーモニー、編曲など、メロディー以外の全ての要素を排除して学習します。そうすることで得られた情報が、曲の定量化順列―つまり“指紋”です。
Googleではこれらの定量化順列を世界中にある何千もの曲と比較し、瞬時に鼻歌検索に合致する可能性のある曲を抽出します。例えば、Tones and Iの「Dance Monkey」を聴いていれば、その曲を普通に歌おうが、口笛を吹こうが、鼻歌で歌おうが、誰でも同じように認識できると思います。同じようにGoogleの機械学習モデルも、スタジオ録音された曲のメロディーを認識し、そのメロディーを鼻歌で歌った音声の場合でも一致して認識することができます。
これは、GoogleのAI研究チームによる音楽認識技術をベースにしています。Googleでは2017年に「Now Playing on the Pixel 2」を発表し、ディープニューラルネットワークを使うことで低負荷なままモバイルでの楽曲認識ができるようになりました。2018年には、GoogleアプリのSoundSearch機能にも同じ技術を導入し、数百万曲のデータベースにまで認識範疇を拡大しました。そして今回、歌詞や原曲がなくても曲を認識出来るようになったことで、さらに一歩進んだものになりました。もはやGoogleが必要としているのは、鼻歌だけです。
ラジオで聞いて印象的だった曲や、ご両親が大好きな昔の曲名が出てこない時は、ぜひ鼻歌を歌い始めてみませんか。すぐに答えが出ます。
引用)The Keywordより和訳
音の定量化とニューラルマッチング
今回の新機能において、活躍しているアルゴリズムは音の連鎖(シーケンス)を数値化してデータベース化していることと、音声の調子ズレや多少の音痴にも対応できるニューラルマッチングシステムの2つですかね。特に音を数値化したデータベースを構築できたというのは素晴らしいですね。もう、超ビッグデータの世界ですね。
個人的に私は、脳みそが老け込まないよう、ド忘れしたものに関しては極力検索に頼らないようにしていますが(笑)、どうしても曲が出てこなかった場合は使ってみようかと思います。