Mata:AI研究モデルを発表

Metaも生成AIを始めたとしたAI開発や研究に余念がありません。MetaはAIをオープンソース化することで自力だけではなく、より多くの協力者を自動的に募れるような仕組み作りも行っています。そんな中、米国現地時間6月18日、Metaは新しいAI研究モデルをいくつか発表しましたので、ご紹介します。

Meta

Metaの発表内容

MetaのAI開発において、いくつかのモデルが一旦完成の目処がついたのか…そのコードネームと共に発表されています。そこまで難しい話ではありませんので、ご参考までにご覧ください。

規模に応じたイノベーションを加速させる新たなAI研究モデルを発表

要点

  • Metaは、最先端のAIへのアクセスがすべての人にチャンスをもたらすと信じています。
  • 今回MetaのAI基礎研究チームは、将来の研究を加速させ、他の人々がAIを革新し、大規模に適用できるようにするために、いくつかのモデルを公開します。

 
この10年以上、MetaのFundamental AI Research(FAIR)チームは、オープンな研究を通じてAIの最先端技術を発展させることに注力してきました。この分野が急速に革新する中、グローバルなAIコミュニティとのコラボレーションがこれまで以上に重要であると考えています。
この度、最新のFAIR研究モデルのいくつかをグローバルコミュニティと共有できることを嬉しく思います。画像からテキスト、テキストから音楽生成モデル、マルチトークン予測モデル、AIが生成した音声を検出する技術を含む5つのモデルを公開します。この研究を公に共有することで、反復研究を促進し、最終的には責任ある方法でAIの発展に貢献したいと考えています。
 

Meta Chameleonはテキストと画像の両方を処理・生成できる

私たちはChameleonモデルの主要コンポーネントを研究専用ライセンスのもとで公開しています。Chameleonは、画像とテキストの両方を理解し、生成することができるミックスモーダルモデルファミリーです。人間が言葉と画像を同時に処理できるように、Chameleonは画像とテキストを同時に処理し、提供することができます。多くの大規模な言語モデルは通常、ユニモーダルな結果(例えばテキストを画像に変える)をもたらしますが、Chameleonはテキストと画像のどのような組み合わせでも入力として受け取り、またテキストと画像のどのような組み合わせでも出力することができます。画像にクリエイティブなキャプションをつけたり、テキストプロンプトと画像をミックスして全く新しいシーンを作ったりと、Chameleonの可能性は無限です。
 

マルチトークン予測は、より速く単語を予測するためのAIモデルの訓練に役立つ

大量のテキストでトレーニングされた大規模言語モデル(LLM)は、すでに人々がクリエイティブなテキストを生成したり、アイデアをブレインストーミングしたり、質問に答えたりするのに役立っています。LLMの学習目的はシンプルで、次の単語を予測することです。このアプローチはシンプルで拡張性がありますが、非効率でもあります。子供たちが同じ程度の流暢な言語を習得するのに必要なテキストよりも、数桁多いテキストが必要なのです。
4月にMetaではマルチトークン予測を使用することで、より優れた、より高速なLLMを構築する新しいアプローチを提案しました。このアプローチでは、従来の1回1回のアプローチではなく、未来の単語を一度に複数予測する言語モデルを学習します。責任ある、開かれた科学の精神に基づき、コード補完のための事前学習済みモデルを非商用、研究専用ライセンスで公開します。
 

JASCOがAI音楽生成の制御を強化

生成AIは、テキストプロンプトを音楽のクリップに変えるなど、新しい方法で人々の創造性を探求することを可能にしました。MusicGenのような既存のテキストから音楽への生成モデルは音楽生成のために主にテキスト入力に依存していますが、私たちの新しいモデルJASCOは、生成された音楽へのコントロールを改善するために、コードやビートのような様々な入力を受け入れることができます。
これにより、記号と音声の両方を同じテキストから音楽への生成モデルに組み込むことができます。
その結果、JASCOは評価されたベースラインと同程度の生成クオリティを持ちながら、生成された音楽に対してより優れた、より多彩なコントロールを可能であると立証されました。
 

AudioSealがAI生成音声の検出を支援

AudioSealは、AIが生成した音声を局所的に検出するために特別に設計された初めての音声透かし技術です。AudioSealは、より長い音声スニペット内でAIが生成したセグメントをピンポイントで検出することを可能にします。
複雑なデコーディングアルゴリズムに依存する従来の方法とは異なり、AudioSealのローカライズされた検出アプローチは、より高速で効率的な検出を可能にします。この設計により、従来の方法と比較して検出速度が最大485倍向上し、大規模かつリアルタイムのアプリケーションに適しています。
AudioSealは商用ライセンス下においてリリースされます。これは、生成AIツールの悪用を防ぐために、我々が共有したいくつかの責任ある研究のひとつに過ぎません。
 

テキストから画像を生成するシステムの多様性を高める

テキストから画像を生成するモデルが誰にとってもうまく機能し、世界の地理的および文化的多様性を反映することが重要です。これを実現するために、私たちはテキスト画像生成モデルにおける潜在的な地理的格差を評価する自動指標を開発しました。
さらに、地理的表現に対する認識が地域によってどのように異なるかを理解するために、大規模なアノテーション調査を実施しました。テキストから画像を生成するAIモデルの自動評価と人間による評価を改善すべく、魅力・類似性・一貫性・共通の推奨事項を網羅した6万5,000件を超える注釈と20件を超えるアンケート調査の回答が収集されました。これにより、AIが生成する画像の多様性と表現力が向上します。

今日、私たちは地理的格差の評価コードと私たちの注釈を公開し、コミュニティが生成モデル全体の多様性を改善する一助となることを願っています。

引用)about.fb.comより和訳

 

今回、Metaが発表した新しいAI研究モデルは以下です。

  • Chameleonモデルによって、画像とテキストの組み合わせを様々な形で理解し、入力&出力できるようになる。
  • マルチトークン予測により、より広範で迅速な単語予測や言語生成が可能になる。
  • JASCOによって、音楽をテキストではなくコードやビートで理解できる。
  • AudioSealによって、音声理解が従来の検出速度の485倍に向上。これは商用利用のみ。
  • 地方によって異なる言い方(や方言)に関しても理解することで表現力を向上。

 

従来のLLMや生成AIからちょっと進歩したモデル(ちょっととはいえ、実際には大きな一歩)として、AIモデルを作成・発表した形となりました。このようにして切磋琢磨しながら、正しく公平的なAIの世界を築き上げられたら良いですね。

少なくともAI業界は、検索業界のようにほぼ1社が独占的に支配してしまうと大変なリスクとインシデントを孕んでしまうと思いますので、引き続きOpenAIやGoogle、Metaを始めたとした各社には頑張り続けてもらいたいと、(ごくごく小さな、一切影響力の無い存在である)私は思います。

カテゴリー

新着記事

人気記事

過去記事