• Bard等にサイトを読ませない方法

Bard等にサイトを読ませない方法

Googleでは、9月28日、Webサイトに生成AI(この場合はBardと付随するAPIが対象)から参考にさせない(読み込ませない)ための仕様として、Google-Extendedのクロール制御ができる旨を発表しました。Googleのドキュメントも更新(日本語未対応)されています。

  • September 28:Added a new user agent token, Google-Extended, which acts as a new control that web publishers can use to manage whether their sites help improve Bard and Vertex AI generative APIs, including future generations of models that power those products.

 9月28日:新しいユーザーエージェントトークンであるGoogle-Extendedが追加されました。これは、Web発信者側が自社サイトに対してBard及びVertex AIの生成API(これらのサービスを強化する今後の機能モデルも含む)の改善材料として使用するかを制御できる新しい管理機能です。

引用)Latest documentation updatesより一部抜粋&和訳

どういうこと?

PaLM 2と言っていないのでそこのところはよく分かりませんが、BardとVertex AI(Googleの生成AIとして提供されているAPI)、また今後開発される同様のモデルに関して、生成AIが学習する上で参考にするWebサイトの対象から外したい場合、robots.txtを使って、Use-AgentにGoogle-Extendedを設定すれば、読み込ませないようにするよ、という話です。

Googleに限らずですが、生成AIは常にインターネット上にあるコンテンツをもとに情報処理し、最適化し、自己学習しています。その学習用のインプットに自分のWebサイトを使わせるかどうかの判断ができるという話です。

例えば、企業サイトとしてのポリシーや個人情報等、AIと言えども第3者にインプットさせることは、ただのGoogleインデックスとは違うわけで、情報を編集されることを善しとしないのであればブロックしたほうが良いでしょう。他にもフィクションの話とか、わざと自分のサイトを悪く言うコンテンツを公開していたりする場合(さすがにそういうことはしないと思いますがw)、そのフィクションをBardが信じてしまうこともあるので、そういう時はブロックしておくと良いかもしれません。

ちなみに、Googleのクローラーに関する英語版の公式ドキュメントには以下のような記述が追記されています。

Google-Extendedについて:Web発信者側が自社サイトに対してBard及びVertex AIの生成API(これらのサービスを強化する今後の機能モデルも含む)の改善材料として使用するかを制御できる単独機能型トークン。

完全なユーザーエージェント文字列について:Google-Extendedには、個別のHTTPリクエストユーザーエージェント文字列を保有していません。クロールは従来のGoogle ユーザーエージェント文字列を使用して行われています。従って、robots.txtユーザーエージェントトークンは制御機能として使用されます。

引用)Overview of Google crawlers and fetchers (user agents)より一部抜粋&和訳

 

つまり、このGoogle-Extendedとは、そういうクローラーがあるわけではなく、ただBard等に使用されないようにする指示に過ぎないということですね。

企業として求められるポリシー

生成AIを開発している各企業におきましては、(特にGoogleやMetaがそうですが)生成AIに対する倫理観やポリシーを誰でも閲覧できるドキュメントとして掲出しています。なので、個人情報に著しく抵触したり捏造したりすることもなく、それは企業に対してもそうです。とはいえ、企業に対する世間の評価や評判は生成AIも学習していますので「世間にとってはどんなイメージ?」とプロンプトで訊けば「世間はこう言っています」的な回答をします。そして、就職活動者はそういうのを参考にします。つまり企業にとっては取引や採用に影響してくるわけです。

また、生成AIのAPIを活用してサービス展開している企業も第3者企業にサービス貸与する場合、その第3者企業の情報をどこまで学習させるか、また取引上の機密情報をどこまでインプットさせるか等の情報取り扱いに関する利用規約や締結書を敏感に扱っています。

企業にとってはイメージが重要ですし、社員の情報等を企業ブログで紹介したりしているなら尚更、ポリシーが求められます。また、その企業の労働者も単純に「はい、サイトに出演します」ではなく、ポリシーがどうなっているか確認しておいた方が良いでしょう。こういったものは企業よりよっぽど個人の方が情報に敏感だと思いますので是非お気を付けください。

カテゴリー

新着記事

人気記事

過去記事