ニテンイチリュウ

A believer in the power of design

OpenAI、GPTbot リリース

OpenAIがウェブサイトのクローラーの詳細およびブロック方法を公開しました。

 

platform.openai.com

 

このGPTbotというウェブサイトクローラーは、OpenAIがトレーニングデータ取得用にウェブサイトをスクレーピングするものです。つまりはクローリングされたウェブサイトのデータはOpenAIのAIモデルの学習データとして使われることになります。もちろん、課金対象となるコンテンツや個人情報などOpenAIのポリシーに反する情報は自動的に排除され、学習データとしては使われません。とはいえ、自分のデータが学習に使われることが問題となることが多いとは思います。そのため、GPTbotを他のウェブクローラーと同様にクローリングさせないよう方法も公開されています。

 

User-agent: GPTBot
Disallow: /

 

とrobot.txtに記載することでクローリング対象からサイト全体を外すことができます。

またディレクトリー単位でアクセスコントロールしたい場合は、

 

User-agent: GPTBot
Allow: /directory-1/
Disallow: /directory-2/

 

という形で、許可するディレクトリーをAllow、禁止するディレクトリーをDisallowで指定することでコントロール可能です。

 

またあわせてGPTbotのIPアドレスも公開されており、IPアドレスで弾くことも可能です。

generative AIの隆盛により、今まで以上に学習データが重要となるなかでどのようにデータを集め、保護するかがますますキーとなってくるでしょう。