Chat GPTはどのようにトレーニングされましたか?

チャットGPTのトレーニング方法-768x435-718x.jpg

もしChatGPTに精通している場合、あなたはそれが豊富なデータコーパスに基づいてトレーニングされていることを知っているかもしれません。しかし、それが具体的に何を意味するのか、この記事では「ChatGPT はどのようにトレーニングされるのか」という微妙な問題に焦点を当てて掘り下げます。

ChatGPTは、監視学習と強化学習の技術を組み合わせて調整された事前学習済み言語モデルです。ChatGPTのトレーニングプロセスは、大量のテキストデータをモデルに入力し、そのパラメータを調整してトレーニングコーパスのテキストに似たテキストを生成できるようにすることを含みます。

このプロセスでは非監視学習アプローチが使用されました。つまり、モデルに生成されたテキストが正しいかどうかの明示的なフィードバックは与えられませんでした。代わりに、モデルはトレーニングコーパス内のテキストに類似している可能性のある生成されたテキストの尤度に基づいてパラメータを調整します。

GPT-3は、ChatGPT-3の親モデルであり、1750億のパラメータと2048トークンの長さのコンテキストを持ちます。それは、Common Crawl、WebText2、Books1/2、英語版のWikipedia、およびCSS、JSX、Python、その他のプログラミング言語のコードの例から数千億の単語でトレーニングされています。

GPT-3に使用されるトレーニング方法は生成プレトレーニングです。つまり、入力文の次のトークンまたは単語を予測するように訓練されます。

Chat GPTの最高の代替品

教師あり学習

ChatGPTモデルは、人間のトレーナーによる監視学習のプロセスを通じて微調整されました。 これらのトレーナーは、ユーザーとAIアシスタントの両方の役割を担い、会話に参加しました。

彼らはモデルからの提案を受け取り、それに基づいて回答を作成するためのガイドを受け取りました。 その後、InstructGPTデータセットが対話形式に変換され、それと混合されました。

強化学習

このモデルは、Proximal Policy Optimization (PPO) を使用して強化学習によってさらに改良されました。人間のトレーナーは、以前の会話から生成されたモデルの応答を評価し、これらの評価を使用して報酬モデルを開発しました。そして、モデルはこれらの報酬モデルに基づいて微調整されました。

高度な微調整が何度も行われ、より良いパフォーマンスが実現されました。PPOアルゴリズムは、他のアルゴリズムに比べてコスト効果が高く、より高速なパフォーマンスを発揮するため、このプロセスに最適です。

OpenAIは引き続き、ChatGPTに対話するユーザーから情報を収集し、モデルをさらに改良・洗練するために利用しています。

ユーザーは、ChatGPTの回答に対してupvotingまたはdownvotingをすることで投票することができ、さらにフィードバックを提供する機会もあります。これらのデータは、モデルのパフォーマンスをさらに改善し、人間らしいテキストの生成をより良くするために使用されます。

モデルのトレーニングに使用されたデータ

ChatGPT-3は、Azure AIスーパーコンピューティングインフラストラクチャを用いてトレーニングを行ったGPT-3.5シリーズから洗練されたモデルです。このモデルは、書籍、チャットフォーラム、記事、ウェブサイト、学術論文、コード、およびその他のソースなど、インターネットからスクレイピングされた大量のテキストを用いてトレーニングされました。

ChatGPT-3のトレーニングに使用されたテキストデータのコーパスは45テラバイト以上であり、非常に大きく、ジャーナリストや作家が作成するテキストに似たテキストを生成するモデルの能力に貢献しています。

関連記事

もっと見る >>