Microsoftの研究者たちはChatGPTを使用して、ロボットやドローンに指示を与えています。

ロボットハンド.jpg

OpenAIのChatGPTは、自然言語のプロンプトに対して明瞭なテキスト応答を生成するだけでなく、人間とロボットの相互作用において役割を果たし、センサーフィードバックを利用してロボットアクションのためのコードを書くこともできます。

Microsoftは最近、ロボット工学のタスクを支援するために物理的な世界を考慮できるかを調べるために、 ChatGPTがテキストを超越して考えることができるかどうかを調査しました。その目的は、プログラミング言語を学ぶことなく、ロボットシステムを理解することなく、人々がChatGPTを使用してロボットを指示できるかどうかを確認することでした。

深層記事: これらの専門家たちは、ハッカーから人工知能を守るために競い合っています。時間は切れています。

「Microsoft Autonomous Systems and Robotics Research」のチームは、ブログポストで次のように指摘しています。「ここでの主な課題は、ChatGPTに物理法則、運用環境の文脈、およびロボットの物理的なアクションが世界の状態をどのように変えるかを考慮して問題を解決する方法を教えることです。」

マイクロソフトの研究者たちは、ChatGPTがアプリケーションインターフェースを通じて物体の検出と物体間の距離データにアクセスした後、主にPythonでロボットのシナリオのためのコードを生成するChatGPTの機能を探索しました。これには、ゼロショットプランニングやコード生成が含まれます。

ChatGPTは、多量のコードとテキストの学習に基づいてコードを生成できます。システムは、コーディング問題の解決やプログラムのデバッグが可能であり、ダイアログに応答して明確化を求めるという独自の能力を持っています。また、CodexというOpenAIのGPT-3ベースのモデルもあります。このモデルは、GitHub Copilotという複数の言語で開発者のためにコードのオートコンプリートを行うサービスの基盤として使用されます。

また、ChatGPTとは何ですか?知っておく必要があるすべてのことはこちら

上記の対話と明確化の能力を考慮した上で、MicrosoftはChatGPTが非技術的ユーザーとドローンの間の言語ベースのインターフェイスとしての能力をテストしました。研究者が論文で指摘するように、GPT-3、LaMDA、Codexはロボティクスプランニングやコードジェネレーションのタスクで有望な結果を示しましたが、特にChatGPTは「自然言語とコード生成モデルの強みに加え、対話の柔軟性を備えた、ロボティクス分野においてより多目的なツール」としての可能性があります。

研究者は自分たちのブログ投稿で指摘します。「ChatGPTは、ユーザーの指示が曖昧な場合には質問をしたり、棚を視覚的に検査するためにジグザグのパターンなどの複雑なコード構造を書いたりしました。」

マイクロソフトは、ロボットアームを使用してChatGPTをテストし、ブロックを移動してMicrosoftのロゴを形成するようにしました。また、研究者はChatGPTにドローンが障害物に衝突せずにポイントに到達するアルゴリズムを書くようにも指示しました。それらの他に、ChatGPTがセンサーフィードバックに基づいてロボットがどこに行くべきか決定することができるかどうかもテストされました。

Google ResearchとAlphabet傘下のEveryday Robotsの研究者たちも、PaLMと呼ばれる大規模言語モデルを使用して、同様のロボティクスの課題に取り組んできました。このモデルによって、ロボットは開放的なプロンプトを処理し、合理的な方法で応答することができました。

関連記事

もっと見る >>