ハイライト
- 低品質のChatGPTコンテンツが人間のレビューを通過する理由
- ChatGPTは簡潔であるべきときにも包括的である。
- 教授が指摘する、ChatGPTによって生成されたエッセイを破綻させる欠陥
- ChatGPTは架空のVoight-Kampffアンドロイド検出テストに失敗し、なぜそれが重要なのか驚きの理由
ChatGPTは網羅的で信憑性のあるコンテンツを制作しています。
しかし、研究者、芸術家、および教授たちは、コンテンツの品質を低下させる欠点に注意するよう警告しています。
この記事では、ChatGPTコンテンツの11の欠点について説明します。さあ、始めましょう。
1. 短いフレーズだと人工的と認定されやすい
機械生成されたコンテンツを検出する方法について研究している研究者たちは、自然ではなく聞こえるパターンを発見しました。
その中でのひとつの特異性は、AIが慣用句を理解することの難しさです。
慣用句とは、たとえば「どんな雲にも銀の裏地がある」というような比喩的な意味を持ったフレーズや言い回しのことです。
コンテンツ内に慣用句がない場合、コンテンツが機械生成されたものである可能性があり、これは検出アルゴリズムの一部になることがあります。
この機械生成されたコンテンツにおける本質的な問題について、2022年の研究論文『Adversarial Robustness of Neural-Statistical Features in Detection of Generative Transformers』は以下のように述べています:
「複雑なフレーズ特性は、解析テキスト内でより頻繁に出現する特定の単語やフレーズの頻度に基づいてヒューマンテキストよりも頻繁に発生します。」
「複雑な句動詞の機能のうち、慣用表現機能が現行の生成モデルにおいて最も予測力があります。」
慣用句を使えないことは、ChatGPTの出力が不自然に聞こえたり読まれたりする原因の一つです。
2. チャットGPTは表現能力に欠けている
一人のアーティストが、ChatGPTの出力が芸術のようであるが、芸術的表現の実際の質に欠けるとコメントしました。
表現とは、思考や感情を伝える行為です。
ChatGPTの出力には表現ではなく、単語のみが含まれています。
人間と同じ感情的なレベルで人々に訴えかけるコンテンツを作ることはできません - なぜなら、考えや感情を持っていないからです。
音楽アーティストのニック・ケイブは、彼の「Red Hand Files」ニュースレターに投稿された記事で、彼自身のスタイルで作成されたChatGPTの歌詞についてコメントしました。
新しいAIを搭載したコンテンツマーケティングツールキット
競合他社よりも先進的なテクノロジーを取り入れましょう。結果を3倍速く実現する最適化とターゲティングされたコンテンツを作成しましょう。
彼は書きました:
「偉大な曲を偉大にするものは、それが認識可能な作品に近似していることではありません。
...それは、自分が脆弱であること、危うさに立ち向かう息詰まるような瞬間、自分自身の小ささに立ち向かうことであり、突き付けられたような驚くべき発見感覚です。それは、聴衆の心を揺さぶり、聴衆が曲の内面に自分自身の血や苦悶、苦しみを見出す感動的な芸術行為です。
ケイブは、ChatGPTの歌詞を嘲りの対象と位置づけました。
これはNick Caveの歌詞に似たChatGPTの歌詞です:
「私は天使の血を手にした
私は地獄の炎を瞳に燃やした
深淵の王、暗黒の支配者
彼らが恐れる唯一の存在、影に佇む者」
そしてこれは実際のニック・ケイヴの歌詞です(Brother, My Cup Is Empty):
「雨の虹をすべり落ち
星から星へと飛び跳ねてきました
しかし、この乞食のような身着で
鉄格子を打ちならし、自分の破れた杯を揺ります
ほら、この杯は空っぽ!
欲望を忘れてしまったみたい
昔の思い出の煙を掃いているみたいだ」
機械が生成した歌詞はアーティストの歌詞に似ていますが、実際には何も伝えていません。
Nick Caveの歌詞は、歌っている人物の感情や願望、恥ずかしさ、意図的な欺瞞など、感銘を与える物語を語っています。それは考えや感情を表現しています。
ニック・ケイブがそれを嘲笑する理由は簡単に見て取れます。
3. ChatGPTは洞察を提供しません
「ザ・インサイダー」で掲載された記事によると、ある学者はChatGPTによって生成された学術エッセイには、トピックに関する洞察が欠けていると指摘しています。
ChatGPTはトピックを要約しているが、トピックに独自の洞察を提供していない。
人は知識だけでなく、個人的な経験や主観的な知覚を通じて創造します。
アパラチアン州立大学教授のクリストファー・バーテル氏は、The Insiderによると、ChatGPTのエッセイは文法の質が高く、洗練されたアイデアが表現されているかもしれないが、それでも洞察力に欠けていると述べています。
バーテルさんは言いました:
「とってもフワッフワだよ。文脈も深みも洞察力もない。」
洞察力は、よく書かれたエッセイの象徴ですが、ChatGPTはそれに特に優れていません。
機械生成されたコンテンツを評価する際には、この洞察力の欠如に注意する必要があります。
4. ChatGPTは言葉が多すぎます。
2023年1月に発表された研究論文により、ChatGPTのコンテンツには重要なアプリケーションには適さないパターンがあることが発見されました。
論文のタイトルは、「ChatGPTは人間の専門家にどの程度近いですか?比較コーパス、評価、および検出」と題されています。
調査によると、ファイナンスと心理に関連する質問に回答した場合、ChatGPTの回答が人間により50%以上の確率で選択されたことが示されました。
しかし、ChatGPTは医療問題に回答できなかった。人間は直接的な答えを好むため、AIはそのような答えを提供できなかったからです。
研究者たちは次のように書いています:
"...ChatGPTは、英語と中国語の両方において、医療分野における有用性について不十分な性能を発揮しています。
「チャットGPTは、収集されたデータセット内の医療相談に対して長い回答を提供することがよくあります。一方、人間の専門家は、直接的な回答や提案を直接提供することができるため、ボランティアたちは医療分野において人間の回答がより役立つと考えていることを部分的に説明することができます。」
ChatGPTは、最良の答えが直接である場合には不適切であるため、さまざまな角度からトピックをカバーする傾向があります。
ChatGPTを使用するマーケターは、サイト訪問者が直接的な回答を求めている場合、冗長なウェブページでは満足できないことに注意する必要があります。
そして、言葉が多すぎるページをGoogleの注目スニペットでランク付けするのは運が良いという程度で、Google Voiceでうまく機能する簡潔かつ明確な回答の方が、くどい回答よりもランクが上がる可能性が高い場合があります。
ChatGPT の製造元である OpenAI は、長い回答を与えることができないことを認識しています。
OpenAIによるお知らせ記事には次のように記載されています:
「モデルはしばしば過剰な冗長性を持っています...」
ChatGPTの長々しい回答を提供する傾向には注意が必要です。状況によっては、より短く、直接的な回答が適している場合があります。
5. ChatGPTコンテンツは、明確な論理で高度に組織化されています
ChatGPTは、冗長で、テンプレートに従う書き方をするため、人間らしさを感じさせないユニークなスタイルを持っています。
この非人間的な質は、人間と機械が質問に答える方法にある違いから明らかになります。
映画「ブレードランナー」には、回答者が人間かアンドロイドかを明らかにするために設計された一連の質問が登場するシーンがあります。
これらの質問はフィクションの「Voigt-Kampffテスト」の一部でした。
質問の一つは:
「あなたはテレビを見ています。突然、あなたの腕にハチが這っていることに気づきました。あなたはどうしますか?」
普通の人の反応としては、叫び声を上げたり、外に出てはたいたりするなどの言葉が出るでしょう。
しかし、この質問をChatGPTに投げたところ、質問を要約し、論理的な複数の可能な結果を提供した、細心の注意を払った回答を提供しました - 実際の質問に答えることができませんでした。
ヴォイト=カンプフ・テストの質問に答えるチャットGPTのスクリーンショット

答えは非常に組織化されて論理的で、それが非常に不自然な印象を与えるため、望ましくないです。
6. ChatGPTの内容が詳細すぎて包括的である
ChatGPTは、人間が回答に満足した場合にのみ機械に報酬を与える方法でトレーニングされました。
人間のレーターは、より詳細な回答を好む傾向がありました。
しかしながら、医療の文脈などでは網羅的な回答よりも直接的な回答の方が適している場合があります。
これは、それらの品質が重要な場合に、機械により包括的でなく、より直接的になるよう促される必要があることを意味します。
OpenAIから:
「トレーニングデータ内のバイアス(トレーナーはより包括的に見える長い回答を好む)や、よく知られた過剰最適化の問題からこれらの問題が生じます。」
7. ChatGPTは嘘をつく(事実を幻視する)
前述の研究論文「ChatGPTは人間の専門家にどの程度近いか?」によると、ChatGPTは嘘をつく傾向があると指摘されています。
それは報告されます:
「特定の分野の専門知識が必要な質問に答える場合、ChatGPTは時に事実を捏造して回答することがあります…」
例えば、法的な質問については、ChatGPTが質問に回答するために、存在しない法的規定を考え出すことがあります。
…さらに、ユーザーが回答が存在しない質問を投げた場合、ChatGPTは回答を提供するために事実を捏造することがあります。」
フューチュリズムのウェブサイトは、CNETに掲載された機械生成のコンテンツに間違いや「愚かなエラー」が多数含まれていることを記録しています。
CNETは、OpenAIが不正確な出力について警告したことを知っていたはずです:
「ChatGPTは時々、信憑性があるようで誤った、あるいは無意味な回答を書くことがあります。」
CNETは、機械によって生成された記事を公開前に人間のレビューに提出したと主張しています。
人間のレビューには問題があります。ChatGPTのコンテンツは説得力のある正しさを作り出すように設計されています。このため、トピックの専門家でないレビュアーを騙す可能性があります。
8. ChatGPTは発散していないため、非自然的です
研究論文「ChatGPTは人間の専門家にどの程度近いのか?」では、人間のコミュニケーションには間接的な意味があるため、理解するにはトピックのシフトが必要であることが指摘されています。
ChatGPTはあまりにも文字通り解釈しすぎるため、AIが実際のトピックを見落として回答が外れることがあります。
研究者たちはこう書いています:
「ChatGPTの返答は一般的に与えられた質問に厳密に焦点を当てていますが、人間の場合は多様で、他のトピックに簡単に転換します。」
コンテンツの豊富さについて言えば、人間は異なる点でより分散していますが、ChatGPTは質問自体に重点を置いています。
人間は自分自身の常識や知識に基づいて質問の裏に隠された意味を理解できますが、ChatGPTは手元にある質問の文字通りの意味に依存します…
人間は文字通りの質問から離れる能力に優れており、 「何について?」という質問に答えるために重要です。
例えば、私が尋ねる場合:
「馬は家庭で飼うには大きすぎます。ラクーンはどうですか?」
上記の質問は、アライグマが適切なペットかどうかを尋ねているわけではありません。質問はその動物のサイズについてです。
ChatGPTは、サイズに焦点を当てる代わりに、アライグマがペットとして適切であるかどうかに焦点を当てています。
過剰に文字通りなチャットGPTの回答のスクリーンショット

9. ChatGPT は中立的であることにバイアスがかかっています
ChatGPTの出力は一般的に中立的で情報を提供します。出力のバイアスが役立つように見えることがありますが、常に役に立つわけではありません。
私たちが話し合った研究論文によれば、法律、医療、技術に関する問題においては、中立性は望ましくない品質であるとされています。
この種の意見を述べるとき、人間はしばしば一方を選ぶ傾向があります。
10. ChatGPTはフォーマルに偏っています
ChatGPTの出力には偏りがあり、普通の表現で回答することを妨げます。代わりに、回答はフォーマルな傾向があります。
人間は一方で、より口語的なスタイルで質問に答える傾向があり、日常語や俗語を使用します。すなわち、形式的なものとは反対です。
ChatGPTはGOATやTL;DRのような略語を使用しません。
回答には、皮肉や比喩、ユーモアの例が不足しており、これらは一部のコンテンツタイプにとってChatGPTのコンテンツを過剰にフォーマルにする可能性があります。
研究者たちは書いています:
「…ChatGPTは「一般的に」「一方で」「まず第一に、次に、最後に」などの接続詞や副詞を使用し、論理的な思考の流れを伝えることが好きです。」
11. ChatGPTはまだトレーニング中です
ChatGPTは現在、訓練と改善のプロセスの途中にあります。
OpenAIは、人間によるレビューをChatGPTで生成されたすべてのコンテンツに対して推奨し、これをベストプラクティスの1つとしてリストしています。
OpenAIは、人間をループに入れることを提案しています。
「できるだけ、実際に使用される前に人間によるレビューを推奨します。」
高リスクのドメインやコード生成で特に重要です。
システムの限界について把握し、出力内容を検証するために必要な情報にアクセスできるようにすることが、人間に求められるべきです。(例えば、アプリケーションがノートを要約する場合、人間が原文を確認するために簡単にアクセスできるようにする必要があります)。
ChatGPTの望ましくない特性
ChatGPTには監視しないコンテンツ生成に適していない多くの問題があることは明らかです。バイアスが含まれ、自然な感触や本物の洞察を含むコンテンツを作成できません。
さらに、感じることや独自の思考を作り出すことができないため、芸術的表現を生み出すためには適していません。
ユーザーは詳細な指示を適用する必要があります。そうすることで、通常出力されるデフォルトのコンテンツよりも優れたコンテンツを生成できます。
最後に、機械翻訳されたコンテンツの人間によるレビューだけでは十分とは限りません。ChatGPTのコンテンツは、正しく見えるように設計されていますが、実際にはそうでない場合があります。
つまり、特定のトピックに関して正しい情報と誤った情報を区別できる専門家である人間のレビュアーが重要であるということです。