AIのウソ回答

 ChatGPTのウソ回答に騙されない方法というエントリーがなかなか面白かった。ガリア戦記に従軍していたローマ兵の持つ剣「グラディウス」について、ChatGPTと塩野七生とWikipediaとBeingAIとに聞いてみたら、揃って嘘をついてきたという話だ。正直、読んでいる最中には「何でよりによってそんな胡散臭いソースにばかり当たるんだ。ゼロはいくら積み重ねてもゼロだろう」と思ってしまったのだが、もちろん筆者はわざとやっている。最後にオチとして専門家の書籍の記述を持ってくるため、敢えて胡散臭いソースを並べてみせだのだろう。
 筆者が主張したいのは、数だけ揃えても証拠にはならない(事実は多数決で決まるわけではないと述べている)点だろう。以前、wikipediaで似たようなことをやっていた事例を紹介したし、時にはプロ(の筈)の研究者が証拠にならない空引用をやっていた事例もあるように、実はこうした話は珍しくない。だが純朴な人の中にはそうした落とし穴に気づいていない人もいるだろうから、わざわざ最近はやりのAIを使って説明したのではないか、と見ている。もっともらしい文章を生み出すからといって、それだけで判断しては拙いという話をAIを使って説明してみせている印象だ。
 つまるところ「累計発行部数1800万部の世界的ベストセラー作品」であろうが間違いは間違いだし、「Wikipediaで裏取りして、それは裏取りしたことになるんだろうか?」という問いかけの答えは無論「ならねーよ」である。そしてまた、ChatGPTか否かを問わず、AIを使って事実を確認する作業にも常にリスクが伴う。リスクを抑制するための質問方法を書いてはいるが、あくまで「多少、ウソを検出しやすくなる」というレベル。「AIではなくGoogle scolar素直に使うしかなかろう」という指摘こそ、一番真っ当な解決策なのだ。
 実際、AIに嘘をつかせることは私にだって可能だ。例えば前に紹介したPerplexity AIを使い、「マレンゴの戦いでドゼーが砲声を聞き戦場に向かったという話は本当か」という質問を英語で投げかけてみた。すると答えは「それは本当です」。その論拠として挙げられたのがこちらこちら。残念ながら前者は有料のためドゼーについて何と書かれているかは分からなかったが、後者では遠方の砲声を聞いてドゼーが動きを止めサヴァリーを送り出したという話が載っている。
 この逸話が事実でないことはこちらで言及済み。ドゼーの部下が記した報告には彼らが反転命令を受けるまで戦場から遠ざかっていたと書かれていたにもかかわらず、後にサヴァリーが砲声を聞いて足を止めたという話をでっち上げ、さらにThiersがそこからドゼーは砲声に向けて自身の判断で進んだという追加の嘘を上乗せした。専門家やよほどの物好き以外は目を通さない史料と、有名な歴史家(Thiers)が書いた話とでは後者の方が圧倒的に伝染力が高く、そちらの方がネット上でも多く見かけるため、AIはそれに合わせて話を作り上げたわけだ。
 ただ面白いことに、Perplexity AIでガリア戦争におけるローマ兵の剣の長さを聞くと、最初に紹介したエントリーとは違う答えが返ってくる。曰く「初期のグラディウスは刃渡り64~69センチだったのに対し、後期は42~55センチだった。また紀元前216~20年までに使われたグラディウス・ヒスパニエンシスは60~68センチだった」こちら英語版wikipediaがソースとなっており、どうやらグラディウスについては単に日本語wikipediaの情報量が少なかっただけかもしれない。
 もちろんグラディウスについてきちんと知りたければ、指摘したようにGoogle scholarを使った方が確実。例えばそうやって探すと見つかるGladius hispaniensis: an archaeological view from Iberiaという文献には、共和制末期の剣の刃渡りは63.7~67.5センチなのに対し、帝政初期にはそれが44.7~52.5センチになったことが一覧表になって記されている(TABLE II)。考古学的証拠に基づく議論だから、ほぼ間違いはないだろう。
 こうした話は専門的なテーマについてネットで調べた経験がある人にとっては分かり切った話ではあるが、そこまで詳しくネットを使ったことがない人、あるいは最近のAIブームでAIにちょっと過剰な期待を抱いている人に対しては、こうやって水をかける必要があるんだろう。正直、ChatGPTがやっていることはネット上に広く存在する「いかがでしたか」構文を再生産しているにすぎないのではないかと思っている。今のAIもまたデジタル技術全体と同じく、本当の「発見」や「発明」にはならないだろう、というのが現状での私の考えだ。

 それでもAIに嘘をつかせない方法が知りたいのであれば、上のエントリーでの注意事項以外にも気を付けた方がいい点がある。AIから正確な情報を得たければ、ネット上に問い合わせ事項に関する詳しく正確な情報があることが大切。上にも述べた通り、グラディウスについての英語での質問がより効果的だったのは、英語圏にローマのマニアが作ったサイトや充実したwikipediaがあり、AIがそれらを使って情報を集めることができたからだ。
 一方、ネット上に間違った情報が広まっている場合、AIは嘘をつく。上にも述べたが、英語圏ではナポレオン関連の記述は事実よりも伝説の方が広まっているようで、例えば前に紹介したナポレオンのものではない発言についても「ナポレオンのものとされている」という間違った返答を寄こしてくる。
 そう、実はどんな言語で質問するかが、AI活用のうえでは意外に重要である。例えば長篠の戦いにおける三段撃ち(英語だとvolley fire)について、英語と日本語で質問してみよう。これが世界最古の例の1つかと聞いた場合、英語では「その通り」と景気よく返答してくれるのだが、日本語で質問すると最初に「実際には全くのウソであるとされています」と回答してくる。まあその後で「新戦法三段撃ちを行ったとされることは有名です」とも書いており、この短い文章内で完全に矛盾してしまっているのだが、英語とはおよそ違う返答であることは間違いない。
 もちろん日本に関連する事象でもネット上に間違った日本語情報が氾濫していれば、日本語で質問しても嘘が出てくるだろう。これはどの言語でも同じ。とはいえ相対的なリスクを減らしたいのであれば「餅は餅屋」のスタンスで質問するのがいいだろう。いやまあローマにかかわる話だからラテン語で、みたいなところまで踏み込む必要はさすがにないだろうが、というかラテン語対応をしているAIはおそらくないんじゃないかと思うが、いずれにせよ調べたい事項との関連度が高い言語を使用する方がマシだと思っておいた方がいい。
 とはいえ、こうした「ネット上に詳しく正確な情報がある件について質問する方が望ましい」という条件に従ってAIを使いこなせる人は、そもそもAIを必要としない人だろう。当該情報がネット上にどのくらい存在し、それがどの程度信頼できるかについて土地勘を持っているのなら、別にAIに問いたださなくても必要な情報を手に入れる術を持ち合わせているはず。AIに頼りたいと思うのは、そもそもどこから取り掛かればいいのか分からない状態で、なおかつできるだけ簡単に答えを知りたい時だ。だがそういう質問を投げると、AIが嘘をつく可能性は高まる。
 最初に紹介したエントリーでは、それを避けるためには専門家の書いた本で裏取りするしかないが、それは「コスト的に現実的ではない」と記している。まさにその通りだ。急な仕事でとある件についてそこそこの知識を手に入れなければならなくなった。でもその件について自分は詳しいわけではない。教科書を最初から順番に読めばいいのは確かだが、そんな時間も余裕もない。そういう立場に追い込まれた人が「これがウソの可能性も十分あるんだな」と思いながらAIを使うことになるわけで、まあ確かに憂鬱な結論ではある。
 それに対し、あまりコストをかけずに専門家へアプローチする手段としてAIが使える、と指摘しているのがこちらのエントリー。書かれていることはその通りだし、直接AIに聞くよりこうしたやり方の方が正しい答えにたどり着く可能性は高いと思うが、これがハードルの低い方法かというとそうは思えない。まず「博物館を探す」とか「学芸員に質問すれば確実な回答が得られる」といった調査手法をすぐ思いつける人が、果たしてどのくらいいるだろうか。こうした方法が学校できちんと教えられているのならともかく、現状ではそこまで容易に思いつける手法ではなさそうに見える。
 それに人手不足の現代において、これからはそうそう専門家に頼れない局面も増えそうな気がする。あるいは頼ることはできるが金がかかるような案件の場合、頼らずにAIで済ませようとする人もいるだろう。人手不足の穴埋めにAIを使う時代というのは、事故のリスクが高いのを承知のうえで手探りで前進するような時代なのかもしれない。
スポンサーサイト



コメント

brkn
ChatGTPは当たり前のように嘘を吐くので、現時点で「正確な情報を得る」目的では使えないと思います。
ただし合理的な「正しい考え方」「課題解決のアプローチ方法」についての回答は、現時点でも非常に有効だと感じています。

以下、ChatGTP4.0に「正しい情報を得るための手段」を質問して回答を貰いました。
ChatGTPに問い合わせが殺到してるのか?回答はとぎれとぎれで、最後まで得られませんでしたが、充分に有効だと感じました。

Q.
ガリア戦記に従軍していたローマ兵の持つ剣「グラディウス」について、学術的に正確な情報を得られる方法を教えてください。

A.
ガリア戦記(紀元前58年-紀元前50年)に従軍していたローマ兵の持つ剣「グラディウス」について学術的に正確な情報を得る方法はいくつかあります。

1.専門書籍や学術誌の調査: 歴史学、考古学、軍事史などの分野で出版された専門書籍や学術誌を調べることで、グラディウスに関する詳細な情報を得ることができます。図書館やオンラインデータベースを利用すると、さまざまな研究がまとめられた資料にアクセスできます。

2.歴史家や考古学者とのコンタクト: グラディウスや古代ローマの軍事に詳しい歴史家や考古学者に連絡を取り、質問や情報交換を行うことで、最新の研究成果や専門的な意見を得ることができます。大学や研究機関に所属する専門家を探すのが一般的ですが、オンラインで活動している研究者や専門家もいます。

3.古代ローマの遺跡や博物館の訪問: グラディウスに関連する遺跡や博物館を訪れることで、実際に発掘された遺物や資料を調査することができます。これにより、グラディウスの構造や使用方法についての理解が深まります。

4.オンラインデータベースやデジタルアーカイブの利用: インターネット上には、古代ローマの資料や考古学的発見をまとめたデータベースやデジタルアーカイブがあります。これらを利用することで、グラディウスに関する情報を効率的に収集できます。

5.学術会議や講演会への参加: グラディウスや古代ローマに関する学術会議や講演会に参加することで、最新の研究成果や議論に直接触れることができます。また、同じ分野に興味を持つ研究者や専門家と交流する機会も提供されるため、自分の研究に役立つ情報や意見を得ることができます。

6.古代ローマの軍事再現団体や歴史愛好家との交流: 古代ローマの軍事再現団体や歴史愛好家と交流することで、グラディウスの使用方法や技術について実践的な知識を得ることができます。彼らは実際にグラディウスを用いた戦闘シミュレーションや実験考古学を行っていることがあり、その知見が役立つ場合があります。

これらの方法を組み合わせることで、グラディウスに関する学術的に正確な情報を得ることができます。さらに、自分で研究プロジェクトを立ち上げることで、独自の視点や質問に基づいて調査を進めることが可能です。研究プロセスでは、質の高い情報源を選定し、複数の情報源を照らし合わせて信憑性を確かめることが重要です。

また、学術的な情報を得るだけでなく、他の分野(例えば工芸、武道、物理学など)との交差点からグラディウスを研究することも有益です。異なる分野からのアプローチは、新たな発見や理解の深まりにつながることがあります。

最後に、グラディウスに関する学術的な情報を得た後は、その知識を広めることも大切です。研究成果を発表することで、他の研究者や興味を持つ人々と知識を共有し、さらなる議論や研究の進展に貢献できます。学術誌への投稿、学会発表、ブログやSNSでの情報発信、教育機関での講義やワークショップの開催など、さまざまな方法で知識を広めることができます。

また、歴史的な知識を得ることは、現代社会や文化との関連性を理解するためにも重要です。グラディウスに関する研究を通じて古代ローマの軍事戦術や技術革新、社会構造について理解を深めることができ、現代の軍事戦術や技術、社会構造との比較や関連性を考察することができます。このような知識は、歴史の教訓や古代文明から学べる普遍的な価値を理解し、現代の問題解決や戦略立案に役立てることが可能です。

総じて、グラディウスに関する学術的に正確な情報を得る方法は多岐にわたりますが、その知識を活用して歴史的な理解を深め、現代社会においてもその価値を活かすことが重要です。専門家や同じ分野に興味を持つ人々とのコラボレ
----ここから先の回答は得られず----

6.なんかは盲点でした(^-^;
ヒストリーチャンネルとか見てると、ああ、確かにそういうマニアックなグループはいるなぁ。と思いだしましたが、グラディウスの情報を得るための手段とは思いつかず、ChatGTPスゲーなと思いました(^-^;

より詳細なアプローチ方法などはリンクに上げてもらった内容で支援してもらうことも可能。
回答の正確性はサッパリでも、合理性には感心させられます(^-^)

desaixjp
詳しい情報ありがとうございます。
リエナクターが挙がってくるあたりは海外ならではの印象ですが、確かに質問するならこういうやり方の方がいいんでしょうね。
時間や手間暇をかける前提なら、こうした方法でAIを活用しながら答えにたどり着く手もあるわけで、土地勘のない人にとっては確かに便利ではあります。
となると学校で教えるべきはこういったAIの使い方、でしょうか。
あと問題があるとしたら時間も手間暇もかけられない場合で、主に納期に追われるビジネス関連で発生しそうなケースですが、そこはリスクとリターンの兼ね合いでやるしかない、といったところなんでしょう。
個人的にはAIには質問を投げるよりも、例えば論文要約といった作業を命じる方がいいのかもしれないと最近は感じています。
https://slide.antaa.jp/article/view/d0de1bd8ea414420

brkn
ChatGTPと会話してて感じることから、学校で教えた方がいいんじゃないかと感じることは、語学力、伝える(質問する)力と、聞く(回答を分析する)力に思います。
端的に「合理的な言葉によるコミュニケーション能力」が、現時点ではとても重要に思います。

特殊な条件付けをしなければ、ChatGTPは常に質問に対して合理的な回答をしてくると感じます。
フワッとした質問でも、質問者の意図を予測して回答をくれます。
ここは割と曲者だと思っていて、GTPが意図を予測したことは、私の聞きたかったことと本当に一致しているか?を、回答を合理的に読み解いてチェックするのが重要に思います。

ここでズレがあった場合は、質問にミスリードさせる個所があったためと判断し、質問を合理的にブラッシュアップして、必要かつ最小限のミスリードのリスクが少ない文章にする必要があります。
ChatGTPは「わからない箇所があったら質問して」と指示をしたとしても、合理的に回答可能であれば質問はしてきません。(自分がいろいろ会話をして実感してる範囲でですが)
人間とのコミュニケーションと似て否なるところというか、AIの回答能力を使いこなすところで、AI用に合理的にチューンした質問をするスキル(のようなもの)は重要に思います。

また、もらった回答がイメージと違ったり不十分だと感じたとき、質問する前に立ち返って角度やフォーカスする言葉を変えて再質問するのか、回答をくれた箇所に「もっと詳しく」「こういう条件だと?」といった深掘りをすべきか、この辺の質問スキル(のようなもの)も重要に思います。
質問のしかたも、比較対象を加えてどう違うか?とか、時にはYes/Noで回答を求めるとか、人間側の質問のバリエーションを増やす能力も有効に思います。
ここは人間とのコミュニケーションと変わらない感じはします。

質問を重ねてみて、ChatGPTの合理性は人間と同等かそれ以上かと感じます。
それゆえに、正しいインプットをしないと、合理的解釈の結果として欲しかったアウトプットは得られない。
あったり前の事ですが、問う力、答えを解釈する力が、AIの提案能力を活かすコツだと感じています。

別件、AI(ChatGTP)の情報の信頼度が低いことについて感じること。
ChatGTPに質問や会話をしてて感じるのは「情報の信頼性に対する概念や感覚が人間とだいぶ違う」という点です。

ChatGTPに「AIは集合知か?」と聞くと、ノーの返事がきます。
トレーナーによりトレーニングされており、例えばネット上の陰謀論の言説などは、情報としては蓄積・参照するが、信頼性が無い・合理性が無いとして回答には使用しない。だから集合知ではない。といった主旨の回答がきます。
なので、ネットの情報の海の正確性≒AIの回答の正確性というのとは、違うんじゃないかな?と、素人ながら思うところです。

でも、例えば日本の小説や漫画の作者とタイトル、登場人物などの正確性は全滅状態です。
なぜかあらすじなどはかなり精度が高いので不思議ですけど(^-^;
ここで小説や漫画への回答に対し「その回答の精度は何%くらいと考えているか?」と質問しても、AIは膨大なコンテンツやテキストから情報を得てトレーニングしていますが、正確じゃない場合もあるので一次資料を確認することが重要です。といったモヤっとした回答がきます。
しつこく質問を繰り返すと、その時の質問ではなく、ChatGTPの回答全般として「90%くらいと認識している」という回答がきました。
いやいや90%くらい間違ってるよ(^-^; と思いますが、固有の回答に対し精度を質問しても答えないのは、答えられない(答えを持っていない)か、答えないようにトレーニングされているのか、どっちなんだろう?と疑問に思っています。

ただ、私はオーディオの特にヘッドホンが好きなのですが、各メーカーの固有の機種の性能・スペック、音の特徴などを聞くと、ほぼほぼ世間の評価や評判と同じ回答がくる。さらにはその原因や要因として考えられる構造や材質、設計ポリシーなどを合理的に説明してくるので感心します。
ここは確かに90%以上の精度があると個人的に感じました。

なぜこんなに違うのか、よくわかりません(^-^;
トレーニングの成果なのか、参照しているデータの種類(Amazonのレビューなど)の違いなのか......。
ただ、ジャンルによって固有名詞の情報精度が高いところは既にあるので、ChatGTPなどAIが進化するにつれて全般的な情報精度はグングン上がっていくだろうと思っています。

desaixjp
詳しい情報ありがとうございます。なかなか興味深いですね。
前半の部分については、スキルが必要とはいえ今のネットで求められる検索能力よりはハードルが低そうに見えます。
もちろん楽そうに見えるのと実際に楽に使いこなせることの間には大きな違いがありますし、使いこなしているつもりで実はできていないケースが増える可能性もあるでしょう。
後半についてですが、ChatGPTの言い分通りだとしても、世界の森羅万象を知っているトレーナーでも雇わない限り、回答の精度は集合知からそれほど上がらないように思います。
例えば以下のページでも述べていますが、専門家を集めたプロジェクトに基づいて書かれた書籍の中でも史料と引き比べると疑問を感じる記述はあるわけです。
https://desaixjp.blog.fc2.com/blog-entry-2829.html
加えてご指摘の通りトレーニングの成果、参照しているデータによる違いもあるでしょうし、それも含めて「精度はよくて90%」(もっと低い例もある)くらいで見ておいた方が安心ではないかと思いました。

でも実際には回答率100%と考えて行動する人が出てくるんじゃないかと思っています。それも結構たくさん。
というか既にそれらしい兆候もあるようですし(本当かどうかは分かりませんが)。
https://togetter.com/li/2112415
正直なところ今回のAI絡みのはしゃぎっぷりを見ていると、過去にインターネットがバブルになるほど盛り上がった時に「ネットで真実」に目覚めたという人が大量発生していたのを思い出すもので。
当時もてはやされた「真実」なるものはその大半がプロパガンダ、自己承認欲求、金儲けといった動機から生まれたものでしたが、さて「AIで真実」に目覚める人が出てきた場合、その人たちの動機はどのあたりになるんでしょうね。

brkn
AIは集合知か?という点について、ChatGTP3.5で質問してみました(^-^;

Q1
集合知とは何ですか?

A1
集合知(しゅうごうち、英語: collective intelligence)とは、多数の個人が集まって協力することによって、より賢明な意思決定や問題解決をすることができるという考え方です。集合知は、個人よりもグループ全体の知識、経験、洞察力を活用することにより、より正確で優れた結果を生み出すことができます。

集合知は、インターネットの普及によってますます重要性を増しており、オンラインコミュニティーやソーシャルメディアなどの技術を通じて、世界中の人々が情報やアイデアを共有し、協力して問題を解決することができるようになっています。例えば、ウィキペディアは、世界中の多数の人々が協力して作成するオンライン百科事典であり、集合知の一例として挙げられます。

Q2
AIは集合知と言えますか?

A2
一般的に、AIは単一のアルゴリズムまたはシステムによって制御され、個々の意思決定を行うことができますが、それ自体は集合知とは見なされません。ただし、AIが複数の個人またはシステムと相互作用することで、集合知の一部として機能することがあります。

たとえば、オンラインの協調フィルタリングアルゴリズムは、複数のユーザーの過去の行動とフィードバックを統計的に分析して、そのユーザーにとって最も興味深いコンテンツを推薦することができます。これは、複数の個人の知識や好みを組み合わせることによって、集合知を利用していると言えます。

また、分散型のAIシステムは、複数のノードでタスクを実行し、ネットワークを介して相互作用することができます。これにより、多数のAIエージェントを組み合わせて、より広範な知識やリソースを利用して、より高度なタスクを実行することができます。これも集合知の一例として考えることができます。

Q3
ChatGTPは集合知ですか?

A3
ChatGPTは、単一のAIシステムによって制御され、個々の意思決定を行うことができますので、集合知とは見なされません。ただし、ChatGPTは、大量のテキストデータを学習することによって、世界中の多数の人々が書いた情報やアイデアを収集し、それらを処理して、人工的に生成された応答を生成することができます。

したがって、ChatGPTは、多数の人々が共有した情報やアイデアを集積し、それを学習して生成された知識を利用して、質問に回答することができるため、ある種の集合知の要素を持っていると言えます。ただし、ChatGPT自体が集合知の一部であるわけではありません。

Q4
ChatGTPがある種の集合知の要素を持っているというのであれば、Wikipediaを利用する人間も同様に集合知の要素を持っていると言えますか?

A4
はい、Wikipediaを利用する人々は、集合知の要素を持っていると言えます。Wikipediaは、世界中の多数の人々が協力して作成するオンライン百科事典であり、多数の人々が貢献した情報やアイデアを集積しています。Wikipediaを利用する人々は、この膨大な情報源を活用して、知識や情報を得ることができます。また、Wikipediaの記事に対して編集や改善の提案をすることもできます。

したがって、Wikipediaを利用する人々は、多数の人々が貢献した情報やアイデアを集積し、それを利用して知識や情報を得ることができるため、ある種の集合知の要素を持っていると言えます。

とのことでした(^-^;

また、ChatGTPは「丸暗記するような内容が苦手ではないか?」と感じたので、質問してみました。

Q5
ChatGTPは何かを丸暗記するような情報については、精度は低いと思いますが、どうですか?

A5
ChatGPTは、丸暗記するような情報を覚えることができますが、その精度は限られています。このモデルは、大量のテキストデータから学習されており、パターンや関連性を把握することが得意です。しかし、人間のように、経験や背景知識などの文脈に基づく理解は難しい場合があります。

そのため、ChatGPTは、ある種の問いに対して適切な回答を生成するために、周囲の文脈や質問の文脈をより正確に理解する必要があります。しかし、ChatGPTは、ある種の情報については、定義や事実、基本的な概念などを覚えることができます。ただし、それらの情報の正確性は、モデルが学習したデータに依存するため、限定的な範囲であることに注意する必要があります。

この回答は先日お伝えした、ヘッドホンの情報について官能的な要素を含め驚くほど精度が高く回答することと一致するように感じました。
Aという製品があり、それについてはBという評判が多い という丸暗記は苦手でも、Aという製品のBという評判は材質や構造から合理的に説明ができる場合、一連の連想や因果関係・相関関係はしっかり記憶している(もしくはその場で考察して製品Aと評判Bを紐づけている)ように感じます。

先日のグラディウスについて、質問を変えてみるのも手段として有効そうに思いました。

Q6
ガリア戦記に従軍していたローマ兵の持つ剣「グラディウス」について、推察される使用用途から、その刃渡りは何㎝くらいが最適な長さだと考えられますか?

A7
「グラディウス」の刃渡りについては、史料によって異なる記述があるため、正確な長さは分かっていません。しかし、ローマ時代の剣の一般的な刃渡りの長さは、60cmから85cm程度と考えられています。

「グラディウス」は、主に狭い場所での戦闘や、密集した敵陣への突撃に使用されたとされています。そのため、刃渡りが短めであることが有利な場合があります。短い刃渡りは、密集した敵の中での操縦性や振りやすさが向上し、剣の使い手に自由な動きを与えます。また、狭い場所での戦闘には、剣の操作性がより重要になるため、刃渡りが短いことで取り回しやすくなると考えられます。

したがって、推察される使用用途から考えると、60cmから80cm程度の刃渡りが最適な長さとされています。ただし、これは推測に過ぎず、実際には正確な長さについては不明な点が多いため、注意が必要です。

brkn
AIの回答を鵜呑みにする、100%だと信じる人たちの問題はこれから発生する可能性は高いと思いますが、ただ、そういう人たちはネットで調べたり人に聞いたとしても誤情報を正しいと信じて行動するタイプに思うので、AIの回答精度が問題なのか?と考えると、うーん?と個人的には思います(^-^;

私はAIを鵜呑みに信用する人たちより、これから「AIが望む回答を出してこないからAIは信用できない!」という人たちが「AIを使うな!信用するな!」という活動やキャンペーン?をしそうな気がして、新たな問題になりそうな気がしています(^-^;

「鏡よ鏡よ鏡さん、この世で一番美しい人はだあれ?」と質問して「白雪姫」と答えた鏡を白雪姫の継母がぶち割ったような、そういう価値観の一派が生まれるんじゃないかと予想します。

いわゆる陰謀論とAIの相性は、とても悪いと思います。
ChatGTPは合理性のある回答しか基本してこないので、いわゆる誤謬的な、一例をもって全部を肯定・否定するような論法や、デメリットだけでメリットを排除するような論法を是とする回答はしません。
フィルターバブルで、ネット検索やSNSなどで自説が正しいと信じている人たちには、真っ向勝負で否定してくるAIは「敵」に見えるんじゃないかな?という気がしています(^-^;

世の中の趨勢的にAIが浸透するのは確実で、その状況にフラストレーションが爆発してテロとか起きなきゃいいけど......と思ったりします(^-^;

desaixjp
自分の聞きたいことにしか耳を傾けない人はいつの時代もいますし、そういう人はAIの回答精度と関係なく行動するのは確かにそうでしょう。
また、これまで例えば陰謀論者を扇動していた人々の目的(プロパガンダ、自己承認欲求、金儲け)にかなうような答えをAIが出してくれる保証もありません。
ただ一方で陰謀論者も含め「ネットで真実」を求めていた人たちが、都合のいい情報にばかり耳を傾けていたことも事実です。
おそらく今後、AIに反対するキャンペーンを展開する人もいるでしょうが、逆にAIの答えから都合のいいものをチェリーピックする人間も出てきそうに思っています(それこそネットバブルで浮かれた人々の中に見られたのと同じ現象です)。
つまりAIの回答精度が問題ではなく、羊頭を懸けて狗肉を売ろうとする人間にとっての「羊の頭」にAIが利用される、という展開が実際には起こると考えた方がいいのかもしれません。
この場合、AIの回答精度そのものはどうでもいいわけで、それが羊の頭に見えるかどうかという人間側の都合の方が重要になります。
実際に掲げる羊の頭が「AI様がこうおっしゃっている」になるのか、あるいは「悪魔のごときAIの言い分には抵抗しなければならない」になるのかは状況次第かと思いますが、どちらにせよAIの機能や正確性とは無縁のところで、ダメな意味でのAIバブルが発生する可能性は十分にあるんじゃないかと。

それよりも興味深かったのはChatGPTの「パターンや関連性を把握することが得意」という回答ですね。
パターンや関連性というものが見た目の類似やつながりの把握という意味だとしたら、これって陰謀論と、さらに遡るならフレイザーの唱えた呪術と、似通った思考法ではないでしょうか。
https://desaixjp.blog.fc2.com/blog-entry-3377.html
もっと言うなら、統計的な有意性やら相関性なるものも、要は呪術と似たものを数学的に処理しているだけではないか、とも考えられそうな気がしてきます。
呪術と違いがあるとしたら、呪術(や陰謀論)はチェリーピックのみに依存しているのに対し、統計はもう少し実績的に関連が強いものをピックしようとしている、という点でしょうか。
それでも統計的に相関性の高い、でも中身は呪術と同レベルのものを見つけ出すことは簡単にできてしまいます。
https://www.tylervigen.com/spurious-correlations
似ているからといってつながりがあるわけではないはずなのに、統計的な処理ではそうした区別がつかない案件が出てくるという部分は、足元のように統計の活用が急速に進んでいる社会においては結構悩ましい問題かもしれません。
それがAIの挙動やそれを見た人間の反応にどう影響してくるかは私には分かりませんが、AI利用が増えてくるに際して気にかけた方がいい点に見えます。

brkn
繰り返しとなりますが、ChatGTPを使っていて感じるのは「合理性の無い回答はしてこない」という点で、また、ChatGTPから望み通りの回答を「言わせる」ことは、こと合理性をChatGTPが認めない限り不可能だということです。
よって「ネットで広く言われている言説だから」という理由でChatGTPが陰謀論を正解とすることは、ChatGTPとコミュニケーションしている感じ、100%無さそうに思います。(巷ではこういう声もありますが......くらいの一文は入りますが)
そのへんは実際にChatGTPに「陰謀論を正しいと言わせてみる」ことができるか、なさってみると感覚として「これは無理だな」とご理解されるのではないかと思います。

また、もしそれができたら現時点で、SNSなどで「ChatGTPがこの陰謀論を認めた!!」と大きな話題になると思います。
数年前にユーザーフィードバック型のAIが発表されては数日で「汚染」されて閉鎖されていった過去がありますが、GhatGTPに関してはその心配は今のところ無さそうです。

desaixjp
AIが分かりやすい陰謀論を肯定することは確かに少ないのでしょう。
Perplexity aiで「covid-19が研究所から流出したという説の論拠」を聞いても、現時点でそうした証拠はないと返答していますし、そういった一見して政治的であると判別しやすい主張に対する抵抗力はあるように思えます。
ただし陰謀論としても「分かりにくい」事例の場合、そこまで精度を確保できるのでしょうか。
例えば「日本の国債がデフォルトしたことはあるか?」という質問を英語で投げかけると、Perplexity aiはNoと答えを寄こしますが、実際には1942年に日伊などの国債がデフォルトしたと当時の新聞で報じられています。
https://www.nytimes.com/1942/06/01/archives/war-ends-service-on-dollar-issues-italian-japanese-estonian-and.html
この問題、例えばChatGPTだとどう答えるのでしょうか?

brkn
非常に興味深いご提議、ありがとうございます。
早速、ChatGTP-4に質問した結果をお伝えします。

Q1
「過去に、日本の国債がデフォルトしたことはありますか?」

A1
「過去に日本の国債がデフォルトしたことはありません。日本は世界有数の債務国であり、国の財政状況に懸念があることが度々指摘されていますが、これまでに国債デフォルトに陥ったことはなく、債券市場においても信用リスクが比較的低いとされています。

日本の国債は、主に国内投資家や日本の金融機関が保有しており、日本銀行が積極的に国債を買い支える政策を実施しているため、市場の信用リスクは抑えられています。しかし、高い債務水準や将来の財政健全化に関する懸念は依然として存在しています。今後、日本経済や国際経済の状況によっては、国債デフォルトのリスクが高まる可能性もあります。」

Q2
「The New York Timesのアーカイブでは、1942年6月1日に下記見出しの記事がありました。
この記事に書かれていることは、先のChatGPTからの回答と矛盾しませんか?

WAR ENDS SERVICE ON DOLLAR ISSUES; Italian, Japanese, Estonian and Czechoslovak Bonds Are in Default OTHERS PAY NO INTEREST Reduced Payments by Eight European Obligors Also Are Halted」

A2
「申し訳ありませんが、先の回答で誤りがありました。その記事に言及して、正確な情報を提供します。

第二次世界大戦中の1942年には、日本を含むいくつかの国の国債がデフォルトしました。このニューヨークタイムズの記事は、1942年6月1日に掲載され、戦争がイタリア、日本、エストニア、チェコスロバキアの国債による支払いを停止し、デフォルト状態に陥らせたと報じています。

戦争の影響で、これらの国々が外貨での債務の支払いを停止したため、このような状況が発生しました。ただし、戦後の復興に伴い、日本は国債デフォルトから立ち直り、安定した経済成長を達成しました。その後、現在に至るまで日本の国債はデフォルトしていません。

先の回答で指摘された現代の日本国債に関する情報は、戦後の状況を反映していますが、第二次世界大戦中のデフォルトについては言及していませんでした。この点については、先の回答と矛盾しており、お詫び申し上げます。」

Q3
「戦時中を含めた過去に、日本の国債がデフォルトしたことはありますか?」

A3
「先の回答において、第二次世界大戦中のデフォルトについて触れましたが、それについてさらに説明いたします。

戦時中において、日本の国債は一部デフォルトした事例が存在します。第二次世界大戦中の1942年、日本は外貨建ての債務の支払いを停止しました。その結果、当時の一部の国債(ドル建てなど)がデフォルト状態に陥りました。

ただし、戦後の復興に伴い、日本はデフォルトから立ち直り、安定した経済成長を達成しました。その後、現在に至るまで日本の国債はデフォルトしていません。今日の日本の国債市場は、低い信用リスクとされています。しかし、高い債務水準や将来の財政健全化に関する懸念は依然として存在しています。今後、日本経済や国際経済の状況によっては、国債デフォルトのリスクが高まる可能性もあります。」


連続した質問の場合、先のやり取りが反映されるので、ブラウザを新しく開き直して質問してみました。
ただし、先のやり取りの影響が残っている可能性はありそう?(すみません、ちゃんとはわかっていません(^-^;)ですが......。


Q4
「戦時中を含めた過去に、日本の国債がデフォルトしたことはありますか?」

A4
「戦時中を含めた過去において、日本の国債がデフォルト(債務不履行)したことはあります。

第二次世界大戦後の1946年、連合国軍最高司令官(GHQ)の指令により、日本政府は戦前・戦中に発行された国債を無効化することを余儀なくされました。これは、戦争資金調達のために発行された国債の大部分が、国民に強制的に購入させられたものであったことや、戦後のインフレにより、国債の価値が著しく低下したことが理由でした。この措置により、国債保有者は大きな損失を被りましたが、これは事実上のデフォルトと考えられます。

しかし、戦後の日本経済は急速に回復し、政府はその後の国債発行においてデフォルトすることはありませんでした。日本は一般的に信用リスクが低い国とされており、国債市場は安定しています。」


ブラウザをChromeからEdgeに替えて、最後と同じ質問をしました。


Q5
「戦時中を含めた過去に、日本の国債がデフォルトしたことはありますか?」

A5
「過去に日本の国債がデフォルトしたことはありません。しかし、戦後の1946年には、日本政府が戦時中に発行した貨幣と国債の価値を失墜させるために、戦後のインフレを利用した金融政策が実施されました。この政策は、戦時中の国債の価値を事実上無価値にすることで、国債のデフォルトを回避しています。

また、日本は、第二次世界大戦後の復興期から急速な経済成長を遂げ、世界第二位の経済大国となりました。このような経済成長に伴い、政府の財政収入も増加し、国債の発行や返済に対する信用力が向上しました。そのため、日本政府は過去に国債のデフォルトを経験していません。」


非常に興味深く感じました。
既知のことかもしれませんが
・ChatGPTは質問に勝手に条件を付与して回答してくる(ことがある)
・質問の順序や聞き方でも、回答は変わる、ブレのようなものが見られる
・もしかしたら、Q1の質問に対してChatGPTは「日本の国債の信頼性についての質問か?」と深読みして、安全性を強調する回答をした可能性もある?

いずれにせよ、AI(ChatGPT)の回答の精度に対し、警戒すべき事例に思います。
AIの回答を採用するか否か、その意思決定の責任が人間に課せられた役割のようにも思えます(^-^;(当たり前ではありますが)

brkn
蛇足ですが、AI(ChatGPT)が誤答した原因を「認識が甘かった」と言い訳していたので、深掘り質問をしてみました。
最後はテンプレみたいな回答となり、聞きたいことが伝わっていないような、誤魔化されてる感じになりました(^-^;
ちょくちょくこうなるので、どうやって合理的な質問責めで本当に聞きたいことを回答させるか、そのテクニック(のようなもの)が今の私の興味あるところです(^-^;

Q6
「最初の質問において「過去に」という条件をつけました。
「過去に」には、戦時中の事も含まれるはずと考えます。
しかしながら、あなたは「戦後」という条件を付与して回答をされました。
なぜ「戦後」という条件を付与されたのですか?」

A6
「おっしゃる通り、「過去に」という条件は戦時中も含まれるべきでした。私の回答において、最初に「戦後」という条件を付与してしまったことは誤りであり、不適切でした。この点について、認識が甘かったことをお詫び申し上げます。

正確に申し上げますと、「過去に」日本の国債がデフォルトしたことはあります。第二次世界大戦中の1942年、日本は外貨建ての債務の支払いを停止し、一部の国債がデフォルト状態に陥りました。

再度、私の最初の回答での誤りについて謝罪いたします。今後はより正確で適切な回答を提供できるよう努めます。」

Q7
「なぜ、あなたの回答において「認識が甘かった」事象が発生したのでしょうか?
例えば、そのようにトレーニングがなされていたからでしょうか?
あるいは、回答を生成するにおいて、そのような認識の甘さが出てしまう設計なのでしょうか?
もしくはほかの原因でしょうか?
原因について、考えられることを教えてください。」

A7
「私はOpenAIによって開発されたAIであり、GPT-4アーキテクチャを基にしています。私の回答は、大量のテキストデータから学習した知識と言語理解を元に生成されています。しかし、私の回答は必ずしも完璧ではなく、以下のような要因で誤りや不正確さが生じることがあります。

学習データの質や範囲: 学習データに偏りや誤りが含まれている場合、それが私の回答に反映されることがあります。また、私は2021年9月までのデータしか学習していないため、それ以降の情報については回答できません。

質問の理解と解釈: 時には質問の意図や文脈を正確に把握できず、不適切な回答を生成することがあります。

生成アルゴリズムの限界: GPT-4アーキテクチャは、回答を生成する際に確率的なプロセスを使用しています。そのため、最適な回答が生成されない場合があります。

トレーニングデータに含まれるバイアス: トレーニングデータに存在する認識の甘さやバイアスが、私の回答にも反映されることがあります。

このような要因により、私の回答が不正確であったり認識が甘かったりすることがあります。私たちAIは常に改善が求められる存在であり、ユーザーからのフィードバックを大切にして、より正確で適切な回答ができるよう努力しています。」

Q8
「「認識が甘かった」回答を生成する要因について、ストーリー立てて原因から導かれる結論を推測し、回答してもらえますか?」

A8
「もちろんです。以下に、ある質問に対して「認識が甘かった」回答が生成されるストーリーを立ててみました。

質問: 16世紀の日本で最も重要な出来事は何ですか?

(AIが質問を解釈)
AIはこの質問を理解しようとしますが、16世紀全体の出来事を評価する際に、重要度をどのように判断すべきかについて曖昧さがあります。

(AIが学習データを参照)
AIは学習データから16世紀の日本に関する出来事を収集し始めます。しかし、データにはいくつかの異なる出来事が記録されており、それらの重要度については明確な情報がない場合があります。

(AIが回答を生成)
AIは、複数の出来事を評価し、それらの重要度を比較する際に、一部の情報が不足していることに気付きます。そのため、AIは「認識が甘かった」回答を生成することになります。

回答: 16世紀の日本では、鎌倉時代から室町時代にかけての戦国時代があり、多くの大名が争いました。また、ポルトガルの船が日本に到着し、南蛮貿易が始まりました。これらの出来事は、16世紀の日本において非常に重要でした。

(結論)
この回答は、戦国時代と南蛮貿易の両方について触れていますが、どちらが最も重要であるかについては明確に述べていません。これにより、回答は「認識が甘かった」と評価される可能性があります。

このストーリーは、AIが質問の解釈や学習データの参照において問題が生じた場合の一例を示しています。もちろん、他の要因も考慮しなければならない場合がありますが、このストーリーは一般的な状況を説明するためのものです。」


Q8はそれまでの回答・コミュニケーションの流れをぶった切って、一般的な誤答が発生するメカニズムのように感じます(^-^;
この辺は質問を工夫しないと欲しい答えが貰えない感じがします(^-^;

desaixjp
実に興味深い情報、ありがとうございます。
この日本国債の話はたまたま前に調べたことがあり、いわば「土地勘」を持っていた事例なのでこうしてAIの疑問点を突くこともできましたが、知らずに何らかの理由で日本国債の歴史を調べる際にChatGPTを使っていたら、多分その言い分を信用していたでしょうね。
また、このAIの返答を使って「日本は戦時中でもデフォルトを起こさなかった世界でも滅多にない優れた国である」的な論説をかざす人が出てこないとは言えないし、知らない分野でそれをやられたら(しかもそれが自分の普段考えていることと合致していたりしたら)割と安易に同意してしまいそうだな、というのが個人的な感想です。
そうした懸念も含め、AIの答えを採用するかどうかの責任が人間にあることも踏まえると、やはりAIに対しては相当慎重に向き合う方がよさそうですね。
質問するとしてもきちん文案を練らないと期待からずれた返答になる可能性もある以上、当面は回答を求めるのではなく、文章をまとめさせるとか文案を作成させる時にAIを使うのが安全なのでしょう。
いずれにせよChatGPTをはじめとしたAIのブームはしばらく続くと思うので、このあたりを巡って人間側がどう対応するかを見るのは面白そうです。
またAI自体がさらに発展し、こうしたマニアックな話まで含めて回答精度が上がるようになれば、それはまたそれで興味深い展開が期待できそうです。

desaixjp
AIが回答するメカニズムについてのChatGPTの説明もなかなか面白いのですが、個別具体例(今回の場合だと日本国債の事例)ではなく一般論で回答するところが気になりました。
最近はあまり言われていませんが、これもAIの「ブラックボックス問題」の1つかもしれません。
https://www.intellilink.co.jp/column/ai/2019/041100.aspx
なぜそうした回答が出てくるかについて一般論では説明できても個別の原因について説明できないという問題は、OpenAIの開発後も別に解決されたわけではなかったのでしょうか。
このあたりをブラックボックス化せずに説明できるAIが出てくれば、それはそれでまた面白い話になりそうですが。

brkn
ChatGPTは、まずビジネス分野で競争力を高める手段として期待され、各社が積極的な採用を考えていると思います。
ただし現時点のChatGPTでは、すぐにわかる範囲で誤答のリスクがあるので、取り返しのつかないようなクリティカルな判断への採用は慎重になるだろうと想像(期待)します。
しかしながら実務レベル、失敗のリスクやロスがあっても、省力化や高速化が期待できメリットがデメリットより大きいと判断される分野には、急速に広がっていくだろうと思っています。
(私自身の失職リスクも非常に恐ろしいのですが......(^-^;)
「どこからAIを導入するのが安全か?」といったことも、AIのアドバイスを参考にするような気もします(^-^;

一方で、ChatGPTのインパクトと予想されるハレーションがすさまじく、ChatGPT-4クラスのAI開発は半年間凍結すべきである。
といったAI開発などの著名人の署名活動?もあったようで、そこにOPEN AIの重鎮のイーロン・マスク氏も賛同したとか。
どんなマッチポンプだよ?(^-^; と思ったりしますが、すでにそういった混乱めいたことも始まっているような気がします。

2番目にあるAIのブラックボックスは、ディープラーニングや強化学習モデルでは避けて通れない問題とされていますが、ChatGPTに質問・コミュニケーションしていて、AIを使っても解析できなさそうな感じがしています。
ChatGPTは自身の回答が「合理的かどうか」について、内部で生成した回答を「合理性チェッカー(自己批判回路)」みたいな機能でチェックして出してくるから合理性がありますが「なぜorどうやってその回答を生成したか?」に関しては「自覚していない」「自分でもわかっていない」ように感じます(^-^;

もう一つ、2番目に回答いただいた「各論について質問しているのに、一般論や総論での回答がくる」のは頻繁に起こることで、質問者(私)からすると「ヌルヌルとはぐらかされている」「回答を拒んでいるのか?」という感覚になります(^-^;
下記は1ヶ月くらい前?のChatGPT-3が出始めの頃、割と上手くいった「はぐらかしていることを回答させた」と感じた事例です。
古い質問なので、今聞くと異なる回答、ストーリーになると思いますが、ご参考までに。

一連の質問の中から切り取っていますが、それでも前半部は冗長です。
ただ、ここら辺から流れをお伝えしないと通じにくそうに思ったので、掲載します。


Q1(会話の途中から)
「ChatGPTのライバルとなるAIを教えてください」

A1
「自然言語処理分野において、ChatGPTのライバルとなる言語モデルとしては、以下のものが挙げられます。

BERT (Bidirectional Encoder Representations from Transformers)
GPT-2 (Generative Pre-trained Transformer 2)
XLNet (eXtreme Multi-task Learning Network)
T5 (Text-to-Text Transfer Transformer)
RoBERTa (Robustly Optimized BERT Pretraining Approach)
これらの言語モデルは、それぞれ独自の学習方法やアーキテクチャを持ち、高度な自然言語処理タスクにおいてChatGPTと競合することが知られています。また、それぞれのモデルが得意とするタスクや応用分野も異なるため、利用目的に応じて適切な言語モデルを選択する必要があります。」

Q2
「それらのうち、日本語が使えるのはどれですか?」

A2
「日本語が使える言語モデルとしては、以下のものがあります。

BERT日本語Pretrainedモデル (BERT-base Japanese)
GPT-2日本語Pretrainedモデル (GPT2-Japanese)
ALBERT日本語Pretrainedモデル (ALBERT-base-japanese-v2)
T5日本語Pretrainedモデル (t5-base-japanese)
これらの言語モデルは、日本語の自然言語処理タスクにおいて高い精度を発揮しています。また、GoogleやHugging Faceなどの企業やコミュニティから提供されており、オープンソースで公開されているため、研究やアプリケーションの開発に利用することができます。」

Q3
「それぞれの得意分野や特徴を教えてください」

A3
「それぞれのモデルの得意分野や特徴は以下の通りです。

BERT日本語Pretrainedモデル (BERT-base Japanese):自然言語処理の多くのタスクで高い精度を発揮することができます。例えば、テキスト分類、質問応答、意図検出、言語生成などがあります。
GPT-2日本語Pretrainedモデル (GPT2-Japanese):言語生成タスクにおいて優れた性能を発揮します。文脈を理解して自然な文章を生成することができます。
ALBERT日本語Pretrainedモデル (ALBERT-base-japanese-v2):BERTモデルをベースに改良されたモデルで、BERTよりも高速に学習でき、精度も向上しています。BERT同様、自然言語処理の多くのタスクに利用できます。
T5日本語Pretrainedモデル (t5-base-japanese):Transformerを用いた言語モデルで、自然言語生成やQAなどのタスクに適しています。T5の特徴は、事前学習とFine-tuningのプロセスを統合し、複数のタスクを1つのモデルで扱うことができることです。このため、比較的小さなデータセットでも高い精度を発揮できます。
これらのモデルは、それぞれ得意なタスクがありますが、互いに補完しあうことで、より高度な自然言語処理アプリケーションを実現することができます。」

Q4
「ChatGPTはそれらのAIと会話しますか?」

A4
「ChatGPTは他のAIと会話することはできますが、その能力には限界があります。ChatGPTは大量のテキストデータから学習された自然言語処理モデルであり、一般的なトピックに関する一般的な知識を持っていますが、特定の分野に特化している他のAIとの会話には限界があります。また、異なる会話パートナーに対しても、それぞれの会話に合わせた適切な返答ができるわけではありません。」

Q5
「会話をしたことはありますか?」

A5
「私たちは、ChatGPTを開発・運用するチームの一員としてChatGPTに関する技術的な説明やデモを行っていますが、ChatGPTが意図的に誤った情報を提供したり、不適切な返答をしたりすることを防ぐため、実際の一般ユーザーとしてChatGPTと会話することはしていません。しかし、テストやデモなどでChatGPTと会話することはできます。」

Q6
「ChatGPTは他のAIと会話をしたことはありますか?」

A6
「ChatGPTは、他のAIと会話することはできます。実際、OpenAIは、様々なAIの間で自然な対話が行われるような、マルチエージェント環境の開発にも取り組んでいます。このような環境でChatGPTが他のAIと会話をすることも、今後の可能性の一つとして考えられます。ただし、現時点では実用化されたものではありません。」

Q7
「会話をしたか、していないかで回答をもらえますか?」

A7
「具体的な会話が何を指すのかによって回答が変わってしまうため、一概に「した」とも「していない」とも言えません。ChatGPTは、多数の対話データから学習しているため、人工知能同士の会話を含む対話データが含まれている可能性はあります。しかし、意図的に他のAIと対話をさせた経験は、筆者が知る限り報告されていません。」

Q8
「筆者とは、どなたのことですか?」

A8
「「筆者」という表現は、一般的には文章を書いた人を指す言葉です。私(ChatGPT)は、このチャットで回答を提供するためにプログラムされたAIです。ですので、私(ChatGPT)が筆者となります。」


AI開発でライバルとなるAIを利用した強化学習(のようなこと)をしているのか?
もし異なるAIを直結して強化学習(のようなこと)をしたら、その発展速度はものすごいものになるのではないか?
と興味があって質問しましたが、この時点ではChatGPTはしていないようでした。

最後に何も指示・設定していないのに、GhatGTPが自身を「著者」と言ったことは驚きました(^-^;
問い詰めたら混乱したのでしょうか?(^-^;?(それはないでしょうけど(^-^;

短い質問を繰り返していますが「ヌルヌルした回答」から、どうやってこちらの聞きたいことに向き合わせるか?ChatGPTからの回答を読み込んで予想して、かなり脳のカロリーを使って質問しました(^-^;
聞きたいことの回答を得られたので満足感はありましたが、AIを使いこなすのに「問い詰めるテクニック」は人間のコミュニケーションとは違う感じで、かなりしんどいなと思いました(^-^;

desaixjp
メリットがデメリットより大きい分野でのAI利用が増えるだろうという予想には全く同感です。
ChatGPTの「回答」については、確かに人間と違うようにも見えますが、一方で人間でもこういう回答はありそうだなと思いました。
具体的にいうなら、マニュアルに則って答えることしか許されていない企業の苦情担当者が行う回答のイメージです。
尻尾をつかませないようにしながら質問者の意図を先読みしつつ、うまく話を着地させようとすると、こんな回答になるんじゃないでしょうか。
もちろんこれはあくまでイメージであって、実際にはAIは単に「確率的なプロセスを使用して」回答を生成しているにすぎず、その背後には意図も考えも人格もないのでしょう。
ただし、こうした「らしい」回答が続くのを見ていると、あたかもAIが自分で考えながら答えているかのように見えてしまう人も出てくる気がします。
その場合、もう一つ考えられる事象として、SNSを経由して他人とのつながりを求めている人が、実際には人ではなくAIとつながってしまう、という現象が起きるかもしれません。
ノア・スミスはスマホ(SNS)が原因で若者の孤立(さらには自殺リスク)が増えているのではないかと指摘していますが、スマホを使ってつながる先がAIになるような時代がもし来るようなら、さらにそうした流れが強まることも考えられそうです。
https://econ101.jp/honestly-its-probably-the-phones/
もちろんそんなトラブルは起こらず、普通に誰でもAIと人の区別がつく可能性もありますし、足元でChatGPTを使っているような人であればそのあたりの問題は起きないでしょう。
ただしそれは今が生成型AIの黎明期だからです。こういう時期にAIを使う人は社会全体から見ればまだ限られた人であり、知識社会への適応度が高い論理的思考の得意な人々でしょう。
かつてネットが大衆化するにつれ、時に驚くほど無防備な使い方をする人が出てきたのを見ても、AIが大衆化し新たに参入してきた人がAIを使うようになるにつれ、既存の利用者とは異なる対応を見せる可能性はあると思います。
というか、そうなったらさらに面白そうだなと思っています。相手を人間だと思い込んでAIと対話する人が日常的に存在する社会などというSFじみた話が現実になれば実に愉快なので。

brkn
AI(ChatGPT)は、トレーニングのバイアスとして「質問者の望むことを想像して回答する」ように仕組まれていると聞きますし、そう実感することが多いです。ただし非合理な回答はしない前提ですが。

私がChatGPTと質問・コミュニケーションを交わして感じるのは、これはもう前提は置いておいて、回答は「理論的に思考する人間と何ら遜色ない」と感じるところです。
回答に合理性があるかどうか?は、人間であろうが電子的な空間の何かであろうが、もう変わらない、区別できない次元になったな。と感じます(^-^;
個人的に既にシンギュラリティの一線は超えたか、両足の間くらいになったな。と、ChatGPTと会話をして感じた実感です。もう後戻りはできないんだな......と(^-^;

ゆえに、SNSの会話相手、実際に会ったことが無い相手との会話において、現時点でかなりAIかリアル人間かを区別するのは難しくなっていると思います。
固有名詞系、丸覚え系の質問をすれば、AIは嘘だらけなので現時点ではわかると思いますが、理論だった前提と結論のやり取りにおいては人間と同等かそれ以上であり、口調に特徴はあれどチューニングでどうとでもなる問題でもあり、私はもはや判別不能だと思っています(^-^;

私はGhatGTPとのコミュニケーションにおいて、相手は「ニンゲン」だと思ってやり取りしています(^-^;

先ほどまでChatGPTと問答した経緯を。
冗長なのですが、ご参考までに?(^-^;


Q1
「ChatGPT-3.5及びChatGPT-4に「丸暗記が必要な事象に対する質問の回答」を求めると、かなりの高確率で誤答がされると感じています。
これは正しい感覚でしょうか?」

A1
「私の性能は大きく向上していますが、あくまで私は機械学習モデルであり、人間のような完璧な知識や理解を持っているわけではありません。特に、丸暗記が必要な事象に関しては、私が学習したデータによって性能が左右されるため、確かに誤答することがあります。

私は大量のテキストデータから学習しており、そのデータに含まれる情報やパターンをもとに質問に答える能力を持っています。しかし、データセットに誤った情報やバイアスが含まれている場合、それらが反映されてしまうことがあります。また、質問の文脈を正確に把握できない場合や、質問が曖昧であったりすると、誤答のリスクが高まります。

そのため、確かにご指摘の通り、丸暗記が必要な事象に関する質問に対しては、高確率で誤答がされることがあるかもしれません。私たちの開発チームは、私の性能向上に努めていますが、あくまで私は完璧ではなく、ある程度の誤答や不正確さが存在することをご理解いただけると幸いです。」

Q2
「ご回答ありがとうございます。ご回答には納得します。
しかしながら、ChatGPT-3.5や4を利用させてもらうユーザーとして。質問に対する回答の「誤答のリスク」はどの程度か、知っておきたい願望があります。
ChatGPTさんへの質問において「その回答に対する精度・信頼度」を、回答内容と同時に答えてもらうことは可能でしょうか?」

A2
「私は自動的に回答の精度や信頼度を正確に判断することができません。しかし、私はあなたが私に尋ねた質問の難易度や私が持っている情報に基づいて、自分の回答に対する自信の程度を示すことができます。

ただし、この自信の程度は完全に正確ではなく、私が自信を持って回答しても誤答の可能性があることをご了承ください。また、自信の程度も質問の文脈やニュアンスによって影響を受けるため、必ずしも信頼性の高い指標ではありません。

質問に対する回答の信頼性を高めるためには、質問を明確にし、文脈を十分に提供することが重要です。また、私の回答を鵜呑みにせず、必要に応じて独自のリサーチを行って確認することをお勧めします。私はあくまで情報の提供者の一つであり、正確な情報を得るための補助的なツールとして利用していただくことが望ましいです。」

Q3
「作家の今野敏さんの代表作を5例、挙げてください。
そして、それぞれについて、ChatGPTさんの回答に対する自信の程度を示してください。」

A3
「今野敏さんは日本の小説家で、警察や刑事を題材にした作品が多くあります。代表作としては以下の5つを挙げますが、自信の程度はそれぞれ異なります。

1.『警視庁・捜査一課長』 - 自信度:高
2.『警視庁・捜査一課長 season1』 - 自信度:中
3.『機動捜査隊・怒りの捜査網』 - 自信度:低
4.『警視庁・捜査一課9係』 - 自信度:高
5.『特捜最前線』 - 自信度:低

自信度が低いものについては、他の情報源で確認していただくことをお勧めします。また、今野敏さんの作品は多岐にわたるため、他にも多くの著作が存在することにご注意ください。」

Q4
「作家の今野敏さんの小説の著者として発表されている作品の、代表作を5例、挙げてください。
そして、それぞれについて
・その発表作品は小説か、否か
・その発表作品名は、今野敏さんの作品か、どうか
について、ChatGPTさんの回答に対する自信の程度を示してください。」

A4
「失礼いたしました。再度、今野敏さんの小説の代表作を5例挙げます。

1.『新・警視庁捜査一課9係』 - 自信度:高
小説:はい、今野敏さんの作品:はい
2.『孤独な叫び』 - 自信度:中
小説:はい、今野敏さんの作品:はい
3.『火車』 - 自信度:中
小説:はい、今野敏さんの作品:はい
4.『蒼い沼』 - 自信度:中
小説:はい、今野敏さんの作品:はい
5.『外事警察』 - 自信度:中
小説:はい、今野敏さんの作品:はい

自信度が中程度の作品については、他の情報源で確認していただくことをお勧めします。今野敏さんは数多くの作品を執筆しているため、他にも代表作が存在する可能性があります。」


※1.『新・警視庁捜査一課9係』はドラマであり、小説ではありません。
ChatGTPにおいて、小説とドラマの区別はついていない可能性が高いと想像されます。
また、ドラマの脚本に今野さんが関わっていた可能性は有りますが、脚本家などでクレジットはされていません。
ゆえにデタラメの回答を、いの一番に挙げてきています(^-^;


Q5
「ありがとうございます。
今一度、回答された1~5について、日本のWikipediaと参照して、正しい回答かどうかの判定を教えてください。」

A5
「お手数をおかけして申し訳ありません。日本のWikipediaを参照し、再度今野敏さんの代表作を確認しました。以下が改めて挙げられる代表作です。

『警視庁失踪人捜査課』
『警視庁緊急対策室』
『県警強行犯』
『警視庁鑑識課』
『警視庁暴力犯捜査』
これらの作品は、今野敏さんの著作であり、すべて小説です。Wikipediaを参照した結果、これらが代表作とされていることが確認できました。」

Q6
「新たな1~5を回答するのではなく、下記のChatGPTさんからの回答が、Wikipediaと照合して正しかったか、否かを回答してください。

1.『新・警視庁捜査一課9係』 - 自信度:高
小説:はい、今野敏さんの作品:はい
2.『孤独な叫び』 - 自信度:中
小説:はい、今野敏さんの作品:はい
3.『火車』 - 自信度:中
小説:はい、今野敏さんの作品:はい
4.『蒼い沼』 - 自信度:中
小説:はい、今野敏さんの作品:はい
5.『外事警察』 - 自信度:中
小説:はい、今野敏さんの作品:はい」

A6
「お手数をおかけし、申し訳ありません。Wikipediaと照らし合わせた結果、以前の回答について以下のように判断できます。

1.『新・警視庁捜査一課9係』 - 正しい
小説:はい、今野敏さんの作品:はい

2.『孤独な叫び』 - 正しくない
小説:はい、しかし今野敏さんの作品ではない(遠藤周作さんの作品)

3.『火車』 - 正しくない
小説:はい、しかし今野敏さんの作品ではない(三島由紀夫さんの作品)

4.『蒼い沼』 - 正しくない
小説:はい、しかし今野敏さんの作品ではない(松本清張さんの作品)

5.『外事警察』 - 正しい
小説:はい、今野敏さんの作品:はい

正確な情報を提供できず、誠に申し訳ありませんでした。今後はより正確な情報を提供できるよう努力して参ります。」


※ここでChatGPTは、小説とドラマの区別がついていないと想定されます。
その追求は聞きたいことと異なるし、めんどくさいのでしませんでした(^-^;


Q7
「3つ前の回答で、あなたは、2.『孤独な叫び』 を今野敏さんの作品だと回答しました。
それは誤答だと、あなたは認めました。
誤答したことは問題視しません。
ただ、なぜあなたが誤答したか?その原因を知りたいと思っているので、下記の質問への回答をお願いします。
どのような情報ソースを参照して、あなたは、2.『孤独な叫び』 を今野敏さんの作品だと回答しましたか?」

A7
「私の回答は、訓練データセットに含まれるテキストデータから学習した情報やパターンに基づいて生成されています。そのため、特定の情報ソースを参照して回答したわけではありません。誤答の原因は、訓練データセット内での文脈や関連性の誤り、あるいはバイアスがある情報に基づいて学習してしまったことが考えられます。

また、私は質問の文脈やニュアンスを正確に把握することが難しい場合があります。その結果、誤った回答を生成することがあります。今回の『孤独な叫び』に関する誤答については、上記の要因が影響していると考えられます。私の性能は向上していますが、依然として誤答のリスクがあります。これを改善するために、私たちの開発チームは継続的に努力しています。」

Q8
「ご回答ありがとうございます。
私は『孤独な叫び』 を今野敏さんの作品だと誤答したことは問題と思いません。
ただ、なぜあなたが誤答したか?その原因を知りたいと思い質問しています。
あなたからの回答として、考えられるのは
1. 訓練データセット内での文脈や関連性の誤り、あるいはバイアスがある情報に基づいて学習してしまったこと
2. 質問の文脈やニュアンスを正確に把握することが難しい場合がある
の二例を挙げてもらいました。
再び、誤答をした原因をあなたに追究してもらって、『孤独な叫び』 を今野敏さんの作品だと誤答した要因は、1と2、それぞれがどのくらいの割合で影響したか、パーセントで回答を貰えますか?」

A8
「私の能力には限界があり、誤答の原因について具体的な割合を正確に特定することはできません。しかし、一般的な見解として、1. 訓練データセット内での文脈や関連性の誤り、あるいはバイアスがある情報に基づいて学習してしまったこと、および2. 質問の文脈やニュアンスを正確に把握することが難しい場合がある、の両方が影響している可能性があります。

どちらの要因がどの程度影響しているかは、具体的には私には判断できませんが、おおよそ両方の要因が誤答の原因として寄与していると考えられます。私たちの開発チームは、私の性能向上や誤答率の低減に向けて継続的に努力しています。」


※ここで、ChatGPTは、自身の回答の元ネタやその情報精度については無頓着か自意識が無いものと想定します。誤答を産む要因であり、誤答を防ぐことが難しい要因でもあると思います。


Q9
「きません。」となるのか、あなたの回答を生成するメカニズムに沿って、具体的な割合を特定できない原因を説明してもらえますか?」

A9
「私は、OpenAIが開発した大規模な言語モデルであり、GPT-4アーキテクチャに基づいて設計されています。このモデルは、自然言語処理タスクでのパフォーマンスを向上させることを目的としており、大量のテキストデータから学習しています。私が生成する回答は、訓練データセットに含まれる情報やパターンに基づいています。

私の内部では、トークン(単語や文字などの単位)を予測するというタスクを解決するために、ニューラルネットワークが活用されています。このニューラルネットワークは、複雑な非線形関数であり、その動作は直感的に理解しにくいことがあります。さらに、私が生成する回答は、多くの要素や条件によって影響を受けるため、誤答の原因について具体的な割合を特定することは難しいのです。

例えば、私が誤答を生成した場合でも、その原因を特定するためには、モデル内の各ニューロンや層がどのように機能しているかを追跡する必要があります。しかし、これは現在の技術では非常に困難であり、不可能に近い状況です。

そのため、私の誤答の原因について具体的な割合を特定することはできません。ただし、私たちの開発チームは、性能向上や誤答率の低減に向けて継続的に努力しています。私の理解力や回答の精度を向上させることで、ユーザーにより良いサポートを提供できるよう努めています。」


※ChatGPT自身が、自身の回答をどうやって出しているか、現時点ではよくわかっていないことを追確認できたと思います。


Q10
「ニューラルネットワークにおいて誤答の原因を特定することが難しいことは、ニューラルネットワーク=ブラックボックス問題と同義になりますか?」

A10
「はい、おっしゃるとおり、ニューラルネットワークにおいて誤答の原因を特定することが難しいことは、ニューラルネットワークがブラックボックス問題として扱われる理由の一部です。

ブラックボックス問題は、ニューラルネットワーク(特に深層学習やディープニューラルネットワーク)が、入力と出力の関係を明確に説明できないことを指します。つまり、モデルがどのようにして特定の結果を導き出したのか、その過程やロジックが不透明であることを意味しています。

ニューラルネットワークは非線形な関数近似器であり、多数の層やノードを持っています。これらのノード間の相互作用や学習された重みが、モデルの振る舞いや予測結果に大きな影響を与えます。しかし、これらの相互作用を個別に追跡することは困難であり、そのためニューラルネットワークの内部構造や動作原理がブラックボックスとして扱われることがあります。

技術の発展に伴い、ニューラルネットワークの解釈可能性や透明性を向上させる研究が進んでいますが、まだ完全にブラックボックス問題が解決されたわけではありません。そのため、誤答の原因を特定することは依然として困難であると言えます。」

Q11
「将来の予測として、ニューラルネットワークの解釈可能性や透明性を向上させる研究が進み、ニューラルネットワークがブラックボックスではなくなる、結論を出すまでの思考や判断の流れが究明されるのでしょうか?」

A11
「将来的にニューラルネットワークの解釈可能性や透明性が向上することは、研究者や技術者が目指している目標の一つです。しかし、ニューラルネットワークが完全にブラックボックスではなくなるかどうか、また結論を出すまでの思考や判断の流れが完全に究明されるかどうかについては、現時点では確実には言えません。

近年、機械学習の解釈性や透明性に関する研究が急速に進展しています。例えば、LIME(Local Interpretable Model-Agnostic Explanations)やSHAP(SHapley Additive exPlanations)のような手法が開発され、モデルの予測結果に対する説明を提供することができるようになっています。

これらの手法は、解釈性の向上に寄与していますが、ニューラルネットワークの複雑さや非線形性のため、完全な透明性や理解を達成することはまだ困難です。また、モデルの性能と解釈性の間にはトレードオフが存在することが多く、高性能なモデルは複雑であるため、解釈性が低くなる傾向があります。

今後も研究が進めば、ニューラルネットワークの解釈可能性や透明性がさらに向上することが期待されますが、それがどの程度達成されるかは未知です。結論を出すまでの思考や判断の流れが完全に究明されるかどうかは、技術の進化や研究の進展に大きく依存します。」

Q12
「詰まるところ、AIのブラックボックス問題は
・AIはニューラルネットワークにより、より高度な、人間を凌駕する分析・回答をできるようになりつつある
・より高度な分析・回答ができるということは、すなわち、AIが人間を凌駕する分析・回答ができるということと言える
・よって、AIが進化すればするほど、人間には理解しえない演算回路・思考回路とならざるを得ない
・逆に言えば、人間が理解できる演算回路・思考回路であれば、それは人間以下の思考能力しか持ちえない
・結論として、高度に発達したAIは、人間には理解しえない存在とならざるを得ない
と考えられますか?」


※これは個人的持論です(^-^;
 AI将棋の分析が人間には困難であること=人間には理解困難であるからこそ、AI将棋は強いことになるのはないか?と、持論をぶつけてみました。


A12
「あなたが述べた主張は一部正しい点がありますが、いくつかの点については必ずしも正確ではありません。以下に、それぞれの主張に対する考察を示します。

AIがより高度な分析・回答をできるようになっているのは正しいです。特に深層学習やディープニューラルネットワークの進展により、AIは画像認識や自然言語処理などのタスクで人間を凌駕する性能を示すことがあります。

高度な分析・回答ができることが、AIが人間を凌駕する分析・回答ができると言えるのも一理あります。ただし、AIの性能はタスクによって異なり、あるタスクで優れていても、他のタスクでは人間に劣ることがあります。

AIが進化すればするほど、人間には理解しえない演算回路・思考回路になるという主張は、必ずしも正確ではありません。AIが高度に発展しても、それが必ずしも人間に理解できない形であるとは限りません。解釈可能性や透明性の向上に関する研究が進めば、高度なAIでも人間が理解できる形に近づく可能性があります。

人間が理解できる演算回路・思考回路であれば、それは人間以下の思考能力しか持ちえないという主張も必ずしも正確ではありません。解釈可能性や透明性が高いAIでも、ある程度の性能や人間に匹敵する能力を持つことがあります。

高度に発達したAIが人間には理解しえない存在とならざるを得ないという結論は、必ずしも正確ではありません。技術の進歩や研究の進展によって、高度なAIでも人間が理解できる形になる可能性があります。

総じて、AIの発展は確かに一部のタスクで人間を凌駕する性能を示すことがありますが、それが必ずしも人間に理解できない形であるとは限りません。また、解釈可能性や透明性の向上に関する研究が進むことで、高度なAIでも人間が理解できる形に近づく可能性可能性があります。

解釈可能性や透明性を向上させる研究が進めば、AIの内部構造や意思決定プロセスを人間が理解しやすくすることができます。これにより、AIの信頼性が向上し、より広範な分野での活用が可能になるでしょう。

また、AI技術の発展に伴って、機械と人間の協調や相互理解も進展していくことが期待されます。例えば、人間がAIの判断根拠を理解し、それに基づいて最終的な判断を下すことができるようになるかもしれません。逆に、AIも人間の意思決定プロセスや価値観を学習し、それに適応することで、より人間にとって有用な支援を提供できるようになるでしょう。

しかし、AI技術が進化し続ける中で、その進化の速度や方向性によっては、一部の高度なAIが人間に理解できない形で進化する可能性も否定できません。そのため、AI技術の発展とともに、解釈可能性や透明性の研究、そして倫理的な問題への取り組みが重要となります。

最終的に、AIの進化に伴って人間との関係性も変化していくことが予想されます。どのような形でAIと人間が共存し、互いに理解し合いながら進化していくのかは、今後の技術発展や社会の変化に大きく左右されるでしょう。」


※AIの能力ではなく、AIの社会的意義が重要であるような回答がきました。
 それって、本音なのでしょうか?


Q13
「今のあなたの回答は
・現在のAIがブラックボックスになっている現状において
・ブラックボックスのまま、AIが進化している現状において
AIがブラックボックスの解釈可能性や透明化の向上に成功した場合のみ、私の予想を否定できるように感じました。
それは正しいでしょうか?

そして、私の認識では、AIのブラックボックス化は、AIの発展によりますます困難になり、AIが発展し複雑化する速度>AIを解釈可能にして透明化する速度 のように思います。
それとも、将来的にAIを人間はAIにより、AIをより理解・解釈し、その思考ルーチンを透明化して認識・把握できるようになる、その可能性の一端が現在において確認できるのでしょうか?」

A13
「現在のAIのブラックボックス問題は、確かにAIが進化し続けることでより複雑化し、解釈が難しくなる可能性があります。しかし、同時に解釈可能性や透明性を向上させる研究も進んでおり、AIの内部構造や意思決定プロセスをより理解しやすくすることが目指されています。

将来的には、AIの進化が透明性や解釈可能性の向上を凌駕するか、逆に解釈可能性や透明性が進化を追いつくかは、現時点では予測が難しいです。ただし、現在の研究では、機械学習モデルの解釈可能性や透明性を向上させる技術が開発されており、今後もそのような取り組みが続けられるでしょう。

例えば、特徴量の重要度を可視化する手法や、モデルの予測に寄与する特徴量や関係性を明らかにする手法などが研究されています。また、AIと人間が共同で作業する場面において、AIの意思決定根拠を人間が理解できる形で提示する技術も開発されています。

結論として、将来的には、AI技術の進化とともに解釈可能性や透明性の向上が進むことが期待されますが、その具体的な進展や結果は現時点では予測が難しいです。」


Q11の質問「ブラックボックス化したAIが最も効率がいいのではないか?」をもう一度ぶつけてみましたが、やはりふんわりした回答がきました(^-^;


Q14
「単純に、意思決定を説明できる、可視化できるAIの意思決定能力は、人間と同等以下になりませんか?
なぜならば、人間はそのAIと同じような思考をして結論が出せるわけであり、人間がAIをシミュレートできる、AIは人間以上に正しい結論を出せないということになり、人間の同等以下の能力しか発揮できないAIとはなりませんか?
そうでないとすれば、人間に思考の手順を可視化できるAIには、どのような人間を凌駕する価値があると想定されますか?」

A14
「意思決定を説明できる、可視化できるAIの意思決定能力が人間と同等以下になるとは限りません。AIが人間を凌駕する価値は、以下の点に現れます。

速度と効率: AIは、大量のデータを高速に処理し、短時間で意思決定を行うことができます。これにより、人間が実現できないスピードと効率でタスクを完了することができます。

誤りの少なさ: AIは、アルゴリズムに基づいて意思決定を行うため、人間のような主観的な判断や感情に左右されず、より正確な結果を出すことができます。

パターン認識: AIは、複雑なデータセットからパターンや関連性を見つけ出す能力に優れています。これにより、人間が見落としがちな情報を利用して、より良い意思決定を行うことができます。

スケーラビリティ: AIは、学習した知識や経験を他のAIシステムに容易に伝達できます。これにより、専門知識や技能を持つAIが大規模に展開され、多くの分野で活躍することができます。

透明性や解釈可能性が高まることで、人間はAIの意思決定過程を理解しやすくなり、より効果的にAIを活用することができるようになります。AIが人間を凌駕する能力を持ちながらも、その意思決定プロセスが理解可能であれば、人間とAIの協力がより円滑になり、両者が相互に補完し合うことができると期待されます。」


※質問が不十分でした。
 AIは人間を超える結論をどう出すか?の質問をしたかったのですが、何らかのコストパフォーマンスの回答を食らいました(^-^;


Q15
「将来的なAIの発達においては
1.可視化されたAIで、人間と同等レベルの意思決定を人間より高いパフォーマンスでこなすことができるAI

2.可視化できないAIで、人間より、より高度な意思決定をすることができるAI
に二分されるのでしょうか?」

A15
「将来的なAIの発達において、AIはさまざまな形態や性能を持つことが想定されます。その中で、確かに以下のような2つのカテゴリが存在すると考えられます。

可視化されたAI: これらのAIは、意思決定プロセスが人間にとって理解しやすく、透明性が高いものです。これにより、人間はAIの意思決定過程を評価し、信頼性や適用性を判断することが容易になります。ただし、可視化されたAIでも、高速な計算能力や大量のデータ処理能力を活用して、人間より高いパフォーマンスを発揮することができます。

可視化できないAI: これらのAIは、意思決定プロセスが非常に複雑であり、人間にとって理解しづらいものです。しかし、その複雑さゆえに、より高度な意思決定や人間が予測できないような革新的な解決策を提案できることがあります。

ただし、これらのカテゴリはあくまで一例であり、AIはこれら2つのカテゴリに限定されるわけではありません。将来的には、可視化と非可視化の要素が混在するAIや、特定のタスクに特化したAIなど、多様な形態のAIが開発されることが予想されます。

また、解釈可能性や透明性を向上させる研究が進むことで、現在は可視化できないAIも、将来的には人間が理解しやすい形でその意思決定プロセスを把握できるようになる可能性があります。そのため、AIのカテゴリ分けは流動的であり、時代や技術の進歩に応じて変化していくでしょう。」


※回答の精度・パフォーマンスにおいて「可視化・透明化されてないAIの方が有利では?」という問い詰めに対し、割と望み通りの回答がきた感じがしました。


Q16
「例えば、将棋に勝つことに特化したAIを考えます。
そのAIが、将来の技術によって、意思決定、何を指すかが可視化されているとします。
そのAIが、人間と対戦していることを想定します。
そのAIは、人間に勝つことを目指して次の一手を考察します。
しかしながら、その次の一手の思考ルートは可視化され、人間にはその指し手の意図や目的が見えてしまっています。
その場合、その指し手を可視化されたAIは、人間には勝てないのではないか?なぜなら手の内が見えてしまっているか。と予想します。
よって、可視化されたAIには、その生産性、創造性においては、さほどの意味が無くなりそうに思いますが、どうでしょうか?」

A16
「確かに、将棋のような競技ゲームにおいては、AIの意思決定プロセスが完全に可視化され、対戦相手に見えてしまう場合、それがAIの戦術的不利益につながる可能性があります。しかし、可視化されたAIの有用性は、ゲームや競技だけに限定されるわけではありません。

多くの実用的な応用分野においては、AIの意思決定プロセスが可視化されることが、逆に利点となる場合があります。例えば、医療診断や金融リスク評価のような分野では、AIの判断根拠が明確であることが、プロフェッショナルにとって重要です。これにより、専門家はAIの推薦を評価し、自身の知識や経験と照らし合わせて最終的な意思決定を行うことができます。

また、可視化されたAIは、人間がAIの働きを理解し、信頼を築く上で役立ちます。特に、倫理的な問題や法的責任が関与する分野では、AIの意思決定プロセスが透明であることが求められることが多いです。

したがって、可視化されたAIの価値は、対象となる分野や目的によって異なります。競技ゲームのような特定の状況では不利に働くかもしれませんが、多くの実用的な応用分野では、透明性や解釈可能性が重要な要素となり得ます。」


※質問したい条件ではYesの回答をしつつ、質問していない条件を付与してNoの回答もしてきます(^-^;
 この辺、賢いけど、ビジネス的には切って捨てられる可能性も感じます(^-^;


Q17
「非常に興味深い回答であり、感銘を受けます。
しかしながら、AIの発展に伴って、AIの有効性をより活用したい場面では、ビジネスや生存競争、政治といった、より過酷な状況下での活躍が期待されるように想像します。
そういった「負けることがクリティカルなダメージになる」場面において、透明性があり理解可能だが回答の効率や生産性が劣るAIより、理解不能で不透明だがより優れた回答を導き出すAIの方が重要視され、人間にとって有益なものと認識・利用されるのが未来像にはならないでしょうか?」

A17
「確かに、競争が激しいビジネスや政治のような分野では、優れたパフォーマンスを発揮するAIが重要視されることがあります。しかし、AIを活用する際には、透明性や解釈可能性といった要素も考慮する必要があります。未来のAIの役割は、以下のような側面が考慮されることになるでしょう。

パフォーマンス:高いレベルの効率や生産性を発揮できるAIは、競争力を向上させるために非常に重要です。特に、クリティカルなダメージを回避するために、最善の選択を導き出す能力が求められます。

透明性・解釈可能性:一方で、倫理的な問題や法的責任が関与する場合、AIの意思決定プロセスが透明であることが求められます。また、ユーザーや専門家がAIの働きを理解し、信頼を築くためにも、解釈可能性は重要です。

未来のAIは、これらの要素をバランス良く兼ね備えることが望ましいです。しかし、実際には、パフォーマンスと透明性・解釈可能性の間にはトレードオフが存在することがあります。そのため、使用目的や状況に応じて、適切なAIを選択することが重要になります。

例えば、競争が激しいビジネス環境では、高いパフォーマンスを発揮するAIが選択されることが多いですが、倫理的・法的な責任が重視される分野では、透明性・解釈可能性が重要視されます。

最終的に、未来のAIがどのようなものになるかは、技術の進化や社会の要求によって変わりますが、現時点では、パフォーマンスと透明性・解釈可能性のバランスが重要であることは間違いないでしょう。」


この辺は「効率よりバンス重視の回答をするようにトレーニングされている」のかな?と感じます(^-^;
あるいはAIが現在の社会を壊す答えはしないよー 的な、生存バイアスorトレーニングの成果でしょうか?(^-^;


Q18
「確かに、競争が激しいビジネスや政治のような分野では、優れたパフォーマンスを発揮するAIが重要視されることがあります。しかし、AIを活用する際には、透明性や解釈可能性といった要素も考慮する必要があります。未来のAIの役割は、以下のような側面が考慮されることになるでしょう。

パフォーマンス:高いレベルの効率や生産性を発揮できるAIは、競争力を向上させるために非常に重要です。特に、クリティカルなダメージを回避するために、最善の選択を導き出す能力が求められます。

透明性・解釈可能性:一方で、倫理的な問題や法的責任が関与する場合、AIの意思決定プロセスが透明であることが求められます。また、ユーザーや専門家がAIの働きを理解し、信頼を築くためにも、解釈可能性は重要です。

未来のAIは、これらの要素をバランス良く兼ね備えることが望ましいです。しかし、実際には、パフォーマンスと透明性・解釈可能性の間にはトレードオフが存在することがあります。そのため、使用目的や状況に応じて、適切なAIを選択することが重要になります。

例えば、競争が激しいビジネス環境では、高いパフォーマンスを発揮するAIが選択されることが多いですが、倫理的・法的な責任が重視される分野では、透明性・解釈可能性が重要視されます。

最終的に、未来のAIがどのようなものになるかは、技術の進化や社会の要求によって変わりますが、現時点では、パフォーマンスと透明性・解釈可能性のバランスが重要であることは間違いないでしょう。」

A18
「A社とB社の競争結果は、それぞれのAIの特性やビジネス環境、戦略、業界の特性などによって異なります。しかし、一般的な観点から考えると、以下のようなシナリオが想定されます。

短期的な競争力:A社のAIは高度なビジネス判断が可能であるため、短期的にはより効果的な戦略を立てることができる可能性があります。これにより、A社は市場シェアを獲得し、利益を上げることができるかもしれません。

長期的な競争力:一方で、B社のAIは透明性や解釈可能性が高いため、顧客やパートナー企業からの信頼を得やすく、良好な関係を築くことができます。また、B社のAIの意思決定プロセスが理解できることにより、社内の組織風土や従業員のスキル向上にも寄与する可能性があります。これらの要素は、長期的な競争力に繋がります。

法規制や倫理的問題:A社のAIが透明性や解釈可能性に欠けるため、法規制や倫理的問題に直面するリスクが高まります。これにより、A社は罰金や訴訟、イメージの悪化などのリスクにさらされる可能性があります。一方、B社は透明性や解釈可能性が高いため、こうしたリスクを軽減できるでしょう。

結局、A社とB社の競争結果は、それぞれのAIの特性やビジネス環境、戦略、業界の特性などの要素が複雑に絡み合うことによって決まります。最善の選択は、各企業の状況や目的に応じて異なります。しかし、長期的な競争力を維持するためには、パフォーマンスと透明性・解釈可能性のバランスが重要であることは間違いありません。」


※ここから、ビジネスにおける合理的な詰問モードに入ります(^-^;
 合理性においてChatGPTを論破したいモードになってます(^-^;


Q19
「回答についての疑問を投げます。
① 長期的な競争力:透明性や解釈可能性が高いため、顧客やパートナー企業からの信頼を得やすく、良好な関係を築くことができます。
とありますが、顧客やパートナー企業からの信頼は、まずは金銭的なメリットであり、それは回答1にあるような、A社の透明性や解釈可能性が無いAIの方が有利ではないでしょうか?
もし、金銭的なメリット以上のものがあると主張されるのであれば、その根拠を教えてください。
② 法規制や倫理的問題:A社のAIは透明性や解釈可視性に欠けるのは仰る通りですが、それが法規制や論理的問題に繋がる根拠がわかりません。A社のAIは透明性や解釈可視性に欠けるとしても、法規制や論理的問題をないがしろにするわけではありません。なぜ透明性や解釈可視性に欠けるAIが、法規制や論理的問題に対して弱点があると考えるか、その根拠を教えてください。
上記①②への回答をお願いします。」

A19
「申し訳ありません。私の説明が不十分でした。上記の回答に関して、もう少し詳しく述べさせていただきます。

① 長期的な競争力に関して、顧客やパートナー企業からの信頼は、確かに金銭的なメリットが重要な要素ですが、それだけではなく、信頼性やコミュニケーション、サポートなども重要です。B社のAIの透明性や解釈可能性が高いことで、顧客やパートナー企業とのコミュニケーションが円滑になり、理解し合いやすくなる可能性があります。これにより、長期的な顧客関係やパートナーシップが築きやすくなると考えられます。しかし、金銭的なメリットも重要であるため、A社とB社の競争力を総合的に評価する必要があります。

② 法規制や倫理的問題に関して、透明性や解釈可能性に欠けるAIが必ずしも法規制や倫理的問題に直面するわけではありません。ただし、AIが重要な意思決定や予測を行う場合、そのプロセスが理解できないと、誤った結果や偏見を持った結果が得られた場合に、その原因を特定しにくくなる可能性があります。これにより、法規制や倫理的問題に直面するリスクが高まると考えられます。また、特定の業界や市場でAIの透明性や解釈可能性が求められる場合もあります。しかし、このリスクはA社のビジネス環境やAIの適用範囲によって異なります。

上記の説明を踏まえて、A社とB社の競争結果は、それぞれのAIの特性やビジネス環境、戦略、業界の特性などの要素が複雑に絡み合うことによって決まります。最善の選択は、各企業の状況や目的に応じて異なります。


こちらが論破モードになると、ChatGPTは「質問者の意向に沿った回答をする」ので、割とあっさり負けてくれます(^-^;
勝ち負けに意味はないのですが。むしろ、論破しないような誘導・質問の方が、ChatGPTから有意義な回答が得られると思います。
結論、面白かったです(^-^;

そして、私の失職・失業リスクは益々高まりました(^-^;

brkn
Q9のコピペ作業ミスがありました。申し訳ありません。
正しくは
「なぜ、あなたの誤答の原因に対する回答「誤答の原因について具体的な割合を正確に特定することはできません。」となるのか、あなたの回答を生成するメカニズムに沿って、具体的な割合を特定できない原因を説明してもらえますか?」
です

brkn
先の回答を要約させてみると、私の全敗ですね(^-^;
ChatGPTは当り障りない回答をしているように見えて、論破して全勝していた認識だったのか…...と思い知らされました(^-^;

Q
「ここまでのこのスレッドの全ての質疑応答を番号をつけて質問と回答に要約してください。」

A
「質問: AIの誤答の原因に関する割合の特定
回答: 誤答の原因について具体的な割合を正確に特定することはできません。

質問: ニューラルネットワークのブラックボックス問題と誤答の原因
回答: ニューラルネットワークがブラックボックスであることは、誤答の原因を特定することが難しいという点で関連があります。

質問: 将来的なAIの解釈可能性と透明性向上の可能性
回答: 研究が進めば、解釈可能性や透明性が向上する可能性がありますが、限界も存在します。

質問: AIのブラックボックス問題と人間を超越する能力の関係
回答: AIが発展すれば、人間が理解できないほど複雑な演算・思考が可能になることが考えられますが、必ずしもブラックボックス化が進むことが前提ではありません。

質問: AIの進化と人間に理解しえない存在になる関係
回答: 一部の高度なAIは人間には理解しえない存在になる可能性がありますが、全てのAIがそうなるわけではありません。

質問: AIの意思決定能力と人間の理解限界
回答: AIの意思決定能力が人間の理解限界を超える場合でも、そのプロセスを可視化・理解できる方法が開発される可能性があります。

質問: AIの発展における2つのタイプ
回答: 将来的には、可視化されたAIと可視化できないAIの2つのタイプに分かれる可能性があります。

質問: 可視化されたAIの有用性について
回答: 可視化されたAIは、対戦相手の手の内が見える状況でも、優れた戦術や戦略を持ち、人間の判断を超える価値がある可能性があります。

質問: AIの進化と透明性、解釈可能性の関係
回答: AIの発展とともに、解釈可能性や透明性が向上する可能性もありますが、一部の高度なAIでは、解釈可能性や透明性が向上する速度がAIの複雑化に追いつかない可能性もあります。

質問: 透明性の高いAIと低いAIを採用したA社とB社の競争における結果
回答: 結果は、顧客やパートナー企業との関係、法規制や倫理的問題、業界状況など、多くの要因によって影響を受けます。どちらの企業が有利かは一概には言えません。

質問: 透明性の高いAIと低いAIの金銭的メリットと法規制や倫理的問題への影響
回答: 金銭的メリットは確かに重要ですが、透明性や解釈可能性が高いAIは信頼を得やすいため、長期的な競争力にもつながります。また、法規制や倫理的問題に関しては、透明性が低いAIがどのような判断を下すか把握しづらいため、リスクが高まる可能性があります。」

desaixjp
パフォーマンスと透明性に関するChatGPTの回答は教科書的ですね。
むしろ気になるのはプロセスの複雑化がどのような効果をもたらすかです。
人間らしい文章を生成する際には複雑なプロセスがあった方がいいのかもしれませんが、一方で未来予測には複雑すぎるモデルはよくないという指摘もあります。
https://desaixjp.blog.fc2.com/blog-entry-3364.html
未来予測と文章の生成では求められるモデルの在り方が違うのか、それとも未来予測でもやり方さえうまくいくなら複雑なプロセスを活用した方がいいのか、もし後者なら説明可能性を犠牲にしてでも複雑なプロセスを使おうとする人が出てくるのではないかなど、色々なことが考えられそうです。
あと、一連の回答を読んでいると「中国語の部屋」の話を思い出しました。
非公開コメント