「現在のLLMに真の推論は困難」──Appleの研究者らが論文発表 #AI

1香味焙煎 ★ HAk7W1zD9 2024-10-13 08:17:42
 米AppleのAI研究者らは10月7日(現地時間)、「GSM-Symbolic: Understanding the Limitations of Mathematical Reasoning in Large Language Models」(LLMにおける数学的推論の限界を理解する)という論文を発表した。

 この論文は、LLM(大規模言語モデル)が、本当に人間のように論理的に考えて問題を解けるのか、という疑問を検証している。結論としては、LLMは今のところ、表面的なパターンを真似て答えを出しているだけで、真の推論能力は持っていないと主張している。

 研究者らは、これらの問題点を検証するために、「GSM-Symbolic」という新しいテスト方法を開発した。これは、LLMの数学的推論能力を評価するためのベンチマークデータセット「GSM8K」を改良し、問題の表現や数字を柔軟に変えられるようにしたもの。また、「GSM-NoOp」という、無関係な情報を含んだ問題集も作成し、LLMの推論能力を評価した。

 実験の結果、OpenAIのGPT-4oやo1-previewなどのLLMは、他のLLMと比べて高い性能を示したが、それでもGSM-NoOpのような引っ掛け問題には弱く、真の推論能力を獲得するにはまだ課題があるとしている。

 論文では、実験で明らかになった「弱点」を挙げている。

(続きは↓でお読みください)

ITmedia

2024年10月13日 08時00分

https://www.itmedia.co.jp/news/articles/2410/13/news070.html


【超衝撃】 日本のパスポート、『とんでもない事実』が判明してしまう・・・・

中国パパ、妻を路上で殴りまくる

中国が韓国のノーベル賞受賞に激怒

【画像】 最近の等身大フィギュア、あまりにもリアルすぎる。お前らの想像の5倍リアル

【画像】 ホラン千秋の姿が激変wwwwwwwwwwwwww

日本「解散総選挙!」石破茂「日米地位協定を改定(唐突」石破政権「沖縄の思いを無視しない」石破茂「基地負担軽減(衝撃」日本「鳩山内閣の再来(実質民主党政権」→

【速報】 和田アキ子 NHK紅白歌合戦の歌唱曲に「なんか同じ歌ばっかり歌ってる人おるよね」

車椅子生活者の俺。男『兄ちゃん、障碍者年金?労災?』俺「…労災っすね」『そうか、10万でいいぞ』「は?」『詐欺でしょ?』「警察呼びます」 → …

ドラゴンボール超、無かったことになるwwwwwww

【動画】 津田大介「人々はこれだけ酷い事になってもなぜ自民党に投票し続けるのか?」青木理「劣等民族だから(笑」

19名無しどんぶらこ kXIPhmo30 2024-10-13 08:25:40
人間の脳だって同じ様な仕組みなんだから

出来ないことはないだろ

ただ単に、表面的な引っ掛けとかに不正解する

入力サンプルが足りてないだけでは?

70名無しどんぶらこ Y+OtjgMt0 2024-10-13 08:45:10
>>19

同じような仕組みじゃないよ

プロンプトをみて返答にどの文字が確率が可能性が高いかを見るを繰り返して

文章作っているだけだから

74名無しどんぶらこ uGpwCtiN0 2024-10-13 08:46:24
>>70

あんたの説明だけ聞くと目茶苦茶しょうもなくみえるけど

そんな仕組みで人間らしいまともな返答ができるのが不思議でしょうがない

75名無しどんぶらこ wYGwtOzn0 2024-10-13 08:48:14
>>74

人間もほとんどは連想ゲームで発話してるって事だよ

推論じゃない

そもそもそんなに考えてる時間もない

97名無しどんぶらこ nOjpV3/20 2024-10-13 08:54:58
>>75

その説明でハッとした

確かにそうだ

78名無しどんぶらこ OYNexLVC0 2024-10-13 08:49:13
>>74

そんなシンプルな仕組みなのにデータ量が増えると考えているかのように賢い返答するようになるんだよ

不思議だろ

79名無しどんぶらこ TvzHSB2Y0 2024-10-13 08:49:19
>>74

そう?

人間だってやってることは同じじゃん?

↑の文が自然な日本語として成立し意味を持つのも、日本語の汎用ルールに則って次に来そうな関連単語を正しく接続してるからでしょ

25名無しどんぶらこ x1ebCPDX0 2024-10-13 08:28:57
お前らだってその程度だろ

頭の悪いレスばかりで真の推論能力なんて微塵も感じないアホ多すぎ

35名無しどんぶらこ J0Lxvjv+0 2024-10-13 08:34:19
>>25

真の推論が可能であるとは、数学の全てを見極めているということと同義だよね

それが全てを知る者と同義でないけども

そんなものが今の世に必要なのかというとどうなんだろう、何に使うんだ?

44名無しどんぶらこ x1ebCPDX0 2024-10-13 08:36:51
>>35

真の推論と真の推論能力の違いわかる?

数学は出来ても国語は駄目なタイプか?

62名無しどんぶらこ J0Lxvjv+0 2024-10-13 08:42:27
>>44

おお、言いたいことは判ったよ

クオリアの話なんだね

54名無しどんぶらこ TvzHSB2Y0 2024-10-13 08:39:51
>>35

AIにおける推論って、トークンの繋がりから次のトークンを決定するってだけの意味だけどな

この記事の真の推論能力とやらが何を指してるのかはわからんが

29名無しどんぶらこ GvSRnW+X0 2024-10-13 08:31:12
引っ掛け問題なんて大半の人間だって間違えるやん。

まあ、いずれにしてもllmがまともな仕事に使えるまでにはまだ何年かはかかるだろ

33名無しどんぶらこ TvzHSB2Y0 2024-10-13 08:32:59
>>29

ほとんどの人はもう使ってるし、今使えてない人はたぶん今後も無理だと思う


たばこ代15,000円→1,000円 / 月

36名無しどんぶらこ x1ebCPDX0 2024-10-13 08:35:30
>>33

人の使い方がわからない奴はAIの使い方もわからないらしいな

AIは無能とか使えねーって言ってる奴は出世させたら駄目な人間

115名無しどんぶらこ ころころ 8UsH3XIt0 2024-10-13 09:05:39
>>36

俺もそう思う……

能力が低く段取りもヘタクソでたいしたことをしていないヤツほどAIをろくに理解もせず否定する。

あと、自分の仕事が奪われる恐れのあるヤツも否定するw

そういうヤツとはまともに会話にならないw

119名無しどんぶらこ 8QlzeAC50 2024-10-13 09:08:08
>>36

具体的に分かりやすい指示できずにパワハラ指示だけなやつとかを洗い出す判定ツールとしてはいいかもね

48名無しどんぶらこ 8QlzeAC50 2024-10-13 08:38:02
人間の組織を模したのにまだ何が足らないのか

55名無しどんぶらこ tL3oOfgp0 2024-10-13 08:39:53
>>48

神の息吹

63名無しどんぶらこ TvzHSB2Y0 2024-10-13 08:42:58
>>48

全く模しきれてないからじゃね

つーても今のLLMもガワが人間っぽかったらもう情が湧いて機械扱いできなくなると思う

そのへんはあくまで見た目の問題

85名無しどんぶらこ 8QlzeAC50 2024-10-13 08:50:30
>>63

LMは学習モデルだから学習結果のネットワークはできてるけど人間の衝動元となる欲求構造もまねたら人間とほぼ変わらんやろ

93名無しどんぶらこ TvzHSB2Y0 2024-10-13 08:53:25
>>85

どうかな…トークンの重み付けや温度あたりもかなり違うシステムかもしれない

特に温度はかなり動的に決定されてるように思う

まあ脳もハードとしてもソフトとしてもまだわかってないことが多いからな

104名無しどんぶらこ 8QlzeAC50 2024-10-13 08:59:12
>>93

知覚の処理や情報処理までは真似ることができてるけど

今のところはそれが限界やね

光合成や肺呼吸も量子力学らしいしまだ何かがそもそも要素的に足りてないんやろ

88名無しどんぶらこ 64LXyFnu0 2024-10-13 08:51:55
ヒント:人間の思考や推論は脳だけではなく体全体からの神経入力と出力も駆使している。

112名無しどんぶらこ wYGwtOzn0 2024-10-13 09:03:21
>>88

そもそも脳の生成プロセスから言って

全身の神経も脳の一部だからな

っていうか古田教授とホリエモンの対話見たのかなw

例えば人は皮膚感覚や振動からでも得られるデータは多いからな

出力しても様々なフィードバックがある

顕在性の分かり易い認識を意識しすぎて単純化しすぎてるんですわ

117名無しどんぶらこ 64LXyFnu0 2024-10-13 09:07:21
>>112

そんな雑魚みたいな方々の話を聞くまでもなく、

最近発見された腸管膜の神経節ネットワークが中枢神経と連携して情報処理してるという事実からも、

脳だけで情報処理をしてることは明らか。実際に体性感覚野の活動電位が記録される数ミリ秒まえに

末梢の神経活動が活動してるなんていう事実もある。つまり人間は脳みそだけでは人間にはなれない。

122名無しどんぶらこ TvzHSB2Y0 2024-10-13 09:09:12
>>117

別にそんなもん脳の働きだけで十分説明できるけどね

127名無しどんぶらこ 64LXyFnu0 2024-10-13 09:13:52
>>122

説明はできるけど理解はできてないのよ。まあ、生成系AIによる重大な発見は

チョムスキーが予言した言語学習のメカニズムが、生成系AIでは成立しなかったという事実。

AIによる多言語の同時翻訳が想像を超えて正確だったということで驚かれている。

105名無しどんぶらこ 90GLAXSo0 2024-10-13 08:59:39
3位を抜かしたら何位?

をAIは間違えるし

234名無しどんぶらこ GWvTCV0Q0 2024-10-13 09:58:49
>>105

かけっこをしています。あなたは3位の人を抜かしました。 今あなたは何位?

https://poe.com/s/zpyiRjUawgsRhOYwwX0X

314名無しどんぶらこ GWvTCV0Q0 2024-10-13 10:58:07
>>234

高品質な文章の生成とは何か?

クイズやなぞなぞの文脈で質の高い続きを書くとはどういうことか

クイズの正解に拘る理由は?

ということが言いたかったが、伝わりにくかったかな

https://i.imgur.com/YaS2sVx.jpeg

239名無しどんぶらこ 8zxxfUqp0 2024-10-13 10:03:19
>>105

いや、間違えないじゃん

三位を抜かしたらあなたは三位になります。

解説:

レースや順位の競争で三位の人を抜かすと、あなたが新たに三位になります。

imonar.com/VRykQYB.png

241名無しどんぶらこ XTHkaLMW0 2024-10-13 10:04:54
>>239

ワイが前に聞いたときは間違えてた

244名無しどんぶらこ 8zxxfUqp0 2024-10-13 10:06:23
>>241

前の話とかしてないから

258名無しどんぶらこ tn7aher70 2024-10-13 10:15:57
>>241

そう、ほんの少し前は間違えてた

そしてLLMをLLM以外の手法と融合させていくとあっという間に解決するようになった

となると今度はそこを掘り下げればあっという間に次々成果が上がっていく

囲碁で人類が負けて「そんなの組み合わせで力業じゃん」って

技術の流れが見えない人らが高をくくってた年からあっという間にここまで

騒いでいるのはLLMの現状の成果に対してじゃないよ

あれとあれとあれで実際の成果が出るならさらにあれとあれをああやれば

数年であれができちゃうし、そうならばあそこまで行くじゃん、と

具体的な技術のピースがそろってきたから

そのピースを手にしてる人らがやばいやばいと騒ぎ始めてる

【悲報】 タイミーの取り分は3割・・・

もやし工場に勤める俺『賞与は5.5ヶ月分で、袋に詰められたもやしを箱に詰めるだけ』スレ民「手取りいくら?」俺『』 → 勝ち組すぎるんだがwww

【衝撃画像】 杉田水脈さん、ガチでブチギレてしまうwwwwwww

【速報】 トヨタ自動車の売上高が「欧州1国」のGDPに匹敵するという驚愕の事実wwwwww

生活保護を不正受給していることが発覚!私『保護廃止にします』不正受給者「えっ…」 → するとK党の議員が登場し…

【画像】 おまえらの85割が惚れてしまう女の子wwwww

能登半島で低緯度オーロラを確認、太陽フレアの影響で!

初めての自作PCで色々調べてるけど疲れてきた

うちの猫のためにダンボールで「爪とぎ」を作ってみた…


参照元:asahi.5ch.net/newsplus/dat/1728775062.dat

アノニマス
アノニマスお面 1000円前後


たばこ代15,000円→1,000円 / 月

コメントを投稿