「現在のLLMに真の推論は困難」──Appleの研究者らが論文発表 #AI

1：香味焙煎 ★ HAk7W1zD9 2024-10-13 08:17:42
　米AppleのAI研究者らは10月7日（現地時間）、「GSM-Symbolic: Understanding the Limitations of Mathematical Reasoning in Large Language Models」（LLMにおける数学的推論の限界を理解する）という論文を発表した。
　この論文は、LLM（大規模言語モデル）が、本当に人間のように論理的に考えて問題を解けるのか、という疑問を検証している。結論としては、LLMは今のところ、表面的なパターンを真似て答えを出しているだけで、真の推論能力は持っていないと主張している。

　研究者らは、これらの問題点を検証するために、「GSM-Symbolic」という新しいテスト方法を開発した。これは、LLMの数学的推論能力を評価するためのベンチマークデータセット「GSM8K」を改良し、問題の表現や数字を柔軟に変えられるようにしたもの。また、「GSM-NoOp」という、無関係な情報を含んだ問題集も作成し、LLMの推論能力を評価した。

　実験の結果、OpenAIのGPT-4oやo1-previewなどのLLMは、他のLLMと比べて高い性能を示したが、それでもGSM-NoOpのような引っ掛け問題には弱く、真の推論能力を獲得するにはまだ課題があるとしている。

　論文では、実験で明らかになった「弱点」を挙げている。

（続きは↓でお読みください）

ITmedia

2024年10月13日 08時00分

19：名無しどんぶらこ kXIPhmo30 2024-10-13 08:25:40
人間の脳だって同じ様な仕組みなんだから

出来ないことはないだろ

ただ単に、表面的な引っ掛けとかに不正解する

入力サンプルが足りてないだけでは？

70：名無しどんぶらこ Y+OtjgMt0 2024-10-13 08:45:10
>>19

同じような仕組みじゃないよ

プロンプトをみて返答にどの文字が確率が可能性が高いかを見るを繰り返して

文章作っているだけだから

74：名無しどんぶらこ uGpwCtiN0 2024-10-13 08:46:24
>>70

あんたの説明だけ聞くと目茶苦茶しょうもなくみえるけど

そんな仕組みで人間らしいまともな返答ができるのが不思議でしょうがない

75：名無しどんぶらこ wYGwtOzn0 2024-10-13 08:48:14
>>74

人間もほとんどは連想ゲームで発話してるって事だよ

推論じゃない

そもそもそんなに考えてる時間もない

97：名無しどんぶらこ nOjpV3/20 2024-10-13 08:54:58
>>75

その説明でハッとした

確かにそうだ

78：名無しどんぶらこ OYNexLVC0 2024-10-13 08:49:13
>>74

そんなシンプルな仕組みなのにデータ量が増えると考えているかのように賢い返答するようになるんだよ

不思議だろ

79：名無しどんぶらこ TvzHSB2Y0 2024-10-13 08:49:19
>>74

そう？

人間だってやってることは同じじゃん？

↑の文が自然な日本語として成立し意味を持つのも、日本語の汎用ルールに則って次に来そうな関連単語を正しく接続してるからでしょ

25：名無しどんぶらこ x1ebCPDX0 2024-10-13 08:28:57
お前らだってその程度だろ

頭の悪いレスばかりで真の推論能力なんて微塵も感じないアホ多すぎ

35：名無しどんぶらこ J0Lxvjv+0 2024-10-13 08:34:19
>>25

真の推論が可能であるとは、数学の全てを見極めているということと同義だよね

それが全てを知る者と同義でないけども

そんなものが今の世に必要なのかというとどうなんだろう、何に使うんだ?

44：名無しどんぶらこ x1ebCPDX0 2024-10-13 08:36:51
>>35

真の推論と真の推論能力の違いわかる？

数学は出来ても国語は駄目なタイプか？

62：名無しどんぶらこ J0Lxvjv+0 2024-10-13 08:42:27
>>44

おお、言いたいことは判ったよ

クオリアの話なんだね

54：名無しどんぶらこ TvzHSB2Y0 2024-10-13 08:39:51
>>35

AIにおける推論って、トークンの繋がりから次のトークンを決定するってだけの意味だけどな

この記事の真の推論能力とやらが何を指してるのかはわからんが

29：名無しどんぶらこ GvSRnW+X0 2024-10-13 08:31:12
引っ掛け問題なんて大半の人間だって間違えるやん。

まあ、いずれにしてもllmがまともな仕事に使えるまでにはまだ何年かはかかるだろ

33：名無しどんぶらこ TvzHSB2Y0 2024-10-13 08:32:59
>>29

ほとんどの人はもう使ってるし、今使えてない人はたぶん今後も無理だと思う

たばこ代15,000円→1,000円 / 月
36：名無しどんぶらこ x1ebCPDX0 2024-10-13 08:35:30
>>33

人の使い方がわからない奴はAIの使い方もわからないらしいな

AIは無能とか使えねーって言ってる奴は出世させたら駄目な人間

115：名無しどんぶらこころころ 8UsH3XIt0 2024-10-13 09:05:39
>>36

俺もそう思う……

能力が低く段取りもヘタクソでたいしたことをしていないヤツほどＡＩをろくに理解もせず否定する。

あと、自分の仕事が奪われる恐れのあるヤツも否定するｗ

そういうヤツとはまともに会話にならないｗ

119：名無しどんぶらこ 8QlzeAC50 2024-10-13 09:08:08
>>36

具体的に分かりやすい指示できずにパワハラ指示だけなやつとかを洗い出す判定ツールとしてはいいかもね

48：名無しどんぶらこ 8QlzeAC50 2024-10-13 08:38:02
人間の組織を模したのにまだ何が足らないのか

55：名無しどんぶらこ tL3oOfgp0 2024-10-13 08:39:53
>>48

神の息吹

63：名無しどんぶらこ TvzHSB2Y0 2024-10-13 08:42:58
>>48

全く模しきれてないからじゃね

つーても今のLLMもガワが人間っぽかったらもう情が湧いて機械扱いできなくなると思う

そのへんはあくまで見た目の問題

85：名無しどんぶらこ 8QlzeAC50 2024-10-13 08:50:30
>>63

LMは学習モデルだから学習結果のネットワークはできてるけど人間の衝動元となる欲求構造もまねたら人間とほぼ変わらんやろ

93：名無しどんぶらこ TvzHSB2Y0 2024-10-13 08:53:25
>>85

どうかな…トークンの重み付けや温度あたりもかなり違うシステムかもしれない

特に温度はかなり動的に決定されてるように思う

まあ脳もハードとしてもソフトとしてもまだわかってないことが多いからな

104：名無しどんぶらこ 8QlzeAC50 2024-10-13 08:59:12
>>93

知覚の処理や情報処理までは真似ることができてるけど

今のところはそれが限界やね

光合成や肺呼吸も量子力学らしいしまだ何かがそもそも要素的に足りてないんやろ

88：名無しどんぶらこ 64LXyFnu0 2024-10-13 08:51:55
ヒント：人間の思考や推論は脳だけではなく体全体からの神経入力と出力も駆使している。

112：名無しどんぶらこ wYGwtOzn0 2024-10-13 09:03:21
>>88

そもそも脳の生成プロセスから言って

全身の神経も脳の一部だからな

っていうか古田教授とホリエモンの対話見たのかなw

例えば人は皮膚感覚や振動からでも得られるデータは多いからな

出力しても様々なフィードバックがある

顕在性の分かり易い認識を意識しすぎて単純化しすぎてるんですわ

117：名無しどんぶらこ 64LXyFnu0 2024-10-13 09:07:21
>>112

そんな雑魚みたいな方々の話を聞くまでもなく、

最近発見された腸管膜の神経節ネットワークが中枢神経と連携して情報処理してるという事実からも、

脳だけで情報処理をしてることは明らか。実際に体性感覚野の活動電位が記録される数ミリ秒まえに

末梢の神経活動が活動してるなんていう事実もある。つまり人間は脳みそだけでは人間にはなれない。

122：名無しどんぶらこ TvzHSB2Y0 2024-10-13 09:09:12
>>117

別にそんなもん脳の働きだけで十分説明できるけどね

127：名無しどんぶらこ 64LXyFnu0 2024-10-13 09:13:52
>>122

説明はできるけど理解はできてないのよ。まあ、生成系AIによる重大な発見は

チョムスキーが予言した言語学習のメカニズムが、生成系AIでは成立しなかったという事実。

AIによる多言語の同時翻訳が想像を超えて正確だったということで驚かれている。

105：名無しどんぶらこ 90GLAXSo0 2024-10-13 08:59:39
3位を抜かしたら何位？

をAIは間違えるし

234：名無しどんぶらこ GWvTCV0Q0 2024-10-13 09:58:49
>>105

かけっこをしています。あなたは3位の人を抜かしました。今あなたは何位？

https://poe.com/s/zpyiRjUawgsRhOYwwX0X

314：名無しどんぶらこ GWvTCV0Q0 2024-10-13 10:58:07
>>234

高品質な文章の生成とは何か？

クイズやなぞなぞの文脈で質の高い続きを書くとはどういうことか

クイズの正解に拘る理由は？

ということが言いたかったが、伝わりにくかったかな

https://i.imgur.com/YaS2sVx.jpeg

239：名無しどんぶらこ 8zxxfUqp0 2024-10-13 10:03:19
>>105

いや、間違えないじゃん

三位を抜かしたらあなたは三位になります。

解説：

レースや順位の競争で三位の人を抜かすと、あなたが新たに三位になります。

imonar.com/VRykQYB.png

241：名無しどんぶらこ XTHkaLMW0 2024-10-13 10:04:54
>>239

ワイが前に聞いたときは間違えてた

244：名無しどんぶらこ 8zxxfUqp0 2024-10-13 10:06:23
>>241

前の話とかしてないから

258：名無しどんぶらこ tn7aher70 2024-10-13 10:15:57
>>241

そう、ほんの少し前は間違えてた

そしてLLMをLLM以外の手法と融合させていくとあっという間に解決するようになった

となると今度はそこを掘り下げればあっという間に次々成果が上がっていく

囲碁で人類が負けて「そんなの組み合わせで力業じゃん」って

技術の流れが見えない人らが高をくくってた年からあっという間にここまで

騒いでいるのはLLMの現状の成果に対してじゃないよ

あれとあれとあれで実際の成果が出るならさらにあれとあれをああやれば

数年であれができちゃうし、そうならばあそこまで行くじゃん、と

具体的な技術のピースがそろってきたから

そのピースを手にしてる人らがやばいやばいと騒ぎ始めてる

【悲報】タイミーの取り分は3割・・・

もやし工場に勤める俺『賞与は５．５ヶ月分で、袋に詰められたもやしを箱に詰めるだけ』スレ民「手取りいくら？」俺『』 → 勝ち組すぎるんだがｗｗｗ

【衝撃画像】杉田水脈さん、ガチでブチギレてしまうｗｗｗｗｗｗｗ

【速報】トヨタ自動車の売上高が「欧州1国」のGDPに匹敵するという驚愕の事実ｗｗｗｗｗｗ

生活保護を不正受給していることが発覚！私『保護廃止にします』不正受給者「えっ…」 → するとK党の議員が登場し…

【画像】おまえらの85割が惚れてしまう女の子ｗｗｗｗｗ

能登半島で低緯度オーロラを確認、太陽フレアの影響で！

初めての自作PCで色々調べてるけど疲れてきた

うちの猫のためにダンボールで「爪とぎ」を作ってみた…

参照元:asahi.5ch.net/newsplus/dat/1728775062.dat

アノニマスお面 1000円前後

たばこ代15,000円→1,000円 / 月

Recent Posts

Recent Comments

人気記事(画像付)

新着記事

アーカイブ

アクセス

リンク

「現在のLLMに真の推論は困難」──Appleの研究者らが論文発表 #AI

コメントを投稿コメントをキャンセル

Archives

Categories

電子タバコ通販

Recent Posts

Recent Comments

人気記事(画像付)

新着記事

アーカイブ

アクセス

リンク

「現在のLLMに真の推論は困難」──Appleの研究者らが論文発表 #AI

コメントを投稿 コメントをキャンセル

Archives

Categories

電子タバコ通販

コメントを投稿コメントをキャンセル