米AppleのAI研究者らは10月7日(現地時間)、「GSM-Symbolic: Understanding the Limitations of Mathematical Reasoning in Large Language Models」(LLMにおける数学的推論の限界を理解する)という論文を発表した。
この論文は、LLM(大規模言語モデル)が、本当に人間のように論理的に考えて問題を解けるのか、という疑問を検証している。結論としては、LLMは今のところ、表面的なパターンを真似て答えを出しているだけで、真の推論能力は持っていないと主張している。
研究者らは、これらの問題点を検証するために、「GSM-Symbolic」という新しいテスト方法を開発した。これは、LLMの数学的推論能力を評価するためのベンチマークデータセット「GSM8K」を改良し、問題の表現や数字を柔軟に変えられるようにしたもの。また、「GSM-NoOp」という、無関係な情報を含んだ問題集も作成し、LLMの推論能力を評価した。
実験の結果、OpenAIのGPT-4oやo1-previewなどのLLMは、他のLLMと比べて高い性能を示したが、それでもGSM-NoOpのような引っ掛け問題には弱く、真の推論能力を獲得するにはまだ課題があるとしている。
論文では、実験で明らかになった「弱点」を挙げている。
(続きは↓でお読みください)
ITmedia
2024年10月13日 08時00分
https://www.itmedia.co.jp/news/articles/2410/13/news070.html
【超衝撃】 日本のパスポート、『とんでもない事実』が判明してしまう・・・・
【画像】 最近の等身大フィギュア、あまりにもリアルすぎる。お前らの想像の5倍リアル
日本「解散総選挙!」石破茂「日米地位協定を改定(唐突」石破政権「沖縄の思いを無視しない」石破茂「基地負担軽減(衝撃」日本「鳩山内閣の再来(実質民主党政権」→
【速報】 和田アキ子 NHK紅白歌合戦の歌唱曲に「なんか同じ歌ばっかり歌ってる人おるよね」
車椅子生活者の俺。男『兄ちゃん、障碍者年金?労災?』俺「…労災っすね」『そうか、10万でいいぞ』「は?」『詐欺でしょ?』「警察呼びます」 → …
【動画】 津田大介「人々はこれだけ酷い事になってもなぜ自民党に投票し続けるのか?」青木理「劣等民族だから(笑」
19: 名無しどんぶらこ kXIPhmo30 2024-10-13 08:25:40
人間の脳だって同じ様な仕組みなんだから
出来ないことはないだろ
ただ単に、表面的な引っ掛けとかに不正解する
入力サンプルが足りてないだけでは?
>>19
同じような仕組みじゃないよ
プロンプトをみて返答にどの文字が確率が可能性が高いかを見るを繰り返して
文章作っているだけだから
>>70
あんたの説明だけ聞くと目茶苦茶しょうもなくみえるけど
そんな仕組みで人間らしいまともな返答ができるのが不思議でしょうがない
>>74
人間もほとんどは連想ゲームで発話してるって事だよ
推論じゃない
そもそもそんなに考えてる時間もない
78: 名無しどんぶらこ OYNexLVC0 2024-10-13 08:49:13
>>74
そんなシンプルな仕組みなのにデータ量が増えると考えているかのように賢い返答するようになるんだよ
不思議だろ
79: 名無しどんぶらこ TvzHSB2Y0 2024-10-13 08:49:19
>>74
そう?
人間だってやってることは同じじゃん?
↑の文が自然な日本語として成立し意味を持つのも、日本語の汎用ルールに則って次に来そうな関連単語を正しく接続してるからでしょ
25: 名無しどんぶらこ x1ebCPDX0 2024-10-13 08:28:57
お前らだってその程度だろ
頭の悪いレスばかりで真の推論能力なんて微塵も感じないアホ多すぎ
>>25
真の推論が可能であるとは、数学の全てを見極めているということと同義だよね
それが全てを知る者と同義でないけども
そんなものが今の世に必要なのかというとどうなんだろう、何に使うんだ?
29: 名無しどんぶらこ GvSRnW+X0 2024-10-13 08:31:12
引っ掛け問題なんて大半の人間だって間違えるやん。
まあ、いずれにしてもllmがまともな仕事に使えるまでにはまだ何年かはかかるだろ
>>29
ほとんどの人はもう使ってるし、今使えてない人はたぶん今後も無理だと思う

たばこ代15,000円→1,000円 / 月
36: 名無しどんぶらこ x1ebCPDX0 2024-10-13 08:35:30
>>33
人の使い方がわからない奴はAIの使い方もわからないらしいな
AIは無能とか使えねーって言ってる奴は出世させたら駄目な人間
48: 名無しどんぶらこ 8QlzeAC50 2024-10-13 08:38:02
人間の組織を模したのにまだ何が足らないのか
>>48
神の息吹
63: 名無しどんぶらこ TvzHSB2Y0 2024-10-13 08:42:58
>>48
全く模しきれてないからじゃね
つーても今のLLMもガワが人間っぽかったらもう情が湧いて機械扱いできなくなると思う
そのへんはあくまで見た目の問題
88: 名無しどんぶらこ 64LXyFnu0 2024-10-13 08:51:55
ヒント:人間の思考や推論は脳だけではなく体全体からの神経入力と出力も駆使している。
>>88
そもそも脳の生成プロセスから言って
全身の神経も脳の一部だからな
っていうか古田教授とホリエモンの対話見たのかなw
例えば人は皮膚感覚や振動からでも得られるデータは多いからな
出力しても様々なフィードバックがある
顕在性の分かり易い認識を意識しすぎて単純化しすぎてるんですわ
105: 名無しどんぶらこ 90GLAXSo0 2024-10-13 08:59:39
3位を抜かしたら何位?
をAIは間違えるし
>>105
かけっこをしています。あなたは3位の人を抜かしました。 今あなたは何位?
>>234
高品質な文章の生成とは何か?
クイズやなぞなぞの文脈で質の高い続きを書くとはどういうことか
クイズの正解に拘る理由は?
ということが言いたかったが、伝わりにくかったかな
239: 名無しどんぶらこ 8zxxfUqp0 2024-10-13 10:03:19
>>105
いや、間違えないじゃん
三位を抜かしたらあなたは三位になります。
解説:
レースや順位の競争で三位の人を抜かすと、あなたが新たに三位になります。
imonar.com/VRykQYB.png
>>239
ワイが前に聞いたときは間違えてた
>>241
前の話とかしてないから
258: 名無しどんぶらこ tn7aher70 2024-10-13 10:15:57
>>241
そう、ほんの少し前は間違えてた
そしてLLMをLLM以外の手法と融合させていくとあっという間に解決するようになった
となると今度はそこを掘り下げればあっという間に次々成果が上がっていく
囲碁で人類が負けて「そんなの組み合わせで力業じゃん」って
技術の流れが見えない人らが高をくくってた年からあっという間にここまで
騒いでいるのはLLMの現状の成果に対してじゃないよ
あれとあれとあれで実際の成果が出るならさらにあれとあれをああやれば
数年であれができちゃうし、そうならばあそこまで行くじゃん、と
具体的な技術のピースがそろってきたから
そのピースを手にしてる人らがやばいやばいと騒ぎ始めてる
もやし工場に勤める俺『賞与は5.5ヶ月分で、袋に詰められたもやしを箱に詰めるだけ』スレ民「手取りいくら?」俺『』 → 勝ち組すぎるんだがwww
【衝撃画像】 杉田水脈さん、ガチでブチギレてしまうwwwwwww
【速報】 トヨタ自動車の売上高が「欧州1国」のGDPに匹敵するという驚愕の事実wwwwww
生活保護を不正受給していることが発覚!私『保護廃止にします』不正受給者「えっ…」 → するとK党の議員が登場し…
参照元:asahi.5ch.net/newsplus/dat/1728775062.dat