< h2 class = "sdesc" > Исследователи Apple тестировали рассуждения и нераспределенные модели решать математические головоломки. < img src = "https://i.gadgets360cdn.com/large/apple_reuters_1684309211854.jpg?size=950:*" alt = "Apple утверждает, что модели разумных разумных моделей страдают« Точность », когда решает сложные проблемы». Сложные задачи "ширина =" 950 "высота =" 534 "/> < p class = 'Подпись' > Исследование пришло к выводу, что ориентированные на обоснование моделей ИИ не имеют логической точности
Реклама < P >Apple опубликовала исследовательскую работу в субботу, где исследователи изучают сильные и слабые стороны недавно выпущенных моделей рассуждений. Также известные как большие модели рассуждений (LRM), это модели, которые «думают», используя дополнительные вычисления для решения сложных задач. Тем не менее, статья обнаружила, что даже самые сильные модели борются с проблемой сложности. Исследователи сказали, что, когда проблема очень сложна, модели испытывают полный обвал и отказываются от проблемы вместо того, чтобы использовать больший вычислитель, что они обучены делать. Уровень
< p > В статье под названием «Иллюзия мышления: понимание сильных сторон и ограничений моделей рассуждений с помощью призраки сложности проблем», опубликованная на веб -сайте Apple, исследователи претендуют на LRM и большие языковые модели (LLMS), не думая о способности вести себя по -разному, когда столкнулись с тремя регламентами сложности.В статье описаны три режима сложности, которые представляют собой задачи с низкой сложности, задачи сложности средней и задачи высокой сложности. Чтобы проверить, как функционируют LLMS и LRM, работая с широким спектром сложностей, исследователи решили использовать несколько головоломок, которые могут иметь повышенный уровень сложности. В частности, одной головоломкой была башня Ханой. Диски расположены в порядке уменьшения размера для создания пирамидной формы. Цель головоломки состоит в том, чтобы сдвинуть диски с самого левого колышка на самый правый колышек, перемещая по одному диску за раз. Существует улов – ни разу не будет размещен на большем диске поверх меньшего диска. Это не очень сложная головоломка, и она часто нацелена на детей в возрасте от шести до 15.
< p >< IMG ширина = "1" height = "1" загрузка = "ленивый" alt = "Эксперимент Apple загадывает исследовательскую статью Apple" Class = "MT-Image-Center" Data-Dimension = "1200x675" src = "https://i.gadgets360cdn.com/large/apple_experiment_puzzles_1749449715025.jpg" //>
< P > & nbsp;
> 62 ~ ~ и AMP; Неудовлетворительные коллеги для этого эксперимента. Выбранными LLM были Claude 3.7 Сонет и Deepseek-V3, в то время как LRM были сонетами Claude 3.7 с мышлением и Deepseek-R1. Бюджет мышления был максимизирован на уровне 64 000 токенов каждый. Цель эксперимента заключалась не в том, чтобы проверить окончательную точность, но и точность логики в выборе шагов для решения головоломки.
< p >В задаче с низкой сложности добавляли до трех дисков, тогда как для задачи сложности средней сложности размеры дисков сохранялись от четырех до 10. Наконец, в задаче высокой сложности было от 11 до 20 дисков. Когда сложность была увеличена, модели рассуждений смогли более точно решить головоломку, учитывая дополнительный бюджет вычисления. Однако, когда задачи достигли зоны высокой сложности, было обнаружено, что обе модели демонстрировали полный коллапс рассуждений.
< P > Один и тот же эксперимент также был повторен с большим количеством моделей и большим количеством головоломок, такими как шашки, прыгающие, речные, и блокируют мир. Интеллектуальное пространство уже выразилось. Хотя модели рассуждений могут обобщить в рамках своих распределенных наборов данных, всякий раз, когда какая -либо проблема выходит за рамки, модели борются за «мышление» и либо стараются взять ярлыки в поиске решения, либо полностью сдаваться и рухнуть. < ul > < li > iOS 26 может быть включено< li > WWDC 2025: Как смотреть в прямом эфире Apple Live и чего ожидать
< li > Apple может представить сторонние виджеты центра управления на Apple Watch
< p > «Текущие оценки в первую очередь сосредоточены на установленных математических и кодирующих критериях, подчеркивая точность окончательного ответа. Однако эта парадигма оценки часто страдает от загрязнения данных и не дает представления о структуре и качеством рассуждений», – говорится в сообщении. ~ 60 >