У світі стрімко розвивається штучного інтелекту виникає безперервне питання: наскільки наші цифрові помічники здатні мислити подібно людині, а не просто обробляти інформацію за заздалегідь заданими алгоритмами? Дослідники з провідних університетів США і стартапу Cursor взялися за це таємниче «ядро» ШІ, створивши незвичайний тест, немов Інтелектуальний квест, з використанням «недільних головоломок» від NPR – улюбленої радіо-загадки, відомої своєю здатністю змусити навіть досвідчених любителів кросвордів попітніти.
Загадки Радіо: нестандартний Атестаційний Центр для ШІ
Щотижня Уілл Шортц, гуру кросвордів New York Times та ведучий NPR, кидає виклик тисячам слухачів » недільної головоломки – — інтелектуальних викликів, достатньо витончених, щоб вимагати не енциклопедичних знань, а скорішелогічного маневру розуму і вміння «побудувати» рішення із загальних уявлень про світ. Саме це робить їх ідеальним інструментом для оцінки моделей AI «міркування», таких як O1 OpenAI та R1 DeepSeek.
- Подолання Езотерики:На відміну від тестів, які перевіряють вузькоспеціалізовані знання (математика на рівні доктора філософії, наприклад), «недільні головоломки» фокусуються на **образному мисленні та інтуїції**, схожою з тим, як ми самі вирішуємо нестандартні завдання в повсякденному житті.
- Немає Механічної Пам’яті:Моделі не можуть просто «витягнути» відповідь із сховища фактів. Їм доводиться аналізувати, будувати логічні ланцюжки, – процес, максимально наближений до людського.
Арджун Гуха, один з авторів дослідження з північно-східного університету, пояснює: «Ці завдання — як головоломки, де рішення немов складається з пазлів тільки в момент » а-га!», коли всі ланки логіки з’єднуються. Потрібно не просто знання, а процес мислення і виведення.»
Поведінка Моделей: від логічної впевненості до «розчарування»
Результати виявилися fascinatingly різноманітними:
- Логічні гіганти:Моделі на кшталт o1 і R1 демонструють перевагу, ретельно перевіряючи факти перед відповіддю, що мінімізує помилки, властиві іншим ШІ. Їх «думання» повільніше (секунди-хвилини), але точніше.
- Непередбачувані Емоції Цифри:R1 навіть імітує людське «розчарування», визнаючи невдачу і вибираючи випадкову відповідь, перш ніж спробувати знову. Інші моделі «відмовляються» від вірних відповідей, лише потім повертаючись до них, створюючи ефект інтелектуальної нерішучості.
- Провал і пошуки:Деякі моделі застряють в нескінченному «роздумі», видаючи безглузді пояснення або зайвий раз перебираючи очевидні варіанти.
Така поведінка, за словами Гухи, «відкриває цікаві горизонти: як» розчарування » в процесі міркувань моделі може впливати на якість її роботи в майбутньому.«
Рейтинг і майбутнє тестування
o1 очолює рейтинг з 59%, за ним слідує o3-mini (47%), а R1 демонструє 35%. Це не просто цифри – вони **картина еволюції ШІ в області логічного мислення**. Наступний крок дослідників-розширення тесту новими моделями, щоб виявити слабкі місця і прискорити прогрес.
Головна мета-створити зрозумілий для всіх критерії оцінки» розумності » ШІ, не прив’язаний до вузькоспеціалізованих знань.Адже коли моделі все частіше інтегруються в наше життя, важливо, щоб кожен розумів їх реальні можливості і обмеження. «Недільні головоломки» — це не просто тест, амісток до більш прозорого та доступного майбутнього штучного інтелекту.**


















