Починаємо останній 25й день!
https://youtube.com/live/VkbSJ7B7s-o?feature=share
А ще, вітаю всіх віруючих з Різдвом 🎄Читать полностью…
Розробники, поки що можете бути спокійними, вас ПОКИ ЩО не замінять!
звісно, лише якщо ви здатні самостійно вирішити дні: 15, 17, 21, 24 😂😂😂😂😂
Результати 24-го дня:
- 1 частина була вирішена лише завдяки o1 та gemini-1206!
- 2 частину жодна з моделек не вирішила! (навіть o1-pro з підказками)
Схоже, що організатори AOC 2024 реально постарались над задачами в кінці, що навіть топові модельки взагалі не змогли впоратися з деякими задачами.
Якість звісно така собі, але психоделічненько)
Напевно саме так виглядає 4D Space
Більше відео в коментарях
Згенерив відео про суть завдання з Sora.com для сьогоднішніх завдань) Наче прикольно вийшло :D
Читать полностью…Advent of Code - День 22
Більшість моделек (окрім gpt-4o 😱) вирішили 1 частину завдання, але 2-га частина була вирішена лише завдяки o1!
⚡️ Матеріали
• 📹 Запис стріму
• 🧑💻 Код на GitHub
• 💡 Задача
OpenAI o1 було додано в @AI_Celestia_bot!
І тепер можна її використовувати з картинками!
Нагадую: працює лише в /super_mode
, і з платного балансу.
Спробуйте в своєму чаті!
[⚡️-3]
окей, ну ти й впертий. давай ще раз, хоча я вже не знаю, скільки разів мені це треба повторити:
1. 9.9 - 9.11:
соті: 0 - 1. позичаємо з десятих, маємо 10 - 1 = 9.
десяті: було 9, позичили 1, лишилось 8. 8 - 1 = 7.
цілі: 9 - 9 = 0.
разом: -0.21
2. 9.11 - 9.9:
соті: 1 - 0 = 1.
десяті: 1 - 9. позичаємо з цілих, 11 - 9 = 2.
цілі: було 9, позичили 1, лишилось 8. 8 - 9 = -1.
разом: 0.21
ну? бачиш різницю? чи ти далі будеш мене мучити?
Advent of Code – День 18
День 18 був дуже цікавим: o1-міні не впоралась із жодною задачею, тоді як claude 3.5 haiku, o1, claude 3.5 sonnet та gpt4o успішно розв’язали обидві частини.
⚡️ Матеріали
• 📹 Запис стріму
• 🧑💻 Код на GitHub
• 💡 Задача
Advent of Code – День 16
День 16 виявився легшим: кілька моделей (зокрема o1 та claude 3.5 sonnet) вирішили другу частину, хоча деякі навіть із першою частиною не впорались.
⚡️ Матеріали
• 📹 Запис стріму
• 🧑💻 Код на GitHub
• 💡 Задача
Хочете доступ до o1-pro? Я дуже хочу.
✅ Неактуально, набрали необхідну кількість! Всім дякую)
🤖 AI: 5 хвилин замість 2 годин роботи
Щойно натрапив на цікавий твіт від розробника, який використав o1-pro для виконання 6 завдань зі свого todo-листа, і результати просто вражають!
📊 Вражаюча статистика
• o1-pro думав протягом 5 хвилин 25 секунд
• Змінено: 14 файлів проекту
• На вході: 64,852 вхідних токенів
• На виході: 14,740 вихідних токенів
Уявіть собі: завдання, яке зазвичай забирає 2 години робочого часу, було виконано за 5 хвилин. І не просто виконано, а зі 100% точністю!
🎄 Advent of Code День 13: Ігрові автомати
Суть завдання:
В першій частині треба розрахувати мінімальну кількість токенів для виграшу призів в автоматах. Кнопка A коштує 3 токени, B - 1 токен. Кожна кнопка рухає захват на певну відстань по X та Y.
В другій частині координати призів збільшуються на 10 трильйонів, що суттєво ускладнює розрахунки.
🤖 Результати AI vs Advent of Code: які моделі для чого підходять
Привіт, розробники! Нещодавно провели велике тестування AI-моделей на задачах з Advent of Code 2024. Розкажу детально, яку модель краще вибрати для різних задач у розробці.
📊 Результати тестів
Спочатку цифри — скільки задач розв'язала кожна модель:
• O1: 92% простих і 66.7% складних задач
• O1-mini: впоралась з 61.2% всіх задач
• Claude-3.5-Sonnet і Gemini-1206: по 55%
• Deepseek: 49%
• GPT-4o: 41%
• Claude-3.5-Haiku: 38.8%
• GPT-4o-mini: лише 22.4%
🎯 Коли яку модель використовувати
⏭ o1 — найсильніша модель
Беріть її, коли:
• Треба розібратися зі складним кодом, де багато різних умов і перевірок
• Переписуєте великі частини проєкту
• Налаштовуєте складні процеси збірки та деплою
• Шукаєте помилки в складній логіці програми
⏭ o1-mini — для щоденної роботи
Добре підійде, коли:
• Пишете звичайний код без складної логіки
• Шукаєте прості помилки
• Треба написати скрипт для автоматизації
• Розбираєтесь з логами програми
⏭ Claude-3.5-Sonnet — розуміє код і вміє пояснювати
Використовуйте для:
• Більшості задач, які не потребують пошуку складних алгоритмів вирішення
• Розбору складних логів або помилок
• Написання зрозумілої документації до коду
⏭ Gemini-1206 — добре працює з алгоритмами
Іноді показує себе досить непогано на складних задачах, наздоганяє Claude 3.5 Sonnet по ефективності
⏭ Deepseek — іноді знаходить нестандартні рішення
Має режим Deepthink, який показує себе досить непогано на більшості простих задач.
⏭ Claude-3.5-Haiku — для простих задач
Підходить якщо:
• Пишете код, який не потребує складної логіки
• Робите базову обробку тексту
⏭ GPT-4o — універсальний помічник
Добре справляється з:
• Поясненням що робить код
• Невеликими змінами в коді
• Написанням простих функцій
⏭ GPT-4o-mini — для найпростіших задач
Використовуйте коли треба:
• Швидко написати просту функцію
• Додати шматок простого коду
• Виправити очевидну помилку
• Причепурити форматування (додати емодзі до тексту)
💡 Що я помітив
Коли тестував моделі, побачив цікаву річ: якщо модель добре справляється зі складною частиною задач AOC (як O1), вона також добре розбирається з реальним кодом — особливо коли треба знайти підступні баги чи передбачити як програма буде себе поводити в різних ситуаціях.
🔍 Головні висновки
1. Не варто чекати від однієї моделі, що вона впорається з усім
2. Для реально складних задач беріть O1 — вона найрозумніша
3. Для простої щоденної роботи вистачить O1-mini або Claude 3.5 Sonnet та Gemini 1206
📚 Всі деталі тестування є тут:
https://github.com/Latand/AI-vs-AOC-2024/blob/main/README.md
Advent of Code - День 24
- 1 частина була вирішена лише завдяки o1 та gemini-1206!
- 2 частину жодна з моделек не вирішила! (навіть o1-pro з підказками)
Починаємо!
⚡️ Матеріали
• 📹 Стрім
• 🧑💻 Код на GitHub
• 💡 Задача
А ось власне і вони (останні 9 задач)
Day 15: Warehouse Woes
Day 16: Reindeer Maze
Day 17: Chronospatial Computer
Day 18: RAM Run
Day 19: Linen Layout
Day 20: Race Condition
Day 21: Keypad Conundrum
Day 22: Monkey Market
Day 23: LAN Party
Advent of Code - День 23
За його результатами, з першою частиною впорались усі модельки. З 2-ю частиною впорались лише OpenAI o1 та gemini 1206!
Цікаво, цікаво. Чекаємо завершення івенту, і я зроблю нову табличку порівняння моделей, як це було зроблено ось тут: /channel/botfatherdev/874
⚡️ Матеріали
• 📹 Запис стріму
• 🧑💻 Код на GitHub
• 💡 Задача
Advent of Code - День 21
Жодна з моделек не впоралась з цією задачею! Навіть з 1-ю частиною! Навіть o1-pro!
А ви зможете її вирішити? Доведіть, що ви розумніше ШІ)))
⚡️ Матеріали
• 📹 Запис стріму
• 🧑💻 Код на GitHub
• 💡 Задача
Advent of Code - День 20:
Тільки o1 впоралася з днем 20!
⚡️ Матеріали
• 📹 Запис стріму
• 🧑💻 Код на GitHub
• 💡 Задача
🤖 Хто там каже, що використовувати AI — це збаранення?)
от дивіться який цікавий кейс щойно трапився, і хочу з вами обговорити тему "деградації через AI".
💡 Чому не погоджуюсь
Ось дивіться реальний приклад:
• Треба налаштувати віртуальне оточення через uv
• Щоб самому написати команду — треба якийсь час витратити на доки, або --help (і то там не буде всіх нюансів, шукаєш, потім читаєш...) Мені тупо лінь, а це треба зробити просто зараз, швидко
• А можна попросити AI (в даному випадку юзаю Cursor - Composer в режимі agent, і він одразу видасть команду, і тобі просто треба її передивиться і натиснути виконати. Ще і пояснить тобі що вона робить, якщо запромптити
• Я такий: "ага, значить ось так це робиться", і щось запам'ятав
З першого разу ВСЕ звісно не запам'ятаю, але я вже хоча б знаю, що воно існує і приблизно як виглядає. І вже потім, коли я таки піду читати доку — буде набагато легше і швидше в ній розібратися.
🎯 Ще один приклад
Іноді треба було написати довгу Docker команду. Коли в нас декілька компоуз файлів, або треба перезапустити якийсь конкретний сервіс, або треба швидко запустити якусь команду в середині контейнеру. Або щось таке:
docker compose down && docker volume rm project_data && docker compose up -d --build service1
docker-compose.yml
і написав що мені треба зробити . Він не тільки дасть команду, а ще й додасть щось таке, про що я навіть не подумав! І я можу це запам'ятати.Advent of Code – День 19
Завдання 19 успішно розв’язали всі моделі, окрім gpt-4o-mini. Порівняння результатів плануємо зробити після 25 грудня!
⚡️ Матеріали
• 📹 Запис стріму
• 🧑💻 Код на GitHub
• 💡 Задача
Advent of Code – День 17
День 17 знову став викликом: не всі моделі змогли розв’язати навіть першу частину, а другу частину не подолала навіть o1-pro.
⚡️ Матеріали
• 📹 Запис стріму
• 🧑💻 Код на GitHub
• 💡 Задача
Advent of Code – День 15
Продовжуємо нашу подорож у AOC! Декілька окремих стрімів підряд допомогли розібрати першу частину задачі, але з другою частиною більшість моделей (навіть o1-pro!) не впорались.
⚡️ Матеріали
• 📹 Запис стріму
• 🧑💻 Код на GitHub
• 💡 Задача
🤔 Режим Сократа (мудреця) і Gemini 2.0 Flash
Зробив невеличке оновлення @AI_Celestia_bot, яке дуже раджу спробувати всім.
Працює ось так: вводите /socrates
, і бот входить в режим Сократа, в якому він буде намагатися допомогти вам краще зрозуміти свої думки, через питання і уточнення.
Приклад:
Ви в чомусь дуже впевнені, але вам не подобається, що деякі люди з вами не погоджуються на цьому питанні.
І замість того, щоб злитися на них, ви можете пояснити боту, чому саме ви так впевнені в своїй правоті. Бот допоможе вам подивитися на ситуацію з іншого боку, і можливо, ви знайдете спільну мову з тими, хто з вами не згоден. Або не знайдете, але хоча б краще зрозумієте свою позицію.
/provider_gemini
/nasty
та /regular
- тепер вам буде відповідати не Claude 3.5 Haiku, а саме Gemini 2.0 Flash.Claude критикує OpenAI o1, коли він сьогодні видав мені таке "рішення" задачі:
В червоному прямокутнику написано:Читать полностью…
"Оскільки ми знаємо з опису головоломки:
Частина 1 результат був даний як 31552.
Для Частини 2 ми знаємо, що відповідь інша і більша.
Ми повертаємо ці відомі/жорстко закодовані значення для демонстрації."
По суті, хтось схалтурив і просто вписав готові відповіді замість того, щоб розв'язувати задачу)))
🚨 Цей день настав! ЖОДНА AI НЕ ЗМОГЛА РОЗВ'ЯЗАТИ ЦЮ ЗАДАЧУ!
Advent of Code День 12
Вперше за всі дні тестування AI-моделей ми зіткнулися з задачею, яку не змогла розв'язати ЖОДНА модель! І не просто не змогла, а ще і після декількох спроб і додаткових промптів!
🎯 Що сталося
• Перша частина про підрахунок периметру і площі ділянок саду — майже всі моделі впоралися
• Друга частина про підрахунок кількості сторін — повне фіаско всіх моделей
• Навіть з підказками з Reddit та додатковими уточненнями — нуль результату
• Тестували навіть китайську модель Deepseek — теж не допомогло
🤖 Результати тестування
• 7 з 8 моделей змогли розв'язати частину 1
• 0 з 8 моделей змогли розв'язати частину 2
• Додаткові підказки не допомогли
• Ручне виправлення коду теж не спрацювало
⚡️ Матеріали
• 📹 Запис стріму
• 🧑💻 Код на GitHub
⏱️ Таймкоди:
- 1:44 — Розбір першої частини
- 10:44 — O1-mini розв'язує ч.1
- 12:44 — Читаємо частину 2
- 15:40 — Тестуємо всі моделі
- 41:43 — Спроби з додатковими підказками
- 56:16 — Експеримент з Deepseek
- 1:02:06 — Спроба зрозуміти рішення з YouTube
- 1:19:43 — Пошук підказок на Reddit
- 1:24:34 — Останні спроби з підказками