Отже нарешті ми отримали велике і жахливе GPT-5.
Найбільш довгоочікувану модель ШІ. Як мінімум в тому плані, що спекуляції про те, що ось ось вийде ГПТ-5 точилися ще з далекого 2023 року (!)
Якщо коротко, модель вважаю крута, і хороша бізнес пропозиція. Напишу детально чому і для яких задач.
З одним важливим застереженням. Коли вийшло ГПТ4, вийшло також дослідження на 150 сторінок від команди Майкрософт «Іскри універсального інтелекту (AGI)», яку з великим інтересом тоді прочитав, кину в коментар. Де вони дуже детально і креативно протестували цю модель. То от це тестування вони проводили 6 місяців. А потім ще декілька місяців тестували здібності бачення цієї моделі і написали ще одне класне дослідження, теж на 150 сторінок, з результатами. А крім них таких груп було десятки.
А зараз моделі значно складніші, мають агентські здібності, користуються інструментами.
Я до того, що буде великою помилкою комусь прогнати 2-3 промпта і робити якісь узагальнення. Ці моделі це дуже складні артефакти, такі собі архіви знань людства. Реальну оцінку ми зможемо дати нескоро і після детального тестування. В своїх реальних задачах, в порівняннях з іншими моделями.
Тим більше, що ОпенАІ дуже старались, представити якнайкраще цю модель. Настільки, що трішки виглядає махлювали в окремих тестах, про це теж напишу.
Отже, піду від більш поширених кейсів до більш технічних.
Перше. Модель насправді задає новий рівень в написанні тексту, розумінні тексту і в перекладі. Ви знаєте, для цих задач я давно рекомендував Клод Опус, ще від 3 версії. І також і 4.
Зараз буду рекомендувати ГПТ 5.
Раз моделька ця претендує на рівень кандидата наук і все таке, я їй для тесту дав в переклад не якісь шкільні підручники.
Я їй дав поетичний твір, один з декількох, які вважається неможливо адекватно перекласти з англійської.
З чим я цілком згоден, переклади виглядають як спроба показати комусь велику медузу витягнувши її на берег – наче і та сама медуза, але вже розлізлась і щось не те. З дуже складною мовою, рідкісними словами, великою кількістю синонімів і т.д.
Клод Опус 4 в перекладі фрагментів допустив чимало помилок і йому прийшлось багато що підказувати, щоб він це витягнув.
ГПТ 5 – є питання стилістичні, деколи неточності. Але на голову краще.
Також розуміння та коментарі щодо текстів. Художня якість текстів де вона потрібна. Якщо робите складні переклади, створюєте новий контент, так ГПТ5 зробили суттєвий крок вперед. І бачу з ним буде цікаво в цьому погратися.
Треба відзначити прекрасно володіє літературною українською мовою і має дуже гарний словниковий запас, витягує прям дуже рідкісні слова.
Друге. Вони зробили цікавий фінт вухами. Побачили що багато користувачів запитують питання про здоров’я, діагнози, що з чим робити і т.д. То вони залучили 200 лікарів і навіть створили спеціальний тест, наскільки моделі їх хороші для медичних консультацій. І, напевно очікувано, показує, що ГПТ5 таки дуже хороше.
В США та і в багатьох інших країнах лікарі страшно дорогі і ще й мало доступні, це велика проблема.
Вони вирішили зробити суттєвий акцент в тренуванні моделі саме на медицині.
Для ілюстрації результату - вони навіть на сцену притягнули реальних користувачів, які розповідали про свій кейс, коли людина отримала результати аналізів, які начебто підтрведжують у неї рак, але написано так, що взагалі незрозуміло що там і про що.
А зустріч з лікарем щоб це прочитати буде через два тижні і то може у нього буде півгодини на розмову, хоча для пацієнта це виглядає як паніка і питання життя і смерті (а може так і є). То прям не могли нарадуватись наскільки ГПТ5 їх в цих питаннях допомогло.
Думаю цінний кейс. У нас якраз в роботі дослідницька задача від фарм компанії, я вже почав ГПТ 5 тестувати для неї і перші враження дуже позитивні.
ОпенАІ загалом робить суттєвий акцент на цьому напрямку і для бізнесу, представляє модель як толкового швидкого помічника рівня кандидата наук. Заявка дуже вагома, подивимось як це підтвердить тестування в практичних задачах.
Загалом позиціонують модель як універсального експерта рівня кандидата наук. Юридичного. Фінансового і так далі. Цікаво коментарі від Вас, у Ваших сферах, наскільки Ви готові підтвердити обгрунтованість цих претензій.
На додачу до цього, і це стосується всіх задач. Дуже гарно працює з пошуком інформації. Воно само працює як агент, по суті вже заміняє «глибоке дослідження». Робить багато логічних кроків, перевіряє десятки, десятки джерел. Гарно це збирає в лаконічний толково представлений результат – це мені дуже сподобалось.
Третє. Виглядає що у моделі гарне відчуття естетики. Прекрасні здібності до бачення та розуміння зображень. Відповідно і створення різних дизайнів. Графіків, дашбордів. Сайтів, інтерфейсів. Анімацій і т.д. Бачив чимало прикольних демо, виглядає суттєво краще конкурентів. Сам ще потестую, напишу, цікаво і Ваші тести та враження.
Четверте. Здібності до математики – виглядають на висоті, одні з кращих результатів.
П’яте. Здібності до програмування. Виглядає, що ОпенАІ доклали дуже багато зусиль, щоб побити врешті Клод і стати №1.
Один з ключових тестів – це є такий SWE Bench Verified. Складається з 500 задач з «реального життя», а не змагальних, які мало хто взагалі десь колись зустрічає, тому і найбільш показовий. То от у всіх презентаціях побачите, що ГПТ 5 дещо краще, буквально на відсоток, ніж Клод 4.
Але є супер дивна деталь. Якщо уважно подивитись їх Карту моделі – вони кажуть, що протестували модель на 477 задачах. Але повний тест це 500 (??). З якої такої радості вони відкинули 23 задачі?? Єдине пояснення – бо бачили що модель їх не вирішує. Якщо вона їх таки не вирішує і їх врахувати, то їх результат слабший ніж Клода 4.1. в цьому тесті!!! Не супер суттєво, але на пару відсотків гірше.
І от ці махінації це дуже дивна штука. Бо я вже протестив ГПТ5 на ряді реальних наших проектів – і це насправді дуже толкова модель. Раніше я використовував тільки Клод 4, зараз 4.1. для написання коду. І дуже рідко о3-Про для дуже складних принципових рішень, банально бо воно дуже повільне.
То от зараз я бачу, що ГПТ5 може бути повноцінним і постійним «учасником команди» і йому є що додати. І дуже тонкі проблеми в коді виявляє. При чому цим складніше задача – тим більш цікаві речі може додати.
І що важливо для практики – воно до того ж швидко працює. Бо була така моделька гпт о4 міні. Наче за тестами і хороша, але в high режимі такий тормоз – що з нею робота іде разів в 10 повільніше ніж з Клодом, а кому це треба.
Що дуже важливо на модель дали хороші дуже конкурентні ціни на АРІ. Навіть дешевше ніж Клод Соннет (середня модель), і значно дешевші ніж Клод Опус. На рівні Геміні Про 2.5.
Цю модель також дадуть всім користувачам ЧатГПТ, навіть безкоштовним.
Тут правда інше питання вилазить – я вже не дуже розумію, чи є мені смисл залишати мою підписку за 200 доларів з цими змінами?? Хтось вже з цим розбирався?
Це так коротко перші враження. І так великий пост вже виходить, думаю решту вже в наступних напишу ))
Ну і відмічу – якщо Ви чекали раптом AGI, суперінтелект і що термінатори полізуть прямо з екрану, то на разі це не про це. Толкова модель. Дуже здібна. Буде прекрасною допомогою експертам, але точно їх не замінить, про це багато писав. Гарна бізнес пропозиція. Прикольно, що навіть безкоштовно користувачі зможуть задати декілька питань в день. Не радикально краща ніж ключові конкуренти.
І якщо це і Сингулярність, то ще дуже ніжна))
Хоча треба відмітити Альтман натякає, що у них є значно розумніші моделі, але поки їх дорого всім надати в доступ, чи може і бояться.
Як Ваше враження?
https://tinyurl.com/ytkcpsxb
Комментариев нет:
Отправить комментарий