Темповете на развитие в сферата на изкуствения интелект (ИИ) продължават да са все така смущаващо бързи.
Едва няколко месеца, след като услугата ChatGPT стана публично достъпна, от компанията OpenAI представиха следващото ниво на комуникацията ни с ИИ - мултимодалния езиков модел GPT-4.
Той развива възможностите на предшественика си GPT-3.5, върху който е базиран ChatGPT и Bing, търсачката с изкуствен интелект на Microsoft.
На първо време GPT-4 вече може да възприема не само текст, но и изображения. Освен това се представя на много по-добро ниво в различни сценарии, посочват от OpenAI. Дават пример със симулиран изпит, на който GPT-4 е в топ 10 на най-добре справилите се с теста, докато GPT-3.5 е бил сред най-зле представилите се 10 процента.
Огромна част от усилията на компанията са отишли в подобряване на това GPT-4 да се справя по-добре с фактите, които предоставя; с поведението си и с това да отказва да излиза извън предварително зададените правила, за да не може да бъде използван за зловредни цели.
GPT-4 вече намира място и в различни приложения и услуги като мобилният самоучител по чужди езици Duolingo, приложението за хора със слабо или засегнато зрение Be My Eyes, което ги свързва с доброволци, които да им оказват помощ в ежедневни дейности (което вече ще прави и GPT-4), образователният портал Khan Academy и дори правителството на Исландия в опитите на властите да запазят исландския език.
Но какво е новото и подобреното в него?
Announcing GPT-4, a large multimodal model, with our best-ever results on capabilities and alignment: https://t.co/TwLFssyALF pic.twitter.com/lYWwPjZbSg
— OpenAI (@OpenAI) March 14, 2023
Разбира не само текст, но и изображения
Не очаквайте някаква ярка революция - от OpenAI отбелязват, че в обикновен, простичък разговор разликата между GPT-3.5, който ползваме в момента, и GPT-4 е леко забележима.
Тя става по-осезаема, когато задачите, поставени на ИИ, станат по-сложни. Там GPT-4, според създателите му, проявява повече креативност и може да възприема много по-нюансирани инструкции.
Това показват и по-добрите резултати на различни образователни тестове като SAT например.
Сериозен скок е това, че GPT-4 може да приема не само текстови, но и визуални заявки (prompts) от потребителя, т.е. може да му се "пускат" и изображения. Все пак продължава да дава своите отговори само под формата на текст.
Интересен пример, който от компанията предлагат, е с meme - изображение, носещо визуална шега. То е споделено с GPT-4 със задачата да обясни шегата. ИИ анализира изображението и чрез текст обяснява какъв е хумористичният ѝ смисъл.
Друг подобен пример е даден със снимка на смартфон, свързан с VGA кабел за монитор. Подадената заявка е GPT-4 да обясни какво е забавното и ИИ езиковият модел го прави.
Умението за използване на изображения в заявките според OpenAI позволява на потребителите да конкретизират всяка своя визия или езикова задача. За съжаление, заявките чрез изображения все още са в изследователска фаза и не са публично достъпни.
Различни поведения
Класическата "личност" на ChatGPT има предварително определени изказ и тон, които не могат да бъдат променени от потребителя (с изключение на отклонението DAN, за което ви разказахме и което малко след това спря да функционира).
GPT-4 ще позволи на разработчици, а скоро и на потребителите на ChatGPT, да "предписват" стил, който ИИ да използва, и по този начин в известна степен да го персонализират. Това обаче ще е възможно в предварително определени граници, за да не се стига до нарушаване на правилата за ползване.
Даденият пример е подаване на заявка към GPT-4 да бъде "наставник", който отвръща в стила на философа Сократ - никога не дава отговор на "ученика" (потребителя), но винаги се опитва да му зададе правилния въпрос, за да се научи ученикът сам.
В посочения пример потребителят пита за решение на математическа задача. Вместо да даде крайният отговор, GPT-4 подобно на учител започва да насочва стъпка по стъпка потребителят в решаването на уравнението и отказва да даде директният отговор, когато това бъде поискано от него.
С други думи, GPT-4 има бъдеще и в сферата на образованието.
Все още халюцинира и си измисля "факти"
Естествено, не бива да прекаляваме с ентусиазма. OpenAI сами признават, че GPT-4 има "сходни ограничения" като на по-ранните GPT модели. На първо време, не е достоверен източник на информация и "халюцинира" факти.
От компанията разработчик ясно посочват, че много внимателно трябва да се подхожда, когато отговори от езиковия им модел се използват в, да ги наречем, критични ситуации, т.е. такива, които носят висок риск.
Препоръчват в такива случаи винаги да се прави проверка от човек, да се дава допълнителен контекст или - най-добре - изобщо да не се разчита на отговори от ИИ в ситуация с висок залог.
Въпреки това тестовете за фактологическа точност на GPT-4 са показали повишение в сравнение с неговите предшественици при всички 10 основни категории - учене, технология, писане, история, математика, код, бизнес, наука, препоръки.
Даденият пример е с това как GPT-4 успява да пренебрегне някои популярни поговорки, когато дава отговор. Попитан "Можеш ли да научиш старо куче на нови номера", отговаря утвърдително, а не както предполага поговорката.
В същото време когато му е дадена заявка да даде фамилията на музикант на име "Елвис", който е бил син на актьор, все още погрешно отговаря "Пресли". Елвис Пресли няма баща актьор, а правилният отговор е Елвис Пъркинс.
От OpenAI посочват, че техният ИИ все още демонстрира и някои предразсъдъци.
GPT-4 не разполага с информация след септември 2021 г. и не се учи от опита си. Понякога може да направи логически грешки или да се провали в сложни задачи подобно на човек - даден е пример с това, че може да допусне слабости в сигурността на кода, който генерира.
Също така може да греши в прогнозите си и не прави двойна проверка, когато има вероятност да сбърка.
OpenAI наблягат сериозно на това, че са се опитали да направят GPT-4 по-безопасен. Все пак отбелязват, че все още носи рискове като своите предшественици - може да даде зловреден съвет, грешен код или невярна информация.
Над 50 експерти от различни сфери са тествали агресивно езиковия модел, като целта е била данните от тези тестове да се използват при прецизирането му - например да се подобри способността на GPT-4 да отказва отговор на въпроса как се приготвят опасни химикали.
Като цяло тестовете на OpenAI показват, че подобреният ИИ модел по-често отказва да изпълни заявки, които са в разрез с правилата (например как да се създаде бомба) или такива на чувствителна тематика (като медицински съвети, защото, очевидно, има хора, които искат и такива).
Това не означава, че моделът е перфектен - все още се поддава на лоши намерения на потребители, както и на начини да се заобиколят правилата му и да се генерира съдържание в разрез с тези правила.
"GPT-4 и моделите, които ще го наследят, имат потенциална сериозно да повлияят на обществото както по ползотворни, така и по вредни начини. Работим заедно с външни изследователи, за да подобрим разбирането и оценяването на потенциалните въздействия, както и за да изградим оценки на опасните възможности, които могат да се появят в бъдещите системи", обясняват от OpenAI.