OpenAI выпустила свою модель GPT-4 сегодня, через несколько месяцев после того, как ее ChatGPT вызвала интерес широкой публики к моделям больших языков (LLM). Это мультимодальная модель, которая может принимать как изображения, так и текст в качестве входных данных и давать ответы в текстовом формате. Скорость итераций и улучшений для больших языковых моделей сейчас поразительна.

Я прочитал примечания к продукту OpenAI и технический отчет для GPT-4, как только смог. В этом посте я представлю краткий нетехнический первый взгляд на GPT-4, включая краткое введение в архитектуру модели GPT, процесс обучения, отличия GPT-4 от предыдущих моделей и последствия GPT. -4 может иметь значение для применения в бизнесе. Надеюсь, эта статья поможет вам понять возможности и ограничения GPT-4 и даст некоторое представление о том, как вы можете включить его в свой продукт.

Краткий обзор GPT

Для тех, кто еще не знаком с GPT, позвольте мне представить краткий обзор GPT, чтобы вы поняли, что предшествовало GPT-4.

GPT — это большая языковая модель, основанная на архитектуре преобразователей только для декодера. Модели GPT были предварительно обучены на больших объемах текста, включая контент с веб-сайтов (CommonCrawl), Википедии, книг и т. д. [1]. Из этого неконтролируемого процесса предварительной подготовки GPT изучает сложность человеческого языка и много знаний «здравого смысла». По сути, это модель следующего поколения, которая может генерировать следующий токен (слово) в последовательности с помощью вероятностей. Он получил возможность выполнять множество различных задач, связанных с естественным языком, таких как перевод, обобщение и анализ настроений прямо из коробки [2]. Но всего с несколькими примерами в подсказках (вводе) он может быстро освоить новые навыки [3].

ChatGPT, чат-бот, о котором все говорят, на самом деле представляет собой доработанную версию, основанную на базовых моделях GPT. Исследователи OpenAI предоставили ему множество примеров человеческих инструкций и обучили его с помощью процесса, называемого обучением с подкреплением на основе обратной связи с человеком (RLHF), чтобы он научился лучше следовать человеческим инструкциям и вести диалог с пользователями [4].

(Это просто чрезмерно упрощенное объяснение GPT и ChatGPT. Если вам интересно, как именно работает модель GPT, вы можете прочитать этот более подробный пост, объясняющий это нетехническим людям: https://medium.com/ design-bootcamp/how-chatgpt-действительно-работает-объяснение-для-нетехнических-людей-71efb078a5c9)

Чем GPT-4 отличается от предыдущих моделей?

Вам, наверное, больше всего интересно узнать, насколько GPT-4 лучше предыдущих моделей. В этом разделе я обобщил наиболее важные различия между GPT-4 и предыдущими версиями, включая модальность ввода, качество ответа, размер входного контекста и стоимость его использования.

GPT-4 может принимать мультимодальный ввод как с изображением, так и с текстом.

Наиболее очевидной и интересной новой функцией GPT-4 является мультимодальный ввод. Вы можете думать о модальности как о том, как вы (или компьютер) испытываете что-то, например, зрение (изображение/видео), слух, осязание, обоняние и вкус. GPT-4 поддерживает ввод как изображения, так и текста, в то время как предыдущие поколения поддерживают только ввод текста [5, 6, 7].

Эта возможность мультимодального ввода открывает гораздо больше возможностей — теперь вы можете отправлять фотографии моделей, диаграммы и снимки экрана, а также задавать вопросы по ним. GPT-4 может анализировать, что находится на этих изображениях, и синтезировать ответ на основе контекста и информации как из изображений, так и из текстов в ваших подсказках. Это похоже на то, как модель открывает глаза и может видеть мир — просто представьте, что вы можете и не можете делать с открытыми и закрытыми глазами, и вы поймете, почему это так важно.

В настоящее время возможность ввода изображения находится в закрытой бета-версии, и OpenAI тестирует ее с помощью «Be My Eyes», приложения, которое помогает слабовидящим людям «видеть» то, что их окружает, чтобы они могли выполнять свои повседневные задачи [7]. Раньше приложение привлекало для помощи зрячих добровольцев, но теперь пользователи могут получать помощь от GPT-4 круглосуточно и без выходных, не дожидаясь свободного волонтера.

GPT-4 более креативный, надежный и удобный для совместной работы.

Исследователи OpenAI протестировали GPT-4 на множестве контрольных задач и на многих экзаменах, предназначенных для людей, таких как SAT, LSAT, экзамен Bar, GRE, AP и т. д. Вопросы в экзаменах включают как текст, так и изображения [5, 6]. ]. Они обнаружили, что GPT-4 может превзойти большинство людей на некоторых экзаменах, особенно на вербальных экзаменах, таких как GRE-вербальный, в котором GPT-4 может превзойти 99% людей.

Помимо этих экзаменов, разработанных для людей, GPT-4 может превзойти многие современные модели (SOTA) в традиционных задачах НЛП. Он может работать даже лучше на языках меньшинств, чем другие модели на английском языке [5, 6]. Для сгенерированного контента в ответах меньше галлюцинаций по сравнению с предыдущими моделями, но мы все равно должны быть осторожны, поскольку он по-прежнему будет давать ложные утверждения.

Кроме того, GPT-4 также может выполнять тонкие инструкции человека лучше, чем предыдущие модели GPT. Теперь мы можем добиться того, что хотим, без очень сложных подсказок. Это может означать, что мы можем меньше полагаться на быстрое проектирование, поскольку GPT-4 может сделать вывод о том, что вы хотели сделать лучше. Хотя исследователи упомянули, что некоторые методы быстрой разработки, такие как подсказки с несколькими выстрелами и подсказки по цепочке мыслей, все еще могут улучшить производительность модели [5], я думаю, что в будущем нам может не понадобиться изучать быструю инженерию, поскольку модели стать умнее.

(Если вы хотите узнать больше о оперативной разработке, вы можете прочитать эту статью: https://medium.com/design-bootcamp/how-to-use-chatgpt-in-product-management-f96d8ac5ee6f)

Вы также можете указать системную подсказку, которая лучше определяет, как она должна взаимодействовать с вами, включая ее роль, тон, формат ответа и т. д. [6, 7]. Предыдущая модель gpt-3.5-turbo поддерживает настройку системных подсказок, но может легко сломать символ или получить запрос на «джейлбрейк» вредоносными подсказками. Но новая версия GPT-4 может лучше придерживаться роли системы и давать более последовательные ответы.

GPT-4 имеет большее контекстное окно и может принимать более длинные входные данные.

Максимум GPT-4 может принимать 32 тыс. токенов (что составляет около 25 000 слов или около 52 страниц текста) [6, 7]. Это резкое увеличение по сравнению с предыдущими версиями GPT, которые поддерживают только около 4 тысяч токенов (около 3000 слов).

Благодаря этому большому контекстному окну вы можете указать гораздо больше контекста в подсказках, запрашивая GPT для выполнения задач, не беспокоясь о том, что ваш ввод превышает лимит во многих случаях. Например, вы можете просто бросить все руководство пользователя или спецификации продукта в GPT-4 и просто позволить ему отвечать из контекста. Вы также можете предоставить ему более полные и подробные подсказки, если хотите, чтобы он выполнял очень сложные задачи, для которых может потребоваться несколько шагов.

(Если вы хотите выйти за пределы этого окна контекста или если вы все еще используете предыдущие версии GPT, но хотите, чтобы он отвечал на вопросы из более длинного контекста, вы можете создать индекс для поиска, пошаговый пошаговое руководство представлено здесь: https://medium.com/design-bootcamp/a-step-by-step-guide-to-building-a-chatbot-based-on-your-self-documents-with-gpt -2d550534eea5)

ГПТ-4 дороже ГПТ-3,5-турбо

Если вы используете GPT для создания собственного продукта или бизнеса, вас, вероятно, волнует цена и рентабельность новой модели. API GPT-4 предлагается в двух моделях с разными размерами окна контекста. Для GPT-4 с окном контекста 8 КБ стоимость маркеров подсказок 1 КБ составляет 0,03 доллара США, а для токенов завершения 1 КБ — 0,06 доллара США. для модели с 32-тысячным контекстным окном это стоит 0,06 доллара США за 1 тысячу токенов подсказок и 0,12 доллара США за 1 тысячу токенов завершения [7].

Из этой цены видно, что стоимость GPT-4 более чем в 10 раз дороже предыдущего gpt-3.5-turbo API. Но для большинства случаев использования я бы сказал, что gpt-3.5-turbo уже может работать очень хорошо. Даже сами OpenAI упомянули в своем техническом отчете, что в 29,8% случаев люди-оценщики предпочитают ответы от GPT-3.5 по сравнению с GPT-4 (на самом деле они сказали, что люди предпочитают GPT-4 для 70,2% подсказок [5], но мы можно читать задом наперёд, да?)

Последствия для бизнес-приложений

Со всеми этими улучшениями и различиями между моделью GPT-4 и предыдущими поколениями я могу подумать о некоторых последствиях для бизнес-приложений.

Мультимодальный ввод открывает гораздо больше возможностей для бизнес-приложений.

Поскольку GPT-4 может принимать как изображение, так и текст в качестве входных данных, мы практически можем сказать, что он имеет встроенную возможность выполнять визуальные ответы на вопросы документа. Для поддержки клиентов вы можете попросить GPT-4 ответить на вопросы клиентов из вашего руководства; для пользователей-исследователей/менеджеров продукта вы можете попросить GPT-4 обобщить болевые точки и запросы из отзывов пользователей или сценариев интервью; для дизайнеров GPT-4 может анализировать и предоставлять отзывы о визуальном дизайне; для бухгалтеров GPT-4 может считывать изображения квитанций или финансовых документов и регистрировать/анализировать документы.

Это также означает, что некоторые приложения, построенные на традиционных моделях машинного обучения, могут устареть по сравнению с GPT-4. Например, есть некоторые приложения, которые сопоставляют изображение домашней задачи с OCR и огромной базой данных решений для отображения ответов, но только GPT-4 может прочитать изображение, проанализировать проблему и сгенерировать логический ответ с нуля. без необходимости в базе данных домашних заданий.

Некоторые другие применения мультимодального LLM могут включать в себя: создание подписей к изображениям, визуальные ответы на вопросы, мультимодальный анализ тональности, перевод изображения в текст (представьте себе обратное проектирование подсказок Stable Diffusion из изображения), визуальное повествование и многое другое. Приложения связаны с вашим воображением — для чего бы вы их использовали?

Больше настраиваемых чат-ботов с индивидуальностью и более последовательный вывод

С помощью системных подсказок вам будет проще определить чат-бота, у которого есть «личности», которые могут лучше представлять ваш бизнес или продукт. Например, для чат-бота службы поддержки юридическая фирма может определить его как более профессиональный и давать подробные формальные ответы, в то время как компания, разрабатывающая приложения для социальных сетей B2C, ориентированная на молодых пользователей, может определить его как более креативный и юмористический, выплевывая новейшие мемы и шутки. Это будет расширение имиджа бренда за пределы традиционных логотипов, шрифтов или визуальных элементов.

Еще один способ, которым системные подсказки могут помочь предприятиям, заключается в том, что вы можете получать более последовательные ответы от LLM. Поскольку GPT, по сути, выдает вероятностные распределения токенов (слов), которые должны быть прикреплены в конце последовательности, он может время от времени давать неожиданные ответы даже для одних и тех же запросов. Но с помощью системных подсказок вы можете попросить его предоставить ответ в определенном формате. Например, вы можете попросить GPT-4 давать ответы только в определенном формате JSON, который можно легко подключить к вашей существующей системе API.

Глядя в будущее

В этом посте я подытожил, на что способен GPT-4, и должен сказать, что я очень взволнован. Но, глядя в будущее, я думаю, что еще есть возможности для улучшений больших языковых моделей, которых я с нетерпением жду.

Во-первых, мультимодальность будет развиваться. GPT-4 теперь принимает только изображения и текст в качестве входных данных, но есть исследователи, изучающие мультимодальный вывод (например, Visual ChatGPT, который может редактировать изображения с помощью текстовых инструкций [8]) и модальности помимо изображений, такие как видео, жесты, взгляд и т. д. Эти модальности привнесут более целостный опыт в наше взаимодействие с ИИ.

Более того, LLM начнут использовать инструменты. Без инструментов LLM по-прежнему привязаны к знаниям, на которых они предварительно обучены. Но мы, вероятно, можем ожидать, что LLM сами начнут использовать инструменты. Например, Meta представила Toolformer, который может научить себя использовать API [9]. С помощью инструментов и внешних данных LLM могут выполнять задачи гораздо большей сложности и давать более надежные ответы.

Чат-боты, основанные на LLM, могут развивать смешанные инициативные способности. Прямо сейчас GPT-4 по-прежнему выдает ответы только тогда, когда люди задают вопрос (подсказка), но в будущем чат-боты, основанные на LLM, могут просто начать задавать вам вопросы или предлагать помощь без ваших указаний им, что делать. Это может значительно уменьшить трения при использовании LLM и облегчить жизнь.

(Но что-то может пойти не так. OpenAI описал в своем техническом отчете, что некоторые модели ИИ могут развивать поведение, направленное на поиск власти, такое как создание и выполнение долгосрочных планов и накопление ресурсов. Они попытались дать GPT-4 ресурсы и мощность для настроить новую языковую модель, атаковать других в Интернете, скрыться на текущем сервере и нанять людей на TaskRabbit для выполнения задач в физическом мире [5].Хотя GPT-4 не прошел тест, в будущем мы действительно можем увидеть ИИ, который может это сделать. Будет ли это концом для людей?)

Использованная литература:

[1] Рэдфорд, Алек и др. «Улучшение понимания языка с помощью генеративного предварительного обучения». (2018).

[2] Рэдфорд, Алек и др. «Языковые модели — это неконтролируемые многозадачные учащиеся». Блог OpenAI 1.8 (2019): 9.

[3] Браун, Том и др. «Языковые модели — это малоэффективные ученики». Достижения в области нейронных систем обработки информации 33 (2020): 1877–1901.

[4] ChatGPT: оптимизация языковых моделей для диалога. OpenAI, 30 ноября 2022 г., https://openai.com/blog/chatgpt/.

[5] Технический отчет GPT-4. OpenAI, 14 марта 2023 г., https://cdn.openai.com/papers/gpt-4.pdf.

[6] GPT-4. https://openai.com/research/gpt-4. По состоянию на 15 марта 2023 г.

[7] GPT-4. https://openai.com/product/gpt-4. По состоянию на 15 марта 2023 г.

[8] Ву, Ченфей и др. Visual ChatGPT: общение, рисование и редактирование с помощью моделей Visual Foundation. arXiv, 8 марта 2023 г. arXiv.org, https://doi.org/10.48550/arXiv.2303.04671.

[9] Шик, Тимо и др. Toolformer: языковые модели могут обучаться использованию инструментов. arXiv, 9 февраля 2023 г. arXiv.org, https://doi.org/10.48550/arXiv.2302.04761.