Правительства стран-участниц саммита G7 в Хиросиме (19 – 21 мая 2023 г.)особое внимание обратили на популярность генеративных инструментов искусственного интеллекта, таких как ChatGPT — чат-бот, разработанный OpenAIпри поддержке Microsoft Corp, который стал самым быстрорастущим приложением в истории с момента его запуска в ноябре 2022 года.
«Мы планируем созвать будущие обсуждения G7 по генеративному ИИ, которые могут включать такие темы, как управление, способы защиты прав интеллектуальной собственности, включая авторские права, содействие прозрачности, борьба с дезинформацией», включая манипулирование информацией иностранными силами, говорится в заявлении.
Италия, член G7, отключила ChatGPT в апреле 2023 года, чтобы расследовать потенциальное нарушение правил обработки персональных данных. В ответ другие европейские регуляторы начали аналогичные расследования.
Страны Большой семерки (G7) договорились продвигать «ответственное» использование инструментов искусственного интеллекта, таких как ChatGPT. Как сообщает South China Morning Post, страны взяли на себя это, стремясь использовать быстро развивающиеся технологии искусственного интеллекта, которые, по их мнению, очень полезны. Об этом заявили министры технологий Японии, США и европейских стран.
Вопросы ИИ и, конкретно, ChatGPT, были в центре внимания 69-й Бильдербергской конференции, проходившей в Лиссабоне, в великолепном дворце Пестана (18 – 21 мая 2023 г., в те же дни, что и саммит в Хиросиме).Как пишет The Guardian (21.05.2023) конференция была похожа на военный совет (во главе с Генсекретарем НАТО).
«Накануне столетия Киссинджера бывший Госсекретарь США и давний главарь Бильдербергского клуба был рад увидеть много сотрудников американской разведки на встрече в этом году», пишет The Guardian.
Байден направил своего Директора национальной разведки Аврил Хейнс и Старшего директора по стратегическому планированию в совете национальной безопасности Томаса Райта, плюс теневую группу стратегов и шпионов Белого дома. Среди них Джен Истерли – директор Агентства по кибербезопасности и инфраструктурной безопасности, которая недавно заявила, что «западный мир сталкивается с двумя “определяющими эпоху угрозами и вызовами” – искусственным интеллектом и Китаем, оба из которых фигурируют в повестке дня этого года».
В мышлении члена правления Бильдербергского клуба Эрика Шмидта двойные угрозы Китая и технологий переплетены. Всего несколько дней назад бывший глава Google заявил на слушаниях в Конгрессе, что «искусственный интеллект “находится в самом центре” конкуренции между Китаем и США». И что «Китай сейчас выделяет огромные ресурсы, чтобы опередить США в технологиях, в частности ИИ».
Шмидт признает экзистенциальные риски ИИ, даже предупреждая, что «все может быть хуже, чем говорят люди», но отвергает призыв многих экспертов по ИИ, включая Илона Маска, к шестимесячной паузе в разработке ИИ, потому что любая задержка «просто пойдет на пользу Китаю». Казалось, что здесь действует мрачно-ироничная логика: мы должны продвигаться вперед в разработке чего-то, что может нас уничтожить, прежде чем Китай превратит это во что-то, что может нас уничтожить.
Другим светилом Силиконовой долины в Лиссабоне был Сэм Альтман, генеральный директор OpenAI.
Прямо перед заседанием Клуба, Альтман поделился своими опасениями по поводу ИИ на слушаниях в Сенате США и предупредил о растущей способности ИИ обманывать голосующую публику правдоподобными фальшивками – особая тревога для Альтмана, «учитывая, что в следующем году нам предстоят выборы, и эти модели становятся все лучше».
Интересно, что вопрос о «лидерстве США» включен в повестку дня конференции здесь, в Бильдерберге, хотя с приближающимся выпуском ChatGPT-5следующего поколения OpenAI президентские дебаты 2024 года вполне могут выиграть остроумный и харизматичный чат-бот.
Альтман выступает за «регулирующее вмешательство правительств», которое, по его словам, «будет иметь решающее значение для снижения рисков, связанных со все более мощными моделями». Но не все в Бильдерберге с этим согласны.
Шмидт говорил, что ИИ нужны «соответствующие ограждения», но перед заседанием Клуба вызвал переполох, предположив, довольно назойливо, что компании, занимающиеся ИИ, должны быть саморегулируемыми, потому что «человек, не относящийся к отрасли, никак не может понять, что возможно».
Более двух десятков политиков в Бильдербергском клубе в 2023 году могут не согласиться с этим аргументом. Но мы никогда не узнаем, потому что вся конференция проходила за закрытыми дверями, без контроля прессы.
Невероятно, но Киссинджер время от времени посещает конференции Бильдербергского клуба с 1957 года. Его «озабоченность секретностью и личной дипломатией», как выразился в 1975 году один известный государственный деятель, идеально соответствует яростному желанию Бильдерберга сохранить ежегодные переговоры в тайне.
Но это желание иногда переходит в паранойю. В день открытия заседания Клуба Guardian встретила европейского главу Бильдербергского клуба Виктора Хальберштадта, выходящего из аптеки в Лиссабоне, сжимая в руке упаковку защитного крема для кожи. Хальберштадт не просто проигнорировал вежливое обращение СМИ, он категорически отрицал, что он Виктор Хальберштадт, а затем запрыгнул в Mercedes, который увез его через кордон безопасности.
Такого рода маскировка времен холодной войны кажется странным анахронизмом для конференции, на которой проходит ультрасовременный разговор об искусственном интеллекте с руководителями DeepMind и Microsoft. Тем не менее, все увертки, похоже, срабатывают. К началу 2023 года хайп вокруг искусственного интеллекта, кажется, достиг своего пика, стало казаться, что искусственный интеллект может все. “Преувеличения относительно потенциала ИИ в значительной степени проистекают из неправильного понимания того, что ИИ может на самом деле делать”, — сказала Кей Ферт-Баттерфилд, глава отдела искусственного интеллекта и машинного обучения на Всемирном экономическом форуме.
Cказать, что ChatGPT стал притчей во языцех в каждом уголке мира, для каждого человека, будет значительным преуменьшением. Похоже, что его появление потрясло основу многих сфер деятельности. Его базовая функциональность «спроси меня о чем угодно» и «у меня может быть хороший ответ» стала более чем востребованной во многих областях. Одна из самых поразительных особенностей этих платформ генеративного ИИ заключается в том, что они получили массовое распространение за короткий период времени: ChatGPT, запущенный 30 ноября 2022 года, был использован одним миллионом пользователей в течение первых пяти дней после его запуска. К 12 февраля 2023 года на тему этой модели было уже более 250 научных статей, большинство из которых опубликовано в виде препринтов на таких порталах, как Academia.edu, ResearchGate и даже Arxiv, и она нашла свое место в именитых журналах, таких как The Economist и Forbes.
ChatGPT: «где собака зарыта»?
Генеративная языковая модель ChatGPT является примером расширяющегося набора инструментов искусственного интеллекта, которые вскоре могут преобразовать целые отрасли: от производства до здравоохранения, от финансов до образования. Инвестиции в эту область растут. Многие эксперты отрасли выражают безграничный энтузиазм на этот счет. Согласно анализу PricewaterhouseCoopers, к 2030 году искусственный интеллект внесет в мировую экономику ошеломляющие 15,7 триллиона долларов.
Генеративный ИИ — это область искусственного интеллекта, которая концентрируется на создании новой и оригинальной информации с помощью машинного обучения в огромных базах данных. Существует несколько потенциальных приложений для генеративного ИИ, таких как создание новых изображений, текста и музыки, а также компьютерное зрение, обработка естественного языка и распознавание речи. Например, генеративные модели можно использовать для создания реалистичных изображений для видеоигр, симуляций и виртуальной реальности, а также новых химических соединений для медицинских исследований. В отличие от традиционных приложений и веб-сайтов, которые обычно возвращают одинаковую информацию по одному и тому же запросу, генеративные системы ИИ могут каждый раз выдавать совершенно разные результаты.
Базирующаяся в Сан-Франциско компания Open AI выпустила несколько версий языковой модели GPT, которая обучается на текстах из интернета и может генерировать осмысленные ответы на вопросы. GPT-3 может создавать связный текст. Наибольшей критике подвергался тот факт, что модель не понимает контекста, а просто пытается предсказывать текст слово за словом. ChatGPT работает на новой версии модели — GPT-3.5. Она лучше справляется с контекстом благодаря тому, что запоминает подробности беседы. В отличие от многих нейросетевых чат-ботов, ChatGPT запоминает детали разговора и может строить ответы, основываясь на информации, которую ему уже сообщил пользователь. Последняя на сегодняшний день версия GPT-4 мощнее GPT-3.5.
С запуском GPT-4 многие люди задались вопросом, в чем разница между ChatGPT на базе GPT-3.5 и GPT-4. В бытовом общении и простых задачах разница между ними может быть едва заметной. Однако разрыв между версиями становится очевидным по достижении определенного порога сложности задачи. GPT-4 на фоне предшественника более точна и креативна. Модель лучше учитывает контекст, гораздо гибче подстраивается под пользователя, когда тот просит нейросеть, например, придерживаться конкретной стилистики ответов.
GPT-4 способен генерировать более длинные ответы. Для этого лимит на сообщение с текстовым запросом увеличили до 25 тысяч слов. Это значит, что GPT-4 можно отправлять целые документы и большие отрывки произведений.
Кроме того, OpenAI заявила, что последняя версия их технологии допускает меньше ошибок, которые они называют «галлюцинациями». Ранее ChatGPT мог запутаться, предлагая бессмысленный ответ на ваш вопрос или даже ложную информацию.
GPT-4 cдает сложные экзамены на уровне отличников. Это как раз результат того, что новая версия лучше справляется с нетривиальными задачами. OpenAI проверил способность модели отвечать на вопросы из программы самооценки медицинских знаний, серии вопросов Американского колледжа врачей, используемых в обучении. GPT4 правильно выбрал правильный ответ (из четырех возможных) в 75% случаев. GPT3 выбрал правильный ответ в 53% случаев.
GPT-4 гораздо лучше работает с русским языком, отвечает более связно на других языках. Кроме того, модель прошла проверку на русском языке на несколько процентов выше, чем GPT-3 — на английском.
Она умеет обрабатывать изображения, хорошо справляется с русским языком, а также «демонстрирует уровень человека» в академических тестах. GPT-4 доступна только по платной подписке.
ChatGPT является генеративным искусственным интеллектом, что означает, что он может создавать новые данные, а не просто анализировать существующие. Эта возможность отличает ChatGPT от более ранних систем машинного обучения. Машинное обучение уже много лет хорошо справляется с распознаванием образов — будь то распознавание кошек и собак или сканирование раковых опухолей. ChatGPT делает еще один шаг вперед. Он не только распознает шаблоны, но и использует их для создания новых данных на основе этих шаблонов, что и делает его генеративным.
Не так давно был представлен автономный агент Auto-GPT — экспериментальное приложение на Python с открытым исходным кодом, которое использует GPT-4 для автономной работы. Простыми словами, Auto-GPT может выполнять задачи без вмешательства человека и сам для себя писать промпты (Промпт (от англ. prompt – «побуждать») – это запрос, подсказка, или инструкция – те вводные данные, которые вы набираете, когда общаетесь с нейросетью. От правильного промпта, то есть корректного запроса, зависит то, насколько релевантной будет информация на выходе. – Е.Л., В.О.). Пользователь просто указывает Auto-GPT конечную цель, а приложение самостоятельно подготовит все промпты, необходимые для выполнения задания. Основное отличие состоит в том, что Auto-GPT может работать автономно без участия человека, в то время как ChatGPT требует многочисленных подробных подсказок для выполнения задач. Auto-GPT построен на платформе ChatGPT, но имеет возможность принимать решения самостоятельно, чего нет в ChatGPT.
Бесспорно, отличительной особенностью ChatGPT является именно его способность генерировать текстовый контент. Чат-бот создавали на суперкомпьютере Azure AI. Его обучали с помощью массива текстов из интернета, используя систему обучения с подкреплением на основе обратной связи с человеком Reinforcement Learning from Human Feedback (RLHF). Суть подхода — в использовании модели вознаграждения (Reward Model, также называемой моделью предпочтений), откалиброванной в соответствии с экспертной оценкой. По существу, нейросеть переобучали, используя ее собственные результаты и экспертные мнения, чтобы сделать ответы более точными и корректными. Как описывает на своем сайте OpenAI, люди активно участвовали в обучении ChatGPT. После первоначальной разработки набора данных ответы ChatGPT были доработаны специалистами по маркировке. Этот процесс начинался с того, что один человек задавал вопрос, а другой человек выбирал то, что, по общему мнению, было бы хорошим ответом. Эта информация фиксировалась, и начинался новый этап тонкой настройки. На этом этапе ИИ давал несколько разных ответов на один и тот же вопрос, а специалисты по маркировке ранжировали ответы ИИ от лучших к худшим. Эта обратная связь и была использована в работе над моделью.
Во время обучения входными данными для сети являлись предложения и абзацы, а желаемым или целевым выходом для сети — последующие фразы и предложения. ChatGPT был обучен с помощью нейронной сети, предназначенной для обработки естественного языка, на наборе данных из более чем 45 терабайт текста из Интернета, который в общей сложности включал миллиарды слов текста. Таким образом, ChatGPT обучен предсказывать блоки текста, которые будут логически и грамматически следовать за входными фразами и предложениями. Если эти выходные фразы затем передаются в качестве входных данных, сеть может предсказывать дальнейший текст.
Благодаря чудесам машинного обучения чат-бот приобрел удивительно обширный набор навыков. В частности, с помощью нейросети можно создавать базовый программный код, делать элементарный финансовый анализ, сочинять стихи, писать сонеты, эссе и рефераты практически на любую тему, генерировать резюме статей или научных исследований на естественном языке, давать ответы практически на любой вопрос, проходить тесты, манипулировать данными, объяснять, обучать и многое другое, в общем, оперировать текстами, имитируя смыслы. Что необычно для чат-бота, ChatGPT может обучаться на ходу и, таким образом, поддерживать какое-то время увлекательные разговоры.
Как сам ChatGPT указывает во время разговоров, его применение в цифровых гуманитарных науках, в первую очередь, будет способствовать сокращению рабочего времени, затрачиваемого на сбор и очистку исходного материала, каталогизацию данных или указание источника. Таким образом, добавив программное решение для расшифровки рукописного материала, а также для перевода его в печатные источники, и в то же время имея возможность перевести его (особенно в случае перевода со старых языков на современные) материал станет более доступным.
Возможность сравнивать огромное количество информации также приведет к изменению способа исследовательской работы. А именно, любой будущий исследователь, несмотря на то, что он должен знать все те навыки, которые требуются сегодня, будет лишь контролировать процесс поиска и анализа информации.
Таким образом, помимо прочего GhatGPT также способен на анализ текста, перевод, визуализацию данных, поиск информации, обработку естественного языка, машинное обучение, тематическое моделирование, распознавание именованных объектов, языковое моделирование, классификацию и кластеризацияю текста, анализ социальных сетей, аудио- и видеоанализ, создание цифровых архивов, цифровых библиотек, цифровых публикаций, веб-разработку, разработку мобильных приложений и т.п.
Да, ChatGPT можно использовать для создания цифровых архивов. Он может помочь в автоматизации процесса ввода данных, категоризации, индексации и поиска архивных материалов. Кроме того, ChatGPT может автоматически генерировать метаданные для цифровых материалов, что облегчает их поиск и доступность. Используя ChatGPT для создания цифровых архивов, музеи и архивы могут расширить доступность своих коллекций и внести свой вклад в их сохранение для будущих поколений.
ChatGPT содержит больше знаний, чем когда-либо знал любой человек. Он может убедительно рассказать о добыче полезных ископаемых в Папуа-Новой Гвинее или о тайваньской фирме по производству полупроводников.
ChatGPT — поразительное достижение. Не так давно разговорный бот такой сложности казался безнадежно недосягаемым. По мере того, как технология совершенствуется и становится более точной, она, вероятно, станет благом для программистов, исследователей, ученых, политиков, журналистов и многих других. Бот может использоваться для упрощения процесса принятия решений. Пожалуй, сложно представить задачу, связанную с текстом, которую ChatGPT не смог бы выполнить, нужно лишь правильно составить запрос. По всей видимости, мы пока еще не осознали, насколько широк круг задач, где возможно его эффективное использование.
ChatGPT: развитие и модификации
Ранее британская компания DeepMind представляла подобную ChatGPT систему искусственного интеллекта «общего назначения» Gato. Ее обучили выполнять 604 разных заданий, в том числе добавлять подписи к изображениям, участвовать в диалогах и играть в игры. Это нейросеть-трансформер по типу GPT-3 от OpenAI. Однако доступ к Gato ограничен.
Интересно, что OpenAI планирует сделать свой инструмент доступным в виде программного интерфейса приложения (или API), что позволит сторонним разработчикам интегрировать его в свои веб-сайты или приложения без необходимости разбираться в базовой технологии. Это означает, что вскоре компании смогут использовать ChatGPT для создания виртуальных помощников, ботов для обслуживания клиентов или маркетинговых инструментов.
OpenAI представляет свою работу как не зависящую от контекста и экспериментальную, без конкретных вариантов использования. Компания утверждает, что опубликовала ChatGPT только для того, чтобы «получить отзывы пользователей и узнать о его сильных и слабых сторонах». Однако, вскоре после того, как ChatGPT стал интернет-сенсацией, компания Microsoft объявила об инвестировании 10 миллиардов долларов США в ChatGPT в январе 2023 года. Очень быстро после этого компания представила первые попытки интегрировать услуги чат-бота в различные приложения компании, в частности, в новую версию поисковой системы Bing. В то же время такие конкуренты, как Alphabet, Amazon и Nvidia, объявили о выпуске собственного разговорного ИИ, таких как Bard, Рalm, Megatron, Titan и Chinchilla за которым, вероятно, последуют и другие.
7 февраля 2023 года компания Microsoft анонсировала обновленный поисковик Bing с интегрированным ChatGPT. В тот же день разработчики открыли доступ к инструменту ограниченному числу пользователей. «Новый Bing» поддерживает 100 языков и работает в двух конфигурациях. Первая показывает традиционную поисковую выдачу и аннотацию искусственного интеллекта в правой части экрана. Второй режим выполнен в виде диалогового окна, где пользователи могут пообщаться с чат-ботом. Также компания обновила основной поисковый движок Bing, подключив к нему ИИ-алгоритмы. Благодаря этому ответы в выдаче станут более точными и релевантными, считают разработчики. Появилась возможность использовать Microsoft Bing AI для выполнения задач без необходимости перемещаться между сайтами. Таким образом, если результат поиска рекомендует ресторан, он может найти удобное для вас время бронирования и помочь вам забронировать его прямо в интерфейсе чата.
Еще один продукт, куда интегрирован GPT-4 — это ИИ-помощник Copilot для офисных приложений Microsoft 365. Компания Microsoft является ключевым партнером OpenAI, инвестировавшим в эту компанию 10 млрд долларов.
Copilot должен помочь пользователям Microsoft 365 подводить итоги встреч, писать эссе и заметки на основе данных из других приложений Microsoft и аналитики из Microsoft Graph. Также в его задачи входит подготовка презентации на основе текстов, отправка приглашений и другие задания. Пока Copilot существует только в тестовой версии.
GPT-4 также встроили в чаты на платформе изучения иностранных языков Duolingo и в сервис электронных платежей Stripe. Модель используется в образовательной организации Khan Academy и в мобильном приложении Be My Eyes, которое помогает плоховидящим посредством видеозвонков. Функция «Виртуальный волонтер», которую планируют интегрировать в Be My Eyes, будет содержать генератор голосового описания изображений.
Google LaMDA (языковая модель для диалоговых приложений) представляет собой набор моделей разговорного языка. Первое поколение было представлено в 2021 году. LaMDA привлекла большое внимание в июне 2022 года после того, как сотрудник Google Блейк Лемуан заявил, что чат-бот стал разумным. LaMDA основана на Transformer, архитектуре нейронной сети, разработанной Google Research и с открытым исходным кодом в 2017 году. Эта архитектура создает модель, которую можно научить читать много слов, обращать внимание на то, как эти слова связаны, а затем предсказывать, какие слова, по ее мнению, будут следующими.
После того, как Microsoft заявила, что намерена внедрить ИИ во все свои продукты, в феврале 2023 года, Google представил Bard, диалогового чат-бота с искусственным интеллектом на базе LaMDA. Bard AI — это облачная платформа для диалогового ИИ, которая позволяет организациям создавать и развертывать чат-ботов, способных общаться с потребителями через различные каналы, такие как веб-сайты, приложения для обмена сообщениями и голосовые помощники. Платформа удобна для пользователя, позволяет компаниям легко разрабатывать и настраивать чат-ботов без программирования или технических знаний. Bard AI управляется мощными алгоритмами машинного обучения и технологиями обработки естественного языка (NLP), которые позволяют чат-ботам понимать запросы клиентов и отвечать на них осмысленно и увлекательно. То есть клиенты могут общаться с чат-ботами на естественном человеческом языке, что облегчает им поиск информации и выполнение действий.
Компания Anthropic, занимающаяся искусственным интеллектом, соучредителем которой являются бывшие сотрудники OpenAI, начала тестировать Claude — нового помощника ИИ. Хотя этот инструмент делает многое из того, что может ChatGPT, Anthropic говорит, что его первые клиенты сообщают, что инструмент «с меньшей вероятностью будет производить вредные результаты» и с ним «легче общаться».
Доступный через интерфейс чата и API, Claude способен выполнять широкий спектр задач разговорной речи и обработки текста, сохраняя при этом высокую степень надежности и предсказуемости. Чат-бот компании, аналогичный ChatGPT, может предоставлять сводки, отвечать на вопросы, помогать в написании и генерировать код. Можно также настроить тон, личность и поведение чат-бота.
Как и OpenAI, Anthropic также имеет большую техническую поддержку: в феврале 2023 года Google инвестировала в Anthropic 300 миллионов долларов.
Wit.ai — одна из ведущих, достаточно давно существующая, платформа для ботов на рынке с мощными возможностями NLP. Ее NLP-движок можно использовать для создания диалоговых приложений и устройств, с которыми можно взаимодействовать посредством речи или текста. Она предоставляет простой в использовании интерфейс и быстрообучаемые API-интерфейсы для анализа человеческого общения и преобразования сложных сообщений в структурированные данные. Движок также помогает предсказывать будущие события на основе прошлых данных. Wit.ai имеет хорошие возможности благодаря поддержке Facebook для инноваций в области распознавания речи и голосовых интерфейсов для разработчиков. Некоторые приложения используютWit.ai. Например, существует чат-бот для системы бронирования с помощью Wit.ai.
Китайский технологический гигант Tencent создал новую команду для разработки продукта, аналогичного ChatGPT . Ожидается, что инструмент искусственного интеллекта будет называться HunyuanAide и будет построен на большой языковой модели Hunyuan.
Китайская iFlytek, специализирующаяся на создании технологий распознавания речи, представила модель генеративного искусственного интеллекта. Модель с названием SparkDesk, как отмечается, превосходит ChatGPT в понимании китайского языка и в октябре «будет сопоставимой в понимании английского». Эксперты отметили, что SparkDesk показывает хорошие результаты в выполнении основных функций ИИ-модели – это понимание языка и генерация длинных текстов.
Meta выпустила Open Pretrained Transformer (OPT) в мае 2022 года. Языковая модель OPT содержит 175 миллиардов параметров. Она обучена на нескольких общих наборах данных, включая The Pile (набор данных с 22 подмножествами из более чем 800 ГБ английского текста) и BookCorpus. OPT объединил свои предварительно обученные модели и исходный код для использования/обучения этих моделей. В настоящее время он доступен для исследовательских целей по некоммерческой лицензии.
Amazon публично выпустила AlexaTM 20B, крупномасштабную многоязычную модель в ноябре 2022 года. В ней используется архитектура кодер-декодер. Она обучена сочетанию задач моделирования каузального языка (CLM) и удаления шума. Задачи шумоподавления требуют, чтобы модель нашла недостающие отрезки и воссоздала полную версию входных данных. Задачи CLM обучают режим осмысленному продолжению вводимого текста. AlexaTM 20B фактически является первой крупнейшей многоязычной моделью seq2seq, способной к обучению за несколько шагов. Поддерживает несколько языков.
Microsoft и NVIDIA совместно разработали Megatron-Turing Natural Language Generation (NLG). Этот LLM является одной из самых больших языковых моделей с более чем 530 миллиардами параметров. Она демонстрирует непревзойденную точность в широком наборе задач на естественном языке, таких как прогнозирование завершения, понимание прочитанного, рассуждение на основе здравого смысла, выводы на естественном языке, устранение неоднозначности смысла слов и т. д.
ChatGPT в России
Согласно опросу Rambler&Co, подавляющее большинство россиян хотело бы пользоваться отечественным аналогом ChatGPT. На российском рынке уже появился GigaСhat от Сбера. GigaChat — мультимодальная версия нейросети от Сбера. Она умеет отвечать на вопросы пользователей, основываясь на конкретных цифрах и фактах, поддерживать диалог, создавать тексты, генерировать картинки на основе описаний. Она выгодно отличается от иностранных ИИ тем, что более грамотно общается на русском языке и имеет повышенный уровень безопасности. Более того, GigaChat уникален своей открытостью архитектуры, в то время как мировые разработки ориентированы на Closed AI. Пока что работает в тестовом режиме. Сбер обещает добавить GigaChat в голосовой помощник Салют.
FractalGPT — это разработка компании «Аватар Машина», которая специализируется на нейросетях-трансформерах, обрабатывающих естественный язык. В отличие от ChatGPT, FractalGPT — это не нейросеть-трансформер, а мультиагентная система, которая будет обладать ризонингом (неким подобием логического мышления), целеполаганием и эмоциями. Также FractalGPT сможет решать реально сложные задачи, которые требуют мышления, или рассуждений: математические задачи в нетривиальной постановке (которые не может решить даже GPT-4) и задачи, где требуется синтез ответа. Но ключевое отличие — робастность (нечувствительность к различным отклонениям) и расширяемость, за счет многоагентной архитектуры ядра. За счет этого ядра система способна синтезировать новое знание. Релиз запланирован на конец июня 2023 года.
Российская компания Sistemma тоже создала свой функциональный аналог ChatGPT, который работает на русском языке. Модель SistemmaGPT проходит тестирование и уже доступна для бизнеса. Модель умеет: писать качественные тексты; отвечать на вопросы; составлять программу обучения или резюме; писать код; поддерживать беседу от лица знаменитости.
Летом 2022 года Яндекс выложил в открытый доступ нейросеть YaLM 100B. Она обучалась 65 дней на 1,7 ТБ текстов из интернета, книг и множества других источников с помощью 800 видеокарт A100. В 2023 году Яндекс заявил, что разрабатывает новую нейросеть YaLM 2.0. К концу 2023 года ее интегрируют в сервисы «Поиск», «Алиса», «Почта» и другие.
«Внедрение YaLM 2.0 позволит поиску самому генерировать ответы, используя знание всего оцифрованного мира… Мы думаем, что развитие генеративных текстовых моделей сможет значительно изменить работу поисковых систем и голосовых ассистентов», — сообщил директор по развитию технологий искусственного интеллекта «Яндекса» Александр Крайнов.
ChatGPT: пределы совершенства
Технология ChatGPT, вероятно, сможет потеснить с рынка традиционные поисковики, такие как Google. Пока Google все еще предлагает переходить по ссылкам, ChatGPT делает всю работу за пользователя, еще и успевая перекинуться с ним парой-тройкой фраз. Если поисковой гигант Google выдает список релевантных запросу пользователя ссылок, по которым нужно перейти, то ChatGPT предлагает один единственный и быстрый ответ, без перехода по ссылкам и самостоятельного анализа информации. Это может сделать приложения более простыми в использовании для всех. Вместо того, чтобы требовать специально отформатированных и конкретных запросов, которые часто нужны компьютерам, использование общего языка станет гораздо более эффективным.
Потенциал ChatGPT гораздо шире всех современных поисковых систем, которые зависят от бизнес-моделей компаний. По данным Bloomberg, около 81% выручки Alphabet ($257,6 млрд) в 2021 году пришлось на рекламную выдачу в поисковике. Люди привыкли к поисковым системам, которые могут указать им ответы на их вопросы или предоставить ресурсы для расширения знаний.
ChatGPT и поисковые системы преследуют разные цели. Основная цель поисковой системы — попытаться направить пользователя к точным ресурсам. Основная цель ChatGPT — генерировать разумно звучащие ответы на входные данные с использованием естественного языка. Причем, основная цель ChatGPT не включает точность. Она, конечно, второстепенная, но разработчики декларируют, что будут стремиться к ней.
Генеральный директор Alphabet Сундар Пичаи заявил, что Google намерен добавить в свою поисковую систему возможности искусственного интеллекта для синтеза информации и ответа на сложные запросы. Первоначально эти возможности будут поддерживаться LaMDA, а затем и другими технологиями искусственного интеллекта. Пичаи заявил, что Google начнет предоставлять инструменты веб-разработчикам, производителям и компаниям в 2003 году. Также Google анонсировал новые приложения AI в Docs, Gmail, Sheets и Slides.
Многие пользователи уже опробовали языковую модель. Если задать вопрос самому ChatGPT, жив ли он, он ответит: «Нет, я не живой. Я — языковая модель искусственного интеллекта, у меня нет сознания или чувств. Я просто компьютерная программа, предназначенная для ответа на вопросы и способная генерировать выходные данные на основе шаблонов, на которых я обучался».
Однако, эффективность результатов исследования языковой модели побудила многих людей поверить в то, что модели машинного обучения способны думать как люди. Разумеется, не способны. Это становится ясно при рассмотрении систем машинного обучения, которые по большей части все еще могут очень хорошо выполнять только одну задачу одновременно. Это противоречит здравому смыслу и не соответствует человеческому уровню мышления, который может с легкостью решать задачи в режиме многозадачности. Люди могут брать информацию из одного источника и использовать ее многими различными способами. Машины же могут использовать ее исключительно для решения одной задачи.
Компьютеры никогда не были инструментами разума, способными решать вопросы, волнующие человека; это всего лишь аппараты, которые структурируют человеческий опыт с помощью чрезвычайно мощного метода манипулирования символами. На сегодняшний день GPT и его родственники дают возможность воспользоваться их предложением — использовать компьютеры не для выполнения задач, а для того, чтобы развлекаться с миром, который они создали.
ChatGPT исполнилось шесть месяцев, а он уже начинает выглядеть устаревшим. На ежегодной конференции Google, посвященной новым продуктам и технологиям, компания объявила об изменениях в своем главном продукте искусственного интеллекта: чат-бот Bard, как и GPT-4 от OpenAI, скоро в состоянии будет описывать изображения.
Модели, ориентированные только на язык, такие как оригинальный ChatGPT, теперь уступают место машинам, которые также могут обрабатывать изображения, аудио и даже сенсорные данные от роботов. Новый подход может отражать попытку приблизиться к тому, как ребенок учится, существуя в мире и наблюдая за ним. Это также может помочь компаниям создавать искусственный интеллект, который будет способен выполнять больше задач и, следовательно, быть упакован в большее количество продуктов.
GPT-4 и Bard — не единственные программы с такими расширенными возможностями. Буквально в этом месяце Meta выпустила программу под названием ImageBind, которая обрабатывает текст, изображения, аудио, информацию о глубине, инфракрасном излучении и информацию о движении и местоположении. Недавний PaLM-E от Google был обучен работе, как с языковыми данными, так и с сенсорными данными робота, и компания представила новую, более мощную модель, которая выходит за рамки текста. У Microsoft есть своя модель, которая была обучена на словах и изображениях. Генераторы преобразования текста в изображение, такие как DALL-E 2, обучаются на изображениях с подписями.
Они известны как мультимодальные модели: текст — это одна модальность, изображения – другая. Многие разработчики и исследователи надеются, что они выведут ИИ на новые высоты. Самое грандиозное будущее — это то, в котором ИИ не ограничивается написанием шаблонных эссе; а сможет осуществлять поиск в Интернете без выдумок, анимировать видео, управлять роботом или создавать веб-сайт самостоятельно.
Мультимодальный подход теоретически мог бы решить центральную проблему с языковыми моделями: даже если они могут бегло связывать слова вместе, им трудно связать эти слова с концепциями, идеями, объектами или событиями. “Когда они говорят об автомобильных пробках, у них нет никакого опыта работы с пробками, кроме того, что они связали с этим из других частей языка”, — сказала Мелани Митчелл, исследователь искусственного интеллекта и специалист по когнитивным наукам из Института Санта-Фе, — но если обучающие данные ИИ могут включать видеозаписи пробок, “они могут получить гораздо больше информации”. Изучение большего количества типов данных могло бы помочь моделям ИИ представлять физические среды и взаимодействовать с ними, разработать нечто, приближающееся к здравому смыслу, и даже решить проблемы с фальсификацией. Если модель понимает мир, у нее может быть меньше шансов что-то выдумать о нем.
Стремление к мультимодальным моделям не совсем ново; Google, Facebook и другие внедрили автоматизированные системы подписи к изображениям почти десять лет назад. Но несколько ключевых изменений в исследованиях ИИ за последние несколько лет сделали межведомственные подходы более возможными и многообещающими. В то время как на протяжении десятилетий в таких областях информатики, как обработка естественного языка, компьютерное зрение и робототехника, использовались разные методы, теперь все они используют метод программирования, называемый “глубокое обучение”. В результате их код и подходы стали более похожими, а их модели легче интегрировать друг в друга. Такие интернет-гиганты, как Google и Facebook, обрабатывают все большие наборы данных изображений и видео, и компьютеры становятся достаточно мощными, чтобы обрабатывать их.
Интернет, каким бы непостижимо большим он ни казался, содержит конечный объем текста, на котором можно обучать ИИ. И есть реальный предел тому, насколько большими и громоздкими могут стать эти программы, а также тому, сколько вычислительной мощности они могут использовать. Исследователи начинают выходить за рамки текста, чтобы сделать модели более совместимыми с данными, которые они могут собирать. Действительно, Сэм Альтман, генеральный директор OpenAI сказал, что эра масштабирования текстовых моделей, вероятно, закончилась — всего через несколько месяцев после того, как ChatGPT, по сообщениям, стал самым быстрорастущим потребительским приложением в истории.
Насколько лучше мультимодальный ИИ будет понимать мир, чем ChatGPT, и насколько более свободным будет его язык, если вообще будет, подлежит обсуждению. Хотя многие модели демонстрируют лучшую производительность по сравнению с языковыми программами — особенно в задачах, связанных с изображениями и трехмерными сценариями, такими как описание фотографий и представление результата, — в других областях они не столь выдающиеся. GPT-4 продолжает галлюцинировать, уверенно делая ложные заявления, которые абсурдны, слегка ошибочны или просто отвратительны. PaLM -E от Google на самом деле хуже справлялся с языковыми задачами, чем модель PaLM, ориентированная только на язык, возможно, потому, что добавление сенсорной информации к роботу приводило к потере части языковых данных и способностей. Тем не менее, такие исследования находятся на ранних стадиях и будут продолжаться в ближайшие годы.
Мы по-прежнему далеки от создания чего-либо, что действительно подражало бы тому, как думают люди. Несмотря на то, что такая программа, как ImageBind от Meta, может обрабатывать изображения и звук, люди также учатся, взаимодействуя с другими людьми, обладают долговременной памятью и развиваются на основе опыта и являются продуктом миллионов лет эволюции — и это лишь несколько причин, по которым искусственный интеллект и органический интеллект не совпадают.
И точно так же, как использование большего количества текстовых данных в моделях ИИ не решило давних проблем с предвзятостью и фальсификацией, использование большего количества типов данных в машинах не обязательно приведет к этому. Программа, которая использует не только искаженный текст, но и искаженные изображения, по-прежнему будет выдавать неправильные результаты, только на большем количестве носителей. Непрозрачные инфраструктуры и наборы обучающих данных затрудняют регулирование и аудит программного обеспечения; вероятность нарушений трудовых и авторских прав может только возрасти, поскольку ИИ должен удалять еще больше типов данных.
«Мультимодальный ИИ может быть даже более восприимчив к определенным видам манипуляций, (таким как изменение ключевых пикселей на изображении), чем модели, владеющие только языком, — сказала Митчелл. — Некоторая форма фальсификации, вероятно, продолжится и, возможно, будет даже более убедительной и опасной, потому что галлюцинации будут визуальными — представьте, что ИИ вызывает скандал в масштабе поддельных изображений ареста Дональда Трампа. Понятно, что мультимодальность — это не серебряная пуля или что-то в этом роде для решения многих из этих проблем».
Помимо интеллекта, мультимодальный ИИ может быть просто хорошим коммерческим предложением. Языковые модели уже стали золотой лихорадкой для Силиконовой долины: до корпоративного бума мультимодальности OpenAI, по сообщениям, ожидал выручки в 1 миллиард долларов к 2024 году; многочисленные недавние анализы предсказывали, что ChatGPT добавит десятки миллиардов долларов к годовому доходу Microsoft через несколько лет.
Мультимодальные программы просто будут предлагать клиентам больше, чем обычный текстовый ChatGPT, например, описывать изображения и видео, интерпретировать или даже создавать диаграммы, быть более полезными личными помощниками и так далее. Мультимодальный ИИ мог бы помочь консультантам и венчурным капиталистам создавать более качественные слайды, улучшать существующее, но несовершенное программное обеспечение, которое описывает изображения и окружающую среду для людей с нарушениями зрения, ускорять обработку электронных медицинских записей и вести людей по улицам не как по карте, а наблюдая за зданиями вокруг.
Несмотря на то, что ChatGPT вызвал всплеск интереса и инвестиций в искусственный интеллект, недавно Генеральный директор OpenAI Сэм Альтман предупредил, что «стратегия исследований, которая породила бота, исчерпана». Пока неясно, откуда именно возьмутся будущие достижения. “Я думаю, что мы находимся в конце эпохи, когда создаются такие гигантские модели”, — сказал он аудитории на мероприятии, проведенном в MIT. “Мы сделаем их лучше другими способами”.
Заявление Альтмана предполагает, что GPT-4 может стать последним крупным достижением в рамках стратегии OpenAI по увеличению размеров моделей и предоставлению им для обучения большего объема данных. Возможно, в дальнейшем какие-то другие исследовательские стратегии или методы будут использованы и мы увидим модели, более похожие на интеллект человека.
ChatGPT лишает людей работы?
В декабре 2022 года имели место массовые протесты художников с платформы ArtStation, против арта, сформированного нейросетями.
Одновременно немало дискуссий вокруг ChatGPT по поводу потери надобности во многих профессиях. Но, следует согласиться с аналитиками сайта «Хабр» (22.02.2023): «программистам пока нечего опасаться, так все долгосрочные прогнозы, предполагающие замену нейросетью специалистов с middle level не имеют четкого временного горизонта и ожидаются не раньше, чем через 10 лет. Пока в зоне риска технические писатели, низкоквалифицированные «джуны», аналитики-новички и бойцы первой линии клиентской поддержки. Всем обладателям профессий, в которых необходимо системное мышление, эмпатия, воображение и креативность, т. е. где речь идёт о творческом подходе и свойствах, характерных для живого человека, пока беспокоится рано».