Вы заинтересованы в них? ПРЕДЛОЖЕНИЯ? Экономьте с нашими купонами на WhatsApp o ТЕЛЕГРАММА!

Что такое Mamba, архитектура, целью которой является полное преодоление GPT. Новая эра ИИ?

Январь 18 2024

цифровая змея символически представляет архитектуру Мамбы в области искусственного интеллекта

Сегодня я хочу остановиться немного на технических вопросах. Мы говорим об искусственном интеллекте каждый день, но важно знать, на чем он основан и как работает. В связи с этим я хочу познакомить вас с Мамба, новая архитектура, которая обещает изменить меня лингвистические модели такими, какими мы знаем их сегодня. Возможности Mamba по сравнению с GPT чрезвычайно превосходят возможности, а также возможности, которые она позволяет вам делать.

Мамба — новый горизонт для искусственного интеллекта

Архитектура Transformer, представленная в 2016 году в статье «Внимание — это все, что вам нужно» от Google, стал прорывом в области языковых моделей, позволив им поддерживать контекст во взаимодействиях. Коротко: архитектура Трансформер — это модель искусственного интеллекта, используемая для создания таких моделей, как GPT. (Генераторный предварительно обученный трансформатор).

КАК РАБОТАЕТ АРХИТЕКТУРА-ТРАНСФОРМАТОР

Сердцем архитектуры Transformer является механизм «внимание«, что позволяет модели сосредоточиться на определенных частях одного текста при создании или обработке другого. Этот механизм делает Трансформеры особенно эффективными в понимании контекста и сложных отношений внутри текста. На практике модели, основанные на архитектуре Transformer, например GPT, они учатся генерировать и понимать язык в два этапа основные из них: обучение (обучение) и вывод (генерация текста).
Во время обучениеМодель обучается на больших наборах текстовых данных для понимания лингвистических структур, отношений между словами, контекста и т. д. В фазе выводМодель использует полученные знания для создания нового текста, ответов на вопросы, перевода языков и других задач языковой обработки.

Однако появление Мамбы может ознаменовать начало новой эры. Эта архитектура обещает быть более эффективным, способный преодолеть некоторые ключевые проблемы, с которыми сталкиваются нынешние модели, такие как GPT. В частности, три ключевых аспекта делают Mamba многообещающей архитектурой:

снижение затрат на вывод: Ключевым аспектом Mamba является значительное снижение затрат на логические выводы. Как я уже говорил ранее, вывод — это процесс, посредством которого модель ИИ после обучения применяет полученные знания к новым данным, генерируя текст или изображения. В сложных моделях, таких как GPT-3 или GPT-4, этот процесс может быть дорогостоящим с точки зрения вычислительных ресурсов. Мамба обещает сократить эти затраты до пяти раз по сравнению с моделями на основе Transformer, что может оказать существенное влияние, особенно для приложений, требующих быстрого генерирования ответов или работающих с огромными наборами данных;
стоимость вычисления линейного внимания: Второе преимущество Мамбы касается оперативности расчета внимания. В моделях Трансформер стоимость растет фактически (именно на уровне мощности, это не фигура речи) по мере увеличения длины текста. Это означает, что чем длиннее текст, тем больше ресурсов требуется для его обработки, что ограничивает практичность моделей в некоторых приложениях. Мамба предлагает решение, при котором стоимость растет линейно по сравнению с размером окна внимания, что делает обработку длинных текстов более управляемой и менее обременительной в вычислительном отношении;
чрезвычайно больший вклад: Мамба может обрабатывать максимальное окно ввода. до 1 миллиона токеновn, гораздо больше, чем возможно с архитектурой Transformer. Это означает, что Мамба теоретически могла бы анализировать и понимать очень длинные тексты, например целые книги, сохраняя связность и детализацию в контексте. Например, он может проанализировать весь роман, сохраняя при этом четкое понимание персонажей, сюжета и тем от начала до конца.

Несмотря на обещания Мамбы, бумаги Solleva сомнения в его масштабируемости, особенно по сравнению с такими массивными моделями, как GPT-4, которая имеет 175 миллиардов параметров. Масштабируемость, если говорить очень простыми словами, означает способность системы обрабатывать увеличение объема работы или увеличиваться в размерах без потери эффективности. Представьте себе небольшой ресторан, который хорошо работает с небольшим количеством клиентов. Если ресторан станет популярным и у него станет намного больше клиентов, он сможет справиться с этим увеличением без ущерба для качества обслуживания или еды. Если это удастся, то это «масштабируемо».

Мамба в ее нынешнем состоянии прошла испытания только с 3 миллиардами параметров. Таким образом, остается неясным, можно ли сохранить или улучшить его производительность и эффективность при масштабировании до более крупных размеров.