RUDOLPH: освещая дорогу к AGI

Как можно описать последние два года в области машинного обучения и искусственного интеллекта? Пожалуй, подойдет словосочетание «расцвет генеративных моделей». Причём работающих в разных модальностях. Gopher, Chinchilla, LaMDA, UL2, InstructGPT, ChatGPT, LLaMA, FRED-T5, GigaChat — вот неполный список больших языковых моделей, работающих с текстами (некоторые из которых также умеют работать и с кодом). DALL-E, CogView, Malevich (ruDALL-E 1.3B), Kandinsky 1.0 (ruDALL-E 12B), Parti, GLIDE, DALL-E 2, Imagen, Midjourney, Stable Diffusion, eDiff-I, Kandinsky 2.0, Kandinsky 2.1 — генеративные модели, способные обрабатывать текст и генерировать изображение по текстовому описанию. Есть успехи даже в генерации видео- и 3D-контента. Так, модели Make-A-Video, CogVideo, Imagen Video, Phenaki, VideoFusion, Gen-1, Gen-2 могут генерировать короткие (но полноценные) видеоролики на основе текстового описания, DreamFusion, Magic3D — 3D-объекты на основе текста, а Make-It-3D — 3D-объекты на основе одного изображения. Также развиваются и совершенствуются модели, генерирующие аудио в разных форматах (таких как, например, midi и wav) — это MuseNet, Music Transformer, Jukebox, VALL-E, SymFormer. Есть даже модели, которые решают задачу построения рекомендаций в генеративном формате, например, P5. При этом стоит отметить, что последнее время каждый день публикуется огромное количество работ (в том числе и значимых), касающихся генеративных моделей, — что однозначного говорит о небывалом интересе к этой области как исследователей, так и индустрии в целом. И это не может не радовать :)

Очень ярко прослеживается тренд и на развитие мультимодальности (и особенно активно развиваются бимодальные модели, работающие на стыке модальностей текстов и изображений). Если нашумевшая модель ChatGPT, построенная на основе архитектуры InstructGPT и принципах Reinforcement Learning with Human Feedback, работает только в текстовой модальности и может отвечать на текстовые вопросы различной степени сложности, то её последователь GPT-4 работает уже в двух модальностях, текст и изображение, но выдает только текстовый ответ. Похожим образом работают и модели Flamingo, FROMAGe, Kosmos-1, MiniGPT-4, LLaVa. Можно заметить, что большинство моделей «однонаправлены», то есть либо переводят текст в соответствующее ему изображение, либо генерируют текстовый ответ по мультимодальному запросу.

Источник: https://habr.com/ru/companies/sberbank/articles/733470/

Вернуться к списку

Интересные статьи

Революция на рельсах: как Россия строит современную железную дорогу

Вы когда-нибудь мечтали путешествовать со скоростью света? Или увидеть собственными глазами, как выглядит Сибирь зимой? Или просто сэкономить время и деньги на дальних поездках? Если да, то вы заинтер...

Весна идёт — весне дорогу! Итоги сезона Kubernetes

С 29 декабря по 24 февраля на Хабре прошёл сезон Kuberbetes. Вместе с партнёром, #CloudMTS, мы вдохновляли хабраавторов публиковать статьи по k8s и контейнерам в соответствующем хабе — глубокие, полез...

Книга «PyTorch. Освещая глубокое обучение»

Привет, Хаброжители! А мы с очередной интересной новинкой издательства «Manning». Многие средства глубокого обучения используют Python, но именно библиотека PyTorch по-настоящему «питоническая». Л...

В США в 2023 г. построят дорогу с беспроводной зарядкой электромобилей на ходу. Вау! но что-то тут не так

Я люблю читать пресс-релизы компаний, претендующих на что-то футуристичное. Сразу после них кажется, что будущее не просто наступает, а стучится кувалдой в окошко. Однако, выработанный с годами ...

Стоит ли увольнять разраба за большую и дорогую ошибку? Думаю, нет, но менеджмент хотел крови

В Англии все одержимы футболом. Уйма любительских команд и куча стадионов. И вот через знакомых ко мне обратился один англичанин, у которого была идея и немного денег — он попроси...