Как можно описать последние два года в области машинного обучения и искусственного интеллекта? Пожалуй, подойдет словосочетание «расцвет генеративных моделей». Причём работающих в разных модальностях. Gopher, Chinchilla, LaMDA, UL2, InstructGPT, ChatGPT, LLaMA, FRED-T5, GigaChat — вот неполный список больших языковых моделей, работающих с текстами (некоторые из которых также умеют работать и с кодом). DALL-E, CogView, Malevich (ruDALL-E 1.3B), Kandinsky 1.0 (ruDALL-E 12B), Parti, GLIDE, DALL-E 2, Imagen, Midjourney, Stable Diffusion, eDiff-I, Kandinsky 2.0, Kandinsky 2.1 — генеративные модели, способные обрабатывать текст и генерировать изображение по текстовому описанию. Есть успехи даже в генерации видео- и 3D-контента. Так, модели Make-A-Video, CogVideo, Imagen Video, Phenaki, VideoFusion, Gen-1, Gen-2 могут генерировать короткие (но полноценные) видеоролики на основе текстового описания, DreamFusion, Magic3D — 3D-объекты на основе текста, а Make-It-3D — 3D-объекты на основе одного изображения. Также развиваются и совершенствуются модели, генерирующие аудио в разных форматах (таких как, например, midi и wav) — это MuseNet, Music Transformer, Jukebox, VALL-E, SymFormer. Есть даже модели, которые решают задачу построения рекомендаций в генеративном формате, например, P5. При этом стоит отметить, что последнее время каждый день публикуется огромное количество работ (в том числе и значимых), касающихся генеративных моделей, — что однозначного говорит о небывалом интересе к этой области как исследователей, так и индустрии в целом. И это не может не радовать :)
Очень ярко прослеживается тренд и на развитие мультимодальности (и особенно активно развиваются бимодальные модели, работающие на стыке модальностей текстов и изображений). Если нашумевшая модель ChatGPT, построенная на основе архитектуры InstructGPT и принципах Reinforcement Learning with Human Feedback, работает только в текстовой модальности и может отвечать на текстовые вопросы различной степени сложности, то её последователь GPT-4 работает уже в двух модальностях, текст и изображение, но выдает только текстовый ответ. Похожим образом работают и модели Flamingo, FROMAGe, Kosmos-1, MiniGPT-4, LLaVa. Можно заметить, что большинство моделей «однонаправлены», то есть либо переводят текст в соответствующее ему изображение, либо генерируют текстовый ответ по мультимодальному запросу.