Стартап Vana представил платформу «аренды» данных Reddit для обучения ИИ

Стартап Vana разработал платформу, которая позволит пользователям Reddit «сдавать в аренду» данные для обучения моделей ИИ.

Анна Казлаускас и Арт Абал из Медиа-лаборатории Массачусетского технологического института основали Vana в 2021 году. Первый изучал информатику и экономику в МТИ, а затем запустил финтех-стартап по автоматизации Iambiq. Абал же работал юристом в консалтинговой фирме The Cadmus Group, а затем — в компании по аннотированию данных Appen.

Платформа Vana позволит пользователям «объединять» свои данные — включая чаты, записи речи и фотографии — в наборы, которые затем можно будет использовать для обучения генеративной модели ИИ. Это также позволит создавать более персонализированный опыт — например, приложение для создания произведений искусства, которое понимает стилевые предпочтения пользователей.

API Vana объединяет межплатформенные персональные данные, а приложение получает мгновенный доступ к персонализированной модели искусственного интеллекта или базовым данным пользователя, что упрощает его адаптацию и устраняет проблемы с вычислительными затратами.

Чтобы создать учётную запись в Vana, нужно подтвердить адрес электронной почты, прикрепить данные к цифровому аватару (например, селфи, описание себя и голосовые записи) и изучить приложения, созданные с использованием платформы и наборов данных. Выбор приложений варьируется от чат-ботов в стиле ChatGPT и интерактивных сборников рассказов до генератора профилей Hinge.

Vana будет брать с пользователей ежемесячную подписку, а стоимость тарифа начинается от $3,99. С разработчиков будут взимать комиссию за «транзакцию данных» (например, за передачу наборов для обучения моделей ИИ).

В этом месяце Vana запустила Reddit Data DAO — программу, которая объединяет данные Reddit нескольких пользователей (включая их карму и историю сообщений) и позволяет им вместе решать, как использовать эти объединённые датасеты. Пользователи получают право голосовать вместе с другими членами DAO при принятии таких решений, как лицензирование объединённых данных компаниям, занимающимся генеративным ИИ, и будут делить между собой прибыль. В DAO насчитывается чуть более 141 тысячи участников, что составляет лишь небольшую часть 73-миллионной пользовательской базы Reddit. В настоящее время Reddit Data выдает «токены» пользователям, которые соответствуют их карме Reddit.

Reddit ранее не закрывал доступ к данным для обучения ИИ, но в конце прошлого года, перед IPO, компания изменила курс и получила более $203 млн в виде лицензионных сборов от компаний, включая Google.

Теперь Reddit заблокировал сабреддит Vana, посвященный обсуждению DAO. Представитель платформы обвинил стартап в «эксплуатации» своей системы экспорта данных, которая разработана в соответствии с правилами GDPR и Калифорнийского закона о конфиденциальности потребителей.

Ранее стало известно, что разработчик ПО для электронной подписи DocuSign начал применять данные пользователей для обучения моделей искусственного интеллекта. Она уточнила, что будет спрашивать у пользователей разрешение, прежде чем использовать их данные для такого обучения ИИ. Кроме того, данные будут предварительно обезличивать.

Источник: https://habr.com/ru/news/807577/

Вернуться к списку

Интересные статьи

DeepTech дайджест: квантовую сеть протянут в Сочи, новый суперкомпьютер на 10 Пфлопс, ДНК-чипы для хранения данных

Привет! Собрали новости про квантовые исследования, искусственный интеллект и новые проекты. В России создали наносенсоры для бесконтактных замеров температуры в открытом космосеРоссийские ученые созд...

Сила метаданных в расширяемой архитектуре продукта

Расширяемость — это архитектурное качество системы, позволяющее без дополнительных усилий добавлять в нее новые функции. Реализуется это в первую очередь за счет использования метаданных, которые игра...

ALBERT — облегченный BERT для самообучения языковым представлениям

С тех пор как в 2018 году был представлен BERT, исследования в области обработки естественного языка охвачены новой парадигмой: использованием больших объемов существующего текста для пре...

FAISS: Быстрый поиск лиц и клонов на многомиллионных данных

Однажды в преддверии клиентской конференции, которую ежегодно проводит группа DAN, мы размышляли над тем, что интересного можно придумать, чтобы у наших партнеров и клиентов остал...

Java-сериализация: максимум скорости без жёсткой структуры данных

Наша команда в Сбербанке занимается разработкой сервиса сессионных данных, который организует взаимообмен единым Java-контекстом сессии между распределёнными приложениями. Наш сервис крайне нужда...