Прежде чем перейти к статье, хочу вам представить, экономическую онлайн игру Brave Knights, в которой вы можете играть и зарабатывать. Регистируйтесь, играйте и зарабатывайте!
Меня зовут Андрей Цыган - я не программист, я смотрю на технологии ИИ с точки зрения человека, кто знает что хочет, но не имеет навыков это сделать через код.
То есть он мог дать формулы для Excel, или рассказать по шагам как нужно делать - но делать приходилось самому - и это было самое слабое звено.
Но с новым плагином Code Interpreter правила игры поменялись. Теперь он не рассказывает как, а теперь он делает. И выглядит это для некодеров фантастически!
Мало того что выглядит - мне кажется это кардинальная смена правил игры - многие приложения, удобные, классные, могут претерпеть коренные изменения.. Так как "в обозримом будущем" вполне реально что не надо будет интерфейса, мануалов - просто скажи что ты хочешь, и ты это получишь. Конечно не всё, но скорость доработок меня впечатляет.
Я на личном опыте увидел как человек может "перескочить" уровни взаимодействия с интерфейсом. Бабушка, 74 года, кнопочный телефон, никаких планшетов (тыкать пальцем куда то не хотела никак),про ютуб не слышала. Но когда приезжает в гости она знает - надо просто сказать "Алиса, поставь мне концерт Надежды Кадышевой где она с молодым баянистом в Витебске" - и все! Так может получится и тут.
Что такое Code Interpreter?
Code Interpreter - это плагин от OpenAI для ChatGPT. Он позволяет создать и запустить код прямо в интерфейсе,и умеет работать с загруженными файлами.
Долгое время он был в закрытом тестировании, но уже сейчас он становится доступен простым смертным, по подписке Plus (20USD в месяц). Работает он с моделью GPT-4
Подключаем его в настройках.
Далее в окошке модели выбираем Code Interpreter
Загрузка файлов
Теперь у нас появилась возможность загружать файлы размером до 100 мб.
Это могут быть ваша база данных, ваши расчёты в Excel, pdf файлы, медиа файлы. В общем - 100 мб вполне есть куда развернуться.
Но это всё лирика, главный вопрос “что мне с этого, что с этим можно сделать?”.
Я протестировал несколько реальных задач, уверен в ближайшее время мы увидим сотни крутых кейсов. Пишите в комментариях ваши кейсы - буду благодарен.
Все примеры я буду показывать реальные, из бизнеса (малый бизнес). У больших корпораций наверное другие запросы - ну и другие ресурсы.
Анализ данных
В малом бизнесе у вас может не быть колл-центра, отдела маркетинга, и даже иногда продаж, но всегда будут налоги и Excel. Начнём со второго.
В целом зачастую все наши небольшие данные помещаются в Excel - это и метрики по рекламе, выгрузка с CRM, банковские движения.
Анализ рынка
Для теста возьмём открытые данные.
У ISO есть ежегодный отчёт по количеству действующих сертификатов в разрезе стран и стандартов. Скачиваем и загружаем в него файл, без подготовки.
Дай мне количество сертификатов по русскоязычным странах по стандартам, и посчитай общее количество выданных сертификатов как по стандарту так и по стране
Все запросы я писал очень простым языком, именно "вот надо это,и всё". Сам посмотри колонки, сам пойми где какие данные. Я пытался эмулировать позицию пользователя, есть датасет - хочу ответы в виде график и диаграмм.
Вот такие данные мы получаем через минуту ( сначала он смотрит данные, пробует, размечает) а потом достаточно быстро строит нужные выходные данные.
Просим из таблицы сделать вертикальную диаграмму по стандарту ISO 9001
Вот и тепловая карта по количеству и по странам
А вот и топ-10 отраслей по стандарту ISO 9001 из Беларуси
По его словам он может строить такие виды диаграмм (но что то мне подсказывает, что скоро умные люди найдут способ расширить этот список)
В текущей среде я могу построить следующие виды диаграмм с использованием библиотеки matplotlib:
Линейные графики (Line plots): используются для визуализации данных во времени (так называемые "временные ряды") или для отображения взаимосвязи между двумя наборами данных.
Столбчатые диаграммы (Bar plots): используются для сравнения величин разных категорий или групп.
Гистограммы (Histograms): используются для визуализации распределения одномерного набора данных.
Точечные диаграммы (Scatter plots): используются для визуализации взаимосвязи между двумя наборами данных.
Ящики с усами (Box plots): используются для визуализации статистических свойств распределения данных (медиана, квартили, выбросы и т.д.).
Круговые диаграммы (Pie charts): используются для отображения пропорций различных категорий в общем количестве.
Тепловые карты (Heatmaps): используются для визуализации матрицы данных, где цвет каждой ячейки соответствует значению в этой ячейке.
Графики ошибок (Error bars): используются для визуализации неопределенности или вариации данных.
Эти данные можно сразу попросить сделать в PDF или PPT
Работа по распознаванию PDF счетов
Накладная, счёт, акт - мы их в бизнесе получаем море,и нужно ручками вносить в нашу систему платежей - кому, за что,и сколько платить.
Давайте попросим распознать текст, и выделить платёжные данные.
Возьмём даже не самый простой вид счёта, это больше счёт-договор. Есть и текстовая часть, и табличная. Наша задача - получить кому платить, сколько платить, и за что платить
Загружаем файл и просим, по-простому, по-людски, дать данные:
Единственное НО - с русским языком пишет что не умеет работать,нету библиотеки(
Работа с аудио
Распознать текст с аудио ни на русском, ни на англ у меня не получилось. Уверен можно подсказать библиотеки и может он сможет что то лучше, но я знаю только одну библиотеку- им. Ленина.
Но он может делать простые процедуры - порезать, к примеру, аудио на нужное количество частей (с максимальным размером и длительностью) Это может быть нужно к примеру, когда какое нить приложение не берет большой файл, и нужно его разбить.
Например Whisper, которым мне удалось попользоваться, кушает файлы только до 18 минут, и было неудобно разбивать длинные видео на эти куски. Теперь это просто
Работа с изображениями
Нанесение текста на изображение.
Я попробовал писать текст на изображение, но в такой формулировке он совсем отказался.
Но если изменить задачу на "нанеси watermark" - он пишет. Немного ругается про шрифты, но пишет. Очень мелким шрифтом пишет, даже ему указывал размер шрифта, но он сказал пока могу так. Но уже МОЖЕТ!
В целом простые моменты с изображением может делать - поворот, разворот, изменение формата.
Работа с видео
Он умеет преобразовывать GIF to MP4, делать простые обработки видео, типа "зум",и создавать GIF
В твиттере Riley Goodside есть примеры работы с видеою
Я попробовал решить задачу, с которой недавно возился в CapCut. Сделать равномерное видео по картинке (слайду). Он выполнил и эту задачу, вот результат:
Резюме
Лично для меня этот плагин стал открытием "ящика Пандоры". Главное - запрос - не только инструкция - а готовый результат.
Я думаю это может пошатнуть позицию некоторых утилит - теперь можно будет делать многие вещи внутри chatgpt.
Он мне часто отвечал что у него нету той или иной библиотеки - я с удовольствием представляю, как заиграет этот плагин если в него можно будет загружать нужные библиотеки