Скрепинг данных с Chat GPT

Всем привет!

Хочу поделиться своим опытом программирования с помощью чат GTP. У меня была коммерческая задача - нужно было собрать контактную информация с сайта yelp.com по выборке рестораны и бары. Это была часть процесса лидогенерации. Парсер должен был состоять из двух частей: Первый — собрать URL-адреса всех компаний, которые появляются в результатах поиска.

Затем он просматривает каждую страницу и собирает данные, как название компании, веб-сайт, описание, адрес, контактную информацию и вертикаль.

Скажу сразу, я не разработчик, писать парсеры и скреперы не умею. Прошла базовый курс JavaScript, но честно говоря, мой 12-летний сын, знает об этом больше, чем я :)

Просить помощи программистов было сложно, нужно было быстро, а вы сами знаете, какие у них очереди в разработке. Поэтому в большинстве случаев я прибегаю к старому доброму ручному “copy - paste”.

Но сейчас я решила попробовать что-то новое. Я посмотрела кучу видеороликов на YouTube о парсинге веб-страниц и по рекомендации решила попробовать двух поставщиков готовых платформенных решений:

Bright Data IDE
Selenium IDE

Начну со второго, так как с ним у меня не получилось закончить проект.

Вооружившись чатом GPT, даже немного его обучив (я предоставила документацию серсисов) и объяснив каждый шаг парсера, я взялась за работу.

С первого взгляда (не профессионального) мне показалось все просто. Типа прописываешь команды, запускается браузер и скрепер делает свою работу. Но я застрала на шаге перехода от сбора ссылкок при определенном запросе (типа все рестораны в Лондоне) к шагу захода на кажду ссылку и сбор определенных параметров страницы. В общем, я отложила Selenium и решила попробовать второй вариант.

Bright Data IDE с первого мне показался очень сложным, так как там нужно было реально писать код на Java Script. Но это и оказалось преимуществом. Можно было использовать готовые куски кода и Chat GPT помог его написать. В этом отношение Bright Data дает определенную гибкость и вариативность. Но при этом все находится внутри самой платформы и результаты парсинга можно получить в прямом смысле по электронной почты (если у вас нет настроенных серверов, как не было у меня).

Ок, переходим к результатам. Возможно, вы ожидаете, что я крикну: «Вуаля!» Но не так просто... Я сделала рабочий парсер и собрала нужные мне страницы. НО! По факту задание было очень легкое. Если бы сложнее, я бы не совладала с ИИ.

Наверное основная проблема была в том, что мне приходись постоянно удерживать его в рамках документации и команд используемыми Bright Data. Он постоянно уходил в сторону и начинал использовать какие-то левые команды, по факту нужна тонкая настройка и заточенность под конкретную платформу.

Итак, ваши мысли? Как вы думаете, этот подход может сработать при более качественном исполнение или ИИ не сможет заменить реальных программистов?

Источник: https://habr.com/ru/articles/743876/

Вернуться к списку

Интересные статьи

Интервью с ChatGPT-4 о критическом мышлении

Илья - Если человек живет в авторитарном государстве, как обучать его семью критическому мышлению, не подвергая их опасности / не ставя в неблагоприятное социальное положение?ChatGPT: это возможно сде...

Почему даже Президент не поборол вымогательство персональных данных

Должностное лицо Роспотребнадзора рассмотрело жалобу на вымогательство персональных данных и любуется своим ответом. Костюм является творческим допущением художника, аутентичность не гарантируется. ...

Актуальные проблемы интерпретации медицинских данных

Привет, Хабр! Думаю, все здесь в курсе, что данные — это новая нефть. Однако нефть мало чего стоит сама по себе, нужно уметь ее перерабатывать. Если говорить об использовании искусственного интеллекта...

Ныряем со Сноркелем в море данных. Туториал по фреймворку для программирования датасетов

Привет. Я Игорь Буянов, старший разработчик группы разметки данных MTS AI. Я люблю датасеты и все методы, которые помогают их делать быстро и качественно. Недавно рассказывал о том, как делать иерархи...

Marshmallow vs. Pydantic: две лучшие библиотеки для сериализации и валидации данных на Python

Сериализация и десериализация данных — это преобразование между необработанной структурой данных и экземплярами классов для их хранения и передачи. Например, преобразование объектов Python в JSON-пред...