Как гуманитарии используют знания айтишников: Data-журналистика

Моя цель - предложение широкого ассортимента товаров и услуг на постоянно высоком качестве обслуживания по самым выгодным ценам.

Как мы выяснили в прошлой статье, разделение на гуманитариев и технарей — это больше стереотип, чем научный подход. Сегодня поговорим о профессии, в которой соединяются оба направления. Дата-журналисты создают истории на основе больших данных. Разберёмся, какими навыками они обладают и сколько зарабатывают.

Чем занимается дата-журналист

Дата-журналистика, или журналистика данных, в России начала развиваться в конце 2000-х. Она возникла на стыке трёх областей: журналистики, аналитики данных и области создания визуального контента.

Дата-журналист — специалист, который ищет, обрабатывает и визуализирует данные, чтобы представить их в виде интересной и понятной читателю истории. Выглядит это так:

Это инфографика из исследования эпидемии ВИЧ в России от «Если быть точным». Чтобы рассказать о мерах борьбы государства с ВИЧ, дата-журналист опирался на соответствующий приказ Правительства и данные Роспотребнадзора, а также провёл собственные расчёты
Это инфографика из исследования эпидемии ВИЧ в России от «Если быть точным». Чтобы рассказать о мерах борьбы государства с ВИЧ, дата-журналист опирался на соответствующий приказ Правительства и данные Роспотребнадзора, а также провёл собственные расчёты

Дата-журналист выбирает общественно важную тему, ищет количественные данные, чтобы выявить закономерности, оценить масштабы явления и на основе этого прийти к выводам, которые могут помочь читателям разобраться в проблеме. Или, наоборот, автор идёт от данных — работает с каким-то массивом и находит что-то интересное, из чего можно сделать материал. В обоих случаях получается дата-история — с интересными фактами и инфографикой для наглядности. Дата-материалы создают различные зарубежные и российские СМИ: The New York Times, The Guardian, The Washington Post, Reuters, а также РИА Новости, РБК, ТАСС, Т—Ж. С лучшими работами дата-журналистов со всего мира можно ознакомиться на сайтах известных журналистских премий: Data Journalism Awards и Sigma Awards.

Что должен уметь дата-журналист: изучаем вакансии

Дата-журналисты востребованы там, где создают контент на базе точных, проверенных фактов с количественным обоснованием. Кроме СМИ, дата-журналистикой занимаются компании, особенно те, которые строят свой бренд. Банки, такие как Сбербанк, Тинькофф и «Точка», проводят исследования на основе своих данных, рассчитанные не только на внутреннюю аудиторию.

Вот перечень обязанностей дата-журналиста из вакансии РБК:

Получается, чтобы получить работу, дата-журналист должен уметь:

1. Искать актуальные данные:

  • знать, какие базы данных существуют и как получить к ним доступ;

  • уметь формулировать запросы и собирать необходимую для анализа информацию (парсинг).

2. Идентифицировать, фильтровать и структурировать информацию в программах обработки данных, таких как MS Excel или Google Таблицы.

3. Анализировать данные:

  • понимать процедуру агрегации данных;

  • знать основы статистики и уметь рассчитывать показатели, необходимые для анализа.

4. Визуализировать данные:

  • подбирать и создавать диаграммы, графики, схемы, инфографику и другие иллюстрации;

  • владеть программами для создания такого контента, например, уметь работать в Tableau.

5. Понятно и интересно писать — увлечь и удержать внимание аудитории, донося историю простыми и доступными средствами.

6. Программировать — иногда работодатели указывают в вакансиях и этот навык в качестве дополнительного. Вот что, например, ждёт от соискателя исследовательский проект «Если быть точным»:

Часто для анализа данных используют Python — это популярный язык, который позволяет быстро решать многие задачи.

Борис Ги

Дата-журналист в РИА Новости

В работе дата-журналиста бывают моменты, когда одного Excel недостаточно: спарсить данные с сайта, обработать XML-файл, выгрузить данные по API, просто открыть файл, в котором больше миллиона строк. Python универсален и позволяет решить эти задачи, а ещё автоматизировать рутину и сократить ручной труд. Например, с его помощью можно скачать сотню файлов или почистить кучу однообразных таблиц и привести их к одному виду. В редких случаях могут понадобиться инструменты для работы с большими данными, методы машинного обучения или обработки естественного языка. Для журналистских задач Python вполне хватит.

Однако дата-журналист — это не классический аналитик и тем более не Data Scientist. Поэтому, если Python или другой язык программирования освоить сложно, можно обойтись и no-code инструментами.

Какая зарплата у дата-журналиста

Средняя зарплата журналиста-универсала по Москве — 70 тысяч рублей в месяц, по России — 53 тысячи. Дата-журналист — более узкий специалист с дополнительными навыками, которые ценятся несколько выше.

Борис Ги

Дата-журналист в РИА Новости

Пока большой разницы между зарплатой журналиста и дата-журналиста нет, 80–100 тысяч рублей — стандартный месячный оклад. Внештатные статьи и проекты тоже редко стоят дороже обычной журналистики. Например, в Т—Ж ставка за материал — 5 или 10 тысяч.

Конкретную зарплату в вакансиях на должность дата-журналиста указывают редко, обычно пишут, что условия обсуждаются индивидуально. Зарплата будет зависеть от объёма и количества выполняемых задач, а также от набора навыков и умений кандидата.

Как создаётся дата-история: от сырых данных к графикам

Поиск данных: о чём могут рассказать фото в соцсетях

Как и в классической журналистике, в дата-журналистике появляется идея или тема для создания материала. Но главным источником информации здесь выступают не интервью, очерки с мест событий или пресс-релизы, а данные. Именно они помогают проверить выдвинутые гипотезы, с их поиска и начинается работа над материалом.

Для начала нужно определиться, где и какие данные брать для анализа. Информация должна быть актуальной и полной, поэтому лучше проверить сразу несколько источников.

Как правило, журналисты используют открытые данные — официальные, со свободным и бесплатным доступом, опубликованные в интернете различными организациями или людьми. Одни данные уже структурированы по какому-то признаку и представлены в готовом машиночитаемом виде — то есть их можно скачать файлом и открыть в Excel или Word. Другие нужно собирать с общедоступных сайтов автоматически с помощью специальных сервисов.

Дата-журналисты обращаются к статистике с официальных сайтов государственных органов, справочной информации, опубликованным отчётам государственных и частных компаний о работе за определённый период и даже к информации из профилей пользователей соцсетей.

Борис Ги

Дата-журналист в РИА Новости

Если автор идёт от проблемы, поиск данных ведётся от общего к частному.

Обычно алгоритм такой:

  1. Сначала ищем данные Росстата и Единой межведомственной информационно-статистической системы (ЕМИСС). Как правило, хотя бы общие данные по большинству тем здесь есть.

  2. Смотрим на законы, стратегии развития и государственные программы. Узнаём, какие ведомства занимаются проблемой, если это не очевидно. Кроме того, в приложениях к стратегиям всегда есть целевые показатели и их текущие значения. Иногда это единственный открытый источник.

  3. Изучаем сайты нужных нам федеральных ведомств — Минздрава, Минкульта — и региональных. Далеко не все данные попадают в ЕМИСС, некоторые датасеты публикуются на ведомственных сайтах. Ещё нужные данные содержатся в отчётах и публикациях ведомств.

  4. Проверяем сайты отраслевых институтов, НКО, фондов, различных исследовательских проектов. Если данные указаны в перечне постановлений об открытых данных и должны собираться в рамках какой-то госпрограммы, но их нигде нет, делаем запрос в соответствующее ведомство, закон это позволяет. Запрос можно направить, даже если у ведомства нет обязанности публиковать данные, но в таких случаях шансов получить ответ значительно меньше. Запросы можно делать и в НКО, и в коммерческие организации. Как правило, они коммуникабельные и хотя бы самыми общими данными делятся.

  5. Для определённых задач можно анализировать бюджеты и госзакупки. Некоторые ведомства дают доступ исследователям по API. Хотя сейчас таких всё меньше.

  6. Бывают специфические задачи, которые требуют работы с текстами судебных решений, анализа соцсетей, парсинга данных из общедоступных источников. Но это, скорее, относится к варианту, когда журналист сначала исследует данные и понимает, что на их основе можно собрать материал.

Например, чтобы выяснить, кто и зачем приходит на Красную площадь, дата-журналисты Strelka Mag проанализировали 200 тысяч фотографий, опубликованных во ВКонтакте с соответствующий геометкой.

Приезжие фотографируют Красную площадь почти в 3 раза чаще москвичей
Приезжие фотографируют Красную площадь почти в 3 раза чаще москвичей

А для подготовки материала о важности самоизоляции в пандемию дата-журналист Андрей Дорожный использовал:

  • данные о возрасте населения и количестве мест в больницах с сайта Росстата;

  • исследование смертности от Covid-19 с сайта Национальной комиссии здравоохранения Китая;

  • статью о формах коронавируса из журнала National Science Review;

  • математическую модель прогнозирования развития пандемии с сайта Венского технического университета.

График показывает, в каком возрасте риск заболеть или умереть от коронавируса выше
График показывает, в каком возрасте риск заболеть или умереть от коронавируса выше
Борис Ги

Дата-журналист в РИА Новости

Данных вокруг нас очень много. Правда, большая часть из них не структурирована, и для сбора и предварительной обработки нужны определённые навыки.

Кроме сайтов госорганов, данные можно искать и в других источниках:

  1. Негосударственные хабы данных: Хаб открытых данных «Информационной культуры» и каталог данных «Инфраструктуры научно-исследовательских данных» (ИНИД). Первый плохо структурирован, большая часть данных — это те же госданные, но в машиночитаемом формате. В каталоге ИНИД данные качественные, но самих датасетов очень немного.

  2. НКО и фонды, которые собирают данные по социальным проблемам.

  3. Коммерческие компании: Циан, Domofond, 2ГИС, Яндекс Карты, где данные можно собрать, нарушая правила сервиса, легально купить или получить по запросу. Одни компании дают бесплатный доступ исследователям, у других — свободное API, но с рядом ограничений.

  4. Компании-реселлеры данных, такие как Dadata. У Dadata есть бесплатный тариф, который позволяет взять по API достаточно много данных. Но эти данные больше ориентированы на коммерческую аналитику, а не на журналистику.

  5. Соцсети и сервисы: ВКонтакте, YouTube, Spotify. У многих есть официальные API. ВКонтакте позволяет собирать огромное количество информации с минимальными ограничениями.

  6. Энтузиасты, которые собирают и выкладывают датасеты. Например: датасет объявлений о недвижимости.

  7. Сообщества, которые собирают негосударственные и некоммерческие открытые данные: Wikidata, OpenStreetMap и другие.

Однако важно помнить, что коммерческие, некоммерческие и любительские датасеты имеют ряд недостатков:

  • Мы не всегда можем верифицировать такие данные, проверить качество и добросовестность сбора.

  • Альтернативные данные часто недолговечны и неожиданно исчезают. А иногда они собраны с нарушением лицензий и законов, и поэтому ссылаться на них не всегда удобно.

  • Такие данные дополняют, но не всегда могут заменить государственные.

Например, данным о разводах или статистике смертности и рождаемости вряд ли можно найти замену. Можно взять данные о семейном статусе из ВКонтакте, данные запросов из Wordstat или Google Трендов, объявления о поиске адвоката по разводам и тому подобное. Но это лишь дополнит картину. Готовя материал о недвижимости, мы можем посчитать динамику цен, но данных из Росреестра это не заменит.

Обработка данных: исключаем дубли и ищем закономерности

Будь то сырые данные, собранные автоматически, или официальный отчёт с сайта Росреестра — информацию важно проверить на несоответствия и ошибки. Пропуски, дубли, неправдоподобные цифры и опечатки могут повлиять на правильность выводов, ради которых журналист искал эти данные.

Борис Ги

Дата-журналист в РИА Новости

Ошибки в отчётах — это частое явление. Поэтому любой датасет нужно проверять: смотреть на типы данных, корректность выгрузки разделителей, дробей и так далее. Иногда это не ошибка выгрузки, а опечатка — тогда стоит поискать второй источник или восстановить данные логически. Если данные собраны в разное время или берутся из сборников Росстата, они могут немного отличаться. Это не ошибки, а поправки и уточнения — в этом случае я всегда беру более поздний вариант.

После очистки данные нужно упорядочить и структурировать — в сервисах электронных таблиц это можно сделать с помощью специальных формул и функций.

Теперь информацию будет проще анализировать:

  • сравнивать,

  • выявлять закономерности,

  • вычислять,

  • формулировать выводы.

Это фрагмент статистической таблицы Выборочного наблюдения трудоустройства выпускников с сайта Росстата — данные уже структурированы, осталось проверить на ошибки и можно анализировать
Это фрагмент статистической таблицы Выборочного наблюдения трудоустройства выпускников с сайта Росстата — данные уже структурированы, осталось проверить на ошибки и можно анализировать

На основе данных дата-журналист делает выводы, которые подтверждают или опровергают его гипотезу, показывают тренды, контрасты и скрытые взаимосвязи, которые самому читателю было бы сложно заметить.

Создание дата-истории: понятные выводы и яркие графики

Теперь найденные инсайты нужно представить в виде истории — рассказать о них понятным языком и визуализировать данные с помощью схем, графиков и диаграмм.

Вот как данные из таблицы Росстата выше визуализировала редакция Т—Ж
Вот как данные из таблицы Росстата выше визуализировала редакция Т—Ж

Иногда дата-журналист работает в команде с дизайнером и может поручить создание картинок для статьи ему — нужен будет набросок и ТЗ. Но в любом случае визуальную часть дата-историй стараются делать понятной, качественной и красочной, чтобы легче воспринималась и запоминалась.

Борис Ги

Дата-журналист в РИА Новости

Сейчас есть тренд на максимально простые и понятные визуализации: обычные линейные графики, столбики или линейчатые диаграммы, даже карты, в основном плиточные. Они рассчитаны на быстрое, почти моментальное считывание. Несколько лет назад были популярны скролителлинг, всплывающие подсказки, интерактив. Сейчас этого почти нет. Скролителлинг — это сочетание скроллинга и сторителлинга, когда пользователь читает текст по мере прокрутки анимированной страницы.

Кропотливый и сложный процесс создания дата-материала требует многих навыков и умений на стыке нескольких профессий. Но итоговый результат может стать уникальным и выделит публикацию на фоне других журналистских работ. Дата-журналистами обычно становятся журналисты, аналитики, контент-маркетологи, product- и project-менеджерам, PR-специалисты и медиаменеджеры. Но попробовать может любой, кто чувствует к этому склонность.

Источник: https://habr.com/ru/company/netologyru/blog/670660/


Интересные статьи

Интересные статьи

Мой муж основал криптовалютную империю, которая сделала нас богатыми. Когда он умер, я узнала, что это был всего лишь фасад.Перевод статьи «Confessions of a Bitcoin Widow: How a Dream Life Turned into...
Приветствую вас (лично вас, а не всех кто это читает)! Сегодня мы: Создадим приложение (навык) Алисы с использованием нового (октябрь 2019) сервиса Yandex Cloud Functions. Настроим н...
Есть статьи о недостатках Битрикса, которые написаны программистами. Недостатки, описанные в них рядовому пользователю безразличны, ведь он не собирается ничего программировать.
Если вы последние лет десять следите за обновлениями «коробочной версии» Битрикса (не 24), то давно уже заметили, что обновляется только модуль магазина и его окружение. Все остальные модули как ...
Реализация ORM в ядре D7 — очередная интересная, перспективная, но как обычно плохо документированная разработка от 1с-Битрикс :) Призвана она абстрагировать разработчика от механики работы с табл...