Мифы о больших данных и цифровая культура

Моя цель - предложение широкого ассортимента товаров и услуг на постоянно высоком качестве обслуживания по самым выгодным ценам.


Мы продолжаем публиковать самые интересные доклады RAIF, ежегодного форума по искусственному интеллекту, организованному «Инфосистемы Джет». Сегодня хотим поделиться рассказом доктора физико-математических наук, профессора департамента информатики НИУ ВШЭ Бориса Асеновича Новикова.

Мифы о больших данных и цифровая культура


Слово big в нашем случае относится больше к мифам, чем к данным, поэтому я расскажу, в основном, о первых, но в контексте вторых. Поскольку я уже несколько десятилетий делаю вид, что работаю в научном сообществе, я начну с определения, чтобы это выглядело, как точное знание.


Мифы – неотъемлемая часть культуры общества, они существовали всегда и продолжают появляться в современном мире. Привожу примеры:


Более старшая часть аудитории должна помнить шум вокруг 2000-го года, который на самом деле является одним из 400 относительно честных способов извлечения денег из заказчика, не более того. Конечно, катастрофы тогда не случилось.

Возникает масса мифов вокруг software engineering – здесь есть много разных точек зрения, и на этой теме я концентрироваться сейчас не буду.

К этому докладу меня подтолкнула инициатива сверху: в том университете, где я работал, появилась необходимость обучить цифровой грамотности поголовно всех, от детского сада до аспирантуры. Никто не знал, что это такое, и я опрометчиво признался руководству, что я примерно понимаю, как это делать… и попался. Нужно было учить разные специальности по одной программе:


Основной мой вклад в дело заключался в том, что я переименовал этот курс из «Цифровой грамотности» в «Цифровую культуру».

На одной из международных конференций я услышал такое высказывание: для того, чтобы привлечь внимание аудитории, нужно добавить в доклад хоть какой-то намек на сексуальность, так вот: несколько лет назад в прессе (в частности, в российской) широко обсуждался случай, как американской школьнице стали присылать рекламу для беременных (на этом сексуальный контекст истории исчерпывается ), потом семья обратилась с иском, но в итоге иск пришлось отозвать… Потому что девушка действительно оказалась беременной. История понаделала много шума, мол, эти аналитики знают о нас больше, чем мы сами (это уж вряд ли)! Все это очень опасно, и надо усиливать защиту. Так родились мифы:

  1. Большие данные крайне опасны
  2. Они знают о нас больше, чем мы сами
  3. Необходимы дополнительные меры по безопасности

Поймите меня правильно: безопасность важна, но давайте посмотрим, как оценивать этот случай профессионально.


Какой вывод можно сделать? Анализ ИНОГДА может давать правильные результаты, и мы можем также сказать, что иногда мы ничего не знаем.

Мои друзья и коллеги обращают внимание на то, что случайная рассылка тоже иногда дает правильные результаты, и мы ничего не можем сказать о качестве рассылки, если не оценим какие-нибудь количественные показатели. Прежде всего, необходимо оценивать полноту и точность.

Следующие виды мифов я позаимствовал из зарубежного контекста. Например, на одной из топовых конференций по обработке данных SIGMOD 2019 проходила панельная дискуссия (или, как говорят у нас, «круглый стол») на тему «Responsible Data Science». Там обсуждались примеры того, каким образом случается безответственное применение средств анализа данных, машинного обучения и т.п. В качестве одного из примеров привели историю с определением пола человека по фотографии глаз. Люди работали над этим несколько лет, достигли точности аж 80%, пока один скептик не выяснил, что на самом деле они определяют наличие или отсутствие косметики.

Это курьез, но вот дальше пример, в котором опасность уже абсолютно реальная: речь идет о применении методов машинного обучения для выявления преступников по фотографиям. Как выяснилось, в самом принципе работы этой обучающейся системы есть проблемы с политкорректностью: во-первых, они давали ложноположительные ответы с разной частотой в зависимости от расы, а во-вторых, как оказалось потом, на самом деле они определяли наличие или отсутствие улыбки на фотографии, не более того. Однако были попытки применения этой системы, и офицерам, которые должны были использовать результаты, в случае несогласия полагалось писать письменное объяснение, почему именно они не согласны с результатами, которые выдает система. Вот это уже пример того, каким образом мифы могут стать опасными для общества.


Почему-то мы говорим Data Science, хотя речь идет о промышленных применениях. Во всех остальных областях – Computer Science, но… Software Engineering. Уравнения математической физики и какое-нибудь мостостроение, или что-то еще? Коллеги, ученым нельзя верить! Хотелось бы думать, что Data Science относится к разделу «Науки», и к сожалению, формулировка Data Engineering уже занята другим понятием.

Я возвращаюсь к истории с проектом курса для всего университета независимо от подготовленности и специальности. Картинка с правой стороны (лебедь, рак и щука) показывает, каким образом работала команда, собранная из представителей всех факультетов университета.


Тем не менее, мы попытались сделать что-то разумное. Идея состояла в том, чтобы показать простые вещи, которые каждый исследователь может делать сам независимо от той области, в которой он работает. При этом чтобы он мог понять, в какой момент (это самое важное!) нужно обратиться к профессионалам по обработке данных. Я пытался избежать таких рецептов для начинающих (но из этого мало что получилось), типа «Сделайте сложение популярным, но не практическим руководством».

Итак, мифы неизбежны, и мы должны понимать, что с ними все-таки придется иметь дело. Мифы являются источником многих ошибок, неудач и проблем, а иногда могут быть даже опасны – необдуманное применение мифических «знаний» может иметь негативные последствия.

Кроме того, что мы развиваем технологии, надо заниматься просвещением общества, и это забота постоянная, которая никогда не будет решена полностью, потому что человечество в общем развивается не так быстро, как технологии. Обучить людей намного труднее, чем искусственный интеллект – один из источников мифов. Нам надо научиться работать и жить с этим так, чтобы избежать больших опасностей.
Источник: https://habr.com/ru/company/jetinfosystems/blog/488360/


Интересные статьи

Интересные статьи

Пять лет назад я попробовал работать с Tarantool, но тогда он мне не зашел. Но недавно я проводил вебинар, где рассказывал про Hadoop, про то, как работает MapReduce. Там мне задали в...
(c) Практически с появления технологической отрасли в ней велась охота за «Белым китом» — метриками труда разработчиков. Возможно, само желание посчитать KPI программистов родилось из фразы,...
В 2019 году люди знакомятся с брендом, выбирают и, что самое главное, ПОКУПАЮТ через интернет. Сегодня практически у любого бизнеса есть свой сайт — от личных блогов, зарабатывающих на рекламе, до инт...
Резервное копирование не относится к модным технологиям, о которых кричат из каждого утюга. Оно просто должно быть в любой серьезной компании, вот и всё. У нас в банке бэкапится несколько тысяч...
Новая структура данных Redis 5 под названием «потоки» (streams) вызвала живой интерес в сообществе. Как-нибудь я поговорю с теми, кто использует потоки в продакшне, и напишу об этом. Но сейчас хо...