Как сравнить: «изумительный авто» и «уродливый барак», в маркетинговом опросе и в больших данных

Моя цель - предложение широкого ассортимента товаров и услуг на постоянно высоком качестве обслуживания по самым выгодным ценам.
Все мы участвовали в опросах, онлайн или в реальной жизни. А когда начинаем новый проект, то без опросов не обойтись. Но иногда есть результаты опросов, с которыми непонятно что делать, кроме как улыбнуться, ниже, на картинке, результат опроса Всероссийского центра изучения общественного мнения (ВЦИОМ).

Полюбопытствовал как сейчас используют вопросы с качественными оценками и обнаружил, что ВЦИОМ, ФОМ, Левада-Центр используют, в основном, трехдиапазонную шкалу (плохо/норма/хорошо). В случаях более детальных вопросов, шкала увеличивается до 5-6 единиц, но редко.

Тогда, на сегодняшний день, складывается ситуация, в которой социологи уходят от многоуровневой шкалы качественных оценок и стараются использовать трехуровневую. И если социология умеет из этого выворачиваться, то при анализе приличных объемов данных, необходимость использования качественных оценок становится усложняющим фактором и снижает надежность результатов. Так как разграничить, например, понятия: «прекрасная квартира» и «отличное жилье» практически невозможно, а с учетом ответа, одного из персонажей «Двенадцати стульев»: «Кому и кобыла невеста», многопересекаемость качеств выходит за разумные пределы.

Механизм градации есть и он хорошо используется банками при определении подлогов в финансовых документах. Это закон распределения Бенфорда, который, в 1984, доказал Ted Hill.
Теоретические выкладки предлагаемого инструмента представлены в этом материале: «Закон Бенфорда и распределения под него попадающие».
В Википедии этот закон сформулирован так: если у нас основание системы счисления b (b > 2), то для цифры d (d ∈ {1, …, b − 1}) вероятность быть первой значащей цифрой составляет:

На основании сказанного, получаем механизм градации качественных признаков, следующим образом.
Выбираем количество интервалов, ну допустим 5, то есть четыре градации и один серединный интервал. Значит b = 6, получаем вероятности для интервалов:
1-й интервал — 0,386853;
2-й интервал — 0,226294;
3-й интервал — 0,160558;
4-й интервал — 0,124539;
5-й интервал — 0,101756.

Из статистики частотности, слов оценивающих качественные признаки, составляем ряд по возрастанию и проставляем индекс. Проводим преобразование частотности к вероятности высказывания. Далее аккумулируем вероятности от хвоста, до тех пор, пока не получим значение равное крайнему ряду (5-му), в нашем случае – 0,101756 и слова (качественные определения), вероятности которых попадают в эту сумму, относим к 5 диапазону. Далее по убывающему индексу проводим дальнейшее суммирование, пока не подойдем значению вероятности 4-го диапазона и, далее, аналогично, к значению первого интервала.
В результате мы получаем четкие подмножества с реальной числовой оценкой.
Не буду обнадеживать, что подбор синонимов легкое дело. Так как каждый сам для себя определяет удобное ему соотношение результат/усилия.
Источник: https://habr.com/ru/post/459052/


Интересные статьи

Интересные статьи

В один из будничных дней, под вечер, от моего начальника прилетела интересная задачка. Прилетает ссылка с текстом: «хочу отсюда получить все, но есть нюанс». Через 2 часа расскажешь, ...
Привет! За последние четыре месяца мы выпускали фичи и между релизами, поэтому в этой статье о том, что нового появилось в DataGrip за это время. Она приурочена к нашему новому релизу...
Недавно мне довелось поработать над приложением, которое должно было контролировать скорость своих исходящих подключений. Например, подключаясь к одному URL приложение должно было ограничить се...
Пришла как-то к нам заявка на услуги облака. Мы прикинули в общих чертах, что от нас потребуется, и отправили в ответ список вопросов для уточнения деталей. Затем проанализировали ответы и поняли...
Сегодня мы открываем новую рубрику, в которой будем рассказывать о наиболее популярных и доступных сервисах, библиотеках и утилитах для студентов, ученых и специалистов. В первом выпуске погов...