Как мы с помощью NLP облегчаем поиск людей с суицидальными наклонностями

Прежде чем перейти к статье, хочу вам представить, экономическую онлайн игру Brave Knights, в которой вы можете играть и зарабатывать. Регистируйтесь, играйте и зарабатывайте!

В этой статье я бы хотел рассказать о совместной работе с @elizavetakluchikova и командой над тем, как бы применяем машинное обучение для облегчения поиска и оценки людей с суицидальными наклонностями по постам в социальных сетях, в частности, в Твиттере.

Прежде всего, мы отсылаем читателя к предыдущей статье, где рассказывалось о суицидальных играх, о команде людей, которая за шиворот вытаскивает детей из петли или с подоконника, а также о проблемах, с которыми сталкивается команда. Я прочитал эту статью и подумал, что мог бы помочь им, применив свои знания в обработке естественного языка. В результате работы, был собран датасет, который можно скачать здесь, а также была написана научная статья, которая была опубликована на конференции Диалог 2022.

Этот же пост был написан совместно с Лизой, где мы углубленно рассказываем о психологической подоплеке работы, а также о некоторых деталях работы, которые не были упомянуты в статье.

Содержание

Глобальная проблема
Какие пережитые события и состояния характерны для людей с повышенным суицидальным риском
Что мешает людям обращаться за психиатрической помощью
Четвертый фактор - негативные убеждения
Так, а причем тут социальные сети?
Один в поле – не воин
Последовательность работы
Постановка задачи
Сбор и разметка данных
Анализ и выявление признаков
Построение модели
Эксплуатация модели
Дальнейшие планы
Помогите нам
Благодарности

Глобальная проблема

Вообще, когда мы говорим о разных психологических трудностях и расстройствах, довольно характерная проблема заключается в том, что люди просто не обращаются за помощью. Например, при клинически выраженной депрессии время от начала заболевания до первого обращения к специалисту может занять несколько лет. Это связано как с тем, что некоторые психические заболевания (та же депрессия) не выражают себя явно, так и с рядом социально-культурных факторов, которые мы разберем чуть позже.

Другой проблемой может являться то, что человек недостаточно хорошо функционирует, чтобы за помощью обратиться. Это может выражаться как в тотальной неспособности к целенаправленной деятельности, как в случае депрессии, так и, например, в локальных трудностях с коммуникацией своих потребностей, как при выраженной социальной тревоги.

Если же говорить про людей с высоким риском суицида, то парадокс заключается в том, что они демонстрируют особенные трудности в обращении за помощью, при том, что наиболее остро в ней нуждаются.

Какие пережитые события и состояния характерны для людей с повышенным суицидальным риском

Здесь мы кратко опишем типичные сценарии из жизни, которые значительно повышают вероятность развития суицидального поведения

Проблемы в семье - насилие, неисполнение родительских обязанностей, конфликтные отношения между родителями и т.д.
Насилие - буллинг в школе, кибербуллинг, сексуальный абьюз и т.д.
Особенности развития - нетипичное нейроразвитие, психосексуальное развитие.
Психические расстройства - панические атаки, социальная фобия, депрессия, БАР, ПРЛ, РПП, химические зависимости.

Что мешает людям обращаться за психиатрической помощью

Давайте разберем, какие же социально-культурные факторы мешают людям обращаться за помощью.

Первой в списке идет стигматизация такой помощи, а также людей с психическими заболеваниями. Если вы поспрашиваете своих знакомых, чем грозит психиатрический диагноз, то вам обязательно встретится что-то похожее на “ну у меня возникнут проблемы с работой/получением прав/получением разрешения на оружие/т.д.”. Кроме этого добавляется еще боязнь травли, в основном, для подростков, и отчуждения, в основном, для взрослых, т.к. психиатрический диагноз автоматически притягивает к себе образ юродивого, “больного на голову” или “опасного для окружающих”.

Следующим фактором является насильственный или безрезультатный опыт получения помощи. Несмотря на то, что метод карательной психиатрии в нашей стране перестали применять с развалом Советского союза, отголоски той практики трансформировались в методы воспитания некоторых родителей, когда в адрес детей поступают угрозы по типу “если будешь плохо себя вести, то сдам тебя в психушку”. К сожалению, в некоторых случаях угрозы переходят в действие. Другим отголоском этого является то, что если ребенок говорит о своей гендерной дисфории (грубо говоря, он мальчик внутри тела девочки или наоборот) или гомосексуальности, психиатрическая помощь может принимать форму конверсионной терапии, когда ребенка насильственно пытаются сделать “нормальным”, что наносит непоправимый вред человеку, и без того находящемуся в тяжелом психическом состоянии.

Эти и некоторые другие случаи сопровождает переживание безрезультатности – человек приходит возможно даже с собственным желанием решить какие-то внутренние проблемы, но в конечном итоге не получает ничего. В более общем случае, врачи часто оказывают неквалифицированную помощь – по разным причинам, из которых можно ярко выделить две: непрофессиональность и слабая заинтересованность. Возможно, вы могли наблюдать то же самое, когда ходили в обычные государственные больницы. Большое ли у вас потом было желание туда вернуться?

Третий фактор – банальное отсутствие знания куда обратиться за помощью. Все знают, где находится больница, а также что в неотложном случае надо звонить 112. Но знаете ли вы, где находится ближайший психоневрологический диспансер, например? А знаете ли координаты кризисных линий – таких, например, как Твоя Территория или детский телефон доверия (8 800 2000 122)? Кризисная линия бесплатно предоставляет услугу психологической поддержки. На нее можно позвонить или написать и поделиться практически любыми проблемами, а профессиональные психологи помогут успокоиться и подскажут как быть в данной ситуации. Отсутствие информированности о подобных линиях помощи и поддержки тесно связано со вторым фактором - субъективно кажется, что такие службы не смогут помочь или обязательно передадут информацию о звонившем в “соответствующие органы” (после чего на дальнейшей жизни можно поставить крест). А диспансеров боятся потому, что это и есть те самые “соответствующие органы”.

Четвертый фактор - негативные убеждения

Этот фактор мы рассмотрим отдельно, т.к. можно сказать, что он включает в себя первые два фактора и именно он демотивирует человека от поиска и обращения за помощью. В частности, мы рассмотрим, как этот фактор влияет на формирование суицидальных установок.

Негативные убеждения можно представить в виде треугольника, где на вершинах мы обозначим объект этих убеждений. Заметим, что группы убеждений взаимодействуют между собой.

Вот так выглядят негативные установки о себе

Я скучный, неинтересный, поэтому никто не захочет выслушивать мои жалобы.
Я сломанный, дефектный, поэтому меня все равно не получится вылечить.
Я слабый и беспомощный,поэтому я не смогу справиться со своим состоянием.
Я не имею ценности, поэтому если я погибну, это не будет большой потерей.

Первая и четвертая установки часто формируются при регулярной травле и социальной изоляции, особенно, если это происходит и внутри семьи. Вторая же формируется при закономерном сравнении себя с другими, в случае выраженных особенностей развития. А когда неудачные попытки справиться с проблемой сталкиваются с социальной установкой на то, что нужно справляться со своими проблемами самостоятельно, формируется третья установка.

А вот так выглядят негативные установки о мире:

Этот мир – ужасное место. Ничего удивительного, что мне так плохо; как может быть иначе?
Другие люди – холодные и равнодушные, поэтому им нет смысла жаловаться и обращаться к ним за поддержкой.
Другие люди будут испытывать слишком большие неудобства, если я буду говорить им о своих переживаниях, так что лучше их не беспокоить.
Специалисты на самом деле бессильны чем-то помочь; их единственная цель – обогащение, поэтому к ним нет смысла обращаться.

Опять же, здесь мы видим последствия травли и социальной изоляции (первый фактор). Вторая и третья установка формируются тогда, когда человек делится своими проблемами, а ему начинает рассказывать, что он все придумал, что на самом деле он очень хорошо живет, а вот дети в Африке голодают. Также, вполне естественно, что не каждый готов выслушивать проблемы другого – хотя бы потому, что это так или иначе портит настроение слушающему. Поэтому, послушав раз-другой, слушающий может начать избегать разговоров, подавая сигнал для формирования третьей установки. Четвертая же установка является продуктом второго фактора – вредительской и неквалифицированной помощи.

И, наконец, негативные убеждения о будущем выглядят так:

Поскольку я пропащий человек, ничего хорошего мне не светит, поэтому нет смысла пытаться улучшить свою жизнь.
Если я буду лечиться у психиатра, эта информация потом обязательно всплывет, и мне не позволят поступить в ВУЗ и не возьмут ни на одну работу, поэтому лучше не лечиться вовсе.
Моя семья все равно не позволит мне получить лечение, поэтому я не буду сообщать о своих симптомах.

Первая установка является чисто логической. Если человек не видит ничего хорошего в мире и себе и на полном серьезе поставил на себе крест, то следствием является отсутствие каких-либо целей в принципе. А там где нет цели, нет и мотивации что-то делать. Вторую установку мы уже обсуждали выше: мы пока, как общество в целом, не созрели признать, что ментальные проблемы существуют и их надо лечить с помощью профессионалов, как, например, язву желудка или аппендицит. Третья установка перекликается со второй установкой – про мир, где люди холодные. Страшно, когда эти люди – твоя семья. Мотивация у родителей может быть самая разная, включая представление о том, что в ВУЗ нельзя будет поступить и на работу не возьмут.

Теперь давайте сделаем шаг назад и посмотрим, на то, как переплетаются эти установки и факторы. Мы можем видеть, что они подпитывают друг друга и человек, особенно неокрепший умом ребенок, оказывается в ловушке собственных убеждений. С какого то момента, человек незаметно начинает считать свое состояние нормальным, поэтому даже не думает о том, чтобы обратиться за помощью. Проблема в том, что подобные установки очень сильно конфликтуют с тем, что он видит вокруг – а он видит людей смеющихся, влюбляющихся, проводящих время вместе, преуспевающих в чем-то – и с тем, что происходит внутри: такое состояние конфликта сил не прибавляет и вот уже кажется, что выход в окно неплохой способ прекратить этот кошмар или, неосознанно, добиться того, чтобы, наконец, другие люди услышали крик о помощи.

Так, а причем тут социальные сети?

В процессе развития суицидальных симптомов человек не перестает искать способы облегчения своих страданий, прежде чем перейти к радикальному решению. Часто, чтобы облегчить негативное душевное состояние, достаточно бывает выговориться, поделиться наболевшим и социальные сети выступают здесь площадкой, где это можно сделать. Таким образом, посты в социальных сетях служат клапаном внутреннего напряжения, сродни гласу вопиющего в пустыне - ты написал куда-то о своих чувствах, вынес их из себя и не так важно, в сущности, что это, может быть, никто и не прочитает.

Однако простое ответное сообщение в духе “я тебя понимаю”, случайный ретвит или лайк разрушают установку о том, что до человека никому нет дела, что снижает суицидальный риск, да и, в целом, градус внутренней напряженности. А уж если человеку кто-то скажет “расскажи об этом подробнее”, то у него вообще переворачивается мир. Именно на этом механизме работают волонтеры. Они отыскивают потенциальных суицидентов, просят рассказать о проблеме и делятся информацией о ресурсах помощи – например, о кризисных линиях, где уже профессионалы смогут им помочь. На этой же, кстати, механике работают и группы смерти: куратор суицидальной игры – это такой человек, который демонстрирует живую заинтересованность в игроке и его проблемах. Только он настаивает на том, что лучшее решение – это как раз суицид.

В таком крайнем случае, как на скрине выше, люди сообщают в социальных сетях о своем намерении уйти из жизни. Если вовремя отловить такое сообщение, можно успеть избежать трагедии.

Ниже представлены два скрина из твиттера, показывающие как могут выглядеть сообщения, помогающие выпустить пар.

Один в поле – не воин

Проблема в том, что таких людей достаточно много, и они не только пишут о своих душевных переживаниях, но и делятся произошедшим с ними за день, обсуждают тренды, смеются над мемами и т.д. Причем на нейтральные темы они пишут гораздо больше, чем на резко негативные. Поэтому искать такие сигнальные сообщения бывает затруднительно.

Если пользоваться таким наивным подходом, как поиск по словам, то окажется, что в выдачу попадает множество нерелевантных постов, где слова используются не в том контексте, с саркастическим или ироническим оттенком. Прибавить к этому катастрофически малое количество волонтеров, и получается весьма сложная ситуация, когда значительную часть времени человек тратит на просеивание нерелевантной информации. Собственно, эта проблема была отражена в прошлой статье Лизы.

Когда я ее прочел, мне пришла в голову идея: а почему бы не фильтровать такие неинформативные сообщения, чтобы упростить работу волонтера? Предполагалось, что получится сделать некий сервис, куда волонтер мог бы ввести ссылку на твиттер-аккаунт, а в ответ выводились бы сигнальные сообщения, по которым волонтер уже мог бы решать, что делать. Я написал Лизе о своей идее, и работа закипела.

Последовательность работы

На картинке ниже представлена последовательность работ по реализации этой идеи. Я буду стараться описывать ход работ так, чтобы его мог понять человек, никогда ранее не сталкивавшийся с проектами машинного обучения, но для желающих разобраться в деталях оставлю ссылку на этот замечательный пост.

Постановка задачи

Любой проект, включая проекты в машинном обучении, начинается с постановки задачи, от этого зависит успех всего предприятия.

Итак, мы хотим, чтобы финальная модель определяла сигнальные сообщения из всей массы сообщений. Для этого мы разработали следующую классификацию сообщений

Исторические или текущие негативные события – сообщения, носящие фактический характер, описывающие негативные ситуации, которые могут произойти с человеком, такие как попытки и факты изнасилования, проблемы с родителями, издевательства в школе и травля, бедность (личная или семейная).
Текущее негативное эмоциональное состояние – сообщения, содержащие отображение субъективного негативного отношения к себе и окружающим: сообщения о том, что нет сил, терпения, присутствует желание умереть, ощущение одиночества, ненависть к себе и т.д.
Сообщения о намерении совершить суицид, содержащие указания на конкретные действия, как на первом скриншоте. Сюда же входит поиск способов совершения суицида
Суицидальная тематика – все то, что как-то связано с суицидом, но трудно поддается классификации или не попадает в другие категории.
Сообщения, не имеющие отношения к суицидальной тематике

Первая категория была сформирована по соображениям, что негативные события могут оставлять эмоциональные воспоминания, которые, актуализируясь при встрече с ассоциативно связанными триггерами, могут дестабилизировать человека, увеличивая риск суицида. Чем больше таких воспоминаний и триггеров в окружающей среде, тем более уязвимым является человек.

Вторая категория является косвенным показателем психологического состояния человека: если увеличивается плотность сообщений с таким содержанием, то это говорит о психической нестабильности человека в моменте.

Название третьей категории говорит само за себя в контексте поиска людей с суицидальным поведением.

Иногда люди выражают свои эмоции и состояния напрямую, а используют косвенные способы, как например: поэзия, связанная со смертью, или какие-то выражения, или цитаты. Поскольку их трудно отнести к предыдущим категориям, мы выделили их отдельно.

Сбор и разметка данных

Поскольку на тот момент, когда я присоединился к команде, в наличии уже были обработанные аккаунты, мне оставалось только написать краулер, который ходил бы по этим аккаунтам и собирал тексты постов. Хочу заметить, что в качестве целей использовались только те аккаунты, которые были помечены как “подозрительные” и “кризисные”. Первые – это такие аккаунты, где проскакивают сообщения о тяжелом прошлом, но также присутствует позитивная информация: например, о друзьях или целях в жизни. В кризисные же попадают аккаунты, где сообщается о самоповреждениях, тяжелой судьбе и отсутствии помощи. Сюда же входят люди, сообщающие о совершенных или планируемых попытках суицида.

По мере накопления данных, мы запустили процесс разметки данных согласно вышеприведенной классификации. Поскольку волонтеров было мало, нам необходимо было привлечь сторонних людей.

Мы составили инструкцию, в которой описали категории, явления, подпадающие под определенные категории, а также дали некоторые общие рекомендации.

Сперва мы прибегли к краудсорсингу – разметке с помощью большего количества людей за вознаграждение, которую можно организовать на платформе Яндес.Толока. Имея в прошлом неудачный опыт, мы подошли к организации по всем правилам: составили учебный набор из 10 задач на категорию, на котором тренировали пользователей, отбирали тех, кто завершил 90 процентов задач без ошибок, и только затем давали реальные данные. К сожалению, даже такие пользователи не показали хороших результатов на реальных данных, поэтому мы решили нанять индивидуальных разметчиков. Несмотря на их дороговизну относительно краудсорсинга, у индивидуальных разметчиков выше уровень личной ответственности за выполнение задач и, кроме того, они получали регулярные отзывы о своей работе. Также, уже исходя из отзывов разметчиков, мы постоянно улучшали инструкцию.

Среди проблем, с которыми сталкивались разметчики, мы можем выделить:

попытки интерпретировать тексты, основываясь на своих собственных убеждениях и личном опыте, что приводит к неправильной классификации;
неоднозначность некоторых текстов (например, потому что изначально это была серия твитов или ответ на какое-то сообщение).
тексты, содержащие сложные фразеологизмы, сарказм, сокращения и мемы
тексты, подпадающие под две категории.

Хочется также отметить, что мы не могли позволить себе разметить тексты несколькими индивидуальными разметчиками, чтобы обеспечить перекрытие и посчитать согласованность, поэтому, чтобы обеспечить какой-то уровень качества, мы организовали процесс следующим образом.

Разметчики получали тексты в виде блоков по 3-5 тысяч сообщений. В процессе разметки они могли оставить любое количество текстов, в которых они сомневались, на проверку – они должны были указать категорию, которую они считают нужной, и комментарий, почему они так считают, после чего отправить сообщения на супервизию. После того, как блок был размечен, его присылали нам обратно. Мы принимали блок, если в в случайно отобранной пятипроцентной выборе примеров на каждую тысячу было не больше 3 ошибок. Имеется в виду, что если блок был на 3 тысячи, то случайно отбиралось 150 текстов и пределом было 9 ошибок.

Вдобавок к этому, к получившемуся датасету мы применили алгоритм удаления шума TracIn, про который можно более подробно почитать в этой статье.

Анализ и выявление признаков

В первую очередь, было интересно посмотреть на распределение категорий в получившемся датасете. Оно представлена в таблице ниже:

Имя класса	Количество текстов
Нейтральный текст	27619
Негативное эмоциональное состояние	2809
Описание негативных событий	2131
Суицидальная тематика	205
Намерение суицида	21

Как видно, несмотря на то, что аккаунты были отобраны подозрительные и кризисные, нейтральных текстов – подавляющее большинство. Сразу становится понятен масштаб исходной проблемы. Нужно также отметить, что в ходе нашей работы, к сожалению, нам пока не удалось собрать достаточное количество примеров для 3 и 4 категории, поэтому мы исключили их из анализа.

Что обычно рассматривают при анализе текстовых датасетов – это распределение по текстам длины сообщений в токенах (в словах, поясню для читателей, незнакомых с NLP).

Как видно из диаграммы распределения, в целом все классы ведут себя одинаково – и предсказуемо с точки зрения того, что сообщения были написаны на платформе для микроблогов.

Поскольку эмоджи стали значимой частью текстового общения, мы не могли обойти их стороной и решили посмотреть, каким образом эмоджи связаны с категориями. В общей сложности в нашем датасете присутствует 12551 случаев использования эмоджи c набором из 481 уникальных. Мы выделили 10 самых часто встречаемых эмоджи и построили распределение отношения частоты употребления эмоджи к числу текстов в категории по, собственно, категориям. Результат показан на картинке ниже

Как можно видеть, самым частым эмоджи является "громко плачущее лицо"

Источник: https://habr.com/ru/post/672332/

Вернуться к списку

Интересные статьи

Обнаружение новизны изображений с помощью Python и библиотеки scikit-learn

В статье я расскажу, как с помощью библиотек scikit-learn, opencv, numpy, imutilsс выявить новизну входных изображений. Многие программы требуют наличия возможности решить, принадлежит ли ...

Как мы оптимизировали сетевой шейпер Linux в облаке с помощью eBPF

Меня зовут Леонид Талалаев, я занимаюсь разработкой внутреннего облака Одноклассников one-cloud, про которое уже рассказывали на Хабре. Одноклассники – высоконагруженная социальная сеть, и оптими...

Мониторинг Kubernetes с помощью Prometheus и Thanos

Поздравляем! Вам удалось убедить ваше начальство в миграции приложений на микросервисную архитектуру с использованием контейнеров и Kubernetes.Вы очень довольны и все иде...

Мой новый коллега – цифровой аватар. Как и зачем компании создают фотореалистичные 3D-модели людей

Когда за три недели до окончания съемок «Гладиатора» умер Оливер Рид – актер, игравший роль тренера гладиаторов Антония Проксимо, – создателям фильма пришлось срочно переписывать сцен...

ORM в D7 1c-bitrix. Первый подход к снаряду

Реализация ORM в ядре D7 — очередная интересная, перспективная, но как обычно плохо документированная разработка от 1с-Битрикс :) Призвана она абстрагировать разработчика от механики работы с табл...