Мой дашборд и анализ динамики распространения инфекции COVID-19

Моя цель - предложение широкого ассортимента товаров и услуг на постоянно высоком качестве обслуживания по самым выгодным ценам.


Хочу поделиться своим дашбордом и анализом динамики распространения инфекции. Дашборд написан на Google Таблицах и Google Apps Script.

Примечание: Автор не претендует на объективности данных. Есть множество прямых и косвенных факторов, влияющих на достоверность текущей статистики. По окончании Пандемии будет проведены профессиональные исследования и метаанализ, которые позволят объективно оценить Пандемию в цифрах. Данная статья опубликована в целях ознакомления с инструментом для анализа динамики распространения инфекции на основе данных, которые публикует ВОЗ в своих отчетах.

Дашборд доступен по этом адресу. Данные автоматически обновляются на ежедневной основе по мере публикации отчетов ВОЗ. Содержимое не адаптируется под мобильные устройства. Лучше смотреть на большом экране.

Зачем


  • Я занимаюсь инвестициями, слежу за ситуацией на фондовых рынках и в текущей ситуации мне необходимо держать руку на пульсе, чтобы принимать правильные решения. Когда ситуация с новым коронавирусом стала критической, я понял что мне не хватает инструмента для отслеживания динамики распространения COVID-19;
  • Много недостоверной информации. Для примера можно взять анализ Университета Джонса Хопкинса, на который часто ссылаются в средствах массовой информации. На момент создания Дашборда, аналитики университета испытывали сложности с аггрегированием данных, появлялись ошибки. Я сомневался что их анализ достоверно отображает текущую ситуацию;
  • На момент написания статьи появилось много дашбордов и аналитики, но зачастую они отображают сухие цифры, визуализацию на основе карт, но не отображают динамики;
  • Удобно открыть ноутбук с утра и на одном экране узнать что произошло за прошедшие сутки.
  • Это отличная возможность попрактиковаться с Google Таблицами и Google Apps Script


Данные


Изначально я использовал данные из отчетов ВОЗ, но они то допускали ошибки при переносе данных из отчетов в базу, то меняли время, относительно которого считали новые случаи заражения. В итоге я переписал скрипты на использование данных от ECDC. Это те же данные ВОЗ, но со стабильным временем публикации и без ошибок.

На что смотреть




  • Информеры. Они отображают текущую ключевую динамику по миру;
  • Динамику общего количества случаев заражения в мире(TOTAL CASES);
  • Динамику новых случаев заражения по миру(DAILY NEW CASES);
  • Динамику распространения инфекции и летальных исходов по странам;
  • Визуально оценить ситуацию на карте мира;
  • Динамику летальности(CFR);
  • Длительность пикового периода эпидемии по странам;
  • Корреляцию широкого индекса S&P 500 с количеством новых случаев заражения;
  • Узнать насколько критична ситуация в конкретной стране с поправкой на численность населения этой страны.


Летальность(CFR)




В Интернете много споров на счет летальности нового коронавируса, есть статьи на Хабре. Я не хочу вступать в очередную полемику, я просто оперирую данными, которые у нас есть.

Да, определенно есть проблемы со сбором статистики, есть проблемы в массовом тестировании, которые позволили бы более точно судить о летальности. На точность данных также влияет такие вещи как сезонная эпидемия гриппа в странах Европы, высокая смертность в целом в некоторых странах, вроде Индии, которая возможно в совокупности с проблемами инфраструктуры здравоохранения просто размывает статистику по летальности нового коронавируса. Я допускаю что в странах с большим количеством заражений из-за нагрузки на систему здравоохранения просто невозможно своевременно определить причину смерти, либо наоборот приписать ее новому вирусу. Но, определенно точно можно сказать что многие недооценили критичность ситуации.

Люди путают смертность с летальностью. Согласно ВОЗ и CDC летальность сезонного гриппа — 0.1%, коронавируса SARS-CoV-2 — 4.45% на момент написания статьи(26.03.2020). В некоторых странах, таких как Италия, летальность достигает 9% на текущий момент.

Да, летальность у нового коронавируса не такая высокая как у MERS-CoV и Ebola(34% и 50%), но контагиозность, вирулентность, скорость и масштабы распространения у нового коронавируса не идут ни в какое сравнение — они намного выше.

Пиковый период


Для работы мне необходимо было знать сколько длится пиковый период эпидемии в конкретной стране. Если принять в расчет, что большинство стран примут более-менее соразмерные меры тотального карантина, то опираясь на опыт других стран, можно будет судить когда эпидемия пойдет на спад в конкретной стране.

Я не нашел какой-либо методологии определения пикового периода, поэтому мне пришлось импровизировать. Опираясь на динамику по количеству новых заражений, я решил определить такое значение новых заражений, на основе которого можно было бы судить, прошел ли пик эпидемии или страна находится в пиковом периоде. Среднее значение и медиана не совсем подходили, поэтому я решил использовать Квартиль. Я убрал дни с нулевым значением из выборки данных по новым заражениями, после такой нормализации я использовал функцию определения значения Второго Квартиля. Далее формула считает количество дней, которые превышают значение Второго Квартиля — это и есть длительность пикового периода.

Если применить такой расчет для всех стран, то его вполне можно использовать для сравнения пикового периода по странам. У этого метода есть одна особенность, длительность пикового периода может изначально быть больше, даже при условии если эпидемия в одной из стран началась позже другой. Например, если рассмотреть динамку США, то по таймлайну видно что в этой стране был резкий рост без постепенного нарастания. В следствие чего мы имеем малое количество дней с малым значением новых случаев заражений и большое количество дней с высоким значением. Поэтому на данный момент пиковый период в США составляет 21 день, а в Иране, где эпидемия началась раньше — 18. При этом длительность пикового периода в Иране может расти, а в США оставаться постоянной, пока эпидемия в США не пойдет на спад.

Пиковый период будет более достоверно отображать ситуацию к концу эпидемии. Можно взглянуть на таймлайны Китая и Южной Кореи, где пиковый пик эпидемии прошел. В Китае он составлял — 36 дней, в Южной Корее — 27. Несмотря на то, что новые заражения и в Китае и в Южной Корее все еще присутствуют, расчет пикового периода прекрасно отображает эффективность пресловутых методов тотального карантина и методов сглаживания кривой, принятые в Южной Корее. Надо учитывать что существует риск вероятности второй волны эпидемии в Южной Азии. По причине поспешного снятия карантина, либо из-за импортирования вируса из соседних стран, где эпидемия только начинается. Поэтому, пиковый период может увеличиваться.

Сводная таблица по странам


Здесь отображается вся ключевая информация по странам, а также есть таймлайны, по которым можно визуально оценить кривую эпидемии.



Данные на карте мира


Визуализация на карте позволяет оценить текущие очаги распространения инфекции.



Что планирую добавить


  • Отдельные таблицы по количеству заражений с поправкой на численность населения;
  • Визуализацию динамики на картах мира с поправкой на численность населения;
  • Визуально выделить пиковые периоды, если эпидемия в конкретной стране на данный момент находится в пиковом периоде.


Обратная связь


Буду рад услышать ваши пожелания и рекомендации, чтобы сделать Дашборд еще информативнее.
Источник: https://habr.com/ru/post/494514/


Интересные статьи

Интересные статьи

Привет, мир Хабр! В этом посте я хотел бы поделиться своим опытом сбора и анализа базы игр сайта Metacritic.com, рассказать о том, что получилось, и что ещё в планах. Надеюсь, что ...
Тема COVID-19 сейчас звучит из каждого утюга, и каждый, кто был военным аналитиком в январе, экономистом в нефтяной отрасли в феврале, сейчас внезапно превратился в вирусолога. Тем не менее из ин...
Пока в Стокгольме проходила 118-я Нобелевская неделя, в офисе разработки статического анализатора кода PVS-Studio готовился обзор кода проекта ROOT, используемого в научных исследованиях для обра...
Получить трафик для интернет-магазина сегодня не проблема. Есть много каналов его привлечения: органическая выдача, контекстная реклама, контент-маркетинг, RTB-сети и т. д. Вопрос в том, как вы распор...
Здравствуйте. Я уже давно не пишу на php, но то и дело натыкаюсь на интернет-магазины на системе управления сайтами Битрикс. И я вспоминаю о своих исследованиях. Битрикс не любят примерно так,...