Шаблоны статистической обработки данных по ГОСТ в JupyterLab и MS Exsel

Моя цель - предложение широкого ассортимента товаров и услуг на постоянно высоком качестве обслуживания по самым выгодным ценам.

Однажды студент рассказал как сдал зачет по программному продукту, а на следующем курсе не сумел его использовать. Рассказал и пожал плечами. А я запомнил, что цель любого курса – решение собственных задач после курса. По веснам веду статистику у медиков и придумал шаблоны для обработки собственных данных методами из национальных стандартов. Делюсь результатом.

На примере значений роста и веса 5000 мужчин и 5000 женщин в MS Exsel и Jupiter Lab построены гистограммы и ящики с усами, рассчитаны среднее, дисперсия, стандартное отклонение, дана интервальная оценка генеральной средней и оценка вероятности попадания в заданных интервал. В MS Exsel дополнительно рассчитан коэффициент корреляции и оценена его значимость. На основе произвольной задачи из учебника добавлен дисперсионный анализ ANOVA.

Команды и формулы подробно прокомментированы. Не зная инструментария Excel и Python, и не залезая в справочники, можно заменить данные, изменить форму отчета и дизайн графиков.

Методы, термины и определения в учебниках по статистике различаются, поэтому по возможности использованы термины и методы из ГОСТ Р 50779.10-2000 "Статистические методы. Вероятность и основы статистики. Термины и определения", ГОСТ Р ИСО 3534-1-2019 "Статистические методы. Словарь и условные обозначения. Часть 1. Общие статистические термины и термины, используемые в теории вероятностей", и ГОСТ Р 50779.21-2004 "Статистические методы. Правила определения и методы расчета статистических характеристик по выборочным данным".

Скачать все можно здесь: https://disk.yandex.ru/d/bg6ORywD3bZBxA

Текущая версия шаблона в MS Exsel "20210608 mystat.xlsx". Шаблон JupiterLab "20210401-7_mystat.ipynb" запускается по инструкции в файле "Что делать.txt".

Шаблоны сделаны не для студентов, а совместно со студентами во время семестра. И эти шаблоны – процесс, а не результат. В следующем семестре процесс продолжится. Если найдете неточность или не найдете нужного вам метода сообщайте, дорабатывайте, присылайте. Обновлю версию и вставлю ваше имя или ник в поле «Участники разработки».

Если вы хотите доработать шаблон и выложить его где-то еще, предлагаю добавить себя в список авторов, сославшись на авторов предыдущей версии и на этот пост.

Источник: https://habr.com/ru/post/599375/


Интересные статьи

Интересные статьи

Всем привет! Это мой дебют на Хабре с переводом классной статьи по теме инжиниринга данных. Оригинал статьи:From Data Driven to Driving Data— The dysfunctions of Data EngineeringО том, как дата инжене...
Системы хранения данных, основанные на ДНК, могут стать выходом для человечества, которое генерирует все большие объемы информации. По сравнению со всеми прочими носителями у ДНК просто...
Привет, Хабр! Сегодня хотим представить вам проект студентов магистратуры «Наука о данных» НИТУ МИСиС и Zavtra.Online (подразделении SkillFactory по работе с университета...
Нормализация. От нее мы или страдаем или пишем собственное решение с множеством проверок на существование сущности в общем хранилище. Попробуем разобраться и решить эту проблему! ...
Приветствую, друзья! Недавно прочитал законопроект об электронных паспортах. Он натолкнул меня на ряд неоднозначных выводов. Хочу поделиться ими с вами. Основные изменения состоят в том, что д...