Правильные ответы и анонс победителя

Моя цель - предложение широкого ассортимента товаров и услуг на постоянно высоком качестве обслуживания по самым выгодным ценам.

Прежде чем перейти к статье, хочу вам представить, экономическую онлайн игру Brave Knights, в которой вы можете играть и зарабатывать. Регистируйтесь, играйте и зарабатывайте!

Мы завершаем цикл статей с практическими задачами о том, как использовать данные генетических тестов. Сегодня публикуем правильные ответы и победителей, которые решили все три задачи быстрее остальных.



Все статьи в нашей серии:
Что такое Полный геном и зачем он нужен
Задача №1. Узнайте пол и степень родства.
Задача №2. Определение популяционной структуры
Задача №3. Конвертация данных и загрузка в сторонние сервисы

Для выполнения тестовых заданий мы использовали 12 образцов из открытых данных проекта «1000 Геномов». Мы переименовали образцы, чтобы участники не могли использовать доступные данные для ответов.


Таблица соответствия оригинальных и использованных в заданиях идентификаторов.


Задача № 1. Узнайте пол и степень родства


Родословная использованных образцов представлена на Рисунке 1. Правильными считались решения, в которых были идентифицированы 3 семьи и 3 генетически не связанных с ними образца — АТ0030, АТ0090 и АТ0066. Их связь с семьей невозможно установить данным анализом, если нет образцов детей. Все 12 образцов должны присутствовать в решении. Оформление родословной также принималось во внимание (Рисунок 2). Мы писали о правилах оформления в первой задаче.



Рисунок 1. Родственные связи образцов тестового датасета по данным «1000 Геномов». Pedigree файл доступен по ссылке.




Рисунок 2. Справа отражен неправильный вариант отображения семьи с одним ребенком: изображено два брака, родственных связей нет.


Задача №2. Определение популяционной структуры


В датасете для задания мы использовали образцы двух суперпопуляций. Визуализация расположения 12 образцов по трем главным компонентам представлена на Рисунках 3 и 4. На точечных диаграммах можно заметить формирование четырех кластеров. Однако они не полностью соответствуют исходным данным о популяционной принадлежности: рисунок 5, две популяции. Мы объясняли причины подобного ярко выраженного и противоречивого обособления образцов в статье. Помимо этого, все образцы, показавшие неожиданное расщепление кластеров, принадлежат суперпопуляции AMR — Ad Mixed American. Смешанность и гетерогенность присуща ad mixed популяциям и может проявляться в наблюдаемой кластеризации.


Рисунок 3. Точечные диаграммы расположения образцов тестового датасета по парам первых трех главных компонент.



Рисунок 4. Точечная диаграмма расположения образцов тестового датасета по трем главным компонентам.



Рисунок 5. Популяционная принадлежность и родословная используемых в тестовом датасете образцов по данным «1000 Геномов». Pedigree файл доступен по ссылке.

На Рисунке 6 показано кластеризационное дерево, построенное по cluster3 файлу. Дерево можно было строить вручную или с использованием любого вида автоматизации, однако оно обязательно должно было соответствовать кластеризации, проведенной с помощью Plink. Деревья, которые не соответствуют структуре и для которых участники использовали другие PCA пакеты, не принимались. Они не отражали найденное Plink решение, поэтому не подходили для подтверждения полученных Plink кластеров.


Рисунок 6. Бинарное дерево кластеризации для тестового датасета из 12 образцов.


Задача №3. Конвертация данных и загрузка в сторонние сервисы


В этой задаче мы попросили участников подготовить данные генетического теста для загрузки в систему интерпретации Promethease и проанализировать полученные результаты. Для проверки ответов нужно было собрать таблицу с идентификаторами образцов тестового датасета, их группой крови и резус-фактором.



Таблица с идентификаторами образцов тестового датасета и обнаруженной системой интерпретации Promethease группой крови и резус-фактором.


Определение победителей


Мы писали, что вручим подарки тем, кто решит задачи быстрее остальных. Поэтому мы учитывали не только правильность ответов, но и время с момента публикации задачи до получения ответа по ней. Время по трем задачам суммировалось и таким образом мы выбрали трех самых быстрых победителей.


Таблица с результатами всех участников.

Участник с почтовым доменом ab12ab, мы не можем с вами связаться. Напишите, пожалуйста, автору статьи в личные сообщения до понедельника. Иначе мы вручим приз следующему участнику по списку.

Победители уже получили письма о выигрыше. Для остальных у нас тоже есть небольшой подарок. До Нового года на сайте Атласа действуют скидки до 50%.
Источник: https://habr.com/ru/company/atlasbiomed/blog/482246/


Интересные статьи

Интересные статьи

В условиях пандемии весь образовательный процесс магистерской программы JetBrains на базе Университете ИТМО, конечно, был перенесён в онлайн. Кураторы программы задумались об этом немного заранее...
Создатели сборок из аккумуляторов для автотранспорта часто сталкиваются с проблемами контроля температуры и зарядки. Масштабирование Акб поэтому всегда связано с определенным риском, и разуме...
Принято считать, что персонализация в интернете это магия, которая создается сотнями серверов на основе БигДата и сложного семантического анализа контента.
Каждый лишний элемент на сайте — это кнопка «Не купить», каждая непонятность или трудность, с которой сталкивается клиент — это крестик, закрывающий в браузере вкладку с вашим интернет-магазином.
Здравствуйте, коллеги! С удовольствием сообщаем, что в наших издательских планах на начало будущего года — превосходная новая книга по глубокому обучению «Generative Deep Learning» от Дэвида Ф...