|
Искусственный интеллект, инженерия данных и знаний
A high-performance genome-wide association study algorithm based on analysis of pairs of individuals
[Быстродействующий алгоритм полногеномного поиска ассоциаций на основе анализа пар объектов]
L. V. Utkina, I. L. Utkinaba a Peter the Great Saint-Petersburg Polytechnic University
b Skolkovo Institute of Science and Technology
Аннотация:
Предложен простой быстродействующий алгоритм полногеномного поиска ассоциаций для оценки основного и эпистатического эффекта влияния маркеров или единичных нуклеотидных полиморфизмов (SNP). Основная идея, лежащая в основе алгоритма, заключается в сравнении генотипов пар объектов популяции и сравнении соответствующих значений фенотипа. В алгоритме используется интуитивное предположение, что изменения аллелей, соответствующих важным SNP у пары объектов, приводят к большому различию значений фенотипа этих индивидуумов. Алгоритм основан на рассмотрении пар индивидуумов вместо SNP или пар SNP. Основным преимуществом алгоритма является то, что он слабо зависит от количества SNP в матрице генотипов. В основном он зависит от количества объектов, которое, как правило, очень мало по сравнению с количеством SNP. Другое важное преимущество алгоритма заключается в том, что он позволяет без дополнительных вычислений обнаруживать эпистатический эффект, рассматриваемый как взаимодействие генов. Алгоритм также может использоваться в случае, когда фенотип принимает только два значения (схема случай–контроль). Кроме того, алгоритм может быть достаточно просто расширен с анализа двоичной матрицы генотипов на случай количественного анализа экспрессии генов. Численные эксперименты с реальными наборами данных, состоящими из популяций удвоенных гаплоидных линий ячменя, иллюстрируют преимущество предлагаемого алгоритма по сравнению со стандартными алгоритмами полногеномного поиска ассоциаций с вычислительной точки зрения, особенно для обнаружения эпистатического эффекта. Пути для повышения эффективности предлагаемого алгоритма также обсуждаются в статье.
Ключевые слова:
полногеномный поиск ассоциаций, ANOVA, машинное обучение, эпистаз, SNP, метрика расстояния.
Поступила в редакцию: 30.09.2017
Образец цитирования:
L. V. Utkin, I. L. Utkina, “A high-performance genome-wide association study algorithm based on analysis of pairs of individuals”, Тр. СПИИРАН, 58 (2018), 5–26
Образцы ссылок на эту страницу:
https://www.mathnet.ru/rus/trspy1004 https://www.mathnet.ru/rus/trspy/v58/p5
|
Статистика просмотров: |
Страница аннотации: | 150 | PDF полного текста: | 50 |
|