|
Биоинформатика
Главные компоненты генетических последовательностей: корреляции и достоверность
В. М. Ефимовabcd, К. В. Ефимовe, В. Ю. Ковалеваb, Ю. Г. Матушкинa a Институт цитологии и генетики СО РАН, Новосибирск, Россия
b Институт систематики и экологии животных СО РАН, Новосибирск, Россия
c Новосибирский государственный университет, Новосибирск, Россия
d Томский государственный университет, Томск, Россия
e Высшая школа экономики, Москва, Россия
Аннотация:
Известно, что любой числовой ряд можно разложить на главные компоненты с помощью сингулярного спектрального анализа. Недавно мы предложили новый метод анализа PCA-Seq, который позволяет вычислять числовые главные компоненты для последовательности элементов любой природы. В частности, последовательность может быть символьной, в том числе, нуклеотидной или аминокислотной. При этом неизбежно встают два вопроса: об интерпретации полученных главных компонент и об оценке их достоверности. Для интерпретации главных компонент разумно вычислять их корреляции с любыми числовыми характеристиками элементов изучаемой последовательности, используемыми в данной предметной области – внешними факторами. При оценке достоверности корреляций между последовательностями необходимо учитывать, что стандартные критерии значимости опираются на предположение независимости наблюдений, которое для реальных последовательностей, как правило, не выполняется. В статье рассматривается применение для этих целей якорного бутстрепа, также ранее разработанного авторами статьи. В этом методе предполагается, что объекты могут быть представлены точками метрического пространства и в совокупности составляют в нем некоторую фиксированную структуру, в частности, последовательность. Объектам приписываются те же случайные целочисленные веса, что и при классическом бутстрепе. Этого достаточно для получения бутстреп-распределения коэффициентов корреляции и оценки их достоверности. При исследовании гена SLC9A1 (синонимы APNH, NHE1, PPP1R143) выявились достоверные корреляции первой главной компоненты кодирующей последовательности с гидрофобностью/“трансмембранностью” соответствующих фрагментов аминокислотной последовательности, содержанием в них фенилаланина, а также разностью содержания тимина и аденина в нуклеотидных фрагментах. Похожая закономерность была найдена другими авторами для других генов, весьма вероятно, что она имеет более общий характер.
Ключевые слова:
SSA, PCA-Seq, ген SLC9A1(NHE1), CDS, вторичная структура белка, внешние факторы, якорный бутстреп.
Материал поступил в редакцию 10.05.2021, 30.07.2021, опубликован 10.09.2021
Образец цитирования:
В. М. Ефимов, К. В. Ефимов, В. Ю. Ковалева, Ю. Г. Матушкин, “Главные компоненты генетических последовательностей: корреляции и достоверность”, Матем. биология и биоинформ., 16:2 (2021), 299–316
Образцы ссылок на эту страницу:
https://www.mathnet.ru/rus/mbb468 https://www.mathnet.ru/rus/mbb/v16/i2/p299
|
|