Аннотация:
Эксперимент по секвенированию транскриптома (RNA-seq) стал практически рутинной процедурой для изучения как модельных организмов, так и для сельскохозяйственных культур. В результате биоинформатической обработки таких экспериментов получаются объемные разнородные данные, представленные нуклеотидными последовательностями транскриптов, аминокислотными последовательностями и их структурно-функциональной аннотацией. Полученные данные важно представить широкому кругу исследователей в виде баз данных (БД). В работе предложен гибридный подход к созданию молекулярно-генетических баз данных, которые содержат информацию о последовательностях транскриптов и их структурно-функциональной аннотации. Сущность подхода в одновременном хранении в БД информации как структурированного типа, так и слабо структурированных данных. Технология использована для реализации БД транскриптомов сельскохозяйственных растений. В работе рассматриваются особенности реализации такого подхода и примеры формирования как простых, так и сложных запросов к такой базе данных на языке SQL. База данных OORT реализована для пяти сельскохозяйственных растений, она находится в свободном доступе по адресу: https://oort.cytogen.ru/.
Ключевые слова:
база данных, индексация, запросы, растения, SQL, RDBMS, NoSQL, транскриптомы, сельскохозяйственные культуры.
Работа была поддержана грантом РНФ № 18-14-00293 (разработка структуры и информационное содержание БД OORT) и бюджетным проектом № 0324–2019-0040-С-01 (предоставление вычислительных ресурсов ЦКП “Биоинформатика” для реализации БД и их системная поддержка).
Материал поступил в редакцию 26.10.2020, 14.12.2020, опубликован 28.12.2020
Тип публикации:
Статья
Образец цитирования:
А. М. Мухин, М. А. Генаев, Д. А. Рассказов, С. А. Лашин, Д. А. Афонников, “Технология структурирования и обработки транскриптомных данных на основе гибридного использования RDBMS и NoSQL подходов”, Матем. биология и биоинформ., 15:2 (2020), 455–470
\RBibitem{MukGenRas20}
\by А.~М.~Мухин, М.~А.~Генаев, Д.~А.~Рассказов, С.~А.~Лашин, Д.~А.~Афонников
\paper Технология структурирования и обработки транскриптомных данных на основе гибридного использования RDBMS и NoSQL подходов
\jour Матем. биология и биоинформ.
\yr 2020
\vol 15
\issue 2
\pages 455--470
\mathnet{http://mi.mathnet.ru/mbb442}
\crossref{https://doi.org/10.17537/2020.15.455}
Образцы ссылок на эту страницу:
https://www.mathnet.ru/rus/mbb442
https://www.mathnet.ru/rus/mbb/v15/i2/p455
Эта публикация цитируется в следующих 3 статьяx:
Artem Yu. Pronozin, Dmitry A. Afonnikov, “ICAnnoLncRNA: A Snakemake Pipeline for a Long Non-Coding-RNA Search and Annotation in Transcriptomic Sequences”, Genes, 14:7 (2023), 1331
O. Kuzmenko, T. Dotsenko, V. Koibichuk, “Development of databases structure of internal economic agents financial monitoring”, Financ. Credit Act., 3:38 (2021), 204–213
O. Kuzmenko, T. Dotsenko, V. Koibichuk, “DEVELOPMENT OF DATABASES STRUCTURE OF INTERNAL ECONOMIC AGENTS FINANCIAL MONITORING”, ФКДПТП, 3:38 (2021), 204