Группа исследователей из Медицинской школы Университета Индианы разработала специализированное программное обеспечение для биоинформатики, предназначенное для выявления редких генетических вариантов в исследованиях секвенирования всего генома. Зилин Ли, доктор философии, доцент кафедры биостатистики и медицинских данных, был первым и соавтором недавней публикации в журнале Nature Methods, в которой подробно описывается тест набора вариантов на ассоциацию с использованием среды конвейера аннотаций (или STAARpipeline).
«Несмотря на то, что существуют сотни миллионов редких генетических вариантов , их было сложно изучать, потому что не было удобного, масштабируемого и надежного конвейера для всестороннего анализа редких вариантов, который требует оценки наборов вариантов, а не отдельных вариантов», — Ли. сказал.
STAARpipeline позволяет исследователям оценивать наборы редких некодирующих генетических вариантов, что поможет провести генетические исследования. Некодирующие генетические варианты — это части генома, которые не кодируют аминокислоты, молекулы, которые объединяются в белки. Более 98 процентов ДНК человека некодирующие.
«Редкие варианты наблюдаются в 99% генома человека и являются основным источником отсутствия наследуемости сложных признаков и заболеваний», — сказал Ли.
Чтобы использовать STAARpipeline, исследователи вводят в программу данные о генотипе ( генетический код ) и фенотипе (код сложного признака или болезни). Программное обеспечение анализирует эти данные и идентифицирует редкие варианты, группируя варианты в восемь функциональных категорий в геноцентрическом анализе и в скользящие окна фиксированного размера и недавно предложенные адаптивные к данным динамические окна в негенецентрическом анализе. Геноцентрический анализ фокусируется на вариантах в генах или рядом с ними, в то время как негеноцентрический анализ фокусируется на вариантах в межгенной области, которая представляет собой участок ДНК, расположенный между генами. Затем программа включает несколько вариантов функциональных аннотаций для каждого варианта, установленного для дальнейшего увеличения мощности анализа, и суммирует результаты для пользователя.
Исследовательская группа уже протестировала STAARpipeline на больших выборках, включая 40 000 человек из программы Trans-Omics Precision Medicine Национального института сердца, легких и крови (NHLBI). В ходе этого анализа STAARpipeline обнаружил 49 значимых ассоциаций в геноцентрическом некодирующем анализе, 35 из которых были обнаружены на основе шести новых предложенных некодирующих категорий. Кроме того, анализ динамического окна с адаптивным размером данных выявил 43 неперекрывающиеся значимые ассоциации в некодирующем геноме, что на 19,4% больше, чем при классической процедуре скользящего окна фиксированного размера.
STAARpipeline основан на STAAR, еще одной программе, созданной Ли и его коллегами, которая представляет собой тест набора генетических вариантов для поиска связей и ассоциаций с использованием аннотационной информации.
«Мы считаем, что STAARpipeline может быть расширен для анализа сотен миллионов вариантов данных секвенирования всего генома», — сказал Ли. «Поскольку редкие варианты были обнаружены в 99 процентах генома человека, эта программа устраняет важный пробел в информационном анализе».
Теги: ИИ