Разработан алгоритм более точного изучения ДНК

Чт, 01/14/2016 - 22:42

Коллектив, состоящий из учёных таких стран, как Германия, Америка и Россия разработал новый алгоритм, способный автоматизировать и увеличить эффективность при поиске генов.

Данную разработку можно отнести к области биоинформатики, которая находится "на стыке наук".

Биоинформатикой называют соединение математических, статистических и информатических методов, которые используются при исследовании биологических молекул – ДНК, РНК и белков. Одной из главнейших задач для биоинформатики можно назвать аннотацию генома – определение участков молекулы ДНК, с которых синтезируются белки и РНК. Во многих исследованиях не нужны данные обо всей ДНК (её длина для одной клетки человека составляет 2 метра), а чаще всего используется информация о генах. На основе поиска сходств между фрагментами последовательности и известными генами или с помощью выявления характерных для генов закономерностей чередования нуклеотидов происходит обнаружение генных участков. Осуществление всего этого процесса происходит при помощи показательных алгоритмов.

Поиск генных участков является своеобразной задачей, в особенности, если он происходит в эукариотических организмах, а к ним относится множество известных их видов, исключая бактерии. Такие сложности происходят из-за того, что подобные клетки передают наследственную информацию достаточно долго по причине "разрывов" в интронах - кодирующих областях и отсутствии признаков того, что эта область является кодирующей.

Алгоритм, который предложили специалисты, может определить области в ДНК, являющиеся или не являющиеся генами. Для этого используется марковская цепь - последовательность случайных событий, в которых будущее зависит от прошлого. Состояниями цепи в таким случае называются нуклеотиды или нуклеотидные "слова". Алгоритм выделает вероятность разбиения генома на кодирующие и некодирующие области. Полученные из РНК данные приносят новую информацию, на основе которой можно создать применяющуюся в алгоритме модель. Некоторые из программ-предсказателей генов могут работать с этими данными для осуществления повышения точности при поиске генов. Но подобные алгоритмы нуждаются в обучающей выборке, на которой будет происходить видо-специфичная тренировка модели. К примеру, программа AUGUSTUS весьма высокоточна, но ей необходима тренировочная выборка из генов. Нужное относящейся к типу само-тренирующихся алгоритмов.

Алгоритм BRAKER1 объединил две таких программы и показал высокоэффективные результаты. Новую программу приобрело около 1500 различных лабораторий и центров. Тестирование алгоритма также выявило его высокую точность в сравнении с другими программами.

Данные инструменты могут оказывать помощь в решении многих задач, ведь точное определение аннотации в геноме очень важно.

К примеру, были опубликованы результаты масштабного проекта "1000 человеческих геномов", который был запущен в 2008 году 75-ю лабораториями и компаниями. В результате были найдены последовательности редких замен в генах, некоторые из которых могут привести к развитию болезней. Во время диагностики генетических заболеваний важно знать замены в участках генов, которые приводят к возникновению болезней. Были расшифрованы геномы различных людей, в частности их кодирующие части и выявлены редкие замены нуклеотидов. В будущем это окажет помощь медикам в диагностике таких сложных заболеваний, как болезни сердца, диабет и рак. Также данный способ поможет изучать анализы крови у детей и предотвращать развитие у них различных заболеваний.

Источник