Loading...

Mohamed Hassan / Pixabay

Российские ученые создали алгоритм для поиска тандемных повторов  небольших повторяющихся одинаковых участков в аминокислотных последовательностях. Программа получила название Method to Search for Highly Divergent Tandem Repeats (MSHDTR) и позволила проследить образование многих белков путем множественных тандемных дупликаций. Статья опубликована в журнале International Journal of Molecular Sciences.

Тандемные повторы длиной от двух до нескольких десятков аминокислот встречаются в примерно 25% белков и кодируют вторичную или третичную структуру. Существует много программных продуктов и серверов для обнаружения повторов в аминокислотных последовательностях. Они дают довольно точные результаты, предсказывая начало и конец таких повторяющихся аминокислотных мотивов, но плохо определяют повторы с большим количеством вставок и замен аминокислот.

«Эволюционное происхождение новых генов и соответствующих им белков давно интересует исследователей. Одним из способов происхождения генов и белков может быть тандемная дупликация, или удвоение, какого-либо фрагмента ДНК. После такого процесса тандемные повторы в белках могут сильно измениться из-за накопления замен аминокислот, их вставок и делеций. Этот процесс эволюционных изменений необходим для улучшения функциональной активности вновь созданного белка. В результате периодический мотив во всей либо в значительной части аминокислотной последовательности может быть сильно размытым. Данная работа направлена на поиск таких тандемных мотивов в аминокислотных последовательностях. Мы разработали метод поиска высокодивергентных тандемных повторов, которые могут содержать в среднем до 4,4 замены на одну аминокислоту, тогда как чувствительность всех остальных методов ограничена примерно 2,5 замены», — рассказал руководитель исследования Евгений Коротков из ФИЦ биотехнологии РАН.

Программа MSHDTR учитывает пары соседних аминокислотных остатков, образующих связи. Кроме того, она группирует аминокислоты как полярные, неполярные, ароматические, положительно или отрицательно заряженные и представляет последовательности в белке в виде пяти символов (количество групп) вместо 20 (примерное количество видов аминокислот). Такой метод признает за тандемные повторы участки, содержащие аминокислоты из одной группы в нужном порядке. Это сделано потому, что вероятность замены аминокислоты в тандемном повторе на другую той же группы выше, чем на иную аминокислоту из другой группы.

Проверив MSHDTR на базе данных Swiss-Prot, ученые обнаружили более 15 тыс. новых белков с тандемными повторами. При этом 14 тыс. последовательностей оказались высокодивергентными — они содержали много замен и вставок и были практически невидимыми для других методов. Фактически авторы нашли следы создания белков из повторов различной длины.


Подписывайтесь на InScience.News в социальных сетях: ВКонтакте, Telegram, Одноклассники.