Идентификация белков с использованием биоинформатических баз данных
Аннотация. При исследовании протеомных профилей белков, многие ученые останавливаются на этапе получения двумерных электрофореграмм, в статье предложены подходы использования современных инструментальных и биоинформационных ресурсов, позволяющих подтвердить или опровергнуть их гипотезы.
Abstract. In the study of proteomic protein profiles, many scientists stop at the stage of obtaining two-dimensional electrophoregrams, the article proposes approaches to the use of modern instrumental and bioinformatic resources to confirm or refute their hypotheses.
В постгеномную эру остро встает вопрос о практической реализации фундаментальных разработок в области молекулярной биологии. При этом отражением функционирования генома являются постгеномные события, связанные с синтезом многочисленных белков, исследованию которых сейчас уделяется особое внимание в рамках отдельного научного направления – протеомики. Развитие протеомных исследований невозможно без построения алгоритмов и методов анализа, создания базы данных, позволяющих выяснять механизм функционирования биологических текстов и разрабатывать целенаправленные воздействия (биотрансформатика).
Существование огромного количества разнообразных белков привело к необходимости создания информационных массивов – баз (или банков) данных, в которые заносились бы все известные о них сведения. В настоящее время существует множество общих и специализированных баз данных, которые доступны в Интернете каждому желающему.
В общих базах содержатся сведения обо всех известных белках живых организмов, т.е. о глобальном протеоме всего живого. Примером такой базы является SwissProt-TrEMBL (Швейцария–Германия), в которой на сегодняшний день содержатся структуры почти 200 000 белков, установленные аналитическими методами, и еще почти 2 млн структур, которые определены в результате трансляции с нуклеотидных последовательностей [1].
Биоинформатика – наука, занимающаяся изучением биологической информации с помощью математических, статистических и компьютерных методов с использование вычислительной техники, математики и информационной теории для анализа и моделирования молекулярно-биологических систем, в особенности систем, состоящих из генов, РНК, белков и метаболитов. Таким образом, в данном случае задачами биоинформатики являются накопление информации о физико-химических и биологических свойствах белков, анализ этой информации, каталогизация и подготовка информационной базы и вычислительных средств для выявления механизмов их функционирования [2,3,4,5].
В настоящее время на уровне академических центров, различных НИИ России, стран СНГ, Западной Европы и США развиваются и внедряются результаты работы научных технологических платформ для биомедицинских и фармацевтических исследований. Цель которых является изучение основ протеомики и протеомного картирования белков млекопитающих, животных и растений [6,7,8,9].
При этом стоит отметить, что применение протеомных технологий в лабораторной практике пищевых направлений нашло свое место сравнительно недавно.
Сложность протеомных исследований белков пищевых продуктов осложняется еще тем, что конкретный белок может быть экспрессирован как в виде единичных молекулярных копий, так и в огромном количестве – налицо широкий диапазон концентраций белков в клетке и биологических жидкостях. Можно сказать, что похожая ситуация складывается и при анализе ДНК, но в отличие от ДНК белки невозможно наработать в ходе полимеразной цепной реакции (ПЦР). А ведь именно ПЦР – основа всех методов работы с генетическим материалом, поскольку позволяет избирательно поднять концентрацию определенной молекулы ДНК до уровня, который может быть зарегистрирован приборами. Следовательно, методической основой протеомики является подход, при котором чувствительность приборов позволяет регистрировать отдельные молекулы [10].
Схема проведения протеомного анализа проста и основана на достижениях современной масс-спектрометрии. Образец, например мышечная ткань, отбирается в количестве чуть более 0,1 г. Разделение белков проводится методом двумерного электрофореза, и на двумерной электрофореграмме каждый белок предстает в виде отдельного пятна. Его интенсивность соответствует уровню экспрессии белка, то есть его количеству. Анализ гелей позволяет выявить индивидуальные вариации протеома, оценить статистические параметры для каждого пятна. Затем, сравнивая электрофореграмму с эталонными, удается выявить различия, связанные с несоответствиями, например, при производстве продукта. Различия заключаются в повышении или понижении экспрессии белка, некоторые белки появляются при созревании мяса, тогда как другие могут исчезнуть. Однако на этапе анализа двумерных электрофореграмм речь на самом деле еще не идет о конкретных белках, а только об интенсивности пятен. Для того чтобы определить (идентифицировать) белок, пятно вырезают из геля, подвергают расщеплению, и массы фрагментов (пептидов) детектируют с помощью масс-спектрометрии.
Протеомный анализ сопряжен с проведением ряда трудоемких рутинных процедур, связанных с тем, что число анализируемых белков велико, а для статистической значимости результата требуется обработать большое количество образцов в соответствии со стандартным протоколом. Снятые масс-спектры передаются в программу идентификации белков. Профиль масс, полученный на масс-спектрометре, соответствующий пептидным фрагментам белка, позволяет однозначно его идентифицировать, проведя поиск соответствия с теоретическими профилями, построенными по белкам человеческого генома через специализированные компьютерные базы данных в сети Интернет в онлайн-режиме [11,12].
Результатом масс-спектрометрической идентификации белковых молекул является список потенциальных белков-кандидатов, ранжированных в соответствии со значением показателя Score (показатель соответствия), рассчитанного для каждого потенциального кандидата:
Score = 50000 / Mprot × Пnmi,j
где Mprot – молекулярная масса каждого совпавшего белка,
П
п – произведение, которое рассчитывается из Mowse-матрицы весов,
m
i,j– для каждого совпадения экспериментальных данных и масс пептидов, рассчитанных из записей в геномной базе данных.
В качестве основных протеомных технологий применяют двумерный электрофорез (2-D) по O`Farrell с изоэлектрофокусированием в амфолиновом (IEF-PAGE) градиенте pH; последующую детекцию белков проводят окрашиванием Кумасси R-250 или азотнокислым серебром.
Схематично это можно представить следующим образом (рисунок 1).
Идентификацию белковых фракций на двумерных электрофореграммах осуществляют после трипсинолиза методами MALDI-TOF MS и MS/MS масс-спектрометрии на MALDI- времяпролетном масс-спектрометре с УФ-лазером (336 нм) в режиме положительных ионов в диапазоне масс 500-8000 Да с калибровкой их по известным пикам аутолиза трипсина.
Рисунок 1 – Принципиальная схема исследования ткане- и видоспецифичных веществ белково-пептидной природы
После идентификации на масс-спектрометре искомого белка, на завершающем этапе главную роль играет правильная интерпретация полученных масс-спектров, по имеющимся базам данных (пример рисунок 2), с подтверждающими или опровергающими догадками о полученном результате.
Данный алгоритм использует поиск по массовым «отпечаткам пальцев» пептидов. Вначале проводится сравнение масс пептидов из базы данных с экспериментальными данными масс пептидов с учетом заданной погрешности. Затем для каждого совпадения рассчитывается величина Score. Сумма Score пептидов дает Score для белка. Также, для каждого из кандидатов, указаны видовая принадлежность, что может стать решающим при интерпретации, и ссылки на персональные страницы (итоговый результат), содержащие исчерпывающую информацию о потенциальном белке (значения его молекулярной массы и изоэлектрической точки, расшифровка последовательности триптических пептидов, число совпадений, % покрытия полной аминокислотной последовательности белка выявленными пептидами и т.д.) [14]. Данный алгоритм может быть применен для МС/МС-поиска.
Рисунок 2 – Идентификация белка по международной базе данных Национального центра биотехнологической информации США (NCBI) (программа Mascot «MatrixScience», США): 1 – список потенциальных белков-кандидатов; 2 – расшифровка триптических пептидов c определением числа совпадений; 3 – распределение выявленных пептидов по аминокислотной последовательности; 4 – итоговый результат) [13].
Алгоритм оценки основан на вероятности, который имеет ряд преимуществ: защиты от ложных наложений, т.е. оценку можно сравнить с результатами других видов поиска, такими как гомология последовательности и параметры поиска могут быть легко оптимизированы путем итерации. Краткое описание более 100 различных алгоритмов и пакетов программ обработки масс-спектрометрических данных по пептидам и белкам представлены на сайтах http://en.wikipedia.org/wiki/Mass_spectrometry_software и http://www.ms-utils.org. Использование баз данных для идентификации белков и пептидов позволяет расшифровывать масс-спектры сложных смесей за короткое время [15]. Почти все известные в настоящий момент аминокислотные последовательности белков и пептидов объединены в базы данных, которые находятся в открытом доступе в сети Интернет. Каждая из них имеет свой формат хранения данных, различную степень избыточности, взаимосвязи с родственными или аналогичными базами данных.
Мощный потенциал открытий в области геномики, протеомики, метаболомики для разработки новых методологических подходов идентификации можно реализовать в полной мере на основе новых технологических платформ и с учетом современных стандартов их проведения Протеомные технологии представляются весьма перспективными и эффективными для выявления в мясных и мясо-растительных продуктах биохимических изменений, таких как изменения термоустойчивых и видоспецифичных белков, способных стать соответствующими биомаркерами.
В последние годы протеомика стала широко применяться в области биотехнологии. В работе, проделанной в ФГБНУ «ФНЦ пищевых систем им. В.М. Горбатова» РАН, с помощью протеомных технологий были разработаны методические подходы по идентификации белкового профиля мясных продуктов в исследуемых образцах мяса и в специально выработанных колбасных изделиях, были определены тканеспецифичные белки, которые могут быть использованы как индивидуальные биомаркеры при контроле мясных изделий на соответствие заявленному составу. Также были зарегистрированы белки не мышечных ингредиентов, что можно использовать в качестве маркера подтверждения соответствия продукта [16,17,18,19,20].
Важной задачей является создание полноценного биоинформационного ресурса, который станет мощной базой для планирования новых экспериментальных разработок, для интерпретации новых результатов геномных, протеомных исследований, а также для выполнения работ по предиктивной фармакологии. Будущее биоинформатики связано с развитием экспериментальной геномики для пациентов с разработкой типичного сценария развития организма человека, начиная с постнатального периода, что должно произвести революцию в медицине и здравоохранении.
Передовые методы биомедицинской диагностики, стоящие на стыке таких наук, как медицина, физика и биология, требуют системного подхода к информационному обеспечению, которое в данном случае должно способствовать получению, хранению, обработке, анализу и обмену результатами исследований в рамках выполнения многоцентровых программ.
Исследование выполнено за счет гранта Российского научного фонда (проект №16-16-10073).
Литература:
1. Замятнин, А.А. Фрагменты пищевых белков – регуляторные олигопептиды / А.А. Замятнин, О.Л. Воронина // Биохимия. – 2012. –Т. 77. – № 5. – С. 622–632.
2. Замятнин, А.А. Блистающий мир белков и пептидов / А.А. Замятнин // Биология. – 2002. – №25. – С. 8–13.
3. Sun, H. Proteomic and bioinformatic analysis of differentially expressed proteins in denervated skeletal muscle / H. Sun, J. Qiu, Y. Chen et al. // Int. J. Mol. Med. – 2014. – V. 33. – №6. – P. 1586-1596.
4. Вострикова, Н.Л. Биоинформатика – инструмент интерпретации протеомных профилей белков мяса / Н.Л.Вострикова, И.М.Чернуха // Теория и практика переработки мяса. – 2017. – Т.2. – №1. – С.4-17.
5. Вострикова, Н.Л. Методологические аспекты идентификации тканеспецифичных белков и пептидов, формирующих корригирующие свойства инновационных мясных продуктов / Н.Л. Вострикова, И.М. Чернуха, Д.В. Хвостов //Теория и практика переработки мяса. – 2018. – Т.3. – №3. – С.36-55.
6. Шишкин, С.С. Протеомные базы данных в России. Биотехнологические аспекты / С.С. Шишкин, Л.И. Ковалев, Н.В. Пашинцева, Л.С. Еремина, А.В. Иванов, Э.Г. Садыхов //Актуальная биотехнология. – 2016. – Т.3. – №18. – С. 40-44.
7. Шишкин, С.С. База данных «протеомика мышечных органов», новая версия (2013 г.) и перспективы применения для контроля качества мясного сырья и мясных продуктов / С.С. Шишкин, Л.И. Ковалев, М.А. Ковалева, А.В. Иванов, Э.Г. Садыхов, Л.С. Еремина, К.В. Лисицкая // Международная научно-практическая конференция, посвященная памяти Василия Матвеевича Горбатова, 2013. – № 1. – С. 189-193.
8. Электронный ресурс. URL:http:// www.ebi.ac.uk/pride/archive/(дата обращения: 04.12.2018).
9. Пономаренко, Е.А. Создание семантических сетей белков с использованием Pubmed/Medline / Е.А. Пономаренко, А.В. Лисица, Е.В. Ильгисонис, А.И. Арчаков // Молекулярная биология. – 2010. – Т. 44. – № 1. – С. 152-161.
10. Ивахно, С.А. Количественная протеомика и ее применение в системной биологии / С.А. Ивахно, А.А. Корнелюк // Биохимия. – 2006. – Т. 71. – №10. – С. 1312–1327.
11. Чернобровкин, А.Л. Выбор допустимой погрешности определения массы пептида при идентификации белков методом пептидного картирования / А.Л. Чернобровкин, О.П. Трифонова, Н.А. Петушкова, Е.А. Пономаренко, А.В. Лисица // Биоорганическая химия. – 2011. – Т. 37. – № 1. – С. 132-136.
12. Столбов, Л.А. Системы информационного обеспечения при создании проблемно ориентированной базы данных с применением когнитивного моделирования / Л.А. Столбов, Д.С. Дубавов, А.В. Лисица, О.А. Филоретова // Интеграл. – 2013. – № 1-2. – С. 52-53.
13. Mascot software, the benchmark for identification, characterisation and quantitation of proteins using mass spectrometry data. [Electronic resource: http://www.matrixscience.com. Date of circulation 04.12.2018]
14. Perkins, D. Probability-based protein identification by searching sequence databases using mass spectrometry data / Perkins D., Pappin D., Creasy D., Cottrell J. // Electrophoresis, 1999 . – 20(18) . – 3551-3567.
15. Sparkman, D. Informatics and mass-spectral databases in the evaluation of environmental mass spectral data / D. Sparkman. – Saint Albans: ILMPublications, 2012. – 528 p.
16. Ковалев, Л.И. Протеомное изучение белков в образцах свинины и выработанных из нее мясных продуктах / Л.И. Ковалев, С.С. Шишкин, М.А. Ковалева, А.В. Иванов, Н.Л. Вострикова, И.М. Чернуха // Всё о мясе. – 2013. – № 3. – С.32-34.
17. Vostrikova, N.L. Study and identification of main proteins and peptides to determine the content of muscle protein in structureless cooked products by the method of two-dimensional electrophoresis followed by the time-of-flight mass spectrometry identification/ N.L. Vostrikova, I.M. Chernukha, A.V. Kulikovskiy, S.S. Shishkin // Foods and Raw Materials. – 2016. – V.4. – № 2. – P.136–147.
18. Вострикова, Н.Л. Определение белков мышечной ткани методами 2D электрофореза и времяпролетной масс-спектрометрии / Н.Л. Вострикова, А.В. Куликовский, И.М. Чернуха, Л.И. Ковалев, С.А.Савчук // Журнал аналитической химии. – 2017. – Т.72. – № 10. – 932–943.
19. Манюхин, Я.С. Изучение белков мышечной ткани верблюда (Camelus bactrianus) с использованием протеомных технологий / Я.С. Манюхин, И.М. Чернуха, Н.Л. Вострикова, Л.И. Ковалев, М.А. Ковалева, С.С. Шишкин // Все о мясе. – 2016. – № 6. – С. 35-39.
20.Манюхин, Я.С. Изучение белков конины с помощью протеомных технологий / Я.С. Манюхин, И.М. Чернуха, Л.И. Ковалев, А.В. Иванов, М.А. Ковалева, С.С. Шишкин // Все о мясе. – 2014. – № 3. – С.20-25.
Вострикова Н.Л., канд. техн. наук
ФГБНУ «ФНЦ пищевых систем им. В.М. Горбатова» РАН, Москва