8.1.1 Многомасштабные разложения и первичная структура ДНК
Анализ первичной структуры нуклеотидных последовательностей ДНК и РНК является одной из наиболее важных проблем современной молекулярной биоло-гии. Наиболее важная информация о структуре всех живых организмов закодирована в очень длинных (больше 109 пар оснований) нуклеотидных последо-
167
вательностях.
Для записи этой информации в ДНК используется генетический код, состоящий из четырех нуклеотидов: Аденина (А), Цитозина (С), Тямина (Т), Гуанина (G)1. Нуклеотиды можно классифицировать по их химической структуре: А и G являются пуринами, Т и С - пиримидинами. Макромолекула ДНК состоит из двух комплементарных цепей, связанных друг с другом водородными связями между (А,Т) и (C,G), соответственно. Например, так выглядит короткий фрагмент гена Rec А [155, 89] E.coli:GCTTCAGCGG
I I I I I I I I I I
CGAAGTCGCC
Вследствие комплементарности, с алгебраической точки зрения достаточно анализировать лишь одну из двух комплементарных цепей ДНК. Принято выбирать цепь, упорядоченную от 5' конца к 3' концу. Это означает, что с алгебраической точки зрения ДНК может рассматриваться как упорядоченная символьная по-следовательность, записанная с помощью четырехбуквенного алфавита (ATCG).
В функциональном смысле области ДНК классифицируются на кодирующие (экзоны) и не кодирующие (интроны), т.е. те, которые несут информацию, необ-ходимую для построения белков, и те, которые такой информации не несут. С 70-х годов статистический анализ распределения нуклеотидов в последовательностях ДНК был направлен на то, чтобы найти способ отличать кодирующие участки от некодирующих. Различными авторами было показано, что распределение нуклеотидов A,T,C,G в реальных последовательностях ДНК отличается от случайного распределения и имеет мультифрактальный характер. Вейвлет- разложение здесь является незаменимым инструментом для исследования фрактальных структур [24,178,135].
В общем случае, вероятность появление конкретного нуклеотида в конкрет-ной позиции нуклеотидной цепи, отмеченной с помощью естественного параметра длины / (/ = 0 отвечает б'-концу), описывается некоторым случайным процессом Х(1, •). В случае четырехбуквенного нуклеотидного алфавита мы имеем дело с вероятностным пространством (Q,U, Р), где О = {А, Т, С, G}, а семейство из четырех случайных процессов
Xg = {Xg(l,u);le
таково, что
если И = Z,
иначе.
случае РНК роль Тимина выполняет Урацил (У)
168 Вместо непосредственного вычисления корреляций, как это делалось в работах [110,175], или вычисления взаимной информации, как в работе [96], автором диссертации в работе [24] было проведено исследование интегральных мер для каждого нуклеотида, т.е. зависимости полного числа нуклеотидов данного типа от длины фрагмента. Для каждого из четырех нуклеотидов, г = A,T,C,G, интегральная мера имеет вид
(8.1) Поскольку распределение нуклеотидов имеет фрактальный характер, а исследуемые меры (8.1) не являются дифференцируемыми функциями параметра длины I, с помощью вейвлет преобразования было исследовано скейлинговое по-ведение этих мер fi(x) — fl(XO) ОС \х — Xq\H.
Определение показателя Липшица-Гельдера h на основе экспериментально найденных мер является типичной задачей физики фрактальных объектов, решаемой с помощью вейвлет-преобразования. При исследовании последователь-ностей ДНК была использована скейлинговая теорема [87] (1.24) для функций p.z(l). Здесь мы представляем результаты, полученные в работе [24] с помощью вейвлета "мексиканская шляпа".
Вычисления, представленные в работе [24], были проведены для фрагмента последовательности ДНК клеток китайского хомячка [68] длинной 11838 н.п. Исследование зависимости вейвлет-коэффициентов меры от масштаба проводилось в средней точке нуклеотидной последовательности. Log — Log зависимость модуля вейвлет коэффициентов от масштаба была использована для определения скейлинговой экспоненты h (показателя Липшица-Гельдера).
Логарифмические зависимости log2 \Тд(а,х)\ для мер ца, рт, приведены на рис. (8.1-8.4) Всеграфики построены в средней точке диапазона 8192, т.е. хт = 4096; Зависимость модуля вейвлет-коэффициентов от масштаба в других точках последовательности не отличается существенно от приведенного центрального сечения. Экспоненты Липшица-Гельдера, отвечающие графикам, приведенным на рис. 8.1-8.4 представлены в следующей таблице:
НА hT hc ha 0.60 0.43 0.60 0.53
Найденные значения экспонент достаточно близки к значению кв = 1/2, соответствующему броуновскому движению, т.е. чисто случайному процессу. Тем
169
Н=0.6 •
8 7 6
J !_
log2 [Га(а)| 5 4 З 2
5 б 7 8 9 10
log2a
Рис. 8.1: Зависимость логарифма модуля д2 вейвлет коэффициентов от масштаба для меры //(/), соответствующей аденину. Исследовался фрагмент последова-тельности ДНК китайского хомячка
не менее отклонение hz — кв, для г = А,Т,С, G, которое составляет несколько процентов, не является случайным. Оно связано с фрагментацией плотности нуклеотидов на отдельные ветви, которую можно наблюдать на цветовых картах распределения вейвлет-коэффициентов, на масштабах примерно 27 ог 28, см. рис. (8.5-8.8) Таким образом, с помощью вейвлет-преобразования подтверждается существование скейлинга в последовательностях ДНК, ранее обнаруженного другими методами. При этом обнаружено, что скейлинг имеет локальный, а не глобальный характер.