Есть еще 22 страницы.

Смотреть все страницы или скачать PDF файл.

Формула / Реферат

1. Способ оптимизации кодирующей нуклеотидной последовательности, кодирующей заданную аминокислотную последовательность, в котором кодирующая последовательность подвергается оптимизации для улучшенного экспрессирования в заданных клетках хозяина, который включает:

a) получение по меньшей мере одной исходной кодирующей последовательности, кодирующей заданную аминокислотную последовательность;

b) создание по меньшей мере одной новой кодирующей последовательности из этой по меньшей мере одной исходной кодирующей последовательности путем замены в ней одного или нескольких кодонов на синонимический кодон;

c) определение значения пригодности данной по меньшей мере одной исходной кодирующей последовательности и значения пригодности данной по меньшей мере одной новосозданной кодирующей последовательности с помощью функции пригодности, определяющей пригодность отдельных кодонов и/или пригодность пар кодонов для заданных клеток хозяина;

d) выбор одной или нескольких кодирующих последовательностей, отобранных из данной по меньшей мере одной исходной кодирующей последовательности и данной по меньшей мере одной новосозданной кодирующей последовательности в соответствии с заданным критерием отбора, при котором чем больше значение пригодности, тем больше шансов быть выбранной;

e) повторение операций (b)-(d) с тем, что данная одна или несколько отобранных кодирующих последовательностей рассматриваются как одна или несколько исходных кодирующих последовательностей при операциях (b)-(d) до тех пор, пока не будет выполняться заданный критерий прекращения итерации,

где функция пригодности определяется при помощи уравнения

Рисунок 1

где

Рисунок 2

cpi принимает действительное значение больше нуля;

fitcp(g) означает функцию пригодности по парам кодонов;

fitsc(g) означает функцию пригодности по отдельным кодонам;

w((c(k),c(k+1)) означает вес пары кодонов в кодирующей последовательности g;

|g| означает длину данной кодирующей последовательности;

с(k) значает k-й кодон в данной последовательности кодонов;

rtargetsc(с(k)) означает желательную долю кодона с(k);

rgsc(c(k)) означает фактическую долю в кодирующей последовательности g.

2. Способ по п.1, в котором заданный критерий отбора таков, что данная одна или несколько отобранных кодирующих последовательностей имеет наилучшее значение пригодности в соответствии с данным критерием.

3. Способ по п.1 или 2, который после операции е) дополнительно включает f) выбор наилучшей индивидуальной кодирующей последовательности из данных одной или нескольких отобранных кодирующих последовательностей, при этом данная наилучшая индивидуальная кодирующая последовательность имеет лучшее значение пригодности, чем другие отобранные кодирующие последовательности.

4. Способ по любому из пп.1-3, в котором заданный критерий прекращения итерации заключается в проверке по меньшей мере одного из:

(a) чтобы по меньшей мере у одной из данных отобранных кодирующих последовательностей наилучшее значение пригодности было выше заданного порогового значения;

(b) чтобы ни у одной из данных отобранных кодирующих последовательностей наилучшее значение пригодности не было ниже заданного порогового значения;

(c) чтобы по меньшей мере у одной из данных отобранных кодирующих последовательностей по меньшей мере 30% пар кодонов с соответствующими положительными весами пар кодонов для заданных клеток хозяина в данной исходной кодирующей последовательности было превращено в пары кодонов с соответствующими отрицательными весами; и

(d) чтобы по меньшей мере у одной из данных отобранных кодирующих последовательностей по меньшей мере 30% пар кодонов с соответствующими положительными весами больше 0 для заданных клеток хозяина в данной исходной кодирующей последовательности было превращено в пары кодонов с соответствующими весами меньше 0.

5. Способ по п.4, в котором cpi заключается между 10-4 и 0,5.

6. Способ по п.5, в котором веса w пар кодонов берут из матрицы 61´61 пар кодонов без стоп-кодонов либо из матрицы 61´64 пар кодонов, включающей стоп-кодоны, при этом веса w пар кодонов вычисляют на основе компьютеризованного метода, используя в качестве исходных данных по меньшей мере одно из следующего:

(a) группу нуклеотидных последовательностей, состоящую как минимум из 200 кодирующих последовательностей заданного хозяина;

(b) группу нуклеотидных последовательностей, состоящую как минимум из 200 кодирующих последовательностей того же вида, к которому принадлежит заданный хозяин;

(c) группу нуклеотидных последовательностей, составляющую как минимум 5% кодирующих белки нуклеотидных последовательностей в геноме заданного хозяина; и

(d) группу нуклеотидных последовательностей, составляющую как минимум 5% кодирующих белки нуклеотидных последовательностей в геноме вида, родственного заданному хозяину.

7. Способ по п.6, в котором веса w пар кодонов определяются по меньшей мере для 5, 10, 20, 50 и предпочтительно 100% из всех возможных 61´64 пар кодонов, включая сигнал терминации в качестве стоп-кодона.

8. Способ по п.5, в котором веса w пар кодонов берут из матрицы 61´61 пар кодонов без стоп-кодонов либо из матрицы 61´64 пар кодонов, включающей стоп-кодоны, при этом веса w пар кодонов определяются при помощи уравнения

Рисунок 3

где совместное математическое ожидание ncombiexp((ci, cj)) определяется согласно

Рисунок 4

где rallsc(ck) означает долю отдельного кодона ck в наборе данных из всего генома;

nhighobs((ci, cj) означает встречаемость пары (ci, cj) в группе с высоким уровнем экспрессии,

причем группа с высоким уровнем экспрессии состоит из таких генов, мРНК которых обнаруживается на уровне по меньшей мере 20 копий на клетку.

9. Способ по любому из предыдущих пунктов, в котором исходная кодирующая нуклеотидная последовательность, кодирующая заданную аминокислотную последовательность, выбирается из:

(a) нуклеотидной последовательности дикого типа, кодирующей заданную аминокислотную последовательность;

(b) продукта обратной трансляции заданной аминокислотной последовательности, причем кодон для аминокислоты в заданном положении данной аминокислотной последовательности выбирается случайным образом из синонимических кодонов, кодирующих эту аминокислоту; и

(с) продукта обратной трансляции заданной аминокислотной последовательности, причем кодон для аминокислоты в заданном положении данной аминокислотной последовательности выбирается в соответствии со смещенностью отдельных кодонов у заданных клеток хозяина или родственного вида.

10. Способ по любому из пп.1-9, в котором заданные клетки хозяина представлены клетками микроорганизма, предпочтительно микроорганизма из рода, выбранного из Bacillus, Actinomycetis, Escherichia, Streptomyces, Aspergillus, Penicillium, Kluyveromyces, Saccharomyces.

11. Способ по любому из пп.1-9, в котором заданные клетки хозяина представлены клетками животного или растения, предпочтительно из клеточной линии, выбранной из клеток СНО, BHK, NSO, COS, Vero, PER.C6Ô, HEK-293, клеток дрозофилы S2, клеток сподоптеры Sf9 и Sf21.

12. Молекула нуклеиновой кислоты, включающая кодирующую последовательность, кодирующая заданную аминокислотную последовательность, причем кодирующая последовательность сконструирована согласно способу по п.1 и имеет значение fitcp(g) как минимум меньше -0,1, предпочтительно меньше -0,2 и более предпочтительно меньше -0,3 для заданных клеток хозяина.

13. Молекула нуклеиновой кислоты, включающая кодирующую последовательность, кодирующую заданную аминокислотную последовательность, причем кодирующая последовательность сконструирована согласно способу по п.1 и имеет значение fitcp(g) как минимум меньше -0,1, предпочтительно меньше -0,2 для заданных клеток хозяина и значение fitsc(g) как минимум меньше 0,1 для заданных клеток хозяина.

14. Молекула нуклеиновой кислоты по п.12 или 13, в которой кодирующая последовательность функционально связана с контролирующей экспрессию последовательностью, способной управлять экспрессией кодирующей последовательности в заданных клетках хозяина.

15. Клетки хозяина, содержащие молекулу нуклеиновой кислоты, по п.14.

16. Способ получения полипептида, имеющего заданную аминокислотную последовательность, который включает культивирование клеток хозяина, по п.15 в условиях, ведущих к экспрессии полипептида, и необязательно выделение полипептида.

17. Способ получения по меньшей мере одного внутриклеточного или внеклеточного метаболита, который включает культивирование клеток хозяина, по п.15 в условиях, ведущих к продукции метаболита, при этом в продукции метаболита предпочтительно участвует полипептид, имеющий заданную аминокислотную последовательность.


Текст

Смотреть все

ОПИСАНИЕ ИЗОБРЕТЕНИЯ К ЕВРАЗИЙСКОМУ ПАТЕНТУ Дата публикации и выдачи патента Настоящее изобретение касается способов оптимизации кодирующих белки последовательностей для экспрессии в заданных клетках хозяина. В этих способах для оптимизации последовательностей, кодирующих заданную аминокислотную последовательность, по пригодности отдельных кодонов и/или по пригодности пар кодонов применяются генетические алгоритмы. При создании новых вариантов последовательностей и последующем отборе наилучших вариантов алгоритм выполняет итерацию до тех пор, пока варианты кодирующих последовательностей не достигнут минимального значения пригодности отдельных кодонов и/или пригодности пар кодонов. Изобретение также касается компьютера, включающего процессор и запоминающее устройство (память), причем компьютер настроен на чтение из памяти и запись в не, при этом память включает данные и инструкции, предназначенные для придания процессору способности к выполнению генетических алгоритмов для оптимизации пригодности отдельных кодонов и/или пригодности пар кодонов. Изобретение также касается нуклеиновых кислот,содержащих кодирующую последовательность для заданной аминокислотной последовательности,причем кодирующая последовательность оптимизирована по пригодности отдельных кодонов и/ или по пригодности пар кодонов для данного хозяина способами изобретения, а также клеток хозяина, содержащих такие нуклеиновые кислоты, и способов получения полипептидов и других продуктов ферментации, в которых применяются эти клетки хозяина. Раубос Йоханнес Андрис, Пейдж Ван Ноэль Николас Мария Элизабет (NL) Саломатина И.С. (RU)(71)(73) Заявитель и патентовладелец: ДСМ АйПи АССЕТС Б.В. (NL) 015925 Область техники, к которой относится изобретение Настоящее изобретение касается способа получения полипептидов в клетках хозяина, при котором нуклеотидные последовательности, кодирующие полипептид, подвергаются модификации в отношении употребительности кодонов, в частности того, какие употребляются пары кодонов с тем, чтобы улучшить экспрессию нуклеотидной последовательности, кодирующей полипептид, и/или улучшить продукцию полипептида. Предшествующий уровень техники Настоящее изобретение касается усовершенствованных способов получения полипептидов. При создании штаммов для суперэкспрессии и/или продукции полипептидов применялись разнообразные подходы, в том числе и создание штаммов с множественными копиями гена, кодирующего искомый белок, и применение сильных последовательностей промоторов. Каждая конкретная аминокислота кодируется как минимум одним кодоном и максимум шестью кодонами. Предшествующие исследования показали, что в генах, кодирующих клеточные полипептиды,употребительность кодонов смещается между разными видами (Kamaya S., Y. Yamada, Y. Kudo and Т. Ikemura (1999), Studies of codon usage and tRNA genes at 18 unicellular organisms and quantificationmultivariate analysis. Gene. 238: 143-155). В предшествующих публикациях изложена оптимизация употребления кодонов в определенных клетках для улучшения продукции полипептидов (для примера см.WO 97/11086). В частности, в WO 03/70957 описана оптимизация употребления кодонов у нитчатых грибов для получения растительных полипептидов. Во всех этих случаях "классической" оптимизации кодонов исходный кодон заменяется самым частым кодоном из стандартного набора генов, при этом считается, что скорость трансляции кодонов для каждой аминокислоты будет высокой (оптимальной). Совсем недавно в WO 03/85114 описана гармонизация употребления кодонов, при которой учитывается распределение всех кодонов в генах организма хозяина, полагая, что это влияет на укладку белков. В последние годы доступность полностью расшифрованных геномов многих организмов, напримерBiotech. 25: 221-231), Kluyveromyces lactis, Saccharomyces cerevisiae (http://www.yeastgenome.org/), геномов различных растений, мыши, крысы и человека, дает возможность анализировать различные аспекты последовательностей самих генов в отношении их естественного уровня экспрессии (уровня мРНК или белка). Хорошим примером является анализ употребительности (смещенности) кодонов и последующая оптимизация их на уровне отдельных кодонов. Отметим, что под оптимизацией на уровне отдельных кодонов в настоящем изобретении понимаются такие методы оптимизации кодонов или гармонизации кодонов, которые сосредоточены на оптимизации кодонов как отдельных независимых единиц, в отличие от оптимизации на уровне пар кодонов, что является темой настоящего изобретения. В то время как употребительность (смещенность) отдельных кодонов до этого уже широко изучалась (см. обзор Gustafsson et al., 2004, Trends Biotechnol. 22: 346-353), существует лишь несколько работ по употребительности пар кодонов и по оптимизации пар кодонов. Так, исследовали эффект нескольких специфических пар кодонов на рибосомные сдвиги рамки считывания у Е.coli в отношении пары AGG-AGG (Spanjaard and van Duin, 1988, Proc. Natl. Acad. Sci.Gutman and Hatfield (1989, Proc. Natl. Acad. Sci. USA. 86: 3699-3703) проанализировали большой набор последовательностей по всем возможным парам кодонов у Е.coli и обнаружили, что пары кодонов смещены направленно. Кроме того, они отмечали, что в генах с высокой экспрессией очень слабо представленные пары употребляются почти в два раза чаще, чем сильно представленные пары, тогда как в генах с низкой экспрессией чаще употребляются сильно представленные пары. В US 5082767 (Hatfieldand Gutman, 1992) изложен способ определения относительной предпочтительности естественных пар кодонов у организма и изменения сочетаний пар кодонов у представляющего интерес гена в соответствии с этими предпочтениями для изменения кинетики трансляции данного гена определенным образом,на примере Е.coli и S.cerevisiae. Однако в методе Hatfield and Gutman подвергаются оптимизации только индивидуальные пары соседних кодонов. Более того, в их патенте (US 5082767) утверждается, что кинетика трансляции как минимум части гена повышается при такой модификации последовательности, при которой пары кодонов меняются таким образом, чтобы повысилось количество тех пар кодонов, которые, по сравнению со случайным употреблением пар кодонов, у организма встречаются чаще, но представлены слабее. В настоящем изобретении изложен способ повышения трансляции при такой модификации последовательности, при которой пары кодонов меняются таким образом, чтобы повысилось количество тех пар кодонов, которые, по сравнению со случайным употреблением пар кодонов, у организма представлены в большей степени.Moura et al. (2005, Genome Biology. 6: R28) проанализировали весь ORF-геном S.cerevisiae, но не обнаружили статистически значимой смещенности примерно у 47% пар кодонов. Соответствующие значения отличались от одного вида к другому, образуя "карты контекста кодонов", которые можно рассматривать как видоспецифические "отпечатки" употребительности пар кодонов.Boycheva et al. (2003, Bioinformatics 19(8): 987-998) идентифицировали у Е.coli две группы пар кодонов, названные гипотетически (взаимно) ослабляющими и гипотетически неослабляющими, при поиске сильно и слабо представленных пар кодонов среди генов с высоким и низким уровнем экспрессии. Однако они не предложили способа применения этих результатов и не представили экспериментального обоснования своей гипотезы. Отметим, что эти группы определяются полностью противоположно тому,как они были определены Gutman and Hatfield (1989, 1992, supra), предположившими неослабляющий эффект у очень слабо представленных пар в генах с высоким уровнем экспрессии.Buchan, Aucott and Stanfield (2006, Nucleic Acids Research. 34(3): 1015-1027) анализировали свойства тРНК в связи со смещенностью пар кодонов. Что касается последствий смещенности при употреблении пар кодонов, то Irwin et al. (1995, J. Biol.Chem. 270: 22801-22806) показали, что на самом деле скорость синтеза у Е.coli существенно снижается при замене очень слабо представленной пары кодонов на очень сильно представленную пару и повышается при замене менее слабо представленной пары кодонов на более слабо представленную пару. Это весьма примечательно, так как оно противоречит тому, что можно ожидать с учетом влияния смещенности отдельных кодонов на уровень белков. Однако ни в одной из вышеприведенных работ не сказано, как оптимизировать употребительность пар кодонов в полномерной нуклеотидной последовательности с учетом того, что по определению пары кодонов перекрываются, поэтому оптимизация каждой отдельной пары кодонов влияет на смещенность прилегающих спереди и сзади пар кодонов. Более того, ни в одной из приведенных работ не описан способ, в котором сочеталась бы оптимизация как отдельных кодонов, так и пар кодонов. Оптимизация пар кодонов с учетом перекрывания пар кодонов и необязательно сочетание оптимизации пар кодонов с оптимизацией отдельных кодонов должны сильно улучшить экспрессирование нуклеотидной последовательности, кодирующей искомый полипептид, и/или улучшить продукцию этого полипептида. Таким образом, в данной области все еще существует потребность в новых способах оптимизации кодирующих последовательностей для улучшения продукции полипептидов в клетках хозяина. Сущность изобретения Целью настоящего изобретения является получение способа оптимизации кодирующих последовательностей для эффективной транскрипции генов и трансляции белков. С этой целью в изобретении представлен способ оптимизации нуклеотидной последовательности, кодирующей заданную аминокислотную последовательность, при этом кодирующая последовательность подвергается оптимизации для экспрессирования в заданных клетках хозяина, а способ включает: (а) создание по меньшей мере одной исходной кодирующей последовательности, кодирующей заданную аминокислотную последовательность; (b) создание по меньшей мере одной новой кодирующей последовательности из этой по меньшей мере одной исходной кодирующей последовательности путем замены в ней одного или нескольких кодонов на синонимический кодон; (с) определение значения пригодности данной по меньшей мере одной исходной кодирующей последовательности и значения пригодности данной по меньшей мере одной новосозданной кодирующей последовательности с помощью функции пригодности, определяющей пригодность отдельных кодонов и/или пригодность пар кодонов для заданных клеток хозяина; (d) выбор одной или нескольких кодирующих последовательностей, отобранных из данной по меньшей мере одной исходной кодирующей последовательности и данной по меньшей мере одной новосозданной кодирующей последовательности в соответствии с заданным критерием отбора, при котором чем больше значение пригодности, тем больше шансов быть выбранной; и (е) повторение операций (b)-(d) с тем, что данная одна или несколько отобранных кодирующих последовательностей рассматриваются как одна или несколько исходных кодирующих последовательностей при операциях (b)-(d) до тех пор, пока не будет выполняться заданный критерий прекращения итерации. В воплощениях изобретения предусматриваются такие аспекты, как употребительность отдельных кодонов, гармонизация кодонов, употребление динуклеотидов и все, что связано со смещенностью пар кодонов. Способ может выполняться компьютерной программой, установленной на компьютере, в котором используется математический алгоритм для анализа и оптимизации последовательностей, который может работать в MATLAB (http://www.mathworks.com/). Наряду с положительной оптимизацией кодонов (например, для модулирования экспрессии генов и продукции белков положительным образом), изобретением также предусмотрен способ приспособления кодонов в направлении "плохих" пар кодонов (т.е. оптимизации пар кодонов отрицательным образом). Последний способ полезен в целях контроля, а также для отрицательного модулирования экспрессии генов.-2 015925 Краткое описание чертежей Далее настоящее изобретение будет раскрыто с привлечением нескольких фигур, которые предназначаются лишь для иллюстрации изобретения, а не для ограничения его рамок, которые определяются прилагаемой формулой изобретения и ее эквивалентами. На фиг. 1 представлена компьютерная система, на которой может выполняться способ изобретения. На фиг. 2 представлена блок-схема воплощения изобретения. На фиг. 3 представлено распределение значений смещенности пар кодонов по 3721 парам смысловых кодонов у различных организмов. Цифры в правом верхнем углу гистограмм представляют стандартное отклонение для наблюдаемого распределения; средние значения (не приведены) колеблются от-0,06 до -0,01 у всех организмов. На фиг. 4 представлены корреляции по смещенности пар кодонов у различных организмов. Коэффициенты корреляции приведены в правом верхнем углу каждого из отдельных графиков. На фиг. 5 представлена карта смещенности кодонов у A.niger. Значения смещенности колеблются от -0,67 до 0,54, тогда как у других организмов они могут даже слегка превышать 0,9 (см. также фиг. 3). Наиболее интенсивным черным цветом на этих диаграммах представлены значения, равные 0,9 (на фиг. 5 А и 5 С приведены положительные значения, в оригинале зеленый цвет) и -0,9 (на фиг. 5 В и 5D приведены отрицательные значения, в оригинале красный цвет). На фиг. 5 А и 5 В строки и столбцы упорядочены по кодонам в алфавитном порядке. На фиг. 5 С и 5D строки упорядочены в алфавитном порядке по нуклеотидам в третьем положении в качестве первого критерия упорядочения, по нуклеотидам в среднем положении в качестве второго критерия и по нуклеотидам в первом положении в качестве третьего критерия упорядочения. На фиг. 6 представлена карта смещенности кодонов у В.subtilis. Значения смещенности колеблются от -0,97 до 0,87, тогда как у других организмов они могут даже слегка превышать 0,9 (см. также фиг. 3). Наиболее интенсивным черным цветом на этих диаграммах представлены значения, равные 0,9 (на фиг. 6 А приведены положительные значения, в оригинале зеленый цвет) и -0,9 (на фиг. 6 В приведены отрицательные значения, в оригинале красный цвет). На фиг. 7 представлена карта смещенности кодонов у E.coli. Значения смещенности колеблются от-0,97 до 0,85, тогда как у других организмов они могут даже слегка превышать 0,9 (см. также фиг. 3). Наиболее интенсивным черным цветом на этих диаграммах представлены значения, равные 0,9 (на фиг. 7 А приведены положительные значения, в оригинале зеленый цвет) и -0,9 (на фиг. 7 В приведены отрицательные значения, в оригинале красный цвет). На фиг. 8 представлена карта смещенности кодонов по 479 генам с высоким уровнем транскрипции у A.niger, аналогично предыдущим фиг. 5-7. Наиболее интенсивным черным цветом на этих диаграммах представлены значения, равные 0,9 (на фиг. 8 А приведены положительные значения, в оригинале зеленый цвет) и -0,9 (на фиг. 8 В приведены отрицательные значения, в оригинале красный цвет). Максимальное значение смещенности в этой группе равно 0,91, а минимальное равно -1, т.е. некоторые возможные пары кодонов не встречаются совсем, хотя их индивидуальные кодоны и кодируемые ими пары аминокислот имеются. Это может быть результатом меньшего размера в 188067 пар кодонов по сравнению с 5885942 в полном геноме. Однако главной причиной является реальная меньшая представительность таких пар вследствие селекции в генах с высоким уровнем экспрессии. На фиг. 9 представлен график рассеяния смещенности в группе из 479 генов с высоким уровнем экспрессии (по вертикальной оси) в сравнении со смещенностью во всех генах (по горизонтальной оси) уA.niger. Представлены все пары кодонов (3721), не считая стоп-кодонов. Цвета от светло-серого до черного присваивали в соответствии с абсолютными значениями z-показателя во всем геноме, т.е. светлые точки на графике не обладают значимой смещенностью во всех генах, а размеры соответствуют абсолютным значениям z-показателя в группе с высоким уровнем экспрессии, т.е. очень маленькие точки не обладают значимой смещенностью (при этом z-показатель 1,9). Сплошная черная линия показывает,когда оба значения смещенности равны; а пунктирная линия представляет наилучшую линейную аппроксимацию фактической корреляции (методом анализа основной компоненты), е наклон примерно равен 2,1. На фиг. 10 представлены значения пригодности у 4584 генов A.niger в сравнении с логарифмом их уровня транскрипции. Коэффициент корреляции равен -0,62. На фиг. 11 представлена оптимизация отдельных кодонов в сравнении с оптимизацией пар кодонов. Дикий тип (fitsc(gFUA)=0,165, fitcp(gFUA)=0,033) не попадает на этот график (он должен находиться справа и выше). Ясно, что параметр cpi задает компромисс между пригодностью отдельных кодонов и пригодностью пар кодонов. Оптимальным всегда является ген с наименьшими значениями fitsc и fitcp. Судя по положению точек, не совсем ясно, при каких значениях cpi можно получить самый лучший ген, так как еще не знаем, что более важно - употребительность отдельных кодонов или употребительность пар кодонов. Тем не менее, примеры дают убедительное свидетельство того, что пригодность пар кодонов очень важна в дополнение к пригодности отдельных кодонов, а это значит, что cpi должно быть по меньшей мере 0.-3 015925 На фиг. 12 представлены две диаграммы, показывающие добротность последовательности первых 20 (из 499) кодонов вышеупомянутой грибковой -амилазы (FUA) (см. также пример 2). Черными точками обозначены желательные доли кодонов, а крестиками представлены фактические значения (в целом гене), соединенные пунктиром. При этом пригодность отдельных кодонов можно интерпретировать как среднее значение длины этих пунктиров (отметим, что у тех кодонов, у которых желательные и фактические доли равны, к примеру у TGG (у которого нет синонимичных кодонов) в положении 4 и 5, эта "длина" равна 0; также отметим, что "длина" не может быть отрицательной). Черными столбиками, в свою очередь, представлены веса пар, образованных двумя соседними кодонами. Черными точками (посредине, под столбиками) обозначен минимальный вес любой пары кодонов, кодирующей один и тот же дипептид. При этом пригодность пар кодонов составляет среднее значение высоты этих столбиков (отметим, что при этом высота может быть и отрицательной). На фиг. 13 представлена сходимость fitcombi при использовании описанного в изобретении подхода на основе генетического алгоритма для оптимизации гена amyB, при этом получается SEQ ID NO: 6. На фиг. 14 представлена, с целью объяснения, часть диаграммы распределения отдельных кодонов типа одной из тех, что приведены, к примеру, на фиг. 15. На двух гистограммах представлена употребительность кодонов для двух синонимичных кодонов, кодирующих фенилаланин: UUU (наверху) и UUC(внизу). Оси X и Y на обеих гистограммах простираются от 0 до 100%. Серая гистограмма представляет собой нормализованную гистограмму употребительности кодонов по каждой аминокислоте (группе синонимичных кодонов) для группы из 250 генов A.niger с высоким уровнем экспрессии, причем гены разбиты на группы, охватывающие 0%, от 0 до 10%, от 10 до 20%, , от 90 до 100% и 100%. Например,50% генов с высоким уровнем экспрессии попадают в группу с 0% употребительности кодона UUU и соответственно 100% употребительности кодона UUC при кодировании фенилаланина. Белым столбиком представлена употребительность кодонов гена А (в данном случае amyB дикого типа) в таком же разбиении, как на гистограмме: так, у гена А 100% приходится на группу 20-30% UUU (при 20% 3/15 кодонов представлены UUU) и соответственно 100% приходится на группу 80-90% UUC (при 80% 12/15 кодонов представлены UUC). Черным столбиком представлена статистика для гена В (в данном случае оптимизированного по отдельным кодонам варианта amyB). Аналогичным образом можно создать матрицу из 164 диаграмм, представляющих статистику для всех 64 кодонов, например, см. фиг. 15. На фиг. 15 (1 и 2 части) представлена частотность употребления отдельных кодонов у оптимизированного по отдельным кодонам гена amyB (черные столбики) в сравнении с геном amyB дикого типа (белые столбики). Серая гистограмма отражает статистику для 250 генов A.niger с высоким уровнем экспрессии. Видно, что некоторые кодоны, как-то кодоны, кодирующие цистеин (UGU/UGC), гистидин(CAU/CAC), тирозин (UAU/UAC) и другие, действительно подверглись улучшению. На фиг. 16 (1 и 2 части) представлена частотность употребления отдельных кодонов у оптимизированного как по отдельным кодонам, так и парам кодонов гена amyB (черные столбики) в сравнении с геном amyB дикого типа (белые столбики). Серая гистограмма отражает статистику для 250 генов A.niger с высоким уровнем экспрессии. Видно, что эти гистограммы сильно напоминают ситуацию при оптимизации гена по отдельным кодонам, приведенную на фиг. 15. На фиг. 17 представлена часть полной диаграммы (фиг. 18) со статистикой по отдельным кодонам и парам кодонов для гена amyB дикого типа A.niger. На оси X представлены последовательные кодоны в гене, начиная со старт-кодона ATG в положении 1. Черными точками обозначены заданные доли отдельных кодонов для кодона в этом положении относительно синонимичного ему кодона. Для ATG это равно 1,0 (100%). Крестиками обозначены фактические доли кодонов в приведенном гене; пунктиром представлена разность между заданными и фактическими долями. Значения веса пар кодонов находятся между -1 и 1. Столбиками обозначен фактический вес пары смежных кодонов, а звездочками обозначен вес оптимальной достижимой синонимичной пары кодонов (не учитывая соседние пары). Например, первый столбик равен -0,23, что соответствует весу пары ATG-GTC, а второй равен 0,66, что соответствует весу пары GTC-GCG. На фиг. 18 представлена статистика по отдельным кодонам и парам кодонов для SEQ ID NO: 2(amyB дикого типа). На фиг. 19 представлена статистика по отдельным кодонам и парам кодонов для SEQ ID NO: 5(оптимизированного по отдельным кодонам amyB). На фиг. 20 представлена статистика по отдельным кодонам и парам кодонов для SEQ ID NO: 6(оптимизированного по отдельным кодонам и парам кодонов amyB). На фиг. 21 представлена плазмидная карта экспрессионного вектора pGBFINFUA-1. Фиг. 21 также служит репрезентативной картой плазмид pGBFINFUA-2 и pGBFINFUA-3. Все клоны происходят из экспрессионного вектора pGBFIN-12 (описанного в WO 99/32617). Обозначены фланкирующие участкиglaA относительно различных последовательностей промотора amyB и последовательности кДНК amyBA.niger, кодирующей -амилазу. ДНК Е.coli может быть удалена при расщеплении рестрикционным ферментом NotI перед трансформацией штаммов A.niger.-4 015925 На фиг. 22 представлена схема встраивания посредством однократной гомологической рекомбинации. Экспрессионный вектор содержит селекционный маркер amdS и промотор glaA, соединенный с геном amyB. Эти элементы фланкированы гомологичными участками локуса glaA (3'-glaA и 3-glaA соответственно) для прямого встраивания в геномный локус glaA. На фиг. 23 представлена -амилазная активность в культуральной жидкости от штаммов A.niger при экспрессии трех разных конструкций. Представлена -амилазная активность в культуральной жидкости штаммов A.niger при экспрессии конструкции с нативным геном amyB, в которой: (1) модифицированы последовательности инициации трансляции и терминации трансляции (pGBFINFUA-1); (2) модифицированы последовательности инициации трансляции и терминации трансляции и употребительность отдельных кодонов (pGBFINFUA-2) и модифицированы последовательности инициации трансляции и терминации трансляции и употребительность отдельных кодонов и пар кодонов (pGBFINFUA-3) в соответствии со способом изобретения. -Амилазная активность представлена в относительных единицах [AU], принимая за 100% среднее значение из 6 штаммов с одной копией гена из группы FUA1 в 10 штаммов на 4-й день. Из каждой указанной группы независимо выделяли и культивировали 10 трансформантов. На фиг. 24 (А и В) представлена частотность употребления отдельных кодонов при оптимизации по отдельным кодонам у Bacillus subtilis. Объяснение частей диаграмм приведено при фиг. 14. Серая гистограмма представляет распределение кодонов у 50 генов В.subtilis с наиболее высоким уровнем экспрессии, см. текст. Черными столбиками представлена заданная частотность отдельных кодонов. На фиг. 25 представлена статистика по отдельным кодонам и парам кодонов для SEQ ID NO: 14(1/3), SEQ ID NO: 17 (2/3) и SEQ ID NO: 14 (3/3), причем последовательности оптимизированы по парам кодонов + отдельным кодонам (1/3), по отдельным кодонам (2/3) и по отрицательной оптимизации пар кодонов + отдельным кодонам (3/3) соответственно, см. объяснения диаграмм для фиг. 17. На фиг. 26 представлен челночный вектор рВНА-12 для E.coli/Bacillus. Приведены сайты множественного клонирования (MCS) 1 и 2. На фиг. 27 представлен пример клонирования гена в челночном векторе рВНА-12 дляE.coli/Bacillus. Представлены клонируемые части А и В (серые стрелки) SEQ ID NO: 9. Приведены сайты для клонирования на участке 1 А: NdeI и BamHI; на участке IB: SmaI и KpnI. Область Е.coli вырезали с помощью PvuII. Раскрытие сущности изобретения Наряду со смещенностью отдельных кодонов, на экспрессию белков могут влиять и другие структуры в нуклеотидной последовательности, например динуклеотиды или повторы определенньгх коротких последовательностей нуклеотидов (употребительность кодонов в конечном счете можно интерпретировать как некий шаблон в последовательности тринуклеотидов в одной рамке считывания). В настоящей работе представлен способ выявления предпочтительности определенных пар кодонов, т.е. либо кодоны появляются в генах так, как если бы они отбирались согласно установленной частотности употребления кодонов, а затем распределялись по гену случайным образом (относительно аминокислотной последовательности), либо некоторые кодоны чаще встречались рядом с определенными кодонами и реже рядом с другими кодонами. Анализ пар кодонов также охватывает и другие аспекты, а именно употребительность динуклеотидов на границах рамок считывания и возможная предпочтительность некоторых единичных нуклеотидов рядом с кодоном. В настоящем изобретении изложены способы создания таблицы смещенности пар кодонов для данного организма, в котором в качестве исходных данных используются либо все идентифицированные открытые рамки считывания (ORF) всего расшифрованного генома, либо отдельные группы генов, например гены с высоким уровнем экспрессии. В настоящем изобретении изложен способ, в котором установленная таким образом таблица смещенности пар кодонов впоследствии применяется для оптимизации распределения пар кодонов в представляющем интерес гене для улучшения экспрессии соответствующего белка. Оптимизация отдельных кодонов является хорошей отправной точкой для улучшения уровня экспрессии представляющих интерес белков. В то время как другие пытались преодолеть недостатки, вытекающие из присутствия неиспользуемых кодонов в заданном гене путем перестройки организма хозяина,встраивая дополнительные копии генов тРНК, кодирующих малораспространенные тРНК (например,компетентные клетки BL-21 CodonPlus фирмы Stratagen, реципиентные штаммы Rosetta фирмыNovagen, все из E.coli), авторы настоящего изобретения сконцентрировались на адаптации самих генов. Нежелательные кодоны в генетической последовательности заменяются синонимичными с тем, чтобы распределение отдельных кодонов в образовавшейся последовательности стало как можно ближе к ранее установленным желательным соотношениям кодонов.-5 015925 Однако при такой гармонизации кодонов все еще содержится очень большое число возможных генов, являющихся одинаково "оптимальными", так как критерием отбора является общее распределение кодонов в оптимизированном гене, поэтому появляется возможность учесть и другие желательные свойства последовательности кодонов, например отсутствие рестрикционных сайтов некоторых ферментов или пар кодонов, вызывающих сдвиги рамки считывания. На следующей стадии можно оптимизировать употребительность пар кодонов в некоторой степени. Но при оптимизации пар кодонов гена, например, в направлении употребления наиболее распространенных кодонов употребительность отдельных кодонов в оставшейся последовательности может не быть близкой к оптимуму, поскольку могут оказаться предпочтительные пары кодонов, состоящие из недостаточно представленных отдельных кодонов, поэтому необходимо найти баланс между оптимизацией отдельных кодонов и пар кодонов. В настоящем изобретении изложены способы, позволяющие сбалансировать оптимизацию и отдельных кодонов, и пар кодонов. Оптимизация пар кодонов с учетом перекрывания кодонов и необязательно комбинирование такой оптимизации пар кодонов с оптимизацией отдельных кодонов сильно улучшают экспрессию нуклеотидной последовательности, кодирующей искомый полипептид, и/или улучшают продукцию данного полипептида. В контексте настоящего изобретения кодирующая последовательность нуклеотидов или кодирующая последовательность определяется как нуклеотидная последовательность, кодирующая полипептид. Границы кодирующей последовательности обычно определяются старт-кодоном (обычно это ATG у эукариот, тогда как у прокариот им может быть ATG, CTG, GTG или TTG), располагающимся в начале открытой рамки считывания на 5'-конце мРНК, и стоп-кодоном (обычно это TAA, TGA или TAG, хотя есть исключения из этой "универсальной" кодировки), располагающимся сразу же после открытой рамки считывания на 3'-конце мРНК. Кодирующая последовательность может включать ДНК, кДНК, РНК и рекомбинантные последовательности нуклеиновых кислот (ДНК, кДНК, РНК) (отметим, что, как известно в данной области, урацил U заменяет дезоксинуклеотид тимин Т в РНК). Если кодирующая последовательность предназначена для экспрессии в эукариотических клетках, то по 3'-сторону от нее обычно находится сигнал полиаденилирования и последовательность терминации транскрипции. Кодирующая последовательность включает инициирующую последовательность трансляции и необязательно сигнальную последовательность, а также последовательности одного или нескольких интронов. Несмотря на то что термины "кодирующая последовательность" и "ген" относятся не к тому же самому объекту, в настоящем изобретении оба термина часто применяются взаимозависимым образом, и специалист сможет понять из контекста, относится ли термин к полному гену или только к его кодирующей последовательности. Способ и компьютерная система для адаптации по отдельным кодонам и/или парам кодонов Что касается характеристик употребления кодонов у генов с высоким уровнем экспрессии, то сравнение относительных долей отдельных кодонов "вручную" во всех генах и в группе генов с высоким уровнем экспрессии привело к выявлению "желательных долей кодонов" для улучшения генов в отношении их уровня экспрессии. Адаптация гена по отдельным кодонам может затем осуществляться путем: (1) вычисления фактических долей в гене, повторного выбора кодона (например, случайным образом), у которого желательная доля меньше, чем фактическая, и замены его синонимичным кодоном с более низким значением либо (2) вычисления желательного количества каждого кодона с помощью "желательных долей кодонов", составления групп синонимических кодонов и повторного выбора кодона (например, случайным образом) из синонимической группы, кодирующей заданную аминокислоту, по каждому положению в гене; создания множественных вариантов с использованием способа (1) и/или (2) и выбора наиболее подходящего гена на основе дополнительных критериев (например, желательных и нежелательных рестрикционных сайтов и/или энергии свертывания). Однако этот подход не годится для адаптации по парам кодонов, во-первых, потому, что рассмотрение данных по смещенности вручную по всем парам кодонов исключается из-за его сложности, вовторых, потому, что изменение одной пары кодонов, означающее замену как минимум одного из двух участвующих кодонов, повлияет и по меньшей мере на одну соседнюю пару кодонов, поэтому "желательное соотношение пар кодонов" будет недостижимо. Из-за связанных с этим затруднений детерминистический подход посчитали слишком сложным и недостаточно перспективным, поэтому был выбран подход на основе "генетического алгоритма". Отметим, что термин "генетический алгоритм" является обманчивым в том смысле, что он как будто связан с генетической инженерией. Однако "генетический алгоритм" - это подход из области вычислительной техники, который применяется для приближенного решения задач по многомерной оптимизации (Michalewicz Z., Genetic Algorithms + Data Structure = Evolution Programs, Springer Verlag 1994; DavidMA, 1989; http://en.wikipedia.org/wiki/Genetic algorithm). В настоящем изобретении этот подход применяется при решении задачи оптимизации выбора "наилучшего" возможного гена, т.е. кодирующей последовательности для определенного белка. В этом подходе каждое положение в гене, т.е. каждый кодон,можно рассматривать как одно измерение, при этом набор значений является дискретным и определяется-6 015925 доступными синонимическими кодонами. В общем, в генетическом алгоритме обычно сначала создается набор возможных "решений" задачи случайным образом либо путем варьирования изначально представленных решений (хотя существует и много других методических подходов). Этот набор называется "популяция", его элементы - "индивиды" или "хромосомы", которые обычно представлены векторами (в математическом смысле), содержащими координаты для каждого измерения. Поскольку генетические алгоритмы создавались при моделировании процессов, связанных с естественньм отбором, то большая часть терминологии была заимствована из генетики. Однако, поскольку они в основном (но не в данном случае) применяются в области вычислительной техники, но все же были и некоторые примеры применения генетических алгоритмов при решении биологических задач, например, для предсказания вторичной структуры белков (Armano et al. 2005,ВМС Bioinformatics. 1(6), Suppl. 4:S3); оптимизации метаболических сетей in silico (Patil et al. 2005, BMCBioinformatics. 23(6): 308); кластеризации данных по экспрессии генов (Di Gesu et al. 2005, BMCBioinformatics. 7(6): 289). В настоящем случае вектор содержит кодоны. Из этой популяции создаются новые индивиды путем изменения определенных позиций существующего индивида ("мутации") или путем комбинирования одной части (т.е. определенных координат) индивида с другой частью (т.е. координатами для других измерений) от другого индивида ("кроссовер"). Затем проверяют, насколько хорошими будут эти индивиды (так как новые индивиды представляют собой возможные решения исходной задачи оптимизации), а самых лучших ("самых пригодных") индивидов опять используют в качестве исходной популяции для создания новых индивидов ("нового поколения", например сохраняют наилучшие 10, 20, 30, 40, 50, 60%,хотя существует и много других возможностей для отбора подгруппы потомства для достижения сходимости в направлении более пригодных индивидов, например, отбор методом колеса рулетки, см.Michalewicz Z., 1994). При переводе самых лучших индивидов из исходной популяции в новое поколение проверяют, чтобы с каждой популяцией добротность возможных решений улучшалась или, по крайней мере, оставалась такой же. При этом подразумевается, что при прогоне этого алгоритма через много поколений (= итераций; от сотен до нескольких тысяч, в зависимости от сложности задачи) получится решение, близкое к оптимальному. Генетические алгоритмы тщательно изучали в теории вычислительных систем, включая такие свойства, как оптимальное соотношение между размером популяции и числом поколений, как предотвратить зависание алгоритма в локальных оптимумах и т.д., но сейчас это не имеет большого значения для нас. Насчет информации о том, как настроить эти параметры для конкретной процедуры оптимизации, см. описание выполнения генетического алгоритма в MATLAB в примере 2. Это будет подробно раскрыто со ссылкой на фиг. 2. На фиг. 2 представлена блок-схема генетического алгоритма для оптимизации генов. Такой генетический алгоритм может выполняться на компьютере с соответствующей программой, пример которого будет представлен со ссылкой на фиг. 1. На фиг. 1 представлена схема компьютерной системы, которая может использоваться для выполнения способа по изобретению. Система включает процессор 1 для выполнения арифметических операций. Отметим, что генетические алгоритмы обычно не являются детерминированными, так как они включают рандомизированные операции (например, рандомизированные критерии отбора, и/или рандомизированный выбор операторов, и/или рандомизированное создание возможных решений), однако есть исключения, которые работают детерминированным образом. "Генетические алгоритмы" - это родовой термин для тех алгоритмов, которые работают с группой (именуемой популяцией) возможных решений,полученных путем скринирования, и/или отбора, и/или отбрасывания, и/или введения созданных (заново) решений, ведущих к оптимальному решению с использованием одной или нескольких целей. С учетом этого определения к одному классу алгоритмов относятся методы, которые описывают как эволюционное программирование, эволюционные алгоритмы, классические генетические алгоритмы, генетические алгоритмы с реальной кодировкой, алгоритмы модельной "закалки", а также методы Монте-Карло(метод статистических испытаний) и хемотаксиса, в противоположность методам, основанных на сходимости отдельных возможных решений к оптимальному решению с использованием детерминированного алгоритма типа линейного программирования и градиентных алгоритмов. Кроме того, специалист должен понимать из контекста, относится ли иной оригинальный термин к тому же классу алгоритмов. Более того, хотя предпочтительным методом является метод генетических алгоритмов, однако мы не исключаем любые иные методы, помимо генетических алгоритмов, для решения задач оптимизации по отдельным кодонам и/или парам кодонов, как описано в настоящем изобретении. Процессор 1 соединен с несколькими запоминающими устройствами (ЗУ), включая жесткий диск 5,постоянное запоминающее устройство 7 - ПЗУ (ROM), электрически стираемое программируемое постоянное запоминающее устройство 9 - ЭСППЗУ (EEPROM) и оперативное запоминающее устройство 11 ОЗУ (RAM). He все из этих типов памяти должны быть обязательно установлены. Более того, эти компоненты памяти не обязательно должны физически находиться рядом с процессором 1, но могут находиться и вдали от процессора 1. Процессор 1 также соединен с такими средствами ввода команд, данных и т.п. от пользователя, как клавиатура 13 и мышь 15. Могут быть установлены и другие средства ввода, известные специалистам,как-то сенсорный экран, шаровой манипулятор и/или преобразователь голоса.-7 015925 Имеется считывающее устройство 17, соединенное с процессором 1. Считывающее устройство 17 настроено на считывание данных из и возможную запись данных на такой носитель данных, как дискета 19 или постоянное запоминающее устройство на компакт-диске 21 (CDROM). Другими носителями данных могут быть магнитные пленки, DVD, флэш-память и др., которые известны специалистам в этой области. Процессор 1 также соединен с принтером 23 для распечатки выходных данных на бумаге, а также с дисплеем 3, к примеру монитором или жидкокристаллическим (LCD) экраном либо с дисплеем другого типа, известного специалистам в этой области. Процессор 1 может быть подсоединен к сети связи 27, например публичной коммутируемой телефонной сети (PSTN), локальной сети (LAN), глобальной сети (WAN) и т.п. при помощи устройства ввода-вывода 25 (I/O). Процессор 1 может быть настроен на связь с другими системами связи через сеть 27. Носитель данных 19, 21 может включать компьютерный программный продукт в виде данных и инструкций, предназначенных для придания процессору способности к выполнению способа по изобретению. С другой стороны, такой компьютерный программный продукт может быть загружен через сеть дальней связи 27. Процессор 1 может быть реализован в виде самостоятельной системы или в виде нескольких работающих параллельно процессоров, настроенных на выполнение подзадач большой компьютерной программы, либо в виде одного или нескольких ведущих процессоров с несколькими подпроцессорами. Часть выполняемых функций изобретения даже может выполняться дистанционными процессорами,связанными с процессором 1 через сеть 27. Далее генетический алгоритм из фиг. 2 будет объяснен в том виде, как он может выполняться на процессоре 1 при работе компьютерной программы, хранящейся в его памяти. При операции 32 компьютер создает один или несколько генов, кодирующих заданный белок. Это может осуществляться путем привлечения соответствующих данных из таблицы, хранящейся в памяти компьютера. Например, это могут быть такие гены: В целях алгоритма эти созданные гены именуются "исходными генами". После операции 32 компьютерная программа осуществляет один или несколько циклов итерации путем выполнения операций 34-40 один или несколько раз. При операции 34 компьютерная программа создает новые гены путем замены одного или нескольких кодонов в исходном гене на синонимичные кодоны таким образом, что новосозданный ген все еще кодирует данный белок (процесс кроссовера и мутации). Чтобы сделать это, в памяти компьютера хранится таблица употребительности кодонов, показывающая, какие кодоны кодируют какие аминокислоты. (Отметим, что существуют отклонения от "универсального кода", которые принимаются во внимание в случае определенных организмов хозяина, например, см. Laplaza et al., 2006, Enzyme and MicrobialTechnology, 38: 741-747). Зная последовательность аминокислот у белка, компьютерная программа может выбрать альтернативные кодоны из таблицы, как это известно в данной области. По примеру операции 32, новосозданные гены могут быть такими (выделены жирным шрифтом): При операции 36 компьютерная программа определяет значения добротности у всех генов, включая исходные и новосозданные гены, используя функцию пригодности, которая определяет пригодность кодонов и/или пригодность пар кодонов. Примеры таких функций пригодности будут изложены подробно ниже в разделе "Выполнение оптимизации по парам кодонов". При операции 38 какое-то число генов, проявляющих наилучшую пригодность согласно функции пригодности, отбирается для участия в "процессе селекции" (кроссовера и мутации), а какое-то число генов, проявляющих наихудшую пригодность согласно функции пригодности, отбирается для удаления из популяции. Эти числа могут быть заданы исходно или зависят от заданной степени улучшения пригодности. Отбор этих генов может быть детерминированным, но обычно применяется стохастический процесс, в котором "самые пригодные" гены имеют больше шансов на то, что они будут оставлены для селекции, а обратное верно для удаления из популяции. Этот способ селекции называется методом колеса рулетки.-8 015925 При этом отобранные для селекции гены могут быть, например, такими (не отобранные гены выделены зачеркиванием): При операции 40 компьютерная программа проверяет, выполняется ли один или несколько критериев завершения. Зачастую одним из критериев завершения является заданное максимальное число итераций. Альтернативные критерии заключаются в том, чтобы пригодность отобранных генов улучшилась,по меньшей мере, до минимального порогового значения по сравнению с пригодностью исходных генов либо в том, чтобы пригодность отобранных генов улучшилась, по меньшей мере, до минимального порогового значения по сравнению с пригодностью гена, обладавшего наилучшей пригодностью n циклов итерации тому назад (предпочтительно выбирают значение n 10 100). Если в целом критерии завершения не выполняются, то компьютерная программа возвращается назад к операции 34, при этом отобранные гены подвергаются обработке как "исходные гены". Если при операции 40 компьютерная программа установит, что улучшение не достигает минимального порогового значения, то дальнейшее повторение операций 34-38 не имеет смысла и компьютерная программа переходит к операции 42. Следует иметь в виду, что при операции 40 может применяться любой другой подходящий критерий завершения итерации, как-то число проведенных циклов итерации, для выхода из операций 34-40 и перехода к операции 42. При операции 42 из всех отобранных генов отбирается ген с наилучшей пригодностью и предъявляется пользователю, например, через монитор или через распечатку на принтере. В случае адаптации генов с помощью генетического алгоритма нужно проследить, чтобы кроссовер всегда проводился в одной рамке считывания, так как в ином случае аминокислотная последовательность может претерпеть изменения при сочетании одного нуклеотида из одного кодона и двух нуклеотидов из другого кодона. Для лучшей сходимости предлагается модифицированный оператор мутаций с тем, чтобы у него были разрешены только те замены синонимичных кодонов, которые приводят к улучшению употребительности отдельных кодонов и/или употребительности пар кодонов. Далее, важной проблемой при оптимизации по парам кодонов является то, как измерить добротность индивидов. Так называемая функция пригодности может рассматриваться как главная часть генетического алгоритма, так как именно она подвергается оптимизации. В настоящем изобретении предпочтительный подход заключается в том, чтобы присвоить действительное число (именуемое весом) каждой паре кодонов гена и принять среднее значение весов в качестве "пригодности" гена, при этом происходит минимизация функции. В настоящем описании авторы изобретения описывают процесс оптимизации гена как проблему минимизации. Это весьма произвольный подход. Отметим, что если бы была нужна максимизация функции f, то можно бы при этом вести поиск минимума функции -f, что не нарушает принципа универсальности. Итак, нужно идентифицировать способ определения веса пар кодонов, при этом хорошими для уровня экспрессии считаются пары с малыми весами, а плохими - пары с большими весами. Идентификация весов пар кодонов для адаптации генов Для идентификации весов пар кодонов в связи с повышением уровня транскрипции/экспрессии, которые могут служить в качестве исходных данных для изменения употребительности пар кодонов, могут применяться следующие методы, представленные на примере A.niger, в отношении которого известны уровни транскрипции для большинства экспрессирующихся генов, и В.subtilis, в отношении которого имеются данные по уровням транскрипции, а также набор из 300 генов с высоким уровнем экспрессии. В отношении A.niger, где имеется полное ранжирование извлеченных из GeneChip данных для вышеприведенного набора из 4584 подвергающихся экспрессии генов (см. пример 1), рассчитывали средние веса пар кодонов по каждому гену (т.е. эквиваленты значений fitcp(g. Затем гены упорядочивали по значениям пригодности (в порядке возрастания) и уровня экспрессии (в порядке уменьшения). Поскольку предполагается, что гены с высоким уровнем экспрессии имеют низкие значения пригодности пар кодонов, эти две классификации должны быть равными при использовании идеальных весов пар кодонов, так что сравнение этих двух классификаций может дать информацию о добротности весов, используемых в функции пригодности (при этом несколько большее внимание уделялось "правильному" ранжированию генов с высоким уровнем экспрессии, чем со средним уровнем). Кроме того, рассчитывали коэффициент корреляции (ковариация, деленная на стандартное отклонение каждого параметра) между ранжированием и средними весами пар кодонов у 4584 генов.-9 015925 В способах изобретения может использоваться несколько возможных наборов весов, включая один или несколько выбранных из группы, состоящей из (i) значений смещенности из всего генома; (ii) значений смещенности из группы генов с высоким уровнем экспрессии; (iii) смещенности с тем, что все значения, не имеющие определенного минимального z-показателя, принимаются равными нулю (при этомz-показатель определяется так, как описано в примере 1.1.4); (iv) значений смещенности в степени 2 или 3, 4, 5 либо выше (чтобы придать очень предпочтительным или отброшенным кодонам меньшее/большее значение); (v) самих z-показателей; (vi) разности значений смещенности или z-показателей из группы с высоким уровнем экспрессии и всего генома и (vii) комбинаций одного или нескольких из (i)-(vi). Для генетического алгоритма используются их значения с обратным знаком, так как предпочтительным парам кодонов были присвоены положительные значения, тогда как генетический алгоритм выполняет минимизацию. Это применимо ко всем вышеприведенным весам. Более предпочтительная матрица весов может быть получена, как описано выше, путем вычисления"смещенности" пар кодонов в группе с высоким уровнем экспрессии с помощью ожидаемых значений(математического ожидания), рассчитанных на основе долей кодонов по всему геному. Обозначим долю отдельного кодона ck в наборе данных из всего генома через rallsc(ck), а встречаемость пары (ci, cj) в группе с высоким уровнем экспрессии через nhighobsci, cj, тогда "совместное математическое ожидание" вычисляется согласно где wci, cj определяется как вес пары кодонов (ci, cj) в последовательности кодонов g. Отметим, что поскольку функция оптимизации проводит поиск минимального среднего веса, то оба члена в числителе имеют обратный знак по сравнению с уравнением для значений смещенности, но это не влияет на корреляцию с уровнем экспрессии за исключением того, что при этом меняется знак. В отличие от всех других проверенных наборов весов, при этом в слегка невыгодное положение попадают пары кодонов с участием тех кодонов, которые менее представлены в группе с высоким уровнем экспрессии. Таким образом, только эти веса отражают и различную смещенность отдельных кодонов в группе с высоким уровнем экспрессии и по всем генам. Использование этих весов влечет опасность отбрасывания некоторых пар кодонов, на самом деле имеющих положительную смещенность в группе с высоким уровнем экспрессии, но состоящих из (в группе с высоким уровнем экспрессии) редко употребляемых кодонов. Однако поскольку желательные для нас соотношения отдельных кодонов обычно не идентичны входящим в группу генов с высоким уровнем экспрессии, а более "экстремальны", чем у них,то при оптимизации по отдельным кодонам они все равно будут заменены, так что можно считать описанные выше веса очень удобными для оптимизации пар кодонов. Таким образом, хотя веса пар кодонов в какой-то степени также отражают и смещенность отдельных кодонов, однако при оптимизации употребительность отдельных кодонов рассматривается как отдельный дополнительный вопрос. Оптимизация отдельных кодонов и пар кодонов при помощи генетического алгоритма В способе изобретения предпочтительно используется компьютерная система, запрограммированная на выполнение генетического алгоритма, как описано выше, для осуществления адаптации пар кодонов или комбинированной адаптации отдельных кодонов и пар кодонов. Применение генетического алгоритма для адаптации отдельных кодонов тоже возможно и не исключается из изобретения, но при этом нежелательные кодоны можно заменять синонимичными кодонами без ограничений в отношении соседних кодонов, поэтому использование генетического алгоритма становится ненужным. Что касается пар кодонов, то изменение отдельного кодона вызовет изменение веса двух пар кодонов, поэтому оптимизация пар кодонов имеет сильные ограничения, так как изменение одного кодона при замене нежелательной пары кодонов непременно вызовет изменение другой пары кодонов, которое не обязательно будет переменой к лучшему, причем исправление перемены к худшему в соседней паре кодонов опять же вызовет изменение другой пары и т.д. Что касается оператора мутаций, то допускаются лишь те изменения последовательности кодонов,которые не вызывают изменения последовательности кодируемого пептида и улучшают пригодность отдельных кодонов и/или пар кодонов, т.е перед заменой кодона оператор мутаций проводит поиск синонимичных кодонов, которые либо слабо представлены (в соответствии с желательным соотношением отдельных кодонов), либо такие, у которых обе пары кодонов, в которые они входят, имеют лучшие веса. Выбор того, какой из двух типов мутаций выполняется, осуществляется случайным образом. Выполнение первого из этих операторов "мутаций" по каждому отдельному кодону является достаточным для создания оптимизированного по отдельным кодонам гена без применения генетического алгоритма.- 10015925 Добротность гена определяется с учетом двух аспектов, а именно "пригодности" по отдельным кодонам и "пригодности" по парам кодонов. Последняя представляет собой просто среднее значение весовwc(k), с(k+1 всех пар кодонов в последовательности кодонов (или гена) g. Итак, если g означает последовательность кодонов, g означает е длину (количество кодонов), а с(k) означает е k-й кодон, то Пригодность по отдельным кодонам определяется как разность между фактическими долями отдельных кодонов в гене и искомыми соотношениями кодонов, нормализованная по количеству вхождений всех кодонов. Относительные доли кодонов определяются и могут быть установлены, как описано далее в примере 1.1.2. Пусть rtargetsc(с(k означает желательную долю (или частотность) кодона ck, argsc(c(k, как и ранее, означает его фактическую долю в гене g, тогда пригодность по отдельным кодонам определяется как Таким образом, fitsc может принимать значения в интервале [0, 1], при этом оптимальная последовательность будет близка к 0, тогда как fitcp будет ограничиваться весами, которые в данном случае попадают в интервал [-1,1]. Для оптимизации по обоим подходам, в одном воплощении, вводится комбинированная функция пригодности Здесь cpi, что означает "важность пары кодонов", представляет собой действительное значение больше 0, и оно определяет, какая из двух функций пригодности оказывает большее влияние на комбинированную пригодность. Если cpi близка к 0, то знаменатель стремится к 0, когда fitsc(g) улучшается(т.е. также становится близким к 0), при этом небольшие изменения fitsc(g) влияют на fitcombi(g) больше,чем небольшие изменения fitcp(g), тогда как при больших cpi небольшое улучшение fitcp(g) может оказать большее влияние на fitcombi(g), чем умеренное улучшение fitsc(g). Отметим, что значения fitcombi, полученные при различных значениях cpi, не сопоставимы (при значениях cpi, близких к 0, получаются значенияfitcombi, близкие к -100, тогда как при cpi0,2fitcombi обычно заключается между 0 и -1). В одном воплощении вводится "штраф", если g содержит определенные нежелательные последовательности, например рестрикционные сайты или последовательности, образующие нежелательные вторичные структуры в мРНК. Это может оказаться полезным при конструировании синтетических генов,но само по себе не имеет отношения к оптимизации употребительности отдельных кодонов или пар кодонов. Модифицированная функция пригодности приобретает следующий вид: где P(g) означает штрафную функцию, выдающую положительный вес в том случае, когда нежелательная структура последовательности является частью гена g. Следует иметь в виду, что далее в воплощениях изобретения нуклеотидные и аминокислотные последовательности могут представлять собой теоретические последовательности, которые существуют, к примеру, только на бумаге или ином носителе данных, предпочтительно предназначенном для считывания на компьютере, либо они могут существовать в виде осязаемого, созданного физически воплощения. В первом аспекте, таким образом, изобретение касается способа оптимизации кодирующей нуклеотидной последовательности, кодирующей заданную аминокислотную последовательность, причем кодирующая последовательность оптимизирована для экспрессии в заданных клетках хозяина. Способ предпочтительно включает стадии: (а) получения по меньшей мере одной исходной кодирующей последовательности, кодирующей заданную аминокислотную последовательность; (b) создания по меньшей мере одной новой кодирующей последовательности из этой по меньшей мере одной исходной кодирующей последовательности путем замены в ней одного или нескольких кодонов синонимичными кодонами; (с) определения значения пригодности данной по меньшей мере одной исходной кодирующей последовательности и значения пригодности данной по меньшей мере одной новосозданной кодирующей последовательности при помощи функции пригодности, определяющей пригодность по отдельным кодонам и/или пригодность по парам кодонов для заданных клеток хозяина; (d) выбора одной или нескольких отдельных кодирующих последовательностей из данного по меньшей мере одного исходного гена и данной по меньшей мере одной новосозданной кодирующей последовательности в соответствии с заданным критерием отбора таким образом, что чем выше значение пригодности, тем больше шансов быть выбранной; и (е) повторения операций (b)-(d) до тех пор, пока не будет выполняться заданный критерий прекращения итерации, рассматривая данные одну или несколько отобранных кодирующих последовательностей как одну или несколько исходных кодирующих последовательностей при выполнении опера- 11015925 ций (b)-(d). В одном воплощении изобретения способ предпочтительно включает стадии: (а) получения по меньшей мере одной исходной кодирующей последовательности, кодирующей заданную аминокислотную последовательность; (b) создания по меньшей мере одной новой кодирующей последовательности из этой по меньшей мере одной исходной кодирующей последовательности путем замены в ней одного или нескольких кодонов синонимичными кодонами; (с) определения значения пригодности данной по меньшей мере одной исходной кодирующей последовательности и значения пригодности данной по меньшей мере одной новосозданной кодирующей последовательности при помощи функции пригодности, определяющей пригодность по парам кодонов для заданных клеток хозяина; (d) выбора одной или нескольких отдельных кодирующих последовательностей из данного по меньшей мере одного исходного гена и данной по меньшей мере одной новосозданной кодирующей последовательности в соответствии с заданным критерием отбора таким образом, что чем выше значение пригодности, тем больше шансов быть выбранной; и (е) повторения операций (b)-(d) до тех пор, пока не будет выполняться заданный критерий прекращения итерации, рассматривая данные одну или несколько отобранных кодирующих последовательностей как одну или несколько исходных кодирующих последовательностей при выполнении операций (b)-(d). В другом воплощении изобретения способ предпочтительно включает стадии: (а) получения по меньшей мере одной исходной кодирующей последовательности, кодирующей заданную аминокислотную последовательность; (b) создания по меньшей мере одной новой кодирующей последовательности из этой по меньшей мере одной исходной кодирующей последовательности путем замены в ней одного или нескольких кодонов синонимичными кодонами; (с) определения значения пригодности данной по меньшей мере одной исходной кодирующей последовательности и значения пригодности данной по меньшей мере одной новосозданной кодирующей последовательности при помощи функции пригодности, включающей определение пригодности по отдельным кодонам и пригодности по парам кодонов для заданных клеток хозяина; (d) выбора одной или нескольких отдельных кодирующих последовательностей из данного по меньшей мере одного исходного гена и данной по меньшей мере одной новосозданной кодирующей последовательности в соответствии с заданным критерием отбора таким образом, что чем выше значение пригодности, тем больше шансов быть выбранной; и (е) повторения операций (b)-(d) до тех пор, пока не будет выполняться заданный критерий прекращения итерации, рассматривая данные одну или несколько отобранных кодирующих последовательностей как одну или несколько исходных кодирующих последовательностей при выполнении операций (b)-(d). В способах предпочтительно заданный критерий отбора состоит в том, чтобы данная одна или несколько отобранных кодирующих последовательностей имела наилучшее значение пригодности в соответствии с заданным критерием. Способы по изобретению могут дополнительно включать, после операции е), выбор наилучшей индивидуальной кодирующей последовательности из данных одной или нескольких отобранных кодирующих последовательностей, при этом данная наилучшая индивидуальная кодирующая последовательность имеет лучшее значение пригодности, чем другие отобранные кодирующие последовательности. В способах изобретения заданный критерий прекращения итерации заключается в проверке по меньшей мере одного из: (а) чтобы по меньшей мере у одной из данных отобранных кодирующих последовательностей наилучшее значение пригодности было выше заданного порогового значения; (b) чтобы ни у одной из данных отобранных кодирующих последовательностей наилучшее значение пригодности не было ниже заданного порогового значения; (с) чтобы по меньшей мере у одной из данных отобранных кодирующих последовательностей по меньшей мере 30% пар кодонов с соответствующими положительными весами пар кодонов для заданных клеток хозяина в данной исходной кодирующей последовательности было превращено в пары кодонов с соответствующими отрицательными весами; и (d) чтобы по меньшей мере у одной из данных отобранных кодирующих последовательностей по меньшей мере 10,20, 30, 40, 50, 60, 70, 80 или 90% пар кодонов с соответствующими положительными весами больше 0 для заданных клеток хозяина в данной исходной кодирующей последовательности было превращено в пары кодонов с соответствующими весами меньше 0. В способах изобретения функция пригодности предпочтительно определяет пригодность по отдельным кодонам при помощи уравненияrctarget(c(k означает желательную долю кодона с(k) (приложение 2; векторы CR);rcg(c(k означает фактическую долю в кодирующей нуклеотидной последовательности g.- 12015925 В способах изобретения функция пригодности предпочтительно определяет пригодность по парам кодонам при помощи уравнения где wc(k), с(k+1 означает вес пары кодонов в кодирующей последовательности g;g означает длину данной кодирующей последовательности нуклеотидов; с(k) означает k-й кодон в данной кодирующей последовательности. Более предпочтительно в способах изобретения функция пригодности определяется при помощи уравненияcpi принимает действительное значение, большее или равное 0;fitcp(g) означает функцию пригодности по парам кодонов;fitsc(g) означает функцию пригодности по отдельным кодонам;wc(k), c(k+1 означает вес пары кодонов в кодирующей последовательности g (приложение 3; матрица CPW);g означает длину данной кодирующей последовательности; с(k) означает k-й кодон в данной последовательности кодонов;rtargetsc(с(k означает желательную долю кодона с(k);rgsc(c(k означает фактическую долю в кодирующей последовательности g. Предпочтительно cpi заключается между 0 и 10, более предпочтительно между 0 и 0,5 и наиболее предпочтительно составляет около 0,2. В способах изобретения веса w пар кодонов (приложение 3) можно взять из матрицы 6464 пар кодонов, включающей стоп-кодоны. Отметим, что веса пар стоп: значение и пар стоп:стоп всегда равны нулю. Веса w пар кодонов предпочтительно вычисляют на основе компьютеризованного метода, используя в качестве исходных данных по меньшей мере одно из следующего: (а) последовательность генома заданного хозяина, в которой расшифровано по меньшей мере 5, 10, 20 или 80% кодирующих белки нуклеотидных последовательностей; (b) последовательность генома вида, родственного заданному хозяину,в которой расшифровано по меньшей мере 5, 10, 20 или 80% кодирующих белки нуклеотидных последовательностей; (с) группу нуклеотидных последовательностей, состоящую как минимум из 200 кодирующих последовательностей заданного хозяина; и (d) группу нуклеотидных последовательностей, состоящую как минимум из 200 кодирующих последовательностей вида, родственного заданному хозяину. При этом родственным видом считается вид, у которого нуклеотидная последовательность РНК малой субъединицы рибосом по меньшей мере на 60, 70, 80 или 90% идентична нуклеотидной последовательности РНК малой субъединицы рибосом заданных клеток хозяина (Wuyts et al., 2004, Nucleic Acids Res. 32:D101-D103). Вовсе не обязательно определять веса w пар кодонов у всех возможных 6164 пар кодонов, включая сигнал терминации в качестве стоп-кодона, а можно определять только у какой-то их части, например по меньшей мере у 5, 10, 20, 50 и предпочтительно 100% всех возможных 6164 пар кодонов, включая сигнал терминации в качестве стоп-кодона. Отбор генов с высоким уровнем экспрессии Для вычисления матриц весов пар кодонов и векторов искомых долей отдельных кодонов может применяться набор нуклеотидных последовательностей из определенных клеток самого хозяина, набор нуклеотидных последовательностей из родственного вида либо комбинация того и другого. Набор А нуклеотидных последовательностей называется "контрольным набором". Наиболее предпочтительно этот набор содержит полный набор открытых рамок считывания (ORF) у организма, который полностью расшифрован (95%). В предпочтительном воплощении изобретения отбирается частичный набор В, содержащий ту часть набора, в которой сильнее представлены гены с высоким уровнем экспрессии либо гены, кодирующие белки с высоким уровнем экспрессии. Этот набор может быть определен путем измерения и последующего ранжирования типа гибридизации мРНК по технологии матриц, например матриц фирмыAffymetrix, Nimblegen, Agilent или любого другого источника для контрольного набора А. Другие измерения могут представлять собой ОТ-ПЦР, разделение белков в геле, анализ MS-MS или любой другой метод измерения, известный специалистам в этой области. Помимо ранжирования на основе измерений,- 13015925 также можно применять методы биоинформатики с тем, чтобы прямо предсказать группу генов с высоким уровнем экспрессии, например путем отбора генов с наибольшей смещенностью (Carbone et al, 2003) либо путем отбора известных генов с высоким уровнем экспрессии у широкого круга организмов. К ним относятся гены рибосомных белков, гликолиза и цикла ТКК, участвующие в первичном метаболизме, и гены, участвующие в транскрипции и трансляции. Предпочтительно веса w пар кодонов вычисляют на основе компьютеризованного метода, используя в качестве исходных данных группу генов с высоким уровнем экспрессии в заданных клетках хозяина. Под генами с высоким уровнем экспрессии в настоящем изобретении понимаются гены, у которых мРНК обнаруживается на уровне по меньшей мере 10, предпочтительно 20, более предпочтительно 50,еще более предпочтительно 100, еще более предпочтительно 500 и наиболее предпочтительно по меньшей мере 1000 копий на клетку. Например, Gygi et al. установили, что на одну дрожжевую клетку приходится 15000 молекул мРНК. Установлено, что распространенность отдельных мРНК составляет 0,1-470 копий на клетку (Gygi S.P., Y. Rochon, B.R. Franza and R. Aebersold (1999). Correlation between protein and(по Akashi H. (2003). Translational selection and yeast proteome evolution. Genetics, 164(4): 1291-1303). С другой стороны, группа генов с высоким уровнем экспрессии в заданных клетках хозяина может состоять из 1000, 500, 400, 300, 200 или 100 наиболее распространенных мРНК или белков. Специалисту должно быть понятно, что для вычисления долей отдельных кодонов размер группы генов с высоким уровнем экспрессии может быть небольшим, так как определяется по максимуму только 64 искомых значений. При этом контрольный набор генов с высоким уровнем экспрессии может составлять всего лишь 1 ген, но обычно репрезентативным считается набор генов с высоким уровнем экспрессии, составляющий 1% всего генома, к примеру см. Carbone A. et al. (2003). Codon adaptation index as a measure ofdominating codon bias. Bioinformatics. 19(16): 2005-15). Для расчета матрицы весов пар кодонов обычно достаточен набор из 200-500 контрольных генов, что соответствует 2-7% бактериального генома (300015000 генов). Другая возможность состоит в получении вероятной подгруппы генов с высоким уровнем экспрессии из литературы. Например, для модельного организма - Bacillus subtilis существует довольно приличная литература по смещенности отдельных кодонов. Хороший обзор на современном уровне по В.subtilis приведен в работе Kanaya et al. (1999). В нашем подходе, см. пример 4, набор генов с высоким уровнем экспрессии составляется на основе данных по уровням мРНК, полученным по технологии Affymetrix, и эти последовательности подвергаются сравнению с полным комплектом ORFs генома. Другие возможности, применявшиеся в литературе, это данные по экспрессии белков и группы генов таких (предположительно) функциональных категорий, как рибосомные белки, белки, участвующие в трансляции и транскрипции, споруляции, энергетическом метаболизме, и белки жгутиковой системы (Kanaya et al.,1999; Karlin and Mrazek, 2000). Действительно, высокая смещенность кодонов обнаруживается, к примеру, у рибосомных белков, а также у других названных групп. Однако не все гены в последней группе проявляют такое поведение. К тому же авторы изобретения не знают, как реагируют рибосомные белки в условиях низкой продукции. Поэтому кажется логичным прямой метод измерения для получения подгруппы генов с высоким уровнем экспрессии. Затем можно выбрать данные транскриптомики (ТХ) и/или протеомики (РХ). В отношении обоих есть за и против. ТХ дает довольно сложную картину уровней мРНК генов по всему геному,тогда как данные РХ могут быть искажены из-за сильной представленности водорастворимых белков. Данные ТХ являются прямой мерой наличия мРНК, подвергающейся трансляции, тогда как белок является частью процесса накопления, в котором важную роль играет и кругооборот. Так или иначе, у генов с высоким уровнем экспрессии данные ТХ и РХ хорошо коррелируют (Gygi et al., 1999). Другой интересной работой является прогнозирование генов с высоким уровнем экспрессии (РНХ) по отклонению от усредненной употребительности кодонов и сходству с рибосомными белками и белковыми факторами,участвующими в процессах трансляции и транскрипции, и белками деградации чаперони (Karlin andMrazek, 2000). В частности, у таких быстрорастущих организмов, как Bacillus, Е.coli и др., основные гены гликолиза и гены цикла трикарбоновых кислот принадлежат к вышеуказанной группе. Предсказания метода хорошо совпадают с известными генами с высоким уровнем экспрессии по данным экспрессии мРНК и белка. Специалистам должно быть понятно, что веса w отдельных кодонов и пар кодонов могут определяться для модифицированных клеток хозяина, подвергнутых модификации в отношении содержания и природы кодирующих тРНК генов, т.е. клеток хозяина, содержащих дополнительные копии существующих генов тРНК, новых (экзогенных) генов тРНК, в том числе генов не встречающихся в природе тРНК,включая гены, кодирующие модифицированные тРНК, содержащие не встречающихся в природе аминокислоты или другие химические соединения, а также клеток хозяина, у которых один или несколько генов тРНК были инактивированы или удалены. В способе изобретения исходная кодирующая последовательность нуклеотидов, кодирующая заданную аминокислотную последовательность, может быть выбрана из: (а) нуклеотидной последовательности дикого типа, кодирующей заданную аминокислотную последовательность; (b) продукта обратной- 14015925 трансляции заданной аминокислотной последовательности, при которой кодон для аминокислоты в заданном положении аминокислотной последовательности выбирается случайным образом из синонимичных кодонов, кодирующих эту аминокислоту; и (с) продукта обратной трансляции заданной аминокислотной последовательности, при которой кодон для аминокислоты в заданном положении аминокислотной последовательности выбирается в соответствии со смещенностью отдельных кодонов у заданных клеток хозяина или родственного вида. Клетки хозяина. В способах изобретения заданный хозяин может быть представлен любыми клетками хозяина или организма, пригодными для продукции искомого полипептида при экспрессии оптимизированной кодирующей последовательности нуклеотидов. При этом клетки хозяина могут быть прокариотическими или эукариотическими клетками. Клетки хозяина могут быть представлены клетками, пригодными для культивирования в жидкой среде или на твердой среде. С другой стороны, клетки хозяина могут быть представлены клетками, входящими в состав многоклеточной ткани или многоклеточного организма, как-то(трансгенного) растения, животного или человека. Клетки хозяина могут быть микробными и немикробными. К подходящим немикробным клеткам хозяина относятся, например, клетки млекопитающих, как-то клетки СНО (яичников китайского хомяка),клетки BHK (почек детенышей хомяка), клетки мыши (например, NS0), клетки обезьян типа COS илиVero, клетки человека типа PER.C6 или HEK-293; клетки насекомых, как-то клетки дрозофилы S2 и клетки сподоптеры Sf9 или Sf21; либо клетки таких растений, как табак, томат, картофель, рапс, капуста,горох, пшеница, кукуруза, рис, такие виды Taxus, как Taxus brevifolia, такие виды Arabidopsis, какArabidopsis thaliana, и такие виды Nicotiana, как Nicotiana tabacum. Такие немикробные клетки особенно подходят для продукции белков млекопитающих или человека для применения при лечении млекопитающих или человека. Клетки хозяина также могут быть микробными клетками, как-то бактериальными или грибковыми. К подходящим бактериальным клеткам хозяина относятся и грамположительные, и грамотрицательные бактерии. Примеры подходящих бактериальных клеток хозяина включают бактерии родов Bacillus,Actinomycetis, Escherichia, Streptomyces, а также молочнокислые бактерии, такие как Lactobacillus,Streptococcus, Lactococcus, Oenococcus, Leuconostoc, Pediococcus, Carnbacterium, Propionibacterium,Enterococcus и Bifidobacterium. Особенно предпочтительны Bacillus subtilis, Bacillus amyloliquefaciens,Bacillus licheniformis, Escherichia coli, Streptomyces coelicolor, Streptomyces clavuligerus и Lactobacillusplantarum, Lactococcus lactis. С другой стороны, клетки хозяина могут быть представлены эукариотическим микроорганизмом типа дрожжей или нитчатых грибов. Предпочтительно дрожжевые клетки в качестве хозяина принадлежат к родам Saccharomyces, Kluyveromyces, Candida, Pichia, Schizosaccharomyces, Hansenula, Kloeckera,Schwanniomyces и Yarrowia. Особенно предпочтительными клетками Debaromyces в качестве хозяина являются Saccharomyces cerevisiae и Kluyveromyces lactis. В соответствии с более предпочтительным воплощением клетки хозяина по настоящему изобретению представлены клетками нитчатых грибов. "Нитчатые грибы" охватывают все нитчатые формы подраздела Eumycota и Oomycota (как они определены в Hawksworth et al., 1995, supra). Нитчатые грибы характеризуются тем, что стенка мицелия состоит из хитина, целлюлозы, глюкана, хитозана, маннана и других сложных полисахаридов. Вегетативный рост происходит путем удлинения гифов, а катаболизм углерода - облигатно аэробный. К родам нитчатых грибов, штаммы которых могут использоваться в качестве клеток хозяина в настоящем изобретении, относятся штаммы родов Acremonium, Aspergillus,Aureobasidium, Cryptococcus, Filibasidium, Fusarium, Humicola, Magnaporthe, Mucor, Myceliophthora,Neocallimastix, Neurospora, Paecilomyces, Penicillium, Piromyces, Schizophyllum, Chrysosporium,Talaromyces, Thermoascus, Thielavia, Tolypocladium и Trichoderma. Предпочтительно нитчатые грибы принадлежат к видам, выбранным из группы, состоящей из Aspergillus niger, Aspergillus oryzae,Aspergillus sojae, Trichoderma reesei и Penicillium chrysogenum. Примеры подходящих штаммов хозяина включают: Aspergillus niger CBS 513.88 (Pel et al., 2007, Nat. Biotech. 25: 221-231), Aspergillus oryzaechrysogenum ATCC 36225 или ATCC 48272, Trichoderma reesei ATCC 26921, или ATCC 56765, или ATCC 26921, Aspergillus sojae ATCC 11906, Chrysosporium lucknowense ATCC 44006 и их производные. Клетки хозяина могут быть представлены клетками нитчатых грибов дикого типа либо их вариантами, мутантами или генетически модифицированными клетками нитчатых грибов. К таким модифицированным клеткам нитчатых грибов относятся, например, клетки с пониженным уровнем протеаз,как-то дефицитные по протеазам штаммы типа Aspergillus oryzae JaL 125 (описан в WO 97/35956 или ЕР 429490); дефицитный по трипептидиламинопептидазам штамм A.niger, описанный в WO 96/14404,или клетки с пониженной продукцией активатора транскрипции протеаз (prtT; описаны в WO 01/68864,US 2004/0191864 А 1 и WO 2006/040312); штаммы типа Aspergillus oryzae BECh2, у которых инактивированы три гена ТАКА-амилазы, два гена протеаз, а также способность к образованию метаболитов циклопиазоновой кислоты и койевой кислоты (BECh2 описан в WO 00/39322); клетки нитчатых- 15015925 грибов с повышенной выработкой развернутых белков (UPR) по сравнению с клетками дикого типа для повышения способности к продукции искомого полипептида (описаны в US 2004/0186070 А 1,US 2001/0034045 A1, WO 01/72783 А 2 и WO 2005/123763); клетки с дефицитным по оксалату фенотипом(описаны в WO 2004/070022 A2 и WO 2000/50576); клетки с пониженной экспрессией таких распространенных эндогенных полипептидов, как глюкоамилаза, нейтральная -амилаза А, нейтральная -амилаза В, -1,6-трансглюкозидаза, протеазы, целлобиогидролаза и/или гидролаза щавелевой кислоты (которые могут быть получены путем генетической модификации в соответствии с методами, описанными вUS 2004/0191864 A1); клетки с повышенной эффективностью гомологической рекомбинации (содержащие дефектный ген hdfA или hdfB, как описано в WO 2005/095624) и клетки с любыми возможными комбинациями этих модификаций. В способах изобретения заданная аминокислотная последовательность может представлять собой аминокислотную последовательность (искомого полипептида), гетерологичную заданным клеткам хозяина либо она может представлять собой аминокислотную последовательность (искомого полипептида),гомологичную заданным клеткам хозяина. Термин "гетерологичные" в применении к нуклеиновым кислотам (ДНК или РНК) либо к белкам обозначает нуклеиновые кислоты или белки, которые не встречаются естественным образом в составе организма, клеток, генома или последовательности ДНК или РНК, в которых они находятся, либо встречаются в клетках или таких местах или положениях в геноме либо последовательности ДНК или РНК,которые отличаются от тех, в которых они находятся в природе. Гетерологичные нуклеиновые кислоты или белки не являются эндогенными для тех клеток, в которые они вводятся, а были получены из других клеток либо получены методом синтеза или рекомбинантным методом. Обычно, хотя и необязательно,такие нуклеиновые кислоты кодируют белки, которые в норме не вырабатываются в тех клетках, в которых они подвергаются экспрессии. Термин "гетерологичная нуклеиновая кислота или белок" охватывает любые нуклеиновые кислоты или белки, которые специалист в этой области признает гетерологичными или чужеродными для тех клеток, в которых они подвергаются экспрессии. Термин "гетерологичные" также применяется к неестественным комбинациям нуклеотидных или аминокислотных последовательностей, т.е. таким комбинациям, в которых по меньшей мере две из входящих в не последовательностей являются чужеродными друг для друга. Термин "гомологичная" в применении к обозначению связи между данной (рекомбинантной) молекулой нуклеиновой кислоты или полипептида и данным организмом или клетками хозяина понимается как то, что в природе эта молекула нуклеиновой кислоты или полипептида вырабатывается клетками хозяина или организмом одного и того же вида, предпочтительно той же разновидности или штамма. Заданная аминокислотная последовательность может представлять собой последовательность любого представляющего интерес полипептида, обладающего коммерческой или промышленной применимостью или полезностью. Так, искомым полипептидом может быть антитело или его часть, антиген, фактор свертывания крови, фермент, гормон или вариант гормона, рецептор или его часть, регуляторный белок, структурный белок, белок-репортер или транспортный белок, внутриклеточный белок, белок, участвующий в процессе секреции, белок, участвующий в процессе упаковки белков, чапероне, пептидпереносчик аминокислот, фактор гликозилирования, фактор транскрипции. Предпочтительно искомый полипептид подвергается секреции во внеклеточную среду клеток хозяина по классическому пути секреции, по неклассическому пути секреции или по альтернативному пути секреции (описано вWO 2006/040340). В том случае, когда искомый полипептид является ферментом, им может быть, например, оксидоредуктаза, трансфераза, гидролаза, лиаза, изомераза, лигаза, каталаза, целлюлаза, хитиназа, кутиназа, дезоксирибонуклеаза, декстраназа, эстераза. К более предпочтительным ферментам относятся, например, карбогидразы, например, такие целлюлазы, как эндоглюканазы, -глюканазы, целлобиогидролазы или -глюкозидазы, такие гемицеллюлазы или пектинолитические ферменты, как ксиланазы, ксилозидазы, маннаназы, галактаназы, галактозидазы, пектинметилэстеразы, пектинлиазы, пектатлиазы, эндополигалактуроназы, экзополигалактуроназы, рамнополигалактуроназы, арабаназы, арабинофуранозидазы, арабиноксилангидролазы, галактуроназы, лиазы или амилолитические ферменты; гидролазы, изомеразы или лигазы, такие фосфатазы, как фитазы, такие эстеразы, как липазы, протеолитические ферменты, такие оксидоредуктазы, как оксидазы, трансферазы или изомеразы, фитазы, аминопептидазы, карбоксипептидазы, эндопротеазы, металлопротеазы, сериновые протеазы, каталазы,хитиназы, кутиназы, циклодекстрин-гликозилтрансферазы, дезоксирибонуклеазы, -галактозидазы,-галактозидазы, глюкоамилазы, -глюкозидазы, -глюкозидазы, галопероксидазы, инвертазы, лакказы,маннозидазы, мутаназы, пероксидазы, фосфолипазы, полифенолоксидазы, рибонуклеазы, трансглутаминазы, глюкозоксидазы, гексозоксидазы и монооксигеназы. Несколько представляющих интерес терапевтических белков охватывают, например, антитела и их фрагменты, инсулин человека и его аналоги, лактоферрин человека и его аналоги, гормон роста человека, эритропоэтин, тканевой активатор плазминогена (tPA) или инсулинотропин. Полипептид может участвовать в синтезе метаболита, предпочтительно лимонной кислоты. К таким полипептидам относятся, например, аконитатгидратаза, аконитатгидроксилаза, 6-фосфофруктокиназа, цитратсинтаза, карбоксифосфоноенолпируват-фосфономутаза, гликолатре- 16015925 дуктаза, предшественник глюкозоксидазы goxC, нуклеозиддифосфат-сахар эпимераза, глюкозоксидаза,Mn-супероксиддисмутаза, цитратлиаза, убихинонредуктаза, белки-переносчики, белки-переносчики цитрата, белки дыхательной цепи митохондрий и белки-переносчики ионов металлов. Компьютер, программа и носитель данных В другом аспекте изобретение касается компьютера, включающего процессор и память, причем процессор настроен на чтение из этой памяти и запись в эту память, а память включает данные и инструкции, предназначенные для придания процессору способности к выполнению способа изобретения. В следующем аспекте изобретение касается компьютерного программного продукта, включающего данные и инструкции и настроенного на то, чтобы загружаться в память компьютера, также включающего процессор, причем процессор настроен на чтение из этой памяти и запись в эту память, а память включает данные и инструкции, предназначенные для придания процессору способности к выполнению способа изобретения. В следующем аспекте изобретение касается носителя данных, снабженного компьютерным программным продуктом, как определено выше. Молекулы нуклеиновой кислоты В следующем аспекте изобретение касается молекул нуклеиновой кислоты, включающих кодирующую последовательность, кодирующую заданную аминокислотную последовательность. Кодирующая последовательность предпочтительно представляет собой нуклеотидную последовательность, не похожую на природную кодирующую последовательность. Скорее кодирующая последовательность в молекуле нуклеиновой кислоты представляет собой нуклеотидную последовательность, не встречающуюся в природе, а искусственную, т.е. сконструированную, созданную человеком нуклеотидную последовательность, созданную на основе способа оптимизации смещенности отдельных кодонов и/или пар кодонов для заданных клеток хозяина в соответствии с методами, приведенными в настоящем изобретении, и впоследствии синтезированную в виде реальной молекулы нуклеиновой кислоты. Предпочтительно кодирующая последовательность имеет значение fitsc(g) как минимум меньше 0,2, более предпочтительно меньше 0,1 и наиболее предпочтительно меньше 0,02 для заданных клеток хозяина. Более предпочтительно кодирующая последовательность имеет значение fitcp(g) как минимум меньше 0 для заданных клеток хозяина. Наиболее предпочтительно кодирующая последовательность имеет значениеfitcp(g) как минимум меньше -0,1 для заданных клеток хозяина, а еще более предпочтительно как минимум меньше -0,2. Предпочтительно в оптимизированном гене g содержится по меньшей мере 60, 70, 75,80, 85% пар кодонов и наиболее предпочтительно по меньшей мере 90% пар кодонов с отрицательными значениями для заданного организма хозяина. Заданная аминокислотная последовательность, которая кодируется кодирующей последовательностью, может представлять собой любой полипептид, как определено выше, а заданные клетки хозяина могут представлять собой любые клетки хозяина, как определено выше. В молекуле нуклеиновой кислоты кодирующая последовательность предпочтительно функционально связана с контролирующей экспрессию последовательностью, которая способна управлять экспрессией кодирующей последовательности в заданных клетках хозяина. В контексте изобретения контролирующая последовательность определяется как нуклеотидная последовательность, которая функционально связана с кодирующей последовательностью, когда они находятся вместе, и включает все компоненты, необходимые или полезные для экспрессии нуклеотидной последовательности, кодирующей вырабатываемый полипептид. Каждая контролирующая последовательность может быть нативной или чужеродной для нуклеотидной последовательности, кодирующей вырабатываемый полипептид. Такие контролирующие последовательности могут включать последовательность лидера, последовательность полиаденилирования, последовательность пропептида, промотора, инициатора трансляции, кодирующую последовательность инициатора трансляции, последовательность трансляционного терминатора транскрипции и терминатора транскрипции. Контролирующие последовательности могут быть снабжены линкерами, например, с целью введения специфических рестрикционных сайтов, способствующих лигированию контролирующих последовательностей с кодирующей областью нуклеотидной последовательности, кодирующей полипептид. Контролирующие экспрессию последовательности обычно как минимум содержат промотор. В настоящем изобретении термином "промотор" обозначается фрагмент нуклеиновой кислоты, который функционирует, контролируя транскрипцию одного или нескольких генов, расположенных впереди относительно направления транскрипции сайта инициации транскрипции гена, и в структурном отношении определяется наличием связывающего сайта связывания для ДНК-зависимой РНК-полимеразы, сайтов инициации транскрипции и любых других последовательностей ДНК, в том числе сайтов связывания факторов транскрипции, сайтов связывания белков-репрессоров и активаторов и любых других последовательностей нуклеотидов, известных специалистам в этой области, которые прямо или косвенно регулируют уровень транскрипции из промотора. "Конститутивным" промотором является такой промотор,который активен при большинстве условий среды и развития. "Индуцибельным" промотором является такой промотор, который активируется под воздействием среды или стадии развития.- 17015925 Отрезок ДНК типа контролирующей экспрессию последовательности является "функционально связанным", если он находится в функциональном отношении с другим отрезком ДНК. Например, промотор или энхансер функционально связан с кодирующей последовательностью, если он стимулирует транскрипцию этой последовательности. ДНК сигнальной последовательности функционально связана с ДНК, кодирующей полипептид, если она экспрессируется в виде пробелка, участвующего в секреции полипептида. Обычно последовательности ДНК, которые функционально связаны, являются смежными,а в случае сигнальной последовательности и являются смежными, и находятся в одной рамке считывания. Однако энхансеры не обязательно примыкают к тем кодирующим последовательностям, которые они контролируют. Присоединение осуществляется путем лигирования по удобным рестрикционным сайтам или через адаптеры, линкеры или ПЦР-фрагменты известными в этой области способами. Выбор надлежащей последовательности промотора обычно зависит от клеток хозяина, выбранных для экспрессирования отрезка ДНК. Примеры подходящих последовательностей промоторов включают прокариотические и эукариотические промоторы, хорошо известные в этой области (например, см.Laboratory, Cold Spring Harbor Laboratory Press, New York). Регулирующие транскрипцию последовательности, как правило, включают гетерологичный энхансер или промотор, который распознается хозяином. Выбор надлежащей последовательности промотора зависит от хозяина, однако известны и доступны такие промоторы, как trp, lac, и промоторы фагов, промоторы тРНК и промоторы ферментов гликолиза (например, см. Sambrook and Russell, 2001, supra). Примеры предпочтительных индуцибельных промоторов, которые можно использовать, включают промоторы, индуцируемые крахмалом, медью, олеиновой кислотой. Предпочтительными промоторами для клеток нитчатых грибов, например, являются промотор глюкоамилазы A.niger или промотор ТАКА-амилазы A. oryzae и промоторы, описанные вWO 2005/100573. Нуклеотидная последовательность по изобретению также может содержать сигнальную последовательность или скорее кодирующую область сигнального пептида. Сигнальная последовательность кодирует аминокислотную последовательность, связанную с N-концом полипептида, которая может направлять экспрессируемый полипептид на секреторный путь клетки. Сигнальные последовательности обычно содержат гидрофобный стержень из 4-15 аминокислот, перед которым зачастую находится основная аминокислота. На С-конце сигнального пептида имеется пара небольших незаряженных аминокислот,разделенных одной вставочной аминокислотой, определяющей сайт отщепления сигнального пептида:von Heijne G. (1990), J. Membrane Biol. 115: 195-201. Несмотря на общее структурное и функциональное сходство, нативные сигнальные пептиды не имеют консенсусной последовательности. Кодирующие области подходящих сигнальных пептидов могут быть получены из гена глюкоамилазы или амилазы какого-нибудь вида Aspergillus либо гена липазы или протеиназы какого-нибудь вида Rhizomucor, гена фактора Saccharomyces cerevisiae, гена амилазы или протеазы какого-нибудь вида Bacillus или гена препрохимозина теленка. Однако в настоящем изобретении можно использовать кодирующую область любого сигнального пептида, способного направить экспрессируемый белок на секреторный путь выбранных клеток хозяина. Предпочтительными кодирующими областями сигнальных пептидов для клеток нитчатых грибов являются кодирующие области сигнальных пептидов из гена ТАКА-амилазыAspergillus oryzae (EP 238023), гена нейтральной амилазы Aspergillus niger, глюкоамилазы Aspergillusniger, гена аспартатной протеиназы Rhizomucor miehei, гена целлюлазы Humicola lanuginosa, целлюлазыRhizomucor miehei и их мутантные, укороченные и гибридные сигнальные последовательности. В предпочтительном воплощении изобретения нуклеотидная последовательность, кодирующая сигнальную последовательность, является составной частью кодирующей последовательности, оптимизированной в отношении смещенности отдельных кодонов или пар кодонов для заданного хозяина. В молекуле нуклеиновой кислоты по изобретению кодирующая последовательность предпочтительно также функционально связана с последовательностью инициатора трансляции. У эукариот консенсусная последовательность (6-12 нуклеотидов) перед инициирующим кодоном ATG часто называется консенсусной последовательностью Козака от первоначальной работы по этой теме (Kozak M. (1987): Ananalysis of 5'-noncoding sequences from 699 vertebrate messenger RNAs. Nucl. Acids Res. 15(20): 8125-47). Исходная консенсусная последовательность Козака CCCGCCGCCrCC(ATG)G, включающая нуклеотид+4 и выведенная Козаком, связана с инициацией трансляции у высших эукариот. У клеток прокариот соответствующая последовательность Шине-Дельгарно (AGGAGG) предпочтительно находится в 5'-нетранслируемом участке мРНК прокариот и служит сайтом инициации трансляции для рибосом. В контексте настоящего изобретения термин "последовательность инициатора трансляции" определяется как 10 нуклеотидов непосредственно перед инициирующим или старт-кодоном открытой рамки считывания последовательности ДНК, кодирующей полипептид. Инициирующий или старт-кодон кодирует аминокислоту метионин. Инициирующим кодоном обычно служит ATG, но им может быть и любой функциональный старт-кодон, как-то GTG, TTG или CTG.- 18015925 В особенно предпочтительном воплощении изобретения молекула нуклеиновой кислоты включает кодирующую последовательность, кодирующую заданную аминокислотную последовательность, которая подлежит экспрессии в грибковых клетках хозяина, т.е. заданными клетками хозяина предпочтительно являются грибы, из которых наиболее предпочтительны нитчатые грибы. Молекулы нуклеиновой кислоты, включающие кодирующие последовательности, оптимизированные для экспрессии в клетках грибов в соответствии с изобретением, могут дополнительно содержать один или несколько следующих элементов: 1) консенсусную последовательность грибкового инициатора трансляции; 2) кодирующую последовательность грибкового инициатора трансляции и 3) грибковую последовательность терминации трансляции. Консенсусная последовательность грибкового инициатора трансляции предпочтительно определяется следующими последовательностями: 5'-mwChkyCAmv-3', при использовании неоднозначных кодов для нуклеотидов: m (А/С); r (A/G); w (А/Т); s (C/G); y (С/Т); k (G/T); v (A/C/G); h (A/C/T); d (A/G/T); b(C/G/T); n (A/C/G/T). В соответствии с более предпочтительным воплощением эти последовательности таковы: 5'-mwChkyCAAA-3'; 5'-mwChkyCACA-3' или 5'-mwChkyCAAG-3'. Наиболее предпочтительно консенсусная последовательность инициации трансляции представлена 5'-CACCGTCAAA-3' или 5'-CGCAGTCAAG-3'. В контексте настоящего изобретения термин "консенсусная кодирующая последовательность инициатора трансляции" определяется как 9 нуклеотидов непосредственно после инициирующего кодона открытой рамки считывания кодирующей последовательности (инициирующим кодоном обычно служитATG, но им может быть и любой функциональный старт-кодон, к примеру GTG). Предпочтительно грибковая консенсусная кодирующая последовательность инициатора трансляции имеет следующую последовательность нуклеотидов: 5'-GCTnCCyyC-3', при использовании неоднозначных кодов для нуклеотидов: у (С/Т) и n (A/C/G/T). Это дает 16 вариантов кодирующей последовательности инициатора трансляции, из которых наиболее предпочтительна 5'-GCT ТСС ТТС -3'. При использовании консенсусной кодирующей последовательности инициатора трансляции в указанных аминокислотных положениях могут находиться следующие аминокислоты: аланин в положении +2, аланин, серин, пролин или треонин в положении +3 и фенилаланин, серин, лейцин или пролин в положении +4 кодируемого полипептида. Предпочтительно в настоящем изобретении консенсусная кодирующая последовательность инициатора трансляции является чужеродной для последовательности нуклеиновой кислоты, кодирующей вырабатываемый полипептид, но она может быть и нативной для грибковых клеток хозяина. В контексте настоящего изобретения термин "последовательность терминации трансляции" определяется как 4 нуклеотида сразу после стоп-кодона трансляции на 3'-конце открытой рамки считывания или кодирующей последовательности. Предпочтительными грибковыми последовательностями терминации трансляции являются: 5'-TAAG-3', 5'-TAGA-3' и 5'-ТААА-3', из которых наиболее предпочтительна 5'-ТААА-3'. Кодирующая последовательность, кодирующая заданную аминокислотную последовательность,подлежащую экспрессии в грибковых клетках хозяина, предпочтительно дополнительно оптимизирована по частотности отдельных кодонов таким образом, что по меньшей мере 1, 2, 3, 4 или 5 исходных кодонов, более предпочтительно по меньшей мере 1, 2, 3, 4, 5, 10, 15, 20, 25, 50, 75, 80, 85, 90 или 95% исходных кодонов заменяются синонимичными кодонами, причем синонимичные кодоны кодируют те же самые аминокислоты, что и нативные кодоны, но имеют большую частотность употребления кодонов, как определено в табл. А, чем исходные кодоны.- 19015925 Таблица А Оптимальная частотность кодонов у нитчатых грибов по синонимическим кодонам в % Еще более предпочтительна кодирующая последовательность, кодирующая заданную аминокислотную последовательность, подлежащую экспрессии в грибковых клетках хозяина, предпочтительно дополнительно оптимизирована по частотности отдельных кодонов таким образом, что по меньшей мере 1, 2, 3, 4 или 5 исходных кодонов, более предпочтительно по меньшей мере 1, 2, 3, 4, 5, 10, 15, 20, 25, 50,75, 80, 85, 90 или 95% исходных кодонов заменяются синонимичными кодонами, причем у синонимичных кодонов частотность меняется таким образом, что величина абсолютной разности между процентным содержанием данного кодона при данной частотности и приведенным в списке оптимальным процентом уменьшается после модифицирования, используя следующий список оптимального процентного состава: цистеин при кодировании TGC (100%); фенилаланин - ТТС (100%); гистидин - САС (100%); лизин - AAG (100%); аспарагин - ААС (100%); глутамин - CAG (100%); тирозин - ТАС (100%); аланин - GCT (38%), GCC (50,7%) или GCG (11,3%); аспартат - GAC (63,2%); глутамат - GAG (74,2%); глицин - GGT (49%), GGC (35,9%), GGA (15,1%); изолейцин - АТТ (26,7%), АТС (73,3%); лейцин - TTG (12,7%), СТТ (17,4%), СТС (38,7%), CTG (31,2%); пролин - ССТ (35,6%), ССС (64,4%); аргинин - CGT (49,1%), CGC (50,9%); серин - ТСТ (20,8%), ТСС (44,0%), TCG (14,4%), AGC (20,8%); треонин - ACT (29,7%), АСС (70,3%) и/или валин - GTT (27,4%), GTC (54,5%), GTG (18,1%); кодоны, кодирующие все другие возможные аминокислоты (0%). Вышеприведенные молекулы нуклеиновой кислоты, содержащие кодирующие последовательности по изобретению (для экспрессирования в заданных клетках хозяина), могут дополнительно включать элементы, которые обычно встречаются в экспрессионных векторах, как-то селекционный маркер, начало репликации и/или последовательности, способствующие встраиванию, предпочтительно посредством гомологической рекомбинации по заданному сайту в геноме. Такие дополнительные элементы хорошо известны в данной области и не нуждаются в дальнейшем определении. В следующем аспекте изобретение касается клеток хозяина, содержащих молекулы нуклеиновой кислоты, как определено выше. Клетками хозяина предпочтительно являются такие клетки, которые определены выше.- 20015925 В следующем аспекте изобретение касается способа продукции полипептида, имеющего заданную аминокислотную последовательность. Способ предпочтительно включает культивирование клеток хозяина, содержащих молекулы нуклеиновой кислоты, как определено выше, в условиях, способствующих экспрессии полипептида, и необязательно выделение полипептида. В следующем аспекте изобретение касается способа продукции по меньшей мере одного внутриклеточного или внеклеточного метаболита. Способ включает культивирование клеток хозяина, как определено выше, в условиях, способствующих продукции метаболита. Предпочтительно в продукции метаболита у хозяина участвует полипептид, имеющий заданную аминокислотную последовательность (которая кодируется молекулой нуклеиновой кислоты, как определено выше). Метаболит (это может быть первичный или вторичный метаболит либо то и другое; внутри- или внеклеточный либо то и другое) может представлять собой любой продукт ферментации, который может вырабатываться в процессе ферментации. К таким продуктам ферментации относятся, к примеру, аминокислоты, как-то лизин, глутаминовая кислота, лейцин, треонин, триптофан; антибиотики, в том числе ампициллин, бацитрацин, цефалоспорины, эритромицин, моненсин, пенициллины, стрептомицин, тетрациклины, тилозин, макролиды и хинолоны; предпочтительными антибиотиками являются цефалоспорины и -лактамы; липиды и жирные кислоты, в том числе полиненасыщенные жирные кислоты (PUFA); спирты, как-то этанол, пропанол и бутанол; многоатомные спирты, как-то 1,3-пропандиол, бутандиол, глицерин и ксилит; кетоны, как-то ацетон; амины, диамины, этилен; изопреноиды, как-то каротеноиды, каротин, астаксантин, ликопен, лютеин; акриловая кислота, такие стерины, как холестерин и эргостерин; витамины, в том числе витамины А, В 2, В 12, С, D, Е и K; и органические кислоты, в том числе глюкаровая, глюконовая, глутаровая, адипиновая, янтарная, винная, щавелевая, уксусная, молочная, муравьиная, яблочная, малеиновая, малоновая,лимонная, фумаровая, итаконовая, левулиновая, ксилоновая, аконитовая, аскорбиновая, койевая и коменовая кислоты; предпочтительной органической кислотой является лимонная кислота. В настоящем описании и формуле изобретения глагол "включать" и его формы спряжения применяются в неограничивающем смысле, означая, что включаются объекты, следующие за этим словом, но не исключаются объекты, не указанные конкретно. Кроме того, обозначение элемента в единственном числе не исключает возможности того, что имеется больше чем один такой элемент, если только из контекста не требуется, чтобы был один и только один такой элемент. Таким образом, единственное число обычно означает "по меньшей мере один". Примеры Пример 1. Анализ смещенности пар кодонов. 1.1. Материалы и методы. 1.1.1. Данные и программное обеспечение. Анализ пар кодонов может проводиться по данным о кодирующих последовательностях (CDS) во всей последовательности генома, а также извлеченных из них частичных групп (или частичной последовательности генома, к примеру типа библиотек кДНК/EST, или же частичных данных из нескольких геномов родственных организмов). Применяемые в настоящем изобретении инструментальные средства считывают эти данные, используя файлы FASTA в качестве входных данных. Подавляющее большинство всех вычислений выполнялось в MATLAB 7.01 (The Math Works, Inc., www.mathworks.com), но иногда при детальном анализе полученных результатов использовали Spotfire DecisionSite 8.0 (Spotfire, Inc.,http://www.spotfire.com/products/decisionsite.cfm). Для A.niger использовали файл FASTA с расчетными последовательностями кДНК для полного генома CBS513.88 (Pel et al., 2007, Nat. Biotech. 25: 221-231) и для группы из 479 генов с высоким уровнем экспрессии. Кроме того, поскольку у A.niger обычно одновременно экспрессируется менее половины всех 14000 генов в условиях пилотной ферментации, то полученные при таких условиях данные из 24 генных чипов использовали для извлечения второго набора генов, включающего только те гены, которые действительно экспрессируются при различных экспериментах (учитывали только гены, имеющие по меньшей мере 18 "попаданий", с помощью программы анализа матриц MAS5.0 фирмы Affymetrix; этот набор содержал 4584 гена), и ранжирования их согласно наблюдавшимся уровням мРНК (поскольку других данных в то время еще не было) так, чтобы можно было легко идентифицировать набор генов с высоким (предположительно) уровнем экспрессии. Этот второй набор создавали для того, чтобы ранжировать данные по уровням экспрессии. Для этого анализа использовали уровни транскрипции генов. В качестве альтернативы можно применять количественные данные по экспрессии белков, например, методом двумерного гельэлектрофореза белков и последующей идентификации методом масс-спектрометрии. Однако получение данных по экспрессии белков при большом наборе белков все еще отнимает много времени по сравнению с определением уровня мРНК (например, с помощью генных чипов). Таким образом, при этом исследуется эффект смещенности кодонов на трансляцию еще до того, как произойдет трансляция. Gygi etal. (Yeast Mol. Cell. Biol. 19(3): 1720-30) действительно обнаружили "корреляцию между уровнями экспрессии белка и мРНК и смещенностью кодонов" у E.coli, хотя корреляция между уровнями экспрессии мРНК и белка была весьма рудиментарной. Поэтому термин "уровень экспрессии" будет применяться в настоящем описании тогда, когда на самом деле определялся только эффект на уровень транскрипции.- 21015925 Для Bacillus subtilis - организма, содержащего около 4000 генов, была доступна группа из 300 генов с высоким уровнем экспрессии, которую подвергали анализу; см. в табл. 1.1 сводку основных свойств геномов всех организмов, принимавшихся в расчет в настоящем исследовании (однако не все из них будут описаны подробно). При каждом анализе игнорировали (предположительные) гены, содержащие один или несколько кодонов в других положениях, чем на конце, и последовательности, длина которых не делится на три(т.е. у них могло произойти смещение рамки считывания при секвенировании). Также не учитывали первые 5 кодонов и последние 5 кодонов у каждого гена, так как эти сайты могли участвовать в связывании и отделении белка и поэтому подвергаться иному селекционному давлению, чем другие части последовательности, так что смещенность кодонов и пар кодонов у них могла оказаться не репрезентативной. Также из анализа исключали все ORF (ORF = открытая рамка считывания) короче 20 кодонов. В табл. 1.1 это учтено. Таблица 1.1 Нуклеотидный состав у некоторых организмов, включая количество ORF и размер генома в млн. пар оснований (м.п.о.) 1.1.2. Ожидаемая встречаемость пар кодонов. Для того чтобы анализировать употребительность кодонов, сначала просчитывали число вхождений каждого отдельного кодона и каждой пары кодонов, что обозначается ниже как nobsci, cj, где obs означает наблюдаемый. Двойные скобки нужны для указания того, что "наблюдаемое число", т.е. nobs, является функцией только с одним аргументом, который сам является парой (в данном случае парой кодонов,т.е. (ci, cj. To же самое относится ко всем приведенным ниже функциям от пар кодонов. Индексы i, j, а также k могут составлять от 1 до 64, обозначая номер кодона во внутреннем представлении (в алфавитном порядке). Пара кодонов обозначается через (ci, cj). где ci представляет левый кодон (т.е. 5'-триплет из последовательности в 6 нуклеотидов), a cj - правый (т.е. ближе к 3'-концу), а также по числу вхожденийnallsc(ck) для каждого кодона ck (где нижний индекс sc означает отдельный кодон (single codori), а верхний индекс all означает, что данное число относится ко всему геному, в противоположность ngsc(ck), которое применяется для обозначения долей кодонов в отдельном гене g; функции же пар кодонов типаnobsci, cj всегда означают количество во всем геноме или большой группе генов). Затем вычисляли относительные доли отдельных кодонов (отметим, что в некоторых работах эти доли также именуются частотами, но частотность кодона может означать и число вхождений кодона, деленное на общее число всех кодонов): где syn(ck) означает группу кодонов, кодирующих ту же самую аминокислоту, что и ck, поэтому они синонимичны ck. Так, величина суммы под знаком деления равняется числу вхождений кодируемой ct аминокислоты во всем протеоме. См. краткий список самых важных символов и формул, используемых при этом в приложении 1. Чтобы выяснить, не являются ли некоторые подозрительные предпочтения пар кодонов результатом предпочтительности индивидуальных кодонов, нужно рассчитать ожидаемые значения для каждой пары кодонов, исходя из частотностей отдельных кодонов. Их рассчитывали по формуле где верхний индекс own используется для того, чтобы отличить эти значения от значений, полученных другими методами, приведенными далее. В последнем множителе этого уравнения суммируются фактические вхождения всех пар синонимичных кодонов. Так, ожидаемое количество каждой пары кодонов является произведением долей употребительности индивидуальных кодонов на число вхождений соответствующей пары аминокислот.Gutman and Hatfield (1989, Proc. Natl. Acad. Sci. USA/ 86: 3699-3703) предложили другой способ вычисления ожидаемых значений. Их первоначальный подход состоял в том, чтобы вычислить частоту кодонов (т.е. количество данного кодона в гене g, деленное на общее число кодонов в g, обозначаемое какg) для каждого гена по отдельности, а затем перемножить эти значения попарно и на число пар кодонов в этой последовательности (которое равно g-1); В этом уравнении "gh1" означает метод 1 согласно Gutman and Hatfield (1989, supra). Оно дает ожидаемые значения пар кодонов для каждого гена (выражение после оператора суммирования в вышеприведенном уравнении), которые затем суммируются, давая окончательные ожидаемые значения, которые по определению скорректированы на возможные отклонения в употребительности отдельных кодонов между разными генами одного и того же генома, но не учитывают возможную смещенность употребления пар аминокислот. Это значит, что если определенные аминокислоты встречаются рядом друг с другом чаще, чем другие, либо, иными словами, если число вхождений пары аминокислот не равно тому,которое должно быть в рандомизированных последовательностях с таким же аминокислотным составом,то ожидаемые значения также будут заметно отличаться в том смысле, что пары кодонов, кодирующие весьма редко употребляемые пары аминокислот, будут иметь слишком высокие ожидаемые значения, а те, что употребляются чаще, будут иметь слишком низкие значения.Gutman and Hatfield (1989, supra) также предложили способ нормализации этих ожидаемых значений на смещенность пар аминокислот. При этом они просто сравнили ожидаемое согласно их методам количество пар аминокислот с наблюдаемым и скорректировали ожидаемые значения всех задействованных пар кодонов соответствующим образом так, чтобы первые соответствовали последним: В этом уравнении "gh2" означает метод 2 согласно Gutman and Hatfield (1989, supra). 1.1.3. Вычисление смещенности пар кодонов. Фактическая смещенность пар кодонов biasci, cj) в таком случае должна вытекать из разности между ожидаемыми и фактическими (наблюдаемыми) количествами пар кодонов (при этом для получения ожидаемых значений могут применяться любые из этих методов). Первоначальный подход заключался просто в вычислении их по формуле При этом величина смещенности должна показывать, на сколько процентов чаще или реже от ожидаемого употребляется данная пара кодонов (при умножении на 100%, конечно). Для пар аминокислот,не встречающихся в анализируемом наборе генов, значение смещенности по этой формуле должно составлять 0/0 по всем соответствующим парам кодонов. В этом случае она принимается равной 0. Нижней границей значений смещенности должна быть -1, а четкой верхней границы нет. Это посчитали несколько непрактичным, поэтому использовали другую формулу: где max(a,b) означает большее из двух значений а и b, при этом значение смещенности всегда заключается между (-1, 1). Это значит, что значение смещенности может быть равным -1, но не +1. Первое случается тогда, когда определенная пара кодонов вообще не употребляется для кодирования реально встречающейся пары аминокислот; а значение +1 не достигается потому, что тогда nexpci, cj должно быть равно 0, а это возможно лишь тогда, когда nobsci, cj тоже равно 0. Вышеприведенная интерпретация верна и для значений смещенности меньше 0 (при этомnobsci, cjnexpci, cj, так что обе формулы дадут один и тот же результат). Если жеnobsci, cjnexpci, cj, то значения смещенности (которые при этом 0) показывают, на сколько процентов ожидаемое значение будет меньше наблюдаемого значения (т.е. в этом случае меняется базовая линия).Gutman and Hatfield (1989, supra) для определения статистической значимости своих результатов использовали критерий 2. Этот критерий используется для проверки по определенной гипотезе того, с какой вероятностью какие-то наблюдаемые результаты могли получиться случайным образом. При рассмотрении пар кодонов такая гипотеза будет заключаться в том, что употребительность пар кодонов является результатом случайного отбора каждого кодона независимо. Для проверки этой гипотезы рассчитывается значение 2: где CP означает комплект всех пар кодонов, за исключением стоп-кодонов. Тогда число степеней свободы равно 3720 (6161 - 1). Если бы отбор кодонов был случайным, то следовало бы ожидать, что значение 2 составит около 3720 (т.е. будет равным числу степеней свободы) со стандартным отклонением, равным корню квадратному из 2 степеней свободы. Таким образом, можно проверить общую статистическую значимость наблюдаемой смещенности. Но можно также вычислить и статистическую значимость смещенности индивидуальных пар кодонов. Как и в приведенном выше методе вычисления ожидаемых значений, число вхождений пары кодонов считается результатом ряда независимых экспериментов типа да/нет (да - эти два кодона выбраны для кодирования соответствующей пары аминокислот; нет - выбрана другая пара кодонов), поэтому оно подчиняется биномиальному распределению, которое может быть аппроксимировано нормальным распределением, если набор анализируемых генов достаточно большой. Хорошим приближением считается такое, когда np4, где n означает количество экспериментов, а р - вероятность ответа "да", которая и является ожидаемым значением. Таким образом, для каждой пары кодонов можно рассчитать стандартное отклонение по формуле Затем можно рассчитать стандартные показатели, которые также называют z-показателями Абсолютное значение z-показателя говорит о том, на сколько стандартных отклонений от ожидаемого значения отстоит фактическое (наблюдаемое) значение. В предположении нормального распределения примерно 95% всех наблюдаемых значений должно находиться в пределах двух стандартных отклонений от ожидаемого значения, а 99% - в пределах трех. 1.2. Результаты. 1.2.1. Наличие смещенности пар кодонов. С применением вышеприведенных методов было обнаружено, что существует значительная смещенность пар кодонов. У всех исследованных организмов критерий 2 давал значения 2, превышавшие в несколько раз число степеней свободы и тем самым были выше ожидаемого значения на несколько стандартных отклонений. Что же касается смещенности индивидуальных пар кодонов, то подтвердились данные Moura et al. о том, что у дрожжей "контексты около 47% пар кодонов попадают в интервал от -3 до +3" стандартных отклонений от ожидаемых значений (хотя они вычисляли ожидаемые значения подругому), что соответствует z-показателям в нашем методе/ В целом значительно больше пар кодонов имеют весьма высокие z-показатели, чем должно быть в том случае, если бы употребительность пар кодонов была случайной. См. табл. 1.2: при случайном отборе, что привело бы примерно к нормальному распределению, например, только около 5% всех пар кодонов должны иметь z-показатель больше 2 или меньше -2, однако у выбранных 4 организмов во всем геноме это на самом деле касается более чем двух третей. Отметим, что эти значения как-то коррелируют с размером генома (см. табл. 1.1 для сравнения), т.е. организмы с большими геномами имеют больше пар кодонов с крайними значениями z-показателя. В особенности при анализе небольших групп генов (например, 479 генов с высоким уровнем экспрессии уA.niger) эти значения оказываются меньшими (в данном примере: 65,1, 37,2 и 19,7% соответственно), так как меньшее число вхождений ведет к большим стандартным отклонениям (по сравнению с ожидаемыми значениями) и тем самым к меньшей статистической значимости результатов. Это ведет к заключению о том, что употребительность пар кодонов не является результатом случайного отбора кодонов в соответствии с долями отдельных кодонов. Распределение самих значений смещенности отличается от одного организма к другому. Это можно объяснить на примере фиг. 3, на которой представлено распределение значений смещенности пар кодонов для 3721 смысловых пар кодонов у различных организмов. Цифры в правом верхнем углу каждой гистограммы на фиг. 3 представляют стандартные отклонения для наблюдаемого распределения; средние значения (не приведены) находятся между -0,06 и -0,01 у всех организмов. Из приведенных на фиг. 3 гистограмм видно, что из 10 исследованных организмов наибольшей смещенностью пар кодонов обладают бактерии E.coli, В.subtilus, В.amyloliquefaciens и S.coelicolor, тогда как у грибков A.niger, A.oryzae,A.terreus, A.nidulans, P.chrysogenum и дрожжей S.cerevisiae и K.lactis она менее экстремальна. При сравнении смещенности пар кодонов у различных организмов можно сделать еще одно интересное наблюдение. Значения смещенности у родственных организмов проявляют большую корреляцию,чем у неродственных организмов. Это раскрывается на примере фиг. 4. На фиг. 4 представлена корреляция по смещенности пар кодонов у различных организмов. Коэффициент корреляции приведен в правом верхнем углу каждого отдельного графика. При этом анализе самые высокие корреляции наблюдались между A.niger и P.chrysogenum, A.niger и A.oryzae, а самые низкие, т.е. почти никакой корреляции, наблюдались между В.subtilis и S.coelicolor. Интересно, что не наблюдалось отрицательных корреляций. Это значит, что, хотя организмы с высоким содержанием GC (как-то S.coelicolor) предпочитают те кодоны, которые менее употребительны у богатых AT организмов (как-то S.cerevisiae или, хотя и не столь богатых AT, В.subtilis), не существует таких двух организмов, у которых предпочтительные пары одного организма были бы отброшены у другого, и наоборот. Это может означать, что, хотя смещенность почти каждого отдельного кодона зависит от организма, однако есть несколько пар кодонов, которые являются предпочтительными и/или отброшенными почти у каждого организма (например, потому, что они могут вызвать сдвиг рамки считывания или тРНК с неправильной структурой). 1.2.2. Профили смещенности пар кодонов. Для того чтобы визуализировать наблюдаемую смещенность пар кодонов, можно построить так называемые карты, как это сделали Moura et al. (2005) (они называют эти карты "картами контекста кодонов"). Это легче всего объяснить на примере цветных изображений, состоящих из цветных прямоугольничков для каждой пары кодонов, при этом строки соответствуют первому, а столбцы - второму кодону пары. Красным цветом представлена отрицательная, а зеленым - положительная смещенность. Белым цветом представлены пары кодонов, у которых смещенность на самом деле равна 0 (например, это верно в случае ATG-ATG, поскольку это единственная возможность кодирования пары аминокислот Met-Met),и пары, включающие стоп-кодоны. Однако цветные изображения не могут входить в описание патентной заявки. В данном примере для черно-белой визуализации изображение будет разбито на две части. На фиг. 5 А представлены положительные пары кодонов у A.niger, а на фиг. 5 В представлены отрицательные пары кодонов у A.niger(см. также приложение 3, табл. C1). Чем большая смещенность пары кодонов, тем чернее соответствующий прямоугольничек. Значения смещенности колеблются от -0,67 до 0,54, тогда как у других организмов они могут даже слегка превышать 0,9 (см. также фиг. 3). Наиболее интенсивным черным (в оригинале зеленый цвет, наверху) цветом (в оригинале красный цвет, внизу) на этих диаграммах представлены- 25015925 значения, равные 0,9 и -0,9 соответственно (не достигается; по большей части абсолютные значения максимальной смещенности оказываются слегка меньшими, чем значения минимальной смещенности). Кроме того, отсылаем к таблицам матриц CPW в приложении 3, которые содержат численные значения смещенности пар кодонов, а также к фиг. 5 в качестве черно-белого примера цветного изображения, по которым специалист может реконструировать цветную версию с помощью численныхе значений из таблиц в приложении 3. Первый подход к таким картам пар кодонов состоял в том, чтобы упорядочить строки и столбцы в алфавитном порядке (так как это и есть порядок их внутреннего представления). На этих картах было видно, что диагонали содержат немного больше зеленых, чем красных точек, а это значит, что многие кодоны имеют предпочтение к одинаковым кодонам в качестве соседей. Кроме того, большинство соседних столбцов были в чем-то похожими, тогда как соседние строки по большей части не были похожими (данные не приводятся; см. фиг. 5 А и 5 В и приложение 3, табл. C1). Однако большинство строк были похожими на строку, отделенную тремя другими, т.е. было какое-то сходство по каждой четвертой строке. Поскольку общим признаком каждой четвертой строки является последний нуклеотид из первого кодона пары, то более предпочтительным оказалось упорядочение строк в алфавитном порядке по третьему положению в качестве первого критерия упорядочения и по среднему положению в качестве второго. При этом на карте для A.niger можно видеть (фиг. 5 С и 5D и приложение 3, табл. С 1) то, что смещенность как будто в самом деле коррелирует с последним нуклеотидом первого (5') и первым нуклеотидом второго (3') кодона, так как большинство значений соответствующих блоков по 1616 пар кодонов имеют один и тот же цвет. Например, общим правилом, которое проявляется у Aspergillus, является то, что пары кодонов типа ххТ-Ахх (х означает любой нуклеотид, показывая, что нуклеотид в соответствующем положении не имеет значения для данного правила) отбрасываются (красный блок в левом нижнем углу),тогда как предпочтительные кодоны характеризуются профилем ххА-Тхх (зеленый блок в правом верхнем углу), опять же свидетельствуя о том, что смещенность пар кодонов является направленной. Однако не всякая смещенность раскрывается только профилями по двум соседним нуклеотидам "в центре" пары кодонов. Например, пары кодонов ххС-Ахх (см. второй блок сверху в самом левом углу) в общем не являются предпочтительными или отбрасываемыми, но имеется явное предпочтение к парам с профилем ххС-ААх (см. четыре зеленых столбца слева от только что указанного блока). Смещенность также может зависеть и от несмежных нуклеотидов (например, сильное отбрасывание пар CxA-Gxx у В.subtilis; см. фиг. 6 А и 6 В и приложение 3, табл. С 4). К сожалению, смещенность пар кодонов не всегда вписывается в такие "простые" профили (например, см. довольно хаотичную карту для Е.coli на фиг. 7 А и 7 В и приложение 3, табл. С 5) - общие свойства не обнаруживаются даже при проведении кластерного анализа с использованием Spotfire DecisionSite 8.0 (http://www.spotfire.com/products/decisionsite.cfm) (данные не приводятся), т.е. идентифицированные кластеры состояли в основном из неродственных кодонов (т.е. не имеющих общих нуклеотидов в одном и том же положении). 1.2.3. Связь между смещенностью и уровнем экспрессии. При изучении карты смещенности для генов с высоким уровнем экспрессии (или скорее предположительно высоким уровнем экспрессии, так как они были идентифицированы только по уровням транскрипции) у A.niger (см. фиг. 8) наличие больших групп, т.е. блоков на диаграмме, оказывается не столь очевидным (иными словами, описанные выше простые правила могут и вовсе отсутствовать). Тем не менее, поскольку в этой группе две трети всех пар кодонов встречаются 36 или меньше раз, и по причине в среднем значительно меньших z-показателей, как указано выше, то это в большой степени можно приписать случайным флуктуациям. На фиг. 9 представлен график рассеяния смещенности в группе из 479 генов с высоким уровнем экспрессии (по вертикальной оси) в сравнении со смещенностью во всех генах (по горизонтальной оси) уA.niger. Представлены все пары кодонов (3721), не считая стоп-кодонов. Цвета от светло-серого до черного присваивали в соответствии с абсолютными значениями zпоказателя во всем геноме, т.е. светлые точки на графике не обладают значимой смещенностью во всех генах, а размеры соответствуют абсолютным значениям z-показателя в группе с высоким уровнем экспрессии, т.е. очень маленькие точки не обладают значимой смещенностью (при этом z-показатель 1,9). Сплошная черная линия означает, что оба значения смещенности равны; пунктирная черная линия представляет наилучшую линейную аппроксимацию фактической корреляции (методом анализа основной компоненты), е наклон примерно равен 2,1. При сравнении двух значений смещенности каждой пары кодонов в группе с высоким уровнем экспрессии и во всем геноме (см. график рассеяния на фиг. 9) видно, что у большинства пар в группе с высоким уровнем транскрипции смещенность более экстремальна, т.е. меньше, если она меньше 0, и больше, если она положительна, но есть и такие пары, у которых значения смещенности весьма отличаются и даже имеют разные знаки. Однако это в основном пары кодонов с небольшим числом вхождений в верхнюю группу, а большинство пар с очень высокой смещенностью (синие, большие кружочки) имеют близкие значения в обеих группах (т.е. они находятся вблизи от синей линии, означающей, что оба значения смещенности равны).- 26015925 В отношении аналогичных отличий по смещенности у кодонов с одинаковыми двумя нуклеотидами из трех никаких специфических профилей не обнаружено (ни у A.niger, ни у В.subtilis), т.е. на графиках отличий по смещенности, аналогичных приведенному выше, не оказалось больших групп с аналогичными отличиями по смещенности. 1.3. Подробности идентификации весов пар кодонов для адаптации генов. Теперь можно определить веса пар кодонов для адаптации в соответствии с описанными методами(приложение 1. "Веса пар кодонов - метод одной группы последовательностей или генома"): 1) на основе полного набора генов; на основе подмножества из набора 1; 2) в виде фракции генов с высоким уровнем экспрессии. Кроме того, авторы изобретения запустили поиск для идентификации весов пар кодонов, явно связанных с высоким уровнем транскрипции, что необходимо для усовершенствованного способа адаптации употребления пар кодонов. Применяли следующие методы: в отношении A.niger, где имеется полное ранжирование извлеченных из GeneChip данных для вышеприведенного набора из 4584 подвергающихся экспрессии генов (см. "Данные" в разделе "Материалы и методы"), вычисляли средние веса пар кодонов по каждому гену (т.е. эквиваленты значений fitcp(g. Затем гены упорядочивали по значениям пригодности (в порядке возрастания) и уровня экспрессии (в порядке уменьшения). Поскольку предполагается,что гены с высоким уровнем экспрессии имеют низкие значения пригодности пар кодонов, эти две классификации должны быть равными при использовании идеальных весов пар кодонов, так что сравнение этих двух классификаций может дать информацию о добротности весов, используемых в функции пригодности (при этом несколько большее внимание уделялось "правильному" ранжированию генов с высоким уровнем экспрессии, чем со средним уровнем). Кроме того, рассчитывали коэффициент корреляции(ковариация, деленная на стандартное отклонение каждого параметра) между ранжированием и средними весами пар кодонов у 4584 генов. Рассматривали несколько возможных наборов весов, включая:i) значения смещенности из всего генома;ii) значения смещенности из группы с высоким уровнем экспрессии;iii) значения смещенности с тем, что все значения, не имеющие определенного минимального zпоказателя, принимаются равными 0;iv) значения смещенности в степени 2 (или более высокой степени), чтобы придать очень предпочтительным или отбрасываемым кодонам меньшее/большее значение);vii) разности значений смещенности или z-показателей из группы с высоким уровнем экспрессии и всего генома. Для генетического алгоритма использовали их значения с обратным знаком, так как предпочтительным парам кодонов были присвоены положительные значения (весьма произвольно), тогда как генетический алгоритм выполняет минимизацию. Это применимо ко всем вышеприведенным весам. Из них "наилучшей" матрицей весов оказалась комбинация пп.ii)-iv), однако еще лучшая матрица весов может быть получена, как описано выше, путем вычисления "смещенности" пар кодонов в группе с высоким уровнем экспрессии с помощью ожидаемых значений, рассчитанных на основе долей кодонов по всему геному. На фиг. 10 представлена корреляция, которая наблюдалась. В отличие от всех других проверенных наборов весов, при этом в слегка невыгодное положение попадают пары кодонов с участием тех кодонов, которые менее представлены в группе с высоким уровнем экспрессии. Таким образом, только эти веса также отражают различную смещенность отдельных кодонов в группе с высоким уровнем экспрессии и по всем генам. Использование этих весов влечет опасность отбрасывания некоторых пар кодонов, на самом деле имеющих положительную смещенность в группе с высоким уровнем экспрессии, но состоящих из (в группе с высоким уровнем экспрессии) редко употребляемых кодонов. Однако поскольку желательные для нас доли отдельных кодонов обычно не идентичны входящим в группу генов с высоким уровнем экспрессии, а более "экстремальны", чем у них,то при оптимизации по отдельным кодонам они все равно будут заменены, так что можно считать описанные выше веса очень удобными для оптимизации пар кодонов. В заключение отметим, что была идентифицирована потенциально лучшая матрица весов для адаптации генов, как описано выше. Уравнение приведено в приложении 1 "Веса пар кодонов - метод группы с высоким уровнем экспрессии вместе с контрольной группой (или геномом)".- 27015925 1.4. Оптимизация отдельных кодонов и пар кодонов in silico. 1.4.1. Материалы и методы. Разработанные программные средства MATLAB для анализа и оптимизации генов состоят из нескольких функций, размещенных в различных каталогах согласно их функциональным возможностям. Для того чтобы их использовать, необходимо сделать их всех известными среде MATLAB. Для этого нужно выбрать "Set Path" из меню File, a затем щелкнуть на "Add with subfolders" и выбрать путь, в котором инсталлирована программа (обычно он называется "Matlab-bio"). Также нужно ввести расположение файлов FASTA и других, которые нужно анализировать. Все индивидуальные функции MATLAB вкратце описаны в "contents.m" (для вывода этого файла в среде MATLAB нужно набрать "help Matlab-bio" и использовать "help" вместе с названием функции для получения подробной информации о ней). Для оптимизации генов с упором на употребительность пар кодонов есть две важные функции: "fullanalysis" и"geneopt". Если полный геном организма, к которому нужно адаптировать ген, находится в файле, скажем,"AnigerORF.fasta", а идентификаторы его генов с высоким уровнем экспрессии находятся в "an-high.txt",нужно набрать "fullanalysis ('AnigerORF.fasta', 'an-high.txt', 'an') "; и получить: (i) карту смещенности пар кодонов для всего генома; (ii) карту смещенности пар кодонов для группы генов из второго файла и (iii) несколько переменных (т.е. комплектов временно хранящихся данных) в рабочем пространствеMATLAB для дальнейшего использования. Третий параметр "fullanalysis" определяет только то, как именуются эти переменные и может быть пропущен, если подлежит анализу только один геном в одно и то же время. Среди указанных переменных есть: (i) данные по употребительности и смещенности пар кодонов для всего генома (в данном примере именуется "cpan); (ii) то же самое для особой группы генов, определяемой вторым параметром (именуется "cpans"); и (iii) структура с намеченными долями отдельных кодонов и весами пар кодонов, которые можно использовать для генетического алгоритма. При наборе "fullanalysis ('XyzORF.fasta') "; только выводится карта смещенности пар кодонов и хранятся данные по смещенности для соответствующего генома. Несмотря на то что вторым параметром может быть любой файл, включающий идентификаторы генов (например, группы генов с низким уровнем экспрессии или генов с какой-то общей функцией), он всегда рассматривается как набор генов с высоким уровнем экспрессии в отношении этого (потенциального) параметра (именуемого "optparamforan" в этом примере, что означает "оптимизационный параметр для заданного организма"). Отметим, что при этом относительные доли отдельных кодонов вычисляются просто как rtargetsc(ck)=2rhighsc(ck)-rallsc(ck), что является допустимым приближением. Искомые доли могут быть установлены и другими методами, которые включают особенности распределения отдельных кодонов (см. основной текст) для того, чтобы еще больше улучшить детализацию желательных долей. Кроме того, искомые доли можно оставить пустыми, если не обнаружена определенная смещенность, чтобы дать алгоритму пар кодонов больше свободы в нахождении решений с большей пригодностью пар кодонов. Несколько таких предопределенных заданных векторов для отдельных кодонов приведено в приложении 1 для различных организмов хозяина. Для использования предопределенных заданных долей отдельных кодонов нужно изменить поле"cr" этого параметра, набрав "optparamforan.cr = [", затем вставить значения долей отдельных кодонов(например, скопировать из листа Excel; отметим, что они должны располагаться в алфавитном порядке кодонов), набрать "];", если эти доли доступны в виде строки из 64 элементов, или "] ';", если они скопированы из столбца, и нажать Enter (обратите внимание на дополнительную одинарную кавычку или апостроф после закрывающей скобки в последнем случае). Несущественным кодонам, т.е. кодонам, которым не нужно задавать определенные значения долей, может быть приписано "значение" NaN (номера нет), и они будут пропущены при вычислении пригодности отдельных кодонов. Для исключения некоторых коротких последовательностей из оптимизированного гена нужно установить параметр "rs" таким же образом, при этом каждая последовательность должна быть заключена в одинарные кавычки, а все последовательности вместе должны быть заключены в фигурные скобки, например (без разрыва строки) "optparamforan.rs = 'CTGCAG' 'GCGGCGCC';". Наконец, поле cpi этого параметра можно изменить для придания большего значения оптимизации отдельных кодонов или оптимизации пар кодонов в комбинированной функции пригодности (см. подраздел "Выполнение оптимизации пар кодонов" в "Результатах и обсуждении"). По умолчанию это значение равно 0,2. Можно настроить его на меньшее значение, если результаты экспериментов с оптимизированными по парам кодонов генами проявляют слабое улучшение оптимизированных по парам кодонов генов по сравнению с оптимизированными по отдельным кодонам генами; в противном случае лучше подойдет более высокое значение cpi. Затем можно выполнять реальную оптимизацию гена, используя генетический алгоритм с помощью функции geneopt. Единственные параметры, необходимые для этого, - подлежащая оптимизации последовательность и структура, содержащая веса пар кодонов, намеченные доли и рестрикционные сайты,как описано выше, так что можно использовать, к примеру, geneopt ('MUVARNEQST', optparamforan); для оптимизации данной (довольно короткой) белковой последовательности для высокого уровня экспрессии в A.niger; звездочка используется для обозначения того, что конечная генетическая последо- 28015925 вательность должна иметь стоп-кодон на конце (однако поскольку оптимальным сигналом терминации уA.niger считается тетрамер ТААА, то это не обязательно). Отметим, что подлежащая оптимизации последовательность опять же должна быть заключена в одинарные кавычки; если последовательность содержит только буквы А, С, G, Т или U, а е длина делится на 3, то она автоматически считается нуклеотидной последовательностью. После этого генетический алгоритм выполняет 1000 циклов итерации при величине популяции 200, из которых каждый раз отбирается 80 индивидов (79 самых лучших и один случайным образом) и используется для создания новых индивидов, причем 40% новых индивидов создается методом кроссовера и 60% с помощью оператора мутаций. Эти значения по умолчанию оказались очень удобными для оптимизации, т.е. изменение этих параметров приводит, если вообще, только к очень небольшому "улучшению" генов, но все же их можно изменять, к примеру, если при оптимизации нужно отвести значительно больше или меньше времени на вычисления (в среднем работа geneopt с геном примерно в 500 кодонов занимает около 15 мин на процессоре Pentium M в 1,4 ГГц). Например,geneopt (seq, optparamforan, [50 750 5 0 0.6]) заставляет генетический алгоритм просчитывать 750 поколений из популяции, из которой каждый раз отбирается 50 и создается 250 новых индивидов (в каждом поколении обрабатывается 550, т.е 300 индивидов), отбираются только самые лучшие индивиды (без отбора случайным образом) и 60% рекомбинаций выполняется с помощью оператора кроссовера. Чтобы более подробно узнать о том, как задаются эти параметры, нужно набрать help geneopt и helpgeneticalgorithm. Отметим, что, хотя здесь представлена и описана процедура создания весов пар кодонов путем анализа соответствующих файлов FASTA для A.niger и В.subtilis, именно для этих двух организмов это не требуется, так как эти вычисления уже были выполнены при предыдущих оптимизациях генов. Для облегчения применения соответствующие параметры для генетических алгоритмов были сохранены (нужно набрать "load gadataforan" или "load gadataforbs" соответственно; обратите внимание, что там эти параметры теперь называются просто anparam и bsparam). 1.4.2. Результаты. На фиг. 11 представлены значения пригодности у пяти вариантов, оптимизированных при различных значениях cpi (см. подпись к диаграмме на фиг. 11). Белок является грибковой -амилазой (FUA; также именуется AmyB), которая подвергалась оптимизации для хозяина A.niger (см. пример 2). Кроме того, представлены результаты "чистой" оптимизации по отдельным кодонам (черные точки справа) и оптимизации по парам кодонов (верхняя левая группа). Оптимизированные варианты получали при запуске генетического алгоритма на 1000 циклов итерации при величине популяции 400, что заняло около 17 мин при каждом запуске процессора Pentium M в 1,4 ГГц. Отметим, что чистая оптимизация по отдельным кодонам и чистая оптимизации по парам кодонов занимала лишь около 60% этого времени. На фиг. 11 дикий тип (fitsc(gFUA)=0,165, fitcp(gFUA)=0,033) не попадает на этот график (он должен находиться справа и выше). Оптимальным всегда является ген с наименьшими значениями fitsc и fitcp. Судя по положению точек, не совсем ясно, при каких значениях cpi можно получить самый лучший ген, так как авторы изобретения еще не знают, что более важно - употребительность отдельных кодонов или употребительность пар кодонов. Однако хороший компромисс как будто наблюдается при cpi=0,2. Улучшение употребительности отдельных кодонов и пар кодонов можно наглядно представить на так называемых графиках добротности последовательности, предложенных в настоящей работе. На фиг. 12 представлены две диаграммы, показывающие добротность последовательности первых 20 (из 499) кодонов вышеупомянутой FUA (см. также пример 2). Отметим, что эти диаграммы добротности последовательности зависят не только от самой последовательности, но и от комплекта весов и желательных долей отдельных кодонов, а тем самым от организма. Также отметим, что можно определить искомые доли отдельных кодонов как "не важно" для кодонов со слабой смещенностью или без нее, т.е. употребительность определенного кодона не считается ни положительной, ни отрицательной для экспрессии по сравнению с синонимичными кодонами. В этом случае синим крестиком представлено только фактическая доля соответствующего кодона в гене, и данная конкретная позиция игнорируется при расчете пригодности отдельных кодонов (см. 1.4. "Оптимизация отдельных кодонов и пар кодонов in silico"). 1.5. Выводы. Установлена значительная корреляция между употребительностью пар кодонов и уровнем транскрипции у широкого круга организмов. Показано, что такая смещенность не может объясняться только смещенностью динуклеотидов вокруг сайта рамки считывания. Поскольку все возможные объяснения предпочтительности или отбрасывания некоторых пар кодонов сосредоточены на трансляции, то следует полагать, что и то, и другое вызвано естественным отбором, действующим одновременно на характеристики, влияющие на трансляцию, и на другие характеристики, влияющие на транскрипцию, с тем, чтобы минимизировать усилия клетки по выработке ферментов или хотя бы самых важных из них.

МПК / Метки

МПК: C12N 15/67

Метки: способ, полипептидов, получения

Код ссылки

<a href="http://easpatents.com/30-15925-sposob-polucheniya-polipeptidov.html" rel="bookmark" title="База патентов Евразийского Союза">Способ получения полипептидов</a>

Похожие патенты