Все возможные протоалфавиты и алфавиты жизни являются ближайшими структурными аналогами AUGC

 

Терминология

 

Супрамолекулы пары молекул, объединенные межмолекулярными водородными связями.

 

Протоалфавит жизни возникающие на первобытной планете группы молекул, способные к репликации, основанной на двух или большем количестве супрамолекул с высокой прочностью соединения, т.е. имеющих три водородные связи.

 

Алфавит жизни возникающие на первобытной планете (возможным путем является трансформация молекул протоалфавита) группы молекул, способные к репликации, основанной на одной или большем количестве супрамолекул с тремя связями и на одной супрамолекуле с двумя связями. Это естественное название, поскольку, именно таким алфавитом является единственно известный реальный алфавит жизни (в обоих вариантах: РНК и ДНК).

 

 

 

Краткое изложение

 

В статье предпринята попытка найти ответ на вопрос, почему алфавитом жизни является AUGC.

 

К молекулам, совокупность которых должна выполнять функцию первичного репликатора, сформулированы следующие шесть требований:

(1) прочность соединения в молекулярные пары (супрамолекулы),

(2) устойчивость пар к растворению,

(3) устойчивость к УФ-излучению,

(4) однотипность конфигурации циклической части,

(5) способность к реакциям полимеризации при нормальных условиях,

(6) пары одного алфавита, связанные водородными связями, должны быть геометрически (по расстоянию и углам) одинаковыми относительно атомов, через которые происходит полимеризация.

 

Из этих шести требований последовательно определяются ограничения на возможные конфигурации молекул.

 

В результате приходим к восьми возможным трехпарным (шестибуквенным) протоалфавитам типа (A)UGCBS, где:

1. (A) – не аденин (6-аминопурин), а 2,6-диаминопурин (рис. 1)

 

 

Рис. 1. 6-аминопурин (аденин) и 2,6-диаминопурин.

 

 

2. Дополнительные буквы B и S – как в статье "ДНК и РНК Хатимодзи: генетическая система из восьми строительных блоков" (Ш. Хошик и др. 2019) [1], в которой авторы приводят результаты успешных испытаний 8-ми буквенного алфавита, включающего B и S и еще 2 молекулы, не удовлетворяющие двум из шести требованиям (подробнее об этом в Обсуждении).

 

Эти восемь возможных шестибуквенных протоалфавитов показаны на рис. 2.

 

 

 

Рис. 2.  Восемь возможных шестибуквенных протоалфавитов.

В первой строке – протоалфавит, наиболее близкий к земному алфавиту жизни.

 

Две из трех пар букв (G-C и B-S) по своей структуре намного более сходны друг с другом, чем с третьей парой букв ((A)-U). Если предположить, что сходные пары не могут сосуществовать внутри одного алфавита, то восемь шестибуквенных протоалфавитов распадаются на 16 четырехбуквенных, в которых отсутствует одна из двух похожих пар, т.е. на алфавиты типов

(A)UBS и (A)UGC. Эти 16 возможных четырехбуквенных протоалфавитов показаны на рис. 3. Все они структурно близки к (A)UGC.

 

 

 

Рис. 3. 16 возможных четырехбуквенных протоалфавитов

 

Первое требование (требование прочности супрамолекул) – базовое для нашего рассуждения и эквивалентно требованию трех водородных связей в каждой паре букв, что соответствует используемому здесь термину "протоалфавит". В поддержку правильности первого требования, кроме логичного предположения, что тройные связи принципиально лучше, чем двойные, обеспечивают неферментативную репликацию (которая необходима для старта эволюции), непредопределенный итоговый результат – при принятии базового требования варианты протоалфавита сводятся к (A)UGC (с точностью до 24-х модификаций), т.е. к максимально близкому с единственному реально известному алфавиту жизни.

 

Поскольку земной алфавит конкретно AUGC (а не его модификации), то земным протоалфавитом жизни, вероятно, был или (A)UGCBS, или (A)UGC.

 

Первое требование проанализировано без учета возможных (гипотетически существующих) вариантов со сложными и геометрически сложно согласуемыми для трех связей радикалами. Учитывая это, результат анализа можно сформулировать более строго: восемь шестибуквенных модификаций (A)UGCBS, восемь четырехбуквенных модификаций (A)UBS и восемь четырехбуквенных модификаций (A)UGC являются простейшими возможными протоалфавитами жизни.

 

После анализа конфигураций, удовлетворяющих всем шести требованиям, рассмотрена возможность снижения строгости требования №1 (в ущерб эффективности неферментативной репликации) до уровня, допускающего одну пару с двойной связью, что соответствует термину "алфавит". Такое снижение уровня строгости приводит к следующим 14 возможным вариантам:

к замене (A) на аналоги с потерей аминогруппы, т.е. на A или на {A} ({A} – 2-аминопурин), а именно

AUGCBS

{A}UGCBS

AUBS

{A}UBS

AUGC

{A}UGC

или к заменам G, C, B, S на аналоги с потерей аминогруппы (они обозначены [G], [C], [B], [S]), а именно

(A)U[G]CBS   (A)UG[C]BS   (A)UGC[B]S   (A)UGCB[S]

(A)U[B]S

(A)U[G]C

(A)UB[S]

(A)UG[C]

Итого 14 х 8 = 112 возможных модификаций алфавита жизни. Другие варианты не возможны из-за несоответствия требованиям №4 и №6.

 

На рис. 4 приведем только варианты алфавита, построенного на "земной" группе (одной из восьми возможных), которая соответствует схеме:

 

 

 

 

Как и для других семи групп, их четырнадцать (рис. 4).

 

 

 

 

 

Рис. 4. Четырнадцать возможных алфавитов жизни

 

 

 

 

Ответ на вопрос, почему алфавитом жизни является AUGC

 

AUGC – одна из четырех возможных трансформаций протоалфавита (репликатора, построенного на супрамолекулах только с тремя водородными связями) (A)UGC в алфавит (репликатор, допускающий одну супрамолекулу с двумя водородными связями).

 

Трансформациями могут являться:

1 – замена (A) на A или {A},

2 – замена G на [G] или замена C на [C].

 

(A)UGC – одна из 24 возможных совокупностей простейших молекул, способная обеспечить репликацию на основе трех водородных связей. Гипотетически возможные более сложные варианты могут быть только намного более сложными: их радикалы, создающие водородные связи, должны содержать в разы больше атомов. Структурная близость всех возможных модификаций протоалфавита – контринтуитивна; априори кажется, что разнообразие должно быть большим. Однако, анализ соответствия правдоподобным требованиям для молекул протоалфавита приводит строго к (A)UGC и еще 23-м его близким структурным аналогам.

 

При трансформации 24 возможных протоалфавитов в алфавиты количество возможных алфавитов – 112, один из которых – единственно известный реальный алфавит AUGC.

Вероятно, специалисты в области химии азотистых гетероциклов смогут предъявить химические причины невозможности существования некоторых модификаций, тогда детерминированность нашего алфавита жизни дополнительно повысится.

 

 

 

Введение

 

Вся генетическая информация на Земле записывается в виде полимера РНК или ДНК. Алфавитом для этой записи являются 4 молекулы – нуклеотиды. Для РНК их азотистые основания выглядят так, как показано на рис. 5.

 

 

Рис. 5. Азотистые основания земного алфавита жизни

 

 

Исключением являются некоторые вирусы (цианофаги), которые вместо аденина используют 2,6-диаминопурин (см. Обсуждение).

 

Нуклеотиды, переменной "алфавитообразующей" частью которых являются азотистые основания, в настоящее время синтезируются живыми организмами. Однако изначально эти молекулы или их химически близкие предшественники должны были образовываться абиогенно и, вероятно, выиграть конкуренцию у других возможных вариантов. Почему именно эти четыре молекулы (или их химически близкие предшественники) стали протоалфавитом для записи генетической информации, и какие иные алфавиты могли и могут возникать в других условиях (на планетах Солнечной системы и экзопланетах), до сих пор не известно. В статье предпринята попытка найти ответ на этот вопрос, опираясь на логику и базовые сведения о свойствах циклических молекул.

 

К молекулам, совокупность которых должна выполнять функцию первичного репликатора, сформулированы следующие шесть требований:

(1) прочность соединения в молекулярные пары,

(2) устойчивость пар к растворению,

(3) устойчивость к УФ-облучению,

(4) однотипность конфигурации циклической части,

(5) способность к реакциям полимеризации при реалистичных условиях,

(6) пары одного алфавита, связанные водородными связями, должны быть геометрически (по расстоянию и углам) одинаковыми относительно атомов, через которые происходит полимеризация.

 

В качестве отправной точки в статье использованы следующие четыре факта о свойствах циклических молекул:

1. Ациклические молекулы имеют больше степеней свободы, чем циклические; с их участием невозможны устойчивые межмолекулярные конфигурации, связанные водородными связями. Трех- и четырехугольные циклические молекулы являются напряженными и не стабильны.Самые простые из обладающих высокой стабильностью – пяти- и шестиугольные циклические молекулы; дополнительную устойчивость им придает их ароматическая структура.

2. В пяти- и шестиугольных циклических молекулах ни один атом углерода в цикле не создает две двойные связи. Стереохимически такая возможность возникает только начиная с восьмиугольных циклов.

3. Циклические молекулы, содержащие гидроксильные группы (–ОН), имеют повышенную химическую активность и быстро переходят в кето-форму (=O); циклические молекулы с гидроксильными группами далее не рассматриваются.

4. Циклические молекулы легче вступают в реакции присоединения через N-H, чем через C-H (связь N-H полярная, в отличие от связи C-H, где разница в электроотрицательности между углеродом и водородом слишком мала, поэтому группа N-H химически активнее). Присоединение через N-H может происходить в нормальных условиях.

 

Кроме этих четырех положений химии циклических молекул, рассуждения основываются только на общих представлениях о ковалентных связях, которые достаточно однозначно (в рамках логических построений данной статьи) определяют конфигурацию и геометрию циклических молекул. В каком-то смысле рассматриваются вообще все циклические молекулы, которые в принципе не противоречат элементарным представлениям о ковалентных связях и удовлетворяют правдоподобным требованиям для осуществления функции алфавита репликатора (это и дает возможность не прибегать к специальным знаниям о химических свойствах этих чрезвычайно разнообразных молекул).

 

 

 

Супрамолекулы

 

Репликация, по-видимому, может быть организована только с помощью матричного копирования. Правдоподобный и, возможно, единственный способ матричного копирования при нормальных условиях -- через водородные связи между молекулами (ионные связи, вероятно, слишком прочные для нормальных условий).

 

Межмолекулярные связи через водород создаются между атомами фтора, кислорода и азота. Водородные связи через фтор самые сильные, но фтора в природе мало. Водородные межмолекулярные связи, имеющие существенное значение, создаются только атомами кислорода и азота.

 

Чтобы образовалась водородная связь, водород должен быть на атоме кислорода или азота. С учетом перечисленных ограничений, при обсуждении вопроса о происхождении алфавита жизни имеет смысл ограничиться тремя типами водородных связей: N–H-N, O–H-N, O–HH-N (рис. 6). Причем, связь N–H-N, в силу меньшей электроотрицательности азота, самая слабая.

 

 

Рис. 6. Три типа водородных связей, релевантные в контексте происхождения алфавита жизни

 

 

 

Тройные связи
Требование №1

 

Чем больше водородных связей, тем прочнее циклические молекулы связаны и тем устойчивее возникающая супрамолекула в водном растворителе.

 

Пятиугольные циклы геометрически могут создать супрамолекулы только с двумя связями, шестиугольные геометрически могут создавать супрамолекулы с тремя связями (рис. 7).

 

 

 

Рис. 7. Примеры супрамолекул с двумя и тремя связями

 

 

Введем Требование №1: для прочной связи (необходимой для неферментативной репликации, без которой не может стартовать эволюция) циклические молекулы должны быть связаны тремя водородными связями.

 

Супрамолекулы, связанные двумя водородными связями, рассмотрены в Обсуждении, где для молекул, образующих такие супрамолекулы, кроме меньшей прочности соединения, обнаруживается дополнительная причина, почему они не подходят для алфавита первичной репликации: они не гарантируют соблюдения главного свойства алфавита – однозначности. Кроме этого, от обратного, обоснованность принятия Требования №1 подтверждается непредопределенным итоговым результатом – варианты протоалфавита сводятся к (A)UGC (с точностью до модификаций), т.е. к максимально близкому к единственно известному реальному алфавиту жизни.

 

Геометрическая совместимость сразу трех водородных связей налагает существенные ограничения на соотношение длин атомных групп, которыми они образуются. В статье рассматриваются только простейшие атомные группы, другие будут более сложными и длинными, геометрическое согласование дополнительно усложнится (вероятно, такие согласования вообще невозможны). Далее в тексте статьи простейшие конфигурации атомов, создающие водородные связи, будем называть водородными связями.

 

Тройные связи без короткой связи N–H-N в средней вершине геометрически невозможны

(рис. 8).

 

 

 

Рис. 8. Тройные связи без короткой связи N–H-N в средней вершине геометрически невозможны

 

Использовать связь O–HN в верхних и нижних вершинах без аминогруппы, так же не получается, не хватает длины (рис. 9).

 

Рис. 9. Тройная связь со связью O–HN в верхней или нижней вершине геометрически невозможна

 

 

Существуют три геометрически возможные конфигурации супрамолекул с тремя водородными связями с атомом кислорода в одном из шестиугольных гетероциклов (рис. 10).

 

Рис. 10. Супрамолекулы с атомом кислорода в одном из шестиугольных гетероциклов

 

 

Однако такие супрамолекулы заведомо не удовлетворяют Требованию №4 (см. ниже), поэтому здесь не рассматриваются.

 

Существуют только две геометрически возможные конфигурации с тремя водородными связями, удовлетворяющие базовому Требованию №1 и не нарушающие априори ни одного из пяти остальных (не базовых) требований к молекулам, которые должны выполнять функцию алфавита первичного репликатора (рис. 11).

 

 

Рис. 11. Две возможные конфигурации, удовлетворяющие требованию №1 и не нарушающие априори остальные пять требований.

 

 

 

Устойчивость к растворению

Требование №2

 

Для каждой из двух возможных базовых конфигураций, показанных на рис. 11, прорисуем ковалентные связи, определяемые этими конфигурациями (рис. 12).

 

Рис.12. Ковалентные связи, определяемые двумя базовыми конфигурациями, показанными на рис. 11.

 

Назовем сторону циклической молекулы, которая участвует в трех водородных связях, поляризационной стороной. Заметим, что в каждой супрамолекуле с тремя водородными связями один гетероцикл имеет между поляризационной и неполяризационной сторонами конфигурацию ковалентных связей 2/1, а второй 1/1.В общем виде супрамолекулы с тройными связями выглядят так, как показано на рис. 13:

 

 

Рис. 13. Общая схема структуры супрамолекул, показанных на рис. 12.

 

?

Требование №2: для противодействия растворению в воде на неполяризационной стороне каждого гетероцикла в паре должно быть не более одной группы, способной создавать водородную связь, причем самой слабой, а именно N-H.

 

Варианты, возможные для конфигураций 2/1 и 1/1, показаны на рис. 14.

 

 

Рис. 14. Возможные варианты структуры неполяризационной стороны гетероциклов с конфигурациями 2/1 и 2/2.

 

 

 

Устойчивость к УФ-облучению

Требование №3

 

В работе "Образование и фотостабильность N-гетероциклов в космосе" (Peeters et al., 2005) [2] проводилось сравнительное исследование УФ-устойчивости трех шестиугольных гетероциклов: с одним азотом (пиридин), с двумя азотами (пиримидин) и с тремя (1,3,5-триазин). Оказалось, что чем больше атомов азота в цикле, тем ниже устойчивость к УФ. Быстрее всего разрушается триазин, потом пиримидин, а устойчивее всех оказался пиридин.

 

Требование №3: шестиугольные циклы должны содержать не более двух атомов азота.

 

Остаются только гетероциклы содержащие не более двух атомов азота (в средней вершине поляризационной стороны уже есть один атом азота) (рис. 15).

 

 

Рис. 15.

Возможные варианты неполяризационной стороны, удовлетворяющие требованию 3.

 

 

 

Однотипность 6-ти угольников всех молекул
Требование №4

 

Логично предположить, что молекулы в супрамолекулах должны быть однотипны. Оставим на кандидаты в молекулы конфигурации 2/1 только такие, у которых шестиугольник такой же, как в молекулах конфигурации 1/1, в том смысле, что он содержит 2 атома азота, расположенные через один атом углерода. Необходимые для конфигурации 1/1 такие циклы обязательно должны образоваться, значит, в конкретной локации химический путь для них уже существует, а их способность к трансформации в молекулу конфигурации 2/1 делает систему более гибкой и простой, чем если бы шестиугольники имели разное количество или разное расположение атомов азота.

 

Требование №4: Расположение атомов азота в конфигурациях 2/1 и 1/1 должно быть одинаковым.

 

Для конфигурации 2/1 остаются только два варианта (рис. 16)

 

Рис. 16. Возможные варианты неполяризационной стороны с учетом требования 4.

 

 

 

 

Способность к полимеризации
Требование №5

 

Супрамолекулам необходимо вступать в реакции присоединения с молекулами, способными создавать полимеры.

 

Супрамолекулы могут ковалентно присоединять, например, сахара или аминокислоты, но для этого они должны на неполяризационной стороне в одной из вершин иметь N-H. Конфигурации 1/1 имеют такую вершину, а конфигурации 2/1 не имеют.

 

Самая стабильная молекула, соответствующая циклической шестиугольной – состоящая из пяти- и шестиугольника "пуриноподобная" молекула (в ней присоединенная часть также является циклической и высокостабильной).

 

Требование №5: Для «пуриноподобных» частей супрамолекул, имеющих в пятиугольном цикле N-H, так же, как для «пиримидиноподобных» частей, должно выполняться Требование №2 (отсутствие других групп, способных создавать водородные связи).

 

Возможны восемь вариантов "пуриноподобных" молекул, удовлетворяющих Требованию №5 (рис. 17).

 

 

Рис. 17. Варианты "пуриноподобных" молекул, удовлетворяющие требованию №5.

 

Полные наборы вариантов молекул конфигураций 2/1 и 1/1, удовлетворяющих требованиям

1-5, показаны на рис. 18.

 

 

Рис. 18. Полные наборы вариантов молекул конфигураций 2/1 и 1/1, удовлетворяющих требованиям 1-5.

 

 

Из этих молекул могут быть образованы 32 варианта супрамолекул (рис. 19).

 

 

 

 

 

Рис. 19. Варианты супрамолекул, которые могут быть образованы из молекул, показанных на рис. 18.

 

Перевернем молекулы в двух правых колонках и отметим одинаковые молекулы метками одного цвета (рис. 20).

 

 

Рис. 20. Те же супрамолекулы, что на рис. 19, представленные более упорядоченным образом.

Одинаковые молекулы отмечены метками одного цвета.

 

 

После удаления повторяющихся получаем 24 уникальные пары, удовлетворяющие требованиям 1-5 (рис. 21).

 

 

Рис. 21.  24 уникальные супрамолекулы, удовлетворяющие требованиям 1-5.

 

 

 

Конгруэнтность супрамолекул одного алфавита

Требование №6

 

Требование 6: чтобы супрамолекулы могли полимеризоваться на регулярных остовах, конфигурации супрамолекул одного алфавита по геометрии расположения N-H должны быть одинаковыми.

 

24супрамолекулы, показанные на рис. 21, по конфигурациям расположения N-H распадаются на четыре группы по шесть супрамолекул в каждой (рис. 22).

 

 

Рис. 22. Супрамолекулы, удовлетворяющие требованиям 1-5, распадаются на четыре группы по геометрии расположения N-H.

 

 

 

Модификации по количеству атомов азота в 5-ти угольном цикле

 

В каждой группе из шести макромолекул три макромолекулы имеют один атом азота в пятиугольном цикле, а три другие - два атома азота (рис. 23)

 

 

Рис. 23. «Пуриноподобные» молекулы с одним и двумя атомами азота в пятиугольном цикле.

 

Можно предположить, что в алфавите могли бы присутствовать оба варианта. В этом случае варианты с одним и с двумя атомами азота в пятиугольном цикле можно было бы назвать разными "написаниями" одной и той же буквы.

 

Однако есть серьезный аргумент против возможности сосуществования букв с разным "написанием" в одном протоалфавите жизни.

 

В алфавите, как носителе информации, пуриноподобные варианты с одним и с двумя атомами азота в пятиугольниках равнозначны. Но в РНК (или другом полимере с азотистыми основаниями разных модификаций, построенном на другом остове) комплементарные друг другу цепочки информационно одинаковые, но химически разные. Это дает возможность одной из цепочек после распада двойной цепи быть носителем информации (генотипа) и матрицей для размножения, а второй (кроме того, чтобы быть матрицей для размножения генотипа) – рибозимом или совокупностью рибозимов (или их аналогами, если основа не рибозная). Рибозимная цепочка, в отличие от информационной (информационная цепь менее чувствительна к химической разнице, чем рибозимная), должна иметь строго определенные химические свойства, поэтому не может быть использован алфавит с разными "написаниями" букв.

 

Можно обойти проблему различных "написаний" и по-другому (если считать, что такие небольшие различия не оказывают значительного влияния на функциональность рибозимов): сначала может использоваться алфавит с разными вариантами "написания", но уже на уровне биогенного синтеза нуклеотидов возникает унификация.

 

Возможно, существуют химические причины, по которым на первобытной Земле (или вообще в Солнечной системе) не могли синтезироваться варианты с одним атомом азота в пятиугольнике пуриноподобной молекулы. Однако нельзя исключить, что в иных, неизвестных нам условиях (на экзопланетах) могут найтись такие пути синтеза. Таким образом, можно допустить, что возможна жизнь на основе пуриноподобных молекул с одним атомом азота пятиугольнике (интересно отметить, что такой алфавит был бы еще проще, фактически он был бы предельно простым).

 

 

 

Протоалфавиты жизни возможны в 24-х вариантах

 

С учетом невозможности существования разных "написаний" (модификаций по количеству атомов азота в пятиугольном цикле) в одном алфавите, таблица из четырех групп (рис. 22), распадается на восемь строк (рис. 24). Если в строке реализуются все варианты, то она соответствует шестибуквенному алфавиту, если один вариант не реализуется, то четырехбуквенному.

 

 

Рис. 24. Восемь вариантов шестибуквенных протоалфавитов типа (A)UGCBS

 

Пиримидины здесь – только изомеры U и C. Пуриноподобные молекулы в четырех протоалфавитах являются изомерами (A) и G, а в четырех других – имеют один атом азота в пятиугольнике и также являются изомерами соответствующего "написания" (A) и G.

 

На рис. 24 в "земном" варианте обозначены буквы (A),U,C,G, а две дополнительные буквы обозначены B и S, как в статье "ДНК и РНК Хатимодзи: генетическая система из восьми строительных блоков" (Ш. Хошик и др. 2019) [1]. В этой статье авторы приводят результаты успешных испытаний восьмибуквенного алфавита, включающего B и S и еще две молекулы, которые не удовлетворяют двум из шести требованиям, которым должны удовлетворять молекулы первичного репликатора (подробнее см. в Обсуждении).

 

В шестибуквенных протоалфавитах типа (A)UGCBSдве из трех супрамолекул (G-C и B-S) значительно больше похожи друг на друга, чем на третью пару букв ((A)-U). Если предположить, что по химическим или эволюционным причинам реализуется только одна из близких пар букв, то из каждого шестибуквенного алфавита получается два четырехбуквенных. Всего получается 16 четырехбуквенных алфавитов, по восемь алфавитов типов (A)UBS и (A)UGC (рис. 25).

 

 

Рис. 25. 16 четырехбуквенных протоалфавитов.

 

Все эти алфавиты являются близкими аналогами (A)UGC, а также обладают свойством максимально возможной простоты для первичного алфавита жизни, построенного на супрамолекулах с тремя водородными связями.

 

 

 

Алфавиты жизни возможны в 112-ти вариантах

 

На рис. 26 показаны все возможные конфигурации поляризационных частей молекул с двойными связями.

 

 

Рис. 26. Все возможные конфигурации поляризационных частей молекул с двумя водородными связями.

 

Для каждой соответствующей Требованию №1 конфигурации супрамолекул с тремя и аналогичной конфигурации супрамолекул с двумя водородными связями прорисуем прилегающие ковалентные связи, определяемые этими конфигурациями (рис. 27).

 

 

Рис. 27. Конфигурации супрамолекул с двумя и тремя водородными связями.

 

Обе конфигурации с тремя связями при выполнении требований 2-5 соответствуют пиримидин-пуриноподобным супрамолекулам. Конфигураций с двумя связями, соответствующих требованиям 2-5, существует двенадцать, причем четыре из них повторяют одну из конфигураций с тремя связями с редукцией одной аминогруппы. Из оставшихся восьми, две конфигурации (рис. 27, справа внизу) не соответствуют требованию 4. Остальные варианты с двумя связями при анализе соответствия требованиям 2-5, приводят к трем пурин-пурин-подобным и к трем пиримидин-пиримидин-подобным супрамолекулам, т.е. не соответствуют Требованию 6 и несовместимы для репликации с любой из пар (A)-U, G-C, A-U, {A}-U, B-S, (A)-[U], [G]-C, G-[C], [B]-S, B-[S].

 

Таким образом,замена 2,6-диаминопурина (А) на 6-аминопурин А или на 2-аминопурин{A}, а так же замена G, C, B, S на [G], [C], [B], [S] – шесть единственных возможных вариантов трансформации прототоалфавита, построенного на супрамолекулах с тремя водородными связями, в алфавит с одной (из трех или из двух) супрамолекулой на двух водородных связях (рис. 28).

 

 

 

Рис. 28.  2,6-диаминопурин протоалфавита, два варианта его замены и G, C, B, S

и варианты их замены при переходе к алфавиту жизни .

 

Таким образом, возможны 112 вариантов алфавита жизни, которые распадаются на восемь групп по четырнадцать алфавитов в каждой (рис. 29).

 

                  

 

Рис. 29. Восемь групп, на которые распадаются 112 возможных алфавитов жизни.

 

 

На рис. 30 показаны четырнадцать алфавитов, соответствующих "земной" группе.

 

 

Рис. 30. Четырнадцать возможных алфавитов «земной» группы.

 

 

 

 

Обсуждение

 

Сравнение алфавитов, использующих и не использующих двойную связь

 

2,6-диаминопурин с его способностью связываться с урацилом в комплементарную пару прочнее, чем аденин, не ускользнул от внимания химиков, изучающих неферментативную репликацию и репликацию, катализируемую рибозимами. Использование в экспериментах 2,6-диаминопурина вместо аденина облегчает репликацию. Например, в обзорной статье "За пределами ДНК и РНК: расширяющийся инструментарий синтетической генетики" (Taylor et al., 2019) [4] говорится следующее: "2,6-диаминопурин, по-видимому, имеет некоторые преимущества перед аденином, поскольку обеспечивает более стабильное спаривание с уридином или тимидином, что может помочь синтезу РНК рибозимами –?РНК-полимеразами (Attwater et al. 2013)".

 

Если предположить, что для эволюции уже на начальной стадии вариант с одной парой букв с тремя и одной с двумя водородными связями предпочтительнее, чем вариант с двумя парами с тремя водородными связями, то уже протоалфавитом жизни должны были быть (с точностью до 8 модификаций каждый) AUGC, {A}UGC, AUBS, {A}UBS, (A)U[G]C, (A)UG[C], (A)U[B]S,

(A)UB[S].

 

Можно предположить несколько возможных причин, по которым протоалфавит, использующий только тройные водородные связи, мог трансформироваться в алфавит, использующий одну двойную связь (здесь не рассматриваются причины, связанные с вероятностью или легкостью абиогенного и биогенного синтеза и т.п.; см. Введение):

1. Когда скорость сборки цепочек за счет действия первичных рибозимов повысилась настолько, что прочность водородных связей между комплементарными нуклеотидами могла несколько ослабнуть, 2,6-диаминопурин заменился на аденин (6-аминопурин), и в соответствующей паре букв тройная водородная связь заменилась на двойную. Причиной этого события могла быть необходимость большего химического разнообразия для рибозимов или то, что аденин лучше подходил на роль химически пассивного компонента малых молекул и кофакторов (таких как АТФ, НАД, кофермент А, аденозил-метионин и др.), которые могли играть важную роль в мире РНК.

2. Аденин и 2-аминопурин немного проще (легче, имеют на один атом азота меньше), чем 2,6-диаминопурин.

3. При полимеризации именно потеря аминогруппы у 2,6-диаминопурина делает для него невозможным неправильную "зеркальную" ориентацию, что может быть полезно при неферментативной репликации. Если работает эта причина, то она же может объяснить, почему G и C не могут сосуществовать с B и S при неферментативной репликации, и абиогенный протоалфавит не может быть шестибуквенным.

 

 

 

(A)UGC – алфавит вирусов

 

В той же статье "За пределами ДНК и РНК: расширяющийся инструментарий синтетической генетики" (Taylor et al., 2019) [3] отмечается: "2,6-диаминопурин встречается только у цианофагов (вирусов цианобактерий) (Weigele and Raleigh 2016). Эта и другие модификации (имеются в виду модификации канонических нуклеотидов) могут представлять собой рудименты широкого круга пребиотических систем спаривания оснований, которые не были впоследствии стабильно инкорпорированы в биологию".

 

Идея о том, что 2,6-диаминопурин в алфавите вирусов цианобактерий может быть рудиментом конкурирующих разнообразных систем комплементарно спаривающихся оснований, противоречит представлению о необходимости абиогенно генерируемой однозначности супрамолекул уже на начальных этапах возникновения неферментативной репликации.

 

Можно предположить, что у вирусов 2,6-диаминопурин не рудиментарный, а является более поздней обратной заменой аденина (уже после события замены 2,6-диаминапурина на аденин), что помогает им избежать деградации бактериальными ферментами рестрикции (Yan, Zhoy and Xuexia, 2021) [6].

 

 

 

Азотистые гетероциклы в метеоритах

 

В статье "Содержание гетероциклов азота в метеоритах и их значение для зарождения жизни" (Martins, 2018) [4] приведен полный список азотистых гетероциклов, найденных в метеоритах. Среди пуриноподобных молекул есть аденин, гуанин и 2,6-диаминопурин, но нет молекул с одним атомом азота в пятиугольном цикле. Впрочем, нельзя исключить, что в иных условиях, чем в Солнечной системе, они могут возникать.

 

 

 

Ксенонуклеиновые кислоты

 

На примере РНК Хатимодзи можно показать, как могут быть подвергнуты сомнению не соответствующие модификациям (A)UGCBS протоалфавиты жизни.

 

"ДНК (РНК) Хатимодзи - синтетический аналог нуклеиновой кислоты, который использует четыре синтетических нуклеотида в дополнение к четырем, присутствующим в природных нуклеиновых кислотах, ДНК и РНК".

"НАСА: Обнаружение жизни становится все более важной целью миссий по планетологии, и эта новая работа поможет разработать эффективные инструменты и эксперименты,... она расширяет наше понимание о молекулах, которые могли бы хранить информацию о внеземной жизни". (Wikipedia) [5]

 

Две нижние пары на рис. 31 – основания Хатимодзи.

 

 

 

Рис. 31. Канонические комплементарные пары AU и GC (вверху) и основания Хатимодзи (внизу).

 

 

Молекулы B и S входят в 6-ти буквенныйпротоалфавит, который в нашей статье выведен как теоретически единственно возможный (с точностью до 8 модификаций) в рамках соответствия требованиям 1-6.

 

В отличие от абиогенно возникшего протоалфавита, искусственные дополнительные буквы-молекулы могут не удовлетворять трем из шести требований:

(3) устойчивость к УФ-облучению,

(4) однотипность конфигурации циклической части,

(5) способность к реакциям присоединения при нормальных условиях.

Именно это мы видим в молекулах P и Z алфавита Хатимодзи.

 

Молекула P не удовлетворяет требованию устойчивости к УФ-облучению (имеет 3 атома азота в цикле), а молекула Z не удовлетворяет требованию иметь возможность присоединения при нормальных условиях, т.е. через N-H. Вероятно, связь Z с рибозой происходит при специальных (ненормальных) условиях. Группа N2O "утяжеляет" соединение, дополнительно расходует один атом азота и два кислорода, и не способствует устойчивости.

 

Интересно, что в двух дополнительных парах алфавита Хатимодзи используются только супрамолекулы с тройными связями. Вероятно, это следствие того, что супрамолекулы с двойными связями (которых можно "изобрести" больше) хуже, то есть недостаточно точно или медленнее супрамолекулизируются даже под контролем полимеразы.

 

В качестве не удовлетворяющих требованию 4 и, вероятно, требованию 3, можно привести варианты гипотетических молекул с тремя водородными связями с атомом кислорода в одном из шестиугольных гетероциклов супрамолекул (рис. 32).

 

Рис. 32.  Гипотетическая супрамолекула с атомом кислорода в шестиугольном цикле,

не удовлетворяющая требованию 4 и, вероятно, требованию 3.

 

 

 

Генезис и математика алфавита жизни

 

В статье поиск возможных алфавитов жизни проведен в порядке, который представляется наиболее естественным. Порядок применения требований, вероятно, соответствует генезису AUGC и демонстрирует вероятный эволюционный путь происхождения алфавита. Однако, скорее всего, математики, занимающиеся теорией множеств, решили бы задачу на более общем уровне. Требования 1-6 почти наверняка обладают свойством перестановочности: применение их в любом порядке даст одинаковый результат.

 

 

 

 

Литература

 

[1]    Shuichi Hoshika et al. Hachimoji DNA and RNA: A genetic system with eight building blocks. Science Feb 2019

 

[2]    Z. Peeters, O. Botta, S. B. Charnley et al. The effect of nitrogen on the photostability of small aromatic molecules. A&A 433, 583-590 (2005)

 

[3]    Alexander I Taylor, Gillian Houlihan, Philipp Holliger. Beyond DNA and RNA: The Expanding Toolbox of Synthetic Genetics. National Center for Biotechnology Information. 2019 Jun

 

[4]    Zita Martins. The nitrogen heterocycle content of meteorites and their significance for the origin of life. National Center for Biotechnology Information. 2018 Jul

 

[5]    From Wikipedia. Hachimoji DNA

 

[6]    Y. Zhou, X. Xua et al. Widespread pathway for substitution of adenine by diaminopurine in phage genomes. Science Apr 2021