Origine ed elaborazione delle informazioni biologiche

Frontiere della Vita (1998)

Origine ed elaborazione delle informazioni biologiche

Peter Schuster
(Institut fur Theoretische Chemie und Strahlenchemie, Universitat Wien Vienna, Austria)

In biologia, l'informazione è conservata ed elaborata negli acidi nucleici, molecole di DNA o RNA, che vengono denominate genotipi per il loro fondamentale ruolo genetico; i genotipi si estrinsecano nei fenotipi i quali presentano una vasta gamma di complessità, che va dalle strutture delle molecole alla cellula, fino agli organismi multicellulari e alle società. Questa crescente complessità è accompagnata da un aumento del livello di organizzazione degli oggetti, in quanto comporta un incremento del numero dei livelli gerarchici. In accordo con questi concetti, lo sviluppo dei fenotipi avviene a diversi livelli. La sintesi cellulare di molecole proteiche, a partire daIl'RNA, è il livello che, al momento, conosciamo meglio. Una fonte di informazione biologica è l'evoluzione darwiniana, basata sulla variazione dei genotipi e sulla selezione dei fenotipi più adatti. Essa non è in grado di dare una spiegazione soddisfacente alle transizioni evolutive più importanti, anche se possono essere formulati principi euristici che portano alla formazione di organizzazioni costruite in maniera gerarchica.

Il concetto di informazione

Nella vita di tutti i giorni, la parola informazione ha diversi significati. È importante, per esempio, fare una distinzione tra una nozione statistica dell' informazione, legata all' incertezza, e una nozione semantica, che si riferisce al contenuto di un messaggio e alle conseguenze che determina: in biologia sono utili sia l'aspetto sintattico, riguardante la struttura molecolare e la capacità dei portatori dell'informazione biologica, sia quello semantico, concernente la valutazione e l'esecuzione dei messaggi.

'Significato' e 'scopo' sono termini di difficile interpretazione nell'ambito della biologia evolutiva, perché possono essere definiti e discussi solo a posteriori. In un processo di coevoluzione il messaggio, il dispositivo che lo elabora e il contesto in cui il messaggio viene valutato sono generati simultaneamente. La biologia molecolare è riuscita a far luce sulla chimica e sulla fisica della vita con un grado di risoluzione così alto da permettere di distinguere un fenomeno che altrimenti sarebbe rimasto oscurato dalla complessità degli organismi. Queste conoscenze hanno reso possibile la costruzione di modelli che riducono la complessità e ci permettono di distinguere i relativi fenomeni.

Si potrebbe benissimo discutere di biologia senza mai menzionare la parola informazione o senza usare nessuno dei suoi concetti scientifici. In questo modo però non si arriverebbe a comprendere le cose in profondità e, ciò che è ancora più importante, non sarebbero mai stati posti quesiti basilari. Per esempio, dopo che i pionieri della strutturistica biologica ebbero scoperto le strutture molecolari degli acidi nucleici e delle proteine, fu semplice associare al DNA una sequenza di simboli che codifica un messaggio. L'analogia con l'elaborazione del messaggio nella tecnologia dell'informazione portò immediatamente all'idea di un codice che mettesse in relazione il DNA e le proteine. Fu proprio ponendosi questo corretto quesito che ebbe inizio una vera corsa nella ricerca, conclusasi con successo con la decodificazione del codice genetico (Judson, 1979).

Il concetto scientifico di informazione è nato negli anni Quaranta, nel contesto dell'analisi teorica della tecnologia della comunicazione (Shannon e Weaver, 1949). La teoria dell'informazione, sviluppata da C.E. Shannon (1993), riguarda quindi la trasmissione di un segnale da un mittente a un destinatario, attraverso un canale rumoroso. l messaggi sono codificati sotto forma di sequenze di simboli scelti da un alfabeto; per esempio, 010011101100010101011 è una stringa di lunghezza n = 21 basata sull' alfabeto binario {0,l}, e AUGGGCUUUGUCGACAAG è una sequenza di lunghezza n = 18 basata sull'alfabeto a quattro lettere {A,U,G,C}, che è quello utilizzato nelle molecole di acido ribonucleico (RNA). Il contenuto informativo h di un messaggio k è espresso in bit (binary digit, cifra binaria) generalmente accettato come unità d'informazione. Il bit rappresenta l'informazione necessaria per distinguere tra 0 e 1. Il messaggio h è dato dall'equazione

h = -1,4428lnpk[bit]

dove Pk è la probabilità che il messaggio k arrivi al destinatario. La teoria dell'informazione di Shannon si riferisce perciò a un insieme di messaggi, le cui probabilità sommate danno 1: ∑kPk = 1. Un insieme di messaggi emessi da una fonte di informazione è caratterizzato dalla sua entropia,

formula

La lettera H è stata scelta come simbolo per l' entropia informazionale perché è analoga all'entropia della meccanica statistica, chiamata funzione H da L. Boltzman. Essa rappresenta il contenuto atteso di informazione di un messaggio scelto da un insieme di messaggi in maniera arbitraria. In accordo con ciò, l'entropia di un insieme di messaggi è zero quando abbiamo a che fare con un singolo messaggio che ha una probabilità Pk = l e diventa massima quando tutti i messaggi sono egualmente probabili. Nell'ambito scientifico, l'informazione è associata alla probabilità degli eventi: il verificarsi di un evento frequente o raro ha un contenuto di informazioni rispettivamente basso o alto. In chimica, per esempio, costanti di legame elevate implicano interazioni tra molecole altamente specifiche che sono meno probabili e che richiedono molta più informazione, rispetto alle associazioni più deboli e meno specifiche. Il concetto di riconoscimento molecolare usato frequentemente suggerisce che le molecole abbiano informazioni sui loro partner in specifici complessi di aggregazione. Quantità correlate all'informazione sono comuni anche in fisica: un esempio è la surprisal function (funzione di sorpresa) nella teoria delle collisioni, che misura le deviazioni dalla statistica convenzionale. La teoria dell'informazione di Shannon trae le sue origini da un approccio teorico alla comunicazione dei messaggi. È usata frequentemente come concetto di base nella scienza dell'informazione. Una correlazione diretta con la biologia è data ovviamente dall'analisi probabilistica della realizzazione degli eventi. La sintesi chimica casuale permette la formazione, con uguale probabilità, di sequenze nucleotidiche arbitrarie. Le sequenze nucleotidiche sono considerate sequenze di simboli sulla base dell'alfabeto a quattro lettere degli acidi nucleici. La formazione di una particolare sequenza h di lunghezza n avviene con probabilità Pk = 4 -n. Quindi il contenuto di informazione della sequenza è h = 2n (bit), indipendentemente dalla particolare sequenza, perciò l' entropia della distribuzione assume lo stesso valore H = 2n. Nel caso in cui un insieme di sequenze polinucleotidiche sia creato copiando la sequenza da uno stampo principale in modo sufficientemente accurato, la distribuzione è imperniata sulla sequenza dello stampo e, sia il contenuto di informazione sia l' entro pia, sono minori rispetto alla distribuzione uniforme. Per una riproduzione priva di errori la distribuzione diventa omogenea e contiene solo la sequenza dello stampo. In accordo con ciò, il contenuto di informazione e l'entropia di informazione sono entrambe zero. Il concetto di informazione di Shannon considera solo l'aspetto probabilistico della costruzione di sequenze da un insieme di simboli e della loro corretta ricezione. Non riguarda né la struttura interna del messaggio né il suo 'significato'.

figura 6

Per illustrare il concetto di informazione di Shannon possiamo considerare una popolazione di genotipi consistenti in sequenze di lughezza n, sulla base di un alfabeto avente K caratteri, per esempio l'alfabeto binario con K = 2 oppure l'alfabeto naturale G A C U (T), con K = 4. Realistiche strutture di popolazione si possono ottenere assumendo che una sequenza di riferimento o sequenza principale So sia circondata da sequenze mutanti dovute a uno, due, tre o fino a n errori (v. anche la figura 6). La probabilità di costruire una sequenza contenente k errori rispetto alla sequenza principale è chiamata Pk. Per permettere un'analisi semplice, mantenendo sempre però la natura realistica della struttura della popolazione, è possibile porre il rapporto delle probabilità tra un mutante con k errori e la sequenza principale uguale alla k-esima potenza di un parametro α (αk). In accordo con ciò abbiamo che: p1 = αp0, p2 = α2p0,..., pk = αkp0,..., pn = αnp0,

e la probabilità di avere la sequenza di riferimento po è immediatamente ottenuta normalizzando le condizioni di probabilità:

p0 = [1 + (κ-1)α]-n.

Il parametro α rappresenta il rapporto tra la frequenza di mutanti a un solo errore e la frequenza della sequenza principale, ed è una misura del grado di varietà nella popolazione modello: α = 0 implica una popolazione omogenea contenente solo la sequenza principale dal momento che la probabilità di trovare mutanti è uguale a zero; α = 1 è invece l'opposto in quanto tutte le sequenze sono presenti con uguale probabilità e, conseguentemente, la probabilità di trovare una data sequenza è uniformemente distribuita, p0 = κ-n. Tali distribuzioni si possono facilmente ottenere sperimentalmente: una distribuzione omogenea deriva dalla riproduzione di una molecola parentale mediante una replicazione altamente accurata e praticamente priva di errori. Invece una popolazione con α = 1 risulta, per esempio, dalla sintesi casuale di molecole di RNA o DNA. È semplice calcolare il contenuto di informazione ℑk di una data sequenza ℑk e l'entropia di informazione H di una popolazione in funzione dei parametri n, κ e α:

formula
fig. 1

Gli esempi che illustrano queste dipendenze sono mostrati nella figura (fig. 1).

La definizione di informazione di Shannon è stata integrata da altri approcci matematici che prendevano in considerazione la struttura interna dei singoli filamenti di sequenza (Kolmogorov, 1968; Chaitin, 1969; 1987). Nella teoria algoritmica dell'informazione, il contenuto informativo di un messaggio è la lunghezza del più piccolo programma che, quando viene eseguito da un computer, è in grado di riprodurre l'oggetto. In accordo con ciò, i messaggi altamente ridondanti o periodici hanno una informazione algoritmica o complessità bassa, mentre le sequenze casuali di simboli sono caratterizzate da un contenuto informativo alto, perché non possono essere create da un programma più corto delle sequenze stesse. L'informazione algoritmica è una nozione tipica della scienza del calcolo: non può essere calcolata nel caso di una sequenza arbitraria, ma è molto utile per classificare e confrontare. L'assegnazione a una sequenza casuale di un valore di complessità elevata, comunque, non è soddisfacente per la biologia, in cui si considerano entità come gli organismi e le organizzazioni. Intuitivamente, potremmo dire che sia gli oggetti altamente ridondanti che quelli casuali presentano un livello basso di complessità, mentre gli oggetti con una complessità elevata dovrebbero possedere strutture interne complicate. L'informazione algoritmica non tiene conto delle risorse di tempo e di spazio richieste affinché il programma produca l'oggetto come output. La nozione di profondità logica, concepita e sviluppata da C.H. Bennet (1988), tiene conto del tempo e considera l'ordine gerarchico su una scala temporale. Oggetti che hanno la stessa informazione algoritmica possono differire nella profondità logica; una sequenza casuale è poco profonda dal punto di vista logico perché incompressibile e può essere prodotta da un'operazione di stampa in un solo passaggio.

L'informazione algoritmica e la profondità logica tengono conto della struttura interna dei messaggi, e quindi vanno incontro alle necessità dei biologi meglio dei concetti di Shannon. Mancano ancora però della nozione di significato, che è essenziale per una valutazione dei messaggi durante l'evoluzione.

L'informazione e la biologia

L'informazione in biologia ha una qualità che la rende differente dall'informazione in chimica e in fisica. Questa distinzione è in parte legata alla struttura e alle proprietà degli acidi nucleici.

Le reazioni chimiche coinvolgono comunemente solo poche specie molecolari presenti in gran numero. Rare eccezioni sono, per esempio, gli intermedi altamente reattivi che possono essere efficaci anche a concentrazioni molto basse. La biologia ha a che fare con uno scenario completamente diverso: le molecole di acidi nucleici di rilevanza genetica, normalmente, sono poco numerose. In particolare, le innovazioni genetiche sono sempre introdotte come molecole singole nella popolazione, cioè in un insieme di individui correlati geneticamente. Gli acidi nucleici e le proteine sono eteropolimeri, macromolecole costituite da classi diverse di monomeri legati covalentemente, e possono essere propriamente rappresentati come sequenze di simboli basati su un alfabeto. Il numero di possibili sequenze di DNA o di RNA nel caso di alcuni virus è astronomicamente elevato: ci sono 4n genotipi che hanno una lunghezza n della catena. Per dare un esempio numerico, il numero delle diverse sequenze polinucleotidiche di lunghezza n = 300 è 4³⁰⁰ = 4,12 X 10¹⁸⁰ e, quindi, supera di molto ogni immaginazione. In tutto l'Universo, non esiste un insieme in grado di contenere tante molecole quante sono tutte le possibili sequenze. Così le popolazioni coprono solo una minima frazione di tutte le sequenze e la grande maggioranza dei possibili polinucleotidi non è mai stata e non sarà mai presente, né sulla Terra né nell'intero Universo. L'informazione immagazzinata in singole copie può essere persa facilmente in incidenti di percorso. La ridondanza è la soluzione scelta dalla natura per stabilizzare l'informazione. In biologia l'informazione è infatti conservata mediante amplificazione. L'unità di informazione biologica, che è elaborata nella cellula sotto forma di una macromolecola biologica, è chiamata gene. L'informazione biologica che è immagazzinata nelle molecole di acido nucleico e che viene elaborata nella cellula, è chiamata quindi informazione genetica. Una popolazione contiene molte copie identiche dei geni e la sopravvivenza dell'informazione genetica è garantita indipendentemente dal destino dei singoli individui.

fig. 2

Il più semplice modello di amplificazione dell'informazione genetica si può osservare nella replicazione dell 'RNA dei virus che infettano le cellule batteriche. Questo processo è catalizzato in natura da enzimi specifici, che possono essere isolati e usati in laboratorio per la replicazione in vitro. Il principio di questo processo, chiamato replicazione complementare, è schematizzato nella figura (fig. 2) e ha alcune analogie con il convenzionale processo fotografico. Un singolo filamento di RNA (il filamento 'più') serve come stampo per la sintesi della seconda molecola di RNA (il filamento 'meno'). Come la complementarità bianco-nero sta alla base della riproduzione fotografica, due proprietà biochimiche degli acidi nucleici stanno alla base dell'univoca determinazione del filamento 'meno' a partire dal filamento 'più': l) la struttura spaziale della doppia elica che si forma durante la replicazione discrimina tutte le combinazioni di basi eccetto, per ragioni di geometria di legame, A = U e G ≡ C (Le linee tra le basi indicano i legami idrogeno che stabilizzano la coppia di basi. In accordo con ciò, G ≡ C con tre legami idrogeno è più stabile di A = U); 2) le molecole di RNA hanno due differenti estremità, chiamate 3' e 5' in accordo con la nomenclatura chimica convenzionale. Nella doppia elica i due filamenti sono orientati in direzione opposta, creando un allineameno univoco tra filamento più e filamento meno.

La dissociazione del duplex più-meno produce un filamento più e un filamento meno, che possono entrambi servire da stampo per cicli di replicazione successivi. È cruciale per la replicazione che la separazione del duplex avvenga con successo poiché le doppie eliche non sono utilizzabili per la replicazione dell'RNA.

La variazione è introdotta nella popolazione mediante mutazione e ricombinazione. Tre classi di mutazione sono più comuni (v. figura 2, al centro). Consistono in: l) mutazioni puntiformi, errori di trascrizione di singole basi che non cambiano la lunghezza della catena dell'RNA; 2) inserzioni, che portano a molecole più lunghe poiché una parte della sequenza stampo è copiata due o più volte; 3) delezioni, che producono RNA più corti, poiché parte dello stampo manca nella copia.

La ricombinazione, come schematizzato, coinvolge due molecole di RNA (v. figura 2, in basso). Durante la replicazione l' enzima sintetizzante salta da uno stampo all'altro e la copia contiene parti di entrambe le molecole parentali. Nella replicazione virale la ricombinazione può avvenire nel caso di una doppia infezione, in cui la cellula ospite contiene due diversi genomi virali.

I polinucleotidi sono chiamati genotipi perché hanno un ruolo genetico fondamentale, in quanto portano le informazioni per esprimere i fenotipi, i quali rappresentano la forma visibile e la funzione degli organismi. L'informazione biologica arriva in forma codificata e il modo in cui viene elaborata presenta alcune analogie con la tecnologia dell'informazione e la scienza dell'informatica. Essa è immagazzinata essenzialmente nei genotipi ed è trasferita alle generazioni successive mediante la replicazione dei polinucleotidi e, meno direttamente, mediante processi epigenetici. Il meccanismo della replicazione del DNA, altamente elaborato e accurato, è alla base dell'ereditarietà. In natura, la replicazione del DNA può raggiungere l'accuratezza di un errore su 10⁹ coppie di basi. Nonostante ciò, errori di copiatura, chiamati mutazioni, avvengono una volta ogni tanto e rappresentano una fonte di variabilità genetica. Gli organismi più evoluti (diploidi) hanno due copie di ciascun gene e possono introdurre variazioni nel loro genotipo anche mediante la ricombinazione genetica.

fig. 3

L'informazione genetica degli organismi cellulari è immagazzinata in molecole di DNA a doppia elica. La replicazione del DNA è sincronizzata con la divisione cellulare, processo altamente organizzato e precisamente controllato che, necessariamente, deve produrre due cellule figlie pienamente equipaggiate e funzionali. La replicazione del DNA è un processo molto complesso che produce due molecole a doppia elica in una reazione a più stadi, che nei batteri coinvolge circa dieci enzimi diversi. È un processo 'semi-conservativo', in quanto le due molecole figlie contengono un filamento parentale e uno neo sintetizzato (fig. 3). Il DNA può essere considerato come la copia di back-up (ossia di scorta, nel linguaggio informatico) dell' informazione genetica della cellula. Per elaborare l'informazione, parte della copia di back-up viene trascritta in molecole di RNA che rappresentano la copia funzionale dell'informazione genetica della cellula. Molecole di RNA a singolo filamento, chiamate RNA messaggero (mRNA) sono trasferite, dopo alcune modificazioni, a complessi supramolecolari, chiamati ribosomi. Queste particelle sono costituite da tre molecole di RNA e più di cinquanta molecole proteiche. Insieme a un complesso di altre molecole proteiche e di RNA, il ribosoma esegue la specifica traduzione dell'RNA messaggero in una molecola proteica. L'informazione di sequenza della proteina è determinata completamente dall'RNA messaggero: ogni tripletta di basi, cioè tre nucleotidi consecutivi, chiamata codone, corrisponde univocamente a un residuo amminoacidico o a un segnale di stop che blocca la sintesi proteica. L'inizio della sintesi proteica è determinato da sequenze speciali e da un codone che codifica una metionina o una valina. Il codice, che collega i venti amminoacidi naturali e i segnali di terminazione con le triplette di nucleotidi nelle sequenze di DNA o RNA, è completamente noto (v. figura 3b). Nella cellula, le proteine acquisiscono la loro forma attiva finale mediante un processo di ripiegamento (folding) catalizzato da molecole proteiche, e tramite modificazioni postraduzionali catalizzate da enzimi specifici.

Il flusso dell'informazione genetica codificata nella cellula, è spesso illustrato mediante il cosiddetto dogma della biologia molecolare:

DNA ⇄ RNA → proteina

In accordo con ciò, DNA e RNA possono essere interconvertiti l'uno nell'altro. Il processo che porta dall'RNA al DNA è conosciuto come trascrizione inversa; avviene solo in certe classi di virus a RNA, chiamati retro virus, ed è un importante strumento in biologia molecolare e in ingegneria genetica. Il processo di trasferimento dell'informazione dall'RNA alla proteina è invece irreversibile nel senso che le sequenze amminoacidiche delle proteine non possono essere decodificate per dare acidi nucleici.

Le molecole proteiche catalizzano e controllano quasi tutte le reazioni chimiche che avvengono nella cellula e rappresentano la chiave per comprendere il metabolismo cellulare. Questo metabolismo è una complicatissima rete di reazioni anaboliche e cataboliche che, rispettivamente, costruiscono molecole per la cellula a partire dal nutrimento e le distruggono per produrre scorie esportabili. I costituenti della cellula hanno una gamma enorme di strutture molecolari e di funzioni. I polimeri più importanti sono gli acidi nucleici, gli amminoacidi, le membrane cellulari, formate da lipidi, proteine e altri costituenti, e i carboidrati, gli elementi portanti della parete cellulare dei batteri. Inoltre, per una corretta funzionalità, la cellula ha bisogno di una grande varietà di molecole piccole e di atomi metallici.

La replicazione del DNA non sarebbe possibile senza un apparato cellulare eccezionalmente complesso. In figura (v. figura 3a) il metabolismo cellulare è schematizzato in modo da mostrare le analogie con l'elaborazione dell'informazione. L'apparato molecolare della cellula serve essenzialmente per due scopi: l'automantenimento della cellula stessa e la riproduzione del genotipo. Una caratteristica molto interessante di questo apparato è la sua uniformità in tutta la biologia. A parte qualche piccola variazione, le nostre cellule usano, per la sintesi delle proteine dall'RNA messaggero, lo stesso apparato dei batteri. Se non fosse così, non sarebbe possibile produrre proteine umane nelle cellule batteriche utilizzando le tecniche dell' inge gneria genetica. Una peculiarità della riproduzione biologica è che non solo il genotipo, ma anche le istruzioni per ricostruire l'intero apparato metabolico, sono trasmessi alla generazione successiva. Sotto questo aspetto gli organismi viventi sono automi autoriproducenti nel senso di J. von Neumann (1966). Il secondo scopo, cioè la riproduzione della cellula o dell' organismo multicellulare, è il requisito base per avere successo nell'evoluzione. A questo punto, viene assegnato all'informazione biologica un 'significato', in quanto i messaggi codificati dai genotipi sono valutati dal meccanismo evolutivo e le versioni non adatte non vengono trasmesse alle generazioni future. Darwin ha scelto il concetto difitness, cioè grado di adattamento, come misura del successo riproduttivo di un genotipo. Una fitness alta significa una progenie maggiore e, quindi, i genotipi più adatti sovrastano i loro competitori meno adatti nelle generazioni successive.

fig. 4

Gli oggetti biologici hanno una ricca struttura interna e mostrano un ordine gerarchico in quanto costruiti secondo livelli sovrapposti che vanno dalle subunità dei biopolimeri alle società animali e umane (fig. 4). Senza dubbio oggetti costruiti su più livelli gerarchici sono maggiormente complessi di quelli costituiti da un minor numero in quanto per essere descritti richiedono più informazioni. Nello stesso tempo essi hanno un repertorio di funzioni più complesso. In biologia la complessità aumenta per stadi insieme alle principali transizioni evolutive (Maynard Smith e Szathmary, 1995) che aggiungono nuovi livelli alla gerarchia. Esempi ben noti di questo tipo sono l'origine della traduzione e del codice genetico e la transizione da organismi unicellulari a multicellulari o da individui isolati a società di individui.

La dinamica evolutiva

L'evoluzione biologica è basata su una fondamentale dicotomia: la variazione avviene sui genotipi, mediante la mutazione e la ricombinazione, mentre la selezione valuta i fenotipi. Le variazioni non sono correlate alloro successo. In altre parole, una variazione vantaggiosa non si verifica più frequentemente perché ha la potenzialità di avere successo nell'evoluzione; tale processo è quindi un fenomeno dinamico altamente sofisticato, la cui complessità porta, a volte, a confusione. Può essere capita e analizzata più facilmente suddividendo la in tre processi più semplici (Schuster, 1996): dinamica di popolazioni, dinamica del supporto, e mappatura genotipo-fenotipo, ognuno dei quali mette in luce un aspetto particolare dell'evoluzione (v. figura 4, in basso).

La dinamica di popolazioni

La dinamica di popolazioni descrive come genotipi ottimali con geni ottimali vengano scelti dalla selezione naturale (o artificiale) da un dato serbatoio di genotipi. Essa è solo una minore generalizzazione della convenzionale genetica di popolazioni, nel senso che non vengono imposte restrizioni su meccanismi di riproduzione e variazioni nell'ambiente. Le basi della dinamica di popolazioni sono i modelli di replicazione, mutazione e ricombinazione che derivano dalla cinetica delle reazioni chimiche. Essenzialmente, la dinamica di popolazioni ha a che fare con la selezione e con altri fenomeni evolutivi che si verificano su una scala temporale limitata. La distribuzione dei genotipi nelle popolazioni, come anche le loro variazioni nel tempo, sono l'oggetto di studio della genetica di popolazioni. Fondata dai tre famosi scienziati R. Fischer, J.B.S. Haldane e S. Wright, fornì la prima sintesi della selezione naturale di Darwin con la genetica mendeliana. La distribuzione dei genotipi in funzione del tempo è spesso modellata mediante equazioni differenziali simili a quelle che i chimici usano per la cinetica delle reazioni. Le equazioni contengono variabili che rappresentano il numero di particelle, per esempio molecole, viroidi, particelle virali, cellule o organismi, e mostrano come queste si modificano nel tempo. La dinamica di popolazioni si occupa solo dei genotipi che sono presenti realmente, quindi il numero delle variabili corrisponde al numero delle classi di genotipi presenti correntemente. Quando viene prodotto un mutante da un errore di copiatura, nella popolazione appare una nuova variabile; quando la mutazione non è più presente, la variabile corrispondente sparisce. La dinamica di popolazioni reali può essere semplice, come nel caso di un avvicinamento monotono verso lo stato stazionario. L'ottimizzazione basata sul principio darwiniano della variazione e della sopravvivenza del più adatto serve a illustrare un processo del genere. Secondo la metafora di S. Wright, di cui si discuterà in seguito, una popolazione può essere vista come un escursionista: essa si arrampica lungo l'impervio sentiero della fitness. Come l'escursionista si ferma quando ha raggiunto la cima, così la popolazione raggiunge lo stato stazionario quando arriva al massimo locale di fitness. A seconda del meccanismo di riproduzione e della natura delle interazioni tra gli individui, la dinamica di popolazioni può essere più complessa: sono state riportate oscillazioni delle variabili di popolazione, caos deterministico e onde spirali. Apparentemente la complessità della dinamica di popolazioni non è aumentata durante l'evoluzione: la genetica di popolazioni dell'uomo non è più complessa di quella dei virus. Per illustrare ciò possiamo rifarci alla chimica: la dinamica della reazione di Belousov-Zhabotinskii illustra tutti i fenomeni complessi che sono conosciuti negli altri sistemi non lineari a minori dimensioni.

La dinamica del supporto

Le popolazioni vivono in un universo di possibili genotipi forniti di una schiacciante diversità, poiché rappresentano la manifestazione impressionante del principio di costruzione combinatoria delle molecole di acido nucleico. Comunemente, questo universo è chiamato spazio delle sequenze. La distanza tra i genotipi nello spazio delle sequenze è misurata mediante la distanza di Hamming, cioè il minimo numero di mutazioni puntiformi richieste per interconvertire le sequenze corrispondenti di acido nucleico. L'evoluzione dall' origine della vita a oggi, o alla fine della vita terrestre non fa molta differenza - può esplorare solo una trascurabile frazione di questo elevatissimo numero di portatori dell'informazione biologica. Considerando le enormi possibilità del codice genetico, possiamo guardare all'evoluzione biologica come a un tipo di processo aperto già solo a livello genetico.

La dinamica del supporto si occupa della migrazione delle popolazioni in questo universo di genotipi (esempi saranno forniti nel prossimo paragrafo). È una registrazione di tutte le operazioni genetiche, mutazioni o eventi di ricombinazione, che hanno avuto successo e che quindi sono state fissate nella popolazione durante l'evoluzione.

Supporto è un termine usato in matematica; senza addentrarsi nei dettagli tecnici, si può dire che esso permette di distinguere ciò che è da ciò che è solo possibile. Ogni genotipo presente in una popolazione appartiene al supporto, indipendentemente dal fatto che sia rappresentato in un singolo individuo o che sia presente in un gran numero di copie. Tutti gli altri potenziali genotipi non appartengono al supporto. Se i genotipi sono ordinati in uno spazio astratto, comunemente chiamato spazio delle sequenze, il supporto forma un'area che consiste di uno, due o più componenti connessi. Due genotipi sono connessi quando hanno una distanza di Hamming uguale a uno, cioè quando possono essere interconvertiti da una singola mutazione.

fig. 5

Il primo tentativo di considerare esplicitamente la migrazione delle popolazioni è rappresentato dalla teoria neutrale dell'evoluzione di M. Kimura (1983). Egli analizzò il caso speciale della selezione neutrale, che riguarda il caso particolare in cui tutti i genotipi hanno la stessa fitness. M. Eigen (1971) usa il concetto di spazio delle sequenze nella sua teoria dell'evoluzione molecolare (v. il saggio di Eigen, Evoluzione in provetta). La replicazione e la mutazione sono considerate reazioni chimiche parallele (fig. 5). L' accuratezza della replicazione e il tasso di mutazione sono introdotti come probabilità di reazione calcolate per ogni ipotesi del modello.

Ogni stampo mostrato nello schema è l'origine di un gran numero di reazioni parallele che comprendono sia la replicazione priva di errori sia la mutazione. L'analisi matematica dettagliata della rete di reazioni può essere semplificata definendo una matrice costituita dagli elementi Qij dove i e j indicano due diversi genotipi, ℑi e ℑj, rispettivamente. Dal momento che ogni replicazione produce o una copia corretta o una mutante, abbiamo:

formula

Il numero N rappresenta il numero totale dei possibili genotipi. Secondo il principio della costruzione combinatoria dei biopolimeri si ha Kn per polinucleotidi di lunghezza costante n. La matrice Q ha quindi K²n valori, che è un numero astronomicamente alto anche per gli acidi nucleici che hanno una lunghezza modesta. Nel caso in cui le mutazioni siano l'esclusiva o la predominante fonte di variabilità, la matrice riflette la struttura dello spazio delle sequenze. Lo spazio delle sequenze è semplicemente un ipercubo di dimensione n, quando tutte le sequenze che hanno una distanza di Hamming uguale a l sono connesse da una linea retta. Nella figura (fig. 6) è riportato l'esempio con n=5. Utilizzando la non irrealistica approssimazione del tasso di errore uniforme si assume che la probabilità di mutazione sia indipendente dal particolare nucleotide che viene sostituito e dalla sua posizione nella sequenza. Quindi gli elementi della matrice di mutazione assumono la semplice forma:

formula

,

dove p rappresenta il tasso di errore o di mutazione e di) la distanza di Hamming tra le due sequenze ℑi e ℑj.

Le equazioni cinetiche di replicazione e mutazione corrispondenti allo schema di reazione mostrato in figura 5,

formula

,

sono facilmente analizzabili con semplici tecniche. Qui le variabili Xi rappresentano il numero relativo o la concentrazione delle particelle,

formula

che sono normalizzate in modo che ∑i=1Nxi = l; ki sono le costanti di velocità di replicazione, e Φ è un flusso generale di diluizione che serve a normalizzare le variabili. Singole macromolecole replicano (e mutano) indipendentemente l'una dall'altra, e il flusso è l'unico termine di non linearità nell' equazione replicazione-mutazione. Le macromolecole biologiche possono anche agire da catalizzatori per la replicazione (v. figura 5). In questo caso la replicazione di singole molecole non è più indipendente dalla concentrazione di altre macromolecole. Lo schema di reazione diventa più complesso e le equazioni cinetiche sono intrinsecamente non lineari:

formula

La conseguenza della replicazione non lineare è la presenza di una grande varietà di dinamiche che includono oscillazioni e caos deterministico, come anche la presenza di cooperazione tra unità altrimenti in competizione. La dinamica del supporto diventa più complessa durante l'evoluzione? Rispondere a questa domanda è più complicato rispetto al caso della dinamica delle popolazioni. L'universo dei genotipi degli organismi multicellulari è più complesso di quello dei virus? Certamente è più grande. Genomi più lunghi, dopo tutto, hanno una capacità combinatoria per molti più genotipi, cosicché gli organismi più evoluti esplorano una frazione molto più piccola dei loro possibili genotipi. D'altra parte, le aree realmente popolate sono una parte trascurabile dello spazio delle sequenze in tutte le forme esistenti in natura, dai viroidi all'uomo. La differenza nel supporto dinamico tra procarioti e organismi superiori consiste soprattutto nella differenza tra aploidia e diploidia e, in quest'ultimo caso, nell'obbligatorietà della ricombinazione. Sembra corretto sostenere che la dinamica del supporto, come la dinamica delle popolazioni, non è diventata più complessa durante il corso dell' evoluzione, e saremmo destinati al fallimento se cercassimo lì l'origine dell'informazione biologica.

Mappatura genotipo-fenotipo

Per finire, rimane l'estrinsecarsi dei genotipi nei fenotipi, ciò che è noto come mappatura genotipo-fenotipo. Una teoria dell'evoluzione non potrà mai essere completa se non sono considerate esplicitamente le relazioni tra genotipi e fenotipi. Né la dinamica delle popolazioni né quella del supporto si occupano dei fenotipi. Come illustrato in figura (v. figura 4), l'organizzazione dei fenotipi è la vera fonte di complessità in biologia. L'attuale conoscenza in questo campo è però ancora scarsa. Non solo abbiamo a che fare con un fenomeno enormemente complesso, ma i concetti di reti genetiche, che regolano e controllano il metabolismo cellulare e lo sviluppo, sono ancora rudimentali. Tentativi di concepire e definire una teoria degli organismi e delle loro forme stabili di organizzazione hanno avuto inizio molto recentemente (Fontana e Buss, 1994a; 1994b). Ulteriori progressi in questa direzione daranno la risposta a questo problema ancora aperto della biologia e sempre oggetto di intensa discussione: quali sono e quanto sono forti i limiti che l'organizzazione dei fenotipi impone all'evoluzione? Nonostante che i fenotipi presentino ostacoli scoraggianti, qualche successo è stato ottenuto nel più semplice caso possibile: l'evoluzione delle molecole di RNA in laboratorio (Spiegelman, 1971). In questo caso il fenotipo è semplicemente la struttura della molecola di RNA e la mappatura genotipo-fenotipo si riduce alle relazioni tra sequenze e strutture dell'RNA (v. oltre).

Relazioni tra i processi della dinamica evolutiva

I tre processi che formano la dinamica evolutiva sono correlati da una ciclicità causale, nel senso che ogni processo alimenta il successivo (v. figura 4, in basso): la mappatura genotipo- fenotipo fornisce i parametri alla dinamica di popolazioni; questa determina quali genotipi si stanno estinguendo e produce le nuove varianti. Si occupa, in sostanza, della selezione e di altri fenomeni evolutivi che si manifestano su scale temporali brevi e determina perciò dove migrano le popolazioni nello spazio delle sequenze. La dinamica del supporto descrive il modo in cui le riserve genetiche cambiano quando le popolazioni migrano nell'immenso spazio di tutti i possibili genotipi. Riguarda la struttura interna delle popolazioni e i meccanismi attraverso i quali le regioni di fitness elevata si trovano nello spazio delle sequenze o in quello dei genotipi. La dinamica del supporto si occupa dei fenomeni evolutivi a lungo termine, per esempio, l'ottimizzazione e l'adattamento ai cambiamenti ambientali e defrnisce le regioni nello spazio delle sequenze da cui i fenotipi nuovi hanno origine, in seguito all'estrinsecarsi dei genotipi, e questo chiude il ciclo. Tali casi di causalità ciclica sono caratteristici di sistemi auto-organizzati, come quelli correlati ai processi evolutivi.

Il principio dell'evoluzione di Darwin

Il principio dell'evoluzione di Darwin combina due fattori contrastanti che influenzano la distribuzione dei genotipi: la creazione della diversità attraverso la variazione e la riduzione della eterogeneità attraverso la selezione; le due forze sono unite insieme da un forte reciproco condizionamento. Gli errori di replicazione producono tutti i tipi di genotipi nuovi: quelli più adatti, i neutrali e i meno adatti, mentre la selezione elimina le varianti situate all'estremità inferiore della distribuzione della fitness. Quindi, la fitness media di una popolazione, a parte piccole fluttuazioni casuali, è una funzione che non decresce nel tempo. Questa proprietà della fitness media è rappresentabile tramite la potente metafora di S. Wright (1932) dell'escursionista che cammina esclusivamente in salita. Nella teoria dell'ottimizzazione questo processo è denominato percorso adattativo. In questo scenario, le popolazioni migrano mediante le mutazioni e la selezione delle varianti più adatte. Nel contesto dell'informazione biologica potremmo usare un'altra analogia: le popolazioni acquisiscono informazioni sul loro ambiente e vi si adattano mediante un apprendimento evolutivo basato sul meccanismo di 'prova ed errore' (trial and error). La mancanza di correlazione tra le variazioni e le loro conseguenze nella selezione sono elementi basilari di questo tipo di apprendimento evolutivo. Come già detto una mutazione non si verifica con una maggiore o minore probabilità perché dà luogo a una variante, rispettivamente, più o meno adatta; nel meccanismo di mutazione la mancanza di questa tendenza facilita l'esplorazione in tutte le direzioni dello spazio delle sequenze.

La visione convenzionale darwiniana è basata su due presupposti principali: l'ottimizzazione evolutiva è 'un percorso in salita' nello scenario della fitness; la mappatura dei genotipi nei fenotipi porta a una variazione quasi continua dei tratti fenotipici, cosicché i cambiamenti evolutivi avvengono in maniera graduale. Mediante esperimenti di evoluzione molecolare e simulazioni al calcolatore, si può dimostrare che il primo presupposto è essenzialmente corretto ed è anche valido per gli organismi; per quanto riguarda invece il secondo, che è considerato importante principalmente per ragioni storiche (Ruse, 1979), esso non è indispensabile e anzi, come vedremo nel prossimo paragrafo, non è corretto nella maggior parte dei casi. Gli scenari sono costruiti nello spazio delle sequenze assegnando valori numerici di fitness ai genotipi. Tecniche di recente sviluppo forniscono gli strumenti per la caratterizzazione matematica e l'analisi statistica di questi scenari (Schuster, 1997). La metafora del percorso in salita si è rivelata molto utile dal punto di vista euristico, ma può essere anche fuorviante perché suggerisce uno scenario terrestre con montagne scoscese costruite su un supporto bidimensionale. Lo spazio delle sequenze o dei genotipi, invece, è multidimensionale, e le relazioni con gli spazi vicini e le distanze sono molto diverse dai corrispondenti parametri negli spazi a minori dimensioni (Gavrilets, 1997).

fig. 7
fig. 8

Nelle popolazioni di individui che si riproducono asessualmente, la selezione naturale è stata formulata come un problema delle cinetiche di reazioni chimiche e analizzata da M. Eigen (1971). Come già descritto questa impostazione considera la replicazione e la mutazione come processi paralleli (v. figura 5) e studia la dinamica di popolazioni cercando soluzioni per le equazioni cinetiche differenziali corrispondenti. A condizione che la replicazione sia sufficientemente accurata, la popolazione raggiunge distribuzioni stazionarie di mutanti; le distribuzioni di mutanti indipendenti dal tempo sono state studiate minuziosamente e caratterizzate come quasispecie molecolari (Eigen e Schuster, 1979; Eigen et al., 1988). Esse (fig. 7) rappresentano la riserva genetica delle popolazioni asessuate, come sono le specie biologiche autentiche nel caso della replicazione sessuata. Le quasispecie sono costituite da una sequenza principale che rappresenta il genotipo più frequente e più adatto, insieme ai suoi mutanti più strettamente correlati, la cui frequenza è determinata dalla loro fitness e dalla loro distanza di Hamming rispetto alla sequenza principale (fig. 8). Con l'aumentare del tasso di errore o di mutazione p, le quasispecie accumulano più mutanti, frnché la popolazione raggiunge un valore di soglia di errore ben definito, oltre il quale tutti i genotipi hanno un vita limitata e la popolazione inizia a migrare casualmente nello spazio delle sequenze. Semplici analisi matematiche di queste equazioni cinetiche differenziali portano a una semplice espressione per il valore di soglia (pmax).

Per una catena di lunghezza costante n, il tasso di errore, per nucleotide e per generazione, p, è limitato dal valore massimo

pmax = 1- σ-1/n.

Il parametro σ è la cosiddetta superiorità del genotipo principale. Nel caso più semplice, σ rappresenta il rapporto tra la costante di velocità per la replicazione del genotipo principale (km) e quella media di tutti i genotipi escluso quello principale:

formula

per definizione, σ > l poiché il genoma principale è il più adatto. Se ci sono diversi genotipi con fitness massima, si ha il caso dell'evoluzione neutrale. Allora, la superiorità diventa pari a l, e la stazionarietà è legata alla condizione di tasso di errore nullo (pmax = 0). A seconda del caso particolare, il valore di σ può variare da valori appena superiori a uno ad alcune decine. In accordo con l'equazione, il tasso di errore massimo, Pmax, cresce con la superiorità σ e con la lunghezza della catena n. La limitazione del contenuto di informazione che può essere mantenuto in una quasispecie in evoluzione, diventa evidente quando si considera il caso in cui la lunghezza della catena n è variabile e il tasso di errore p è costante. In questo caso, la lunghezza della catena è limitata dal valore

formula

Dal momento che il logaritmo della superiorità non è normalmente troppo diverso dall'unità, l'espressione semplificata per il limite di informazione è nmax ≈ p-1, cioè la lunghezza massima della catena, approssimativamente, è il reciproco del tasso di errore: tassi di errore di 10-³ forniscono a una quasispecie stabile una lunghezza massima di catena di circa n = 1000. Il concetto di quasispecie permette di predire un tasso ottimale di mutazione per determinate condizioni ambientali. Prima o poi, in ambienti costanti, l'ottimizzazione evolutiva frnisce e quindi la fitrless è correlata negativamente al tasso di errore. C'è tuttavia anche un limite inferiore per il tasso di errore, causato dal meccanismo di replicazione che, come ogni altro processo fisico, non può raggiungere un'accuratezza illimitata. Le variabili ambientali, d'altra parte, favoriscono alti tassi di mutazione perché alimentano grandi riserve genetiche. Condizioni altamente variabili richiedono la più larga distribuzione di mutazioni stabili che si forma alla soglia di errore (v. figura 7). A un tasso di errore costante, l'informazione che si è creata durante l'evoluzione darwiniana è quindi limitata dall' accuratezza del meccanismo di replicazione.

In laboratorio, l'evoluzione delle molecole può essere seguita facilmente quando molecole di RNA, adatte per la replicazione, sono portate in un ambiente opportuno (Spiegelman, 1971) contenente i nucleotidi per sintetizzare l'RNA e gli enzimi necessari alla sua replicazione. Studi sistematici sulla sintesi dell'RNA da parte di un enzima particolare, la replicasi Qβ, hanno rivelato i dettagli molecolari della cinetica della replicazione dell'RNA (Biebricher e Eigen, 1988). L'evoluzione in provetta, come possiamo concludere da questi e da molti altri studi, segue i principi darwiniani della variazione e della selezione delle varianti più adatte. Questo fatto è sfruttato negli esperimenti di evoluzione in laboratorio, il cui scopo è la produzione e l'ottimizzazione di molecole di RNA appositamente progettate per scopi specifici (Joyce, 1992; Ellington, 1994).

Il concetto di quasispecie molecolare ha dato inizio a una visione completamente nuova dell'evoluzione virale. Si è trovato che le popolazioni di virus, in particolare quelle con genoma a RNA, hanno una grande eterogeneità di sequenza e si replicano con tassi di mutazione molto vicini alla soglia di errore. Molti virus vivono sicuramente in condizioni ambientali molto variabili, in quanto gli ospiti cercano continuamente di migliorare i meccanismi di difesa contro i loro parassiti. Un esempio ben studiato è il sistema immunitario dei vertebrati superiori che rileva ed elimina gli antigeni di origine estranea quando sono presenti nell' organismo per un tempo sufficientemente lungo da attivare la risposta immunitaria. l virus sono obbligati a convivere con questo pericolo; per esempio, possono sfuggire al sistema immunitario mutando il più velocemente possibile, avvicinandosi così alla soglia di errore. Infatti, i dati reali ottenuti dalla virologia mostrano che la maggior parte dei virus a RNA opera in condizioni molto vicine alla soglia di errore.

figura 12

Le molecole di RNA e le proteine sono i prodotti principali del genoma. Dalla bio fisica molecolare sappiamo che le mutazioni punti formi possono avere tutta la possibile gamma di effetti: da cambiamenti drastici delle proprietà e delle funzioni dei biopolimeri, all'assenza completa di cambiamenti. Tradotto in valori di fitness, questo implica che nelle vicinanze di un genotipo tipico, cioè non ottimizzato, potremmo trovare genotipi con fitness maggiore o minore, ma anche genotipi che hanno essenzialmente la stessa fitness e, quindi, selettivamente neutrali. l profili di fitness sono altamente complessi e alquanto bizzarri con molti massimi locali ad altezze estremamente variabili. L' evoluzione darwiniana in questi difficili profili di fitness deve risolvere un problema stimolante: andando in salita si finirebbe per arrivare a qualche picco minore (v. oltre, figura 12) e l'ottimizzazione attraverso i percorsi evolutivi sarebbe destinata a terminare su bassi livelli di miglioramento. Lo studio della mappatura genotipo-fenotipo di molecole di RNA e di proteine rivela la ricetta della natura per evitare questo problema.

La mappatura genotipo-fenotipo e l'evoluzione neutrale

Le dinamiche evolutive viste in figura 4 richiedono uno studio delle relazioni tra genotipi e fenotipi. Infatti, nella decodificazione dell'informazione biologica, gli oggetti, e non le dinamiche dell'evoluzione, rappresentano la questione fondamentale. Questi oggetti, i fenotipi, abbracciano, in biologia, l'intero campo di complessità, in quanto comprendono molecole polinucleotidiche, viroidi, particelle virali, cellule batteri che, cioè procariotiche, cellule protiste, cioè eucariotiche, funghi, piante, animali, società animali e, infine, società umane. Nel corso dell'evoluzione, i fenotipi sono diventati sempre più complessi ed è aumentata l'informazione che deve essere decodificata per produrre un nuovo organismo. Il guadagno in informazione si riflette, in maniera molto grossolana, sulla lunghezza della catena dei genotipi: il DNA o l'RNA dei virus hanno catene lunghe poche migliaia di nucleotidi, il DNA batterico è normalmente lungo qualche milione di coppie di basi e, negli organismi multicellulari superiori, i genomi hanno una lunghezza di 10⁹ ÷10¹¹ bp (base pairs, coppie di basi). La complessità dei fenotipi è solitamente proibitiva per gli studi sistematici di mappatura genotipo-fenotipo tranne come si è accennato, al caso dell'evoluzione delle molecole di RNA in provetta, in cui i fenotipi sono le strutture delle molecole di RNA e la mappatura genotipo-fenotipo si riduce alle relazioni tra sequenze e strutture. La mappatura tra sequenza e struttura dei biopolimeri, in particolare delle proteine, è stata spesso definita 'la seconda metà del codice genetico' in quanto integra il codice genetico convenzionale (che mette in relazione nucleotidi e sequenze amminoacidiche) traducendo la sequenza in una struttura in grado di esprimere la funzione biochimica.

fig. 9
fig. 10

Predire la struttura di un biopolimero in base alla conoscenza della sequenza è, in sé, un problema molto difficile e ancora insoluto. Tuttavia, limitatamente a versioni semplificate della struttura di proteine o di RNA, alcuni tentativi di andare al di là dell'approccio una sequenza-una struttura, hanno avuto successo (Fontana et al., 1993; Li et al., 1996). L'utilizzo di fenotipi semplificati di RNA, le cosiddette strutture secondarie dovute alla formazione di appaiamenti intramolecolari di basi (AU, UA, GC, CG, GU, UG), permette di mappare sull'RNA le strutture con sequenze fortemente ridondanti. Molte sequenze formano la stessa struttura secondaria e danno origine ad alti livelli di neutralità nello spazio delle sequenze. Inoltre, queste sequenze neutrali, cioè sequenze che formano strutture secondarie identiche, sono distribuite in modo quasi casuale nello spazio delle sequenze. Ricerche sistematiche hanno rivelato tre principi di generale validità e rilevanza per il processo evolutivo: la segregazione di fenotipi in strutture comuni e rare; la copertura dello spazio della forma per mezzo di una piccola porzione dello spazio delle sequenze (fig. 9); l'esistenza di reti neutrali estese all'intero spazio delle sequenze (fig. 10). L'esistenza di strutture relativamente poco comuni (Schuster et al., 1994; Li et al., 1996) implica una riduzione notevole del numero di strutture rilevanti da un punto di vista evolutivo, dato che le strutture più rare si formano solo in presenza di poche sequenze e, quindi, non sono accessibili alle ricerche per 'prova ed errore'. Per trovare una data struttura comune bisogna solo analizzare un ambiente sferico attorno a una sequenza di riferimento scelta in modo arbitrario. Questa sfera è molto più piccola dell'intero spazio delle sequenze. In effetti, queste proprietà delle mappature sequenza-struttura dell'RNA stanno cambiando la visione convenzionale dell'ottimizzazione, in quanto rendono i processi di ricerca evolutiva molto più facili di quanto non si credesse prima; inoltre costituiscono la base per il successo dell'evoluzione in vitro applicata alle biotecnologie (Schuster, 1995).

Reti neutrali

fig. 11

Si è detto che sequenze che formano la stessa struttura sono chiamate neutrali. Questa definizione di sequenza neutrale è più restrittiva dell'originale definizione biologica della teoria dell' evoluzione neutrale di M. Kimura, secondo il quale strutture differenti possono portare alla stessa fitness e, quindi, essere neutrali. Le sequenze neutrali formano reti neutrali nello spazio delle sequenze che possono consistere di un singolo componente o di diversi componenti non collegati (v. figura 10). Le reti che corrispondono alle strutture comuni sono interconnesse e si estendono quasi all'intero spazio delle sequenze. La dimensione delle reti neutrali è caratterizzata da un parametro λ che rappresenta la frazione (in media) dei vicini neutrali nella rete; λ = 0 implica assenza di sequenze neutrali e λ = l significa completa neutralità, nel senso che tutti i vicini sono neutrali. Le cinetiche chimiche di replicazione e di mutazione, così come applicate nelle quasispecie, sono inutilizzabili per trattare genotipi neutrali. In questo caso il parametro di superiorità σ si avvicina a 1 e la soglia di errore Pmax diviene pari a 0. ln altre parole, la presenza di genotipi con la stessa fitness della sequenza principale è incompatibile con l'esistenza di quasispecie stabili. Una generalizzazione semplice del concetto di quasi specie richiederebbe la stabilità dei fenotipi, piuttosto che quella dei genotipi. Esiste, dunque, un fenomeno di soglia di errore per le strutture, nel senso che una popolazione di sequenze variabili (neutrali) formerebbe una distribuzione stazionaria di fenotipi con tassi di errore sufficientemente piccoli? Le cinetiche chimiche di replicazione e di mutazione possono senza dubbio essere modificate in modo da rendere conto anche della neutralità. Tutti i genotipi che formano lo stesso fenotipo sono raggruppati insieme in una singola specie chimica e l'analisi matematica riguarda ora la competizione tra fenotipi. Poiché le alterazioni neutrali di genotipi non vengono prese in considerazione, il processo di ottimizzazione assume le caratteristiche di una successione di fenotipi. In modo simile alla soglia di errore dei genotipi che si ottiene nella teoria delle quasispecie molecolari, si può derivare una soglia di errore fenotipico (fig. 11). Essa definisce un limite pmax al tasso di errore p che è corrispondente alla conservazione della sequenza principale in funzione della superiorità σ e del parametro di neutralità λ:

formula

La superiorità σ si riferisce qui al fenotipo principale che compete con i fenotipi meno adatti, ed è definita in completa analogia con la superiorità del genotipo principale usata in precedenza. Una semplice analisi di questa equazione mostra che la neutralità selettiva permette di tollerare più errori. Il tasso di mutazione alla soglia di errore aumenta con l'aumentare dei valori di A e si avvicina a l quando A tende a 0'-1. Questo significa che il fenotipo non sarà mai perso, indipendentemente dal tasso di errore, quando la frazione dei fenotipi neutrali vicini supera l'inverso della superiorità del fenotipo principale. Come prima, possiamo calcolare la soglia di errore in termini della massima lunghezza della catena, a tasso di mutazione costante:

formula

Da ciò si deduce che una catena di lunghezza illimitata, con il mantenimento del fenotipo principale, è possibile se il parametro di neutralità diventa grande quanto l'inverso della superiorità (cioè quando A tende a 0'-1). Un semplice esercizio mostra che la soglia di errore fenotipico converge verso quello genotipico in assenza di neutralità (cioè quando A tende a 0).

Ottimizzazione e reti neutrali

L'esistenza di reti neutrali ha un'influenza diretta sull'ottimizzazione evolutiva: ogni volta che una popolazione ha completato un percorso evolutivo, concluso si a livello di un dato genotipo che non presenta nelle sue vicinanze varianti più adatte, essa, in maniera casuale, comincia ad andare alla deriva nella rete neutrale corrispondente; ciò non può avvenire in assenza di neutralità selettiva (fig. 12). Nel caso di un fenotipo comune, la rete neutrale si estende a tutto lo spazio delle sequenze. Questo implica che la popolazione che sta migrando può raggiungere anche genotipi lontani e, in un tempo ragionevolmente lungo, visiterà ogni (maggiore) regione dello spazio delle sequenze. Non appena la popolazione arriva a un punto in cui sono presenti genotipi più adatti, inizierà un nuovo percorso adattativo. Quindi, in un tempo relativamente breve, la popolazione 'salta' dalla rete neutrale corrente a una che ha una fitness maggiore. L'ottimizzazione segue un meccanismo combinato: i percorsi adattativi che portano a picchi minori sono aiutati da derive casuali lungo le reti, permettendo di sfuggire alle trappole evolutive e di raggiungere aree che hanno un valore alto di fimess. In questa maniera, alla fine, si può ottenere un optimum di fitness globale (v. figura 12). Apparentemente, l'ottimizzazione evolutiva si verifica in modo discontinuo, su due scale temporali: brevi periodi di fasi adattative, in cui la fitness aumenta, sono interrotti da periodi generalmente lunghi quasi stazionari in cui la fitness rimane costante e in cui cambiano solo i genotipi. In presenza della neutralità selettiva, un processo di ottimizzazione evolutiva non sarà quasi continuo; questo comportamento è stato osservato per l'appunto nell' evoluzione molecolare, a partire dai primi esperimenti di S. Spiegelman e collaboratori (1971), fino all'attuale progettazione di molecole di RNA con caratteristiche specifiche.

La simulazione al calcolatore (Fontana e Schuster, 1987) permette di studiare appieno l'evoluzione dell'RNA, come mostrato in figura 4. L'algoritmo simula la replicazione e la mutazione in popolazioni di poche migliaia di molecole di RNA, nelle condizioni di un reattore a flusso. Il flusso attraverso il reattore rimpiazza il materiale consumato e compensa la produzione di molecole di RNA in eccesso mediante una diluizione casuale. La mappatura genotipofenotipo è considerata esplicitamente a livello di struttura secondaria. Due studi recenti (Huyen et al., 1996; Fontana e Schuster, 1997) corroborano fortemente la situazione schematizzata in figura Il. La migrazione di popolazioni sulle reti neutrali segue un meccanismo simile alla diffusione, con una costante di diffusione proporzionale al tasso di errore p. Questo si accorda bene con il postulato di M. Kimura nella sua teoria dell'evoluzione (1983). L'ottimizzazione verso una struttura bersaglio avviene a stadi. I periodi a fitness costante sono identificati come percorsi casuali delle popolazioni sulle reti neutrali. I periodi adattativi in cui si verifica un rapido aumento della fitness iniziano con cambiamenti nei fenotipi che impongo limitazioni severe sulle sequenze. I genotipi adatti sono rari e si trovano solo dopo lunghe ricerche sulla rete neutrale. Le simulazioni al calcolatore permettono di tracciare con successo i genotipi, a partire dall'origine, mediante la ricostruzione delle genealogie. L'evoluzione, in questi esempi apparentemente semplici, può essere completamente analizzata e interpretata per mezzo della fisica e della chimica convenzionali, integrate dall'analisi combinatoria e statistica dei biopolimeri. Abbiamo quindi a che fare con un caso di generazione evolutiva di informazione mediante un approccio per 'prova ed errore', che si può ridurre a un gioco con regole abbastanza semplici. È molto interessante notare che le soluzioni ottenute in questo modo sono spesso molto complesse e molto difficili da prevedere.

La neutralità selettiva fornisce un potente complemento al semplice meccanismo darwiniano e spiega come le popolazioni raggiungono i massimi picchi del profilo di fitness. Tuttavia l'evoluzione darwiniana, con o senza la neutralità selettiva, rappresenta una tecnica di ottimizzazione degli oggetti all'interno della stessa classe e non può spiegare l'ordine gerarchico osservato in natura che sembra essersi originato durante le maggiori transizioni evolutive.

La progettazione modulare e l'innovazione in biologia

Un ingegnere è sempre tentato di progettare nuove versioni di macchinari a partire da zero, in quanto permettono di evitare gli errori commessi in precedenza. Se una macchina diventa sempre più complicata, partire da zero diventa più costoso e anche gli ingegneri non possono sfuggire alla necessità di mantenere le vecchie strutture per costruirci sopra le nuove versioni. Lo sviluppo di un sistema operativo per calcolatore può servire da esempio: consideriamo il ben noto DOS (Disk Operating System, sistema operante mediante disco), che rappresenta un caso estremo di progettazione mediante aggiunte successive. Attualmente, il controllo dei dischi rappresenta uno dei suoi compiti minori. Il biologo francese François Jacob (1982) ha definito bricolage il modo di costruire sopra l'ultima versione esistente. La natura rappresenta il più efficiente tra i bricolage a noi noti ma, inevitabilmente, di quando in quando fa un errore. Il nervo ottico dei vertebrati esce dalla parte sbagliata della retina, un errore che non era stato fatto nel progetto degli occhi degli insetti e dei cefalopodi, che originano dallo stesso primitivo sistema fotosensoriale genetico (Nilsson, 1996) dei vertebrati. Questo ingegnoso modo di operare rappresenta veramente un principio di costruzione superiore all'approccio puramente razionale, se si deve progettare qualcosa di sconosciuto. L'evoluzione biologica è, dopotutto, un'escursione in un futuro sconosciuto: se necessario, è richiesta flessibilità e prontezza nel cambiare strategia. Il bricolage è flessibile e pronto a cambiare strategie se necessario. In natura gli esempi sono infiniti; basti citare la storia filo genetica della progettazione del corpo umano, che è passata dai pesci agli anfibi sino ai mammiferi quadrupedi e, infine, alla costruzione del bipede umano.

Un principio di progettazione che si adatta bene a questo modo di operare usa costruzioni modulari: si possono assemblare un'enorme varietà di cose diverse a partire da pochi moduli, basta soltanto usare il giusto insieme di pezzi (se qualcuno ha qualche dubbio su questo punto dovrebbe fare una pausa e giocare con il LEGO). Un principio di costruzione modulare dei biopolimeri è stato suggerito da W. Gilbert (Doolittle, 1978; Gilbert, 1978) nel suo approccio alla progettazione delle proteine mediante il rimescolamento degli esoni. È stato ipotizzato che un numero limitato di moduli, tra dieci e qualche centinaio di migliaia, siano in grado di rappresentare le unità elementari di ripiegamento della catena polipeptidica in strutture stabili. Si ritiene che le sequenze che codificano queste unità corrispondano agli esoni primordiali, e in qualche caso anche attuali, che sono stati ottimizzati inizialmente per dar luogo a strutture stabili e a semplici catalizzatori. Queste unità strutturali elementari sono state combinate mediante rimescolamento degli esoni per dar luogo alle proteine con le attuali forme e dimensioni. In verità, la costruzione modulare si ritrova quasi ovunque in natura. Nel caso delle unità gerarchiche superiori è facile, se non banale, riconoscere i moduli: le cellule nelle colonie e gli organismi multicellulari nelle società animali e umane. La flessibilità permessa dalla costruzione modulare e dalla strategia del costruire sopra l'ultima versione, sembra essere il modo escogitato dalla natura per convivere con l'imprevedibile.

Come fanno le innovazioni radicali a dare origine al principio di costruzione modulare degli oggetti biologici? Il meccanismo dell'evoluzione è basato sulle cinetiche chimiche di replicazione e di mutazione (Eigen, 1971; Eigen e Schuster, 1979). Scenari differenti sono stati derivati applicando diversi tipi di replicazione; quella indipendente ha portato al comportamento daIwiniano basato sulla competizione e ha avuto come risultato il concetto delle quasispecie molecolari. Se le molecole che si replicano diventano mutualmente dipendenti l'una dall'altra, le dinamiche di popolazioni cambiano e gli individui all'interno di popolazioni, non competono più. Nel caso più semplice dell' accoppiamento ciclico catalitico, essi formano un iperciclo che rappresenta il modo più facile per sopprimere la competizione nel senso di simbiosi molecolare. Lo scenario dell'iperciclo è infatti un buon candidato per il meccanismo che porta all'innovazione radicale (Maynard-Smith e Szathmary, 1995). È stato elaborato un modello per l'innovazione radicale nell' evoluzione, motivato dalle capacità integranti degli ipercicli (Eigen e Schuster, 1979; 1982); esso è basato sulle equazioni cinetiche di replicazione e può essere caratterizzato bene come meccanismo simbiotico. La transizione a un livello gerarchico superiore avviene m cmque passaggI: l) i replicatori indipendenti (oggetti in grado di replicarsi) competono per le risorse, mostrando un tipo di evoluzione daIwiniana, e ottimizzano la loro propria fitness individuale; 2) la dipendenza reciproca del successo riproduttivo riduce e, alla fine, elimina la competizione tra i diversi replicatori che potrebbero essere, per esempio, membri della stessa quasi specie; 3) l'accoppiamento dinamico della riproduzione all'interno di un gruppo di replicatori fa sì che essi crescano insieme e formino un'unità funzionale che integra le diverse funzioni di fenotipi differenti; 4) l'integrazione spaziale, o altre forme di integrazione, accomunano i replicatori e creano una nuova unità di selezione nel successivo livello gerarchico; 5) l'integrazione crea una nuova classe di individui che evolve come unità autonoma mediante il meccanismo di mutazione e selezione darwiniana. Alla fine i genotipi dei replicatori, inizialmente indipendenti, si uniscono a formare un genoma unico e più grande.

fig. 13

Un semplice modello per la creazione di unità gerarchiche superiori è rappresentato in figura (fig. 13). Questo modello è in grado di creare sistemi complessi di natura gerarchica. Una caratteristica essenziale dei sistemi prodotti dal modello, come anche dei sistemi naturali, è il grado di autonomia abbastanza alto delle subunità al livello più basso. Nei termini del nostro modello iniziale della dinamica evolutiva, la complessità nella mappatura genotipo-fenotipo cresce quando il nuovo genotipo è più lungo e il nuovo fenotipo ha molte più funzioni rispetto ai suoi precursori più piccoli. Il migliore esempio del meccanismo simbiotico di integrazione è la cellula eucariotica. La maggior parte dei biologi oggi ritiene che essa sia composta da unità cellulari precedentemente indipendenti: il pre-eucariote, il pre-mitocondrio e, nel caso delle cellule delle piante, il pre-cloroplasto, un parente stretto dei cianobatteri attuali. Gli organelli cellulari sembrano originarsi nella fase tardiva dello stadio 5. La maggior parte dei precedenti geni mitocondriali, per esempio, è stata trasferita al nucleo cellulare, mentre pochi geni rimangono nell'organello, fornendo la base per una parziale autonomia del mitocondrio.

Finché le nuove e più grandi unità non sono state individualizzate, con l'introduzione di barriere, fisiche o di comunicazione, che permettono di distinguere i membri e i non membri dell'organizzazione, esse sono soggette allo sfruttamento da parte dei parassiti (v. figura 13), cioè di quegli individui provenienti solitamente, ma non necessariamente, dal livello gerarchico più basso, che si avvantaggiano delle nuove funzioni della comunità, senza fornire il loro contributo alle risorse comuni. Tali barriere sono ben note in natura: le membrane e le pareti cellulari, la pelle degli animali, la corteccia degli alberi, come anche segnali e linguaggi che sono capiti solo dai membri di una società animale. La domanda è come si può costringere i competitori a evitare di sfruttare in modo parassitico le risorse comuni, evitando così la 'the tragedy of commons' (la tragedia dei beni comuni) (Frank, 1995). Chi è destinato a pagare i costi del corretto comportamento? Una risposta potrebbe essere che l'integrazione compare principalmente quando le risorse sono abbondanti ed economiche. Quindi il costo extra, dovuto alla non competizione, è piccolo ed è compensato abbondantemente anche dai piccoli benefici che derivano dall' essere cooperativi.

Dato per scontato che la progettazione modulare abbia determinato progressi nell'evoluzione fin dai primissimi giorni, possiamo visualizzare un meccanismo abbastanza semplice per costruire cose più complesse: la duplicazione dei geni e dei genomi. Un errore di replicazione noto come inserzione fa sì che un pezzo di DNA sia copiato due volte. Il problema del costo di questo evento diventa più evidente quando consideriamo questa duplicazione genica come un meccanismo per creare le basi dell'innovazione nel processo evolutivo (Maynard Smith e Szathmary, 1995). Parti del genoma sono duplicate e questi geni sono liberi di sviluppare nuove funzioni, in quanto non sono richiesti per la normale vita cellulare. Questo meccanismo è una specie di scorciatoia del meccanismo simbiotico, in quanto evita l'escursione nella dinamica di popolazioni nei passaggi 2 e 3. Qui la nuova variante con un genoma più grande deve competere con la variante più piccola ma ottimizzata in precedenza. l benefici iniziali che derivano dallo sviluppare nuove funzioni saranno certamente molto piccoli. Le probabilità di sopravvivenza delle nuove varianti sono tuttavia buone quando le risorse sono poco costose, dal momento che il costo di mantenimento di un genoma più grande sarà trascurabile. Esattamente lo stesso postulato avvalora il terzo meccanismo per aumentare la complessità, che consiste nello sviluppo di una linea somatica che porta al differenziamento cellulare e agli organismi multicellulari. La riduzione della fitness causata dalla generazione di cellule che non contribuiscono alla riproduzione sarà piccola quando i costi per le ulteriori divisioni cellulari sono bassi; in altre parole quando le risorse sono a prezzo basso.

Un'innovazione radicale che porti a un aumento dell'informazione e della complessità nell'evoluzione richiede quindi che siano soddisfatte due condizioni. Prima di tutto, la struttura interna dell' organismo deve avere una capacità intrinseca di creare genotipi e quindi anche fenotipi più complessi: le molecole o le cellule devono essere in grado di formare interazioni catalitiche o simbiotiche, cioè deve esistere un meccanismo simbiotico; i genomi mediante la duplicazione diventano più lunghi, e le cellule devono avere un sistema di comunicazione che permetta un'interazione reciproca, cioè deve esistere un meccanismo epigenetico. La biologia molecolare ci dice che tutti questi prerequisiti erano già soddisfatti molto prima che si verificassero i salti evolutivi più grandi. La seconda condizione è l'abbondanza di risorse: in tempi in cui le risorse sono scarse, conviene un'ottimizzazione più meticolosa. Le varianti che risparmiano qualcosa in più sul budget giornaliero hanno più risorse da utilizzare nella riproduzione e quindi avranno una progenie maggiore. Nei periodi di austerità non si verificano grandi salti in complessità. Le maggiori transizioni evolutive avvengono solo quando l'energia o altre risorse importanti per la crescita sono abbastanza economiche. Quindi, i costi ulteriori per sviluppare qualcosa di nuovo sono bassi e le varianti pionieristiche hanno la probabilità di sviluppare la loro fitness migliorando le loro funzioni sotto una bassa pressione selettiva.

Gli attuali punti di vista sull'informazione biologica e sulle sue prospettive

L'informazione biologica risiede nei genotipi in forma codificata e diventa attiva dopo la sua decodificazione, durante lo sviluppo del fenotipo corrispondente. Per capire l' evoluzione biologica è fondamentale la separazione di programma e funzione, equivalenti rispettivamente a genotipo e fenotipo, in quanto, come già affermato, tutte le variazioni genetiche avvengono sui genotipi, mentre la valutazione mediante la selezione avviene sui fenotipi. La decodificazione dei genotipi si verifica a diversi livelli e potremmo ipotizzare l'esistenza di codici per ciascun livello. Il primo passaggio è la sintesi dei biopolimeri, in particolare le proteine, a partire da DNA o RNA. Il codice in questo primo livello è il cosiddetto codice genetico (v. figura 3b). In questo caso la relazione tra messaggio e prodotto della traduzione è molto ovvia: le 'parole' di tre lettere, cioè composte da tre nucleotidi, contengono un'informazione definita unicamente solo per essere eseguita in maniera sequenziale a livello dei ribosomi, mediante l'incorporazione di un particolare amminoacido nella catena polipeptidica nascente o mediante un segnale di stop. Due altri processi coinvolti nella creazione del fenotipo, cioè la formazione di strutture tridimensionali del biopolimero a partire dalle sequenze e lo sviluppo di un organismo multicellulare dall'uovo fecondato, sono molto meno conosciuti e si potrebbe discutere se essi coinvolgano, o meno, codici decifrabili. Queste due aree, attualmente, sono oggetto di studi intensi e una risposta alla domanda se sia utile l'analogia con l'elaborazione del messaggio che avviene nella tecnologia informatica potrebbe essere attesa in un futuro vicino. Lo scenario descritto sopra, comunque, non è completo; bisognerebbe sempre essere consapevoli del fatto che la scienza, e in particolare la biologia, deve far uso di riduzioni e di idealizzazioni per essere in grado di costruire un'immagine comprensibile della natura. La realtà è molto più nebulosa rispetto alle immagini semplici fornite dalla nostra descrizione. Per dare un esempio, la genetica contribuisce certamente alla maggior parte delle informazioni per lo sviluppo di un fenotipo, ma esiste anche l'informazione epigenetica, che deriva da diverse fonti, e l'influenza diretta dell'ambiente, nel senso che lo stesso programma genetico produce diversi fenotipi in ambienti differenti. Deve essere sottolineato il fatto che l'informazione codificata in biologia, come nella scienza informatica, richiede un ambiente molto speciale, per esempio una cellula, un uovo, un utero, per la realizzazione del fenotipo. L'informazione immagazzinata nei genotipi ha diverse qualità anche nel caso più semplice della sintesi proteica. Il filamento di DNA che codifica la sequenza amminoacidica nella proteina corrispondente assume una struttura tridimensionale dopo la trascrizione nell'RNA messaggero. Questa struttura determina, per esempio, la vita media dell'RNA nella cellula e, quindi, la quantità di proteina sintetizzata. Potrebbero essere aggiunte qui ulteriori sottigliezze della biologia in grado di determinare una serie quasi infinita di piccoli dettagli che integrano il codice genetico nella produzione ribosomiale delle proteine. Allo stesso tempo, il meccanismo di decodificazione è consolidato e il codice è universale. Nel caso dell'evoluzione daIwiniana, la generazione dell'informazione può essere seguita fino a livello molecolare, a condizione che il sistema sia ridotto all'evoluzione in vitro dell'RNA. L'adattamento all'ambiente mediante l'apprendimento basato sul meccanismo di 'prova ed errore' costituisce la fonte di informazione. La neutralità selettiva dei genotipi porta a un' evoluzione neutrale che si manifesta come spostamento casuale delle popolazioni nello spazio dei genotipi. In contrasto con quanto si pensava in precedenza, l'evoluzione neutrale, nelle relazioni sequenza-struttura dei biopolimeri, non è un irrilevante prodotto di scarto della ridondanza; essa ha invece un impatto enorme sui processi evolutivi in quanto estende la convenzionale visione darwiniana di 'percorso in salita nello scenario di fitness' , aggiungendo un meccanismo di 'ponte sulle valli'. Questo meccanismo darwiniano esteso permette di ottimizzare le soluzioni ai problemi all'interno di una data classe. La complessità e il contenuto di informazioni biologiche negli organismi aumenta molte volte e spontaneamente, durante le maggiori transizioni evolutive che, comunemente, introducono nuovi livelli gerarchici negli organismi. Queste importanti transizioni costituiscono una grande sfida per i biologi in quanto non possono essere spiegate solo dalla variazione e dalla selezione. Per creare nuovi livelli gerarchici, i competitori devono unirsi in unità cooperative. Sono stati proposti modelli che permettono di integrare i competitori, ma non sono stati progettati e studiati sistemi sperimentali sufficientemente semplici che mostrino queste caratteristiche. Le maggiori transizioni evolutive, tra cui l'origine della traduzione e del nostro particolare codice genetico, quella della cellula e dell'organizzazione delle cellule eucariotiche, la transizione da colonie di cellule a organismi multicellulari differenziati e quella da animali isolati alle società e all'uomo, attendono di essere esplorate ulteriormente e spiegate con maggiore dettaglio. La ricerca delle soluzioni a questi grandi problemi aperti della vita fornirà entusiasmanti argomenti di indagine per le generazioni future di biologi.

Bibliografia citata

BENNETT, C.H. (1988) Dissipation, Information, Computational Complexity, and the Definition of Organization. In Emerging Syntheses in Sciences: proceedings of the founding workshops of the Santa Fe Institute, a c. di Pines D., Redwood City, Addison-Wesley, pp. 215-233.

BIEBRICHER, C.K., EIGEN, M. (1988) Kinetics of Replication by Qβ Replicase. In RNA Genetics vol. 1: RNA Directed Virus Replication., a c. di Domingo E., Holland ll, Ahlquist P., Boca Raton, CRC Press, pp. 1-21.

CHAITIN, G.J. (1969) Towards a Mathematical Definition of Life. In The Maximum Entropy Formalism, a c. di Levine R.D., Tribus M., Cambridge (USA), MIT Press. pp. 477-498.

CHAITIN, G.J. (1987) Algorithmic Information Theory. Cambridge, Cambridge University Press.

DOOLITTLE, W.F. (1978) Nature, 272, 581-582.

EIGEN, M. (1971) Selforganization of matter and the evolution of biological macromolecules. Naturwissenschafien, 58, 465-523.

EIGEN, M., MCCASKILL, J., SCHUSTER, P. (1988) J. Phys. Chem., 92, 6881-6891.

EIGEN, M., SCHUSTER, P. (1979) The Hypercycle. A Principle of Natural Self-Organization. Berlino, Springer- Verlag.

EIGEN, M., SCHUSTER, P. (1982) Stages of emerging life. J. Mol. Evol., 19, 47-61.

ELLINGTON, A.D. (1994) RNA selection. Aptamers achieve the desired recognition. Curr. Biol., 4, 427-429.

FONTANA, W., Buss, L. (1994a) What would be conserved if 'the tape were played twice?' Proc.NatI.Acad. Sci. USA, 91, 757-761.

FONTANA, W., Buss, L. (1994b) Bull. Math. Biol., 56, 1-64.

FONTANA, W., KONINGS, D.A.M., STADLER, P.F., SCHUSTER, P. (1993) Statistics of RNA melting kinetics. Biopolymers, 33, 1389-1404.

FONTANA, W., SCHUSTER, P. (1987) A computer model of evolutionary optimization. Biophys. Chem., 26, 123-147.

FONTANA, W., SCHUSTER, P. (1997) Shaping Space. The Possible and the Attainable in RNA Genotype-Phenotype Mapping (in corso di stampa).

FRANK, S.A. (1995) MutuaI policing and repression of competition in the evolution of cooperative groups. Nature, 377, 520-522.

GAVRILETS, S. (1997) Tree, 12, 307-312.

GILBERT, W. (1978) Why genes in pieces? Nature, 271, 501.

HUYNEN, M.A., STADLER, P.F., FONTANA, W. (1996) Smoothness within ruggedness: the role of neutrality in adaptation. Proc. NatI. Acad. Sci. USA, 93, 397-401.

JACOB, F. (1982) The Possible and the Actual. Seattle, University of Washington Press.

JOYCE, G.F. (1992) Directed molecular evolution. Sci. Am., 267 (6), 90-97.

JUDSON, H.F. (1979) The Eighth Day of Creation. Makers of the Revolution in Biology. Londra, Jonathan Cape.

KIMURA, M. (1983) The Neutral Theory of Molecular Evolution. Cambridge-New York.

KOLMOGOROV, A.N. (1968) Int. J. Comp. Math., 2, 157-168.

LI, H., HELLING, R., TANG, C., WINGREEN, N. (1996) Emergence of preferred structures in a simple model of protein folding. Science, 273, 666-669.

MAYNARD SMITH, J., SZATHMARY, E. (1995) The major transitions in evolution. Oxford, W.H. Freeman.

NEUMANN, J. von (1966) Theory of Self-Reproducing Automata, a c. di Burks A.W., Urbana, University of Illinois Press.

NILSSON, D.E. (1996) Eye ancestry; old genes for new eyes. Curr. Biol., 6, 39-42.

RUSE, M. (1979) The Darwinian Revolution: science red in tooth and claw. Chicago, The University of Chicago Press.

SCHUSTER, P. (1995) How to search for RNA structures. Theoretical concepts in evolutionary biotechnology. J. Biotechnol., 41, 239-257.

SCHUSTER, P. (1996) Complexity, 2, 22-30.

SCHUSTER, P. (1997) Biophys. Chemistry, 66, 75-110.

SCHUSTER, P., FONTANA, W., STADLER, P.F., HOFACKER, I.L. (1994) From sequences to shapes and back: a case study in RNA secondary structures. Proc. Roy. Soc. London B Biol. Sci., 255, 279-284.

SHANNON, C.E. (1993) Claude Elwood Shannon: Collected Papers, a c. di Sloane N.J.A., Wyner A.D., New York, IEEE Press.

SHANNON, C.E., WEAVER, W. (1949) The Mathematical Theory of Communication. Urbana, University of Illinois Press.

SPIEGELMAN, S. (1971) An approach to the experimental analysis of precellular evolution. Q. Rev. Biophys., 4, 213-253.

WRIGHT, S. (1932) The Role of Mutation, Imbreeding, Crossbreeding and Selection in Evolution. In Proceedings of the Sixth International Congress on Genetics, a c. di Jones D.F., voI. 1, pp. 356-366.

Bibliografia generale

BRILLOUlN, L. Science and Information Theory. 2a ed. New York, Academic Press, 1962.

BUSS, L.W. The Evolution of Individuality. Princeton, Princeton University Press, 1987.

DAWKINS, R. The Blind Watchmaker. Essex, Longman Scientific & Technical, 1986.

EIGEN, M., WINKLER, R. Laws of the Game. How the Principles of Nature Govern Chance. New York, Alfred A. Knopf, 1981.

EWENS, J.E. Mathematical Population Genetics. Berlino, Springer, 1979.

HAMMING, R.W. Coding and Information Theory. 2a ed. Englewood Cliffs, Prentice-Hall, 1986.

JACOB, F. The Logic of Life: a history of heredity. New York, Pantheon Books, 1982.

JUDSON, H.F. The Eighth Day of Creation. Makers of the Revolution in Biology. Londra, Jonathan Cape, 1979.

KAUFFMAN, S.A. Origins of Order. Self-Organization and Selection in Evolution. Oxford, Oxford University Press, 1993.

KUPPERS, B.O. Der Ursprung Biologischer Information: zur Naturphilosophie der Lebensentstehung. Monaco, Piper, 1986.

WATSON, J.D., HOPKINS, N.H., ROBERTS, J.W., STEITZ, J.A., WEINER, A.M. Molecular Biology of the Gene. voI. I e voI. II, 4a ed. Menlo Park, Benjamin/Cummings, 1987.

WRIGHT, S. Evolution and the Genetics of Populations. A treatise. Chicago, The University of Chicago Press, 1968-1978.

CATEGORIE
TAG

Teoria dell'ottimizzazione

Genetica delle popolazioni

Riconoscimento molecolare

Scienza dell'informazione

Ricombinazione genetica