Le prime base di dati biologici si hanno a partire dal 1968 con il lavoro di Margaret Dayhoff 'Atlas of protein sequence and structure', questo fu il primo tentativo di conservare le informazioni riguardanti le sequenze amminoacidiche, ne raccolte 65.
In seguito, fu fondata Swiss-Prot, poi riunita insieme ad TrEMBL nell'UniProt, nel 1971 fu fondato il Protein Data Bank (PDB), che, all'epoca, conteneva appena 7 strutture proteiche. Da allora si è reso protagonista di una crescita esponenziale nel numero di strutture. In seguito, negli anni 80' fu fondata l'EMBL (European Molecular Biology Laboratory), il primo database di sequenze nucleotidiche e nel 1982 GenBank, contenente sequenze nucleotidiche e loro traduzioni amminoacidiche.
Vediamo i database in dettaglio, anche se, in verità, non è possibile scrivere manuali operativi su questi database, poiché vengono continuamente potenziati, migliorati e quindi cambiati anche nei vari tools di lavoro.
EMBL fornisce un insieme di sequenze nucleotidiche ed annotazioni accessibili liberamente. Dati di sequenze nucleotidiche sono generalmente presentate nel database perché sono stati presentati o pubblicati, salvo alcune convenzioni che sono state stabilito per il database nel suo complesso. Le sequenze sono sempre elencati nella 5 'a 3', indipendentemente dall'ordine pubblicato. Basi sono numerate sequenzialmente a partire dal 1 al 5 'della sequenza.
Le sequenze sono presentati nel database in una forma corrispondente alla stato biologico delle informazioni in vivo. Pertanto, sequenze di cDNA sono memorizzati nel database come sequenze di RNA, anche se di solito appaiono nella letteratura come DNA. Per i dati genomici, il filamento codificante è memorizzato. dati contenenti sequenze codificanti su entrambi i filamenti vengono memorizzate in base alla convenzioni prevalenti in letteratura. I dati memorizzati generalmente corrispondono a sequenze di tipo selvatico prima mutazione o la manipolazione genetica.
Sequenze di tRNA sono memorizzati come sequenze di RNA non modificati (equivalente alla trascrizione maturo prima di qualsiasi modifica di base si verifica). Questa forma (colinear con la sequenza genomica) è stata adottata per semplificare sia memorizzazione e l'analisi delle sequenze. Così, una base modificata appare la sequenza come base corrispondente non modificato. Tuttavia, ogni base modifica è riportata nella tabella funzione, in modo che il maturo sequenza di tRNA può essere ripristinata automaticamente da un programma per computer semplice se questo è desiderabile. Il codice di due lettere utilizzata da Sprinzl e Gauss ha stato adottato per abbreviazione di basi modificate nella tabella funzione.
Per conoscere le specifiche di ogni voce, si invita alla lettura del manuale d'uso, messo a disposizione dall'EMBL.
Le sequenze sono presentati nel database in una forma corrispondente alla stato biologico delle informazioni in vivo. Pertanto, sequenze di cDNA sono memorizzati nel database come sequenze di RNA, anche se di solito appaiono nella letteratura come DNA. Per i dati genomici, il filamento codificante è memorizzato. dati contenenti sequenze codificanti su entrambi i filamenti vengono memorizzate in base alla convenzioni prevalenti in letteratura. I dati memorizzati generalmente corrispondono a sequenze di tipo selvatico prima mutazione o la manipolazione genetica.
Sequenze di tRNA sono memorizzati come sequenze di RNA non modificati (equivalente alla trascrizione maturo prima di qualsiasi modifica di base si verifica). Questa forma (colinear con la sequenza genomica) è stata adottata per semplificare sia memorizzazione e l'analisi delle sequenze. Così, una base modificata appare la sequenza come base corrispondente non modificato. Tuttavia, ogni base modifica è riportata nella tabella funzione, in modo che il maturo sequenza di tRNA può essere ripristinata automaticamente da un programma per computer semplice se questo è desiderabile. Il codice di due lettere utilizzata da Sprinzl e Gauss ha stato adottato per abbreviazione di basi modificate nella tabella funzione.
Per conoscere le specifiche di ogni voce, si invita alla lettura del manuale d'uso, messo a disposizione dall'EMBL.
Ora fa parte della International Nucleotide Sequence Database Collaboration, insieme con DNA DataBank of Japan e European Molecular Biology Laboratory. I tre istituti si scambiano quotidianamente i dati disponibili, che vengono inviati direttamente dai gruppi di ricerca. I dati, dopo gli appositi controlli, vengono pubblicati e sono liberamente accessibili tramite le diverse interfacce informatiche delle tre banche dati. L’annotazione di ogni sequenza è standardizzata e comprende un numero di indicizzazione, la sequenza completa di nucleotidi, l’organismo di appartenenza, i nomi dei ricercatori coinvolti nel sequenziamento, e tutte le informazioni necessarie per la localizzazione della sequenza all’interno del genoma. Nel giugno 2008, il database comprendeva oltre 92 miliardi di basi provenienti da più di 88 milioni di sequenze.
Nessun commento:
Posta un commento