GenBank

GenBank
Charakter stránky	sequence database a data library
Majitel	National Center for Biotechnology Information
URL	www.ncbi.nlm.nih.gov/genbank/
	Některá data mohou pocházet z datové položky.

GenBank je veřejně přístupná anotovaná sekvenční nukleotidová databáze (www.ncbi.nlm.nih.gov). V současné době obsahuje nukleotidové sekvence více než 260 000 popsaných druhů organismů. GenBank je spravována National Center for Biotechnology Information (NCBI) spadajícím pod National Library of Medicine (NLM) umístěném v kampusu National Institutes of Health (NIH) v Bethesdě v USA. GenBank je součástí konsorcia International Nucleotide Sequence Database Collaboration (INSDC), mezi něž patří také DNA DataBank of Japan (DDBJ) a databáze European Molecular Biology Laboratory (EMBL). Tyto tři největší světové primární databáze (tzv. databáze Velké trojky) každý den navzájem sdílejí data a zároveň se tak zálohují. Do GenBanku přispívají jednotlivé individuální laboratoře i velká genomová sekvenační centra.^[1]^[2]

Přístup

Přístup a vyhledávaní na GenBank je zajištěno přes NCBI Etrez, který zároveň integruje vyhledávání v hlavních DNA a proteinových strukturních a sekvenčních databázích a v hlavní databázi odborných biomedicínsky zaměřených časopisů – PubMed. Kromě přístupu přes webové rozhraní (http://www.ncbi.nlm.nih.gov/genbank/) lze také prostřednictvím FTP celou databázi k danému datu bezplatně nainstalovat na konkrétní počítač. V tomto případě je však nutno ji pravidelně aktualizovat – NCBI uvolňuje novou verzi každé 2 měsíce.^[3]

Nahrání záznamu

K nahrání dat do databáze slouží specializované programy BankIt a Sequin, jejichž prostřednictvím nahrávají vědečtí pracovníci svá originální sekvenační data. Většina impaktovaných časopisů v současné době už podmiňuje publikaci výsledků nahráním sekvenačních dat do některé z veřejně přístupných databází, nejčastěji databází Velké trojky.^[3]

Po nahrání do databáze obdrží každá sekvence svůj unikátní identifikátor – přístupový kód (accession nuber) skládající se z proměnného počtu čísel a písmen. Tento kód je neměnný, je společný GenBank, DDBJ a EMBL-Bank a lze podle něj příslušnou sekvenci kdykoliv dohledat. Spolu s publikací v GenBank každá sekvence obdrží tzv. GI číslo (GenBank Identifier). Na rozdíl od přístupového kódu tento identifikátor již není po celou dobu záznamu neměnný, ale může se změnit s úpravou sekvence, např. při nahrání nové či opravené verze sekvence. GI umožňuje efektivnější a rychlejší vyhledání konkrétního záznamu.^[2]

Po nahrání mohou záznam upravovat pouze autoři, a to i v případě, že je záznam chybný nebo duplicitní. Vzhledem k tomu, že většina databází včetně Genbank je nemoderovaných, databáze mohou obsahovat duplicitní záznamy – více záznamů stejné sekvence vložené různými autory s různým accession number. Mohou obsahovat také chybné určení sekvence dané kontaminací, např. houbový patogen rostlin může být popsán jako rostlinná sekvence, jelikož může kontaminovat vzorky rostlinné DNA.^[3] Řada chyb v sekvencích se může objevit také během nahrávacího procesu. Někteří autoři se domnívají, že až více než jedna polovina sekvencí mitochondriální DNA člověka nahrané do GenBank obsahuje chyby, a proto by měl být její obsah více kontrolován a kriticky posuzován.^[4]

Základní typy datových záznamů

Základní typy záznamů v databázi GenBank jsou:^[2]^[3]

standardní originální nukleotidové sekvence – sekvence získané sekvenováním fragmentů genomové DNA
sekvence EST (expressed sequence tags) – neúplné sekvence konců jinak necharakterizovaných cDNA; data obvykle nižší kvality než "standardní" sekvence
sekvence HTGS (high throughput genome sequencing) – dosud neposkládané a neanotované sekvence pocházející ze sekvenování genomů
sekvence WGS (whole-genome shotgun) – referenční sekvence již většinou poskládaných a anotovaných kompletních genomů
sekvence TPA (third party annotation) – sekvence anotované jinými než původními autory
sekvence TSA (transcriptome shotgun assembly sequence) – sekvence transkriptomů získané reverzním přepisem revezní transkriptázou z mRNA do cDNA, jedna z nejrychleji narůstajících oblastí dat
sekvence ENV (Environmental sample sequence) – environmentální DNA získaná sekvenováním celých společenstev často nepopsaných organismů, např. metagenomická data získaná z biofilmů, sedimentů, horkých pramenů, povrchu tkání apod.; v případě prokaryot se nejčastěji jedná o sekvenci 16S rRNA

Vyhledávání

K vyhledávání sekvenčně podobných záznamů slouží program BLAST a jeho nejrůznější modifikace. Hledaná sekvence (query) je podle algoritmu porovnána se sekvencemi obsaženými v databázi.

Historie

Databáze GenBank vznikla jako veřejná databáze v roce 1982 přeměnou databáze Los Alamos Sequence Database Waltera Goada a jeho spolupracovníků z Theoretical Biology and Biophysics Group na Los Alamos National Laboratory (LANL) z roku 1979. Na vzniku databáze se finančně podílely National Institutes of Health (NIH), National Science Foundation, Department of Energy a Department of Defense v USA. Od poloviny 80. let správu nad GenBank převzala IntelliGenetics Bioinformatics Company na Stanfordově univerzitě společně s LANL. Mezi roky 1989 a 1992 byla databáze GenBank postupně převedena pod správu nově vytvořeného National Center for Biotechnology Information (NCBI).^[5]

Růst

Počet párů bází se na GenBank od roku 1982 zdvojnásobí zhruba každých 18 měsíců, což klade velké nároky na softwarové a hardwarové vybavení. Každé 2 měsíce je uvolňována nová verze databáze pro stažení přes FTP programy, tzv. release. K aktualizaci záznamů online dochází průběžně. V dubnu 2013 při uvolnění 195. verze GenBank databáze obsahovala celkově 151 178 979 155 bází 164 136 731 sekvencí.^[6]

Reference

V tomto článku byl použit překlad textu z článku Genbank na anglické Wikipedii.

↑ DENNIS A. BENSON, ILENE KARSCH-MIZRACHI, DAVID J. LIPMAN, JAMES OSTELL AND DAVID L. WHEELER. GenBank. S. 21–25. Nucleic Acids Research [online]. 2013 [cit. 2013-05-18]. S. 21–25. doi:10.1093/nar/gkl986.
1 2 3 DENNIS A. BENSON, MARK CAVANAUGH, KAREN CLARK, ILENE KARSCH-MIZRACHI, DAVID J. LIPMAN, JAMES OSTELL AND ERIC W. SAYERS. GenBank. Nucleic Acids Research. 2007, roč. 41, s. 36–41. doi:10.1093/nar/gks1195.
1 2 3 4 CVRČKOVÁ, Fatima. Úvod do praktické bioinformatiky. [s.l.]: Academia, 2006. ISBN 80-200-1360-1. S. 148.
↑ D. JAMES HARRIS. Can you bank on GenBank?. S. 317–319. TRENDS in Ecology and Evolution [online]. [cit. 2013-05-18]. Roč. 18, s. 317–319. doi:10.1016/S0169-5347(03)00150-2.
↑ LANL GenBank History [online]. [cit. 2013-05-18]. Dostupné online.
↑ Growth of GenBank and WGS. NCBI. GenBank [online]. 2013 [cit. 2013-05-18]. Dostupné online.

Externí odkazy

Obrázky, zvuky či videa k tématu GenBank na Wikimedia Commons

[Genbank-1] DENNIS A. BENSON, ILENE KARSCH-MIZRACHI, DAVID J. LIPMAN, JAMES OSTELL AND DAVID L. WHEELER. GenBank. S. 21–25. Nucleic Acids Research [online]. 2013 [cit. 2013-05-18]. S. 21–25. doi:10.1093/nar/gkl986.

[GenBank-2] 1 2 3 DENNIS A. BENSON, MARK CAVANAUGH, KAREN CLARK, ILENE KARSCH-MIZRACHI, DAVID J. LIPMAN, JAMES OSTELL AND ERIC W. SAYERS. GenBank. Nucleic Acids Research. 2007, roč. 41, s. 36–41. doi:10.1093/nar/gks1195.

[úvod-3] 1 2 3 4 CVRČKOVÁ, Fatima. Úvod do praktické bioinformatiky. [s.l.]: Academia, 2006. ISBN 80-200-1360-1. S. 148.

[Can_you-4] D. JAMES HARRIS. Can you bank on GenBank?. S. 317–319. TRENDS in Ecology and Evolution [online]. [cit. 2013-05-18]. Roč. 18, s. 317–319. doi:10.1016/S0169-5347(03)00150-2.

[history-5] LANL GenBank History [online]. [cit. 2013-05-18]. Dostupné online.

[Growth-6] Growth of GenBank and WGS. NCBI. GenBank [online]. 2013 [cit. 2013-05-18]. Dostupné online.

[1]

[2]

[3]

[4]

[5]

[6]