close
Přeskočit na obsah

GenBank

Z Wikipedie, otevřené encyklopedie
GenBank
Charakter stránkysequence database a data library
MajitelNational Center for Biotechnology Information
URLwww.ncbi.nlm.nih.gov/genbank/
Některá data mohou pocházet z datové položky.
Image
CD GenBank

GenBank je veřejně přístupná anotovaná sekvenční nukleotidová databáze (www.ncbi.nlm.nih.gov). V současné době obsahuje nukleotidové sekvence více než 260 000 popsaných druhů organismů. GenBank je spravována National Center for Biotechnology Information (NCBI) spadajícím pod National Library of Medicine (NLM) umístěném v kampusu National Institutes of Health (NIH) v Bethesdě v USA. GenBank je součástí konsorcia International Nucleotide Sequence Database Collaboration (INSDC), mezi něž patří také DNA DataBank of Japan (DDBJ) a databáze European Molecular Biology Laboratory (EMBL). Tyto tři největší světové primární databáze (tzv. databáze Velké trojky) každý den navzájem sdílejí data a zároveň se tak zálohují. Do GenBanku přispívají jednotlivé individuální laboratoře i velká genomová sekvenační centra.[1][2]

Přístup a vyhledávaní na GenBank je zajištěno přes NCBI Etrez, který zároveň integruje vyhledávání v hlavních DNA a proteinových strukturních a sekvenčních databázích a v hlavní databázi odborných biomedicínsky zaměřených časopisů – PubMed. Kromě přístupu přes webové rozhraní (http://www.ncbi.nlm.nih.gov/genbank/) lze také prostřednictvím FTP celou databázi k danému datu bezplatně nainstalovat na konkrétní počítač. V tomto případě je však nutno ji pravidelně aktualizovat – NCBI uvolňuje novou verzi každé 2 měsíce.[3]

Nahrání záznamu

[editovat | editovat zdroj]

K nahrání dat do databáze slouží specializované programy BankIt a Sequin, jejichž prostřednictvím nahrávají vědečtí pracovníci svá originální sekvenační data. Většina impaktovaných časopisů v současné době už podmiňuje publikaci výsledků nahráním sekvenačních dat do některé z veřejně přístupných databází, nejčastěji databází Velké trojky.[3]

Po nahrání do databáze obdrží každá sekvence svůj unikátní identifikátor – přístupový kód (accession nuber) skládající se z proměnného počtu čísel a písmen. Tento kód je neměnný, je společný GenBank, DDBJ a EMBL-Bank a lze podle něj příslušnou sekvenci kdykoliv dohledat. Spolu s publikací v GenBank každá sekvence obdrží tzv. GI číslo (GenBank Identifier). Na rozdíl od přístupového kódu tento identifikátor již není po celou dobu záznamu neměnný, ale může se změnit s úpravou sekvence, např. při nahrání nové či opravené verze sekvence. GI umožňuje efektivnější a rychlejší vyhledání konkrétního záznamu.[2]

Po nahrání mohou záznam upravovat pouze autoři, a to i v případě, že je záznam chybný nebo duplicitní. Vzhledem k tomu, že většina databází včetně Genbank je nemoderovaných, databáze mohou obsahovat duplicitní záznamy – více záznamů stejné sekvence vložené různými autory s různým accession number. Mohou obsahovat také chybné určení sekvence dané kontaminací, např. houbový patogen rostlin může být popsán jako rostlinná sekvence, jelikož může kontaminovat vzorky rostlinné DNA.[3] Řada chyb v sekvencích se může objevit také během nahrávacího procesu. Někteří autoři se domnívají, že až více než jedna polovina sekvencí mitochondriální DNA člověka nahrané do GenBank obsahuje chyby, a proto by měl být její obsah více kontrolován a kriticky posuzován.[4]

Základní typy datových záznamů

[editovat | editovat zdroj]

Základní typy záznamů v databázi GenBank jsou:[2][3]

Vyhledávání

[editovat | editovat zdroj]

K vyhledávání sekvenčně podobných záznamů slouží program BLAST a jeho nejrůznější modifikace. Hledaná sekvence (query) je podle algoritmu porovnána se sekvencemi obsaženými v databázi.

Databáze GenBank vznikla jako veřejná databáze v roce 1982 přeměnou databáze Los Alamos Sequence Database Waltera Goada a jeho spolupracovníků z Theoretical Biology and Biophysics Group na Los Alamos National Laboratory (LANL) z roku 1979. Na vzniku databáze se finančně podílely National Institutes of Health (NIH), National Science Foundation, Department of Energy a Department of Defense v USA. Od poloviny 80. let správu nad GenBank převzala IntelliGenetics Bioinformatics Company na Stanfordově univerzitě společně s LANL. Mezi roky 1989 a 1992 byla databáze GenBank postupně převedena pod správu nově vytvořeného National Center for Biotechnology Information (NCBI).[5]

Počet párů bází se na GenBank od roku 1982 zdvojnásobí zhruba každých 18 měsíců, což klade velké nároky na softwarové a hardwarové vybavení. Každé 2 měsíce je uvolňována nová verze databáze pro stažení přes FTP programy, tzv. release. K aktualizaci záznamů online dochází průběžně. V dubnu 2013 při uvolnění 195. verze GenBank databáze obsahovala celkově 151 178 979 155 bází 164 136 731 sekvencí.[6]

V tomto článku byl použit překlad textu z článku Genbank na anglické Wikipedii.

  1. DENNIS A. BENSON, ILENE KARSCH-MIZRACHI, DAVID J. LIPMAN, JAMES OSTELL AND DAVID L. WHEELER. GenBank. S. 21–25. Nucleic Acids Research [online]. 2013 [cit. 2013-05-18]. S. 21–25. doi:10.1093/nar/gkl986.
  2. 1 2 3 DENNIS A. BENSON, MARK CAVANAUGH, KAREN CLARK, ILENE KARSCH-MIZRACHI, DAVID J. LIPMAN, JAMES OSTELL AND ERIC W. SAYERS. GenBank. Nucleic Acids Research. 2007, roč. 41, s. 36–41. doi:10.1093/nar/gks1195.
  3. 1 2 3 4 CVRČKOVÁ, Fatima. Úvod do praktické bioinformatiky. [s.l.]: Academia, 2006. ISBN 80-200-1360-1. S. 148.
  4. D. JAMES HARRIS. Can you bank on GenBank?. S. 317–319. TRENDS in Ecology and Evolution [online]. [cit. 2013-05-18]. Roč. 18, s. 317–319. doi:10.1016/S0169-5347(03)00150-2.
  5. LANL GenBank History [online]. [cit. 2013-05-18]. Dostupné online.
  6. Growth of GenBank and WGS. NCBI. GenBank [online]. 2013 [cit. 2013-05-18]. Dostupné online.

Externí odkazy

[editovat | editovat zdroj]
  • Image Obrázky, zvuky či videa k tématu GenBank na Wikimedia Commons