Ziele von CoGDat
Erfassung von Sequenzrohdaten
Ein zentrales Ziel von CoGDat ist die Erfassung aller Sequenz-Rohdaten (FASTQ Files), die im Rahmen der molekularen Sars-CoV-2 Surveillance in Deutschland erzeugt werden. Dies geschieht in Ergänzung zu den bereits vom Robert-Koch-Institut erfassten Virusgenom-Konsensussequenzen (Assemblies).
Open Data
Im aktiven, dynamischen Pandemiegeschehen ist die uneingeschränkte Verfügbarkeit möglichst großer Datenmengen für die Forschung relevanter denn je. CoGDat veröffentlicht soweit möglich sämtliche erfassten Sequenzdaten sowie epidemiologische Falldaten im European Nucleotide Archive (ENA).
Reproduzierbare Analytik
CoGDat analysiert die erfassten Sequenz- und Falldaten mit transparenten und reproduzierbaren Pipelines. Analysen umfassen die Re-assemblierung aller Sequenzdaten nach einheitlichen Verfahren, die Untersuchung von Virusgenom-Varianz innerhalb von Patienten sowie die Berechnung von Virus-Taxonomien.
Wer sind wir?
CoGDat ist eine gemeinsame Initiative von Forschern, die sich im Rahmen des Netzwerk Universitätsmedizin (NUM), der NUM Initiative B-FAST sowie der Deutschen COVID-19 OMICS Initiative (DeCOI) für die Verfügbarmachung und Nutzung von Sequenzdaten aus der molekularen SARS-CoV-2 Surveillance engagieren.
Forscher folgender Forschungseinrichtungen sind an der Gestaltung von CoGDat beteiligt:
- Universität Tübingen, Betreiber von CoGDat
- Deutsches Krebsforschungszentrum Heidelberg
- Universität Düsseldorf
- Universität Bielefeld
- Universität Freiburg
- Heidelberger Akademie der Wissenschaften
- Helmholtz Zentrum für Infektionsforschung
- European Molecular Biology Laboratory (EMBL) Heidelberg
Dr. Léon Kuchenbecker
Universität TübingenKoordination CoGDat
Camill Kaipf
Universität TübingenTechnical Data Steward CoGDat
Prof. Dr. Alexander Dilthey
Universität DüsseldorfDr. Dr. Daniel Hübschmann
DKFZ HeidelbergProf. Dr. Oliver Kohlbacher
Universität TübingenProf. Dr. Stephan Ossowski
Universität TübingenPipelines, Datenanalytik
Prof. Dr. Alexander Sczyrba
Universität BielefeldOpen Data, Taxonomie
Dr. Sandra Reuter
Universität FreiburgTaxonomie, Visualisierung
Prof. Dr. Fruzsina Molnár-Gábor
Heidelberger Akademie der WissenschaftenDatenschutzrecht
Dr. Sven Nahnsen
Universität TübingenPipelines, Datenanalytik
Dr. Jens Krüger
Universität TübingenProf. Dr. Alice McHardy
Helmholtz Zentrum für InfektionsforschungProf. Dr. Oliver Stegle
DKFZ HeidelbergDr. Christian Schudoma
EMBL HeidelbergDatenportal
Kersten Breuer
DKFZ HeidelbergDatenportal
Dr. Nils Kleinbölting
Universität BielefeldOpen Data
Moritz Hahn
Universität TübingenDatenportal
Dr. Koray Kırlı
DKFZ HeidelbergDatenportal
Dr. Gisela Gabernet
Universität TübingenPipelines, Datenanalytik
Prof. Dr. Simone Scheithauer
Universitätsmedizin GöttingenProf. Dr. Dagmar Krefting
Universitätsmedizin GöttingenProf. Dr. Hajo Grundmann
Uniklinik FreiburgProf. Dr. Joachim Schultze
Universität BonnTechnologien
Das Community-basierte nf-core-Projekt entwickelt Standards für die Umsetzung komplexer Analysepipelines und stellt eine Sammlung kuratierter Pipelines zur Verfügung. CoGDat verwendet die nf-core/viralrecon Pipeline für die Assemblierung von Virusgenom-Rohdaten.
Microreact ermöglicht die Verknüfpung, Visualisierung und Exploration von genomischen Epidemiologiedaten auf der Basis von Karten, Bäumen und Zeitleisten.
Förderung & Partner
Das Deutsche Netzwerk für Bioinformatik Infrastruktur (de.NBI) ist ein durch das Bundesministerium für Bildung und Forschung (BMBF) finanziertes akademisches Netzwerk, welches Serviceleistungen im Bereich Bioinformatik anbietet. Die Rechen- und Speicherressourcen von CoGDat werden von der de.NBI Cloud Tübingen bereitgestellt, weiterhin unterstützt de.NBI CoGDat in rechtlichen Fragen.
Das German Human Genome-Phenome Archive (GHGA) unterstützt CoGDat bei der Entwicklung des CoGDat Datenportals.
Informationen für Labore
-
Ich bin Verantwortliche*r in einem Labor, das SARS-CoV-2-Proben sequenziert. Kann mein Labor sich an CoGDat beteiligen?
Ja! Wir rufen alle Labore, die SARS-CoV-2-Proben sequenzieren dazu auf, die Sequenzrohdaten durch die Übermittlung an CoGDat der Forschung zur Verfügung zu stellen.
-
Welche Daten erfasst CoGDat?
CoGDat strebt die Erfassung folgender Daten an:
-
Klinische- und Epidemiologische Falldaten
- Das Proben-Entnahmedatum
- Der Landkreis / die kreisfreie Stadt / der Bezirk der Fallmeldung
- Der PCR Ct-Wert
Fall-Identifikatoren- Die IMS-ID (Integrierte Molekulare Surveillance des Robert-Koch-Instituts)
- Ggf. ENA-ID, falls das Labor bereits eine Veröffentlichung der Rohdaten im ENA vorgenommen hat
Sequenzdaten- Die Sequenz-Rohdaten (FASTQ Dateien)
- Das an das RKI gemeldete Genom-Assembly (FASTA Datei)
Zur Vermeidung von Datenbank-Duplikaten werden ggf. weitere Fall-Identifikatoren erfasst, z.B. wenn das Labor den Datensatz bereits in anderen öffentlichen Datenbanken wie dem ENA oder GISAID hinterlegt hat. Weiterhin werden technische Metadaten wie z.B. die verwendete Sequenziertechnologie erfasst.
-
Klinische- und Epidemiologische Falldaten
-
Wie erfolgt der Datenupload zu CoGDat?
CoGDat verwendet für die Datenerfassung das open-source Datenportal DataMeta, welches eigens für die Nutzung innerhalb von CoGDat entwickelt wurde. Das Datenportal ermöglicht sowohl den interaktiven Upload von Daten über ein nutzerfreundliches Web-Interface im Browser als auch die Automatisierung von Datenuploads durch eine REST-Schnittstelle (API). Weitere Informationen über den Datenupload sind in der technischen Dokumentation verfügbar. Bei Rückfragen steht weiterhin unser Support unter zur Verfügung.
-
Was passiert mit den Daten?
CoGDat nutzt die Daten zur Durchführung von Analysen zu Forschungszwecken.
Weiterhin ist ein zentrales Ziel von CoGDat die Verfügbarmachung der Sequenzrohdaten im European Nucleotide Archive (ENA). Um die Anonymität der Daten zu gewährleisten, werden ausschließlich die klinischen und epidemiologischen Falldaten, d.h.
- das Proben-Entnahmedatum,
- den Landkreis / die kreisfreie Stadt / den Bezirk der Fallmeldung
Die Prozesse der Datenverarbeitung, in denen CoGDat gebrauch von den übermittelten Fall-Identifikatoren macht, sind im Datenschutz- und Betriebskonzept ausgeführt.
-
Mein Labor führt bereits eigenständig einen Upload zu ENA durch. Wie kann die Erzeugung von Duplikaten verhindert werden?
In diesem Fall ist es wichtig, dass das Labor bei der Übermittlung der Daten zu CoGDat die zugehörige ENA ID in den Metadaten hinterlegt. CoGDat führt dann keinen erneuten Upload zu ENA durch. Siehe auch Technische Dokumentation (Metadaten).