SARS-CoV-2 Genomics Data Platform

Eine Forschungsinitiative zur Sammlung, Speicherung und Auswertung aller in Deutschland produzierten SARS-CoV-2 Virus Sequenzdaten

Analytics Dashboard

CoGDat stellt tagesaktuell Analysen zur Pandemiesituation in Deutschland bereit. Die Ergebnisse sind auf dem Analytics Dashboard zusammengetragen. mehr...

Ziele

CoGDat ist eine gemeinsame Initiative von Forschern, die sich für die Verfügbarmachung und Nutzung von Sequenzdaten aus der molekularen SARS-CoV-2 Surveillance engagieren. mehr...

Informationen für Labore

Die Erfassung von Sequenz­rohdaten erfolgt unmittelbar von Sequenzier­laboren, welche im Rahmen der molekularen Surveillance Virusgenome sequenzieren. mehr...

Datenschutz

Im CoGDat Datenschutz- und Betriebskonzept sind der rechtliche Rahmen sowie die Prozesse der Datenverarbeitung transparent beschrieben.

Ziele von CoGDat

Erfassung von Sequenzrohdaten

Ein zentrales Ziel von CoGDat ist die Erfassung aller Sequenz-Rohdaten (FASTQ Files), die im Rahmen der molekularen Sars-CoV-2 Surveillance in Deutschland erzeugt werden. Dies geschieht in Ergänzung zu den bereits vom Robert-Koch-Institut erfassten Virusgenom-Konsensussequenzen (Assemblies).

Open Data

Im aktiven, dynamischen Pandemiegeschehen ist die uneingeschränkte Verfügbarkeit möglichst großer Datenmengen für die Forschung relevanter denn je. CoGDat veröffentlicht soweit möglich sämtliche erfassten Sequenzdaten sowie epidemiologische Falldaten im European Nucleotide Archive (ENA).

Reproduzierbare Analytik

CoGDat analysiert die erfassten Sequenz- und Falldaten mit transparenten und reproduzierbaren Pipelines. Analysen umfassen die Re-assemblierung aller Sequenzdaten nach einheitlichen Verfahren, die Untersuchung von Virusgenom-Varianz innerhalb von Patienten sowie die Berechnung von Virus-Taxonomien.

Wer sind wir?

CoGDat ist eine gemeinsame Initiative von Forschern, die sich im Rahmen des Netzwerk Universitätsmedizin (NUM), der NUM Initiative B-FAST sowie der Deutschen COVID-19 OMICS Initiative (DeCOI) für die Verfügbarmachung und Nutzung von Sequenzdaten aus der molekularen SARS-CoV-2 Surveillance engagieren.

Forscher folgender Forschungseinrichtungen sind an der Gestaltung von CoGDat beteiligt:

  • Universität Tübingen, Betreiber von CoGDat
  • Deutsches Krebsforschungszentrum Heidelberg
  • Universität Düsseldorf
  • Universität Bielefeld
  • Universität Freiburg
  • Heidelberger Akademie der Wissenschaften
  • Helmholtz Zentrum für Infektionsforschung
  • European Molecular Biology Laboratory (EMBL) Heidelberg

Dr. Léon Kuchenbecker

Universität Tübingen
Koordination CoGDat

Prof. Dr. Alexander Dilthey

Universität Düsseldorf

Dr. Dr. Daniel Hübschmann

DKFZ Heidelberg

Prof. Dr. Oliver Kohlbacher

Universität Tübingen

Prof. Dr. Stephan Ossowski

Universität Tübingen
Pipelines, Datenanalytik

Prof. Dr. Alexander Sczyrba

Universität Bielefeld
Open Data, Taxonomie

Dr. Sandra Reuter

Universität Freiburg
Taxonomie, Visualisierung

Dr. Fruzsina Molnár-Gábor

Heidelberger Akademie der Wissenschaften
Datenschutzrecht

Dr. Sven Nahnsen

Universität Tübingen
Pipelines, Datenanalytik

Dr. Jens Krüger

Universität Tübingen

Prof. Dr. Alice McHardy

Helmholtz Zentrum für Infektionsforschung

Prof. Dr. Oliver Stegle

DKFZ Heidelberg

Dr. Christian Schudoma

EMBL Heidelberg
Datenportal

Kersten Breuer

DKFZ Heidelberg
Datenportal

Dr. Nils Kleinbölting

Universität Bielefeld
Open Data

Moritz Hahn

Universität Tübingen
Datenportal

Dr. Koray Kırlı

DKFZ Heidelberg
Datenportal

Dr. Gisela Gabernet

Universität Tübingen
Pipelines, Datenanalytik

Prof. Dr. Simone Scheithauer

Universitätsmedizin Göttingen

Prof. Dr. Dagmar Krefting

Universitätsmedizin Göttingen

Prof. Dr. Hajo Grundmann

Uniklinik Freiburg

Prof. Dr. Joachim Schultze

Universität Bonn

Technologien

DataMeta ist ein eigens für CoGDat entwickeltes open-source Portal zur Sammlung von Nutzdaten und Metadaten. Das Datenportal lässt sich einfach und schnell installieren sowie für individuelle Zwecke anpassen.

Das Community-basierte nf-core-Projekt entwickelt Standards für die Umsetzung komplexer Analysepipelines und stellt eine Sammlung kuratierter Pipelines zur Verfügung. CoGDat verwendet die nf-core/viralrecon Pipeline für die Assemblierung von Virusgenom-Rohdaten.

Microreact ermöglicht die Verknüfpung, Visualisierung und Exploration von genomischen Epidemiologiedaten auf der Basis von Karten, Bäumen und Zeitleisten.

Partner

Das Deutsche Netzwerk für Bioinformatik Infrastruktur (de.NBI) ist ein durch das Bundesministerium für Bildung und Forschung (BMBF) finanziertes akademisches Netzwerk, welches Serviceleistungen im Bereich Bioinformatik anbietet. Die Rechen- und Speicherressourcen von CoGDat werden von der de.NBI Cloud Tübingen bereitgestellt, weiterhin unterstützt de.NBI CoGDat in rechtlichen Fragen.

Das German Human Genome-Phenome Archive (GHGA) unterstützt CoGDat bei der Entwicklung des CoGDat Datenportals.

Informationen für Labore

  • Ich bin Verantwortliche*r in einem Labor, das SARS-CoV-2-Proben sequenziert. Kann mein Labor sich an CoGDat beteiligen?

    Ja! Wir rufen alle Labore, die SARS-CoV-2-Proben sequenzieren dazu auf, die Sequenzrohdaten durch die Übermittlung an CoGDat der Forschung zur Verfügung zu stellen.

  • CoGDat strebt die Erfassung folgender Daten an:

    • Klinische- und Epidemiologische Falldaten
      • Das Proben-Entnahmedatum
      • Der Landkreis / die kreisfreie Stadt / der Bezirk der Fallmeldung
      • Der PCR Ct-Wert

      Fall-Identifikatoren
      • Die IMS-ID (Integrierte Molekulare Surveillance des Robert-Koch-Instituts)
      • Ggf. ENA-ID, falls das Labor bereits eine Veröffentlichung der Rohdaten im ENA vorgenommen hat

      Sequenzdaten
      • Die Sequenz-Rohdaten (FASTQ Dateien)
      • Das an das RKI gemeldete Genom-Assembly (FASTA Datei)
    Die klinischen und epidemiologischen Falldaten sind dem sequenzierenden Labor nicht in allen Fällen bekannt. Ist dies nicht der Fall werden die Daten, sofern verfügbar, auf Basis der übermittelten IMS ID aus dem ENA bezogen, wo das Robert-Koch-Institut diese Falldaten publiziert.

    Zur Vermeidung von Datenbank-Duplikaten werden ggf. weitere Fall-Identifikatoren erfasst, z.B. wenn das Labor den Datensatz bereits in anderen öffentlichen Datenbanken wie dem ENA oder GISAID hinterlegt hat. Weiterhin werden technische Metadaten wie z.B. die verwendete Sequenziertechnologie erfasst.

  • CoGDat verwendet für die Datenerfassung das open-source Datenportal DataMeta, welches eigens für die Nutzung innerhalb von CoGDat entwickelt wurde. Das Datenportal ermöglicht sowohl den interaktiven Upload von Daten über ein nutzerfreundliches Web-Interface im Browser als auch die Automatisierung von Datenuploads durch eine REST-Schnittstelle (API). Weitere Informationen über den Datenupload sind in der technischen Dokumentation verfügbar. Bei Rückfragen steht weiterhin unser Support unter zur Verfügung.

  • CoGDat nutzt die Daten zur Durchführung von Analysen zu Forschungszwecken.

    Weiterhin ist ein zentrales Ziel von CoGDat die Verfügbarmachung der Sequenzrohdaten im European Nucleotide Archive (ENA). Um die Anonymität der Daten zu gewährleisten, werden ausschließlich die klinischen und epidemiologischen Falldaten, d.h.

    • das Proben-Entnahmedatum,
    • den Landkreis / die kreisfreie Stadt / den Bezirk der Fallmeldung
    sowie die Virusgenom-Sequenzdaten, nicht jedoch die Fall-Identifikatoren (IMS ID, GISAID ID, etc) im ENA veröffentlicht. Die Datenveröffentlichung im ENA führt CogDat als Broker aus, d.h. der ENA Upload erfolgt im Auftrag des Labors und das Labor bleibt als Datenurheber erhalten und einsehbar.

    Die Prozesse der Datenverarbeitung, in denen CoGDat gebrauch von den übermittelten Fall-Identifikatoren macht, sind im Datenschutz- und Betriebskonzept ausgeführt.

  • In diesem Fall ist es wichtig, dass das Labor bei der Übermittlung der Daten zu CoGDat die zugehörige ENA ID in den Metadaten hinterlegt. CoGDat führt dann keinen erneuten Upload zu ENA durch. Siehe auch Technische Dokumentation (Metadaten).