Glossar Forschungsdatenmanagement
Im Rahmen des Forschungsdatenmanagements (FDM) stellt die Hochschule Bremen ein Glossar zur Verfügung, das wichtige Begriffe rund um das Thema verständlich erklärt. Die Definitionen stammen aus bewährten und anerkannten Quellen wie forschungsdaten.info, dem Glossar der Hochschule für angewandte Wissenschaft und Kunst (HAWK) Niedersachsen, dem Forschungsdatenmanagement-Glossar der Freien Universität Berlin sowie der Lernzielmatrix zum Themenbereich Forschungsdatenmanagement. Dieses Glossar soll Forschenden und Studierenden als Orientierungshilfe dienen und das Verständnis für zentrale Fachbegriffe im Umgang mit Forschungsdaten erleichtern.
Die Academic Cloud stellt eine zentrale Plattform mit einem umfassenden Werkzeugkasten für Forschung, Studium und Lehre bereit. Sie bietet vielfältige Tools für Datenmanagement und kollaboratives Arbeiten. Betrieben wird die Academic Cloud von der Gesellschaft für wissenschaftliche Datenverarbeitung mbH Göttingen (GWDG). Die Nutzung ist für die Hochschule Bremen ist zum Teil möglich. Die Serverstandorte befinden sich in Niedersachsen; alle angebotenen Dienste erfüllen die Anforderungen an den Datenschutz.
Die zur Verfügung stehenden Tools und Services basieren überwiegend auf weiterentwickelter oder eigens betriebener Open-Source-Software und bieten praxisnahe Unterstützung in folgenden Bereichen:
Eine Übersicht über alle verfügbaren Dienste in der Academic Cloud finden sie hier.
Anonymisierung bezeichnet die Gesamtheit aller Maßnahmen, durch die der Personenbezug von Daten entfernt wird. Ziel ist es, personenbezogene Angaben – also Informationen über persönliche oder sachliche Verhältnisse – so zu verändern, dass sie einer bestimmten oder bestimmbaren natürlichen Person nicht mehr oder nur mit einem unverhältnismäßig hohen Aufwand an Zeit, Kosten und Arbeitskraft zugeordnet werden können.
Die Anonymisierung personenbezogener Daten stellt insbesondere in der wissenschaftlichen Forschung einen wesentlichen Bestandteil guter wissenschaftlicher Praxis dar. Sie gewährleistet den Schutz der Privatsphäre und die Einhaltung datenschutzrechtlicher Vorgaben.
Gemäß § 3 Abs. 6 des Bundesdatenschutzgesetzes (BDSG) umfasst der Begriff der Anonymisierung alle Maßnahmen, durch die personenbezogene Daten in einer Weise verändert werden, dass „die Einzelangaben über persönliche oder sachliche Verhältnisse nicht mehr oder nur mit einem unverhältnismäßig großen Aufwand an Zeit, Kosten und Arbeitskraft einer bestimmten oder bestimmbaren natürlichen Person zugeordnet werden können“.
Wichtig ist die begriffliche Abgrenzung zur Pseudonymisierung: Während bei der Anonymisierung der Personenbezug dauerhaft entfernt wird, bleibt er bei der Pseudonymisierung grundsätzlich erhalten – wenngleich indirekt und nur über zusätzliche Informationen zugänglich.
Archivierung umfasst die langfristige, sichere Aufbewahrung gezielt ausgewählter Forschungsdaten – inklusive ihrer Metadaten und begleitender Dokumentation – für einen festgelegten Zeitraum.
Zweck dieser Maßnahme ist es, die Forschungsdaten über die Laufzeit des Projekts hinaus verfügbar zu halten, ihre spätere Nachnutzung zu ermöglichen, ihre Unverfälschtheit zu sichern und zugleich den Anforderungen guter wissenschaftlicher Praxis gerecht zu werden.
Die Aufbewahrung von Forschungsdaten bezieht sich auf die gesicherte Speicherung sämtlicher relevanter Daten, Metadaten und begleitender Dokumentation für einen begrenzten Zeitraum – in der Regel mindestens zehn Jahre nach Abschluss des Projekts oder der Veröffentlichung der Ergebnisse. Diese Frist orientiert sich an den Empfehlungen zur Sicherung guter wissenschaftlicher Praxis.
Im Unterschied zur Archivierung, die auf eine dauerhafte oder sehr langfristige Erhaltung ausgewählter Daten mit dem Ziel der Nachnutzung und öffentlichen Zugänglichkeit abzielt, dient die Aufbewahrung in erster Linie der Nachvollziehbarkeit und Überprüfbarkeit wissenschaftlicher Ergebnisse innerhalb der vorgesehenen Frist.
Die Verantwortung für die ordnungsgemäße Aufbewahrung liegt in der Regel bei den jeweiligen Forschenden bzw. Institutionen. Die Daten sollten dabei so gesichert werden, dass ihre Integrität erhalten bleibt und ein unbefugter Zugriff ausgeschlossen ist.
Im Bereich der digitalen Langzeitarchivierung gilt die Authentizität als ein zentrales Qualitätsmerkmal von digitalen Informationen. Sie beschreibt, dass Daten in ihrer ursprünglichen Form erhalten geblieben sind, also weder unbemerkt verändert noch verfälscht wurden. Authentische Daten zeichnen sich dadurch aus, dass ihre Herkunft, ihr Erstellungszeitpunkt sowie eventuelle Veränderungen während ihres Lebenszyklus nachvollziehbar und überprüfbar dokumentiert sind. Dies schafft Vertrauen in die Echtheit und Integrität der Informationen – eine grundlegende Voraussetzung für ihre langfristige Nutzbarkeit und rechtliche Verwertbarkeit.
Digitale Daten setzen sich aus einer spezifischen Abfolge von Bits zusammen – den kleinsten Informationseinheiten, die lediglich die Werte 0 oder 1 annehmen können. Diese Abfolge wird als Bitstrom (engl. Bitstream) bezeichnet und bildet die technische Grundlage jeglicher digitaler Information. Der Bitstrom wird auf physischen oder virtuellen Datenträgern gespeichert.
Die sogenannte Bitstream Preservation beschreibt die Fähigkeit, diesen Bitstrom langfristig und unverändert zu bewahren – selbst über technologische Veränderungen hinweg, etwa durch neue Speichermedien oder Dateisysteme. Dabei geht es nicht nur um die physische Sicherung der Daten, sondern auch um ihre Wiederherstellbarkeit in exakt derselben Form wie zum Zeitpunkt der Archivierung. Bitstream Preservation stellt somit eine grundlegende Voraussetzung für die digitale Langzeitarchivierung dar, da nur ein unveränderter Bitstrom die Authentizität und Integrität digitaler Objekte garantiert.
Die CARE Principles for Indigenous Data Governance wurden von der Research Data Alliance International Indigenous Data Sovereignty Interest Group entwickelt und durch die Global Indigenous Data Alliance (GIDA) veröffentlicht. Sie ergänzen die FAIR-Prinzipien um ethische und soziale Aspekte.
CARE steht für Collective Benefit, Authority to Control, Responsibility und Ethics. Die Prinzipien betonen, dass bei Forschung und Datenveröffentlichung die Rechte und Interessen indigener Gemeinschaften gewahrt bleiben müssen – unabhängig davon, ob sie direkt Gegenstand der Forschung sind.
Im Fokus steht das Selbstbestimmungsrecht über Daten, die sich auf indigene Personen, Kulturen oder Ressourcen beziehen. Dazu zählt auch der Umgang mit Informationen über natürliche Ressourcen auf indigenem Land. CARE fordert eine verantwortungsvolle, faire und partizipative Datenpraxis, die Machtungleichgewichte berücksichtigt und Datensouveränität gewährleistet.
Zur Förderung der Nachnutzbarkeit von Forschungsdaten empfiehlt sich die klare Vergabe von Nutzungsrechten – etwa durch Creative-Commons-Lizenzen (CC). Diese international anerkannten Lizenzmodelle ermöglichen es, rechtssichere und verständliche Nutzungsbedingungen festzulegen, unabhängig von nationalen Urheberrechtsunterschieden. Besonders liberale CC-Lizenzen erleichtern die Weiterverwendung und Verbreitung wissenschaftlicher Daten.
Ein Dateiformat beschreibt die technische Struktur, in der Daten innerhalb einer Datei gespeichert werden. Es legt fest, wie die Informationen codiert, interpretiert und verarbeitet werden können. Das Format ist in der Regel durch die Dateierweiterung erkennbar, zum Beispiel:
Die Wahl eines geeigneten, idealerweise offenen und gut dokumentierten Formats ist insbesondere in der digitalen Langzeitarchivierung entscheidend, um die Lesbarkeit und Nachnutzbarkeit der Daten langfristig zu sichern.
Der Dateityp hingegen klassifiziert Dateien unabhängig vom konkreten Format nach dem Inhalt bzw. der Datenart, die sie enthalten – etwa als Textdatei, Bilddatei, Videodatei oder Audiodatei. Eine Bilddatei kann beispielsweise im Format .png, .jpg oder .tiff vorliegen, bleibt aber in jedem Fall ein Bilddatentyp. Der Dateityp dient somit der inhaltlichen Einordnung, während das Dateiformat die technische Umsetzung beschreibt.
Datenjournale veröffentlichen Artikel, die sich auf die Beschreibung von Forschungsdaten konzentrieren – im Gegensatz zu klassischen Fachzeitschriften, bei denen die Interpretation der Ergebnisse im Vordergrund steht. Die Artikel behandeln meist umfangreiche und komplexe Datensätze und durchlaufen in der Regel ein Peer-Review-Verfahren.
Die beschriebenen Daten werden separat in Repositorien veröffentlicht. Datenjournale fördern so die Nachnutzung von Forschungsdaten, stärken deren wissenschaftliche Anerkennung und unterstützen Transparenz sowie gute Datenmanagementpraktiken.
Eine qualitätsgesicherte Übersicht über Datenjournale bietet forschungsdaten.org.
Data Literacy bezeichnet die Fähigkeit, Daten über den gesamten Lebenszyklus hinweg bewusst und kompetent zu nutzen – von der Erhebung und Auswahl über die Verarbeitung und Analyse bis hin zur Darstellung und nachhaltigen Speicherung.
Darüber hinaus umfasst Datenkompetenz auch die kritische Reflexion im Umgang mit Daten, etwa in Bezug auf gesellschaftliche, ethische oder politische Fragestellungen.
Datenbereinigung bezeichnet den Prozess, bei dem fehlerhafte, veraltete, doppelte, inkonsistente oder falsch formatierte Daten erkannt, korrigiert oder entfernt werden. Ziel ist es, die Qualität, Zuverlässigkeit und Nutzbarkeit eines Datensatzes zu verbessern.
Datenkuratierung ist der gezielte Prozess der Organisation, Pflege und Aufbereitung von Daten und Metadaten über den gesamten Datenlebenszyklus hinweg. Ziel ist es, die Qualität, Verständlichkeit und Wiederverwendbarkeit der Daten sowohl für den aktuellen Bedarf als auch für die langfristige Nutzung zu sichern.
Sie ist ein kontinuierlicher Bestandteil des Datenmanagements und zentral für nachhaltige Forschungspraxis.
Der Datenlebenszyklus beschreibt die verschiedenen Phasen, die Forschungsdaten von ihrer Entstehung bis zur Nachnutzung durchlaufen. Je nach Modell kann die Struktur leicht variieren, typischerweise umfasst der Lebenszyklus folgende Schritte:
Planung des Datenumgangs (z. B. durch einen Datenmanagementplan)
Erhebung der Daten
Aufbereitung und Analyse
Teilen und Publikation der Daten
Archivierung zur langfristigen Sicherung
Nachnutzung durch Dritte oder in neuen Forschungskontexten
Der Datenlebenszyklus hilft dabei, Daten systematisch und nachhaltig zu verwalten.
Ein Datenmanagementplan (DMP) beschreibt den Umgang mit Forschungsdaten während und nach einem Projekt. Er deckt den gesamten Forschungsdatenlebenszyklus ab und berücksichtigt rechtliche, ethische und organisatorische Aspekte. DMPs helfen dabei, datenmanagementbezogene Maßnahmen systematisch zu planen und die erforderlichen Ressourcen zu kalkulieren.
Sie unterstützen die strukturierte und nachvollziehbare Arbeit mit Daten und fördern das kollaborative Arbeiten im Team. Zudem tragen DMPs zur Qualitätssicherung und langfristigen Verwendbarkeit von Daten bei und unterstützen die Umsetzung der FAIR-Prinzipien. Da sie regelmäßig angepasst werden sollten, gelten DMPs als "lebende Dokumente".
Viele Fördergeber verlangen mittlerweile die Einreichung eines DMPs oder eines entsprechenden Abschnitts im Projektantrag, wobei die erste Version oft zu Beginn des Projekts erforderlich ist.
Datenqualität beschreibt den Zustand von Daten und umfasst sowohl quantitative Eigenschaften wie Genauigkeit und Vollständigkeit als auch qualitative Aspekte wie Relevanz und Nachvollziehbarkeit. Ziel ist es, sicherzustellen, dass Forschungsdaten zuverlässig, konsistent, präzise und nutzbar sind, um valide wissenschaftliche Ergebnisse zu ermöglichen.
Ein allgemeiner Qualitätsmaßstab existiert nicht, da die Bewertung stets vom jeweiligen Anwendungszweck abhängt.
Datenschutz umfasst Maßnahmen, die sowohl technischer als auch organisatorischer Natur sind, um den Missbrauch personenbezogener Daten zu verhindern. Dies betrifft insbesondere Daten, die beispielsweise in der Medizin oder der sozialwissenschaftlichen Forschung gesammelt werden. Missbrauch tritt auf, wenn solche Daten ohne Erlaubnis erhoben, verarbeitet oder verwendet werden. Die Regelungen zum Datenschutz sind unter anderem in der Datenschutz-Grundverordnung (DSGVO) der Europäischen Union sowie in den entsprechenden Gesetzen der einzelnen Staaten festgelegt.
Zu den gängigen Datenschutzmaßnahmen gehören Verschlüsselungstechnologien und die Aufbewahrung von Daten an besonders sicheren Orten. Darüber hinaus kann eine Anonymisierung oder Pseudonymisierung von Daten den Personenbezug soweit entfernen, dass eine spätere Veröffentlichung unter bestimmten Bedingungen rechtlich zulässig wird.
Datensicherheit umfasst sämtliche Maßnahmen, die darauf abzielen, Forschungsdaten vor verschiedenen Gefahren zu schützen. Hierbei geht es vor allem darum, die Daten vor Verlust, unbefugtem Zugriff, Veränderung oder Missbrauch zu bewahren. Ziel ist es, die Integrität, Vertraulichkeit und Verfügbarkeit der Daten sicherzustellen, um ihre Qualität und ihren Wert für die Forschung zu erhalten. Dies schließt sowohl technische Schutzvorkehrungen als auch organisatorische Prozesse ein, die gewährleisten, dass nur autorisierte Personen auf die Daten zugreifen können.
Ein Datentyp bezeichnet eine Kategorisierung von Daten, die den zulässigen Wertebereich für eine bestimmte Art von Information festlegt. Zu den grundlegenden Datentypen zählen unter anderem Ganzzahlen (Integer), Dezimalzahlen (Real oder Float), Zeichenketten (Strings) sowie boolesche Werte (Boolean, z. B. wahr oder falsch). Darüber hinaus gibt es auch komplexe Datentypen, die aus mehreren einfachen Typen zusammengesetzt werden können. Jeder Datentyp legt fest, welche Operationen mit den darin enthaltenen Werten durchgeführt werden können, wie etwa mathematische Berechnungen für Zahlen oder Textverarbeitung für Zeichenketten.
Der Digital Object Identifier (DOI) ist ein weit verbreitetes System zur dauerhaften Identifikation digitaler Objekte. Er weist einer digitalen Ressource, wie einem Artikel oder Forschungsdatensatz, eine eindeutige und permanente Online-Referenz zu, die über die gesamte Lebensdauer des Objekts hinweg unverändert bleibt. Dies macht den DOI unabhängig von Änderungen an Webseiten oder der Abschaltung von Servern. Das DOI-System wird von der International DOI Foundation verwaltet.
DOIs werden von autorisierten Stellen vergeben, zum Beispiel durch Repositorien für gespeicherte Daten oder durch Verlage für wissenschaftliche Artikel. Sie dienen hauptsächlich dem wissenschaftlichen Zitieren und Verlinken von Ressourcen, wobei eine präzise Zuordnung von Metadaten entscheidend ist.
ELN, eine häufig verwendete englische Abkürzung, steht für Electronic Laboratory Notebook (Elektronisches Laborbuch). Dabei handelt es sich um Software, die den gesamten Lebenszyklus von Forschungsdaten digital dokumentiert. ELNs sollen die traditionellen, „analogen“ Laborbücher ersetzen, da heutzutage Untersuchungsergebnisse überwiegend in digitaler Form erfasst werden. Bekannte Open-Source-ELNs sind beispielsweise Chemotion (entwickelt von NFDI4Chem) für Chemie und verwandte Disziplinen, eLabFTW für alle experimentellen Wissenschaften, openBIS (entwickelt von der ETH Zürich) für Life Sciences und quantitative Forschungsbereiche sowie NOMAD (von FAIRmat) für Materialwissenschaften.
Die Technische Universität Darmstadt bietet auf ihrer Website einen „ELN Finder“, mit dem Nutzer gezielt nach geeigneter Software für Laborbücher suchen können.
Zur Einführung in das Thema hat die ZB Med ein Video-Tutorial sowie einen praktischen „ELN-Wegweiser“ veröffentlicht, der bei der Auswahl des passenden ELN hilft.
Ein (zeitlich begrenztes) Embargo bezeichnet im Kontext des Forschungsdatenmanagements einen Zeitraum, in dem nur die deskriptiven Metadaten von Forschungsdaten öffentlich einsehbar sind, während die eigentlichen Daten selbst während des Embargos nicht zugänglich sind. Ein solches Embargo wird häufig eingesetzt, wenn Forschungsdaten, etwa im Rahmen eines Peer-Review-Prozesses, mit Verzögerung veröffentlicht werden sollen.
Die FAIR-Prinzipien – ein Akronym für Findable, Accessible, Interoperable und Reusable – wurden 2016 von der wissenschaftlichen Gemeinschaft FORCE11 eingeführt. Sie bilden seither einen zentralen Leitfaden für ein zukunftsfähiges und verantwortungsvolles Forschungsdatenmanagement. Ziel ist es, Forschungsdaten so aufzubereiten, dass sie sowohl für Menschen als auch für Maschinen leicht auffindbar, barrierefrei zugänglich, nahtlos integrierbar und nachhaltig wiederverwendbar sind.
Die FAIR-Prinzipien stellen dabei keine festen technischen Standards dar, sondern bieten ein Rahmenwerk, das individuell an verschiedene Disziplinen und Anwendungskontexte angepasst werden kann. Die vollständige Auflistung und Erläuterung der Prinzipien ist auf der Website der FORCE11-Community verfügbar.
Darüber hinaus entwickeln Initiativen wie GO FAIR konkrete Handlungsempfehlungen und Werkzeuge, um die Umsetzung der FAIR-Kriterien in der wissenschaftlichen Praxis zu erleichtern. Besonders in Hinblick auf die zunehmende Bedeutung von Open Science und datengetriebener Forschung gewinnen diese Prinzipien stetig an Relevanz – nicht nur zur Erhöhung der Transparenz und Nachnutzbarkeit von Daten, sondern auch zur Förderung der internationalen Zusammenarbeit und Reproduzierbarkeit wissenschaftlicher Ergebnisse.
Forschungsdaten umfassen sämtliche Informationen, die im Verlauf wissenschaftlicher Untersuchungen entstehen, verarbeitet oder analysiert werden. Dazu zählen sowohl analoge Daten, Dokumente und Objekte, die im Rahmen des Forschungsprozesses digitalisiert werden, als auch originär digitale Materialien („born digital“). Diese Daten können selbst Gegenstand der Forschung sein, im Forschungsprozess entstehen oder das Ergebnis wissenschaftlicher Arbeiten darstellen.
Darüber hinaus gehören auch solche Informationen zu den Forschungsdaten, die der Dokumentation und Nachvollziehbarkeit dienen – insbesondere Metadaten. Diese ermöglichen je nach Fachdisziplin auch die Reproduzierbarkeit von Forschungsergebnissen und sind somit ein wesentlicher Bestandteil guter wissenschaftlicher Praxis.
Beispiele für Forschungsdaten sind unter anderem:
Audiovisuelle Aufnahmen,
digitale Repräsentationen analoger Quellen,
Mess- und Beobachtungsdaten,
Befragungsergebnisse,
Texte und digitale Editionen,
Datenbanken und Sammlungen,
Protokolle und methodische Werkzeuge wie Fragebögen,
Software, Quellcode und Simulationen.
Die Deutsche Forschungsgemeinschaft (DFG) betont, dass Quelltexte und Softwareentwicklungen dann als Forschungsdaten zu werten sind, wenn sie zentrale Ergebnisse wissenschaftlicher Arbeit darstellen. Die große Vielfalt der Datentypen verdeutlicht die Heterogenität wissenschaftlicher Disziplinen sowie deren methodischer Ansätze und Erhebungsverfahren.
Forschungsdaten können sich im Verlauf ihrer Bearbeitung in verschiedenen Formen und Zuständen präsentieren – etwa durch unterschiedliche Grade der Aufbereitung, Anreicherung oder Interpretation. Je nach Verwendungszweck und rechtlichen Rahmenbedingungen können sie offen zugänglich, nutzungsbeschränkt oder vollständig nicht öffentlich sein.
Forschungsdatenmanagement bezeichnet die systematische Planung, Organisation, Verarbeitung und Archivierung von Forschungsdaten über den gesamten Datenlebenszyklus hinweg. Ziel ist es, Daten so aufzubereiten und zu sichern, dass sie langfristig – unabhängig von der ursprünglichen Erzeugerin oder dem ursprünglichen Erzeuger – zugänglich, überprüfbar und nachnutzbar bleiben.
Dies umfasst alle Phasen des Forschungsprozesses: von der Erhebung, Auswahl und Transformation der Daten über deren strukturierte Speicherung und Dokumentation bis hin zur Archivierung und möglichen Veröffentlichung. Durch gezielte Maßnahmen an jedem Punkt im Datenlebenszyklus kann sichergestellt werden, dass die wissenschaftliche Aussagekraft der Daten erhalten bleibt, ihre Wiederverwendung durch Dritte ermöglicht wird und eine belastbare Nachweiskette gegeben ist.
Ein durchdachtes Forschungsdatenmanagement trägt wesentlich zur Qualitätssicherung, Transparenz und Reproduzierbarkeit wissenschaftlicher Ergebnisse bei. Es ist heute ein zentraler Bestandteil guter wissenschaftlicher Praxis und wird zunehmend auch von Forschungsförderern eingefordert – etwa in Form von Datenmanagementplänen (DMPs), die bereits zu Projektbeginn erstellt und regelmäßig aktualisiert werden sollten.
Eine Forschungsdatenpolicy ist eine institutionelle Vorgabe – an Hochschulen meist in Form einer Richtlinie –, die den verantwortungsvollen Umgang mit Forschungsdaten während und nach Abschluss eines Forschungsvorhabens regelt. Sie richtet sich in erster Linie an Forschende und definiert Erwartungen, Empfehlungen oder verbindliche Vorgaben hinsichtlich Erhebung, Speicherung, Dokumentation, Veröffentlichung und Archivierung von Forschungsdaten.
Die konkrete Ausgestaltung einer solchen Policy kann je nach Einrichtung stark variieren: in Umfang, Detailtiefe, rechtlicher Verbindlichkeit und dem Grad der verpflichtenden Umsetzung. Während einige Policies lediglich orientierende Leitlinien bieten, formulieren andere verbindliche Regelungen – etwa zur Nutzung institutioneller Repositorien, zur Einhaltung von FAIR-Prinzipien oder zur Erstellung von Datenmanagementplänen.
Forschungsdatenpolicies dienen nicht nur der Qualitätssicherung und Transparenz in der Forschung, sondern unterstützen auch die Einhaltung der Prinzipien guter wissenschaftlicher Praxis sowie die Anforderungen von Drittmittelgebern.
Die Forschungsdatenpolicy der Hochschule Bremen kann hier gefunden werden.
Gro.data ist das institutionelle Repositorium der GWDG (Gesellschaft für wissenschaftliche Datenverarbeitung mbH Göttingen) und dient der strukturierten Speicherung, Veröffentlichung und Archivierung von Forschungsdaten. Es richtet sich an Forschende aus den Trägereinrichtungen der GWDG – insbesondere der Universität Göttingen und der Max-Planck-Gesellschaft – und unterstützt dabei, Daten gemäß den FAIR-Prinzipien zugänglich und nachnutzbar zu machen.
gro.data bietet Funktionen wie DOI-Vergabe, Versionierung, Zugriffssteuerung und die Möglichkeit zur Anreicherung mit Metadaten. Das Repositorium ist Teil der umfassenden FDM-Infrastruktur der GWDG und trägt zur Sicherung guter wissenschaftlicher Praxis bei.
Mit dem Kodex „Leitlinien zur Sicherung guter wissenschaftlicher Praxis“ stellt die Deutsche Forschungsgemeinschaft (DFG) seit 2019 ein zentrales Referenzwerk zur Förderung wissenschaftlicher Integrität bereit. Der Kodex umfasst 19 Leitlinien, die verbindliche Standards für verantwortungsvolles wissenschaftliches Arbeiten formulieren und gleichzeitig einen Orientierungsrahmen für Forschende und Institutionen bieten.
Das Forschungsdatenmanagement (FDM) nimmt innerhalb dieses Kodex einen zentralen Stellenwert ein. Mehrere Leitlinien thematisieren Aspekte wie die Qualitätssicherung, die strukturierte Dokumentation, die transparente Veröffentlichung sowie die langfristige Archivierung von Forschungsdaten. Eine wesentliche Empfehlung besteht darin, alle den Forschungsergebnissen zugrunde liegenden Daten und Materialien in der Regel für mindestens zehn Jahre aufzubewahren – nachvollziehbar dokumentiert und zugänglich.
Auch die Rolle von Forschungssoftware wird hervorgehoben: Ihre sachgemäße Dokumentation und Veröffentlichung gelten ebenfalls als Bestandteil guter wissenschaftlicher Praxis, insbesondere im Hinblick auf Reproduzierbarkeit und Nachvollziehbarkeit von Ergebnissen.
Neben dem DFG-Kodex haben viele Forschungseinrichtungen – wie etwa die Freie Universität Berlin – ergänzende Regelwerke wie Satzungen zur Sicherung guter wissenschaftlicher Praxis erlassen. Diese konkretisieren die allgemeinen Leitlinien auf institutioneller Ebene und schaffen verbindliche Strukturen für ihre Umsetzung.
Weiterführende Informationen:
Deutsche Forschungsgemeinschaft (DFG). 2022. Leitlinien zur Sicherung guter wissenschaftlicher Praxis (Kodex). https://doi.org/10.5281/zenodo.6472827
Ordnung der Hochschule Bremen: Gute wissenschaftliche Praxis
Die informierte Einwilligung ist ein zentraler Bestandteil ethisch verantwortungsvoller Forschung mit Menschen. Forschungsteilnehmer*innen sollen vorab verständlich über das Projekt, die Art der Datenerhebung und den Umgang mit ihren Daten informiert werden, um freiwillig und informiert zustimmen oder ablehnen zu können.
Ist die Verarbeitung personenbezogener Daten vorgesehen, ist die Einwilligung gemäß Art. 6 und 7 DSGVO rechtlich vorgeschrieben. In der Regel erfolgt sie schriftlich; in sensiblen Kontexten kann jedoch auch eine mündliche Zustimmung ausreichen – sofern diese nachvollziehbar dokumentiert wird.
Ein prozessualer Consent, also das wiederholte Einholen der Zustimmung im Projektverlauf, kann sinnvoll sein, wenn sich die Forschung dynamisch entwickelt oder Teilnehmende eng eingebunden sind.
Vorlagen und Hinweise zur Formulierung einer Einwilligung bietet z. B. das FDZ Qualiservice.
Interoperabilität bezeichnet die Fähigkeit verschiedener Systeme, nahtlos Daten auszutauschen und maschinell zu verarbeiten. Sie ermöglicht es, Informationen effizient zu kombinieren, weiterzuverwenden und in automatisierte Arbeitsabläufe einzubinden – ein zentrales Kriterium für die Umsetzung der FAIR-Prinzipien.
Ein wichtiger Baustein hierfür sind interoperable Metadaten, die auf formalen, zugänglichen und allgemein verständlichen Sprachen basieren – idealerweise mit kontrolliertem Vokabular sowie syntaktischer und semantischer Interpretierbarkeit (vgl. GO FAIR).
Metadatenschemata und persistente Identifikatoren (wie DOIs oder ORCIDs) unterstützen dabei, Daten eindeutig zu beschreiben und dauerhaft miteinander zu verknüpfen.
Ein kontrolliertes Vokabular ist eine standardisierte Sammlung von Begriffen, die in einem definierten Kontext verwendet wird, um Eindeutigkeit, Konsistenz und maschinelle Interpretierbarkeit sicherzustellen. Solche Vokabulare entstehen nach festgelegten Regeln und dienen z. B. der eindeutigen Beschreibung von Objekten oder Konzepten.
Sie reichen von einfachen Wortlisten oder Normdaten (z. B. GND) bis hin zu komplexeren Strukturen wie Taxonomien, Klassifikationen oder Thesauri, die auch hierarchische oder semantische Beziehungen zwischen Begriffen abbilden. Kontrollierte Vokabulare sind ein zentrales Element für interoperable Metadaten im Forschungsdatenmanagement.
Langzeitarchivierung bezeichnet die dauerhafte Aufbewahrung digitaler Informationen mit dem Ziel, deren technische Zugänglichkeit, inhaltliche Verständlichkeit sowie Integrität und Authentizität über lange, nicht genau definierte Zeiträume hinweg zu sichern.
Dabei geht es nicht nur um die Speicherung der Daten, sondern auch um gezielte Maßnahmen zur Erhaltung ihrer Lesbarkeit, Nachvollziehbarkeit und korrekten Interpretierbarkeit – etwa durch Formatmigration, Metadatenpflege oder Prüfsummen.
Um die Nachnutzbarkeit urheberrechtlich geschützter Forschungsdaten zu ermöglichen, kann die Vergabe zusätzlicher Nutzungsrechte durch geeignete Lizenzen sinnvoll sein. Besonders offene Lizenzmodelle wie die international anerkannten Creative-Commons-Lizenzen (CC) bieten eine transparente Möglichkeit, festzulegen, unter welchen Bedingungen Daten weiterverwendet werden dürfen.
Eine klare Lizenzierung erhöht nicht nur die Rechtssicherheit für Nachnutzende, sondern fördert auch die Sichtbarkeit und Verbreitung der Daten.
Metadaten sind strukturierte Informationen über Daten oder digitale Ressourcen, etwa zu deren Inhalt, Entstehung, Format oder Nutzung. Sie können gemeinsam mit den Daten oder unabhängig davon gespeichert werden.
Je nach Kontext unterscheidet man zwischen technischen bzw. administrativen und fachlich-inhaltlichen Metadaten. Letztere können – je nach Forschungsfeld – selbst als Forschungsdaten gelten.
Um Metadaten austauschbar und interoperabel zu machen, ist die Verwendung standardisierter Metadatenschemata unerlässlich. So lassen sich Metadaten aus verschiedenen Quellen zusammenführen, verknüpfen und automatisiert weiterverarbeiten.
Ein Metadatenschema ist eine strukturierte Sammlung von Metadaten-Elementen und deren Eigenschaften, die zur Beschreibung digitaler Objekte und ihrer Beziehungen untereinander dient. Es legt fest, welche Informationen über ein Objekt erfasst werden sollen (z. B. Titel, Autor*in, Entstehungsdatum, Format) und wie diese Informationen benannt, strukturiert und interpretiert werden.
Metadatenschemata schaffen damit die Grundlage für eine einheitliche, maschinenlesbare und interoperable Beschreibung von Daten. Sie ermöglichen nicht nur eine effiziente Organisation, Auffindbarkeit und Nachnutzung von Forschungsdaten, sondern auch deren Verknüpfung über unterschiedliche Systeme hinweg.
Je nach Anwendungsbereich und Disziplin existieren verschiedene etablierte Schemata, z. B.:
Dublin Core (allgemein anwendbar)
DataCite (für Forschungsdatenpublikationen)
MODS (für bibliografische Daten)
TEI (für geisteswissenschaftliche Texteditionen)
Oft lassen sich Metadatenschemata auch anpassen oder miteinander kombinieren, etwa durch sogenannte Application Profiles, die spezifische Anforderungen einzelner Fachcommunities abbilden.
Ein konsistentes und gut dokumentiertes Metadatenschema ist zentral für die Langzeitarchivierung, maschinelle Verarbeitung und Wiederverwendbarkeit von Forschungsdaten – und damit ein wesentliches Element der FAIR-Prinzipien.
Ein Metadatenstandard ist ein formales Regelwerk, das ein einheitliches Verständnis und eine konsistente Verwendung von Metadaten innerhalb bestimmter Anwendungsbereiche oder Fachkontexte ermöglicht. Er legt fest, wie Metadaten strukturiert, benannt und interpretiert werden – sowohl in syntaktischer (Form) als auch in semantischer (Bedeutung) Hinsicht.
Durch solche Standards wird gewährleistet, dass Metadaten aus unterschiedlichen Quellen kompatibel, vergleichbar und maschinell verarbeitbar sind. Sie bilden die Grundlage für Interoperabilität, z. B. im Rahmen von Dateninfrastrukturen, Repositorien oder Langzeitarchivierungsprozessen.
Metadatenstandards werden in der Regel von Normierungs- und Standardisierungsorganisationen wie der ISO, dem W3C oder fachspezifischen Communities (z. B. DDI, DataCite, TEI) entwickelt und gepflegt. Sie spielen eine zentrale Rolle für die Umsetzung der FAIR-Prinzipien und für den erfolgreichen Austausch und die Nachnutzung wissenschaftlicher Daten.
Die NFDI ist eine bundesweit koordinierte Initiative zum Aufbau einer verteilten, vernetzten Infrastruktur für Forschungsdaten. Ziel ist es, die Datenbestände der Wissenschaft systematisch zu erschließen, nachhaltig zu sichern, zugänglich zu machen und national wie international zu vernetzen.
Die NFDI wird in fachlich oder methodisch ausgerichteten Konsortien organisiert, die eigenverantwortlich Services, Standards und Beratungsangebote für das Forschungsdatenmanagement entwickeln. Dieser Aufbau erfolgt als wissenschaftsgetriebener Prozess, begleitet durch regelmäßige Ausschreibungs- und Auswahlverfahren.
Die Initiative wurde von der Gemeinsamen Wissenschaftskonferenz (GWK) ins Leben gerufen und wird von Bund und Ländern gemeinsam finanziert. Die Deutsche Forschungsgemeinschaft (DFG) übernimmt die Begutachtung der Anträge. In drei Förderrunden zwischen 2020 und 2021 wurden insgesamt 27 Konsortien ausgewählt. Die ersten neun Konsortien starteten im Oktober 2020 ihre Arbeit.
Die NFDI bildet das Rückgrat einer national koordinierten Forschungsdatenstrategie und leistet einen entscheidenden Beitrag zur Umsetzung der FAIR-Prinzipien in der deutschen Wissenschaftslandschaft.
Weitere Informationen: NFDI-Überblicksseite
Open Access steht für den freien und unentgeltlichen Zugang zu wissenschaftlichen Publikationen und Daten im digitalen Raum. Ziel ist es, Forschungsergebnisse möglichst ohne rechtliche, technische oder finanzielle Barrieren zugänglich zu machen – für Wissenschaft, Bildung und Gesellschaft.
Dabei behalten Autor*innen ihre Urheberrechte, stellen ihre Arbeiten jedoch unter Lizenzen bereit, die eine weite Nachnutzung, Weiterverbreitung und langfristige Archivierung ermöglichen. Besonders verbreitet sind hierfür Creative-Commons-Lizenzen.
Man unterscheidet dabei zwei Hauptwege:
Gold Open Access: Die Veröffentlichung erfolgt direkt in frei zugänglichen Zeitschriften oder Plattformen.
Green Open Access (Selbstarchivierung): Eine bereits publizierte Version wird zusätzlich in einem Repositorium zugänglich gemacht.
Open Access ist ein zentrales Element von Open Science und wird von vielen Forschungsförderern (z. B. der EU, DFG oder WHO) unterstützt oder sogar verpflichtend eingefordert. Er trägt zur Transparenz, Nachvollziehbarkeit und globalen Sichtbarkeit wissenschaftlicher Arbeiten bei – insbesondere in Hinblick auf öffentlich finanzierte Forschung.
Open Data bezeichnet frei zugängliche und nachnutzbare Daten, die von Dritten ohne technische, rechtliche oder finanzielle Barrieren verwendet, weiterverbreitet und verarbeitet werden dürfen – sei es zu wissenschaftlichen, gesellschaftlichen oder wirtschaftlichen Zwecken.
Nutzungseinschränkungen sind nur in dem Maße zulässig, wie sie den offenen Charakter der Daten wahren – etwa durch die Verpflichtung zur Namensnennung der Urheber*innen (z. B. über eine CC BY-Lizenz).
Ziel von Open Data ist es, durch Transparenz, Teilhabe und Wiederverwendbarkeit Innovation, Forschung und Zusammenarbeit zu fördern. Insbesondere in der Wissenschaft leisten offene Forschungsdaten einen wichtigen Beitrag zur Reproduzierbarkeit von Ergebnissen, zur Effizienzsteigerung in der Forschung und zur gesellschaftlichen Wissensvermehrung.
Open Data ist eng verknüpft mit den FAIR-Prinzipien sowie mit den Grundsätzen von Open Science und wird zunehmend auch von Förderorganisationen und wissenschaftspolitischen Strategien eingefordert oder unterstützt.
Eine Ontologie ist ein formales, strukturiertes Modell, das zur Beschreibung und systematischen Darstellung eines bestimmten Fachgebiets oder Gegenstandsbereichs dient. Sie besteht aus definierten Begriffen (Klassen), deren Eigenschaften (Attributen) sowie den Beziehungen (Relationen) zwischen diesen Begriffen.
Ontologien ermöglichen es, Wissen in einer maschinenlesbaren Form abzubilden, sodass komplexe Zusammenhänge nachvollziehbar, interpretierbar und automatisiert verarbeitet werden können. Sie bilden die Grundlage für Anwendungen wie semantische Suche, Wissensmanagement und Datenintegration.
Durch den Einsatz von Ontologien wird eine gemeinsame Sprache und ein gemeinsames Verständnis innerhalb einer Fachcommunity geschaffen, was insbesondere in interdisziplinären Kontexten von großer Bedeutung ist.
Die Open Researcher and Contributor ID (ORCID iD) ist ein international anerkannter, persistenter Identifikator, der Forschende eindeutig identifiziert. Die ORCID iD ist verlags- und institutionsunabhängig und kann dauerhaft für die Verknüpfung mit wissenschaftlichen Publikationen, Projekten oder Daten genutzt werden. Sie besteht aus 16 Ziffern, dargestellt in vier Viererblöcken (z. B. 0000-0002-2792-2625).
ORCID ist bei vielen Verlagen, Universitäten und Forschungseinrichtungen etabliert und wird etwa in Begutachtungs- und Publikationsprozessen eingesetzt, um die Zuordnung von wissenschaftlichem Output zu erleichtern und Fehler bei der Namenszuordnung zu vermeiden.
In Deutschland fördert die Deutsche Forschungsgemeinschaft (DFG) seit 2016 das Projekt „ORCID DE“, das die Implementierung der ORCID iD an Hochschulen und Forschungseinrichtungen nachhaltig unterstützt. Auch regionale Arbeitskreise, wie der AK Forschungsdatenmanagement in Baden-Württemberg, empfehlen die Nutzung von ORCID zur Verbesserung des Forschungsdatenmanagements.
Ein Persistenter Identifikator (PID) ist ein dauerhafter, digitaler Code aus Ziffern und/oder Buchstaben, der einem Datensatz oder einem anderen digitalen Objekt eindeutig zugeordnet wird und direkt auf dieses verweist.
Bekannte PID-Systeme sind beispielsweise der DOI (Digital Object Identifier) und die URN (Uniform Resource Name). Im Gegensatz zu herkömmlichen URLs verweist ein PID nicht auf den aktuellen Speicherort eines Objekts im Internet, sondern auf das Objekt selbst.
Sollte sich der Speicherort ändern, wird die Verknüpfung im PID-System aktualisiert, während der Identifikator unverändert bleibt. Dadurch gewährleistet ein PID, dass ein Datensatz oder digitales Objekt langfristig auffindbar, zugänglich und zitierfähig bleibt.
Personenbezogene Daten sind alle Informationen, die sich auf eine identifizierte oder identifizierbare natürliche Person beziehen. Das bedeutet, dass die Person entweder direkt genannt wird oder durch Kombination verschiedener Informationen eindeutig bestimmt werden kann.
Auch einzelne Teilinformationen, die zusammengeführt zur Identifikation einer Person führen, gelten als personenbezogene Daten. Beispiele hierfür sind Name, Adresse, Telefonnummer, Geburtsdatum, aber auch Daten wie IP-Adressen oder Standortdaten, sofern daraus Rückschlüsse auf eine Person möglich sind.
Sowohl die Datenschutz-Grundverordnung (DSGVO) als auch das Bundesdatenschutzgesetz (BDSG) definieren personenbezogene Daten als Informationen, die sich auf eine identifizierte oder identifizierbare natürliche Person beziehen. Dazu zählen beispielsweise Name, Identifikationsnummer, Beruf oder Nationalität.
Besonders schützenswert sind sensible Daten, etwa Angaben zur ethnischen Herkunft, politischen Meinungen, religiösen Überzeugungen, Gesundheit oder dem Sexualleben, die einem strengeren Datenschutz unterliegen.
Weiterführende Informationen zum Thema finden Sie auf forschungsdaten.info.
ReadMe-Dateien enthalten kompakte und strukturierte Informationen zu Forschungsdaten, Forschungsdatensätzen oder gesamten Forschungsdatenkollektionen. Sie liegen häufig als einfache Textdatei (.txt), Markdown-Datei (.md) oder in TEI-XML-Format (.xml) vor.
Solche Dateien begleiten Forschungsdaten entweder bei der Veröffentlichung oder dienen der organisierten Ablage und Dokumentation am Ende eines Projekts, etwa auf Institutsservern oder in digitalen Repositorien.
In einer ReadMe-Datei werden zentrale Metadaten zum Forschungsprojekt festgehalten, beispielsweise der Projektname, beteiligte Personen, Fördergeber sowie Hinweise zu Benennungsstandards, Ordnerstrukturen, Abkürzungen und verwendeten Normdaten. Zudem dokumentieren sie Änderungen, Versionierungen und wichtige Informationen zur Datenqualität, um die Nachvollziehbarkeit und langfristige Nutzung der Daten zu gewährleisten.
Repositorien sind digitale Speicherorte, in denen Forschungsdaten abgelegt und veröffentlicht werden können.
Es ist empfehlenswert, Forschungsdaten in einem fachspezifischen Repositorium zu veröffentlichen, da dort meist eine höhere Sichtbarkeit und Wirkung (Impact) erzielt wird. Falls kein passendes Fachrepositorium bekannt ist, helfen Suchportale wie re3data (eine Suchmaschine für Repositorien) oder Risources (unter Katalog/Kategorie/Open-Access-Repositorium), geeignete Repositorien zu finden. Auch die Ansprechpartner*innen für Forschungsdatenmanagement (FDM) an Ihrer Hochschule oder unser Projektteam unterstützen Sie gern bei der Auswahl.
Wenn eine fachbezogene Veröffentlichung keine Rolle spielt, sollte ein institutionelles Repositorium gewählt werden – meist das der eigenen Einrichtung. Für unseren Verbund steht hierfür beispielsweise GRO.data zur Verfügung.
Ist auch dies nicht möglich oder sinnvoll, können generische Repositorien wie Zenodo oder Figshare genutzt werden.
Bei der Aufbewahrung digitaler Forschungsdaten werden folgende Aspekte berücksichtigt:
Speicherung: Bezieht sich auf die technischen Verfahren und Methoden zur physischen Ablage von Daten in Rechner- und Informationssystemen, etwa während der Laufzeit eines Projekts oder Forschungsvorhabens.
Sicherung: Umfasst Maßnahmen zur Gewährleistung der Datensicherheit, wie Zugriffskontrollen, Zugriffsbeschränkungen und Verschlüsselungen, die unbefugten Zugriff verhindern sollen und so die Integrität und Vertraulichkeit der Daten schützen.
In Deutschland regelt das Urheberrechtsgesetz die Nutzung literarischer, künstlerischer und wissenschaftlicher Werke, sofern diese die dort festgelegten Schutzvoraussetzungen erfüllen. Sofern keine weitergehenden Nutzungsrechte etwa durch eine Lizenz, wie beispielsweise eine Creative Commons-Lizenz, eingeräumt wurden, ist die Nachnutzung der Werke nur im Rahmen der eingeschränkten Schrankenregelungen des Urheberrechts möglich.
Ob Forschungsdaten unter das Urheberrecht fallen, hängt davon ab, ob sie die Kriterien der geistigen Schöpfungshöhe erfüllen oder ob das Datenbankschutzrecht Anwendung findet. Da dies im Einzelfall geprüft werden muss, ist im Zweifelsfall eine fachkundige rechtliche Beratung empfehlenswert.
Um die Nachnutzbarkeit von Forschungsdaten zu maximieren, die grundsätzlich dem Urheberrecht unterliegen können, empfiehlt es sich, zusätzliche Nutzungsrechte durch entsprechende Lizenzen zu vergeben. Solche Lizenzierungen fördern häufig die Nutzung der Daten in der Wissenschaft und können so den Bekanntheitsgrad der Forschenden über die eigene Fachcommunity hinaus steigern.
Daten verändern sich im Laufe der Forschung häufig. Daher ist es sinnvoll, verschiedene Arbeitsstände durch Versionierung klar zu kennzeichnen und nachvollziehbar zu machen. Dabei sollte ein einfaches, vorher festgelegtes Schema verwendet werden, zum Beispiel Version 1.3 oder 2.1.4. Die Versionierung kann manuell oder mit spezieller Software wie git erfolgen. Wichtig ist, sowohl während des Forschungsprozesses verschiedene Datenversionen zu markieren als auch Änderungen an bereits veröffentlichten Datensätzen zu dokumentieren, damit Nutzende die richtige Version zitieren können.
Zugriffskontrolle bezeichnet eine Sicherheitsmaßnahme, die sicherstellt, dass nur berechtigte Personen oder Systeme Zugriff auf bestimmte Daten, Ressourcen oder Funktionen erhalten. Sie basiert auf der Kombination von Authentifizierung – also der Überprüfung der Identität einer Person oder eines Systems – und Autorisierung, bei der festgelegt wird, welche Rechte und Zugriffsprivilegien diese Identität besitzt.
Durch Zugriffskontrollen wird verhindert, dass unbefugte Nutzerinnen und Nutzer vertrauliche oder schützenswerte Daten einsehen, verändern oder löschen können. Dabei kommen unterschiedliche Methoden zum Einsatz, wie Passwörter, Zwei-Faktor-Authentifizierung, Rollen- oder Rechtevergaben sowie technische Maßnahmen wie Firewalls oder Verschlüsselungen.
Im Kontext des Forschungsdatenmanagements ist Zugriffskontrolle besonders wichtig, um sensible oder personenbezogene Daten zu schützen und gleichzeitig den berechtigten Wissenschaftlerinnen und Wissenschaftlern den Zugang zu ermöglichen. Je nach Sensibilität der Daten kann die Zugriffskontrolle flexibel gestaltet werden – von offenen, frei zugänglichen Daten bis hin zu streng geschützten, nur für bestimmte Nutzergruppen einsehbaren Datensätzen.
Eine gut implementierte Zugriffskontrolle unterstützt zudem die Nachvollziehbarkeit, da protokolliert wird, wer wann auf welche Daten zugegriffen hat, was auch für Auditierungen und die Einhaltung rechtlicher Vorgaben relevant ist.