Daten zu: Elektronische Laborbücher an der TU Darmstadt - Beispiel für ein strategisches Vorgehen
Loading...
Date
2020-07-09
Journal Title
Journal ISSN
Volume Title
Publisher
Abstract
Description
Die Daten entstanden im Rahmen eines (Bibliotheks-)Referendar-Projekts zum
Thema Elektronische Laborbücher (ELN). Die Umfrage "**Elektronische
Laborbücher im akademischen Umfeld - Eine Umfrage zur Nutzung an der
Technischen Universität Darmstadt** " soll die Verbreitung und typischen
Nutzungsszenarien von ELNs untersuchen und das Thema für ein
universitätsweites Forschungsdatenmanagement aufbereiten.
Die Daten wurden außerdem für eine Masterarbeit (Library & Information
Science) an der Humboldt-Universität zu Berlin verwendet.
Der vollständige Fragebogen findet sich in deutscher und englischer Sprache in
der Datei: _fragebogen.pdf_. Die Umfrage wurde durchgeführt mit Hilfe der
Hochschuldidaktischen Arbeitsstelle unter Verwendung der Software **EvaSys**.
Zeitraum der Datenerhebung:
* 08.03.2018 bis 02.04.2018
Zielgruppe:
* Alle Mitglieder der natur- und ingenieurwissenschaftlichen Fachbereiche an der Technischen Universität (TU) Darmstadt.
* Insgesamt haben 460 Personen an der Umfrage teilgenommen.
#### Struktur der Rohdaten
Die Ergebnisdaten der Umfrage wurden von der Hochschuldidaktischen
Arbeitsstelle in sechs CSV-Dateien (zwecks Zwischenstandsanalyse)
bereitgestellt:
* _sys_34-Befragung_zu_Elektronischen_Laborbüchern_
* _sys_34-Befragung_zu_Elektronischen _Laborbüchern_ -_Studenten - Gruppe_1_
* _sys_34-Befragung_zu_Elektronischen _Laborbüchern_ -_Studenten - Gruppe_2_
* _sys_34-Befragung_zu_Elektronischen _Laborbüchern_ -_Studenten - Gruppe_3_
* _sys_34-Befragung_zu_Elektronischen _Laborbüchern_ -_Studenten - Gruppe_4_
* _sys_34-Erster Datensatz mit Schreibfehlern (in einer der Fragen)_
und dann zur Datei _eln_data.csv_ zusammengeführt. Vorgehen unter Linux via:
cat *.csv > eln_data.csv
#### Aufbereitung der Rohdaten
Vor der Auswertung wurden in den Rohdaten folgende Veränderungen vorgenommen
(_eln_data.csv_ -> _eln_data_mod.csv_):
* Zusammenführung von verschiedenen aber gleichwertigen Positionsbezeichnungen (z.B. Akademischer Rat zu Leitender Wissenschaftlicher Mitarbeiter) und Fachbezeichnungen für eine einheitliche Zusammenfassung universitärer Statusgruppen & Fachbereiche/Institute.
* Die Spaltenbezeichnungen der Teilergebnisse wurden entfernt und für die leichtere Handhabbarkeit auf einen durchgehenden Index reduziert. (z.B. In welcher Stellung befinden Sie sich? -> 00001)
* Streichung eines einzigen Nicht-ELN-Nutzers aus dem Fachbereich der Mathematik, weil es sich bei der Mathematik nicht um ein Fach mit starker Labor(buch)kultur handelt (und diese Person auch keins verwendete).
Die für die Umfrage verwendete Software **EvaSys** gibt die Rohdaten in Form
von Zahlen aus, die mithilfe des Kodebuchs (codebook.pdf) wieder in die
ausgeschriebenen Antworten (und Skalen) zurückübersetzt werden müssen. Diese
Schlüssel-Werte Paare sind zudem für die maschinelle Verarbeitung in der Datei
_parm.yml_ festgehalten.
Bei manchen Skalenantworten verzichtete die Software EvaSys (im Kodebuch)
zudem auf die explizite Angabe der ursprünglichen Werte (Ursache unklar). In
diesen Fällen folgt die Reihenfolge der Antworten trotzdem der in der Frage
angegebenen Skala, z.B. wurden als Antwortmöglichkeit fünf Stufen von _sehr
herausfordernd_ bis _unproblematisch_ angegeben, so übersetzt die Software das
in die Werte 1 bis 5, wobei 1 = sehr herausfordernd und 5 = unproblematisch
gilt.
#### Verarbeitung der Daten
Die Daten wurden mittels der Python-Skripte (Ordner **code/**): _analysis.py_
und _gfx.py_ ausgewertet und visualisiert. Wichtige Parameter zur Auswertung
sind in den YAML-Dateien: _jobs.yml_ und _parm.yml_ als Schlüssel-Werte-Paare
hinterlegt. Die Auswertung basiert ausschließlich auf der Datei
_eln_data_mod.csv_ und erfolgt immer komplett in einem Durchlauf.
Das Skript _analysis.py_ organisiert die Auswertungen anhand der Vorgaben in
der Steuerungsdatei _jobs.yml_. Darin ist festgelegt welche Frage nach welchem
Muster ausgewertet werden soll (z.B. mit oder ohne Skala, als Gesamtübersicht
oder anhand bestimmter Kategorien gruppiert).
Der Code für die die Erstellung aller Abbildungen (mit
[Plotly](https://plotly.com/)) findet sich in der Datei _gfx.py_.
Die Verwaltung der Software-Packages und ihrer Abhängigkeiten für die
verwendete Python-Version 3.7 erfolgte durch die Software
[Poetry](https://python-poetry.org/). Für die Erzeugung einer passenden
Entwicklungsumgebung finden sich die Dateien _poetry.lock_ und
_pyproject.toml_ im Ordner **code/**.
poetry shell
poetry update
#### Ergebnisse
Die aggregierten Daten im Ordner **data/** folgen der folgenden Konvention:
* Das Präfix _gfx__ ist (nur) ein Hinweis darauf, dass sich diese Daten sinnvoll ohne weitere Bearbeitung plotten lassen.
* Die Analyse(n) wurden anhand der folgenden Kernkategorien (z.B. ELN-Nutzer & Nicht-Nutzer) durchgeführt:
* __discipline__ = Fachliche Ausrichtung der Teilnehmer
* __focus__ = Experimentelle bzw. theoretische Arbeitsweise
* __user__ = Nutzer und Nicht-Nutzer von Elektronischen Laborbüchern
* __position__ = Zugehörigkeit zu einer universitären Statusgruppe
* Fragen, die eine Skala beinhalten wurden entsprechend einer passenden Umrechnungstabelle in _parm.yml_ (prefix = _scale_dict__) auf einen repräsentativen Wert umgerechnet. Diese Auswertungen wurden mit __scale__ (bzw. __no-scale__) gekennzeichnet.
* Die Summe aller Teilnehmerantworten auf eine bestimmte Kategorie wird in gesonderten Dateien ausgewiesen (und nicht als Extra-Spalte in der dazugehörigen Tabelle). Dies wird durch das Kürzel __gesamt__ angedeutet. Bei der Auswertung im Modus __no-scale__ ergibt sich (natürlich) für jede der untersuchten Kernkategorien (__user__ , __focus__ , __position__ & __discipline__) ein sehr ähnliches Ergebnis. Nur ähnlich und nicht gleich (wie man es vielleicht auf den ersten Blick erwarten würde) - weil natürlich nicht jeder Teilnehmende alle Fragen vollständig beantwortet hat, d.h. die Gesamtzahl der Antworten nicht gleich ist.
Für die Auswertung anhand der Fachdisziplin wurde neben der im Fragebogen
angebotenen Kategorien eine stärker zusammenfassende Aufteilung verwendet
(Maschinenbau, Chemie, Physik, rest. Ing.-Wis., rest. Nat.-Wis.) Die
Verwendung dieser Aufteilung wird anhand der Kürzel _cluster-one_ bzw. _no-
cluster_ angegeben. Aufgrund einer Designschwäche erzeugt das Script
automatisch auch entsprechende Dateien für die anderen Kernkategorien - was zu
ungewollten und unsinnigen Dubletten führt. So besteht z.B. kein Unterschied
zwischen der Datei _gfx_cluster-one_scale_user_lab.csv_ und _gfx_no-
cluster_scale_user_lab.csv_ , weil hier die Arbeitsweise und nicht die
fachliche Ausrichtung der Teilnehmer betrachtet wird. Glücklicherweise lassen
sich Dubletten solch kleiner Dateien schnell mit entsprechenden Programmen
(unter Linux z.B. **rmlint**) finden und bei Bedarf löschen.
Die betrachtete Frage wird durch ein Stichwort am Ende des Dateinamen (und der
Angabe des Index der Frage in _eln_data_mod.csv_ in der Datei) vermerkt.
Stichwort | Frage
---|---
**access** | Wer hat alles Zugriff auf Ihr (elektronisches oder papiergebundenes) Laborbuch?
**automation** | Schätzen Sie bitte den Automatisierungsgrad der Datendokumentation in Ihrem Arbeitsumfeld!
**barriers** | Welche Aspekte sehen Sie als Herausforderung bei der Einführung eines elektronischen Laborbuchs?
**central_eln** | Wäre ein von der TU Darmstadt zentral für alle angebotenes elektronisches Laborbuch für Sie interessant?
**challenges** | Welche Aspekte haben sich Ihnen tatsächlich als Herausforderungen bei der Einführung eines elektronischen Laborbuchs gestellt?
**comparison** | Sehen Sie bezüglich der folgenden Aspekte ein elektronisches (ELN) oder ein papiergebundenes Laborbuch (PLN) im Vorteil?
**eln** | Arbeiten Sie zurzeit mit einem elektronischen Laborbuch (ELN), um Ihre Experimente und Projekte zu dokumentieren und/oder mit anderen zu teilen?
**features** | Welche Funktionen würden Sie - neben der Dokumentation von Experimenten - von einem elektronischen Laborbuch erwarten?
**financing** | Wären Sie bereit für ein ELN Geld auszugeben?
**happyness** | Wie zufrieden sind Sie mit dem genutzten ELN?
**lab** | Schätzen Sie bitte den Automatisierungsgrad & Standardisierungsgrad der Datendokumentation in Ihrem Arbeitsumfeld!
**understanding** | Wer kann die Einträge in Ihrem Laborbuch nachvollziehen und gegebenenfalls die beschriebenen Experimente/Messungen wiederholen?
#### Nutzungsrechte und Lizenz
Für den bestmöglichen Datenschutz wird ein Einblick in die Rohdaten nur auf
Anfrage ermöglicht. Die aggregierten (und vollständig anonymisierten) Daten
können hingegen nach [CC-
BY-4.0](https://creativecommons.org/licenses/by/4.0/)) genutzt werden. Weitere
Zusammenstellungen können auf Anfrage an die Autoren bereitgestellt werden.
Keywords
Citation
Endorsement
Related Resources
Is Referenced By
https://doi.org/10.17192/bfdm.2020.2.8282Project(s)
Faculty
Collections
License
Except where otherwise noted, this license is described as CC BY 4.0 - Attribution 4.0 International
Version History
You are currently viewing version no. 2 of the item. This is the most recent version.