Forschungsdaten zum Sprechen bringen

Sie sind das Herzstück nahezu aller Forschungsprojekte: Daten. Was die wissenschaftlich erhobenen Zahlen bedeuten, lässt sich meist erst aus ihrer grafischen Darstellung ablesen. Neuroforscher Dr. Jan Broder Engler hat mit „Tidyplots“ ein einfach anzuwendendes Tool zur Datenvisualisierung entwickelt.


Text: Katja Strube, Foto: Axel Kirchhof, Grafiken: Jan Broder Engler

(Scroll down to the English version)

„Was sagen mir die in der wissenschaftlichen Forschung erhobenen Daten?“ Wenn Dr. Jan Broder Engler, Senior Scientist im Institut für Neuroimmunologie und Multiple Sklerose (INIMS), Experimente durchführt, steht für ihn eine Darstellung der erhobenen Daten nicht erst am Ende des Forschungsprojekts. „Datenvisualisierung ist vom ersten Tag an essentiell, um die Richtung des weiteren Verlaufs der Forschungen bestimmen zu können“, sagt er. Bei einer Ausgangsfrage wie etwa der, wie das Nervensystem auf eine Entzündung reagiert, werden Hunderttausende, manchmal Millionen von Datenpunkten erhoben – zum Beispiel Mikroskopie-, Beobachtungs- und Messdaten. „Bei der Arbeit mit Sequenzierungsdaten und Zellanalysen häufen sich schnell sehr große Datenmengen an“, so der Forscher. Wie kommt man dann von der wissenschaftlichen Ausgangsfrage zu transparenten und reproduzierbaren Ergebnissen?

Diagramme ohne Programmierkenntnisse erstellen

Um die visuelle Darstellung der Daten in Diagrammen zu vereinfachen, hat Dr. Engler ein eigenes Tool mit dem Namen „Tidyplots“ entwickelt – ein einfach anzuwendendes Programm, das Open Source, also mit offenem Quellcode, kostenfrei bereitgestellt wird und per intuitiver Syntax bedient wird. Das Erstellen hochwertiger wissenschaftlicher Diagramme wird dadurch auch ohne tiefgehende Programmierkenntnisse möglich. „Das Programm beruht auf der Programmiersprache ‚R‘ und eignet sich besonders für Forschende, die ihre Datenanalyse und -visualisierung reproduzierbarer und effektiver gestalten wollen“, erläutert der Entwickler. Neben der Darstellung von Datenpunkten und deskriptiver Statistik, werden auch Hypothesen-Testung und Annotationen abgedeckt.

Jan Broder Engler

Welche Form der Darstellung man wählt, ob etwa ein klassisches Streu- oder Liniendiagramm, ein Balken- oder Kuchendiagramm, eine Heatmap oder einen Violin-Plot, ergibt sich in der Regel aus der Art der Daten, so Dr. Engler. „Dann bleibt nur noch die Frage, was auf der X- und Y-Achse dargestellt werden soll und ob eine weitere Variable für die Kodierung der Farben im Plot verwendet werden soll. So lassen sich auch komplexe Darstellungen leicht realisieren“, erläutert er. Traditionelle, manuelle Workflows kämen dabei schon lange an ihre Grenzen. Statt Werte in Excel-Tabellen einzutragen, händisch zu verrechnen und in eine Graphik-Software zu übertragen, liest Tidyplots direkt die Rohdaten ein. „Dies verringert Übertragungsfehler und sorgt zudem für eine höhere Flexibilität bei der Austestung verschiedener Darstellungsformen“, so der Forscher weiter.

Likes aus der Forschungscommunity

Dass der Neuroimmunologe auch programmiert, gehört nicht zu seiner engeren Jobbeschreibung. Sein Interesse für Digitalisierung, das ihn schon seit seiner Schulzeit begleitet, stößt allerdings im UKE auf offene Ohren. Auch aus der Forschungscommunity gibt es Likes und positives Feedback für sein Tool. Innerhalb weniger Wochen wurde es vielfach erwähnt und in sozialen Netzwerken geteilt. Regelmäßig stellt Dr. Engler nun auf der Plattform Github Aktualisierungen bereit und berücksichtigt dabei nach Möglichkeit Anfragen von Nutzer:innen nach weiteren Funktionen.

Der Wissenschaftler, Vater von zwei Söhnen (vier und sechs Jahre alt), macht sich zudem Gedanken über Publikationsformate. Wie lassen sich etwa wissenschaftliche Erkenntnisse am besten teilen? „Übergreifende Kommunikation ist sehr wichtig – wir dürfen nicht nur in klassischen Formen wie Fachpublikationen oder Pressemitteilungen denken“, sagt Dr. Engler. „Letztendlich sollten wir als Forschende im Blick behalten, gesellschaftlich relevante Erkenntnisse adressatengerecht zu kommunizieren. Ein Graph sagt dabei mitunter mehr als tausend Worte.“

Weitere Infos auf der Webseite von Tidyplots.

Bringing Research Data to Life

Data is at the heart of almost every research project. However, the true meaning of scientifically collected numbers often only becomes clear through their graphical representation. Neuroimmunologist Dr. Jan Broder Engler has developed “Tidyplots”, an easy-to-use tool for data visualization.

“What do the data collected in scientific research actually tell me?” For Dr. Jan Broder Engler, Senior Scientist at the Institute for Neuroimmunology and Multiple Sclerosis (INIMS), visualizing data is not just the final step in a research project. “From day one, data visualization is essential for determining the direction of further research,” he explains. When investigating fundamental questions—such as how the nervous system responds to inflammation—hundreds of thousands, sometimes even millions, of data points are generated. These include microscopy images, observational records, and measurement data. “Working with state-of-the-art methods quickly leads to enormous amounts of information,” he adds. So how can researchers transform raw data into transparent and reproducible results?

Creating Charts with Minimal Coding Skills

To simplify the visual representation of data in charts, Dr. Engler developed “Tidyplots”, a user-friendly, open-source tool with an intuitive syntax. This program enables researchers to create high-quality scientific diagrams without advanced programming knowledge. “The software is based on the programming language ‘R’ and is particularly useful for researchers looking to make their data analysis and visualization more reproducible and efficient,” he explains. In addition to plotting data points and descriptive statistics, the tool also supports hypothesis testing and annotations. The choice of visualization—whether a scatter plot, line plot, bar chart, pie chart, heatmap, or violin plot—depends on the nature of the data, says Dr. Engler. “The main questions are what to display on the X- and Y-axes and whether an additional variable should be used for color coding in the plot. This makes it easy to create even complex visualizations.” Traditional, manual workflows have long reached their limits in this area. Instead of manually entering values into Excel, calculating them by hand, and transferring them to a graphics program, Tidyplots reads raw data directly. “This reduces errors and offers greater flexibility in testing different types of visualization,” he adds.

Feedback from the Research Community

Programming is not officially part of Dr. Engler’s job description as a neuroimmunologist. However, his long-standing passion for digitalization is well received at the University Medical Center Hamburg-Eppendorf (UKE). The research community has also responded positively to his tool, with numerous mentions and shares on social media within just a few weeks. Dr. Engler regularly updates Tidyplots on the platform GitHub, incorporating user feedback and requests for new features whenever possible.

Beyond his work in data visualization, the scientist and father of two young sons (ages four and six) is also interested in alternative publication formats. How can scientific findings be shared most effectively? “Cross-disciplinary communication is crucial—we must think beyond traditional formats like journal articles and press releases,” he says. “Ultimately, we as researchers should ensure that relevant insights are communicated effectively. Here, a graph often says more than a thousand words.”

More information is available on the Tidyplots website.