Digitale Datenspuren nutzbar machen

Datenspenden als Methode der Kommunikationswissenschaft


Sitzung 5️⃣: Datenspende-Studien aus Sicht der Forscher:innen

Valerie Hase (Ludwig-Maximilians-Universität München)

👉 github.com/valeriehase & valerie-hase.com

1) Wie laufen Datenspende-Studien aus Sicht der Forscher:innen ab?

image of lupe

Quelle: Foto von Markus Winkler auf Unsplash

Welche methodischen Entscheidungen müssen Forscher:innen treffen, die Datenspende-Studien durchführen wollen? 🤔

Ablauf - Perspektive der Forschung

process of data donation study

Grafik. Ablauf einer Datenspende-Studie - Perspektive der Forschung

Schritt I: Forschungsdesign

process of data donation study

Grafik. Ablauf einer Datenspende-Studie - Perspektive der Forschung

Schritt I: Forschungsdesign

Zentrale Entscheidungen:

  • Welche theoretischen Fragen wollen & können wir beantworten?
  • Welches Datenspende-Tool nutzen wir wie?
  • Wie wird die Datenspende in die Umfrage integriert?

Schritt I: Forschungsdesign

Zentrale Entscheidungen:

  • Welche theoretischen Fragen wollen & können wir beantworten?
  • Welches Datenspende-Tool nutzen wir wie?
  • Wie wird die Datenspende in die Umfrage integriert?

Schritt I: Forschungsdesign - Forschungsfragen

Bitte überlegt euch eine Forschungsfrage/Hypothese, die ihr auf Basis einer Datenspende-Studie beantworten wollen würdet. 🤔

Schritt I: Forschungsdesign

Zentrale Entscheidungen:

  • Welche theoretischen Fragen wollen & können wir beantworten?
    • Können wir theoretische Konzepte mit Datenspenden operationalisieren?
    • Können wir relevante Grundgesamtheiten abbilden?

Schritt I: Forschungsdesign

Zentrale Entscheidungen:

  • Welche theoretischen Fragen wollen & können wir beantworten?
  • Welches Datenspende-Tool nutzen wir wie?
  • Wie wird die Datenspende in die Umfrage integriert?

Schritt I: Forschungsdesign - Datenspende-Tool

Datenspende-Tools

Schritt I: Forschungsdesign - Datenspende-Tool

  • Teilnehmer:innen laden DDPs hoch
  • Daten werden lokal (d.h. auf Rechner der Teilnehmer:innen) gefiltert

Schritt I: Forschungsdesign - Datenspende-Tool

  • Teilnehmer:innen laden DDPs hoch
  • Daten werden lokal (d.h. auf Rechner der Teilnehmer:innen) gefiltert
process of data donation study

Grafik. Ablauf einer Datenspende-Studie - Perspektive der Forschung

Schritt I: Forschungsdesign - Datenspende-Tool

  • Teilnehmer:innen laden DDPs hoch
  • Daten werden lokal (d.h. auf Rechner der Teilnehmer:innen) gefiltert
  • Daten werden lokal anonymisiert, z. B. über Whitelists
process of data donation study

Grafik. Ablauf einer Datenspende-Studie - Perspektive der Forschung

Schritt I: Forschungsdesign - Datenspende-Tool

  • Teilnehmer:innen laden DDPs hoch
  • Daten werden lokal (d.h. auf Rechner der Teilnehmer:innen) gefiltert
  • Daten werden lokal anonymisiert, z. B. über Whitelists
  • Teilnehmer:innen können Daten löschen
process of data donation study

Grafik. Ablauf einer Datenspende-Studie - Perspektive der Forschung

Schritt I: Forschungsdesign - Datenspende-Tool

  • Teilnehmer:innen laden DDPs hoch
  • Daten werden lokal (d.h. auf Rechner der Teilnehmer:innen) gefiltert
  • Daten werden lokal anonymisiert, z. B. über Whitelists
  • Teilnehmer:innen können Daten löschen
  • nach informierter Einwilligung werden Daten an Server der Forscher:innen weitergeleitet

Schritt I: Forschungsdesign - Datenspende-Tool

Beispiel: OSD2F (Araujo et al., 2022, S. 377)

process of OSD2F as data donation tool

Araujo et al., 2022, S. 377

Schritt I: Forschungsdesign

Zentrale Entscheidungen:

  • Welche theoretischen Fragen wollen & können wir beantworten?
  • Welches Datenspende-Tool nutzen wir wie?
    • Kann das Tool relevante Daten datenschutzkonform extrahieren & anonymisieren?
    • Können wir Skripte schnell an Veränderungen durch Plattformen anpassen?
  • Wie wird die Datenspende in die Umfrage integriert?

Schritt I: Forschungsdesign

Zentrale Entscheidungen:

  • Welche theoretischen Fragen wollen & können wir beantworten?
  • Welches Datenspende-Tool nutzen wir wie?
  • Wie wird die Datenspende in die Umfrage integriert?

Schritt I: Forschungsdesign - Umfrage

  • geläufiges Vorgehen: Weiterleiten an externe Seite
  • neu: Integration in Umfragen, z. B. via SoSci Survey (Haim et al., 2023); ermöglicht Messwiederholungen, Incentivierung, Experimentaldesigns, etc.
process of data donation study

Grafik. Ablauf einer Datenspende-Studie - Perspektive der Forschung

Schritt I: Forschungsdesign - Umfrage

Dadurch dass Datenspenden aufwendig sind (und damit Verzerrungen begünstigen), stellen sich weitere Fragen nach…

  • Incentivierung
  • Platzierung der Anfrage nach Datenspenden
  • Formulierung der Bedeutsamkeit von Datenspenden

Schritt I: Forschungsdesign

Zentrale Entscheidungen:

  • Welche theoretischen Fragen wollen & können wir beantworten?
  • Welches Datenspende-Tool nutzen wir wie?
  • Wie wird die Datenspende in die Umfrage integriert?
    • Wie können wir die Datenspende technisch so leicht wie möglich für Teilnehmer:innen machen?
    • Welche Design-Strategien können wir nutzen, um Teilnehmer:innen für die Datenspende zu begeistern?

Schritt II: Bereinigung

process of data donation study

Grafik. Ablauf einer Datenspende-Studie - Perspektive der Forschung

Schritt II: Bereinigung

process of data donation study

Grafik. Ablauf einer Datenspende-Studie - Perspektive der Forschung

Schritt II: Bereinigung

Zentrale Entscheidungen:

  • Wie klassifizieren wir Inhalte?
  • Wie matchen & aggregieren wir Inhalte?
  • Wie testen wir für Verzerrungen?

Schritt II: Bereinigung

Zentrale Entscheidungen:

  • Wie klassifizieren wir Inhalte?
  • Wie matchen & aggregieren wir Inhalte?
  • Wie testen wir für Verzerrungen?

👉 Übergreifendes Tutorial hierzu: Hase, V. (2023, Juli). Data Donations—Tutorial Automated Content Analysis. Link

Schritt II: Bereinigung

Zentrale Entscheidungen:

  • Wie klassifizieren wir Inhalte?
  • Wie matchen & aggregieren wir Inhalte?
  • Wie testen wir für Verzerrungen?

Schritt II: Bereinigung - Klassifikation

  • Anonymisierung als erster Schritt der Klassifikation basiert zumeist auf Whitelists, d.h. z.B. Listen von Nachrichtenmedien 👉 Beispiel
  • Aber auch anschliessend müssen…
    • Daten nachträglich via APIs gesammelt
    • Daten via automatisierter Inhaltsanalyse klassifiziert werden

Schritt II: Bereinigung - Klassifikation

process of data donation study

Grafik. Beispiel eines Datenspende-Datensatzes

Schritt II: Bereinigung - Klassifikation

process of data donation study

Grafik. Beispiel eines Datenspende-Datensatzes

Schritt II: Bereinigung - Klassifikation

  • Anonymisierung als erster Schritt der Klassifikation basiert zumeist auf Whitelists, d.h. z.B. Listen von Nachrichtenmedien 👉 Beispiel

  • Aber auch anschliessend müssen…

    • Daten nachträglich via APIs gesammelt
    • Daten via automatisierter Inhaltsanalyse klassifiziert werden
  • Fraglich ist, ob

    • wir Nachrichten auf Basis ihrer Quelle (z.B. Nachrichtenaccounts) klassifizieren können (Reiss, 2022)
    • binäre Klassifikationen als Nachricht ja/nein überhaupt sinnvoll sind

Schritt II: Bereinigung

Zentrale Entscheidungen:

  • Wie klassifizieren wir Inhalte?
    • Nutzen wir automatisierte Methoden?
    • Wie definieren wir, theoretisch gesehen, Nachrichten?
  • Wie matchen & aggregieren wir Inhalte?
  • Wie testen wir für Verzerrungen?

Schritt II: Bereinigung

Zentrale Entscheidungen:

  • Wie klassifizieren wir Inhalte?
  • Wie matchen & aggregieren wir Inhalte?
  • Wie testen wir für Verzerrungen?

Schritt II: Bereinigung - Matching & Aggregation

Matching 🤝, d.h. Zusammenführung von Umfragedaten und Datenspuren (Munzert et al., 2023)

  • meist via anonymer ID (z.B. “Interviewnummer”)
  • Daten sollten, soweit möglich, getrennt gespeichert werden

Schritt II: Bereinigung - Matching & Aggregation

Aggregation 👆, d.h. Zusammenfassung von Datenpunkten über Individuen oder Zeit (Munzert et al., 2023)

  • zumeist notwendig für Analyse (und um Daten ggf. zu teilen)
  • aber: Aggregation kann grossen Einfluss auf Resultate haben

Schritt II: Bereinigung

Zentrale Entscheidungen:

  • Wie klassifizieren wir Inhalte?
  • Wie matchen & aggregieren wir Inhalte?
    • Wie gewährleisten wir die anonymisierte Verlinkung unterschiedlicher Daten?
    • Welches Aggregationsniveau benötigen wir?
  • Wie testen wir für Verzerrungen?

Schritt II: Bereinigung

Zentrale Entscheidungen:

  • Wie klassifizieren wir Inhalte?
  • Wie matchen & aggregieren wir Inhalte?
  • Wie testen wir für Verzerrungen?

Schritt II: Bereinigung - Verzerrungen

  • Verzerrungen durch Fehler in Bezug auf Stichproben und Messungen, z.B.

Schritt II: Bereinigung

Zentrale Entscheidungen:

  • Wie klassifizieren wir Inhalte?
  • Wie matchen & aggregieren wir Inhalte?
  • Wie testen wir für Verzerrungen?
    • aktuell wenig adressiertes Problem in den Sozialwissenschaften
    • eher Quantifizierung als Adressierung

Schritt II: Bereinigung

process of data donation study

Grafik. Beispiel eines Datenspende-Datensatzes

Schritt II: Auswertung

process of data donation study

Grafik. Beispiel eines Datenspende-Datensatzes

Schritt II: Auswertung

Zusammenfassung: Datenspenden-Studien aus Sicht der Forscher:innen 📚

  • Zusammenfassung: Zentrale Schritte umfassen…

    1. Forschungsdesign
    2. Bereinigung
    3. Auswertung
  • Weiterführende Literatur:

    • Driel et al. (2022)

    • Boeschoten et al. (2022)

    • Haim et al. (2023)

Fragen? 🤔

Quellen

Araujo, T., Ausloos, J., Atteveldt, W. van, Loecherbach, F., Moeller, J., Ohme, J., Trilling, D., Velde, B. van de, Vreese, C. de, & Welbers, K. (2022). OSD2F: An Open-Source Data Donation Framework. Computational Communication Research, 4(2), 372–387. https://doi.org/10.5117/CCR2022.2.001.ARAU
Boeschoten, L., Mendrik, A., Van Der Veen, E., Vloothuis, J., Hu, H., Voorvaart, R., & Oberski, D. L. (2022). Privacy-preserving local analysis of digital trace data: A proof-of-concept. Patterns, 3(3), 100444. https://doi.org/10.1016/j.patter.2022.100444
Driel, I. I. van, Giachanou, A., Pouwels, J. L., Boeschoten, L., Beyens, I., & Valkenburg, P. M. (2022). Promises and Pitfalls of Social Media Data Donations. Communication Methods and Measures, 1–17. https://doi.org/10.1080/19312458.2022.2109608
Haim, M., Leiner, D., & Hase, V. (2023). Integrating Data Donations into Online Surveys. Medien & Kommunikationswissenschaft, 71(1-2), 130–137. https://doi.org/10.5771/1615-634X-2023-1-2-130
Munzert, S., Ramirez-Ruiz, S., Watteler, O., Breuer, J., Batzdorfer, V., Eder, C., Wiltshire, D. A., Barberá, P., Guess, A. M., & Yang, J. (2023). Publishing Combined Web Tracking and Survey Data [Preprint]. Open Science Framework. https://doi.org/10.31219/osf.io/y4v8z
Pak, C., Cotter, K., & Thorson, K. (2022). Correcting Sample Selection Bias of Historical Digital Trace Data: Inverse Probability Weighting (IPW) and Type II Tobit Model. Communication Methods and Measures, 16(2), 134–155. https://doi.org/10.1080/19312458.2022.2037537
Parry, D. A., Davidson, B. I., Sewall, C. J. R., Fisher, J. T., Mieczkowski, H., & Quintana, D. S. (2021). A systematic review and meta-analysis of discrepancies between logged and self-reported digital media use. Nature Human Behaviour, 5(11), 1535–1547. https://doi.org/10.1038/s41562-021-01117-5
Pfiffner, N., Witlox, P., & Friemel, T. N. (2022). Data Donation Module. https://github.com/uzh/ddm
Reiss, M. V. (2022). Dissecting Non-Use of Online NewsSystematic Evidence from Combining Tracking and Automated Text Classification. Digital Journalism, 1–21. https://doi.org/10.1080/21670811.2022.2105243
Scharkow, M. (2016). The Accuracy of Self-Reported Internet UseA Validation Study Using Client Log Data. Communication Methods and Measures, 10(1), 13–27. https://doi.org/10.1080/19312458.2015.1118446
TeBlunthuis, N., Hase, V., & Chan, C.-H. (2023). Misclassification in Automated Content Analysis Causes Bias in Regression. Can We Fix It? Yes We Can! https://doi.org/10.48550/ARXIV.2307.06483
Thorson, K., Cotter, K., Medeiros, M., & Pak, C. (2021). Algorithmic inference, political interest, and exposure to news and politics on Facebook. Information, Communication & Society, 24(2), 183–200. https://doi.org/10.1080/1369118X.2019.1642934