03. Jan. 2024
Erkennung von irreführenden Informationen auf TikTok mit Hilfe von Machine Learning
In der heutigen digitalisierten Welt spielen soziale Medien wie z.B. Instagram und TikTok eine bedeutende Rolle bei der Verbreitung von Informationen. Das rasante Tempo, mit dem sich Inhalte verbreiten, birgt dabei das Risiko, dass irreführende Informationen unbeabsichtigt zur vermeintlichen Wahrheit werden. Insbesondere auf TikTok, einer Plattform, die auf kurze Videos setzt, erlangen Inhalte schnell eine enorme Reichweite. Dabei bilden Kinder und Jugendliche (13 bis 17 Jahre) zusammen mit jungen Erwachsenen (18 bis 24 Jahre) fast 50% der TikTok-Nutzenden (14,4% bzw. 34,9%). [1a]
Deswegen ist es von besonderer Bedeutung, dass gerade diese jungen Nutzer:innen Werkzeuge erhalten, die sie dabei unterstützen, zwischen verifizierten Informationen und Falschmeldungen zu unterscheiden.
Im Rahmen meiner Masterarbeit habe ich mich damit beschäftigt, wie irreführende Informationen in TikTok-Videos automatisiert erkannt werden können. Als irreführend werden Informationen bezeichnet, die faktisch falsch oder aus dem Kontext gerissen sind. Im Mittelpunkt dieser Arbeit steht eine Pipeline, die ein TikTok-Video erhält und am Ende eine Klassifikation vornimmt, ob es sich um irreführende Informationen handelt oder nicht. Bei den einzelnen Verarbeitungsschritten kommen diverse Machine-Learning-Komponenten zum Einsatz, welche ich im Folgenden kurz vorstellen möchte.
Die Pipeline analysiert eingehende Videos, um relevante Sätze zu identifizieren, und bewertet diese hinsichtlich potenziell irreführender Informationen.
Das Datenset
Zum Zeitpunkt der Erstellung der Masterthesis im Oktober 2022 stand kein öffentlich zugängliches Datenset zur Verfügung, das speziell auf die Erkennung irreführender Informationen in TikTok-Videos abzielte. Deswegen habe ich mich dazu entschieden, ein eigenes Datenset zu erstellen. Dabei wurden die TikTok-Videos durch das Scannen von Hashtags ausgewählt. Der Fokus lag hierbei auf Hashtags, die in Zusammenhang mit Themen stehen, bei denen die Verbreitung von irreführenden Informationen wahrscheinlicher ist. Die im Rahmen dieser Arbeit ermittelten Hashtags lassen sich grob den drei Themenclustern Corona/CoViD19, Ukraine/Russland und Donald Trump/Politik in den USA zuordnen.
Vorgehen
Herausfiltern aller nicht-englischen Videos
Vor der Verarbeitung des eigentlichen Videos werden zuerst alle Videos herausgefiltert, die nicht in Englisch vorlagen. Als Grundlage dafür dienen alle Texte innerhalb des Videos sowie der Titel des Videos. Diese Daten können z.B. mit fastText [1] verarbeitet werden. fastText ist eine kostenlose Open-Source-Bibliothek, die Texte einer Sprache zuordnen kann. Dabei genügt bereits ein handelsüblicher Laptop, da für die Verarbeitung keine leistungsstarke Grafikkarte erforderlich ist.
Sprache in Text umwandeln
Sobald sämtliche englischsprachige Videos vorliegen, erfolgt die Umwandlung der gesprochenen Sprache in Text. Hierfür gibt es diverse Umsetzungen der namhaften Akteure wie Amazon, Google, IBM und weiteren. Letztendlich habe ich mich für AssemblyAI [2] entschieden, das damals die besten Ergebnisse für meine Videos lieferte. Mittlerweile kann ich Whisper [3] empfehlen. Whisper wurde von OpenAI entwickelt, von denen auch ChatGPT [4] stammt, und konnte für viele Sprachen neue State-of-the-Art Ergebnisse aufstellen.
Auflösen von Referenzen
Die von AssemblyAI transkribierten Texte werden im nächsten Schritt einer Vorverarbeitung unterzogen. Der Hauptfokus liegt hierbei auf dem Auflösen von Referenzen, insbesondere bei der Verwendung von Personal- und Demonstrativpronomen wie "du", "er", "sie" usw. in Bezug auf vorgestellte Personen oder Entitäten. Dies ist jedoch problematisch, wenn Aussagen wie "Er ist letztes Jahr Bundeskanzler:in geworden" aus dem Video extrahiert werden, da unklar ist, auf welche Person "Er" referenziert. Dieses Problem tritt allerdings nicht nur bei Personen auf, sondern auch bei Gegenständen, Orten und Ähnlichem. Zur Lösung wird die Coreference Resolution genutzt, die solche Referenzen auflöst. Hier ein Beispiel:
- Olaf Scholz und Annalena Baerbock standen im Jahr 2022 zur Wahl als Bundekanzler:in. Er hat die Wahl gewonnen. → Olaf Scholz und Annalena Baerbock standen im Jahr 2022 zur Wahl als Bundekanzler:in. Olaf Scholz hat die Wahl gewonnen.
Für die Umsetzung der Coreference Resolution eignen sich AllenNLP [5] und NeuralCoref [6] (eine Erweiterung für spaCy). NeuralCoref ist sehr einsteigerfreundlich. AllenNLP ist für den Einstieg deutlich komplexer, dafür sind Modifikationen leichter möglich. Meine Wahl fiel aufgrund der besseren Einstellungsmöglichkeiten letztendlich auf AllenNLP.
Relevante Aussagen identifizieren
Obwohl es möglich wäre, alle Sätze eines TikTok-Videos zu überprüfen, würde dies zu zahlreichen unnötigen Überprüfungen führen, da viele keine gesellschaftliche relevanten Aussagen enthalten. Sätze wie: "Ich esse gerne Döner" oder "Ich war gestern Abend nicht zu Hause" mögen zwar Aussagen sein, sind allerdings gesellschaftlich nicht maßgeblich. Für die Identifikation der relevanten und faktischen Sätze (“Checkworthy Factual Sentences” (CFS)) habe ich ClaimBuster [7] verwendet. Claimbuster ist ein darauf spezialisiertes Machine-Learning-Modell und wurde auf politischen Reden trainiert. Es funktioniert allerdings auch für Alltagssprache.
Quellen identifizieren
Die relevanten Aussagen müssen anschließend faktisch überprüft werden. Dazu kann externes Wissen z.B. von Wikipedia hinzugezogen werden. Hierfür bietet sich die Nutzung von TagME [8] an, das Text annotiert und mit einem für eine Aussage relevanten Wikipedia-Artikel verknüpft. Allerdings ist es nicht trivial, eine Aussage anhand eines kompletten Artikels zu verifizieren. Dementsprechend gibt es Ansätze wie BERT [9] oder SBERT, um die für die zu verifizierende Aussage relevanten Sätze und Abschnitte in einem Wikipediaartikel zu finden.
Aussagen klassifizieren
Für die endgültige Klassifikation der Aussagen gibt es in der Forschung zahlreiche verschiedene Ansätze. Im Rahmen der Arbeit habe ich mich für LOREN [10] entschieden, das bei der Klassifikation zwischen drei verschiedenen Ergebnissen unterscheidet: widerlegt, keine ausreichenden Informationen, unterstützt (Refuted, Not Enough Information, Supported). Dafür wird eine Modifikation des BERT-Modells verwendet. LOREN kann nicht nur die Aussage als Ganzes klassifizieren, sondern auch einzelne Wörter bzw. Satzteile. Für jedes Wort werden die Wahrscheinlichkeiten für die drei Klassen Refutes, Not Enough Information und Supports bestimmt, sodass am Ende nachvollzogen werden kann, warum die gesamte Aussage einer bestimmten Klasse zugeordnet wurde.
Das Ergebnis
Die Evaluation der Pipeline ergab, dass der angewandte Ansatz effektiv ist, um Aussagen als korrekt zu validieren. Hingegen stellt sich die Klassifikation einer falschen Aussage als erheblich anspruchsvoller heraus. Lediglich etwa jede vierte Klassifikation der als Refuted klassifizierten Aussagen erweist sich als korrekt, was darauf hindeutet, dass der aktuelle Ansatz gegenwärtig nicht hinreichend präzise ist, um irreführende Informationen zuverlässig zu identifizieren. Deswegen bleibt die menschliche Fähigkeit, Informationen kritisch zu hinterfragen, nach wie vor eine unverzichtbare Kernkompetenz, wenn man sich im digitalen Raum bewegt.
Quellen
[1a] - https://www.businessofapps.com/data/tik-tok-statistics/
[1] - https://fasttext.cc/
[2] - https://www.assemblyai.com/
[3] - https://openai.com/research/whisper
[4] - https://openai.com/product/gpt-4
[5] - https://allenai.org/allennlp
[6] - https://github.com/huggingface/neuralcoref
[7] - https://idir.uta.edu/claimbuster/
[8] - https://sobigdata.d4science.org/web/tagme/tagme-help