03. Jan. 2024

Erkennung von irreführenden Informationen auf TikTok mit Hilfe von Machine Learning

Soziale Medien spielen eine bedeutende Rolle bei der Verbreitung von Informationen. Auch Falschmeldungen kommen hierbei in Umlauf. Wie Machine Learning dabei unterstützen kann, Informationen zu verifizieren hat Nicolai Minter in seiner Masterarbeit untersucht.

Autor:in

Nicolai Minter

Inhaltsverzeichnis

In der heutigen digitalisierten Welt spielen soziale Medien wie z.B. Instagram und TikTok eine bedeutende Rolle bei der Verbreitung von Informationen. Das rasante Tempo, mit dem sich Inhalte verbreiten, birgt dabei das Risiko, dass irreführende Informationen unbeabsichtigt zur vermeintlichen Wahrheit werden. Insbesondere auf TikTok, einer Plattform, die auf kurze Videos setzt, erlangen Inhalte schnell eine enorme Reichweite. Dabei bilden Kinder und Jugendliche (13 bis 17 Jahre) zusammen mit jungen Erwachsenen (18 bis 24 Jahre) fast 50% der TikTok-Nutzenden (14,4% bzw. 34,9%). [1a]

Deswegen ist es von besonderer Bedeutung, dass gerade diese jungen Nutzer:innen Werkzeuge erhalten, die sie dabei unterstützen, zwischen verifizierten Informationen und Falschmeldungen zu unterscheiden.

Im Rahmen meiner Masterarbeit habe ich mich damit beschäftigt, wie irreführende Informationen in TikTok-Videos automatisiert erkannt werden können. Als irreführend werden Informationen bezeichnet, die faktisch falsch oder aus dem Kontext gerissen sind. Im Mittelpunkt dieser Arbeit steht eine Pipeline, die ein TikTok-Video erhält und am Ende eine Klassifikation vornimmt, ob es sich um irreführende Informationen handelt oder nicht. Bei den einzelnen Verarbeitungsschritten kommen diverse Machine-Learning-Komponenten zum Einsatz, welche ich im Folgenden kurz vorstellen möchte.

Die Pipeline analysiert eingehende Videos, um relevante Sätze zu identifizieren, und bewertet diese hinsichtlich potenziell irreführender Informationen.

Das Datenset

Zum Zeitpunkt der Erstellung der Masterthesis im Oktober 2022 stand kein öffentlich zugängliches Datenset zur Verfügung, das speziell auf die Erkennung irreführender Informationen in TikTok-Videos abzielte. Deswegen habe ich mich dazu entschieden, ein eigenes Datenset zu erstellen. Dabei wurden die TikTok-Videos durch das Scannen von Hashtags ausgewählt. Der Fokus lag hierbei auf Hashtags, die in Zusammenhang mit Themen stehen, bei denen die Verbreitung von irreführenden Informationen wahrscheinlicher ist. Die im Rahmen dieser Arbeit ermittelten Hashtags lassen sich grob den drei Themenclustern Corona/CoViD19, Ukraine/Russland und Donald Trump/Politik in den USA zuordnen.

Vorgehen

Herausfiltern aller nicht-englischen Videos

Vor der Verarbeitung des eigentlichen Videos werden zuerst alle Videos herausgefiltert, die nicht in Englisch vorlagen. Als Grundlage dafür dienen alle Texte innerhalb des Videos sowie der Titel des Videos. Diese Daten können z.B. mit fastText [1] verarbeitet werden. fastText ist eine kostenlose Open-Source-Bibliothek, die Texte einer Sprache zuordnen kann. Dabei genügt bereits ein handelsüblicher Laptop, da für die Verarbeitung keine leistungsstarke Grafikkarte erforderlich ist.

Sprache in Text umwandeln

Sobald sämtliche englischsprachige Videos vorliegen, erfolgt die Umwandlung der gesprochenen Sprache in Text. Hierfür gibt es diverse Umsetzungen der namhaften Akteure wie Amazon, Google, IBM und weiteren. Letztendlich habe ich mich für AssemblyAI [2] entschieden, das damals die besten Ergebnisse für meine Videos lieferte. Mittlerweile kann ich Whisper [3] empfehlen. Whisper wurde von OpenAI entwickelt, von denen auch ChatGPT [4] stammt, und konnte für viele Sprachen neue State-of-the-Art Ergebnisse aufstellen.

Auflösen von Referenzen

Die von AssemblyAI transkribierten Texte werden im nächsten Schritt einer Vorverarbeitung unterzogen. Der Hauptfokus liegt hierbei auf dem Auflösen von Referenzen, insbesondere bei der Verwendung von Personal- und Demonstrativpronomen wie "du", "er", "sie" usw. in Bezug auf vorgestellte Personen oder Entitäten. Dies ist jedoch problematisch, wenn Aussagen wie "Er ist letztes Jahr Bundeskanzler:in geworden" aus dem Video extrahiert werden, da unklar ist, auf welche Person "Er" referenziert. Dieses Problem tritt allerdings nicht nur bei Personen auf, sondern auch bei Gegenständen, Orten und Ähnlichem. Zur Lösung wird die Coreference Resolution genutzt, die solche Referenzen auflöst. Hier ein Beispiel:

Olaf Scholz und Annalena Baerbock standen im Jahr 2022 zur Wahl als Bundekanzler:in. Er hat die Wahl gewonnen. → Olaf Scholz und Annalena Baerbock standen im Jahr 2022 zur Wahl als Bundekanzler:in. Olaf Scholz hat die Wahl gewonnen.

Für die Umsetzung der Coreference Resolution eignen sich AllenNLP [5] und NeuralCoref [6] (eine Erweiterung für spaCy). NeuralCoref ist sehr einsteigerfreundlich. AllenNLP ist für den Einstieg deutlich komplexer, dafür sind Modifikationen leichter möglich. Meine Wahl fiel aufgrund der besseren Einstellungsmöglichkeiten letztendlich auf AllenNLP.

Relevante Aussagen identifizieren

Obwohl es möglich wäre, alle Sätze eines TikTok-Videos zu überprüfen, würde dies zu zahlreichen unnötigen Überprüfungen führen, da viele keine gesellschaftliche relevanten Aussagen enthalten. Sätze wie: "Ich esse gerne Döner" oder "Ich war gestern Abend nicht zu Hause" mögen zwar Aussagen sein, sind allerdings gesellschaftlich nicht maßgeblich. Für die Identifikation der relevanten und faktischen Sätze (“Checkworthy Factual Sentences” (CFS)) habe ich ClaimBuster [7] verwendet. Claimbuster ist ein darauf spezialisiertes Machine-Learning-Modell und wurde auf politischen Reden trainiert. Es funktioniert allerdings auch für Alltagssprache.

Quellen identifizieren

Die relevanten Aussagen müssen anschließend faktisch überprüft werden. Dazu kann externes Wissen z.B. von Wikipedia hinzugezogen werden. Hierfür bietet sich die Nutzung von TagME [8] an, das Text annotiert und mit einem für eine Aussage relevanten Wikipedia-Artikel verknüpft. Allerdings ist es nicht trivial, eine Aussage anhand eines kompletten Artikels zu verifizieren. Dementsprechend gibt es Ansätze wie BERT [9] oder SBERT, um die für die zu verifizierende Aussage relevanten Sätze und Abschnitte in einem Wikipediaartikel zu finden.

Aussagen klassifizieren

Für die endgültige Klassifikation der Aussagen gibt es in der Forschung zahlreiche verschiedene Ansätze. Im Rahmen der Arbeit habe ich mich für LOREN [10] entschieden, das bei der Klassifikation zwischen drei verschiedenen Ergebnissen unterscheidet: widerlegt, keine ausreichenden Informationen, unterstützt (Refuted, Not Enough Information, Supported). Dafür wird eine Modifikation des BERT-Modells verwendet. LOREN kann nicht nur die Aussage als Ganzes klassifizieren, sondern auch einzelne Wörter bzw. Satzteile. Für jedes Wort werden die Wahrscheinlichkeiten für die drei Klassen Refutes, Not Enough Information und Supports bestimmt, sodass am Ende nachvollzogen werden kann, warum die gesamte Aussage einer bestimmten Klasse zugeordnet wurde.

Das Ergebnis

Die Evaluation der Pipeline ergab, dass der angewandte Ansatz effektiv ist, um Aussagen als korrekt zu validieren. Hingegen stellt sich die Klassifikation einer falschen Aussage als erheblich anspruchsvoller heraus. Lediglich etwa jede vierte Klassifikation der als Refuted klassifizierten Aussagen erweist sich als korrekt, was darauf hindeutet, dass der aktuelle Ansatz gegenwärtig nicht hinreichend präzise ist, um irreführende Informationen zuverlässig zu identifizieren. Deswegen bleibt die menschliche Fähigkeit, Informationen kritisch zu hinterfragen, nach wie vor eine unverzichtbare Kernkompetenz, wenn man sich im digitalen Raum bewegt.

Quellen

[1a] - https://www.businessofapps.com/data/tik-tok-statistics/

[1] - https://fasttext.cc/

[2] - https://www.assemblyai.com/

[3] - https://openai.com/research/whisper

[4] - https://openai.com/product/gpt-4

[5] - https://allenai.org/allennlp

[6] - https://github.com/huggingface/neuralcoref

[7] - https://idir.uta.edu/claimbuster/

[8] - https://sobigdata.d4science.org/web/tagme/tagme-help

[9] - https://arxiv.org/abs/1810.048...

[10] - https://github.com/jiangjiechen/LOREN

Magazin

Large Language Models

20221129 Kollisionsvermeidung Header Xenija

Magazin

Kollisionsvermeidung in der Mensch-Roboter-Kooperation

Magazin

Mit KI zum Bundesliga Tippkönig

Name:	CraftSessionId
Beschreibung:	Craft stützt sich auf PHP-Sitzungen, um Sitzungen über Webanfragen hinweg aufrechtzuerhalten. Dies geschieht über das PHP-Session-Cookie. Dieses Cookie verfällt, sobald die Sitzung abgelaufen ist.
Anbieter:	diese Website
Ablaufzeit:	Session

Name:	CRAFT_CSRF_TOKEN
Beschreibung:	Schützt uns und Sie als Benutzer vor Cross-Site Request Forgery-Angriffen.
Anbieter:	diese Website
Ablaufzeit:	Session

Name:	accso-cookie-consent_de
Beschreibung:	Speichert Ihre getroffenen Datenschutzeinstellungen.
Anbieter:	diese Website
Ablaufzeit:	Dauerhaft

Name:	Google Ads Conversion Tracking
Beschreibung:	Google Ads Conversion Tracking verfolgt die Conversion Rate und den Erfolg von Google Ads Kampagnen. Dabei werden Cookies verwendet, um Nutzer zu differenzieren und ihr Verhalten auf der Seite detailliert zu verfolgen und diese Daten mit Werbdaten aus dem Google-Ads-Werbenetzwerk zu verknüpfen.
Anbieter:	Google Ireland Ltd
Ablaufzeit:	90 Tage

Name:	LinkedIn Insight Tag
Beschreibung:	Wir nutzen den LinkedIn Insight Tag, um die Wirksamkeit unserer LinkedIn-Werbekampagnen zu messen (Conversion-Tracking/Reporting), Zielgruppen aus Website-Besuchern zu bilden (Website Audiences) und Kampagnen zu optimieren bzw. Retargeting zu ermöglichen.
Anbieter:	LinkedIn Ireland Unlimited Company
Ablaufzeit:	bis zu 1 Jahr

Datenschutzeinstellungen

Das Datenset

Vorgehen

Herausfiltern aller nicht-englischen Videos

Sprache in Text umwandeln

Auflösen von Referenzen

Relevante Aussagen identifizieren

Quellen identifizieren

Aussagen klassifizieren

Das Ergebnis

Quellen

Weitere Artikel