• Analysen

    15. Mrz. 2009

    Schlagworte:

    Suchverfahren für deutsche Tweets

    Twittern

    Wie viele von Euch wissen werden, bietet die Twittersuche eine Filterfunktion für deutschsprachige Tweets. Leider weist diese Funktionalität eine gewisse Unschärfe auf und liefert abhängig vom Suchbegriff ein mal mehr und mal weniger schlechtes Ergebnis. Unter dem Ergebnis befinden sich häufig Tweets in englischer und skandinavischer Sprache, was begründet darin liegt, das diese in der Phonetik eine gewisse Ähnlichkeit aufweisen.
    Welcher Algorithmus sich hinter der Suche tatsächlich versteckt, ist das Geheimnis von Twitter. Anzunehmen jedoch ist, dass diese auf statischer Verteilung von Buchstaben, der sogenannten Buchstabenhäufigkeit basiert. Aufgrund dieser Unschärfe, haben wir entschlossen uns der Aufgabe anzunehmen und eine eigene Technik zu entwickeln.

    Logik und Technik
    Die Suche beruht auf einer Wortanhaltsanalyse der Tweets. Hierzu werden die Tweets nach Schlüsselbegriffen durchforstet und bei Erfolg als deutschsprachig identifiziert. Als Schlüsselbegriffe gelten Worte die eindeutig der deutschen Sprache zugeordnet werden können, das heißt in keiner anderen Sprache auf Twitter anzutreffen sind. Der aktuelle Fundus an Schlagworten entspricht 367 Begriffe.
    Die Abfrage der Daten erfolgt über die API der Twittersuche:”http://search.twitter.com/”

    Identifizierung der Schlüsselbegriffe in zwei Schritten

    • Generierung einer Long-list von Schlüsselbegriffen

    Anhand der 10 Wörter: “abend”, “nacht”, “kaffee”, “bitte”, “danke”, “heute”, “mich”, “doch”, “dass”, “mehr”, “wird”, “einem”, “und“, “sich” haben wir 30.000 Tweets durchsucht. Das sind Worte die wir zu Beginn als eindeutig deutsch deklariert haben. Alle Tweets die mindestens eines der zehn Worte enthalten haben, wurden somit als vermeintlich deutscher Tweet identifiziert.

    Das Ergebnis – die vermeintlich deutschen Tweets – sind im Anschluss daran auf die absolute Häufigkeit ihrer Worte analysiert worden. Wir haben uns entschieden Begriffe in Betracht zu ziehen, welche Minimum 100 Mal gezählt werden konnten. Das Ergebnis waren ca. 450 Wörter, die dann im 2. Schritt auf ihre Eindeutigkeit (echte Schlüsselbegriffe) geprüft worden.

    • Feintuning - Überprüfung der Schlüsselbegriffe und Identifizierung als echte Schlüsselbegriffe

    Eine Abfrage über alle 450 Schlüsselbegriffe lieferte ein Ergebnis von ca. 36.000 Tweets. Die Daten wurden anschließend händisch untersucht, um echte Schlüsselbegriffe zu bestimmen. Wie zu erwarten, lieferte das Ergebnis neben überwiegend deutschen Tweets natürlich noch zahlreiche fremdsprachige Tweets. Alle fremdsprachigen Tweets gaben uns Aufschluss darauf in wie fern unsere Liste an Schlüsselbegriffen weiter modifiziert werden musste. Alle Begriffe welche zu einem falsch/positiv Ergebnis (fremdsprachige Tweets) geführt haben wie „Berlin“, „Post“, „Video“, „link“ oder zum Beispiel „Amok“ wurden dabei elemeniert.

    Das Ergebnis war eine Liste von 376 “echten” Schlüsselbegriffen für die deutsche Sprache.

    Qualitätsprüfung – Der Test
    Um die Qualität der Schlüsselbegriffe zu beurteilen, wurde anschließend eine erneute Abfrage anhand der echten Schlüsselbegriffe in beide Richtung gemacht. Mit anderen Worten: Erfasst die Abfrage a) lediglich deutsche Tweets und b) wirklich alle deutschen Tweets. Hierzu analysierten wir Twitteruser, die in der Szene als deutschsprachige Accounts bekannt sind. Es wurden dazu die letzten 1.000 Tweets von:@saschalobo, @derwesten und @nicole_de durchsucht und einmal genau geschaut wie stringent die Deutschsprachigkeit verfolgt wird.

    Im folgenden das Ergebnis:
    „Falsch/negativ“ bezeichnet die Zahl der Tweets, welche nicht als deutsch erkannt und „Falsch/postitiv“ solche, welche als deutsch erkannt worden allerdings fremdsprachig sind.

    • @saschalobo

    Quote falsch/postiv: 0,01%
    Quote falsch/negativ: 9,9%

    • @derwesten

    Quote falsch/postiv: 0%
    Quote: falsch/negativ: 6,3%

    • @nicole_de

    Quote falsch/postiv: 0%
    Quote: falsch/negativ: 5,5

    Uns ist natürlich bewusst, dass bei einer Stichprobe von jeweils 1.000 Tweets keine fundierte Beurteilung über die Qualität des Verfahrens zulässig ist. Hierzu bedarf es natürlich einer weitaus größeren Menge und vor allem Anzahl an Accounts. Zweifelsohne hat jeder User seinen individuellen Wortschatz. Im Test haben wir deshalb auf vollkommen individuelle User zurückgegriffen, um eine halbwegs fundierte Beurteilung abgeben zu können.

    Im Folgenden soll kurz auf einzelne Beispiel-Tweets eingegangen werden, welche durch die Suche nicht erfasst wurden.

    1. Wort-neu-greationen, Jubbeltweets, bubbletweets … - Sinnfreie Tweets
      • “Fa-fa-fa-faschingfaschisten.”
      • “Kränkele.”
      • “TäTäääääääääääääääääääääääääääääääää”
    2. Fremdsprachsynonymität – Tweets die ausschließlich aus Vokabular bestehen, das Überschneidungen mit anderen Sprachen aufweist.
      • “Hass und Liebe.”
      • “Qualität!”
      • “Morgen!”
    3. Eigennamen oder Zahlen – Tweets die lediglich aus Eigennamen bestehen
      • “Steinmeier”
      • “2.009″
    4. weder noch – Tweets die aus Begriffen bestehen, welche noch nicht als echte Schlüsselbegriffe identifiziert sind
      • “Nudelsalat-Rezept is now following you on Twitter. #surreal”
      • “Derbyfieber: Vor dem Duell BVB-S04 stützt Schalke-Präsi Schnusenberg die Die Zahl der rechtsextremen Straftaten ist im vergangenen Jahr offenbar gestiegen: http://www.derwesten.de/92igHe angezählten Müller und Rutten”

    Während die Fehlerquote für falsch/positiv im Promillebereich liegt, beläuft sich die durchschnittliche Fehlerquote im falsch/negativ Bereich auf durchschnittlich 7 %.

    Schon mit Abschluss dieses kurzen Exposés ist der Fundus um weitere 15 Begriffe angewachsen, da durch den Test deutlich wurde, dass es User gibt die Umlaute ausschreiben – trotz der Zeichenknappheit dieses Mediums ( @saschalobo).

    Diese Technik ist wesentlicher Bestandteil von Tools wie Getwitter und Tweet-Zeitverlauf.

  • Eine Reaktion

    Kommentare

  • Trackbacks

  • Bitte kommentieren Sie:

  • Name (Pflichtfeld):

    E-Mail (Pflichtfeld):

    Webseite:

    Twittername:

    Kommentare zu diesem Beitrag als rss-Feed abonnieren

    Ihr Kommentar: