Ein interaktives BibSonomy-Tutorial zur Spam-Erkennung und Evaluation von semantischen Ähnlichkeitsmaßen

Motivation

Am Forschungszentrum L3S wird das Social Bookmarking System BibSonomy entwickelt und betrieben (siehe auch). Solche Systeme sind beliebte Ziele von Webspam, d.h. Webseitenbetreiber versuchen dort Links zu ihren Webseiten zu platzieren, bspw. um ihr Ranking in Suchmaschinen zu verbessern. Das Einstellen von Links mit diesem Ziel wird von den meisten Systemen untersagt - dennoch halten sich sehr viele Benutzer nicht daran. Das Ziel von Spamentdeckung ist daher, derartige Links zu identifizieren und aus dem System zu entfernen.

BibSonomy ist ein kollaboratives Verschlagwortungssystem für Weblinks und (wissenschaftliche) Literatur. Dabei beschreiben die Nutzer ihre Ressourcen mit Hilfe von Schlagwörtern (Tags). Durch die Analyse der Beziehungen zwischen den Schlagwörtern ist es möglich, Maße für semantische Beziehungen zwischen den Tags zu konstruieren. Ein Problem hierbei ist die ausführliche Evaluierung dieser Maße, da eine optimale Zielfunktion fehlt, es also keine richtige “Universal Truth” gibt, die menschliches Empfinden von semantischer Ähnlichkeit eindeutig abbildet.

Um neuen Nutzern die Verwendung der Tags zu erklären, soll ein interaktives Tutorial entwickelt werden, in dem die Nutzer Beispiel-Ressourcen verschlagworten oder Fehler in Beispielen finden können. Die Nutzereingaben sollen einerseits dazu genutzt werden, um ein breites Bild von menschlichem Ähnlichkeitsempfinden zu sammeln, das dazu genutzt werden kann, um semantische Ähnlichkeitsmaße auf Taggingdaten zu validieren. Andererseits soll das Nutzerverhalten in diesem Tutorial frühzeitig Aufschluss geben, ob der Benutzer mit Hilfe von Machine-Learning-Verfahren als Spammer klassifiziert werden kann.

Als dritter Aspekt dieser Masterarbeit soll untersucht werden, inwiefern das zu entwickelnde Tutorial zur Erkennung und Abschreckung solcher Nutzer (ähnlich ReCaptcha) beitragen kann. Dabei müssen verschiedene Parameter betrachtet werden, z.B. die Wahrscheinlichkeit und die Kosten für die Falscherkennung, der Aufwand für die Nutzer, die Güte der zu erwartenden Ergebnisse und weitere vom Studierenden zu definierende Maße.

Ziele

Das zu entwickelnde Tutorial soll folgende Funktionen erfüllen:

  1. eine spielerische Einführung in BibSonomy und Social Bookmarking geben, d.h., das Verständnis der Nutzer von semantischer Ähnlichkeit schulen und testen und das Annotieren von Posts lehren,
  2. die Ähnlichkeit von bzw. Beziehungen zwischen Wörtern lernen/evaluieren, und im Optimalfall
  3. Nutzer mit Mißbrauchspotential erkennen, zeitlich binden und ggf. von der Nutzung fernhalten.

Vorgehen

  • Diskussion und Beschreibung des Problems
  • Einarbeiten in den Stand der Forschung
  • Evaluation und Definition des Parameterraums (z.B. Fehlerwahrscheinlichkeit, Kosten für falsche Klassifikation, Aufwand für Nutzer, etc.)
  • Entwickeln von Beispiel-Strategien für die Tutorial-Fragen (z.B. Erkennen von Synonymen, Finden “falscher” Tags in einem Post, freies Annotieren eines Posts, Erkennen von Sub-/Supertags, etc.)
  • Auswahl einer Methode zur Erkennung von Nutzern mit Missbrauchpotential
  • Auswahl/Entwurf einer Software-Architektur zur Implementierung des Tutorials
  • Implementierung und Integration
  • A/B-Testing
  • Auswertung

Diese Masterarbeit ist eine Kooperation des Fachgebiets Wissensbasierte Systeme und der Human-Computer-Interaction Group der Leibniz Universität Hannover sowie der Data Mining und Information Retrieval Gruppe der Julius-Maximilians-Universität Würzburg.

Wenn Sie Interesse an Web-Technologien, Machine Learning, sehr gute Java-Programmierkenntnisse und Erfahrungen mit Spring MVC (oder Interesse, sich diese anzueignen) haben, dann melden Sie sich bei Robert Jäschke.