Seminar: Textklassifikation

Ausgewählte Themen des Web 2.0: Textklassifikation

Seminar

(0808565)

In vielen Anwendungen der Wissensverarbeitung möchte man Dokumente in vordefinierte Kategorien einsortieren. Dazu gehört zum Beispiel das automatische Einsortieren von e-Mails in die Ordner eines Postfaches, die Erkennung von Spameinträgen in Suchmaschinen oder die Kategorisierung von Suchergebnissen für eine übersichtliche Navigation. Mit einer solchen Zuordnung von Texten in vordefinierte Klassen beschäftigt sich die Textklassifikation. Die Klassen, in die die Texte eingeordnet werden, werden meist manuell erstellt und es gibt viele Bereiche in denen man auch heute noch manuell die Klassen der Texte bestimmt. Das Seminar wird sich dagegen mit Methoden zur automatischen Bestimmung der Klassen für Texte beschäftigen. Speziell möchten wir verschiedene Methoden aus den Bereichen der statistischen, der regelbasierten und anderer Verfahren wie den SVMs (Support Vector Machines) kennenlernen. Neben den eigentlichen Techniken werden auch relevante Themen wie die Vorverarbeitung der Daten und die Evaluation von Textklassifikationsmethoden angesprochen.

Veranstalter:

Vorbesprechung/Einstieg:

Eine Vorbesprechung zu Beginn des Semesters findet am 22.04.2010 um 16 Uhr statt.

Die Vorbesprechungen finden jeweils im Raum B015 (Besprechungsraum des Lehrstuhl 6) statt.

Leistungsnachweis:

Drei (3!) Tage vor dem geplanten Vortrag sind per Email als PDF abzugeben:

eine einseitige Zusammenfassung (die allen Teilnehmern ausgehändigt wird), der Foliensatz eine 11-12-seitige Ausarbeitung im unter http://www.springer.com/sgw/cda/frontpage/0,11855,1-164-2-72376-0,00.html beschriebenen Format.

Die einseitige Zusammenfassung wird von dem Betreuer drei Tage vor dem Seminarvortrag an alle Teilnehmer gesendet. Die Aufgabe der anderen Teilnehmern ist es, diese Zusammenfassung zu lesen und sich Fragen für den Vortrag zu überlegen.

Vorherige Absprachen mit dem Betreuer sind ausdrücklich erlaubt. Alle verwendeten Referenzen sind zusätzlich zum Literaturverzeichnis der Ausarbeitung in http://www.bibsonomy.org einzugeben, mit den Tags "text_classification", "seminar", "2010" und weiteren sinnvollen Tags.

Die Vortragsdauer beträgt verbindlich 30 Minuten, nach dem Vortrag besteht Gelegenheit zur Diskussion. Wir empfehlen, den Vortrag vorher vor Zuhörern zu üben. Der Vortrag (inkl. Folien und Abstract) geht mit 40% in die Endnote ein, die Ausarbeitung ebenfalls mit 40%. Die letzten 20% bewerten die Eigenständigkeit der Ausarbeitung, Einhaltung von Terminen, Beteiligung am Seminar etc.

Ablauf des Seminars

Gefordert ist eine wissenschaftliche Auseinandersetzung mit dem Thema, die insbesondere den Bezug auf Originalliteratur einschliesst. Diese kann ggf. durch graue Literatur ergänzt, jedoch keinesfalls ersetzt werden. Es wird zu Beginn pro Thema jeweils ein Teilbereich aus dem Artikel von F. Sebastiani: Machine learning in automated text categorization ausgegeben, der durch den Seminarteilnehmer im Laufe des Semesesters durch weitergehende Literatur ergänzt wird. Die Auswahl der weiteren Literatur trifft der Seminarteilnehmer in Absprache mit dem Betreuer.

Termine

Die Veranstaltungstermine (Blockseminar) werden in der Vorbesprechung diskutiert. Bei den Terminen stellen die Teilnehmer ihre Ausarbeitungen vor. Es besteht Anwesenheitspflicht.

Bearbeitungshinweise

Als Richtlinie für die Erstellung einer guten Seminararbeit (inkl. Vortrag und Ausarbeitung) wird das Buch

Markus Deininger and Horst Lichter and Jochen Ludewig and Kurt Schneider. Studien-Arbeiten: ein Leitfaden zur Vorbereitung, Durchführung und Betreuung von Studien-, Diplom- Abschluss- und Doktorarbeiten am Beispiel Informatik. 5. Auflage. vdf Hochschulverlag, Zürich, 2005.

empfohlen, welches beim Betreuer des Seminars (<link mitarbeiter hotho external-link-new-window external link in new>Prof. Dr. Andreas Hotho) ausliegt. Wir empfehlen die Anschaffung dieses Buchs (9,50 €), da es Sie bis zur Masterarbeit (und weiter) begleiten kann. Die Benotung der Seminararbeit erfolgt in Anlehnung an das dort auf Seite 77 angegebene Schema, angepasst auf die Erfordernisse einer Seminararbeit.

Literatur

Zur Einarbeitung in das Thema Klassifikation können folgende Referenzen helfen.Für die Ausarbeitung des eigenen Themas sollte auf die Originalreferenzen zurückgegegriffen werden. Diese können mit dem Betreuer abgesprochen werden.

Jiawei Han, Micheline Kamber: Data Mining: Concepts and Techniques, Academic Press, Morgan Kaufmarm Publishers, 2001.M. Ester und J. Sander: Knowledge Discovery in Databases: Springer-Verlag, 2000.U. M. Fayyad, G. Piatetsky-Shapiro, P. Smyth and R. Uthurasamy: Advances in Knowledge Discovery and Data Mining. Cambridge , London . MIT Press, 1996.Interessante Links können auch unter http://www.bibsonomy.org/tag/classification gefunden werden.

Es ist möglich, sich während der Semesterferien bei Prof. Dr. Andreas Hotho oder Wi.-Inf. Beate Krause zu melden, um ggf. nachträglich in das Seminar einzusteigen und dabei die Semesterferien noch zu nutzen.

Hubland Süd, Geb. M2