Deutsch Intern
    Data Science Chair

    Foundation Large Language Model for HTML

    10/06/2025

    Current large language models (LLMs) have been trained on large corpora of texts and can solve many text-related tasks very well. This work aims to investigate various neural architectures for creating a foundation model for HTML.

    Aktuelle große Sprachmodelle ("large language models" – LLMs) wurden auf großen Korpora mit Texten trainiert und können viele textbezogenen
    Aufgaben sehr gut lösen. Mit etwas Finetuning sind sie auch zur Verarbeitung und Analyse von HTML-Dokumenten [gur2022understanding] geeignet.

    Diese Arbeit soll verschiedene neuronale Architekturen (insbesondere Tokenizer) für die Erstellung eines Foundation Models für HTML untersuchen. Neben naheliegenden Varianten (z.B. HTML-Tags ohne oder mit Text) sollen auch andere Varianten und Kombinationen (etwa verschiedener Tokenizer für Text und HTML) untersucht werden. Möglich wäre auch die Modellierung der Graph-Struktur von HTML, etwa durch die Verwendung spezieller Transformer-Modelle [wankerl2025identifying].  Weitere Use-Cases zum Testen wären etwa Boiler-Plate-Removal [vogels2018web2text] oder die Altersbestimmung von Webseiten [salaheldeen2013carbon]. Große Korpora (mehrere Terabyte) an HTML-Seiten im WARC-Format sind vorhanden [korpora].

    [gur2022understanding]: https://arxiv.org/abs/2210.03945
    [wankerl2025identifying]: https://openreview.net/forum?id=gLQ801ewwp
    [vogels2018web2text]: https://doi.org/10.1007/978-3-319-76941-7_13
    [salaheldeen2013carbon]: https://doi.org/10.1145/2487788.2488121
    [korpora]: https://www.ibi.hu-berlin.de/de/service/rechen-und-datenressourcen/Ressourcen

    Supervisor: Andreas Hotho

     

     

    Back