Foundation Large Language Model for HTML
06.10.2025Current large language models (LLMs) have been trained on large corpora of texts and can solve many text-related tasks very well. This work aims to investigate various neural architectures for creating a foundation model for HTML.
Aktuelle große Sprachmodelle ("large language models" – LLMs) wurden auf großen Korpora mit Texten trainiert und können viele textbezogenen
Aufgaben sehr gut lösen. Mit etwas Finetuning sind sie auch zur Verarbeitung und Analyse von HTML-Dokumenten [gur2022understanding] geeignet.
Diese Arbeit soll verschiedene neuronale Architekturen (insbesondere Tokenizer) für die Erstellung eines Foundation Models für HTML untersuchen. Neben naheliegenden Varianten (z.B. HTML-Tags ohne oder mit Text) sollen auch andere Varianten und Kombinationen (etwa verschiedener Tokenizer für Text und HTML) untersucht werden. Möglich wäre auch die Modellierung der Graph-Struktur von HTML, etwa durch die Verwendung spezieller Transformer-Modelle [wankerl2025identifying]. Weitere Use-Cases zum Testen wären etwa Boiler-Plate-Removal [vogels2018web2text] oder die Altersbestimmung von Webseiten [salaheldeen2013carbon]. Große Korpora (mehrere Terabyte) an HTML-Seiten im WARC-Format sind vorhanden [korpora].
[gur2022understanding]: https://arxiv.org/abs/2210.03945
[wankerl2025identifying]: https://openreview.net/forum?id=gLQ801ewwp
[vogels2018web2text]: https://doi.org/10.1007/978-3-319-76941-7_13
[salaheldeen2013carbon]: https://doi.org/10.1145/2487788.2488121
[korpora]: https://www.ibi.hu-berlin.de/de/service/rechen-und-datenressourcen/Ressourcen
Supervisor: Andreas Hotho