Wikipedia ist eine der wichtigsten frei verfügbaren Quellen für strukturierte und umfangreiche Textdaten, die beim Training von Sprachmodellen wie ChatGPT oder Google Bard genutzt werden
3. Die Wikimedia Foundation stellt über Wikimedia Enterprise und in Kooperation mit Plattformen wie Kaggle speziell aufbereitete, maschinenlesbare Wikipedia-Datensätze bereit, die direkt für das Training, das Benchmarking und die Feinabstimmung von KI-Modellen verwendet werden können
15. Diese Datensätze sind beispielsweise als strukturierte JSON-Dateien verfügbar und enthalten Artikeltexte, Zusammenfassungen, Bildverweise und weitere Metadaten, jedoch ohne Referenzen oder nicht-textliche Inhalte
5.
Die Nutzung dieser Daten unterliegt den jeweiligen Lizenzen von Wikipedia, wie der Creative Commons Attribution-Share-Alike 4.0 oder der GNU Free Documentation License. Wer Wikipedia-Inhalte für das Training von KI-Modellen verwendet, muss die Quelle korrekt angeben
1. Ziel dieser strukturierten Bereitstellung ist es, den Zugriff auf hochwertige Trainingsdaten zu erleichtern und die Belastung der Wikipedia-Server durch automatisierte Bots zu reduzieren
5.