Dieses Repository enthält eine Implementierung eines Algorithmus zur Klassifizierung von Texten in Leichte Sprache und reguläre Sprache. Der Algorithmus verwendet deterministische Heuristiken, um Texte basierend auf verschiedenen linguistischen Merkmalen zu bewerten.
Betrachtet werden:
- Satzlänge
- Wortlänge
- Verwendung von Fremdwörtern
- Anzahl der Silben
Der Algorithmus gibt jedem Text eine Punktzahl, die seine Übereinstimmung mit den Kriterien für Leichte Sprache widerspiegelt. Niedrigere Punktzahlen deuten auf eine schlechtere Übereinstimmung hin.
Die Punktzahlen sind lediglich ein Hinweis auf die Textqualität und garantieren nicht, dass Prüfer:innen für Leichte Sprache diese in der Realität verstehen werden.
Einen Datensatz klassifizieren:
python3 ./src/rate_dataset.py username/hf-repo [--instruct]