Keywords extrahieren (PHP)

Vincent

Mitglied
Ich habe eine Variable $text die den Text einer Webseite (mit Satz- und Sonderzeichen, ohne HTML-Tags und -Entities) enthält. Ich möchte nun die $n häufigsten Schlüsselwörter extrahieren und als Array ausgeben.
Stopwörter sollen nach Möglichkeit raus, es reicht aber, wenn einfach alle Wörter kürzer als z. B. 5 Zeichen rausfallen.

Das ganze muss nicht besonders schön sein, quick-and-dirty reicht :)

Ich habe jetzt so lange daran rumprobiert, dass ich völlig den Überblick verloren habe, allerdings brauche ich die Funktion dringend ... Evtl. kann von Euch jemand weiterhelfen?

Vincent
 
Quick and Dirty eh...?

Wift die Sonderzeichen über Bord, explodiere den String über das Leerzeichen und schon hast Du den Termvektor der Familie. Eine While später und ein 2tes Array hast Du mittels simpler Zählung eine Menge Wörter und deren Häufigkeit.

Die Stopwortliste ist ein anderes Thema, ich wollte schon lange mal ein Thema starten, wer will Stoplisten tauschen...? Meine ist nämlich eher Quanti- statt Qualitativ...

PS: Beim dynamischen Aufbau der Stopwörterliste möge die relative Häufigkeit der Wörter über alle Texte ein sehr guter Indikator sein alle es ist der du dem's zu finden...
 
Zurück
Oben