Zum Inhalt springen
Logo TechLab Blog

TechLab Blog

Data-/ Text Mining

Man hört in den Medien immer wieder die Schlagwörter "Big Data" oder "Machine Learning". Doch was ist das überhaupt und wie hängen diese 2 Themen zusammen? Hier kommt "Data Mining" ins Spiel.

Am Mittwochabend dem 04. März 2020 beschäftigten wir uns mit Data- und Textmining. Eigentlich geht es bei diesem Prozess darum, aus Daten oder Texten etwas Sinnvolles herauszufiltern. Das können irgendwelche Zusammenhänge oder auch Trends sein.

Ein Beispiel: Walmart, die amerikanische Verkaufskette, hat in ihren Kundendaten den Zusammenhang herausgefunden, dass junge Väter an Samstagen oft neben Windeln auch Bier kaufen. Indem Walmart die beiden Produkte jeweils beim Samstagsverkauf nebeneinander platziert hat, konnte die Firma den Verkauf von Bier nochmals zusätzlich beträchtlich steigern.

Solche Zusammenhänge sind bei sehr grossen Datenmengen ("Big Data") nur sehr schwer bis unmöglich von blossem menschlichen Auge zu erkennen. Deswegen gibt es Algorithmen, die spezifisch nach solchen Mustern Ausschau halten. Diese Algorithmen sind nichts anderes als Rechenfunktionen wie zum Beispiel y= 2x + 6, einfach meistens noch etwas komplexer.

Man kann neben Zusammenhängen aus Daten auch Vorhersagen machen. Dies geht dann, wenn man bereits Daten hat, welche ein Ergebnis vorausgesagt haben.

Wenn man zum Beispiel bereits Wetterdaten hat von den letzten 50 Jahren, dann kann man aus diesen Daten Voraussagen machen, wie sich das Wetter für die nächste Tagen/ Wochen entwickelt. Auch hier kommen wieder Algorithmen zum Zug. Das Entscheidende ist hier aber, dass man anhand der bereits vorhandenen Daten und deren Ergebnisse (nämlich wie das Wetter in den letzten 50 Jahren tatsächlich war) den Algorithmus trainieren kann, das korrekte Wetter vorauszusagen. Indem der Algorithmus nämlich die bereits stattgefundenen Wettersituationen korrekt voraussagen kann, kann er dies auch bei zukünftigen Wetterpatterns verlässlich tun. Dies ist "Machine Learning". Man trainiert einen Algorithmus, indem man die Gewichtung der einzelnen Parameter des Algorithmus so lange ändert, bis er so gut wie möglich das Endergebnis richtig voraussagen kann, testet ich dann bei neuen Daten und lässt ihn dann Voraussagen machen. Data Mining macht genau das.

Natürlich gehört zu Data Mining auch das Sammeln, das Bereinigen (Duplikate, fehlende Datenreihen, Ausreisser, Formate zusammenführen) und das Interpretieren der Daten hinzu, und letzteres macht immer noch der Mensch selbst. Es braucht oft viel Erfahrung, um die geeignetste Methode fürs Mining zu wählen.

Beim Textmining geht es wiederum oft darum, aus ganz vielen Dokumenten die relevanten Worte herauszufiltern. Anhand dieser sogenannten "inversen Listen", wo steht, welche Worte in welchen Dokumenten wie oft vorkommen, können zum Beispiel Dokumente durchsuchbar gemacht werden (siehe Google). Es gibt aber auch noch viele andere Anwendungsbeispiele beim Textmining. Die Sentimentsanalyse ergibt, ob ein Text eher positiver oder negativer Stimmung ist. Die Topic Detection kann aus Texten das Hauptthema herausfiltern. Mittels N-Grammen (3-Gramm = man zerlege die Sätze in 3-er Paare Buchstaben, also m-a-n, a-n-z, n-z-e, z-e-r, e-r-l, ...) kann man erkennen, in welcher Sprache ein Dokument geschrieben ist.

Auf dem TechLab Github Link gibt es mehr Infos zu einzelnen Methoden des Data- und Textmining. Ausserdem kann man sich eine Software namens RapidMiner herunterladen, mit der man relativ einfach selbst Data Mining betreiben kann, und das ganz ohne zu programmieren.

Anzahl Kommentare 0
Kommentare