Alexa, was bedeutet Text Mining?

Die menschliche Sprache ist ein sehr komplexes Kommunikationssystem, das eine immense Informations- und damit Datenvielfalt übermittelt. In diesem Zuge werden Anwendungen künstlicher Intelligenz wie Alexa oder Chatbots entwickelt, die unsere Sprache in Wort und Schrift immer besser verstehen können. Prof. Dr. Jens Albrecht von der TH Nürnberg und Dr. Christian Winkler von Datanizing beschäftigen sich damit, wie man natürliche Sprache für Computer verständlich machen kann. Sie haben uns in unserer Veranstaltungsreihe DataLab einen Einblick in das Thema Textanalyse und Text Mining verschafft und beantworten uns jeweils drei Fragen.

Was sind Textanalyse und Text Mining und warum arbeitet die TH Nürnberg genau an diesem Thema?

Prof. Albrecht: Das Themenfeld Text Mining bzw. Textanalyse umfasst Methoden für computergestützte Analyse großer Mengen unstrukturierter, d.h. in digital verfügbarer, natürlichsprachlicher Textdaten. Darunter fallen Nutzerkommentare, E-Mails, Pressemeldungen, Chat-Protokolle und vieles mehr. Textuelle Daten sind sowohl in Unternehmen als auch im Internet massenhaft vorhanden. Die darin verborgenden Informationen enthalten oft wertvolle Hinweise zu Meinungen, Vorlieben oder Problemen von (potenziellen) Kunden, aber selbst ein Experte kann keine Tausende Kommentare durchlesen. Erst der Einsatz maschineller Lernverfahren ermöglicht es, latent verborgende Muster aufzudecken und zu nutzen.

Welche Formen von Textanalyse und welche Herausforderungen werden in der Forschung gerade behandelt?

Prof. Albrecht: Bei uns an der Technischen Hochschule liegt der Fokus vor allem darauf, die Potenziale und Grenzen aktueller Methoden in Bezug auf konkrete Anwendungsfälle regional ansässiger Unternehmen und Institute zu untersuchen. Die inhaltliche Vielfalt an Textdaten und Fragestellungen ist sehr groß, ebenso wie die Zahl der Algorithmen, so dass nicht immer von vornherein klar ist, welche Probleme sich wie am besten lösen lassen.

Welche Kommunikationsformen sind für Textanalyse besser geeignet, welche eher nicht?

Dr. Winkler: Textanalyse benötigt im engeren Sinne lesbare Texte, keine gesprochene Sprache. Speech-to-text-Systeme können die Übersetzung übernehmen und sind dabei sehr ausgereift, 2017 hat Microsoft dabei sogar Menschen in der Erkennungsrate geschlagen.

Indirekt ist somit als auch gesprochene Sprache verwendbar. Das Common Voice Projektbaut dazu gerade eine offene Datenbasis auf

Sehr kurze Texte (wie Instagram- oder Facebook-Kommentare) sind nur im Kontext interpretierbar und haben oft keine hohe Informationsdichte. Freitexte und E-Mails sind deutlich einfacher zu interpretieren. Gesetze sind in einer domänenspezifischen (natürlichen) Sprache geschrieben und müssen speziell trainiert werden, dann ist aber die Interpretation auch möglich.

Wie kann Textanalyse die tägliche Arbeit in einem Unternehmen erleichtern?

Dr. Winkler: Hier gibt es sehr viele Einsatzmöglichkeiten. Denkbar sind z.B. eine Teilautomatisierung des Kundenservice oder auch interner Helpdesks. Dokumentenarchive können damit strukturiert werden. Aber auch externe Datenarchive können eine Rolle spielen, z.B. für Investmentempfehlungen oder auch als Informationssystem für das Management. Viele Marktforschungsunternehmen setzen auf automatische Textanalyse. Aber auch in der Softwareentwicklung kann Textanalyse eingesetzt werden, z.B. beim Requirements Engineering oder in der automatischen Bedrohungsanalyse (Security).

Gibt es schon Erfolgsgeschichten in Unternehmen?

Dr. Winkler: Es gibt einige Unternehmen (wie beispielsweise bei unserem Unternehmen Datanizing), bei denen Textanalyse eine zentrale Rolle spielt. Aber auch der Erfolg von Suchmaschinen bzw. der eigentlich gewinnbringenden Internet-Werbung von Facebook, Google & Co. liegt Textanalyse als Basistechnologie zugrunde.

Welche Rolle könnte die Textanalyse in einer Bank spielen?

Prof. Albrecht: Gerade für eine Bank ist die Verfolgungen von Stimmungen, Meinungen und Trends von großer wirtschaftlicher Bedeutung. Dabei geht es nicht nur um Kunden, sondern auch um das Umfeld, d.h. die Politik, die Finanzmärkte und nicht zuletzt die Konkurrenz. Zu allen diesen Themenfeldern gibt es vielfältige natürlichsprachliche Daten, die nur darauf warten, analysiert zu werden.

Suche

Häufige Begriffe