Das Wissen im Unternehmen umfassend nutzenTextmining-Software ermöglicht die Wissensextraktion aus unstrukturierten Daten und Informationen Von Anwendungsentwicklerin Athina PoppiHerausforderungFür Entscheidung und Steuerung nutzen Unternehmen Informationen in Berichtswesen und Analyse, also mit Hilfe von Business Intelligence-Tools. Diese arbeiten ausschließlich mit Daten in vordefinierten Strukturen, beispielsweise relationalen Tabellen und multidimensionalen Cubes, und die meisten Tools greifen auf diese Strukturen per SQL oder MDX zu. Daher müssen unstrukturierte Daten erst in strukturierte Daten umgewandelt werden, bevor sie einbezogen werden können. Laut Merrill Lynch & Co. Inc. verstecken sich immerhin über 85 % der Unternehmensdaten in schwer erschließbaren Dokumenten wie E-Mails, Gedächtnisstützen, Notizen aus Call Centern, Usergroups, Internetchats, Briefen, Studien, Fachartikeln, Marketingunterlagen oder Internetseiten. Konservativer schätzt das Data Warehousing Institute (TDWI), dass 53 % der Unternehmensdaten un- und teilstrukturiert sind. “Unabhängig von solchen Schätzzahlen wissen wir alle, dass es in jeder Organisation eine große Masse an Information in Textform gibt, die das klassische Business Intelligence, Data Warehouse-Technologien und Geschäftsprozesse außer Acht lassen”, sagt der TDWI-Forscher Philip Russom. In der Folge werden wichtige Unternehmensentscheidungen auf der Grundlage eines eingeschränkten Wissens getroffen. Abhilfe schaffen können hier texttechnologische Verfahren, die die Bedeutung natürlich-sprachlicher Texte trotz möglicher Mehrdeutigkeit erkennen können, speziell das so genannte Textmining oder die „intelligente Textanalyse“. Mit diesem Prozess werden zuvor nicht bekannte, aber potenziell wertvolle Informationen bzw. Informationszusammenhänge aus großen Textdatenmengen herausgezogen. Das Textmining nutzt unstrukturierte Daten aus internen und externen Unternehmensquellen. NutzenIm Unternehmensalltag werden Informationen gesammelt zu Personen (Namen, Position oder Sozialversicherungsnummer), Sachen (Produkte und Business), Zeit (Datum, Tagen, Urlaub, Feiertage und Zeitperioden), Quantitäten (Geldwährungen, Verkaufszahlen und Kennzahlen), Konzepten (Politische Belange). Diese auch aus unstrukturierten Datenmengen zu erschließen – methodische Ansätze dafür sind Computerlinguistik, Information Retrieval oder Methoden aus dem Maschinellen Lernen und der Künstlichen Intelligenz – bringt einen deutlichen Wissensgewinn. - Das Marketing kann Aussagen aus Blogs analysieren und auf den herausgefilterten Kundenwünschen eine Kampagne aufbauen.
- Die Presseabteilung filtert mit Hilfe einer automatischen Textklassifikation Nachrichten für das automatisierte Erstellen eines firmenspezifischen Pressespiegels aus verschiedenen Quellen.
- Im Vertrieb werden zur Unterstützung in Kundenservice oder Kundenbetreuung Textfragmente für die Antworterstellung bereitgestellt oder automatisiert Fragen beantwortet, indem bekannte Frage-Antwort-Paare mit der aktuellen Anfrage abgeglichen werden.
- Auf der Grundlage von Texten, die entlang des Kundenlebenszyklus der Kunde selber liefert (z.B. Emails an das Unternehmen) oder der Mitarbeiter anlegt (z.B. Transkripte von Kundenanrufen im Call Center), können Textmining-Tools bei analytischen Fragestellungen helfen etwa durch die Analyse von Kunden-Feedback im Rahmen der Produktverbesserung.
Funktionsstand Eine vollständige Automatisierung der Anwendung von Textmining-Verfahren ist zur Zeit kaum erreichbar. Aber es können Chancen und Risiken für ein Unternehmen erkannt, Entscheidungsprozesse und betriebliche Abläufe unterstützt werden. Wird also im Rahmen eines BI-Projekts festgestellt, dass große Mengen unstrukturierter Text- und Datenquellen eingebunden und genutzt werden sollen, ist die Integration eines Textmining-Produktes angesagt. Die meisten BI-Anbieter implementieren in ihre Produkte keine Funktionen im Sinne von Textmining, sondern verlassen sich zur Abdeckung dieses Bedarfs auf den Markt. Der Trend geht jedenfalls zum Einsatz von Textmining-Tools nicht als Ersatz, sondern als Ergänzung und Erweiterung von BI-Technologien. SoftwareauswahlDie Voraussetzung für erfolgreiche Analysen bilden Daten. Zwar lassen sich auch aus kleinen Datenbeständen interessante Erkenntnisse herausholen, doch normalerweise geht es um die Nutzung großer und vor allem hochwertiger Datenmengen, wobei Textmining nicht nur Datenqualität, sondern auch Datentiefe benötigt. Bei der Erstellung eines Pflichtenhefts für die Einführung von Textmining müssen sowohl administrative und technische als auch fachliche und funktionale Anforderungen berücksichtigt und bei der Auswahl des Produkts überprüft werden. - Zu ersteren zählen die Systemvoraussetzungen, also Schnittstellen, Betriebssystem, Datenbanksysteme. Außerdem müssen Kriterien für die Administration entwickelt werden. Beispielhaft muss geklärt werden:
- Wie können neue Quellen angebunden werden? - Wie können Analysen angelegt werden und wer darf dies tun? - Gibt es eine Rechteverwaltung und wie funktioniert diese? - Mögliche Fragestellungen im Bereich der fachlichen und funktionalen Anforderungen sind:
- Welche Ausgabeformate muss es geben? - Welche Darstellungsweisen werden gebraucht? - Was gehört zu einer guten Bedienbarkeit, besonders hinsichtlich der Parametereinstellung für Analysen? - Welche Parameter müssen bei einer bestimmten Analyse vorhanden und einstellbar sein?
Schon im Vorfeld der Toolauswahl sollte sichergestellt werden, dass die Textmining-Software die in den Dokumenten verwendeten Sprachen unterstützt. Betreibt ein Unternehmen mehrere BI-Plattformen, ist sicherzustellen, dass das Textmining-Produkt zu allen eine Schnittstelle hat und eine angemessene Rechteverwaltung realisiert werden kann. Die einzelnen Lösungen werden bewertet anhand von verschiedenen Kriterien und Features, beispielsweise ob ein Concept Linkage – das Aufdecken gemeinsamer Konzepte in verschiedenen Dokumenten – vorhanden ist, der Aufbau semantischen Wissens oder die Visualisierung von Textdaten möglich ist u.a.m. Davon werden Empfehlungen zur Eignung der verschiedenen Lösungen für die konkrete Aufgabenstellung abgeleitet. Bei den Textmining-Lösungen ist grundsätzlich zu unterscheiden zwischen Anbietern, die sich auf einzelne Textmining-Funktionalitäten spezialisieren, etwa SPSS, und solchen, die umfassende Business Intelligence-Lösungen durch Texttechnologien erweitern, beispielsweise ClearForest und SAS. Jede Lösung zeigt Stärken und Schwächen. Die Evaluierung muss für den geplanten Einsatzzweck die beste Lösung herausfinden. Realisierung von TextminingFür die automatische Analyse unstrukturierter Daten gibt es eine Vielzahl von Verfahren – bedingt vor allem durch den Einfluss der verschiedenen Disziplinen. Bei den Kernverfahren unterscheidet sich Textmining aber kaum von denen für numerisches Data Mining wie Cluster- oder Klassifikationsanalyse. Nur die Unstrukturiertheit der Daten bedingt gewisse Besonderheiten. Jedes Textmining-Tool arbeitet nach einem ähnlichen Ablauf. Jeder Prozessschritt setzt eine spezifische Methode ein. Schritt 1: Am Anfang steht die Auflistung aller Textquellen und Textdokumente mit unstrukturierten Informationen, automatisiert anhand von vorgegebenen Kriterien, die im Rahmen von Textmining ausgewertet werden sollen. Die vorgenommene Klassifizierung von Texten in interessant bzw. uninteressant mit Hilfe von Information Retrieval hat den großen Vorzug, Metadaten über die einzelnen Dokumente zu erzeugen. Schritt 2: Die Vorverarbeitung generiert aus unstrukturierten Dokumenten strukturierte Metadaten, basierend auf Methoden der Computerlinguistik, das heißt natürliche Sprache wird maschinell verarbeitet. Eben hierin liegt eine der größten Herausforderungen des Textminings, nämlich für die Dokumentenauswertung Bedeutung aus natürlich-sprachigen Texten zu erschließen. Mehr Informationen im folgenden Kapitel Datenaufbereitung.
Schritt 3: Sobald strukturierte Metadaten zu unstrukturierten Dokumenten vorliegen, ist ihre Bewertung und Selektion zum Beispiel mit der Methode der Klassifizierung möglich. Schritt 4: Zuletzt werden die aus den Rohdaten gewonnenen und strukturierten Informationen mit den Methoden des Data Mining auf Muster analysiert und auf diese Weise neues Wissen extrahiert. Folgende Schritte sind nach Gao, Chang und Han (2005) zur Erreichung der Ziele des Textminings innerhalb eines Business Intelligence-Systems nötig: 1. Erstellung einer Dokumentkollektion; Suche und Retrieval. 2. Linguistische Vorverarbeitung. 3. Evaluation und Exploration der Dokumente. 4. Extraktion von Merkmalen und Beziehungen einer Zielmenge von Dokumenten bezüglich eines speziellen Geschäftsproblems. DatenaufbereitungGrundsätzlich sollte ein Textmining-Projekt in einem Unternehmen immer eine abgrenzbare betriebswirtschaftliche Fragestellung sein. Nach deren Konkretisierung und der Auswahl dafür geeigneter Dokumente werden die Daten bereinigt und in analysebereite Datenstrukturen überführt. Die linguistische Aufbereitung der Daten sowie die Reduzierung auf grammatische Grundformen im Rahmen von Textmining sind sehr aufwendig. Die Dokumentaufbereitung für das Textmining umfasst dabei morphologische, syntaktische und semantische Analysen. Aufgrund der syntaktischen Komplexität von Sprache und ihrer semantischen Mehrdeutigkeit sind viele zusätzliche Schritte erforderlich, die beim numerischen Data Mining entfallen. So müssen die relevanten Textteile zunächst aus den Dokumenten extrahiert und in einzelne Wörter, so genannte Tokens, zerlegt werden. Die Tokens werden in der Regel dann auf ihre grammatischen Grundformen reduziert – „schrieb“ und „geschrieben“ beispielsweise auf den Stamm „schreiben“. Semantisch unbedeutende Begriffe wie „auch“ oder „und“ werden entfernt. Diese Schritte gehören zu den morphologischen Analysen. Die syntaktischen Analysen beschäftigen sich mit dem Satzbau. Dabei werden bei Verwendung zweier Informationsquellen (Lexika und syntagmatische Informationen) die verschiedenen Satzteile und Ausdrucksformen mit ihren Wortarten ausgezeichnet, beispielsweise Substantiv, Verb, Adjektiv, Adverb, Konjunktion, aber auch Fremdwörter, Kardinalnummern usw. Der Satzbau wird analysiert und jedes Wort gemäß seiner Stellung im Satz annotiert (z.B. Subjekt, Prädikat, Objekt). Die semantischen Analysen haben als Hauptaugenmerk Sinn und Bedeutung der Sprache. Dazu wird kontextuelles Wissen verwendet, um den Text in bedeutungsabhängige Einheiten zu zerlegen. Wörter können abhängig vom Kontext unterschiedliche Bedeutung haben (etwa „Bank“ als Geldinstitut oder Sitzmöglichkeit). Erst wenn diese und andere Vorarbeiten, wie sie allgemein bei der Datenaufbereitung anfallen, erledigt sind, sind die Daten analysebereit. Dann können etwa linguistische Algorithmen analysieren, wie häufig bestimmte Begriffe in einer Textmenge vorkommen, an welchen Stellen sie sich befinden und welche der Begriffe oft im gleichen Zusammenhang erscheinen. Es folgt die eigentliche Analysephase beziehungsweise Phase der Musterentdeckung, also das eigentliche Textmining. Die in dieser Phase verwendeten Verfahren werden von der Fragestellung bestimmt.
Nach der Musterentdeckung werden die Ergebnisse statistisch ausgewertet und aus betriebswirtschaftlicher Sicht interpretiert. In dieser Phase werden meist auch Visualisierungsverfahren eingesetzt. Dabei wird versucht, Fakten und Themen und deren Zusammenhänge landkartenähnlich zu präsentieren. So können Benutzer verdeckte Zusammenhänge besser erkennen. Eine anspruchsvolle Aufgabe ist dabei die Ableitung von Handlungsempfehlungen, um das betriebliche Projektziel zu erreichen. Neben der Strukturierung von Dokumenten kann Clustering benutzt werden, um Gruppen von Wörtern oder Phrasen zu bilden, die häufig zusammen erscheinen. Unterschiedliche Bedeutungen von Wörtern lassen sich dadurch erkennen und Mehrdeutigkeiten auflösen. Auch die Assoziationsanalyse hat ihr textuelles Äquivalent. Analog zur numerischen Assoziationsanalyse kann in Texten nach lexikalischen Assoziationen gesucht und können diese nach ihrer Stärke bewertet werden. So lässt sich zum Beispiel aus einer Assoziation in Kunden-Mails oder Webforen zwischen dem Namen eines Produktes und negativen Zuschreibungen schließen, dass dieses Produkt in schlechtem Ruf steht. Die Erkennung von Assoziationen setzt allerdings voraus, dass die Probleme, die Synonymie und Polysemie in natürlich-sprachlichen Texten einer solchen Datenanalyse bereiten, weitgehend gelöst sind. Wo die Kosten steckenNicht immer erzielen Unternehmen mit ihrer Data Mining-Lösung den gewünschten betriebswirtschaftlichen und strategischen Erfolg. Doch sind solche Fehlschläge heute die Ausnahme, sagt Analyst und Berater Wolfgang Martin. Finden Anwender hingegen die „Nuggets“ in ihren Daten und erschließen sich so neue Absatzmöglichkeiten, sind die Anschaffungskosten für Tools quasi vernachlässigbar. Die wahren Kosten verbergen sich im kontinuierlichen Data Mining-Prozess (Mitarbeiter, Externe, Aufwände für Datenbeschaffung). Dennoch rentieren sich gelungene Projekte schnell. Executive Expert Analytics Ulrich Reincke vom Anbieter SAS Institute empfiehlt zudem auch aus Kostenaspekten, zunächst ein kleines Projekt (Szenario, kleines Modell) zu starten, vorausgesetzt, die Daten sind verfügbar. Daran lasse sich schnell absehen, ob sich eine Fortsetzung lohnt und wie der dazugehörige Prozess aussehen kann. Die Produktpreise seien bei der Kostenbetrachtung weniger entscheidend, zumal Anbieter auch Mittelstandspreise oder Data Mining zusammen mit der dazugehörigen Infrastruktur anbieten. Ein riesiges Anwendungsfeld sieht IBM-Manager Grund in der Auswertung unstrukturierter Daten mit Hilfe von Textmining: „Mehr als 80 Prozent aller Informationen sind Freitexte.“ Es stehe aber zugleich noch „viel Basisarbeit“ an, um Unternehmen die Arbeit mit den Analyseverfahren zu erleichtern. Fazit: Erfolgsfaktor ProduktauswahlDas Aufspüren strategisch wertvoller Informationen ist einfacher geworden, verlangt aber viel Fachwissen. Im Wesentlichen wird beim Textmining versucht, Verfahren des Data Mining auf unstrukturierte Textdaten zu übertragen. Dies sind vor allem Verfahren zum Indizieren, Klassifizieren, Clustern und automatischen Zusammenfassen der vorhandenen Dokumentensammlungen. Dafür sind viele Schritte notwendig, die mit der Problemerfassung und Aufbereitung der Quelldokumente beginnen. Das Nutzen von Textmining aber ist enorm. Für Manager kann ein Frühwarnsystem aufgebaut werden, dass mit einer periodischen Überprüfung von Informationsquellen und Benachrichtigung der relevanten Personen gekoppelt ist. Als ausgefeiltere Anwendung können etwa im CRM automatisch klassifizierte Kunden-Mails mit anderen Daten zusammengeführt und nutzbar gemacht werden. Reklamationen lassen sich besser analysieren, wenn der Reklamationstext mit dem Kundenstamm und den Verkaufsdaten zusammengeführt wird. Auch spezifische Angebote können dem Kunden durch entsprechende Klassifizierungen gemacht werden. - Tendenziell textorientierte betriebliche Aufgaben wie Marktforschung, Wettbewerbsanalysen oder Kundenbeziehungsmanagement können erfolgreicher durchgeführt werden, wenn das für die aktuelle Problemstellung geeignetste Produkt ausgewählt wird.
- Techniken zum Aufspüren von Mustern und Zusammenhängen in unstrukturierten Dokumenten verhelfen Unternehmen zu neuen Entdeckungen, die herkömmliche Tools für Business Intelligence nicht bieten.
|