Die Stolpersteine semantischer Textanalyse

Die Stolpersteine semantischer Textanalyse

Von Synonymen, Homonymen, Antonymen und Kontextsensitivität

Auf den ersten Blick wirkt die semantische Analyse von semi- und unstrukturiertem Text recht geradlinig: Man zerlege den Text in seine Einzelteile, entferne Bindewörter und anderes schmückendes Beiwerk, identifiziere grammatikalische Konstrukte ("Part-of-Speech"-Tagging) und weise den übriggebliebenen Begriffen eine semantische Bedeutung zu, beispielsweise indem ein Begriff einem semantischen Konzept zugeordnet wird.

Textanalyse

Das semantische Konzept ist, im Idealfall, wiederum Teil eines semantischen Netzwerkes, auch Ontologie genannt, wodurch sich Zusammenhänge zwischen Begriffen und, in weiterer Folge, zwischen Dokumenten herleiten lassen - es entstehen sogenannte semantische, also inhaltliche, Relationen.

Soweit, so gut, so einfach. Die Relevanz visueller Metainformationen wie Anordnung, Formatierung und graphischer Auszeichnung möchte ich in diesem Beitrag bewusst außen vor lassen und nur auf die Stolpersteine semantischer Textanalyse eingehen. Denn ganz so einfach ist das zuverlässige Interpretieren von Bewerbungsunterlagen dann leider doch nicht.

Da wären zum einen die Synonyme, also unterschiedlich lautende Begriffe mit derselben Bedeutung. Einem semantischen Konzept, nehmen wir bspw. das Tätigkeitsgebiet "Landwirtschaft", lassen sich noch relativ einfach Synonyme zuordnen. "Ackerbau", "Agrarökonomie" oder "Landwirtschaft" selbst zum Beispiel. Da wir auch Berufe diesem Gebiet zuordnen möchten, nehmen wir "Landwirt" und "Bauer" mit in die Liste der Synonyme auf. Wann immer also einer dieser Begriffe in einem Text vorkommt, weisen wir dem Begriff das Konzept "Landwirtschaft" zu. Aufmerksame Leser bemerken, dass natürlich ein ganzer Haufen Begriffe fehlt: "Obstbauer" und "Weinbauer" zum Beispiel. Und genau genommen muss man dann auch "WeinANbau" erkennen. Es fängt also schon an, eine lange Liste zu werden, und wir betrachten vorerst nur ein einziges Konzept. Der Bequemlichkeit halber wird man auf die Idee kommen, nur den scheinbar relevanten Teil des Wortes zu betrachten, in dem Fall "bauer" und den vorangestellten Teil außen vor zu lassen.

Als ob es mit der schier endlosen Sammlung an Synonymen nicht schon genug wäre, kommen relativ schnell auch die sogenannten Homonyme ins Spiel, also syntaktisch idente Terme mit (zum Teil gänzlich) unterschiedlicher Bedeutung. Führen wir ein zweites Tätigkeitsgebiet, den "Maschinenbau" ein und fügen wir diesem Synonyme hinzu, so wird recht schnell auch der Beruf "Maschinenbauer" Einzug finden. In diesem steckt nun allerdings auch das Wort "bauer", welches in diesem Fall zum Homonym wird (gleichwohl nicht unbedingt im linguistischen Sinne). Das Dilemma wird ersichtlich: Ein Maschinenbauer ist kein Bauer im landwirtschaftlichen Sinne, wir würden ihm aber nach obiger Synonymsammlung diese Bedeutung zukommen lassen.

Wiederum nicht ganz im klassischen linguistischen Sinne, jedoch angelehnt daran setzen uns auch noch mögliche Antonyme, also gegenteilige Bedeutungen, bei der Informationsextraktion zu. Beinhaltet ein Text "biologische Landwirtschaft", also das Tätigkeitsgebiet Landwirtschaft, ein anderer Text hingegen "chemische Landwirtschaft", so würde ein semantisches System, welches diese wesentlichen und fast schon gegensätzlichen Begriffe "biologisch" und "chemisch" nicht mitberücksichtigt, sicherlich unzufriedenstellende Ergebnisse liefern.

Wie in vielen Bereichen der Informationsextraktion spielt also nicht nur das Erkennen von Konzepten, sondern auch deren Deutung und Bedeutung in einem gewissen Kontext eine wesentliche Rolle. So ist die "Wirtschaft" in einem überwiegend agraisch geprägten Lebenslauf vermutlich die "Landwirtschaft", in einem touristisch geprägten Profil eher eine "Gastwirtschaft" und in einer Ausschreibung für einen Controller vermutlich die "Betriebswirtschaft". Semantische Systeme, insbesondere Parser, also diejenigen Werkzeuge, die freitextliche Dokumente in semantische Objekte umwandeln, können nur dann zuverlässig funktionieren, wenn sie den jeweiligen Kontext berücksichtigen.

Und welche Konzepte in welchem Kontext wiederum eine Rolle spielen und welche nicht, muss auch erst gelernt werden - zum Beispiel mit Hilfe von Machine Learning. Aber das ist eine ganz andere Geschichte ...


Kontakt

Unser Büro

Prinz-Eugen-Straße Nr. 70

1040 Wien

contact@joinvision.com

+43 (0)1 505 80 70

+43 (0)1 505 80 70 60

Schreiben Sie uns







JoinVision-Logo

JoinVision ist führender Anbieter mehrsprachiger semantischer Recruiting-Technologie. Mit CVlizer und JOBolizer werden Bewerberunterlagen bzw. Stellenanzeigen automatisch erfasst, analysiert und beschlagwortet. Die Applikation MatchPoint liefert einen automatischen One-Klick-Vergleich von Bewerberprofilen mit Job-Angeboten und umgekehrt. HRexplorer bietet zusätzlich auch den Zugriff auf externe Stellenanzeigen- und Bewerberdatenpools.

In Verbindung bleiben

Aktuelle Tweets