Wenn der Lebenslauf zum Tatort wird

Wenn der Lebenslauf zum Tatort wird

Software-Entwickler auf Sherlock Holmes Spuren

Irgendwann passiert es jedem unserer Kunden beinahe zwangsläufig: Unser CV-Parser CVlizer extrahiert nicht das, was da in einem Lebenslauf geschrieben steht. Der Lebenslauf sieht aus wie jeder andere und dennoch: Das Resultat besteht aus einem Buchstaben-Sammelsurium oder ist zumindest mysteriös. Wie kann das passieren?

Software-Entwickler als Detektive

Vor allem, da unser Parser sonst so treffsicher und zuverlässig arbeitet?

Meist sind es die Analytiker in unserem Entwicklungsteam, welche in solchen Fällen konsultiert werden und zu digitalen Detektiven werden.

Die meisten Fälle sind dabei wenig knifflig und schnell gelöst: Häufig wurde ein Dokument schlecht eingescannt und in Folge liefert die Texterkennung daher wenig berauschende Ergebnisse, seltener wurde ein zweitklassiger PDF-Renderer verwendet, der sich nicht an den Standard hält oder sonst wie neben der Spur läuft.

Doch es gibt auch kniffligere Fälle: Verschwundene oder versteckte Kandidatenfotos, unsichtbarer Text oder Hieroglyphen statt Buchstaben - dabei sieht doch alles ganz normal aus?! Der Teufel steckt hier oft im Detail, und die Unterschiede zwischen dem, was man am Bildschirm angezeigt bekommt, wenn man ein Dokument öffnet und dem, was unsere Extraktionssoftware "sieht", wenn das Dokument automatisch verarbeitet wird, sind zum Teil grundverschieden.

Wir Menschen sehen nur das Endergebnis: Ein Pixel für Pixel "gerendertes" Bild des Lebenslaufes, in dem hoffentlich alles so aussieht, wie es sich der Verfasser gewünscht hat. Unsere Software hingegen sieht die Datei-Struktur dahinter, die verwendeten Buchstaben und Symbole, die Positions- und Formatinformationen der einzelnen Elemente usw. In seltenen Fällen kann die Struktur- und Symbolinformation sogar so irreführend sein, dass die Extraktion völlig versagt, weil sie sich ja nicht um die Darstellung, sondern um die codierte Information kümmern muss. Und den Unterschied zwischen schmückendem Beiwerk und eigentlichem Inhalt zu erkennen, ist nicht immer ganz einfach.

Wenn bspw. ein eingebettetes Telefon-Symbol darauf hindeuten soll, dass im Folgenden ebendiese steht, so ist dies für den Menschen sofort und klar ersichtlich. Ein Computersystem kann das Telefonsymbol (noch) nicht als solches identifizieren. Umgekehrt stört ein Mensch sich nicht am Vokal "O" als Aufzählungszeichen - für die Software ist das erschwerend.

Beides sind jedoch handhabbare Probleme, wirklich schwierig wird es, wenn Text - ob absichtlich oder nicht - "versteckt" wird, also z.B. weißer Text auf weißem Hintergrund steht. Die Software verarbeitet auch diesen "unsichtbaren" Text und so kommt es dann zu besonders unerklärlichen Extraktionsfehlern.

In den meisten Fällen sind derartige Probleme schnell entlarvt, indem man einfach das ganze Dokument markiert und in die Zwischenablage kopiert - diese Repräsentation entspricht in den meisten Fällen dem, was die Software "zu sehen" bekommt. Erst wenn auch dort alles in Ordnung zu sein scheint, liegt es an JoinVisions Sherlock Holmes, der Ursache auf die Spur zu kommen und einen weiteren kuriosen Fall zu lösen.


Kontakt

Unser Büro

Wehrgasse 28 / Top 3+4

1050 Wien

contact@joinvision.com

+43 (0)1 505 80 70

+43 (0)1 505 80 70 60

Schreiben Sie uns









JoinVision-Logo

JoinVision ist führender Anbieter mehrsprachiger semantischer Recruiting-Technologie. Mit den beiden Parsern CVlizer und JOBolizer werden Bewerber­unterlagen bzw. Stellenanzeigen automatisch erfasst, analysiert und beschlagwortet. Module, wie z.B. HRclassifier, HRcapture und HRmerger, erweitern die Möglichkeiten, um alle Informationen unmittelbar als standardisiertes, strukturiertes Kandidaten- oder Stellen-Profil im XML-Format zur Verfügung zu haben.

In Verbindung bleiben

Aktuelle Tweets