Zeit und Geld sparen durch semantische Datenstrukturierung

Apothekerschrank

Durch die weiter wachsende Bedeutung von Content für den E-Commerce oder für die automatisierte Texterstellung steigt auch die Bedeutung von strukturierten Daten. Geeignete Datenstrukturen liegen jedoch gerade im Mittelstand häufig noch nicht vor. Darum ist hier die Datenstrukturierung der erste wichtige Schritt zur Textautomation.

Selbst wenn Daten in bisher nicht erschlossenen PDF-Dokumenten „vergraben“ sind, können semantische PDF-Analyzer den Content automatisiert auslesen und die benötigten Informationen in eine strukturierte Form bringen. Der von text2net entwickelte Data Extractor arbeitet dabei in drei Phasen:

SCAS WorkflowBei dieser semantischen Content-Analyse wird nicht nur einfach erkannt, dass ein bestimmter Begriff in dem PDF-Dokument vorkommt. Es wird darüber hinaus durch entsprechende Grammatiken geprüft, in welchem Kontext er steht. Damit wird nahezu sichergestellt, dass ein bestimmter Begriff auch wirklich die Bedeutung hat, nach der gesucht wurde, z.B. das Produktgewicht. Die so strukturierten Daten können als JSON ausgegeben und über eine RESTAPI auf einem Webportal zur Weiterverarbeitung abgerufen werden, z.B. für den automatisierten Import in ein PIM oder für die Textautomation. Das spart Zeit und Geld.

Ein wichtiger Aspekt für den Erfolg von Online-Content ist die Lesbarkeit für Suchmaschinen. Die vorgestellte Lösung strukturiert den Inhalt nach dem Standard schema.org. Dieser Standard wird von den wichtigsten Suchmaschinen erkannt und bei der Darstellung von Suchtreffern berücksichtigt. Damit kann sich ein auf dieser Basis strukturierter Text von anderen Inhalten im Ranking positiv abheben.

So kann die semantische Datenstrukturierung nicht nur Zeit und Geld sparen, sondern auch die Auffindbarkeit im Internet erhöhen.

data extractor