Herausforderung
Der internationale Mobilitäts-Konzern möchte die Innovationsfähigkeit seiner tausenden Angestellten erhöhen und hat aus diesem Grund eine Intranetlösung mit einer State-of-the-Art Suchfunktion zur Informationsversorgung entwickeln lassen. Diese wird ergänzt durch zahlreiche Fachinformationsdienste, welche Fachliteratur in Form von Artikeln und Büchern bereitstellen.
Für einen adäquaten Informationszugang erwarten Nutzer Such-, Browsing- und Navigationsfunktionen, wie sie es von führenden Internet-Suchmaschinen und E-Commerce-Portalen gewohnt sind. Diese Funktionalitäten basieren gewöhnlich auf sehr umfangreichen und qualitätsgesicherten Metadaten. Doch zur Beschreibung der Fachliteraturdokumente waren nur wenige Informationen wie bspw. Titel und Autor vorhanden. Dies hatte zur Folge, dass die Qualität der Suchergebnisse hinter den Erwartungen der Nutzer blieb.
Somit konnte sich das erwünschte Potenzial der neuen „Wissenssuche“ über das Intranet nicht entfalten. Das Resultat war eine mangelnde Akzeptanz trotz hochwertiger Inhalte und neuer Portaltechnologie. Um den Informationszugang durch die gewünschten Filter und Suchfunktionalitäten zu erleichtern, benötigte man mehr und optimierte Metadaten. Mit der Beschaffung dieser Daten und der Anpassung der Suchlösung wurde Avantgarde Labs beauftragt.
Lösung durch Avantgarde Labs
Die Anreicherung der Metadaten erfolgte durch die Klassifikation der Content-Objekte in ein standardisiertes Klassifikationssystem – der THEMA-Klassifikation. Der Kern der Suchlösung sollte mit einem Zusammenspiel aus künstlicher Intelligenz und statistischen Analysen realisiert werden. Zur Stabilisierung der Klassifikationsergebnisse wurde dafür ein möglichst großer und bereits vorklassifizierter Datensatz benötigt. Avantgarde Labs konnte in seinem Partner-Netzwerk den führenden deutschen Bibliotheksdienstleister, die EKZ Bibliotheksservice GmbH, für die Bereitstellung dieses Lern-Datensatzes gewinnen.
Da die Suchanfragen sowie die Content-Objekte sowohl in englischer als auch in deutscher Sprache vorlagen, musste eine sprachunabhängige Repräsentation der Daten geschaffen werden.
Dies wurde mit dem BERT-Transformer realisiert, welcher durch ein neuronales Netz semantisch gleiche Begriffe unter sogenannten Tokens zusammenfasst. Mit Hilfe der Significant Terms Analyse von Elasticsearch konnte dann die Zuordnung der Tokens mit den THEMA-Klassen im Sinne eines Dokumentenklassifikation-System realisiert werden.
Dadurch konnten sämtliche Content-Objekte mit den best-passendsten THEMA-Klassen angereichert werden. Im Zusammenspiel mit einer optimierten Suchlösung konnte das Retrieval verbessert werden, denn ähnlich wie die Content-Objekte werden die Suchanfragen des Nutzers zunächst durch Tokens abstrahiert und danach mit Thema-Klassen angereichert. So wird einerseits eine intelligente sprachunabhängige Volltextsuche als auch eine Themen-Facettierung ermöglicht.
Projektergebnis & Kundennutzen
Die bestehende Intranetlösung wurde durch Avantgarde Labs um eine KI-basierte Suchlösung und Dokumentenklassifikation ergänzt. Nutzeranfragen können bereits während des Suchprozesses besser verstanden werden und durch die Anreicherung der Content-Objekte mit Metadaten haben Nutzer zusätzliche Einschränkungsmöglichkeiten ihrer Suchergebnisse.
Die verbesserte Informationsversorgung in der Suche sowie Interessen-zentrierte Suchergebnisse ermöglichen eine Steigerung der Innovationsfähigkeit der Nutzer.
Zudem automatisiert die KI-basierte Metadaten-Anreicherung einen wichtigen Prozessschritt in der redaktionellen Arbeit und unterstützt tausende Mitarbeiter in ihrer täglichen Wissensarbeit. Das steigert die Produktivität der Nutzer durch das Wegfallen des ressourcenaufwendigen Administrationsaufwandes.
Mit Projektende konnte das Vertrauen der Nutzer in die Intranetsuche nachweislich gesteigert werden, da einerseits leere Suchergebnisse vermieden wurden und andererseits die ausgelieferten Antworten auch präzise den Suchanfragen entsprachen.