In Online-Medien müssen Kommentare rasch freigeschaltet werden. Tempo ist gefragt, aber auch Sorgfalt. Die IT der Krone Multimedia GmbH um Harald Kaplan setzt dabei auf Deep Learning.
„Chat-Protokolle“ gehört wahrscheinlich zu jenen Begriffen, die in den letzten Monaten die emotionale Gelassenheit vieler Menschen strapazierten. Auch die von Harald Kaplan. Der IT-Leiter der Krone Multimedia GmbH hat dafür allerdings einen ganz besonderen Grund. Mitten in die – zumindest bislang – heißeste Phase der medialen Berichterstattung über die offenherzigen Chats von Politkern und anderen hohen Funktionsträgern aus dem öffentlichen Bereich startete die digitale Tochter der Kronenzeitung ein Pilotprojekt, um die Community-Abteilung mittels KI zu unterstützen: eine Deep Learning Software zur Kategorisierung von Kommentaren zu Online-Artikeln. Die zeitliche Korrelation war zufällig … aber eine aussagekräftigere Härteprobe für das neue System hätte sich wohl kaum finden lassen.
Bis zu 1.000 Kommentare pro Artikel und die Grenzen des menschlich Machbaren
„Die Online-Redaktion ist von 6 bis 23 Uhr besetzt, und während dieser Zeit steht auch die Kommentarfunktion zur Verfügung“, erklärt Kaplan.
„Bislang mussten unsere MitarbeiterInnen die Kommentare manuell freigeben, nachdem sie geprüft hatten, ob sie unbedenklich veröffentlicht werden konnten oder nicht. In Hochfrequenzzeiten wurde das zu einem echten Problem.“
Und Hochfrequenz gab es zum Thema Chat-Protokolle mehr als genug. Nicht wenige Artikel ernteten da mehr als 1.000 Kommentare. Und kaum einer der VerfasserInnen hat in der heutigen Zeit dafür Verständnis, wenn es so wie bislang, zehn Minuten oder manchmal noch länger dauert, bis der eigene Beitrag online gestellt wird.
Andererseits kann es sehr leicht zum desaströsen Image-Bumerang werden, einen Kommentar zu veröffentlichen, der definitiv nicht dafür geeignet ist, weil er beleidigend, rassistisch oder sonstwie bedenklich formuliert ist. Mit menschlichen Ressourcen konnte man auf lange Sicht diesen Wettlauf eigentlich nur verlieren. Und zwar gleich auf doppelte Weise, weil diese menschlichen Ressourcen zugleich auch woanders in der Community-Abteilung viel produktiver eingesetzt werden könnten.
Diese Aufgabe musste automatisiert werden, daran führte kein Weg vorbei. Eine große Menge an Daten binnen kürzester Zeit zu kategorisieren, klang ja eigentlich auch nach einem Paradeeinsatzgebiet für KI und Deep Learning. Also machte sich die Community-Abteilung, unterstützt von der IT, auf die Suche nach einer Lösung, die diese Aufgabe effektiv abdecken könnte. Fast zwei Jahre lang … und die längste Zeit erfolglos. Vor allem die sprachliche Intelligenz der begutachteten Tools stieß an ihre Grenzen. „Die Mehrzahl der Software-Produkte wurde und wird noch immer in Englisch entwickelt,“ sagt Kaplan. „Die Transformation in die deutsche Sprache gestaltete sich da bei vielen Tools als ein heikler Sprung, der dann auch schon zum Totalabsturz werden konnte, wenn es ins Österreichische geht. Es gibt spezifische österreichische Begrifflichkeiten und Bedeutungen und es wird noch spezifischer, wenn es in die Umgangssprache und den Dialekt geht oder eine Message auf ein paar Worte verkürzt wird … und das ist gerade bei Kommentaren häufig der Fall.“
Spezifische Sprache, breit angelegter Content und die Grenzen der KI
Und auch bei den inhaltlichen Zusammenhängen waren der Intelligenz vieler Lösungen Grenzen gesetzt. Solange der Kontext nur auf ein enges, sehr spezifisches Thema eingegrenzt war, ging es zumeist noch. Aber je mehr Text und je breiter die Inhalte wurden, umso schwieriger wurde es, den Kontext richtig zuzuordnen. Und bei allgemeinen Nachrichten, die von Weltpolitik über Lokales bis zur heimischen Society so ziemlich alles abdecken, sind die Inhalte so breit und der Kontext so komplex wie in kaum einem anderen Bereich. „Und die Kreativität der User macht es nicht leichter“, ergänzt der IT-Leiter der Krone Multimedia GmbH.
„Je mehr ein Thema polarisiert, umso emotionaler und pointierter wird auch die Sprache. Was für den einen Sarkasmus ist, ist für den anderen völlig ernst gemeint.“
Wenn also schon unsere eigene emotionale Intelligenz in solchen Fällen oft überfordert ist, wie soll da die künstliche mit den Eigenheiten menschlicher Kommunikation klarkommen? Vor diesem Hintergrund wären sämtliche Deep-Learning-Lösungen, die man sich angesehen hat, unterm Strich teurer geworden als die MitarbeiterInnen, die bislang die Kategorisierung übernommen hatten. Und ob sich die Reaktionszeiten dadurch tatsächlich verbessert hätten, war zudem alles andere als klar. Zu oft schien es da menschlicher Nachjustierung zu bedürfen.
Eigentlich hatte sich Harald Kaplan schon darauf vorbereitet, das bisherige Modell und die Community-Abteilung noch eine Zeit lang, so gut es eben möglich war, mit klassischen IT Tools zu unterstützen. Und dann – gerade, während vieles scheinbar stillstand – zeigte die KI dann doch eine ihrer Kernstärken, nämlich ihre Geschwindigkeit. Und zwar, indem sie sich, zumindest bei diesem Thema, viel rascher weiterentwickelte, als das zu erwarten war.
Die Leitung der Community-Abteilung stieß auf eine neue Deep-Learning-Lösung, die mittlerweile seit fast einem Jahr produktiv läuft. Vorerst nur für die eigene Website, mittelfristig will man evaluieren, ob sie auch für andere Kanäle wie Facebook und Twitter einsetzbar wäre.
Technologie macht es immer besser möglich: automatisierte UND individuell
Die Anforderungen, die von den Tools, die man sich fast zwei Jahre hindurch angesehen hatte, nur teilweise und mehr schlecht als recht abgedeckt werden hätten können, werden jetzt vollständig erfüllt. Das System berücksichtigt die letzten Kommentare der jeweilige User und auch die Bewertungen der Reviewer dazu, sogar so individuell, dass es auch das Bewertungsschema der jeweiligen MitarbeiterInnen mit einbezieht – natürlich ohne die persönlichen Daten der Reviewer zu erfassen.
„Es gibt Reviewer, die Formulierungen strenger auslegen und solche, die das liberaler handhaben“, erklärt Kaplan.
„Das System bewertet also nicht nur, dass die Kommentare eines Users zum Beispiel zu 90 Prozent durchgelassen werden und schließt daraus, dass es sich um seröse VerfasserInnen zu handeln scheint. Es berücksichtigt auch, ob die jeweiligen Reviewer zur strengeren oder liberaleren Kategorie gehören.
Das System lernt aus der Pluralität der menschlichen Bewertungen – und entwickelt daraus ein Gesamtbild und eine umfassende, ganzheitliche Entscheidungsgrundlage.“
Noch ganzheitlicher und vor allem auch aktuell wird dieses Gesamtbild durch permanente Feedbackschleifen. Einerseits, weil sich ja die Themenlage ändern kann und man dann einen Kommentar vielleicht anders auslegt als bisher. Und andererseits dort, wo es nicht eindeutig ist, ob der Kommentar automatisiert freigegeben werden kann, oder ob er nicht zugelassen wird, weil die Regeln nicht eingehalten wurden. Wenn das nicht klar ist, liefern MitarbeiterInnen die finale Bewertung … die dann wiederum ins System zurückgespielt wird.
Das scheint tatsächlich reibungslos zu funktionieren. Zum einen gelang es, mit Hilfe des Systems die durchschnittliche Reaktionszeit auf maximal eine Minute zu minimieren. Zum anderen ist bislang weder ein stark bedenklicher Kommentar durchgerutscht, noch sind die Reklamationen von Usern angestiegen. Und wenn Nachfragen auftreten, warum denn der eigene Kommentar nicht veröffentlicht wurde, lässt sich das aus dem System heraus nachvollziehbar erklären. Das scheint die User zufrieden zu stellen.
Dass diese Lösung nun die Anforderungen – nach der recht mühevollen und lange ernüchternden Suche – nun erstaunlich gut abdeckt, mag auch daran liegen, dass ihre „Muttersprache“ deutsch ist. Aber generell hat sich in der KI auch das Sprachverständnis in jüngster Zeit enorm weiterentwickelt, zeigt sich Kaplan beeindruckt: „Auch bei den Global Playern wie Microsoft & Co., für die ein kleines Land wie Österreich wohl kein wahnsinnig lukrativer Markt ist, befasst man sich schon intensiv mit Dialekten, übrigens ebenso bei sprachgesteuerten Systemen, auch, wenn die jetzt in unserem Fall kein Thema sind. Aber wenn man da eine österreichische Klangfärbung hört, oder eben auch wie bei uns textlich typische österreichische Begriffe versteht, macht das in der Kommunikation mit heimischen Usern schon einen großen Unterschied.“
Für Künstliche Intelligenz ist sehr viel menschliche Arbeit nötig
Damit KI allerdings so effektiv funktioniert, bedarf es menschlicher Vorarbeit und die fällt in der Regel intensiver und umfangreicher aus als anfangs gedacht, weiß Harald Kaplan:
„Der Initialaufwand ist bei Deep-Learning-Lösungen schon um einiges höher als bei vielen anderen Systemen. Man muss solch einem System zunächst einmal genügend Stoff zur Verfügung stellen, damit es überhaupt lernen kann. Alleine die Daten mit dem System zu verknüpfen und einen Weg zu finden, wie wir ihm die Information aus den Artikeln zur Verfügung stellen, hat zwei Monate Arbeit gekostet.“
Die Daten, das waren die Artikel, zu denen die Kommentare verfasst wurden, dazu verschiedenste Parameter aus dem Web CMS und natürlich die Kommentare selbst – mehrere 100.000. Dazu die Bewertungen der Kommentare und die Infos, welche Reviewer sie abgegeben hatten – nachdem man sichergestellt hatte, dass sie datenschutzkonform anonymisiert sind. Das WAS, der Lernstoff, alleine macht es allerdings nicht aus, auch das WIE ist ein Knackpunkt:
„Das System braucht ein Regelwerk, nach dem es vorgehen und auf dessen Basis es sich auch weiterentwickeln kann“, stellt Kaplan klar. „Ein Regelwerk braucht es natürlich auch, wenn MitarbeiterInnen Kommentare bewerten, aber die bringen ja aus ihrem Leben und aus ihrer Sozialisierung ein Verständnis und eine Werteskala mit, die man verinnerlicht hat ... eben menschliche und soziale Intelligenz. Ein KI-System tut das natürlich nicht. Das heißt also, im Vorhinein wirklich extrem feingranular festzulegen, wann und womit ein User zu weit geht. Auch das, was für Menschen ohnehin selbstverständlich oder logisch scheint.“
Eines ist für Harald Kaplan aber auch klar – es hätte auch anders kommen. „Wir hätten auch zwei oder drei Monate intensive Vorarbeit investieren können, um das System überhaupt einmal in die Lage zu versetzen, zu lernen. Und dann hätten wir zu dem Schluss kommen können, dass es unseren Anforderungen doch nicht genügt, dass es da im Detail einfach zu viele Haken gibt.
Gerade bei Deep Learning kommt es aufs Detail an, auf eine Menge Details sogar. Dessen muss man sich bewusst sein: Um dieses Risiko, einmal sehr hohen Initialaufwand betreiben zu müssen, kommt man bei KI-Projekten nicht herum.“
Wie heißt es doch: Man sollte nie aufhören zu lernen. Und das gilt offenbar sowohl für die menschliche Intelligenz wie auch für die künstliche.
Von Michael Dvorak; Fotos: Lisa Resatz
Comentários