Wie erkennt Privalino einen Cyber-Groomer?

Kann eine Software wirklich so schlau sein?

Anderthalb Jahre Privalino und weiterhin ist eine der häufigsten Fragen bei Präsentation von Privalino: „Wie kann eine Software Pädophile erkennen?“ Der Experte für Kinderschutz würde da einlenken, dass Cyber-Groomer nicht zwangsläufig pädophil sind. Die Frage bleibt aber, wie Software überhaupt Eigenschaften des Schreibenden erkennen kann? Im vergangenen Jahr hing unsere Antwort vor allem von der zur Verfügung stehenden Zeit ab. Ein Blog-Post ist geduldig, deswegen gibt es nun die bisher ausführlichste Erklärung, wie maschinelle Lernverfahren und Sprachverarbeitung in Privalino eingesetzt werden.

Der Schreibstil eines Menschen ist fast so einzigartig wie ein Fingerabdruck.

Machen wir ein Gedankenexperiment: Angenommen Sie bekommen 100 Texte von Grundschulkindern und 100 Texte von Erwachsenen. Wie sicher können Sie die Texte einer der beiden Gruppen zuordnen? Das klappt immer, oder? Doch weshalb können Sie die Texte so sicher voneinander unterscheiden? Der Mensch arbeitet häufig mit Heuristiken, also Erfahrungswerten, die sich durch Intuition ausdrücken. Ein Algorithmus benötigt eine Menge an Trainingsdaten (entspricht den Erfahrungswerten) und definierte Merkmale (entspricht den Heuristiken), die eine Unterscheidung ermöglichen. Welche Merkmale haben Sie für die Unterscheidung verwendet? Beim genannten Beispiel mit den Erwachsenen- und Kindertexten fallen einem sehr schnell ein paar eindeutige Merkmale ein, wie Rechtschreibung, Wortschatz, Satzkomplexität. Aufgrund der eigenen kognitiven Leistungsbegrenzung kann man nur einige wenige Merkmale für die eigene Entscheidung berücksichtigen. Doch je mehr Merkmale es sind, desto sicherer kann man sich sein. Ein Beispiel:

„Ich bin Paul und lege gärne Patiencen.“

Wenn man diesen Satz nur anhand der Rechtschreibung beurteilt, könnte man zu dem Schluss kommen, es wahrscheinlich mit einem Kind zu tun zu haben. Die unwahrscheinlichere Alternative wäre ein Erwachsener mit starker Rechtschreibschwäche. Nimmt man ein weiteres Merkmal wie den Wortschatz hinzu, wird sich das Urteil ändern. Ein französisches Fremdwort wie Patience kommt im Wortschatz eines Kindes so gut wie nie vor. Wie wäre es, wenn man mehr als 100 Merkmale zugleich überprüfen könnte? Eine nahezu unmögliche Aufgabe für einen Menschen. Für Privalino kein Problem.

Manuelle Analyse von in Privalino verwendeten Merkmalen mit Weka.

Mit Privalino können wir eine große Zahl an Merkmalen automatisch analysieren. Programme wie Weka haben uns erlaubt, die Ausprägung der Merkmale zu visualisieren (siehe Bild) und Erkenntnisse zu den Sprachverhalten von Kindern und Erwachsenen zu ziehen. Im folgenden zeigen wir die hilfreichsten Merkmale und worin sich Nachrichten von Erwachsenen und Kindern unterscheiden.

Lexikalische Merkmale

Ein Grundstein bei maschinellen Lernverfahren ist das Zählen von Wörtern. In Privalino zählen wir in einem Korpus mit Trainingsdaten die einzelnen Wörter und wählen diejenigen aus, die ungewöhnlich häufig vorkommen. Stoppwörter, wie und, ich oder ist werden dabei nicht gewählt, da sie sehr häufig vorkommen. In unserem Fall erhalten wir eher Wörter wie Schule oder langweilig. Die Wörter in dieser Liste werden mit Wahrscheinlichkeiten für die verschiedenen Klassen versehen. Bei Privalino sind das die Klassen „Cyber-Grooming“ und „ungefährlich“. Wenn nun in einem neuen Text ein Wort aus der Liste vorkommt, ist dies ein Indiz dafür, zu welcher Klasse der Text gehört.

Syntaktische Merkmale

Syntaktische Merkmale beziehen sich auf die Struktur von Sätzen. In Privalino werden Merkmale für die Länge aller Sätze, aber auch die maximale, minimale und durchschnittliche Satzlänge verwendet. Längere Sätze haben wir häufiger in Nachrichten von Erwachsenen gefunden. Dies passt auch sehr gut zu der Argumentationsstruktur, die wir ebenfalls analysieren. Kindern lernen in vielen Jahren Schulunterricht, dass Nebensätze verwendet werden sollen, um Belege für die eigene Aussage zu liefern. Grundschulkinder machen das weniger, so dass sie eher in kurzen Sätzen schreiben. Die Satzlänge ist daher ein guter Indikator, um das ungefähre Alter einer Person zu ermitteln.

Privalino analysiert auch die Komplexität der Wörter und des gesamten Wortschatzes. In unserer Analyse haben wir herausgefunden, dass die Verwendung von Pronomen Rückschlüsse auf die Identität des Autors zulassen. Nachrichten von Kindern enthalten wesentlich mehr ich-bezogene Pronomen, wie „ich“ oder „mein“. Nachrichten von Erwachsenen stellen dafür mehr Fragen an dem Gesprächspartner und sind du-bezogener.

Kinder schreiben häufiger aus ihrer Sicht und stellen weniger indirekte Fragen.

Semantische Merkmale

Privalino verwendet eine weitere Gruppe an Merkmalen, die wir als semantische Merkmale bezeichnen. Darunter sind Merkmale gefasst, die sich auf die Bedeutung der Nachricht bezieht. Privalino analysiert das Thema des Textes. Jedes Wort kann hierbei einen Hinweis auf das Thema geben und es gehört schon viel Erfahrung dazu, um sich mit Kindern über die angesagtesten Computerspiele zu unterhalten.
Einen weiteren Hinweis gibt auch die Stimmung in den Nachrichten. Privalino verwendet Listen mit positiv und negativ behafteten Wörtern, die Rückschlüsse auf die Stimmung beider Chatpartner ermöglichen. Besonders wenn hier eine Asymmetrie auftritt, also einer eher zurückhaltend agiert, während der andere Chatpartner antreibt, kann das ein Hinweis auf einen Cyber-Groomer sein.

Trainingsdaten als Grundlage

Jedes einzelne Merkmal ist natürlich sehr stark vom Alter der Kinder abhängig, aber die Stärke des Algorithmus besteht darin, alle Merkmale miteinander zu verknüpfen. Die Kombination aller Merkmale ermöglicht Aussagen zu der Person mit hoher Genauigkeit zu treffen. Hierbei kommt es nicht nur auf die Merkmale, sondern ebenfalls auf die Anzahl zur Verfügung stehenden Trainingsdaten an. Dazu haben wir für Privalino insgesamt 30.000 Nachrichten aus einem Forum gesammelt und sie nach ihrerem Gefahrenpotential bewertet. Zuerst werden hierbei automatisch die Merkmale jeder Nachricht extrahiert und die aussagekräftigsten Merkmale mit ihrer Ausprägung gespeichert. Die Summe aus allen Trainingsdaten ergibt dann das Modell. Wenn neue Trainingsdaten hinzukommen, wie es jeden Tag über unser Feedback-System geschieht, wird das Modell aktualisiert.

Der Algorithmus passt sich kontinuierlich neuen Maschen von Cyber-Groomern an.

Privalino 2018?

Wir arbeiten kontinuierlich daran, neue Algorithmen und Merkmale für Privalino zu testen. Unsere erste Analyse von Kindernachrichten hat gezeigt, dass Emojis eine große Rolle in der Kommunikation spielen. Auch bei Emojis gibt es Dialekte, die sehr stark vom Alter abhängen. Neben weiteren Merkmalen testen wir neue Algorithmen. Aktuell verwenden wir Algorithmen, die einen Wert zwischen 0 und 1 für die Gefährlichkeit jeder Nachricht zurückgeben. Das erlaubt uns die Grenzen für Warnungen je nach dem Alter des Kindes und Erfahrung mit sozialen Kanälen anzupassen. Mit zunehmender Anzahl an Trainingsdaten können wir auch auf andere Algorithmen setzen. Aktuell arbeiten wir an einer Klassifikation auf Basis von neuronalen Netzen, auch Deep Learning genannt. Die ersten Ergebnisse sind sehr vielversprechend und wir werden es in den nächsten Monaten in Privalino integrieren. Für die Nutzer wird sich auf jeden Fall nichts an der Sicherheit ändern, außer vielleicht ein paar irrtümliche Warnungen weniger.

By | 2018-01-10T15:22:12+00:00 November 3rd, 2017|Latest Articles|1 Comment

About the Author:

Nicolai ist das Schweizer Taschenmesser von Privalino. Er liefert Lösungen für jede Situation und hat neben seiner Expertise in Maschinellem Lernen und Sprachanalyse ein gutes Händchen für Kaltakquisen, Pitchvorträge und Bastelarbeiten.

One Comment

  1. […] nachkommen, Kinder vor Gefahren im Internet zu schützen. Das Herz unseres Produkts ist dabei unser Algorithmus, der jeder Konversation aufmerksam folgt, um solche Gefahren frühzeitig zu […]

Leave A Comment

Durch die weitere Nutzung der Seite stimmst du der Verwendung von Cookies zu. Weitere Informationen

Die Cookie-Einstellungen auf dieser Website sind auf "Cookies zulassen" eingestellt, um das beste Surferlebnis zu ermöglichen. Wenn du diese Website ohne Änderung der Cookie-Einstellungen verwendest oder auf "Akzeptieren" klickst, erklärst du sich damit einverstanden.

Schließen