Künstliche Intelligenz ist eine wunderbare Sache, aber sie hat viele positive Seiten, aber auch viele Probleme. Ein Problem, das immer wieder auftaucht, ist, dass die verschiedenen Modelle und Dienste in den allermeisten Fällen mit gestohlenen Daten gelehrt werden. Das mag auf den ersten Blick stark klingen, aber genau das passiert, denn die Produzenten der Inhalte haben absolut keine Ahnung, was hinter den Kulissen vor sich geht, und fragen in der Regel niemanden um Erlaubnis.
Es hat viele verschiedene Untersuchungen darüber gegeben, wie KI-Entwickler die Daten, die sie aus dem Internet sammeln, missbrauchen. Jetzt haben Wired und Proof News einen gemeinsamen Bericht darüber veröffentlicht, wie große Technologieunternehmen YouTube-Videoinhalte missbrauchen, um ihre Dienste zu verbessern. Die Analysten wollen darauf hinweisen, dass viele von ihnen die von YouTube gesammelten Daten für Trainingszwecke nutzen. Dies ist jedoch nichts Neues, sondern seit langem bekannt, nur jetzt gibt es einen weiteren Beweis für zwielichtige Aktivitäten.
YouTube ist eine Goldgrube für Daten, und viele haben sich diese bereits zunutze gemacht, was sich in Zukunft noch weiter ausbreiten könnte. Die aktuelle Untersuchung hat bewiesen, dass Anthropic, Nvidia, Apple und sogar Salesforce den Datensatz verwendet haben, auf den sie sich bei dieser Untersuchung konzentriert haben.
Es handelt sich dabei um ein Datenpaket, das Material von mehr als 48.000 YouTube-Kanälen verarbeitet. Bilder und Videos sind in dem Datenpaket nicht enthalten, sondern nur die Transkripte der Texte unter den Videos. Untertitel sind für YouTube-Videos schon lange verfügbar, und dieses Material wurde für das Training gesammelt. Für Chatbots ist dies ein hervorragendes Lernmaterial, da der Text in den Videos ideal für die Entwicklung ihrer natürlichen Sprachkenntnisse ist.
Die Sammlung von 173.536 Untertiteln, die aus YouTube-Videos stammen, wurde von Proof News bei seinen Recherchen entdeckt. Apple, Nvidia und andere haben sie für das Training genutzt.
Sie enthält die vielfältigsten Daten aus Videos, die nach den veröffentlichten Daten möglich sind. Material aus Bildungs- und Unterhaltungsvideos ist in großen Mengen in dem Datensatz enthalten. Und es ist klar, dass diese Sammlung einfach nicht existieren kann, da die YouTube-Richtlinie eindeutig verbietet, dass Daten aus dem Dienst extrahiert und gesammelt werden.
Wir sprechen hier von 5,7 GB Rohdaten, was auf den ersten Blick nicht viel klingt, aber man muss sehen, dass es sich dabei um Textinhalte handelt. Das Datenpaket besteht aus 489 Millionen Wörtern, und auch Material von prominenten Youtubern ist Teil des Pakets. Neben MrBeast, Marques Brownlee, Jacksepticeye und anderen ist auch PewDiePie in diesen Fall verwickelt.
All dies ist ein sehr ernstes Problem, aber das Problem wird durch die Tatsache verschärft, dass der Ersteller des Materials sich nicht wirklich um die Authentizität der Daten gekümmert hat. Sie haben auch Texte aus Videos über Verschwörungstheorien für den Unterricht verwendet, so dass der Glaube an die flache Erde der KI vertraut sein wird. Man kann nur hoffen, dass sie in der Lage sein wird, die Informationen an Ort und Stelle zu verarbeiten. Leider haben wir in letzter Zeit viele Beispiele gesehen, in denen versucht wurde, Daten, die aus dem Internet-Nonsens gelernt wurden, in einer seriösen und überzeugenden Art und Weise durch KI zu präsentieren.
Den Unternehmen ist es im Grunde egal, woher die Daten stammen, sie wollen nur so viele Daten wie möglich zur Verfügung stellen.
Das betreffende Datenpaket heißt The Pile und wurde von der Firma EleutherAI zusammengestellt. Es ist eine große Sammlung von Open-Source-Daten, darunter Buchinhalte, Wikipedia-Artikel und vieles mehr. Apple und andere haben also nicht buchstäblich Daten verwendet, die sie selbst zusammengeschustert haben, sondern ein Datenpaket, das diese Daten enthält. Dennoch sind sie gleichermaßen verantwortlich.
Dies ist nicht das erste Mal, dass eine solche Praxis aufgedeckt wurde, und wir können sicher sein, dass es nicht das letzte Mal sein wird. Es gibt inzwischen viele Fälle von Missbrauch durch Unternehmen, und es ist nur eine Frage, wie viele davon aufgedeckt werden. Vielleicht achten die Technologieunternehmen jetzt mehr auf die Reinheit ihrer Quellen, aber es wäre trotzdem nicht überraschend, wenn es danach noch mehr Fälle wie diesen geben würde.
Künstliche Intelligenz ist im Moment ein unglaublich lukratives Feld, und viele versuchen, sich in diesem Wettbewerb besser zu positionieren. Außerdem stehen wir hier noch ganz am Anfang. Die Regulierungsbehörden versuchen bereits, in der gegenwärtigen Situation effektiver zu sein, aber sie haben nicht wirklich die Instrumente, um dies zu tun. Die Europäische Union wird mit dem am 1. August in Kraft tretenden KI-Gesetz die erste in der westlichen Welt sein, die Rechtsvorschriften zur künstlichen Intelligenz einführt.