Als DeepSeek plötzlich im Rampenlicht stand, begannen die Konkurrenten sofort zu recherchieren. Dies sollte natürlich nicht überraschen, da es vorprogrammiert war, aber im Fall von DeepSeek sind die Konkurrenten nicht nur von Neugier getrieben. Vielmehr hegen sie den Verdacht, dass das Startup Datendiebstahl begangen hat.
DeepSeek R1 hat sehr gute Ergebnisse erzielt, aber es hat nicht einmal in erster Linie deswegen Aufmerksamkeit erregt, sondern weil es angeblich für wenig Geld entwickelt wurde und unglaublich billig zu betreiben ist. Die Entwicklung soll nur 5,6 Millionen Dollar gekostet haben, während die Ausgaben für ähnliche Sprachmodelle normalerweise in die Milliarden gehen. Und die Konkurrenten sind bis zu 30 Mal teurer, um die gleiche Datenmenge zu verarbeiten.
Das Sprachmodell von DeepSeek und der darauf aufbauende Chatbot mit künstlicher Intelligenz schneiden in verschiedenen Tests erstaunlich gut ab und liefern sehr ähnliche Ergebnisse wie das beste von OpenAI entwickelte Sprachmodell, o1. Die Ähnlichkeit ist vielleicht zu groß, und allein das sollte den Verdacht aufkommen lassen, dass DeepSeek in irgendeiner Weise auf den Werten von OpenAI aufbaut.
Es ist auch ein verräterisches Zeichen, dass der Chatbot von DeepSeek oft erklärt, er sei nicht DeepSeek, sondern ChatGPT. Natürlich kann man das als Halluzination abtun, wie wir es bei anderen Diensten gesehen haben. OpenAI hat jedoch beschlossen, die mögliche Verbindung zwischen seinem eigenen Sprachmodell, seinem Chatbot und der Entwicklung von DeepSeek zu untersuchen. Darüber hinaus wurde bekannt, dass auch Microsoft hinter den Kulissen untersucht, wie der Dienst funktioniert und welche Daten er nutzen könnte.
OpenAI vermutet, dass DeepSeek die von ihm zur Verfügung gestellte API missbraucht und über sie große Datenmengen von chinesischen Entwicklern unbefugt gefiltert und "destilliert" haben könnte. Dies könnte genutzt werden, um den Lernprozess extrem effizient zu gestalten, und könnte erklären, warum sich der Dienst als ChatGPT identifiziert und manchmal fast genau dieselben Antworten in Gesprächen gibt.
Nach durchgesickerten Informationen wurde Microsoft im vergangenen Jahr mehrfach auf möglichen Missbrauch aufmerksam gemacht. Unbekannte haben mit Hilfe der OpenAI-API riesige Datenmengen generiert. Es wird nun vermutet, dass die Täter möglicherweise mit DeepSeek in Verbindung stehen. Die Ermittlungen sind natürlich noch nicht abgeschlossen, so dass es nicht möglich ist, das chinesische Startup auf dieser Grundlage zu beschuldigen.
Übrigens ist die Destillation kein Teufelszeug, sondern wird von allen Unternehmen aktiv eingesetzt, zum Beispiel bei der Erstellung kleinerer Modelle, um deren Genauigkeit zu erhöhen. Aber es verstößt eindeutig gegen die Regeln, wenn jemand die von OpenAI bereitgestellte API zu diesem Zweck verwendet. Und das Unternehmen soll bereits Beweise dafür haben, dass DeepSeek bei der Entwicklung und dem Training seines Sprachmodells missbräuchlich und unrechtmäßig gehandelt haben könnte.
Dies ist eine relativ ironische Situation, da OpenAI derzeit in mehrere Verfahren verwickelt ist, weil es große Datenmengen aus dem Internet aufgesaugt hat, um seine verschiedenen Sprachmodelle zu trainieren, ohne sich die Mühe zu machen, die Informationen nach dem Urheberrecht zu schützen. Es steht außer Frage, dass OpenAI einen beträchtlichen Teil der im Internet verfügbaren Daten, darunter nicht nur geschriebene Texte, sondern auch Bilder, aufgesaugt hat.
Es wird interessant sein zu sehen, wie sich die Zukunft von DeepSeek entwickeln wird, da die Vereinigten Staaten in letzter Zeit regelmäßig daran arbeiten, chinesische Unternehmen auszuschalten. Wie bereits erwähnt, gibt es jetzt auch einen Ort, an dem DeepSeek verboten wurde.