Auf dem Gebiet der künstlichen Intelligenz ist Microsoft nur schwer zuzuordnen. Das Unternehmen hat Milliarden von Dollar in Sprachmodelle und KI-Tools investiert, aber ein erheblicher Teil dieses Geldes wurde tatsächlich für OpenAI ausgegeben. Allerdings arbeitet das Unternehmen auch an eigenen Projekten, und so wurden jetzt zwei Sprachmodelle auf den Markt gebracht.
Redmond entwickelt seine eigenen LLM-Lösungen in Microsofts KI-Abteilung, und diese werden daher MAI genannt. Sie heißen MAI-1-Preview und MAI-Voice-1.
MAI-Voice-1 kann bis zu mehreren Minuten Audio produzieren und soll auf einer einzigen Nvidia GPU laufen. Allerdings hat Microsoft nicht verraten, welche GPU hier gemeint ist, Hauptsache, sie läuft mit guter Effizienz. Und die MAI-1-Vorschau ist das erste vollständig selbst entwickelte und gelehrte Basismodell des Unternehmens, das "eine Vorschau auf das gibt, was Copilot in Zukunft bieten könnte".
Microsoft ist sehr ehrgeizig in Bezug auf das, was es den Nutzern in der Zukunft bieten kann. "Wir arbeiten aktiv daran, immer fortschrittlichere Modelle mit Schwung zu liefern. Und wir werden in den kommenden Monaten noch viel mehr Informationen mit Ihnen teilen können." - so das Unternehmen in einer offiziellen Erklärung.
Es heißt, dass das Unternehmen neben allgemeinen Sprachmodellen auch an einer Reihe spezifischer Projekte arbeitet, um den Menschen den immensen Wert zu vermitteln, den es ihnen bieten kann. Spezifische Nutzerbedürfnisse werden durch spezifische Modelle abgedeckt, so dass alle Bedürfnisse bestmöglich bedient werden können, so das Unternehmen. Es stehen sowohl kurz- als auch langfristige Entwicklungen auf der Agenda, über die Microsoft jedoch erst zu einem späteren Zeitpunkt nähere Angaben machen wird.
MAI-Voice-1
Möchten Sie sehen, was MAI-Voice-1 kann? Nun, das können Sie ohne weiteres tun, alles was Sie brauchen ist ein Microsoft-Konto. Es läuft unter Copilot Labs unter dem Namen Copilot Audio Expressions, und gibt Ihnen die Möglichkeit, das neue Soundmodell zu testen und auszuprobieren. Es handelt sich noch um eine vorläufige Version, was bedeutet, dass es während des Betriebs zu Anomalien kommen kann. Wie bei jeder generativen KI kann das Modell auch Fehler enthalten. MAI-Voice-1 ist derzeit nicht in englischer Sprache verfügbar, bietet aber viele interessante Funktionen.
Es gibt eine extrem große Auswahl an Konfigurationen für den Stil, in dem die Neuheit spricht. Es stehen neun Stimmtöne zur Auswahl, männliche und weibliche Stimmen sind verfügbar, und Sie können auch den Stil festlegen, in dem die Rede gehalten werden soll. Mit mehr als zwei Dutzend Optionen gibt es Hunderte von Einstellungen, um die Sprachausgabe zu hören. Es gibt auch einen separaten Storytelling-Modus, in dem für jede Frage eine kurze Geschichte generiert und vorgelesen wird. Die Antworten können heruntergeladen und bei Bedarf weitergegeben werden.
MAI-Voice-1 erledigt seine Aufgabe schnell, kann aber Fragen und Aufforderungen, die von Menschen eingegeben werden, nicht nahezu in Echtzeit beantworten. Dieses Modell ist bereits in den Diensten Copilot Daily und Microsoft Podcasts verfügbar.
Die MAI-1-Vorschau
In der MAI-1-Vorschau erklärte Microsoft, dass dieses Modell die kürzlich populäre MoE-Architektur (Mixture-of-Experts) verwendet und dass beim Training mehrere Methoden eingesetzt wurden, um die bestmögliche Leistung zu erzielen. Über 15.000 Nvidia H100 wurden zum Trainieren des Modells verwendet.
Es handelt sich um ein Allzweck-Sprachmodell, das beispielsweise besonders gut für das Befolgen von Anweisungen geeignet ist und unter anderem deshalb in alltäglichen Gesprächen sehr nützliche und genaue Antworten liefern kann. Die MAI-1-Vorschau wird nach und nach hinter Copilot auftauchen, und Microsoft wird diese mit der Lösung kleinerer und größerer Aufgaben betrauen, und mit der Zeit wird sie in der Lage sein, MAI-Modelle vollständig zu verwenden und sogar GPT aufzugeben. Wenn das Modell auf dem richtigen Niveau entwickelt werden kann.