Welche Ressourcen braucht es, um so ein Modell zu bauen?
Viele, vor allem Rechenressourcen. Daten braucht es auch, aber nicht so viele, wie wir vielleicht zunächst gedacht haben. Bereits heute werden die Modelle mit synthetischen Daten in einem sogenannten Reinforcement Learning trainiert. Dabei trainiert man das Modell nicht direkt auf Daten, sondern führt zunächst Tests durch, die man einfach evaluieren kann. Das Modell erzeugt hierzu seine eigenen Daten. Jedes Mal, wenn diese eigenen Daten dazu führen, dass ein Test zu einem positiven Ergebnis führt, werden sie verstärkt. Wenn das Testergebnis negativ ist, werden sie abgeschwächt oder unterdrückt. Das ist vor allem in Bereichen nützlich, in denen eine Aufgabe einfach verifizierbar ist, also beispielsweise, wenn es sich um eine Mathematikaufgabe handelt, bei der die Antwort 2027 sein muss – nicht aber bei einer Textzusammenfassung. Da kann man viel erreichen mit Rechenkapazitäten, ohne dass man neue Daten verwendet. Insofern können wir selbst auch Modelle bauen – wenn nicht jetzt, dann in naher Zukunft, dank des exponentiellen Fortschritts in der Halbleitertechnologie. Was vor zwei Jahren nur die Großen machen konnten, wird bald auch für öffentliche Institutionen erschwinglich sein.
Welche öffentlichen Investitionen müssen in Europa nun getätigt werden, damit wir mithalten können?
Es braucht vor allem Rechenzentren mit der richtigen Hardware, AI-Accelerators, um künstliche neuronale Netze in einem distributiven Setting zu trainieren. Momentan ist diese Hardware vor allem in Grafikkarten von Nvidia verbaut. Es gibt aber Alternativen, unter anderem aus China, die ebenfalls eine gewisse Effizienz erreichen: In einer Stunde Betrieb, mit einer bestimmten Anzahl von Grafikkarten, kann zum Beispiel ein Modell einer bestimmten Größenordnung auf einer bestimmten Datenmenge trainiert werden. Da gibt es große Unterschiede, wie schnell man sein kann.
Aufgrund der exponentiellen Fortschritte in der Halbleitertechnik ist man bereits jetzt mit den älteren Modellen und der älteren Technik nicht mehr in der Lage, mit den neuesten Modellen mitzuhalten. Deshalb braucht es Investitionen in Rechenkapazitäten, die der Gesellschaft für Forschung und Entwicklung zur Verfügung stehen – so wie es auf europäischer Ebene mit den KI-Fabriken oder den Hochleistungsrechenzentren (High Performance Computing, HPC) geschieht.
Wie steht es um die Talente? In den Vereinigten Staaten sehen wir ja derzeit, dass enorm hohe Summen für kluge Köpfe bezahlt werden.
Was dort bezahlt wird, ist wirklich zum Teil absurd. Die Leute besitzen zum Teil Fachwissen, das noch nicht bei anderen Forscherinnen und Forschern in dem Bereich vorhanden ist. Aber hier, zum Beispiel in der Schweiz, haben wir die ETH Zürich und die École polytechnique fédérale de Lausanne (EPFL) – wenn man diese zwei Universitäten zusammennimmt, gehören sie zu den besten Institutionen und Organisationen, die auf den besten Konferenzen im Bereich KI und maschinellem Lernen publizieren. Hier gibt es auch sehr viel Fachwissen. Und wir haben auch gesehen, dass die offenen Projekte in der Regel etwa sechs Monate hinter den Closed-Source-Modellen liegen, was die Leistung angeht. Der Vorteil der Closed-Source-Modelle ist oft einfach nur Rechenleistung: besserer, größerer Zugang zu Rechenkapazität. Es gibt wahrscheinlich Tricks, die nicht veröffentlicht wurden – schließlich publizieren diese großen Technologieunternehmen seit drei Jahren nicht mehr.
Aber wenn wir uns nur anschauen, was der Stand Ende letzten Jahres war: Das ist so circa O1, OpenAI ist O1, eines der ersten Reasoning-Modelle. Dieser Abstand in der Leistung wurde bereits jetzt innerhalb von ein paar Monaten mit DeepSeek R1 aufgeholt. Dabei haben wir gelernt, dass es gar nicht so viel Magisches braucht, sondern der Bauplan, den DeepSeek R1 geliefert hat, hat gezeigt, dass es vor allem Rechenkapazität braucht.
Insofern haben die Ingenieurinnen und Ingenieure mit den tollen Gehältern die Fähigkeit, effizient auf der Hardware zu arbeiten und so das Beste aus den Maschinen zu holen – aber Magisches passiert dabei nicht in den Labors. Da besteht vielleicht ein kleiner Vorsprung bei den Technologieunternehmen, aber meiner Meinung nach können wir Ähnliches auch in den existierenden öffentlichen Institutionen erarbeiten. Es ist nicht so, dass das technische Knowhow in der Forschungsgemeinschaft fehlt.
Es gibt ja Stimmen, die sagen, dass große Modelle eigentlich gar nicht so zielführend sind, sondern wir eher kleinere Modelle für spezifische Zwecke brauchen. Wie stehen Sie dazu?
Das ist natürlich immer ein bisschen relativ, was „groß“ meint. Mit unserem 70-Milliarden-Modell sind wir vergleichbar mit LLaMA 3. Aber die großen Modelle heutzutage sind zehnmal größer.
Jenseits dessen ist der wichtigste Faktor, der stark mit der Leistung korreliert, wie viele Rechenressourcen beim Training eingesetzt wurden. Dabei gibt es zwei Faktoren bei der Rechenkapazität: Wie viele Daten wurden trainiert und wie groß ist das Modell? Die sogenannten Scaling Laws definieren dann den Zielkonflikt zwischen diesen beiden Faktoren, das heißt: Wie sollte ich meine Rechenkapazitäten aufteilen zwischen mehr Daten und einem größeren Modell.
Grundsätzlich ist ein größeres Modell besser, aber natürlich auch teurer im Einsatz. Also: Das siebzig-Milliarden-Modell kann man bereits nicht auf einem Laptop laufen lassen, selbst wenn man den besten Laptop kauft, den es momentan auf dem Markt gibt. Dafür braucht es Ressourcen auf dem Niveau von Rechenzentren. Und die wirklich großen Modelle brauchen dann noch mehr Ressourcen.
Die Frage ist aber auch: Woran messen wir diese Modelle? Jetzt werden die Modelle etwa daran gemessen, ob sie Biologiefragen auf dem Niveau von Promovierenden beantworten können. Dafür brauchen wir die führenden Modelle. Aber sind das wirklich die Anwendungsfälle? Brauche ich wirklich Knowhow auf Forschungsniveau, um Produkte oder Dienstleistungen in einer Firma, etwa in der Industrie, zu bauen? Wahrscheinlich eher nicht – im Gegenteil: Ich möchte etwas haben, das gut genug ist, aber dann vor allem so günstig wie möglich.
Und dann kommen wir von den größeren zu den kleineren Modellen. Hier sehen wir, dass, wenn man bereit ist, sich zu spezialisieren und eine gewisse Generalität aufzugeben, man auch mit kleineren Modellen, die flexibler sind und Zugriff auf Datenbanken haben und dort hinterlegte Funktionen aufrufen können, eine hervorragende Leistung erreichen kann. Deshalb könnte es auch sein, dass in Zukunft nur kleinere Modelle trainiert werden.
Dennoch ist es einfach so, dass größere Modelle viel effizienter lernen. Aus diesem Grund braucht man vermutlich auch in Zukunft erst ein großes Modell, bevor man dann ein hervorragendes, kleines Modell trainieren kann. Das ist vielleicht etwas paradox, aber man kann sich das so vorstellen, dass man erst ein großes Modell trainiert, das mit einer großen Anzahl an Parametern sehr effizient lernen kann. Dieses Modell wird dann genutzt, um einem kleinen Modell ganz strategisch zu zeigen, wie es sich in einer bestimmten Situation verhalten muss (Destillation). Dieses kleine Modell ist dann viel fähiger, als wenn es von Grund auf mit normalen Methoden trainiert worden wäre.
Neben der reinen Leistungsfähigkeit der Modelle spielt in Europa der Energieverbrauch eine große Rolle. Können Routing-Modelle auch hier eine Möglichkeit sein, den Verbrauch der Modelle zu senken?
Die Modelle werden im Anwendungsbereich (Inference) wesentlich effizienter werden, nicht unbedingt im Training. Das wird mit neuer Hardware einhergehen. Das sehen wir bereits jetzt durch die Quantisierung der Parameter. Dies bedeutet, dass man bei den Datentypen weniger Präzision nutzt.
Normalerweise werden in der Informatik 32 Bits verwendet; damit lassen sich sehr große Zahlen sehr präzise definieren, mit vielen Kommastellen. Nun haben wir aber herausgefunden, dass wir auch mit Datentypen arbeiten können, die nur 16 oder auch acht Bits haben. In der Folge braucht man auf einem Chip einen anderen Schaltkreis, das heißt: Man kann auf der gleichen Chipfläche mehr rechnen mit acht Bits als mit 32 Bits. Das ist auch das, was Nvidia macht, um zu zeigen, dass sie viel besser sind als vor zwei bis drei Jahren, obwohl die Halbleitertechnik gar nicht so viel Fortschritt gemacht hat. Man rechnet nun einfach mit weniger Präzision, was für KI-Modelle aber funktioniert. Hier haben wir noch viel Raum, weil Modelle denkbar sind, die noch weniger Präzision haben – die sind entweder positiv, negativ oder null. Die momentane Hardware unterstützt diese Rechnungen aber noch nicht, nur die acht Bits. Insgesamt glaube ich deshalb, dass die Kosten für den Anwendungsbereich sinken werden.
Für das Training braucht es natürlich trotzdem Supercomputer, und die werden im Gigawattbereich liegen. Aber diese Energiekosten der KI sind verglichen mit dem Nutzen dieser Technologie verschwindend gering, gerade wenn man das etwa mit der Industrie vergleicht. Wenn man den Alps-Supercomputer in Lugano etwa auf Voll-Last laufen lässt, dann ist das vergleichbar mit zwei Zügen der Schweizer Bundesbahn, die mit Vollgas durch den Gotthardtunnel fahren. Das heißt, wenn wir den Energiekonsum eines Staates anschauen, dann sprechen wir von Terawatt, von Tausenden von Gigawatt. Bei einem Trainingsmodell sprechen wir von Megawatt – das heißt, da sind über eine Million Unterschied. Deshalb ist diese Energiediskussion ein bisschen unverhältnismäßig, auch wenn es mehr Strom als eine Google-Suche verbraucht.
Und ganz grundsätzlich: Wir haben uns in einem Zeitalter des Netzwerks, des Informationsaustauschs und der Daten bewegt. Wir werden uns jetzt mehr und mehr in ein Zeitalter des Rechnens bewegen, das heißt: Die Fähigkeit zum Rechnen und die Rechenkapazitäten werden vielleicht sogar wichtiger sein als die Daten selbst.
Es geht also um die Rechenkapazitäten, und die sind zum Teil nicht gegeben.
Wie sehr schränken Sie in Ihrer Forschung Regeln ein? Es gibt ja eine große Diskussion darum, ob Europa vielleicht zu viel reguliert, vor allem im Vergleich zu den Vereinigten Staaten. Wie sehen Sie das – können Sie gut arbeiten?
Also die EU-KI-Verordnung ist ja eher ein Produkthaftungsgesetz, das heißt: Es geht um den Schutz der Verbraucherinnen und Verbraucher. Und mit Apertus haben wir gezeigt, dass wir innerhalb dieser Regeln leistungsfähige Modelle entwickeln können – vor allem, wenn wir das mit anderen Modellen dieser Größe vergleichen. Also ChatGPT ist wesentlich größer. Aber zum Beispiel im Vergleich zum LLaMA-Modell von Meta, das eine ähnliche Größe wie unseres hat, haben wir gezeigt, dass wir eine ähnliche Leistung erzielen, ohne dass wir rechtswidrige Daten verwenden. Wir haben auch Methoden entwickelt und eingesetzt, die die Memorisierung der Trainingsdaten verhindern – es entstehen keine Kopien der Werke. Deshalb denken wir auch, dass wir das Urheberrecht wahren. Insofern ist es schon möglich, wenn auch vielleicht ein bisschen schwieriger, ohne rechtswidrige Daten zu arbeiten – das ist aber nicht ausschlaggebend.
Auf welches Interesse stößt Apertus? Ist diese Qualität gefragt?
An der Entwicklung sind definitiv viele interessiert, auch weil wir bereits von Dritten als mit der europäischen KI-Verordnung konform eingestuft werden – was bei vielen anderen Modellen noch nicht der Fall ist. Bei denen ist die Situation noch unklar.
Des Weiteren sind wir auch transparent, inwiefern diese Modelle ausgerichtet worden sind. Das wird uns in naher Zukunft noch mehr beschäftigen. Die meisten Modelle haben heutzutage eine Ethik oder eine Philosophie, die sehr universell ist.
Da geht es darum, dass die Modelle harmlos, hilfsbereit und ehrlich sind. Aber wir sehen bereits jetzt erste Anzeichen, dass eine gewisse politische, idiosynkratische Komponente hier Einzug erhält – wenn man beispielsweise chinesische Modelle nach Dingen fragt, die China betreffen. Hier zeichnen chinesische Modelle grundsätzlich ein positives Bild, auch wenn die westliche Meinung zu bestimmten Themen kritisch ausfällt. Ich vermute, dass das noch zunehmen könnte.
Es könnte so weit gehen, dass ein Modell, das öffentlich verfügbar ist und ein Nutzender eingesetzt hat, etwa die Hilfe verweigert, wenn das, was man macht, im Konflikt steht mit der Firma, die es entwickelt hat – oder mit dem Staat, in dem diese Entwicklung stattgefunden hat. Das Modell könnte dem Nutzenden dann jedoch nicht nur die Antwort verweigern, sondern möglicherweise sogar im Quellcode eine Hintertür haben, über die dann anderen Zugriff auf das System gegeben werden könnte.
Wir haben demgegenüber eine Swiss AI Charter entwickelt, mit der wir unsere Modelle ausgerichtet haben. Die überschneidet sich ein bisschen mit der KI-Leitlinie von Anthropic, ist aber aus einer neutraleren Perspektive geschrieben und geeigneter für die heutige Generation von Modellen.
Als ein möglicher nächster Schritt wird immer wieder embodied AI, also die Kombination von den bekannten Modellen mit physischen Objekten, diskutiert. Könnte das auch aus Ihrer Sicht die nächste Disruption sein?
Robotik ist ja immer wieder ein Thema. Das Problem ist dabei, dass das nicht so schnell eingesetzt werden kann. Bei ChatGPT brauchen Sie nur einen Laptop oder ein Mobiltelefon, bei Robotik ist es wesentlich mehr Arbeit. Man kann das vielleicht mit selbstfahrenden Autos vergleichen. Da hat Tesla auch schon vor etwa sieben Jahren die ersten entwickelt, aber in der Masse nutzen wir das auch noch nicht. Insofern glaube ich, dass wir von solchen physischen Interaktionen noch viele Jahre entfernt sind.
Einen größeren Mehrwert sehe ich bei Bereichen, die noch etwas träge sind und noch nicht mit Künstlicher Intelligenz in Kontakt gekommen sind. Also beispielsweise im Marketing – da ist es heute einfach möglich, mit einer digitalen Agentur eine Kampagne zu schaffen, die ein Zehntel kostet. Denn man braucht keine Locations mehr, keine Models oder auch keinen Kameramann. Andere Bereiche wären etwa das Recht, Finanzen oder auch Gesundheit.
Wieso gibt es diese Probleme beim Physischen?
Wenn Sprachmodelle einmal trainiert sind, dann sind sie statisch und verändern sich nicht mehr. Jedes Mal, wenn eine neue Sitzung gestartet wird, wissen sie nicht mehr, was vorher passiert ist. Die Lösung besteht dann darin, dass man Datenbanken baut, damit sich Modelle erinnern können. Aber das skaliert nicht sehr gut. Und wenn man nun etwa an den Vorstandsvorsitzenden einer Firma denkt: Der hat über das ganze Jahr so viele Interaktionen, die müsste man dem Modell alle einzeln beibringen. Man sieht ja jetzt schon, dass die Modelle noch nicht einmal in der Lage sind, einen Kiosk zu betreiben. Insofern sind die Modelle wirklich bestimmt für geschlossene Aufgaben, die vielleicht viel Fachwissen benötigen, aber nicht länger als ein paar Stunden oder Tage dauern.
Längere Einsätze sind nicht möglich, weil der Abstand zwischen den Daten, mit denen das Modell trainiert wurde, und der aktuellen Situation einfach zu groß ist. Ein Modell braucht aktuelle Daten, die das gegenwärtige Problem repräsentieren. Deshalb haben Modelle auch immer Versionsnummern. Das Lernen bei Modellen ist einfach sehr rechenintensiv und ineffizient, was die Menge an Daten angeht – da sind Menschen viel effizienter.
Dr. Imanol Schlag ist KI-Forschungswissenschaftler am ETH AI Center und Co-Leiter des Projekts Apertus im Rahmen der Swiss AI Initiative. Er studierte Informatik an der FHNW und absolvierte ein Masterstudium in Artificial Intelligence mit Auszeichnung an der University of St Andrews. Seine Promotion schloss er 2023 mit Auszeichnung an der USI/IDSIA bei Prof. Jürgen Schmidhuber ab. Während seiner akademischen Laufbahn war er unter anderem bei Meta FAIR, Google Research und Microsoft Research tätig und lehrt heute an der ETH Zürich im Bereich Large-Scale AI Engineering.
主题
Indiens Bedeutung für Deutschlands Wissenschaft und Innovation
Europäische Union – intern stabilisiert, extern konfrontiert
Globale Gesundheit vor dem Abstieg in die Zweitklassigkeit?
Quantentechnologie und Deutschlands Sicherheitspolitik: Eine Geopolitische Notwendigkeit
Energiekonferenz: Der Ruf nach mehr Freiraum für Innovation