Local AI: Moderne LLMs auf eigener Hardware als Business-Beschleuniger

"Local AI" ist ab sofort praxistauglich. Nicht als Spielerei für Nerds, sondern als ernstzunehmendes Werkzeug für den täglichen Einsatz in Unternehmen. Für die meisten Aufgaben braucht ihr ab sofort keinen externen Inference-Anbieter mehr.

Was sich geändert hat

Ich verfolge das Thema lokale LLMs seit dem Announcement der NVIDIA DGX Spark. Die Idee war immer verlockend: eigene Hardware, eigene Daten, keine Abhängigkeit von Cloud-Anbietern. Aber bis vor kurzem war die Realität ernüchternd – zu langsam, zu schlecht, zu umständlich.

Das hat sich grundlegend geändert. Der Auslöser: Eine neue Generation von Open-Weights-Modellen – allen voran Qwen3.5 von Alibaba, welches nun auch auf weniger leistungsfähigen Geräten agentische Aufgaben in erstaunlicher Qualität erledigt. Open-Weights bedeutet: Die Modell-Gewichte sind frei verfügbar. Jeder kann sie herunterladen und auf eigener Hardware betreiben. Kein API-Key, kein Abo, keine Nutzungsbedingungen. Du lädst das Modell herunter, es läuft auf deinem Gerät, die Daten verlassen nie dein Netzwerk.

Der entscheidende Unterschied zu vor einem Jahr: Diese Open-Weights-Modelle sind smarter und haben qualitativ aufgeholt. Modelle wie Qwen3.5-35B liefern Ergebnisse auf dem Niveau von Anthropic Sonnet 4.5 – einem der besten kommerziellen Cloud-Modelle. Und das auf einem Gerät, das angenehm leise neben dem Schreibtisch steht und um 3.000 EUR kostet.

Die Kombination aus leistungsfähigen Open-Weights-Modellen und bezahlbarer, dedizierter Hardware hat einen Punkt erreicht, an dem lokale Inference für die meisten Business-Aufgaben und agentische Workflows völlig ausreichend ist. Eine Chance für datenschutzkritische Bereiche und Unternehmen, die sich nicht von großen Cloud-Providern abhängig machen wollen.

Mein Setup: Lokale GPU statt US-API

Konkret nutze ich ein Asus GX10 – das günstigste Gerät mit NVIDIAs GB10-GPU. Etwa so groß wie ein Mac Mini, kann man irgendwo im Haus platzieren und per Netzwerk ansprechen.

Was drinsteckt:

GPU: NVIDIA GB10 (baugleich mit der DGX Spark)
OS: Ubuntu vorinstalliert
Modell: Qwen3.5-35B
Agent-Setup: OpenCode als Coding-Agent

Das Ding ist einfach ein Linux-Rechner mit einer mächtigen GPU und Netzwerk-Anschluss. Kein Cloud-Dashboard, keine Subscription, keine Terms of Service, die sich alle drei Monate ändern. Einmal aufsetzen, läuft.

Die Betriebskosten? Bei 24/7-Volllast in Deutschland rund 500 EUR Strom pro Jahr. Und das ist der Worst Case – realistisch deutlich weniger, weil das Gerät nicht permanent unter Volllast steht. Dazu kommt: Modelle werden laufend optimierter. Der gleiche Workload wird in sechs Monaten weniger Energie brauchen.

Warum das für Unternehmen relevant ist

Die Abhängigkeit von externen Inference-Anbietern wie OpenAI, Anthropic oder Google ist ein strategisches Risiko, das viele unterschätzen:

Datenhoheit: Jede Anfrage an eine externe API schickt potenziell sensible Unternehmensdaten über den Atlantik (oder zumindest in die Hände einer außereuropäischen Firma). Bei lokaler Inference verlassen die Daten nie dein Netzwerk. Dazu kommt ein Problem, das viele unterschätzen: Die meisten Anwender verstehen gar nicht mehr, was alles an persönlichen und geschäftlichen Daten bei jeder Anfrage an die API-Endpunkte geschickt wird. Coding-Assistenten senden ganzen Quellcode mit, Chat-Tools schicken Konversationshistorien, Agenten übertragen Dateien und Systemkontexte. Das lässt sich ehrlich gesagt mit vertretbarem Aufwand nicht mehr überblicken – es sei denn, man ist Profi und liest aktiv den Netzwerk-Traffic mit. Bei lokaler Inference stellt sich diese Frage nicht.

Kostenkontrolle: Cloud-Inference wird pro Token abgerechnet. Bei intensiver Nutzung explodieren die Kosten. Ein lokales Gerät hat fixe Anschaffungs- und Betriebskosten – danach ist jede Anfrage kostenlos.

Verfügbarkeit: Kein Rate-Limiting, keine API-Ausfälle, keine plötzlichen Preiserhöhungen. Deine Inference läuft, wenn du sie brauchst.

Geopolitische Unabhängigkeit: Die großen Anbieter sitzen in den USA und China. Wie fragil diese Abhängigkeit ist, zeigt sich gerade in Echtzeit: Die US-Regierung hat Ende Februar 2026 die Zusammenarbeit mit Anthropic beendet, weil das Unternehmen die uneingeschränkte militärische Nutzung seiner KI-Technologie verweigert hat. Trump bezeichnete Anthropic als "radikal linkes Unternehmen" und wies alle Bundesbehörden an, auf Anthropic-Anwendungen zu verzichten. Unabhängig davon, wie man zu diesem Konflikt steht: Er zeigt, dass KI-Anbieter jederzeit zwischen politische Fronten geraten können – mit direkten Auswirkungen auf Verfügbarkeit, Nutzungsbedingungen und Regulierung. Wer seine Geschäftsprozesse auf einen einzelnen US-Anbieter aufbaut, geht ein Risiko ein, das nichts mit Technologie zu tun hat.

DSGVO-Compliance: Lokale Inference ist der einfachste Weg, datenschutzrechtliche Anforderungen zu erfüllen. Keine Auftragsverarbeitung, keine Drittlandtransfers, keine komplizierten Data Processing Agreements. Und ja – die großen Hyperscaler (Google Cloud, AWS, Microsoft Azure) bieten inzwischen KI-Dienste mit EU-Rechenzentren und Data Processing Agreements an. Auf dem Papier DSGVO-konform. In der Praxis bleiben zwei Probleme: Erstens unterliegen US-Unternehmen dem CLOUD Act, der US-Behörden potenziell Zugriff auf Daten ermöglicht – unabhängig davon, wo der Server steht. Zweitens baust du dir mit jeder Vertex AI, Bedrock oder Azure OpenAI Integration einen Vendor Lock-in auf, der mit der Zeit immer schwerer aufzulösen ist. Wer echte Datenhoheit will, muss die Daten auf eigener Hardware verarbeiten – oder zumindest bei europäischen Anbietern, die keiner US-Jurisdiktion unterliegen.

Was lokal gut funktioniert – und was nicht

Ich nutze meine Local-AI seit kurzem als Daily Driver – als Standard für alle agentischen Programmieraufgaben in Verbindung mit meiner KI-Workforce-Lösung. Aber ich bin ehrlich: Nicht alles funktioniert lokal gleich gut.

Gut bis sehr gut lokal:

Code-Analyse und Refactoring
Dokumentation schreiben und reviewen
Agentische Workflows mit klar definiertem Kontext
Zusammenfassungen und Textarbeit
Brainstorming und Ideation
Alltagsaufgaben, die sonst an ChatGPT gehen

Besser weiterhin in der Cloud:

Extrem komplexe Reasoning-Tasks mit sehr langem Kontext
Multimodale Aufgaben (Bild-Analyse, Video)
Aufgaben, bei denen du das absolut beste verfügbare Modell brauchst
Frontier-Modelle für Research und Experimente

Meine Claude Code Max und Cursor Ultra Subscriptions sowie Kimi 2.5 bei Nebius Token Factory behalte ich deshalb vorerst – auch um die Qualitätsunterschiede weiter zu beobachten. Die lokale AI ist ein permanenter, interner Mitarbeiter für den Alltag. Für die schweren Aufgaben greife ich weiterhin auf die besten Cloud-Modelle zurück.

Wer für komplexe Tasks auf Cloud-Inference angewiesen bleibt, muss dafür aber nicht zwingend US-Anbieter nutzen. Europäische Alternativen wie Nebius Token Factory (Holland) und AKI.IO (Berlin) bieten leistungsstarke Open-Weights-Modelle (Qwen3.5, Kimi 2.5, Minimax2.5) über API-Endpunkte an, die in europäischen Rechenzentren laufen – DSGVO-konform, ohne Drittlandtransfer. Nebius betreibt seine GPU-Cluster unter anderem in Frankreich und Finnland, AKI.IO hostet ausschließlich auf zertifizierten deutschen und europäischen Servern. Für Unternehmen, die das Beste aus beiden Welten wollen – lokale Inference für den Alltag, europäische Cloud für die schweren Aufgaben – eine deutlich bessere Option als der direkte Weg nach San Francisco.

PRIVATE-KI vs. PUBLIC-KI: Die richtige Aufteilung

Nicht jede Aufgabe braucht lokale Inference. Meine Empfehlung: Trenne konsequent zwischen sensiblen und nicht-sensiblen Daten.

PRIVATE-KI (lokal): HR-Daten, Verträge, Kundendaten, interne Strategie-Dokumente, Gehaltsabrechnungen, Code mit proprietärer Business-Logik.

PUBLIC-KI (Cloud): Marketing-Texte, öffentliche Recherche, generische Code-Completion, UX-Entwürfe ohne sensible Daten, allgemeine Zusammenfassungen.

Das ist kein Entweder-Oder. Es ist ein sowohl-als-auch mit klaren Regeln.

Hardware-Optionen: Ein Überblick für Entscheider

Der Markt für lokale Inference-Hardware entwickelt sich schnell. Hier mein aktueller Stand – sortiert von "sofort einsetzbar" bis "nur für Spezialfälle".

1. NVIDIA GB10-Geräte – der beste Einstieg (ab ca. 3.000 EUR)

Geräte wie die DGX Spark von NVIDIA oder das günstigere Asus GX10 sind aktuell meine klare Empfehlung. Klein wie ein Mac Mini, leise, Ubuntu vorinstalliert, einfach per Netzwerkkabel anschließen und loslegen.

Die GB10-GPU ist speziell für LLM-Inference optimiert. CUDA-Support ist ausgereift, die Modell-Unterstützung exzellent. 128 GB Speicher reichen für die meisten aktuellen Modelle (Qwen3.5-35B, Kimi 2.5). Schnelle Antworten, kein Lüftergeräusch, minimaler Konfigurationsaufwand.

Fazit: Bestes Preis-Leistungs-Verhältnis. Wer heute mit Local AI anfangen will, kauft das.

2. Apple Mac mit M-Prozessor – vom Arbeitsrechner bis zur Powerstation

Apple hat mit der Unified-Memory-Architektur und dem MLX-Framework ein überraschend starkes LLM-Ökosystem aufgebaut. Der Vorteil: Hohe Speicherbandbreite und ein ausgereiftes Software-Ökosystem, das nahtlos auf macOS läuft.

Mac Mini / MacBook (16–64 GB RAM): Kleinere Modelle (bis ca. 14B Parameter) laufen direkt auf dem Arbeitsrechner. Gut zum Testen und für leichte Alltagsaufgaben. Kein separates Gerät nötig – einfach MLX oder Ollama installieren und loslegen.

Mac Studio mit 256 GB oder 512 GB RAM: Hier wird es ernst. Große, mächtige Modelle wie Qwen3.5-72B oder Kimi 2.5 brauchen vor allem eins: viel RAM und hohe Speichergeschwindigkeit. Genau das ist der USP der Mac-Studio-Plattform. Ein Mac Studio Ultra M4 mit 512 GB Unified Memory ist aktuell eine der wenigen Möglichkeiten, wirklich große Modelle in einem einzigen Gerät zu betreiben – ohne Server-Rack.

Timing: Apple dürfte in Kürze die neuen M5-Ultra-basierten Mac Studios vorstellen. Wer mit dem Kauf liebäugelt, sollte die Ankündigung abwarten.

Fazit: Hocheffizient, leise, gut integriert. Für CEOs, die ohnehin im Apple-Ökosystem arbeiten, der natürlichste Einstieg.

3. AMD Strix Halo Mini-PCs (z.B. Framework Desktop, ab ca. 2.000 EUR)

Auf dem Papier interessant: 128 GB RAM, schnellere Token-Ausgabe als GB10-Geräte, und etwas günstiger. In der Praxis ist der LLM-Betrieb auf AMD-Hardware aber noch experimentell im Vergleich zu NVIDIA (CUDA) und Apple (MLX). Kein CUDA bedeutet: weniger Software-Support, weniger getestete Modelle, mehr Bastelarbeit. Erfordert aktuelles Linux (Fedora 43+) und Tools wie Strix Halo Toolboxes oder vLLM.

Fazit: Interessant für Linux-affine Early Adopter. Für den produktiven Unternehmenseinsatz aktuell noch nicht meine erste Empfehlung.

4. Linux-Server mit gebrauchten NVIDIA-Gaming-GPUs (ab ca. 2.000 EUR)

Gebrauchte NVIDIA RTX 3090 oder 4090 auf eBay kaufen, mehrere davon in einen Linux-Server einbauen – fertig. Klingt nach Bastelprojekt, ist aber erstaunlich leistungsfähig. Zwei bis drei 3090er mit je 24 GB VRAM liefern solide Inference-Geschwindigkeit zu einem Bruchteil der Kosten professioneller Hardware.

Der Haken: Laut (Gaming-Lüfter), hoher Stromverbrauch, aufwändiges Setup, keine Garantie. Und die Karten werden auf dem Gebrauchtmarkt zunehmend knapp.

Fazit: Schnell und günstig, aber nichts für den Serverraum eines KMU. Eher etwas für Startups und Bastler, die wissen, was sie tun.

5. Cluster-Lösungen mit exo – das Beste aus allen Welten (ab ca. 15.000 EUR)

Hier wird es richtig spannend. exo ist ein Open-Source-Framework, das mehrere Geräte automatisch zu einem Inference-Cluster verbindet. Das Besondere: exo kombiniert unterschiedliche Hardware intelligent. Jedes Gerät übernimmt den Teil der Berechnung, den es am besten kann.

Ein konkretes Beispiel: DGX Spark + Mac Studio via exo liefert bis zu 4x schnellere Inference als jedes Gerät allein. Die DGX Spark übernimmt die rechenintensive Prompt-Verarbeitung (Prefill), der Mac Studio mit seiner hohen Speicherbandbreite die schnelle Token-Generierung (Decode). exo orchestriert das automatisch – inklusive intelligentem KV-Cache-Streaming zwischen den Geräten.

Mögliche Konfigurationen:

Zwei Mac Studios mit je 256 GB RAM via Thunderbolt verbunden
Mac Studio + DGX Spark – heterogener Cluster, jedes Gerät spielt seine Stärken aus
Mehrere GB10-Geräte im Netzwerk

Damit laufen auch die ganz großen Modelle lokal: Kimi 2.5, größere Varianten von Qwen3.5, Minimax2.5 – Modelle, die bisher nur in der Cloud verfügbar waren.

Fazit: Hochleistungs-KI im Büro für ca. 15.000 EUR. Kein Vergleich zu dem, was man dafür vor zwei Jahren hätte mieten müssen.

6. NVIDIA Enterprise (H100, H200, B200) – nicht für Local AI

Der Vollständigkeit halber: NVIDIAs Datacenter-GPUs (H100, H200, die neue B200) sind die schnellste Inference-Hardware der Welt. Aber sie sind für Rechenzentren gebaut – laut, stromhungrig, teuer (ab 25.000 EUR pro GPU), und erfordern spezielle Server-Infrastruktur.

Für den Einsatz im Büro oder Home Office sind sie nicht gedacht. Wer diese Leistungsklasse braucht, ist mit Cloud-Anbietern oder GPU-Mietplattformen besser bedient.

Fazit: Mieten statt kaufen. Diese Hardware ist für Hyperscaler, nicht für KMU.

Mein Learning: Jetzt kaufen und lernen

Die GB10-basierten Geräte sind teilweise jetzt schon schwer zu bekommen. Meine Einschätzung: Kaufen, bevor sie ausverkauft sind. Die Nachfrage steigt, die Modelle werden besser, und wer jetzt einsteigt, hat einen Vorsprung.

Ob ich heute noch auf OpenAI oder Anthropic als langfristige, alleinige Plattform setzen würde? Ganz klar: Nein. Die Modelle sind exzellent – Anthropics Claude ist eines der besten Coding-Modelle, die es gibt, und ich nutze es täglich. Aber das eigentliche Problem ist nicht die Qualität der Modelle. Das Problem ist, dass Regierungen zunehmend bestimmen, was mit den Daten passiert, wofür KI eingesetzt werden darf und von wem. Die Verbannung von Anthropic aus US-Bundesbehörden ist nur ein Beispiel. Morgen könnte es Export-Restriktionen für bestimmte Modelle oder API-Zugriffe geben, die europäische Unternehmen direkt betreffen – ohne dass wir mitentscheiden können.

Das Risiko ist nicht die Technologie. Das Risiko ist, dass jemand anderes entscheidet, ob und wie du sie nutzen darfst. Und genau das lässt sich mit Local AI auflösen – zumindest für den Großteil der täglichen Arbeit.

Was das für deine KI-Strategie bedeutet

Local AI ist kein Ersatz für Cloud-AI. Es ist eine Ergänzung, die drei Dinge verändert:

Sensible Daten bleiben intern – ohne Kompromisse bei der KI-Qualität
Fixe statt variable Kosten – kalkulierbar statt überraschend
Unabhängigkeit statt Vendor Lock-in – du bestimmst das Modell, die Daten, die Regeln

Die eigentliche Frage ist nicht mehr "Kann Local AI mithalten?" – sondern "Warum lässt du deine sensiblen Daten noch immer über fremde Server laufen?"

Weiterführend

Ursprünglicher LinkedIn-Post – Die Diskussion, die diesen Artikel ausgelöst hat, mit spannenden Kommentaren der Community zu Hardware-Alternativen und Erfahrungen
exo: DGX Spark + Mac Studio Benchmarks – Wie exo heterogene Hardware zu einem Inference-Cluster verbindet und 4x schnellere Inference liefert
NVIDIA DGX Spark Pressemitteilung – Offizielle Ankündigung der DGX Spark und DGX Station Personal AI Computer
Qwen3.5 Release – Blog-Post von Alibaba zum Release des Open-Weights-Modells