Ollama auf dem Raspberry Pi 5 – lokale KI ohne Cloud

Ollama LLM

Mit dem Raspberry Pi 5 und Ollama lässt sich ein vollständig lokaler KI-Assistent betreiben – ohne Cloud, ohne Datenweitergabe, ohne laufende Kosten. In diesem Artikel zeige ich euch, wie ihr Ollama auf dem Pi 5 installiert, welche Modelle sich eignen und wie ihr die KI über eine einfache Web-Oberfläche oder API nutzt.

Was ist Ollama?

Ollama ist ein Open-Source-Tool, das es erlaubt, große Sprachmodelle (LLMs) lokal auf eurem eigenen Rechner – oder eben dem Raspberry Pi – zu betreiben. Ihr ladet einfach ein Modell herunter und könnt danach im Terminal oder über eine REST-API chatten. Keine Verbindung zu externen Servern, alles bleibt bei euch.

Raspberry Pi 5 Platine
Ollama läuft vollständig lokal auf dem Raspberry Pi 5 (Foto: Wikimedia Commons, CC BY-SA 4.0)

Voraussetzungen und Hardware

  • Raspberry Pi 5 mit 8 GB RAM (~80€) – 8 GB sind Pflicht, 4 GB reichen für kleinere Modelle (1–3B), aber 7B-Modelle laufen nur auf 8 GB flüssig
  • NVMe SSD (min. 64 GB) oder microSD A2 – Modelle sind 2–5 GB groß, NVMe deutlich schneller beim Laden
  • Aktives Kühlsystem (Offizielles Pi 5 Active Cooler empfohlen) – LLM-Inferenz belastet alle 4 Kerne dauerhaft
  • Raspberry Pi OS Bookworm (64-Bit, Lite reicht)

Hinweis zur Performance: Der Pi 5 ist kein High-End-GPU-Server. Erwartet 2–8 Tokens pro Sekunde – das reicht zum Experimentieren, lokalen Codereviews und Heimautomatisierung, aber nicht für produktiven Einsatz mit vielen parallelen Anfragen.

Ollama installieren

Das offizielle Installationsscript erledigt alles automatisch:

Das Script lädt die passende ARM64-Binary, richtet einen systemd-Service ein und startet Ollama sofort. Nach der Installation könnt ihr den Status prüfen:

Ollama Logo
Das offizielle Installationsscript von Ollama richtet alles automatisch ein

Erstes KI-Modell herunterladen und starten

Für den Pi 5 empfehle ich als Einstieg Llama 3.2 (3B) – das Modell ist ~2 GB groß und liefert auf dem Pi 5 akzeptable Antwortgeschwindigkeiten:

Beim ersten Aufruf wird das Modell automatisch heruntergeladen. Danach landet ihr direkt im Chat:

Mit /bye beendet ihr die Chat-Session.

Empfohlene Modelle für den Pi 5

Modell Größe RAM (Pi 5) Tokens/s (Pi 5 8GB) Stärken
llama3.2:1b ~1,3 GB 4 GB ~8 t/s Sehr schnell, einfache Fragen
llama3.2:3b ~2,0 GB 4–8 GB ~5 t/s Guter Allrounder, empfohlen
mistral:7b ~4,1 GB 8 GB ~2 t/s Bessere Qualität, langsamer
qwen2.5-coder:3b ~2,0 GB 4–8 GB ~5 t/s Code-Generierung und -Erklärung
phi3.5:mini ~2,2 GB 4–8 GB ~4 t/s Microsoft-Modell, gute Faktentreue

Alle verfügbaren Modelle findet ihr unter ollama.com/library.

Ollama API verwenden

Ollama stellt eine REST-API auf Port 11434 bereit. So könnt ihr die KI aus eigenen Skripten ansprechen:

Von einem anderen Gerät im Heimnetz erreichbar machen – in der systemd-Service-Konfiguration die Bind-Adresse ändern:

In der [Service]-Sektion ergänzen:

Die API ist jetzt unter http://RASPBERRY-PI-IP:11434 erreichbar.

Web-Oberfläche mit Open WebUI

Mit Open WebUI bekommt ihr eine ChatGPT-ähnliche Oberfläche direkt im Browser. Docker ist dafür am einfachsten:

Nach einem neuen Login:

Die Web-Oberfläche ist danach unter http://RASPBERRY-PI-IP:3000 erreichbar.

Open WebUI Chat-Oberfläche mit Ollama auf Raspberry Pi
Open WebUI bietet eine vollständige Chat-Oberfläche im Browser (Quelle: Open WebUI GitHub, MIT-Lizenz)

Mehrere Modelle verwalten

Installierte Modelle anzeigen:

Modell entfernen (gibt Speicher frei):

Modell aktualisieren:

Performance-Tipps für den Pi 5

Temperatur im Auge behalten: Während der LLM-Inferenz kann der Pi 5 auf 80°C klettern. Mit dem Active Cooler bleibt er unter 70°C:

NVMe statt microSD: Modelle auf einer NVMe-SSD laden 3–5× schneller als von einer microSD. Die Ladezeit für llama3.2:3b sinkt von ~15s auf ~4s.

Swap deaktivieren oder erhöhen: Bei 8 GB RAM und 7B-Modellen kommt der Pi ans Limit. Swap auf NVMe erhöhen statt auf microSD:

Modell im Speicher halten: Damit das Modell nach dem ersten Laden nicht wieder entladen wird:

Anwendungsbeispiele

  • Heimautomatisierung: Node-RED oder Home Assistant sendet Sensordaten an die Ollama-API und bekommt eine Zusammenfassung oder Handlungsempfehlung
  • Lokaler Code-Assistent: VS Code mit der Ollama-Extension oder Continue.dev verbinden
  • Offline-Sprachassistent: Whisper (Spracherkennung) + Ollama + Piper (TTS) für einen vollständig lokalen Assistenten ohne Cloud
  • Dokumenten-Zusammenfassung: PDFs oder Texte per Skript an die API schicken und zusammenfassen lassen

Ähnliche Beiträge