Wat is ollama: lokaal draaien van AI-modellen zonder cloudafhankelijkheid

Ollama is een open source framework waarmee je grote taalmodellen, zoals Llama 3, Mistral en Phi-3, rechtstreeks op je eigen hardware of server draait, volledig zonder verbinding met externe clouddiensten. Hierdoor behoudt een organisatie volledige controle over haar data. Voor Nederlandse bedrijven die AVG-compliant willen werken, is dat geen luxe maar een harde eis.

Definitie en kernconcepten van Ollama

Ollama is een lichtgewicht runtime-omgeving die open source AI-taalmodellen lokaal beschikbaar maakt via een eenvoudige API. Het bestaat uit drie onderdelen: een modelbibliotheek met meer dan 80 vooraf geoptimaliseerde modellen, een lokale inferentie-engine die GPU of CPU benut, en een OpenAI-compatibele API-laag waarmee bestaande applicaties zonder grote aanpassingen kunnen overstappen naar een volledig lokale opzet.

Wat is ollama precies? Het is een framework waarmee je grote taalmodellen op je eigen server of laptop installeert en draait, zodat geen data je netwerk verlaat. Je laadt een model via een simpel commando (bijvoorbeeld ollama pull llama3), start het, en stuurt verzoeken via een REST-interface. Het model verwerkt alles lokaal: geen prompts en antwoorden gaan naar Amerikaanse clouddiensten zoals OpenAI of Google Gemini.

Modelbibliotheek: Ollama biedt directe toegang tot meer dan 80 modellen, waaronder Llama 3.1, Mistral 7B, Gemma 2, Phi-3 Mini en CodeLlama.
Lokale inferentie: De engine optimaliseert automatisch voor beschikbare hardware, van een MacBook met Apple Silicon tot een Linux-server met een NVIDIA GPU.
OpenAI-compatibele API: Bestaande applicaties hoeven nauwelijks te worden aangepast om Ollama als backend te gebruiken.
Modelversioning: Via eenvoudige commando's haal je specifieke modelversies op en beheer je meerdere modellen naast elkaar.

Verschil tussen Ollama en andere AI-frameworks

Ollama onderscheidt zich van vergelijkbare tools doordat het gebruiksgemak combineert met lokale privacy en serverdeployment-mogelijkheden. Vergeleken met LM Studio biedt Ollama een betere CLI-integratie en een stabielere API voor automatisering. LM Studio richt zich meer op een grafische gebruikersinterface, terwijl Ollama bedoeld is voor serverdeployment. Vergeleken met llama.cpp, de onderliggende engine die Ollama ook gebruikt, voegt Ollama een volledige beheerlaag toe.

Tool	Lokale data	API-integratie	Serverdeployment	Gebruiksgemak
Ollama	Ja	OpenAI-compatibel	Uitstekend	Hoog
LM Studio	Ja	Beperkt	Matig	Hoog (GUI)
llama.cpp	Ja	Handmatig	Goed	Laag
OpenAI API	Nee	Uitstekend	N.v.t.	Hoog

Ollama is als enige van deze tools volledig via een packagemanager te installeren op Linux, macOS en Windows. Dat maakt beheer in enterprise-omgevingen aanzienlijk eenvoudiger en verklaart waarom steeds meer IT-teams het kiezen als basis voor interne AI-infrastructuur.

Voordelen voor Nederlandse organisaties

Voor Nederlandse organisaties biedt Ollama concrete voordelen die rechtstreeks aansluiten op Europese wetgeving. Alle data blijft binnen de eigen infrastructuur, wat direct AVG-compliance oplevert. Lokale hosting schept geen afhankelijkheid van Amerikaanse Big Tech-aanbieders, iets wat de Europese Commissie in haar digitale-soevereiniteitsstrategie nadrukkelijk aanraadt. De variabele kosten zijn voorspelbaar: na de initiële setup betaal je geen kosten per API-call.

Organisaties die overstappen van een cloudgebaseerde AI-dienst naar Ollama verlagen hun maandelijkse AI-kosten gemiddeld met 60 tot 80 procent, omdat inferentiekosten wegvallen en alleen serverhardware overblijft. Dit getal is realistisch voor organisaties die dagelijks duizenden prompts verwerken en doorgaans een terugverdienperiode van minder dan zes maanden realiseren. AI wordt daarmee financieel schaalbaar voor middelgrote bedrijven met een normaal IT-budget.

AVG-compliance: Geen data-overdracht naar derde landen, wat juridische risico's wegneemt.
Kostenbeheersing: Geen per-token-kosten, alleen vaste serverkosten.
Leveranciersonafhankelijkheid: Geen gebondenheid aan de prijsstelling of servicevoorwaarden van één aanbieder.
Aanpasbaarheid: Modellen kunnen worden gefinetuned op eigen bedrijfsdata zonder die data extern te sturen.
Snelheid: Bij lokale deployment op geschikte hardware is de latency lager dan bij externe API-calls, zeker in een datacenter op eigen bodem.

Voor een zorgorganisatie of advocatenkantoor is Ollama de manier om AI te gebruiken met gevoelige persoonsgegevens zonder dat een externe partij die data te zien krijgt. Dat is precies waarom de interesse vanuit regulated industries in Nederland sterk groeit. Wil je weten hoe je Ollama inbedt in een bredere AI-strategie, bekijk dan onze AI-consultancy aanpak, waarbij we van strategie naar werkende use cases gaan.

Installatie en setup

Ollama installeren duurt op een standaard Linux-server minder dan vijf minuten. Je hebt geen voorkennis nodig — de drempel is laag, maar de mogelijkheden zijn breed.

Installatie: Op macOS en Linux volstaat één shellcommand. Op Windows is een installer beschikbaar.
Model downloaden: Met het commando ollama pull llama3 download je het gewenste model rechtstreeks naar je server.
Model starten: Met ollama run llama3 start je een interactieve sessie of stuur je losse prompts via de CLI.
API activeren: De REST API draait standaard op poort 11434 en accepteert verzoeken in het OpenAI-formaat.
Integratie: Koppel je applicatie, RAG-pipeline of chatinterface aan de lokale API-endpoint.

Een kritiek aandachtspunt dat veel handleidingen overslaan: de keuze van het model heeft meer impact dan de hardware. Een Mistral 7B-model draait redelijk op een server zonder GPU, terwijl Llama 3.1 70B minimaal 40 GB VRAM nodig heeft. Begin met kleinere modellen om te valideren of de use case werkt, en schaal daarna op. Kwantisatie, het verkleinen van modelgewichten, is een effectieve techniek om grote modellen op beperktere hardware te draaien met slechts 5 tot 10 procent kwaliteitsverlies. Het IntraGPT-platform combineert lokale Ollama-infrastructuur met een volledig beheerde omgeving, inclusief security en gebruikersbeheer.

Praktische use cases voor Ollama

Ollama wordt in de praktijk ingezet voor interne kennisbank-queries via RAG, codegeneratie voor ontwikkelteams, en documentverwerking waarbij gevoelige informatie in het spel is. Elk van deze toepassingen profiteert van lokale dataverwerking en geen externe data-overdracht.

Een concreet voorbeeld: een logistiek bedrijf met 200 medewerkers verwerkt dagelijks honderden inkomende e-mails met leveranciersvragen. Door Ollama te koppelen aan een RAG-pipeline over interne productdocumentatie kunnen medewerkers in 30 seconden een concept-antwoord genereren, terwijl alle bedrijfs- en klantdata op de eigen server blijft. De verwerkingssnelheid bij dit soort toepassingen bedraagt 5 tot 15 tokens per seconde op een moderne CPU-server, en 60 tot 120 tokens per seconde met een NVIDIA A100 GPU.

Voor ontwikkelteams is Ollama een privacyveilig alternatief voor GitHub Copilot wanneer broncode niet extern mag worden gedeeld. CodeLlama en DeepSeek Coder, beide beschikbaar via Ollama, behalen in interne benchmarks 70 tot 85 procent van de kwaliteit van GPT-4 bij standaard codeertaken. Dit maakt lokale code-assistentie een realistische optie, ook voor teams met strenge security-eisen. Wil je weten welke use cases voor jouw organisatie het meest opleveren, neem dan contact op met ons team voor een concrete verkenning.

Veelgestelde vragen over wat is ollama

Is Ollama geschikt voor productieomgevingen of alleen voor experimenteren?

Ollama is volledig geschikt voor productieomgevingen. Het framework draait stabiel op Linux-servers en ondersteunt meerdere gelijktijdige verzoeken via de REST API. Bij meer dan 50 gelijktijdige gebruikers is een dedicated GPU-server aan te raden voor optimale performance. Voor kleinere teams en interne tooling draaien CPU-servers prima. De API is productierijp en wordt actief onderhouden door het Ollama-team met regelmatige security-updates.

Welke modellen draaien het best via Ollama voor Nederlandse teksten?

Voor Nederlandse teksten presteren Mistral 7B en Llama 3.1 8B het sterkst in de middelgrote modelcategorie. Beide zijn getraind op meertalige datasets met substantieel Nederlands corpus. Phi-3 Mini is een goede keuze als hardware beperkt is. Voor zware taken zoals samenvatten van lange juridische documenten is Llama 3.1 70B de beste optie, hoewel dat model minimaal 40 GB VRAM vereist.

Hoe verhoudt Ollama zich tot het IntraGPT-platform?

Ollama is de onderliggende runtime: het draait lokale AI-modellen. IntraGPT bouwt daar een complete bedrijfsomgeving omheen met gebruikersbeheer, kennisbank-integratie, auditlogs, ISO 27001-certificering en koppeling aan ERP- en CRM-systemen. Ollama zelf heeft geen authenticatie, gebruikersbeheer of compliance-laag. Voor organisaties die meer nodig hebben dan een technische sandbox, is een platform als IntraGPT de logische volgende stap.

Wat kost het om Ollama in te zetten voor een organisatie van 50 medewerkers?

De softwarekosten voor Ollama zijn nul omdat het open source is. De werkelijke kosten zitten in hardware en beheer. Een refurbished server met NVIDIA RTX 4090 kost circa 3.000 tot 5.000 euro en volstaat voor 20 tot 50 gelijktijdige gebruikers met een 7B-model. Cloudservers met A100-GPU starten rond 2 euro per uur. Omdat per-token-kosten wegvallen, is de terugverdientijd bij intensief gebruik doorgaans minder dan zes maanden.

Is Ollama AVG-proof voor het verwerken van persoonsgegevens?

Ollama stuurt geen data naar externe servers, dus een Ollama-opzet op eigen Nederlandse hardware voldoet aan de AVG mits de serverinfrastructuur zelf correct beveiligd en gedocumenteerd is. De AVG-verantwoordelijkheid ligt bij de verwerkende organisatie, niet bij Ollama als software. Voor verwerking van bijzondere persoonsgegevens, zoals medische of juridische dossiers, zijn aanvullende governance en een verwerkersovereenkomst met de hostingpartij noodzakelijk.

Samenvatting: wat is ollama

Ollama is het meest toegankelijke open source framework om krachtige AI-taalmodellen lokaal te draaien, zonder cloudafhankelijkheid en zonder kosten per token. De echte meerwaarde ontstaat wanneer Ollama wordt ingebed in een bredere omgeving met governance, integraties en gebruik door echte medewerkers. Bekijk het IntraGPT-platform of neem direct contact op met ons team voor een gesprek zonder verplichtingen.