AI-infrastructuur op productieniveau
Vector databases en GPU-servers zijn de twee pijlers van moderne AI-stacks. Wij hebben beide. Qdrant of ChromaDB voor embeddings, RAG en semantisch zoeken; GPU-servers voor training, fine-tuning en inferentie van uw eigen modellen. Voor Nederlandse bedrijven: data blijft in de EU, BTW-factuur in EUR, AVG-conformiteit vanaf minuut één.
Vector databases — RAG, embeddings, search
Vector databases vormen de basis van LLM-gedreven apps. Ze slaan document-embeddings op en vinden overeenkomsten in milliseconden. Kies de gewenste database — we hosten allemaal in de EU met BTW-facturatie in EUR.
Qdrant
Rust-based, hoge prestaties, productie-klaar. Ideaal voor RAG-apps met miljoenen embeddings. HNSW index, metadata-filtering, snapshots.
ChromaDB
De makkelijkste vector database. Perfect voor prototypes en kleinere AI-apps. Python-first, automatische embeddings via OpenAI of Sentence Transformers.
Weaviate
Data-schema met metadata. Hybride zoeken (vector + tag-filter). Ingebouwde generatieve AI-modules, GraphQL API.
pgvector
PostgreSQL extensie. Als u al Postgres gebruikt, voeg vectors toe zonder een nieuwe database. Volledige integratie met bestaande tabellen en SQL-transacties.
GPU-servers — H200, RTX PRO 6000, RTX 4090
Professionele NVIDIA-kaarten met een kant-en-klare CUDA-omgeving. Voor training, LLM-inferentie, computer vision en 3D-rendering. Per uur of per maand factureerbaar. Alle GPU's leveren CUDA 12.4, cuDNN 9, PyTorch 2.4, TensorFlow 2.18, JAX, Hugging Face Transformers voorgeïnstalleerd.
Kosten van typische AI-workloads
Voorbeeldscenario's en hun maandelijkse kosten op onze infrastructuur. Alle prijzen in EUR, inclusief 21% Nederlandse BTW. Vergeleken met OpenAI / AWS Bedrock / Anthropic tarieven — eigen infrastructuur loont vaak vanaf 50-100k requests/maand.
| AI-workload | Setup | Kosten/maand |
|---|---|---|
| RAG voor 1M documenten (doc chat) | VPS 32G + Qdrant + OpenAI API | vanaf €53,99 |
| Semantische zoekfunctie voor shop (50k SKUs) | VPS 16G + pgvector + Sentence Transformers | vanaf €27,99 |
| Llama 3 70B inferentie (~5k queries/dag) | GPU server RTX PRO 6000 + vLLM | vanaf €459 |
| Training van eigen OCR-model (CV) | GPU server RTX 4090 (per uur) | €2,79/uur |
| Productie-LLM 70B met load balancing | 2× GPU server H200 + Kubernetes | vanaf €1.849 |
Productie-AI pipeline — 5 fasen
Zo ziet een typisch productie-AI-project eruit van concept tot werkende app. Voor elke fase hebben we kant-en-klare infrastructuur en patterns die u niet vanaf nul hoeft te bedenken.
Data preparation
Document indexing, tekst opschoning, normalisatie. Python scripts op een VPS, output naar MinIO (S3-compatible) of PostgreSQL.
Embedding generation
OpenAI text-embedding-3-large, Cohere, of lokaal model (Sentence Transformers, BGE-M3). Embeddings opgeslagen in Qdrant of pgvector.
Retrieval + RAG
Een FastAPI/Next.js app stuurt een vraag, de vector DB retourneert top-K docs, context wordt toegevoegd aan de LLM-prompt.
LLM inferentie
Kies: Claude/GPT via API (snelste start), of een lokale LLM op GPU (volledige controle, lagere kosten bij schaal).
Monitoring en evaluatie
Query logs in Loki, latencies in Prometheus, OpenAI kosten in Grafana. Quality eval via LangSmith of eigen benchmark.
Wat u kunt bouwen
Bedrijfsassistent (RAG)
Indexeer bedrijfsdocumenten in Qdrant, koppel Claude of GPT via API, retourneer context-bewuste antwoorden. Sub-200 ms latency. Nederlandse tokenizer, meertalige embeddings.
Semantische zoekfunctie
In plaats van keyword search — zoek op betekenis. Nederlandse e-commerce ziet 30%+ conversiestijging. Werkt met Nederlandse verbuigingen.
Gehoste LLM (Llama, Mistral)
Eigen model op een GPU-server. Geen data naar OpenAI/Anthropic. Volledige controle, AVG-conform. vLLM of Ollama voor eenvoudige inferentie.
Computer vision in productie
Detectie van defecten, OCR, objectherkenning. Train op eigen dataset met RTX PRO 6000. YOLO, Detectron2, Segment Anything Model.
AVG-conformiteit voor AI-apps
AI is een gevoelig gebied voor AVG — trainingsdata, embeddings, query-logs. Onze oplossing minimaliseert risico door alle data in de EU te houden en u volledige controle over verwerking te geven.
- Alle data (documenten, embeddings, logs) in EU-datacenters — geen transfer naar VS, VK of Azië
- Optie om lokale LLMs (Llama, Mistral) te gebruiken in plaats van OpenAI/Anthropic — geen datatransfer naar VS
- Query-logs maximaal 90 dagen bewaard, met on-demand eerdere verwijdering
- Embeddings zijn afgeleide data — volledige verwijdering mogelijk door re-indexing na anonimisering van de bron
- Audit log voor elke vector DB-toegang (wie, wanneer, welke query)
- Gratis Verwerkersovereenkomst (DPA) conform AVG art. 28
Veelgestelde vragen
Kan ik OpenAI / Anthropic gebruiken met een vector DB in de EU?
Ja. U houdt de vector DB (Qdrant/ChromaDB) bij ons in de EU. Naar de LLM stuurt u alleen de top-K context + gebruikersvraag. Onze voorbeelden tonen hoe datatransfer geminimaliseerd wordt.
Hoe groot model kan ik op uw GPU draaien?
Llama 3 8B / Mistral 7B draaien soepel op RTX 4090. Llama 3 70B vereist RTX PRO 6000 of H200. Mixtral 8x22B en groter — H200 of multi-GPU setup. Wij helpen kiezen.
Hoe lang duurt AI-omgeving setup?
De omgeving is voorgeïnstalleerd — CUDA, PyTorch, TF, vLLM, Ollama. Eerste inferentie in 5 minuten. Voor custom setups (specifiek model, fine-tuning) typisch 1-3 uur met onze hulp.
Ondersteunen jullie fine-tuning van eigen modellen?
Ja. RTX PRO 6000 (96 GB VRAM) handelt fine-tuning van tot 70B modellen met LoRA/QLoRA. Voor volledige training van GPT-class modellen — H200 of multi-node cluster.
Kan ik Pinecone gebruiken terwijl Qdrant bij u staat?
Ja, maar Qdrant lokaal is goedkoper en sneller. Pinecone is ~€65/mnd minimum; Qdrant op onze VPS 16G is €27,99/mnd. Pinecone → Qdrant migratie — we helpen gratis.
Kies een GPU of VPS met een vector database
GPU-servers vanaf €299/mnd. VPS met voorgeïnstalleerde Qdrant vanaf €27,99/mnd. Per uur facturatie op GPU — probeer zonder verplichting.
Bekijk GPU-plannen →


