AI-stack: vector databases + GPU-servers

Alles wat u nodig heeft voor productie-AI — Qdrant, ChromaDB, NVIDIA H200, RTX PRO 6000. Kant-en-klare omgeving met CUDA, PyTorch, TensorFlow.

AI-infrastructuur op productieniveau

Vector databases en GPU-servers zijn de twee pijlers van moderne AI-stacks. Wij hebben beide. Qdrant of ChromaDB voor embeddings, RAG en semantisch zoeken; GPU-servers voor training, fine-tuning en inferentie van uw eigen modellen. Voor Nederlandse bedrijven: data blijft in de EU, BTW-factuur in EUR, AVG-conformiteit vanaf minuut één.

Vector databases — RAG, embeddings, search

Vector databases vormen de basis van LLM-gedreven apps. Ze slaan document-embeddings op en vinden overeenkomsten in milliseconden. Kies de gewenste database — we hosten allemaal in de EU met BTW-facturatie in EUR.

Qdrant

Rust-based, hoge prestaties, productie-klaar. Ideaal voor RAG-apps met miljoenen embeddings. HNSW index, metadata-filtering, snapshots.

ChromaDB

De makkelijkste vector database. Perfect voor prototypes en kleinere AI-apps. Python-first, automatische embeddings via OpenAI of Sentence Transformers.

Weaviate

Data-schema met metadata. Hybride zoeken (vector + tag-filter). Ingebouwde generatieve AI-modules, GraphQL API.

pgvector

PostgreSQL extensie. Als u al Postgres gebruikt, voeg vectors toe zonder een nieuwe database. Volledige integratie met bestaande tabellen en SQL-transacties.

GPU-servers — H200, RTX PRO 6000, RTX 4090

Professionele NVIDIA-kaarten met een kant-en-klare CUDA-omgeving. Voor training, LLM-inferentie, computer vision en 3D-rendering. Per uur of per maand factureerbaar. Alle GPU's leveren CUDA 12.4, cuDNN 9, PyTorch 2.4, TensorFlow 2.18, JAX, Hugging Face Transformers voorgeïnstalleerd.

NVIDIA H200

141 GB HBM3 · 4.8 TB/s bandbreedte · voor GPT-4-class LLM training

NVIDIA RTX PRO 6000

96 GB GDDR7 ECC · workstation-class · inferentie + rendering

NVIDIA RTX 4090

24 GB GDDR6X · consumer-grade · middelgrote modellen

NVIDIA RTX 4000 Ada

20 GB GDDR6 ECC · laag verbruik · ideaal voor continue inferentie

Kosten van typische AI-workloads

Voorbeeldscenario's en hun maandelijkse kosten op onze infrastructuur. Alle prijzen in EUR, inclusief 21% Nederlandse BTW. Vergeleken met OpenAI / AWS Bedrock / Anthropic tarieven — eigen infrastructuur loont vaak vanaf 50-100k requests/maand.

AI-workload	Setup	Kosten/maand
RAG voor 1M documenten (doc chat)	VPS 32G + Qdrant + OpenAI API	vanaf €53,99
Semantische zoekfunctie voor shop (50k SKUs)	VPS 16G + pgvector + Sentence Transformers	vanaf €27,99
Llama 3 70B inferentie (~5k queries/dag)	GPU server RTX PRO 6000 + vLLM	vanaf €459
Training van eigen OCR-model (CV)	GPU server RTX 4090 (per uur)	€2,79/uur
Productie-LLM 70B met load balancing	2× GPU server H200 + Kubernetes	vanaf €1.849

Productie-AI pipeline — 5 fasen

Zo ziet een typisch productie-AI-project eruit van concept tot werkende app. Voor elke fase hebben we kant-en-klare infrastructuur en patterns die u niet vanaf nul hoeft te bedenken.

Data preparation

Document indexing, tekst opschoning, normalisatie. Python scripts op een VPS, output naar MinIO (S3-compatible) of PostgreSQL.

Embedding generation

OpenAI text-embedding-3-large, Cohere, of lokaal model (Sentence Transformers, BGE-M3). Embeddings opgeslagen in Qdrant of pgvector.

Retrieval + RAG

Een FastAPI/Next.js app stuurt een vraag, de vector DB retourneert top-K docs, context wordt toegevoegd aan de LLM-prompt.

LLM inferentie

Kies: Claude/GPT via API (snelste start), of een lokale LLM op GPU (volledige controle, lagere kosten bij schaal).

Monitoring en evaluatie

Query logs in Loki, latencies in Prometheus, OpenAI kosten in Grafana. Quality eval via LangSmith of eigen benchmark.

Wat u kunt bouwen

Bedrijfsassistent (RAG)

Indexeer bedrijfsdocumenten in Qdrant, koppel Claude of GPT via API, retourneer context-bewuste antwoorden. Sub-200 ms latency. Nederlandse tokenizer, meertalige embeddings.

Semantische zoekfunctie

In plaats van keyword search — zoek op betekenis. Nederlandse e-commerce ziet 30%+ conversiestijging. Werkt met Nederlandse verbuigingen.

Gehoste LLM (Llama, Mistral)

Eigen model op een GPU-server. Geen data naar OpenAI/Anthropic. Volledige controle, AVG-conform. vLLM of Ollama voor eenvoudige inferentie.

Computer vision in productie

Detectie van defecten, OCR, objectherkenning. Train op eigen dataset met RTX PRO 6000. YOLO, Detectron2, Segment Anything Model.

AVG-conformiteit voor AI-apps

AI is een gevoelig gebied voor AVG — trainingsdata, embeddings, query-logs. Onze oplossing minimaliseert risico door alle data in de EU te houden en u volledige controle over verwerking te geven.

Alle data (documenten, embeddings, logs) in EU-datacenters — geen transfer naar VS, VK of Azië
Optie om lokale LLMs (Llama, Mistral) te gebruiken in plaats van OpenAI/Anthropic — geen datatransfer naar VS
Query-logs maximaal 90 dagen bewaard, met on-demand eerdere verwijdering
Embeddings zijn afgeleide data — volledige verwijdering mogelijk door re-indexing na anonimisering van de bron
Audit log voor elke vector DB-toegang (wie, wanneer, welke query)
Gratis Verwerkersovereenkomst (DPA) conform AVG art. 28

Veelgestelde vragen

Kan ik OpenAI / Anthropic gebruiken met een vector DB in de EU?

Ja. U houdt de vector DB (Qdrant/ChromaDB) bij ons in de EU. Naar de LLM stuurt u alleen de top-K context + gebruikersvraag. Onze voorbeelden tonen hoe datatransfer geminimaliseerd wordt.

Hoe groot model kan ik op uw GPU draaien?

Llama 3 8B / Mistral 7B draaien soepel op RTX 4090. Llama 3 70B vereist RTX PRO 6000 of H200. Mixtral 8x22B en groter — H200 of multi-GPU setup. Wij helpen kiezen.

Hoe lang duurt AI-omgeving setup?

De omgeving is voorgeïnstalleerd — CUDA, PyTorch, TF, vLLM, Ollama. Eerste inferentie in 5 minuten. Voor custom setups (specifiek model, fine-tuning) typisch 1-3 uur met onze hulp.

Ondersteunen jullie fine-tuning van eigen modellen?

Ja. RTX PRO 6000 (96 GB VRAM) handelt fine-tuning van tot 70B modellen met LoRA/QLoRA. Voor volledige training van GPT-class modellen — H200 of multi-node cluster.

Kan ik Pinecone gebruiken terwijl Qdrant bij u staat?

Ja, maar Qdrant lokaal is goedkoper en sneller. Pinecone is ~€65/mnd minimum; Qdrant op onze VPS 16G is €27,99/mnd. Pinecone → Qdrant migratie — we helpen gratis.

Kies een GPU of VPS met een vector database

GPU-servers vanaf €299/mnd. VPS met voorgeïnstalleerde Qdrant vanaf €27,99/mnd. Per uur facturatie op GPU — probeer zonder verplichting.

Bekijk GPU-plannen →