AI-stack: vector databases + GPU-servers

Alles wat u nodig heeft voor productie-AI — Qdrant, ChromaDB, NVIDIA H200, RTX PRO 6000. Kant-en-klare omgeving met CUDA, PyTorch, TensorFlow.

AI-infrastructuur op productieniveau

Vector databases en GPU-servers zijn de twee pijlers van moderne AI-stacks. Wij hebben beide. Qdrant of ChromaDB voor embeddings, RAG en semantisch zoeken; GPU-servers voor training, fine-tuning en inferentie van uw eigen modellen. Voor Nederlandse bedrijven: data blijft in de EU, BTW-factuur in EUR, AVG-conformiteit vanaf minuut één.

Vector databases — RAG, embeddings, search

Vector databases vormen de basis van LLM-gedreven apps. Ze slaan document-embeddings op en vinden overeenkomsten in milliseconden. Kies de gewenste database — we hosten allemaal in de EU met BTW-facturatie in EUR.

Qdrant

Rust-based, hoge prestaties, productie-klaar. Ideaal voor RAG-apps met miljoenen embeddings. HNSW index, metadata-filtering, snapshots.

ChromaDB

De makkelijkste vector database. Perfect voor prototypes en kleinere AI-apps. Python-first, automatische embeddings via OpenAI of Sentence Transformers.

Weaviate

Data-schema met metadata. Hybride zoeken (vector + tag-filter). Ingebouwde generatieve AI-modules, GraphQL API.

pgvector

PostgreSQL extensie. Als u al Postgres gebruikt, voeg vectors toe zonder een nieuwe database. Volledige integratie met bestaande tabellen en SQL-transacties.

GPU-servers — H200, RTX PRO 6000, RTX 4090

Professionele NVIDIA-kaarten met een kant-en-klare CUDA-omgeving. Voor training, LLM-inferentie, computer vision en 3D-rendering. Per uur of per maand factureerbaar. Alle GPU's leveren CUDA 12.4, cuDNN 9, PyTorch 2.4, TensorFlow 2.18, JAX, Hugging Face Transformers voorgeïnstalleerd.

NVIDIA H200
141 GB HBM3 · 4.8 TB/s bandbreedte · voor GPT-4-class LLM training
NVIDIA RTX PRO 6000
96 GB GDDR7 ECC · workstation-class · inferentie + rendering
NVIDIA RTX 4090
24 GB GDDR6X · consumer-grade · middelgrote modellen
NVIDIA RTX 4000 Ada
20 GB GDDR6 ECC · laag verbruik · ideaal voor continue inferentie

Kosten van typische AI-workloads

Voorbeeldscenario's en hun maandelijkse kosten op onze infrastructuur. Alle prijzen in EUR, inclusief 21% Nederlandse BTW. Vergeleken met OpenAI / AWS Bedrock / Anthropic tarieven — eigen infrastructuur loont vaak vanaf 50-100k requests/maand.

AI-workloadSetupKosten/maand
RAG voor 1M documenten (doc chat)VPS 32G + Qdrant + OpenAI APIvanaf €53,99
Semantische zoekfunctie voor shop (50k SKUs)VPS 16G + pgvector + Sentence Transformersvanaf €27,99
Llama 3 70B inferentie (~5k queries/dag)GPU server RTX PRO 6000 + vLLMvanaf €459
Training van eigen OCR-model (CV)GPU server RTX 4090 (per uur)€2,79/uur
Productie-LLM 70B met load balancing2× GPU server H200 + Kubernetesvanaf €1.849

Productie-AI pipeline — 5 fasen

Zo ziet een typisch productie-AI-project eruit van concept tot werkende app. Voor elke fase hebben we kant-en-klare infrastructuur en patterns die u niet vanaf nul hoeft te bedenken.

1

Data preparation

Document indexing, tekst opschoning, normalisatie. Python scripts op een VPS, output naar MinIO (S3-compatible) of PostgreSQL.

2

Embedding generation

OpenAI text-embedding-3-large, Cohere, of lokaal model (Sentence Transformers, BGE-M3). Embeddings opgeslagen in Qdrant of pgvector.

3

Retrieval + RAG

Een FastAPI/Next.js app stuurt een vraag, de vector DB retourneert top-K docs, context wordt toegevoegd aan de LLM-prompt.

4

LLM inferentie

Kies: Claude/GPT via API (snelste start), of een lokale LLM op GPU (volledige controle, lagere kosten bij schaal).

5

Monitoring en evaluatie

Query logs in Loki, latencies in Prometheus, OpenAI kosten in Grafana. Quality eval via LangSmith of eigen benchmark.

Wat u kunt bouwen

Bedrijfsassistent (RAG)

Indexeer bedrijfsdocumenten in Qdrant, koppel Claude of GPT via API, retourneer context-bewuste antwoorden. Sub-200 ms latency. Nederlandse tokenizer, meertalige embeddings.

Semantische zoekfunctie

In plaats van keyword search — zoek op betekenis. Nederlandse e-commerce ziet 30%+ conversiestijging. Werkt met Nederlandse verbuigingen.

Gehoste LLM (Llama, Mistral)

Eigen model op een GPU-server. Geen data naar OpenAI/Anthropic. Volledige controle, AVG-conform. vLLM of Ollama voor eenvoudige inferentie.

Computer vision in productie

Detectie van defecten, OCR, objectherkenning. Train op eigen dataset met RTX PRO 6000. YOLO, Detectron2, Segment Anything Model.

AVG-conformiteit voor AI-apps

AI is een gevoelig gebied voor AVG — trainingsdata, embeddings, query-logs. Onze oplossing minimaliseert risico door alle data in de EU te houden en u volledige controle over verwerking te geven.

  • Alle data (documenten, embeddings, logs) in EU-datacenters — geen transfer naar VS, VK of Azië
  • Optie om lokale LLMs (Llama, Mistral) te gebruiken in plaats van OpenAI/Anthropic — geen datatransfer naar VS
  • Query-logs maximaal 90 dagen bewaard, met on-demand eerdere verwijdering
  • Embeddings zijn afgeleide data — volledige verwijdering mogelijk door re-indexing na anonimisering van de bron
  • Audit log voor elke vector DB-toegang (wie, wanneer, welke query)
  • Gratis Verwerkersovereenkomst (DPA) conform AVG art. 28

Veelgestelde vragen

Kan ik OpenAI / Anthropic gebruiken met een vector DB in de EU?

Ja. U houdt de vector DB (Qdrant/ChromaDB) bij ons in de EU. Naar de LLM stuurt u alleen de top-K context + gebruikersvraag. Onze voorbeelden tonen hoe datatransfer geminimaliseerd wordt.

Hoe groot model kan ik op uw GPU draaien?

Llama 3 8B / Mistral 7B draaien soepel op RTX 4090. Llama 3 70B vereist RTX PRO 6000 of H200. Mixtral 8x22B en groter — H200 of multi-GPU setup. Wij helpen kiezen.

Hoe lang duurt AI-omgeving setup?

De omgeving is voorgeïnstalleerd — CUDA, PyTorch, TF, vLLM, Ollama. Eerste inferentie in 5 minuten. Voor custom setups (specifiek model, fine-tuning) typisch 1-3 uur met onze hulp.

Ondersteunen jullie fine-tuning van eigen modellen?

Ja. RTX PRO 6000 (96 GB VRAM) handelt fine-tuning van tot 70B modellen met LoRA/QLoRA. Voor volledige training van GPT-class modellen — H200 of multi-node cluster.

Kan ik Pinecone gebruiken terwijl Qdrant bij u staat?

Ja, maar Qdrant lokaal is goedkoper en sneller. Pinecone is ~€65/mnd minimum; Qdrant op onze VPS 16G is €27,99/mnd. Pinecone → Qdrant migratie — we helpen gratis.

Kies een GPU of VPS met een vector database

GPU-servers vanaf €299/mnd. VPS met voorgeïnstalleerde Qdrant vanaf €27,99/mnd. Per uur facturatie op GPU — probeer zonder verplichting.

Bekijk GPU-plannen