Infrastruktura AI klasy produkcyjnej
Bazy wektorowe i serwery GPU to dwa filary nowoczesnego stosu AI. Mamy obie. Qdrant lub ChromaDB do embeddingów, RAG i semantycznego wyszukiwania; serwery GPU dla trenowania, fine-tuningu i inferencji własnych modeli. Dla polskich firm: dane pozostają w UE, faktury VAT w PLN, zgodność z RODO od pierwszej minuty.
Bazy wektorowe — RAG, embeddings, search
Bazy wektorowe to fundament aplikacji opartych na LLM. Przechowują embeddings dokumentów i wyszukują podobieństwa w milisekundach. Wybierz preferowaną bazę — wszystkie hostujemy w UE z faktura VAT w PLN. Każda dostępna z preinstalowanym klientem Python i przykładowymi notebookami Jupyter.
Qdrant
Rust-based, wysoka wydajność, gotowy do produkcji. Idealny dla aplikacji RAG z milionami embeddingów. HNSW index, filtrowanie po metadanych, snapshoty.
ChromaDB
Najprostsza w użyciu baza wektorowa. Świetna do prototypów i mniejszych aplikacji AI. Python-first, automatyczne embedding-i z OpenAI lub Sentence Transformers.
Weaviate
Schemat danych z metadanymi. Hybrydowe wyszukiwanie (wektor + filtr po tagach). Wbudowane moduły do generative AI, GraphQL API.
pgvector
Rozszerzenie PostgreSQL. Jeśli już używasz Postgresa, dodaj wektory bez nowej bazy. Pełna integracja z istniejącymi tabelami i transakcjami SQL.
Serwery GPU — H200, RTX PRO 6000, RTX 4090
Profesjonalne karty NVIDIA z gotowym środowiskiem CUDA. Dla trenowania modeli, inferencji LLM, computer vision i renderingu 3D. Fakturowanie godzinowe lub miesięczne — wybierz to, co odpowiada Twojemu workflow. Wszystkie GPU mają zainstalowane CUDA 12.4, cuDNN 9, PyTorch 2.4, TensorFlow 2.18, JAX, Hugging Face Transformers.
Koszt typowych workloadów AI
Przykładowe scenariusze i ich miesięczny koszt na naszej infrastrukturze. Wszystkie ceny w PLN, zawierają 23% VAT. Dla porównania ze stawkami OpenAI, AWS Bedrock czy Anthropic — w wielu przypadkach własna infrastruktura zwraca się przy 50-100k zapytań miesięcznie.
| Workload AI | Setup | Cena/mies. |
|---|---|---|
| RAG dla 1M dokumentów (chat z dokumentami) | VPS 32G + Qdrant + OpenAI API | od 229 PLN |
| Wyszukiwarka semantyczna dla sklepu (50k SKU) | VPS 16G + pgvector + Sentence Transformers | od 119 PLN |
| Inferencja Llama 3 70B (~5k zapytań/dobę) | GPU server RTX PRO 6000 + vLLM | od 1 990 PLN |
| Trenowanie własnego modelu OCR (CV) | GPU server RTX 4090 (godzinowo) | 12 PLN/godz. |
| Production LLM 70B z load balancingiem | 2× GPU server H200 + Kubernetes | od 7 990 PLN |
Pipeline produkcyjny AI — 5 etapów
Tak wygląda typowy projekt produkcyjny AI od momentu konceptu do działającej aplikacji. Dla każdego etapu mamy gotową infrastrukturę i wzorce, których nie musisz wymyślać od zera.
Przygotowanie danych
Indeksowanie dokumentów, czyszczenie tekstu, normalizacja. Skrypty Python na VPS-ie, output do MinIO (S3-compatible) lub PostgreSQL.
Generowanie embeddingów
OpenAI text-embedding-3-large, Cohere, lub lokalny model (Sentence Transformers, BGE-M3). Embeddings zapisywane do Qdrant lub pgvector.
Wyszukiwanie + RAG
Aplikacja FastAPI/Next.js wysyła pytanie, baza wektorowa zwraca top-K dokumentów, kontekst doklejony do prompt-u LLM.
Inferencja LLM
Wybierz: Claude/GPT przez API (najszybszy start), lokalny LLM na GPU (pełna kontrola, niższy koszt przy wolumenie).
Monitoring i ewaluacja
Logi zapytań w Loki, latencje w Prometheus, kosztu OpenAI w Grafana. Quality eval przez LangSmith lub własny benchmark.
Co możesz zbudować
Asystent firmowy (RAG)
Indeksuj dokumenty firmy w Qdrant, podłącz Claude lub GPT przez API, zwracaj odpowiedzi z kontekstu. Latencja < 200 ms. Polski tokenizer, embedding-i wielojęzyczne.
Wyszukiwarka semantyczna
Zamiast wyszukiwania po słowach kluczowych — wyszukiwanie po znaczeniu. Polski e-commerce zyskuje 30%+ konwersji. Działa z polską odmianą rzeczowników.
Hostowany LLM (Llama, Mistral)
Własny model na serwerze GPU. Bez wysyłania danych do OpenAI/Anthropic. Pełna kontrola, zgodność z RODO. vLLM lub Ollama dla łatwej inferencji.
Computer vision dla produkcji
Detekcja defektów, OCR, rozpoznawanie obiektów. Trenuj na własnym datasecie z RTX PRO 6000. YOLO, Detectron2, Segment Anything Model.
Zgodność z RODO dla aplikacji AI
AI to wrażliwy obszar dla RODO — dane treningowe, embeddings, logi zapytań. Nasze rozwiązanie minimalizuje ryzyko, utrzymując wszystkie dane w UE i dając Ci pełną kontrolę nad procesami przetwarzania.
- Wszystkie dane (dokumenty, embeddings, logi) w DC w UE — bez transferu do USA, UK ani Azji
- Możliwość użycia lokalnych LLM (Llama, Mistral) zamiast OpenAI/Anthropic — brak transferu danych do USA
- Logi zapytań przechowywane maks. 90 dni z opcją wcześniejszego usunięcia
- Embeddings są danymi pochodnymi — możliwe pełne usunięcie przez re-indexing po anonimizacji źródła
- Audit log każdego dostępu do bazy wektorowej (kto, kiedy, jaki query)
- Bezpłatna umowa powierzenia (DPA) zgodna z art. 28 RODO
Częste pytania
Czy mogę używać OpenAI / Anthropic z bazą wektorową w UE?
Tak. Baza wektorowa (Qdrant/ChromaDB) trzymasz u nas w UE. Do LLM wysyłasz tylko top-K kontekst + pytanie użytkownika. Nasze przykłady pokazują, jak zminimalizować transfer danych.
Jak duże modele mogę uruchomić na waszym GPU?
Llama 3 8B / Mistral 7B działają płynnie na RTX 4090. Llama 3 70B wymaga RTX PRO 6000 lub H200. Mixtral 8x22B i większe — H200 lub multi-GPU setup. Pomagamy dobrać.
Jak długo trwa konfiguracja środowiska AI?
Środowisko jest preinstalowane — CUDA, PyTorch, TF, vLLM, Ollama. Pierwsza inferencja w 5 minut. Dla customowych setupów (specyficzny model, fine-tuning) zwykle 1-3 godziny z naszą pomocą.
Czy obsługujecie fine-tuning własnych modeli?
Tak. RTX PRO 6000 (96 GB VRAM) wystarcza do fine-tuningu modeli do 70B z LoRA/QLoRA. Dla pełnego treningu modeli klasy GPT — H200 lub multi-node cluster.
Czy mogę używać Pinecone, gdy mam Qdrant u was?
Tak, ale Qdrant lokalnie jest tańszy i szybszy. Pinecone to ~70 USD/mies. minimum; Qdrant na naszym VPS 16G to 119 PLN/mies. Migracja z Pinecone do Qdrant — pomagamy bezpłatnie.
Wybierz GPU lub VPS z wektorową bazą danych
Serwery GPU dostępne od 1 290 PLN/mies. VPS z preinstalowanym Qdrant od 119 PLN/mies. Fakturowanie godzinowe dla GPU — testuj bez zobowiązań.
Zobacz plany GPU →
