← Nazad na sve tekstove
1. јул 2026.TechRevati

Privatna LLM inferencija za regulisane EU timove: self-hosting, API u EU regionu ili hostovanje u SAD?

Vodič usmeren na odluku i iskren prema kompromisima, za inženjerske i platformske lidere: kada self-hostovati privatnu LLM inferenciju, kada je API u EU regionu dovoljan, a kada je hostovanje u SAD sasvim u redu — ocenjeno prema osetljivosti podataka, EU AI Act-u, DORA i GDPR, latenciji i stvarnom GPU trošku — plus referentni stek i jedna projektna odluka koja sve opcije drži otvorenim.

  • ai
  • suverenost-podataka
  • uskladjenost
  • dora

Self-hosting, API u EU regionu ili hostovanje u SAD — koji model privatne LLM inferencije odgovara regulisanom EU timu?

Postoje tri stvarna načina da se LLM pokrene iza regulisanog EU radnog opterećenja, i oni se nalaze na spektru kontrole naspram operativnog opterećenja. Self-hostovana inferencija — otvorene težine koje rade na sopstvenom hardveru ili u jednozakupačkom VPC-u, on-prem ili air-gapped — pruža vam maksimalno starateljstvo i maksimalni operativni trošak. Upravljani API u EU regionu — hostovani model sa ugovornim rezidentstvom podataka u EU — pruža vam najveći deo koristi od rezidentstva bez ijedne GPU operacije. API hostovan u SAD pruža najširi izbor modela i najmanje operativno opterećenje, ali svaki poziv pretvara u prekogranični prenos koji morate opravdati. Ovo je okvir koji u TechRevati koristimo da biramo promišljeno po radnom opterećenju, umesto da celu platformu podrazumevano svedemo na jedan odgovor.

Ovo je inženjersko i praktičarsko uputstvo utemeljeno u produkcijskoj isporuci sistema za pretragu i inferenciju. Nije pravni savet i nije garancija usklađenosti. Odgovornost za vaše GDPR prenose, vaše obaveze po EU AI Act-u i vaš DORA registar ostaje na vašoj organizaciji i vašem pravnom savetniku. Dobavljač isporučuje činjenice o tome gde i kako sistem radi; vaša firma nosi obavezu. Proverite sve ovde navedeno u odnosu na zvanične tekstove i vašeg DPO-a.

Jedno razjašnjenje na početku. Osa deployment-a u ovom tekstu — gde je i kako model hostovan — odvojena je od ose provajdera, čije težine pokrećete. Pitanje provajdera, modele EU porekla poput Mistral-a naspram američkih frontijer modela, obradili smo u tekstu o EU-suverenom AI steku. Ovde model ostavljamo po strani i odlučujemo o hostovanju: isti model se često može dohvatiti kao API u SAD, API u EU regionu ili self-hostovan, a te tri opcije imaju veoma različite profile usklađenosti i troška.

Četiri faktora koji zapravo donose odluku

Ocenite radno opterećenje prema njima pre nego što izaberete — po radnom opterećenju, ne po kompaniji. Asistent za sastavljanje dokumenata i model za trijažu prevara ne dobijaju isti odgovor.

1. Osetljivost podataka: šta zapravo ulazi u prompt?

Počnite od podataka, jer oni ograničavaju vaše opcije. LLM radno opterećenje pomera podatke na tri mesta, od kojih svako zahteva odgovor o rezidentstvu: prompt (korisnički upit plus dohvaćeni kontekst — često najosetljiviji sadržaj), embeddings (vektorske reprezentacije koje nisu pouzdano anonimizovane — mogu se delimično invertovati ka izvornom tekstu, pa ih tretirajte kao izvedene lične podatke) i logovi i telemetrija koje provajder zadržava, ponekad tokom prozora koji ne kontrolišete.

  • Podaci posebne kategorije ili regulisani podaci — zdravstveni, finansijski zapisi, biometrijski, javni sektor, bilo šta pod pravnom privilegijom: tu se self-hosting ili strogo ograničena EU putanja isplati. Ovo smo sproveli od početka do kraja — AI Nexus ITSM deployment on-prem sa nultim odlivom, i potpuno lokalni Ollama-plus-ServiceNow asistent gde Microsoft Defender podaci nikada nisu napustili perimetar klijenta — upravo zato što podaci nisu smeli da izađu.
  • Poverljivi poslovni podaci, pseudonimizovani ili lični podaci malog obima: API u EU regionu sa rezidentstvom i ugovorom o obradi podataka je obično proporcionalan.
  • Javni, sintetički ili nelični podaci: hostovanje u SAD je sasvim u redu. Nemojte preterano inženjeriti suverenost za sadržaj koji ne nosi nikakvu obavezu — to je trošak bez povraćaja.

2. Regulativa: AI Act, DORA, GDPR

Tri režima grizu različito, i nijedan se ne zadovoljava samim izborom hostovanja.

  • GDPR međunarodni prenosi. Slanje ličnih podataka američkom servisu je ograničeni prenos. Nakon Schrems II, počiva na zakonitom mehanizmu — Standardne ugovorne klauzule plus procena uticaja prenosa, ili oslanjanje na EU–US Data Privacy Framework tamo gde je provajder sertifikovan. Dugoročna održivost DPF-a je i sama sporna, pa strategija prenosa koja počiva samo na njemu nosi rizik. Putanja hostovana u SAD nije nezakonita; ona je uslovna — morate izvršiti, dokumentovati i održavati tu procenu. Putanja sa rezidentstvom u EU u potpunosti uklanja prekogranični prenos, pa nema ničega što bi trebalo braniti. Za mnoge regulisane kupce, „nema prenosa koji treba proceniti" pobeđuje nekoliko poena kvaliteta modela.
  • EU AI Act. Zakon reguliše upotrebu i dokumentaciju, ne gde se težine nalaze. Američki model korišćen pažljivo može biti usklađen; EU model korišćen nemarno neće biti. Ali self-hostabilna EU infrastruktura znatno olakšava obaveze upravljanja podacima, logovanja i vođenja evidencije za sisteme visokog rizika — logove držite direktno. Smanjuje trenje; ne dodeljuje usklađenost.
  • DORA. Ako isporučujete IKT nekom EU finansijskom subjektu, vaš endpoint za inferenciju i vektorska baza jesu IKT i završavaju u Registru informacija — a jednodobavljačka, jednoregionska LLM zavisnost je udžbenički koncentracioni rizik koji DORA traži da iznesete na videlo. Self-hosting ili apstrahovana, zamenljiva granica inferencije jeste način da odgovorite na redove „stvarni region obrade", „podizvođači" i „izlazni plan". Prošli smo polje po polje kroz ovo u DORA build čeklisti.

3. Latencija

Fizika je stvarni ulaz. EU-hostovani model koji opslužuje EU korisnike izbegava transatlantsku povratnu putanju, a kolokacija modela sa vašom vektorskom bazom u jednom EU regionu je obično najbrža putanja za EU saobraćaj. API u SAD dodaje prekoatlantske skokove svakom pozivu — podnošljivo za asinhroni ili batch rad, primetno u interaktivnom četu ili agentskoj petlji koja pravi mnogo sekvencijalnih poziva. Self-hosting blizu vaših korisnika može biti opcija sa najmanjom latencijom od svih, pod uslovom da ste dimenzionisali kapacitet tako da se zahtevi ne zadržavaju u redu iza GPU nestašice. Nedovoljno obezbeđen self-host je sporiji od bilo kog hostovanog API-ja, ne brži.

4. Trošak

Budite iskreni o obliku računa. Hostovani API-jevi (SAD ili EU region) naplaćuju po tokenu sa nultim operativnim opterećenjem i ubedljivo pobeđuju pri niskom ili neujednačenom obimu — plaćate samo ono što koristite, i nema GPU-a u praznom hodu. Self-hosting menja naknade po tokenu za GPU kapital ili trošak rezervisane instance, plus stvarno operativno opterećenje: opsluživanje, autoskaliranje, zakrpe, planiranje kapaciteta, dežurstvo i MLOps kadar da to vodi. Ekonomski pobeđuje samo pri održivo visokoj iskorišćenosti, i samo ako zaista imate tim. GPU koji radi u praznom hodu preko noći je čist gubitak; API koji jednostavno ne pozivate je besplatan. Prvo modelujte svoj stvarni radni ciklus — većina timova precenjuje iskorišćenost i potcenjuje operativnu stavku.

Tabela odluke

Ako je radno opterećenje…Nagnite se kaZašto
Podaci posebne kategorije / regulisani, ili ugovorni zahtev za rezidentstvo/air-gapSelf-hostovano (on-prem / jednozakupačko EU / air-gapped)Direktno starateljstvo nad promptovima, embeddings, logovima; nema prenosa koji treba braniti; čista DORA priča o izlazu
Poverljivi ili lični podaci malog obima, bez operativnog tima na raspolaganjuUpravljani API u EU regionuRezidentstvo + DPA bez GPU operacija; proporcionalno riziku
Javni / sintetički / nelični podaciAPI hostovan u SADNajširi izbor modela, najmanje operativno opterećenje, nema pokrenutog prenosa
Visok održiv obim inferencije sa internim MLOps-omSelf-hostovano EUEkonomija po tokenu se preokreće u vašu korist na skali
Nizak ili neujednačen obim, bez MLOps kapacitetaUpravljani API (EU region ako ima ličnih podataka)Plaćanje po upotrebi, nema GPU-a u praznom hodu, nema dežurstva
Interaktivno / agentsko, EU korisnici, osetljivo na latencijuEU region ili self-hostovano u regionuIzbegava prekoatlantske povratne putanje po pozivu
Mešovita platforma (većina stvarnih okruženja)Hibrid, rutiran po klasi podatakaSuvereni podrazumevani izbor za regulisane putanje, hostovani API za ostalo

Šta self-hostovani stek zapravo jeste

Ako se odlučite za self-hosting, referentna arhitektura je pet slojeva koje posedujete od početka do kraja. Serving runtime — vLLM je naš podrazumevani izbor za produkcijsku, višekorisničku inferenciju (PagedAttention plus kontinuirano batchovanje, OpenAI-kompatibilan API); TGI je poštena alternativa; Ollama je pravi izbor za razvojne radne stanice, interne alate malog obima i air-gapped edge uređaje, ne za opterećenje sa visokom konkurentnošću. Otvorene težine koje možete povući, zakačiti i pokrenuti unutar svoje granice — Mistral je naš podrazumevani izbor (sposoban, self-hostabilan, EU porekla), pri čemu su i Llama i Qwen izvodljivi (licence se razlikuju — Apache-2.0 za otvorene Mistral modele, community licenca za Llama — pa proverite uslove pre isporuke); dimenzionišite model prema zadatku, ne prema tabeli rangiranja. Qdrant kao self-hostabilna, EU-rezidentna vektorska baza, kolocirana sa inferencijom i korišćenjem filtriranja po payload-u da nametne granice zakupaca u trenutku upita. Gateway koji govori OpenAI-kompatibilan API, što je deo sa najvećim uticajem: daje vam zamenljivost (mitigaciju DORA koncentracionog rizika), rutiranje zasnovano na osetljivosti u kodu, jedno mesto za autorizaciju i ograničenja stope, i jednu tačku uskog grla za trošak. I osmatranje ožičeno dvostruko — za operacije (latencija, propusnost, GPU iskorišćenost, dubina reda) i za reviziju (strukturirani logovi ulaza, modela i verzije, izvora pretrage, izlaza, sa odbranjivim zadržavanjem). Pošto ga sami hostujete, ti logovi su EU-rezidentni po konstrukciji.

Isti stek se sleće na tri načina: on-prem GPU (maksimalna kontrola, posedujete hardver i operacije), EU-suvereni oblak (vaš VPC u EU regionu — proverite da su i logovanje i telemetrija regionalizovani, ne samo inferencija) i air-gapped (nema odliva; modeli povučeni jednom kroz kontrolisani kanal, ažuriranja preko revidiranog artefakt pajplajna). Potpuno lokalni kraj ovoga vodili smo u produkciji, tako da je air-gapped topologija isporučeni obrazac, a ne slajd.

Naša preporuka: rutirajte po klasi podataka, nemojte birati jedan odgovor

Gotovo nijedna stvarna platforma nije monolitna. Pragmatična arhitektura je hibrid rutiran po klasifikaciji podataka: podrazumevano usmerite regulisane i podatkovno osetljive putanje ka self-hostabilnom, EU-rezidentnom deployment-u; poverljiv ali niže rizični saobraćaj šaljite ka upravljanom API-ju u EU regionu; pustite da istinski neosetljiva ili javna radna opterećenja koriste koji god hostovani model je najbolji i najjeftiniji. Učinite rutiranje eksplicitnim u kodu i čitljivim u vašoj mapi podataka — rutiranje zasnovano na osetljivosti koje nastane slučajno je upravo ono što pada na reviziji.

Jedina odluka koja sve ovo čini reverzibilnim jeste da apstrahujete granicu inferencije od prvog dana. Ako vaša aplikacija razgovara sa tankim internim gateway-em umesto da čvrsto ožiči SDK jednog dobavljača, onda „self-host, EU region ili hostovanje u SAD" postaje izbor rutiranja i konfiguracije po radnom opterećenju. Kodirajte pravilo da self-hostovani primarni sistem prelazi na američki API samo kada klasa podataka to dozvoljava — nemojte se oslanjati na to da će se operater setiti u 3 ujutru. Dodajte strukturirano logovanje i zakačeno poreklo modela, i vaša DORA zamenljivost i priča o izlazu postaju deployment koji već vodite, a ne dijagram za koji se nadate da će izdržati. Predvidite u budžetu i evaluaciju sa zlatnim setom koju možete ponovo pokrenuti na bilo kom kandidat-modelu — self-hosting znači da posedujete nadogradnju, i bez regresionog paketa svaki novi set težina je kocka koju otkrijete u produkciji.

Iskrena ograničenja

Self-hosting nije besplatna pobeda. Preuzimate GPU trošak, planiranje kapaciteta, traku nadogradnji i operativno opterećenje koje hostovani API jednostavno nema. Na samom vrhu, američki frontijer modeli i dalje teže da vode u najtežem rezonovanju, agentskoj upotrebi alata i zadacima sa dugim kontekstom — jaz se oštro suzio, i za odgovaranje utemeljeno u pretrazi, ekstrakciju i klasifikaciju EU-rezidentni model je više nego adekvatan (tu je usko grlo kvalitet pretrage, ne veličina modela), ali frontijer je stvaran. Inferencija hostovana u SAD ostaje validan, zakonit izbor za veliki udeo radnih opterećenja. Poenta ovog okvira nije da sve gurne on-prem; već da izbor učini promišljenim i zabeleženim umesto podrazumevanim. Suverenost koja vam nije potrebna je samo trošak.

Gde se TechRevati uklapa

Ako mapirate ove izbore u odnosu na živi ili planirani sistem, naš pregled bezbednosti pokriva kako rukujemo izolacijom, logovanjem i granicama podataka na koje se ovaj okvir oslanja — uključujući on-prem i deployment-e sa nultim odlivom. Pregled usklađenosti mapira svaku obavezu po AI Act-u, DORA i GDPR na dokaz koji isporučujemo, a ne na obećanje. A Sovereign RAG Pilot je ograničen, jednozakupački način da se podigne upravo ovaj stek — self-hostabilni serving runtime nad otvorenim težinama, Qdrant za pretragu, EU-rezidentno — u odnosu na vaše sopstvene brojke o rezidentstvu, latenciji i koncentracionom riziku, tako da kompromisi iz ovog teksta postaju merenja umesto procena, sa revizorskim tragom proizvedenim kao nusproizvod. Kontaktirajte nas na hello@techrevati.com.