← Nazaj na vse objave
1. julij 2026TechRevati

Zasebno LLM sklepanje za regulirane ekipe v EU: samostojno gostovanje, API v regiji EU ali gostovanje v ZDA?

Vodnik, usmerjen v odločitve in pošten glede kompromisov, za vodje inženirstva in platform: kdaj samostojno gostiti zasebno LLM sklepanje, kdaj zadošča API v regiji EU in kdaj je gostovanje v ZDA povsem ustrezno — ocenjeno glede na občutljivost podatkov, EU AI Act, DORA in GDPR, latenco ter dejanski strošek GPU — skupaj z referenčnim skladom in eno samo odločitvijo pri načrtovanju, ki ohranja odprte vse možnosti.

  • ai
  • suverenost-podatkov
  • skladnost
  • dora

Samostojno gostovanje, API v regiji EU ali gostovanje v ZDA — kateri model zasebnega LLM sklepanja ustreza regulirani ekipi v EU?

Obstajajo trije resnični načini za izvajanje LLM za reguliranim delovnim tokom v EU in ležijo na spektru med nadzorom in operativnim bremenom. Samostojno gostovano sklepanje — odprte uteži, ki tečejo na vaši lastni strojni opremi ali v enonajemniškem VPC, lokalno ali v zračno-izoliranem okolju — vam daje največje skrbništvo in največji operativni strošek. Upravljan API v regiji EU — gostovan model s pogodbeno rezidenco podatkov v EU — vam prinese večino koristi rezidenčnosti brez kakršnihkoli GPU operacij. API, gostovan v ZDA, ponuja najširšo izbiro modelov in najnižje operativno breme, a vsak klic spremeni v čezmejni prenos, ki ga morate upravičiti. To je okvir, ki ga v TechRevati uporabljamo za premišljeno izbiro za posamezen delovni tok, namesto da bi celotno platformo privzeto usmerili k enemu samemu odgovoru.

To so inženirske in strokovne smernice, utemeljene v produkcijski dostavi sistemov za pridobivanje (retrieval) in sklepanje. Ni pravni nasvet in ni jamstvo skladnosti. Odgovornost za vaše GDPR prenose, vaše obveznosti po EU AI Act in vaš DORA register ostaja pri vaši organizaciji in vaših lastnih pravnih svetovalcih. Ponudnik dobavi dejstva o tem, kje in kako sistem teče; vaše podjetje nosi obveznost. Vse tukaj navedeno preverite ob uradnih besedilih in s svojim pooblaščencem za varstvo podatkov (DPO).

Ena pojasnitev na začetku. Os namestitve v tej objavi — kje in kako je model gostovan — je ločena od osi ponudnika, čigar uteži izvajate. Vprašanje ponudnika, modeli evropskega izvora, kot je Mistral, v primerjavi z ameriškimi vrhunskimi modeli, smo obravnavali v objavi o suvereni AI skladu v EU. Tukaj model odmislimo in odločamo o gostovanju: isti model je pogosto mogoče doseči kot API v ZDA, API v regiji EU ali samostojno gostovan, ti trije pa imajo zelo različne profile skladnosti in stroškov.

Štirje dejavniki, ki dejansko odločajo

Delovni tok ocenite glede na te dejavnike, preden izberete — za posamezen delovni tok, ne za celotno podjetje. Pomočnik za pripravo dokumentov in model za triažo goljufij ne dobita istega odgovora.

1. Občutljivost podatkov: kaj dejansko vstopi v poziv?

Začnite s podatki, ker ti omejijo vaše možnosti. LLM delovni tok premika podatke na treh mestih, od katerih vsako potrebuje odgovor o rezidenčnosti: poziv (uporabnikova poizvedba plus pridobljeni kontekst — pogosto najobčutljivejši tovor), vložitve (embeddings) (vektorske reprezentacije, ki niso zanesljivo anonimizirane — mogoče jih je delno invertirati nazaj proti izvornemu besedilu, zato jih obravnavajte kot izpeljane osebne podatke) ter dnevniki in telemetrija, ki jih ponudnik hrani, včasih za obdobje, ki ga ne nadzorujete.

  • Podatki posebne kategorije ali regulirani podatki — zdravstveni, finančni zapisi, biometrični, javni sektor, karkoli pod pravnim varovanjem: tukaj se samostojno gostovanje ali strogo omejena pot v EU izplača. To smo izpeljali od začetka do konca — namestitev AI Nexus ITSM lokalno brez kakršnegakoli odtekanja podatkov (zero egress) in popolnoma lokalen pomočnik Ollama-plus-ServiceNow, kjer podatki Microsoft Defender nikoli niso zapustili perimetra stranke — prav zato, ker podatki niso smeli oditi.
  • Zaupni poslovni podatki, psevdonimizirani ali osebni podatki majhnega obsega: API v regiji EU z rezidenco in pogodbo o obdelavi podatkov je običajno sorazmeren.
  • Javni, sintetični ali neosebni podatki: gostovanje v ZDA je povsem ustrezno. Ne pretiravajte s suverenostjo za vsebino, ki ne nosi nobene obveznosti — to je strošek brez donosa.

2. Regulativa: AI Act, DORA, GDPR

Trije režimi grizejo različno in nobenega ne zadovolji zgolj izbira gostovanja.

  • Mednarodni prenosi po GDPR. Pošiljanje osebnih podatkov ameriški storitvi je omejeni prenos. Po Schrems II temelji na zakonitem mehanizmu — standardnih pogodbenih klavzulah (SCC) plus oceni učinka prenosa ali na sklicevanju na okvir EU–ZDA za varstvo podatkov (Data Privacy Framework), kjer je ponudnik certificiran. Dolgoročna trajnost DPF je sama sporna, zato strategija prenosa, ki temelji zgolj nanj, nosi tveganje. Pot gostovanja v ZDA ni nezakonita; je pogojna — to oceno morate opraviti, dokumentirati in vzdrževati. Pot z rezidenco v EU čezmejni prenos v celoti odpravi, tako da ni ničesar braniti. Za mnoge regulirane kupce "ni prenosa za ocenjevanje" prekaša nekaj točk kakovosti modela.
  • EU AI Act. Akt regulira uporabo in dokumentacijo, ne pa kje ležijo uteži. Ameriški model, uporabljen skrbno, je lahko skladen; evropski model, uporabljen nemarno, ne bo. A samostojno gostljiva infrastruktura v EU močno olajša dolžnosti upravljanja podatkov, dnevniškega beleženja in vodenja evidenc za sisteme visokega tveganja — dnevnike imate neposredno v rokah. Zmanjša trenje; skladnosti ne podeli.
  • DORA. Če dobavljate IKT evropskemu finančnemu subjektu, sta vaša sklepalna končna točka in vektorska shramba IKT in pristaneta v Registru informacij — enovendorska, enoregijska LLM odvisnost pa je učbeniško tveganje koncentracije, ki ga DORA zahteva, da ga izpostavite. Samostojno gostovanje ali abstrahirana, zamenljiva sklepalna meja je način, kako odgovorite na vrstice "dejanska regija obdelave", "podizvajalci" in "izhodni načrt (exit plan)". Polje za poljem smo to prešli v kontrolnem seznamu za gradnjo po DORA.

3. Latenca

Fizika je resnični vhodni podatek. Model, gostovan v EU, ki streže uporabnikom v EU, se izogne čezatlantskemu odzivnemu potovanju, sopostavitev modela z vašo vektorsko shrambo v eni regiji EU pa je za promet v EU običajno najhitrejša pot. API v ZDA vsakemu klicu doda čezatlantske skoke — sprejemljivo za asinhrono ali paketno delo, opazno v interaktivnem klepetu ali v zanki agenta, ki opravlja mnogo zaporednih klicev. Samostojno gostovanje blizu vaših uporabnikov je lahko najnižje-latenčna možnost od vseh, pod pogojem, da ste kapaciteto dimenzionirali tako, da zahteve ne čakajo v vrsti zaradi pomanjkanja GPU. Poddimenzionirano samostojno gostovanje je počasnejše od katerega koli gostovanega API-ja, ne hitrejše.

4. Strošek

Bodite pošteni glede oblike računa. Gostovani API-ji (v ZDA ali regiji EU) zaračunavajo na žeton (token) brez kakršnegakoli operativnega bremena in odločilno zmagajo pri nizkem ali sunkovitem obsegu — plačate samo tisto, kar porabite, in ni nedelujočega GPU. Samostojno gostovanje zamenja pristojbine na žeton za kapital GPU ali strošek rezerviranih instanc, plus dejansko operativno breme: streženje, samodejno prilagajanje obsega (autoscaling), krpanje, načrtovanje kapacitet, dežurstvo in kadrovsko zasedbo MLOps za obratovanje. Ekonomsko zmaga le pri trajnostno visoki izkoriščenosti in le, če ekipo dejansko imate. GPU, ki se čez noč vrti v prazno, je čista izguba; API, ki ga preprosto ne kličete, je brezplačen. Najprej modelirajte svoj resnični delovni cikel (duty cycle) — večina ekip precenjuje izkoriščenost in podcenjuje operativno postavko.

Odločitvena tabela

Če je delovni tok…Nagnite se kZakaj
Podatki posebne kategorije / regulirani podatki ali pogodbena zahteva po rezidenci/zračni izolacijiSamostojno gostovanje (lokalno / enonajemniško v EU / zračno izolirano)Neposredno skrbništvo nad pozivi, vložitvami, dnevniki; ni prenosa za braniti; čista DORA izhodna zgodba
Zaupni ali osebni podatki majhnega obsega, brez ekipe za operacijeUpravljan API v regiji EURezidenca + pogodba o obdelavi (DPA) brez GPU operacij; sorazmerno tveganju
Javni / sintetični / neosebni podatkiAPI, gostovan v ZDANajširša izbira modelov, najnižje operativno breme, brez sprožitve prenosa
Visok trajnostni obseg sklepanja z lastnim MLOpsSamostojno gostovanje v EUEkonomika na žeton se pri obsegu obrne v vaš prid
Nizek ali sunkovit obseg, brez zmogljivosti MLOpsUpravljan API (v regiji EU, če so kakršnikoli osebni podatki)Plačilo po porabi, brez nedelujočega GPU, brez dežurstva
Interaktivno / agentsko, uporabniki v EU, občutljivo na latencoV regiji EU ali samostojno gostovano v regijiIzogne se čezatlantskim odzivnim potovanjem na klic
Mešana platforma (večina resničnih okolij)Hibridno, usmerjeno po razredu podatkovSuvereno privzeto za regulirane poti, gostovan API za ostalo

Kaj samostojno gostovani sklad dejansko je

Če pristanete pri samostojnem gostovanju, je referenčna arhitektura pet plasti, ki jih imate v lasti od začetka do konca. Streženjsko izvajalno okolje (serving runtime) — vLLM je naša privzeta izbira za produkcijsko, večuporabniško sklepanje (PagedAttention plus neprekinjeno paketiranje (continuous batching), OpenAI-združljiv API); TGI je poštena alternativa; Ollama je pravi za razvijalčeve delovne postaje, notranja orodja majhnega obsega in zračno izolirane robne škatle, ne za obremenitve z visoko sočasnostjo. Odprte uteži, ki jih lahko potegnete, pripnete in izvajate znotraj svoje meje — Mistral je naša privzeta izbira (zmogljiv, samostojno gostljiv, evropskega izvora), pri čemer sta uporabna tudi Llama in Qwen (licence se razlikujejo — Apache-2.0 za odprte modele Mistral, skupnostna licenca za Llama — zato pred uvedbo preverite pogoje); model dimenzionirajte glede na nalogo, ne glede na lestvico. Qdrant kot samostojno gostljiva vektorska shramba z rezidenco v EU, sopostavljena s sklepanjem in z uporabo filtriranja po tovoru (payload filtering) za uveljavljanje meja med najemniki ob poizvedbi. Prehod (gateway), ki govori OpenAI-združljiv API, kar je element z najvišjim vzvodom: daje vam zamenljivost (ublažitev tveganja koncentracije po DORA), usmerjanje glede na občutljivost v kodi, eno mesto za avtorizacijo in omejevanje hitrosti ter eno samo stroškovno grlo. In opazljivost, ožičena dvakrat — za operacije (latenca, prepustnost, izkoriščenost GPU, globina vrste) in za revizijo (strukturirani dnevniki vhodov, modela in različice, virov pridobivanja, izhodov, z zagovorljivo hrambo). Ker ga gostite sami, so ti dnevniki po zgradbi z rezidenco v EU.

Isti sklad pristane na tri načine: lokalni GPU (največji nadzor, v lasti imate strojno opremo in operacije), suvereni oblak v EU (vaš VPC v regiji EU — preverite, da sta tudi dnevniško beleženje in telemetrija regionalizirana, ne le sklepanje) in zračno izoliran (brez odtekanja; modeli enkrat povlečeni skozi nadzorovan kanal, posodobitve prek pregledanega cevovoda artefaktov). Popolnoma lokalni konec tega smo izvajali v produkciji, tako da je zračno izolirana topologija dostavljen vzorec, ne diapozitiv.

Naše priporočilo: usmerjajte po razredu podatkov, ne izberite enega odgovora

Skoraj nobena resnična platforma ni monolitna. Pragmatična arhitektura je hibrid, usmerjen po klasifikaciji podatkov: privzeto usmerite regulirane in podatkovno občutljive poti k samostojno gostljivi namestitvi z rezidenco v EU; pošljite zaupni, a nižje-tvegani promet k upravljanemu API-ju v regiji EU; pustite, da resnično neobčutljivi ali javni delovni tokovi uporabijo kateri koli gostovan model, ki je najboljši in najcenejši. Usmerjanje naredite izrecno v kodi in berljivo v vaši podatkovni karti — usmerjanje glede na občutljivost, ki nastane po naključju, je natanko tisto, kar na reviziji odpove.

Ena sama odločitev, ki naredi vse to obrnljivo, je, da sklepalno mejo abstrahirate od prvega dne. Če se vaša aplikacija pogovarja s tankim notranjim prehodom, namesto da bi trdo vgradila SDK enega samega ponudnika, potem "samostojno gostovanje, regija EU ali gostovanje v ZDA" postane izbira usmerjanja in konfiguracije za posamezen delovni tok. Zakodirajte pravilo, da samostojno gostovan primarni sistem preide na ameriški API le takrat, ko to dovoljuje razred podatkov — ne zanašajte se na to, da si bo operater tega zapomnil ob treh zjutraj. Dodajte strukturirano dnevniško beleženje in pripeto poreklo modela (model provenance) in vaša DORA zamenljivost ter izhodna zgodba postaneta namestitev, ki jo že izvajate, ne diagram, za katerega upate, da drži. Predvidite tudi proračun za evalvacijo na zlatem naboru (golden-set), ki jo lahko ponovno poženete na katerem koli kandidatnem modelu — samostojno gostovanje pomeni, da nadgradnjo imate v lasti vi, in brez regresijskega nabora je vsak nov niz uteži stava, ki jo odkrijete v produkciji.

Pošteni limiti

Samostojno gostovanje ni brezplačna zmaga. Prevzamete strošek GPU, načrtovanje kapacitet, tekočo stezo nadgradenj in operativno breme, ki ga gostovan API preprosto nima. Na samem vrhu ameriški vrhunski modeli še vedno običajno vodijo pri najtežjem sklepanju, agentski uporabi orodij in nalogah z dolgim kontekstom — vrzel se je izrazito zožila, in za odgovarjanje, utemeljeno na pridobivanju, za ekstrakcijo in klasifikacijo je model z rezidenco v EU več kot zadosten (tam je ozko grlo kakovost pridobivanja, ne velikost modela), a rob je resničen. Sklepanje, gostovano v ZDA, ostaja veljavna, zakonita izbira za velik delež delovnih tokov. Namen tega okvira ni potisniti vsega na lokalno okolje; je narediti izbiro premišljeno in zabeleženo, namesto privzeto. Suverenost, ki je ne potrebujete, je zgolj strošek.

Kje se umešča TechRevati

Če te izbire preslikavate na živ ali načrtovan sistem, naš varnostni pregled zajema, kako obravnavamo izolacijo, dnevniško beleženje in podatkovne meje, na katere se ta okvir zanaša — vključno z lokalnimi in ničelno-odtekajočimi (zero-egress) namestitvami. Pregled skladnosti preslika vsako obveznost po AI Act, DORA in GDPR na dokaze, ki jih dostavimo, namesto na obljubo. In Sovereign RAG Pilot je omejen, enonajemniški način, kako postaviti natanko ta sklad — samostojno gostljivo streženjsko izvajalno okolje nad odprtimi utežmi, Qdrant za pridobivanje, z rezidenco v EU — ob vaših lastnih številkah rezidenčnosti, latence in tveganja koncentracije, tako da kompromisi iz te objave postanejo meritve namesto ocen, revizijska sled pa nastane kot stranski produkt. Dosežete nas na hello@techrevati.com.