I
Impetora

Kaip diegti paieška papildytą generavimą (RAG) reguliuojamoje įmonėje

By Impetora -

Paieška papildytas generavimas (RAG) sujungia vektorinę šaltinių dokumentų paiešką su generaciniu modeliu, todėl kiekvienas atsakymas remiasi cituojamu tekstu, o ne parametrine atmintimi. Reguliuojamoms įmonėms bankininkystės, draudimo, sveikatos apsaugos ir viešajame sektoriuje RAG yra pagrindinė architektūra, nes ji išsaugo citavimo grandinę iki autoritetingų dokumentų, neleidžia patikimam turiniui patekti į modelio mokymą ir sukuria audituojamą pėdsaką, atitinkantį priežiūros institucijų lūkesčius pagal ES DI aktą, BDAR, NIST AI RMF bei sektorinius režimus, tokius kaip SR 11-7 ir Mokumas II [1][2][5].

Reg. 2024/1689
ES DI aktas, 9 straipsnis - rizikos valdymo sistema aukšto rizikos sistemoms
EUR-Lex
BDAR 22 str.
žmogaus peržiūra reikalinga visiškai automatizuotiems sprendimams
EUR-Lex
NIST.AI.600-1
Generatyvinio DI rizikos valdymo profilis
NIST

Septynių žingsnių diegimo vadovas

Gamybai paruošta RAG sistema reguliuojamoje aplinkoje projektuojama kaip valdomų etapų seka, o ne vientisas konvejeris. Kiekvienas etapas sukuria artefaktą, kurį vidaus auditorius arba išorės priežiūros institucija galės vėliau patikrinti.

  1. Šaltinių korpuso valdymas. Klasifikuokite kiekvieną dokumentą pagal jautrumą, rezidavimą ir saugojimo terminą prieš įtraukdami jį į indeksą. Veskite rašytinį duomenų katalogą, fiksuokite kilmę ir teisinį pagrindą pagal BDAR 6 straipsnį, ir neįtraukite specialių kategorijų duomenų, jei netaikoma aiški 9 straipsnio sąlyga. Dokumentus, pažymėtus ištrinti pagal 17 straipsnį, turi būti įmanoma pašalinti iš indekso per sutartinį terminą.
  2. Skaidymo ir įterpinių strategija. Pasirinkite gabalų dydį ir persidengimą pagal dokumento tipą, ne globaliai. Reguliacinis tekstas, sutartys ir klinikinės gairės skaidomi pagal sakinio bei skirsnio ribas; transakciniai žurnalai - fiksuotais langais. Su kiekvienu vektoriumi įrašykite įterpinių modelio versiją, kad būtų galima įgyvendinti pakartotinį įterpimą, kai modelis pasensta arba reguliacinis tekstas atnaujinamas.
  3. Vektorinės saugyklos pasirinkimas. Rinkitės saugyklą, veikiančią ES regionuose, šifruojančią duomenis ramybės būsenoje su kliento valdomais raktais, skelbiančią tarpinių procesoriaus sąrašą ir palaikančią prieigos kontrolę pagal nuomininką arba dokumentą. Patikrinkite operatoriaus ISO/IEC 27001 ir, kai įmanoma, ISO/IEC 42001 atestacijas [3].
  4. Paieškos vertinimas. Sudarykite tikslo rinkinį iš realių klausimų, į kuriuos atsakė srities ekspertai. Pamatuokite recall@k, vidutinį atvirkštinį rangą ir konteksto tikslumą prieš prijungdami LLM galinį tašką. Paieškos sluoksnio, kuris negrąžina tinkamų gabalų, neišgelbės joks geresnis generatorius.
  5. Generavimas su privalomu citavimu. Apribokite orkestravimo sluoksnį taip, kad kiekvienas atsakymas cituotų bent vieną gabalą, o atsakymai be pagrindo būtų atmesti arba pažymėti peržiūrai. Stanford CRFM literatūra apie pagrindavimą rodo, kad privalomas citavimas reikšmingai sumažina haliucinacijų dažnį, palyginti su laisvu generavimu [4].
  6. Žmogaus peržiūra reguliuojamiems sprendimams. Bet koks atsakymas, reikšmingai paveikiantis duomenų subjektą, turi keliauti per kvalifikuotą peržiūrėtoją prieš įsigaliodamas. Tai praktinis BDAR 22 straipsnio ir ES DI akto 14 straipsnio supratimas; tai privaloma kreditavimo, draudimo rizikos vertinimo, klinikinės triažo ir išmokų sprendimų atvejais [1][2].
  7. Nuolatinė vertinimo sąranga. Kiekviename leidime vykdykite ištikimybės, atsakymo aktualumo ir citavimo pilnumo testus. Stebėkite įterpinių modelio, šaltinių korpuso ir reguliuotojo skelbiamų gairių dreifą. Reguliuotojo atnaujinimus traktuokite kaip kodo įvykius: kai EBA, EIOPA, ENISA arba DI biuras paskelbia, korpusas ir testai atnaujinami tą pačią savaitę [6][7].

Kuo reguliuojamiems sektoriams ši architektūra skiriasi nuo bendros įmonės?

Architektūra ta pati, prievolės ne. Reguliuojamas diegimas turi bet kada gebėti parodyti, kaip buvo sukurtas kiekvienas atsakymas ir kaip pagrįstas kiekvienas projektavimo sprendimas.

  • ES DI akto 9 straipsnis reikalauja dokumentuotos rizikos valdymo sistemos, veikiančios per visą aukšto rizikos sistemos gyvavimo ciklą, su aiškia rizikos identifikacija, vertinimu ir mažinimu [1].
  • BDAR 5 straipsnio duomenų minimizavimas taikomas pačiam paieškos žingsniui. Konvejeris neturi ištraukti asmens duomenų, kurių generatoriui nereikia; teisingi valdikliai yra užklausos lygio filtrai ir prieigos sritys pagal vaidmenį.
  • BDAR 32 straipsnio saugumo prievolės apima šifravimą perdavimo metu ir ramybės būsenoje, smulkiagrūdę prieigos kontrolę, nekeičiamus audito žurnalus ir išbandytą reagavimą į incidentus. Žurnalai turi leisti atkurti bet kurį atskirą atsakymą.
  • BDAR 35 straipsnis reikalauja Poveikio duomenų apsaugai vertinimo prieš diegimą, kai tvarkymas gali kelti didelę riziką duomenų subjektams; generatyvinėms sistemoms, tvarkančioms asmens duomenis, tai numatytoji prielaida.
  • 22 straipsnis kartu su ES DI akto 14 straipsniu įtvirtina žmogaus priežiūros reikalavimą: kompetentingas peržiūrėtojas, turintis įgaliojimus ir informaciją sistemai panaikinti, turi būti įtrauktas į svarbius sprendimus.
  • Sektoriniai sluoksniai. Bankininkystės diegimai turi atitikti SR 11-7 modelio rizikos valdymą su nepriklausomu validavimu ir nuolatinia stebėsena. Draudimas patenka į EIOPA gaires ir Mokumas II antrąjį ramstį. Sveikatos apsaugos sistemos, padedančios klinikiniams sprendimams, turi atitikti Medicinos prietaisų reglamentą, o saugomai sveikatos informacijai - HITRUST arba lygiavertes kontroles [6].

Dažniausi gedimo režimai

Penki gedimo režimai pasikartoja gamybinių RAG sistemų audituose; kiekvienas yra išvengiamas, jei vertinimo sąrangoje yra atitinkamas testas.

  • Tylus pagrindo praradimas. Šaltinio dokumentas atnaujinamas, seni vektoriai lieka indekse, o sistema toliau cituoja pasenusią pastraipą. Sprendimas: kiekvienas gabalas turi turinio maišą ir šaltinio dokumento versiją, o pasenę vektoriai pašalinami įkėlimo metu.
  • Įterpinių dreifas atnaujinant reguliacinį tekstą. Kai reguliuotojas pakeičia svarbų tekstą, naujo skirsnio įterpinys atsiduria kitoje vektorinės erdvės vietoje. Sprendimas: planinis pakartotinis įterpimas, paskelbiant reguliacinę publikaciją, su lygybės testu prieš ankstesnį indeksą.
  • Pakartotinis rikiavimas, slepiantis citavimą. Pakartotinis rikiuotojas iškelia gabalą su dideliu panašumu, bet maža autoritetu, ir citata nebenukreipia į dokumentą, kuriuo iš tikrųjų rėmėsi atsakymas. Sprendimas: rangui jautrus citavimo žurnalas, fiksuojantis kiekvieną galutinį atsakymą paveikusį gabalą.
  • Užklausos injekcija per įkeltus dokumentus. Vartotojas įkelia PDF, kurio turinys bando nepaisyti sistemos instrukcijos. Sprendimas: orkestravimo sluoksnyje atskirti nepatikimą turinį nuo instrukcijų, valyti įkeltus failus ir laikytis ENISA gairių dėl DI grėsmių modeliavimo [7].
  • Tarpklientinis duomenų nutekėjimas. Neteisingai sukonfigūruotas filtras grąžina gabalus iš kito nuomininko ar kito padalinio. Sprendimas: nuomininko identifikatorius kaip privalomas predikatas kiekvienoje užklausoje, automatiniai testai su priešiškomis užklausomis ir indekso izoliavimas pagal nuomininką jautriausiems korpusams.

Kaip vertinti RAG diegimą

Vertinimas reguliuojamoje aplinkoje yra nuolatinė inžinerinė praktika, ne paleidimo kontrolinis taškas. Mažiausia metrikos matrica turi šešis matmenis.

  • Ištikimybė. Generuojamų teiginių, paremtų gauta ištrauka, dalis. Matuojama prieš pažymėtą tikslo rinkinį.
  • Atsakymo aktualumas. Ar atsakymas iš tikrųjų atsako į vartotojo klausimą, o ne į gretimą temą.
  • Konteksto tikslumas ir atšaukimas. Ar paieškos sluoksnis pateikė tinkamus gabalus ir tik tinkamus.
  • Citavimo pilnumas. Ar kiekvienas reikšmingas atsakymo teiginys nurodo konkrečią rastą ištrauką.
  • Vėlavimas p95. Reguliuojamas darbo srautas, kurio žmogaus peržiūros etape pasibaigia laikas, yra netinkamas; vėlavimo biudžetas turi apimti orkestravimo sluoksnį, paiešką, generavimą ir bet kokį apsauginį žingsnį.
  • Kaina už užklausą. Stebima pagal ketinimo klasę, kad verslas galėtų nuspręsti, kur sistemą taikyti, o kur pigesnis bus deterministinis paieškos sprendimas.

Atvirojo kodo RAG vertinimo karkasai subrendo iki tokio lygio, kad reguliuojami pirkėjai šias metrikas gali vykdyti nuolatinėje integracijoje. Karkasai skiriasi vertinimo modeliu ir ataskaitomis; svarbiau yra disciplina vykdyti juos kiekviename leidime [4].

Dažniausi klausimai

Kiek paprastai kainuoja reguliuojamas RAG diegimas?
Kaina priklauso nuo apimties, korpuso dydžio ir integracijos paviršiaus. Tikslinis diegimas vienam darbo srautui, vienam šaltinio domenui ir vienai vartotojų grupei gali būti pristatytas už mažas šešiaženkles sumas, įskaitant valdymo artefaktus. Kelių sričių programos, apimančios kelis verslo padalinius ir kelis reguliuotojus, yra dydžio eilės brangesnės, nes atitikties vertinimas, PDAV ir integracijos darbas auga su paviršiaus plotu, ne su modelio sąnaudomis. Infrastruktūra retai būna ribojantis veiksnys; ribojanti yra peržiūra ir užtikrinimas.
Koks tipinis laikas iki gamybos?
Tikslinis reguliuojamas darbo srautas paprastai trunka nuo trijų iki šešių mėnesių nuo starto iki gamybos vienai vartotojų grupei, jei šaltinių korpusas yra naudojamoje formoje, o teisinis pagrindas išspręstas. Programoms, apimančioms šaltinio dokumentų atnaujinimą, naujus duomenų dalijimosi susitarimus arba naują PDAV, prireikia daugiau laiko, ir kliūtis beveik visada yra valdymas, ne inžinerija.
Kaip užtikrinti, kad duomenys liktų ES nuo galo iki galo?
Pasirinkite vektorinę saugyklą ir LLM galinį tašką, sutartimi garantuojančius tvarkymą ES regionuose, apribokite saugojimą ir išvadą šiuose regionuose per konfigūraciją, blokuokite išorinį srautą tinklo politika ir kiekviename tiekėjo kontrakte reikalaukite tarpinių procesoriaus atskleidimo sąlygų. Patikrinkite kontroles per pirkimą ir patikrinkite iš naujo kiekvieną tiekėjo leidimą, paliečiantį tvarkymo kelią.
Kokia realistinė haliucinacijų riba pagrindiniame RAG?
Su privalomu citavimu ir kuruojamu korpusu ištikimybės įverčiai aukštuose devyniasdešimtuose yra pasiekiami faktiniams klausimams, į kuriuos atsakoma iš korpuso. Ribą nustato paieškos kokybė ir šaltinio dokumentų dviprasmiškumas, ne generatorius. Klausimai, į kuriuos atsakymo korpuse nėra, turi būti atmesti, ne sintezuoti, ir ši atmetimo elgsena yra svarbiausia testuotina apsauga.
Kada rinktis tikslinimą vietoj RAG?
Tikslinimą rinkitės, kai užduotis yra stabili įvesties į išvestį transformacija, pageidaujamos elgsenos negalima nurodyti užklausoje, o korpusas yra uždaras. RAG rinkitės, kai šaltinis kinta, kai reikalingos citatos arba kai reguliuotojas tikisi matyti dokumentą, kuriuo rėmėsi atsakymas. Reguliuojamoje aplinkoje numatytasis pasirinkimas yra RAG; tikslinimas paliekamas siauroms stilistikos ar formato užduotims.
Kaip tvarkyti asmens duomenis šaltinių dokumentuose?
Klasifikuokite ir žymėkite asmens duomenis įkėlimo metu, ribokite jų paiešką per prieigos sritis pagal vaidmenį, redaguokite gabalo lygiu, kai naudojimas to nereikalauja, ir niekada netraukite asmens duomenų į vertinimo žurnalus, paliekančius gamybos perimetrą. Specialių kategorijų duomenims reikalaukite aiškaus teisinio pagrindo ir dokumentuoto būtinumo testo prieš įtraukdami juos į indeksą.
Kaip iš tikrųjų atrodo audito pėdsakas?
Kiekvienas atsakymas siejamas su vartotojo tapatybe, užklausa, gautais gabalais kartu su turinio maišomis ir šaltinio dokumento versijomis, modelio versija, orkestravimo sluoksnio konfigūracija, vartotojui parodytomis citatomis, žmogaus peržiūrėtoju (jei toks yra) ir galutiniu sprendimu. Žurnalai yra nekeičiami, sinchronizuoti laike ir saugomi ilgesnį iš sutartinio ar reguliacinio termino. Priežiūros institucija turi galėti atkurti bet kurį atsakymą nuo galo iki galo.
Ar reikia ISO/IEC 42001, kad būtų galima diegti RAG gamyboje?
Tai nėra teisinė sąlyga, tačiau ISO/IEC 42001 tapo numatytuoju pirkimo orientyru pirkėjams, norintiems struktūrinės DI valdymo sistemos. Standartas papildo ES DI aktą ir gerai dera su esamomis ISO/IEC 27001 kontrolėmis. Traktuokite jį kaip veiklos modelį, ne kaip rezultatą.
Impetora

Pasiruošę aptarti savo projektą? Pateikite trumpą santrauką - atsakysime per vieną darbo dieną.

Cituojami šaltiniai

Šaltiniai (8) - rodyti
  1. Reglamentas (ES) 2024/1689 (Dirbtinio intelekto aktas). Europos Sąjungos oficialusis leidinys, 2024-07-12. https://eur-lex.europa.eu/eli/reg/2024/1689/oj
  2. Reglamentas (ES) 2016/679 (Bendrasis duomenų apsaugos reglamentas). Europos Sąjungos oficialusis leidinys, 2016-05-04. https://eur-lex.europa.eu/eli/reg/2016/679/oj
  3. ISO/IEC 42001:2023 - Dirbtinio intelekto valdymo sistema. Tarptautinė standartizacijos organizacija, 2023-12. https://www.iso.org/standard/81230.html
  4. Dirbtinio intelekto rizikos valdymo karkasas: Generatyvinio DI profilis (NIST AI 600-1). JAV Nacionalinis standartų ir technologijų institutas, 2024-07. https://nvlpubs.nist.gov/nistpubs/ai/NIST.AI.600-1.pdf
  5. Stanford CRFM - publikacijos apie paieškos pagrindavimą. Stanford CRFM, 2024. https://crfm.stanford.edu/publications.html
  6. EBA ataskaita apie mašininį mokymąsi IRB modeliuose ir priežiūros lūkesčius. Europos bankininkystės institucija, 2023-11. https://www.eba.europa.eu/publications-and-media/publications
  7. Daugiasluoksnis gerų DI kibernetinio saugumo praktikų karkasas. ENISA, 2023-06. https://www.enisa.europa.eu/publications/multilayer-framework-for-good-cybersecurity-practices-for-ai
  8. Finansinio stabilumo padariniai: dirbtinis intelektas ir mašininis mokymasis. Finansinio stabilumo taryba, 2017-11. https://www.fsb.org/2017/11/artificial-intelligence-and-machine-learning-in-financial-services/
Apie Impetora
Impetora projektuoja, kuria ir diegia pritaikytas dirbtinio intelekto sistemas įmonėms reguliuojamuose sektoriuose. Veikiame iš Vilniaus ir o, dirbame penkiomis kalbomis.
Pažintinis pokalbis

Užsisakykite pažintinį pokalbį

Papasakokite, ką norėtumėte sukurti. Atsakome per vieną darbo dieną.

30 minučių pokalbis. Nemokamai. Be įsipareigojimų.