I
Impetora
Žodynas

Vertinimo stendas (Eval Harness)

Vertinimo stendas yra struktūruotas DI sistemos kokybės matavimo karkasas: rinkiniai realių pavyzdžių su tikėtinais atsakymais, automatinė vertinimo grandinė, kiekybinės metrikos ir ribinės vertės, kurias sistema privalo išlaikyti prieš įjungiant gamybai arba atnaujinant pamatinį modelį. Be vertinimo stendo DI sistema veikia 'pasitikėjimu' - su juo veikia 'įrodymu'. Reguliuojamuose sektoriuose vertinimo stendas yra ne pasirinkimas, o privalomas elementas pagal ES DI akto 15 straipsnį (tikslumas) ir ISO 42001 9 punktą (veiklos vertinimas).

Komponentai

Testų rinkinys (paprastai 200-2000 realių pavyzdžių su tikėtinais atsakymais), automatinis vertintojas (LLM-as-a-judge arba taisyklėmis pagrįstos metrikos), metrikų rinkinys (tikslumas, atšaukimas, F1, pasitikėjimo balas, šaltinio pateikimo lygis), ribinės vertės (pvz., 'tikslumas turi būti virš 92 %' arba 'haliucinacijų lygis žemiau 0,5 %'), versijuojami testų rezultatai (palyginimas tarp modelio versijų).

Tipiniai paleidimo įvykiai

Naujo pamatinio modelio versijos paleidimo metu (regresijos testas). Užklausos šablono pakeitimo metu (A/B). Žinių bazės atnaujinimo metu (paieškos srauto patikra). Periodiškai - kas savaitę arba kas mėnesį - pagal stebėjimo grafiką. Po incidento - papildomas paleidimas su išplėstais testų rinkinius dėl konkretaus klaidos tipo.

Kaip Impetora pristato

Pažinties etape parengiame pradinį testų rinkinį pagal kliento realius pavyzdžius (30 dienų reali apimtis). Diegimo etape vertinimo stendas tampa nepriklausomos validacijos pagrindu. Eksploatavimo etape vertinimo stendas integruojamas su CI/CD - kiekvienas modelio arba užklausos pakeitimas privalo išlaikyti regresijos testą prieš diegimą gamybai. Ataskaita pateikiama ketvirčiais kartu su dreifo apžvalga.

Susiję terminai

Dreifo stebėjimas, A/B testavimas, šešėlinis paleidimas, regresijos testas, modelio kortelė. ES DI akto sąsaja: 15 straipsnis (tikslumas), 17 straipsnis (kokybės valdymo sistema), 72 straipsnis (po pateikimo rinkai stebėjimas).

Lietuviška versija nuolat plečiama. Konkrečiam projektui kvietime pažintiniam pokalbiui arba rašykite info@ainora.lt.

Pažintinis pokalbis

Užsisakykite pažintinį pokalbį

Papasakokite, ką norėtumėte sukurti. Atsakome per vieną darbo dieną.

30 minučių pokalbis. Nemokamai. Be įsipareigojimų.