Dokumentų išgavimas
Dokumentų išgavimas (document extraction) yra DI veikimo būdas, kuriuo struktūruotos duomenų laukai (vardas, suma, sąlyga, identifikatorius) išgaunamos iš nestruktūruotų ar pusiau struktūruotų dokumentų: PDF sutarčių, sąskaitų faktūrų, žalų formų, medicinos įrašų, el. pašto pranešimų. Reguliuojamuose sektoriuose svarbi savybė yra ne tik tikslumas, bet ir šaltinio nuoroda - kiekvienas išgautas laukas susiejamas su konkrečia dokumento vieta (puslapis, ribų rėmelis, teksto sluoksnis), kad peržiūrėtojas galėtų atstatyti sprendimą.
Architektūros komponentai
Vaizdo paruošimas (OCR, jei reikia), išdėstymo analizė (lentelių, antraščių, paragrafų atpažinimas), kalbos modelio kvietimas su struktūruoto atsako schema (JSON Schema, Pydantic), patikra (privalomieji laukai, formato taisyklės), šaltinio susiejimas (kiekvieno lauko ribų rėmelis), audito žurnalas.
Tipinis tikslumas
Gamybinio lygio diegimuose lauko klaidų lygis 0,3 - 1,5 % rutiniams komerciniams dokumentams po pirmų trijų vertinimo derinimo savaičių. Sudėtingesni dokumentai (mažo kontrasto skenavimai, ranka rašyti įrašai) gali turėti 3 - 5 % klaidų lygį. Pradinė būsena tik žmogaus peržiūrai paprastai yra 2 - 4 %.
Kaip Impetora taiko
Sektoriniai pavyzdžiai: sutarčių sąlygų išgavimas teisės sektoriui, žalų bylos struktūrizavimas draudimui, sąskaitų faktūrų apdorojimas finansams, paraiškų formų triažas bankams, medicinos įrašų santrauka sveikatos priežiūrai. Kiekvienam atvejui rengiame vertinimo rinkinį pagal tikrus dokumentus su pradinės būsenos matavimu.
Susiję terminai
RAG, vertinimo stendas, struktūruotas išvestys (structured outputs), OCR, žmogus grandinėje. Susijęs naudojimo atvejis: /lt/naudojimo-atvejai/dokumentu-apdorojimo-automatizavimas.
Lietuviška versija nuolat plečiama. Konkrečiam projektui kvietime pažintiniam pokalbiui arba rašykite info@ainora.lt.