在數(shù)字經(jīng)濟浪潮中,數(shù)據(jù)就像“工業(yè)血液”的石油一樣,其記錄、存儲、分析和應用的范圍及規(guī)模前所未有,成為企業(yè)生存發(fā)展的核心驅(qū)動力。作為 “五大生產(chǎn)要素”之一,數(shù)據(jù)不僅是推動經(jīng)濟增長的新引擎,更是促進企業(yè)提升競爭力的關(guān)鍵資源。然而隨著企業(yè)數(shù)據(jù)量的爆發(fā)式增長,尤其是非結(jié)構(gòu)化數(shù)據(jù)的激增,如何高效訪問、精準查詢、智能管理這些數(shù)據(jù),成為釋放數(shù)據(jù)價值、加速數(shù)據(jù)要素化、市場化進程的重大挑戰(zhàn)。
遠光軟件憑借其在光學字符識別(OCR)與深度學習算法領(lǐng)域的深厚積累,自主研發(fā)了融合NLP和大模型技術(shù)的圖文識別智能底座。這一智能底座具有自學習、精準識別、智能數(shù)據(jù)提取的能力,能以標準類及定制類服務全方位滿足各類業(yè)務場景下的文件處理、分類與信息提取等需求,顯著提升業(yè)務處理的自動化、智能化水平。
遠光軟件在長期服務央國企的過程中,沉淀了豐富的票據(jù)、卡證、表格等識別模型,如數(shù)電票、增值稅發(fā)票、定額發(fā)票、機打發(fā)票、財政票據(jù)、營業(yè)執(zhí)照、完稅證明等超過36種。這些識別模型支持多種文件格式(JPG、PNG、PDF、OFD等)的識別、分類、關(guān)鍵字抽取等場景??稍跇I(yè)務現(xiàn)場通過公有云、私有云、一體機、邊緣設(shè)備等快速部署,開箱即用,快速滿足財務、營銷、物資、設(shè)備、運行等多個領(lǐng)域業(yè)務場景對通用票證結(jié)構(gòu)化數(shù)據(jù)提取需求。
遠光圖文識別智能底座集數(shù)據(jù)管理、流程化標注、自動模型訓練、模型評估、應用發(fā)布為一體,內(nèi)置自主研發(fā)的表格、圖像等識別模型,融入先進的模板學習和文本分析提取技術(shù),支持版式文件類、文檔流類、界面截圖類文件的分析和識別,提供非固定版式票據(jù)信息提取、表格信息識別檢索、附件快速分類分揀、附件材料完整性檢查、文檔信息定位抽取、文檔內(nèi)容基礎(chǔ)推理計算、簽字蓋章快速檢測定位等能力,打造從附件分類、材料完整性檢查到文檔內(nèi)容推理計算的一站式解決方案。同時,通過服務接口方式,輕松賦能其他應用,加速業(yè)務創(chuàng)新。
區(qū)別于傳統(tǒng)OCR的“硬編碼”方式,遠光圖文識別智能底座創(chuàng)新性地融入大語言模型?;诙嗄瓿恋淼脑獢?shù)據(jù)集對大語言模型進行微調(diào),增強大語言模型對單據(jù)、卡證、表單等業(yè)務理解和推理能力,并通過合理設(shè)計提示詞工程優(yōu)化識別提取結(jié)果,實現(xiàn)信息提取的高效與精準,從而有效克服傳統(tǒng)OCR泛化能力差、實現(xiàn)成本高的問題,提升系統(tǒng)的靈活性與擴展性。
遠光軟件圖文識別智能底座將訓練達標后的識別模型以服務包的方式封裝于遠光靈識設(shè)備,通過即插即用模式為業(yè)務前端智能設(shè)備提供通用票據(jù)、定制表單、合同、卡證等電子文件的結(jié)構(gòu)化信息提取,實現(xiàn)信息智能化采集,支撐業(yè)務處理和決策,充分發(fā)揮數(shù)據(jù)價值。