關于我們 | English | 網站地圖

大模型+圖文識別:遠光軟件打造數據價值化神器

2024-09-10 15:14:23 中國能源網
在數字經濟浪潮中,數據就像“工業(yè)血液”的石油一樣,其記錄、存儲、分析和應用的范圍及規(guī)模前所未有,成為企業(yè)生存發(fā)展的核心驅動力。作為 “五大生產要素”之一,數據不僅是推動經濟增長的新引擎,更是促進企業(yè)提升競爭力的關鍵資源。然而隨著企業(yè)數據量的爆發(fā)式增長,尤其是非結構化數據的激增,如何高效訪問、精準查詢、智能管理這些數據,成為釋放數據價值、加速數據要素化、市場化進程的重大挑戰(zhàn)。
 
遠光軟件憑借其在光學字符識別(OCR)與深度學習算法領域的深厚積累,自主研發(fā)了融合NLP和大模型技術的圖文識別智能底座。這一智能底座具有自學習、精準識別、智能數據提取的能力,能以標準類及定制類服務全方位滿足各類業(yè)務場景下的文件處理、分類與信息提取等需求,顯著提升業(yè)務處理的自動化、智能化水平。

 
遠光軟件在長期服務央國企的過程中,沉淀了豐富的票據、卡證、表格等識別模型,如數電票、增值稅發(fā)票、定額發(fā)票、機打發(fā)票、財政票據、營業(yè)執(zhí)照、完稅證明等超過36種。這些識別模型支持多種文件格式(JPG、PNG、PDF、OFD等)的識別、分類、關鍵字抽取等場景??稍跇I(yè)務現場通過公有云、私有云、一體機、邊緣設備等快速部署,開箱即用,快速滿足財務、營銷、物資、設備、運行等多個領域業(yè)務場景對通用票證結構化數據提取需求。
 
定制場景:內置自研識別模型,識別更高效
 
 
遠光圖文識別智能底座集數據管理、流程化標注、自動模型訓練、模型評估、應用發(fā)布為一體,內置自主研發(fā)的表格、圖像等識別模型,融入先進的模板學習和文本分析提取技術,支持版式文件類、文檔流類、界面截圖類文件的分析和識別,提供非固定版式票據信息提取、表格信息識別檢索、附件快速分類分揀、附件材料完整性檢查、文檔信息定位抽取、文檔內容基礎推理計算、簽字蓋章快速檢測定位等能力,打造從附件分類、材料完整性檢查到文檔內容推理計算的一站式解決方案。同時,通過服務接口方式,輕松賦能其他應用,加速業(yè)務創(chuàng)新。
 
 
大模型加持:泛化及擴展能力更強勁
 
 
區(qū)別于傳統OCR的“硬編碼”方式,遠光圖文識別智能底座創(chuàng)新性地融入大語言模型。基于多年沉淀的元數據集對大語言模型進行微調,增強大語言模型對單據、卡證、表單等業(yè)務理解和推理能力,并通過合理設計提示詞工程優(yōu)化識別提取結果,實現信息提取的高效與精準,從而有效克服傳統OCR泛化能力差、實現成本高的問題,提升系統的靈活性與擴展性。
 
延伸場景:軟硬一體,信息采集更智能
 
 
遠光軟件圖文識別智能底座將訓練達標后的識別模型以服務包的方式封裝于遠光靈識設備,通過即插即用模式為業(yè)務前端智能設備提供通用票據、定制表單、合同、卡證等電子文件的結構化信息提取,實現信息智能化采集,支撐業(yè)務處理和決策,充分發(fā)揮數據價值。



責任編輯: 江曉蓓