
智能文檔處理業(yè)務(wù)中,最佳策略不是二選一,而是“大小模型協(xié)同”。用專用小模型處理高頻、標(biāo)準(zhǔn)化的核心文檔流,實(shí)現(xiàn)極致效率與成本控制;用大模型賦能非標(biāo)、長(zhǎng)尾文檔的靈活處理,加速業(yè)務(wù)創(chuàng)新。
許多企業(yè)在智能文檔處理(IDP)選型時(shí)會(huì)陷入兩個(gè)誤區(qū),導(dǎo)致成本高昂或效率瓶頸:
1.誤區(qū)一:“小模型過(guò)時(shí)論”
完全依賴傳統(tǒng)OCR(本質(zhì)上是小模型)技術(shù)。這種方案雖然在處理發(fā)票、身份證等固定版式文檔時(shí)表現(xiàn)尚可,但面對(duì)版式千變?nèi)f化的合同、對(duì)賬單、申請(qǐng)表時(shí)則完全失效,導(dǎo)致企業(yè)80%以上的非結(jié)構(gòu)化文檔依然需要人工處理。
2.誤區(qū)二:“大模型萬(wàn)能論”
試圖用一個(gè)龐大的通用大模型處理所有文檔。這種方案雖然靈活性高,但將其用于處理每日數(shù)百萬(wàn)張的發(fā)票、保單等標(biāo)準(zhǔn)化文檔時(shí),會(huì)因其高昂的調(diào)用成本和較慢的響應(yīng)速度,成本和效率都難以接受。
真正高效、經(jīng)濟(jì)的IDP策略,是讓不同模型各司其職,兼顧成本和效率。

●專用OCR小模型: 針對(duì)企業(yè)核心業(yè)務(wù)中海量、高頻、標(biāo)準(zhǔn)化的文檔(如票據(jù)、卡證),部署經(jīng)過(guò)精調(diào)的專用小模型。保證識(shí)別速度與成本符合業(yè)務(wù)需求
●OCR大模型: 針對(duì)業(yè)務(wù)創(chuàng)新和長(zhǎng)尾場(chǎng)景中的非標(biāo)、復(fù)雜文檔(如各類申請(qǐng)材料、審核報(bào)告),利用大模型強(qiáng)大的泛化和理解能力。是快速響應(yīng)、靈活處理,將新業(yè)務(wù)的AI能力上線周期從“月”縮短到“天”。
易道博識(shí)智能文檔處理平臺(tái)(簡(jiǎn)稱DeepIDP),正式基于上述理念設(shè)計(jì)的智能文檔處理平臺(tái),它將“大小模型協(xié)同”策略產(chǎn)品化,讓企業(yè)可以輕松擁有全場(chǎng)景文檔處理能力。
針對(duì)身份證、銀行卡、發(fā)票等核心業(yè)務(wù)文檔,DeepIDP提供了一系列預(yù)訓(xùn)練的專用小模型。極高的速度和超過(guò)99.5%的精度完成高頻識(shí)別任務(wù)。
面對(duì)對(duì)賬單、業(yè)務(wù)申請(qǐng)單、合同等非標(biāo)文檔,DeepIDP的大模型能力展現(xiàn)出巨大優(yōu)勢(shì):
●靈活處理: 僅需輸入提示詞,即可從任意版式的文檔中靈活抽取所需字段。
●更高精度: DeepIDP的大模型經(jīng)過(guò)海量金融領(lǐng)域數(shù)據(jù)的二次訓(xùn)練調(diào)優(yōu),在處理復(fù)雜表格和特定版式時(shí),能更準(zhǔn)確地理解上下文,精準(zhǔn)抽取信息。
●更強(qiáng)溯源: 在輸出結(jié)構(gòu)化數(shù)據(jù)(JSON)的同時(shí),能夠?qū)⒚總€(gè)字段精準(zhǔn)關(guān)聯(lián)回原始單據(jù)的坐標(biāo)位置,實(shí)現(xiàn)了數(shù)據(jù)的可追溯、可核驗(yàn),滿足合規(guī)要求。

一個(gè)面向未來(lái)的IDP平臺(tái),除了AI架構(gòu)先進(jìn),還必須適應(yīng)底層基礎(chǔ)設(shè)施的演進(jìn)。DeepIDP從底層架構(gòu)原生適配主流國(guó)產(chǎn)化硬件(如C86+DCU、ARM+昇騰),解決了傳統(tǒng)OCR引擎在國(guó)產(chǎn)化環(huán)境中移植成本高、適配難的根本問(wèn)題,確保企業(yè)在AI能力上的投資具有長(zhǎng)期連續(xù)性和可擴(kuò)展性。
IDP平臺(tái)如何超越“數(shù)據(jù)提取”,融入業(yè)務(wù)決策?
真正的智能文檔處理,終點(diǎn)是驅(qū)動(dòng)業(yè)務(wù)。DeepIDP可供智能體(Agent)和自動(dòng)化工作流(Workflow)靈活編排與調(diào)用,讓數(shù)據(jù)無(wú)縫流入業(yè)務(wù)決策環(huán)節(jié)。

以財(cái)務(wù)審核場(chǎng)景為例,Agent可以這樣調(diào)用DeepIDP的原子能力:
1.分類: 調(diào)用GIC文檔分類能力,自動(dòng)識(shí)別單據(jù)類型。
2.抽取: 將發(fā)票分發(fā)給小模型處理,將報(bào)銷申請(qǐng)單交給大模型處理。
3.決策: Agent利用大模型的推理能力,結(jié)合企業(yè)規(guī)則進(jìn)行智能判斷(如費(fèi)用是否超標(biāo)),并自動(dòng)輸出審核結(jié)論。
此外,業(yè)務(wù)人員還可以通過(guò)可視化工作流界面,像“搭積木”一樣,將這些AI能力快速組合成符合自身需求的自動(dòng)化流程。
問(wèn)題1:小模型會(huì)被大模型徹底取代嗎?
回答: 不會(huì)。在可預(yù)見(jiàn)的未來(lái),兩者將長(zhǎng)期共存。小模型在特定任務(wù)上的效率、成本和穩(wěn)定性優(yōu)勢(shì)是通用大模型難以企及的。未來(lái)的趨勢(shì)是大小模型的深度協(xié)同,而非替代。
問(wèn)題2:如何判斷一個(gè)文檔處理任務(wù)應(yīng)該用大模型還是小模型?
高頻標(biāo)準(zhǔn)文檔用OCR小模型:每日需要處理數(shù)萬(wàn)張的增值稅發(fā)票、身份證、銀行流水或標(biāo)準(zhǔn)化的入庫(kù)單。長(zhǎng)尾低頻文檔用大模型:需要審核的商業(yè)合同、法律文書、非標(biāo)業(yè)務(wù)申請(qǐng)表、市場(chǎng)研究報(bào)告等。這些文檔可能每天只處理幾十份,但每一份的版式和語(yǔ)言風(fēng)格都可能不同。
DeepIDP在底層集成了小模型推理引擎和大型模型推理引擎。該架構(gòu)可以根據(jù)任務(wù)的復(fù)雜度和需求,自動(dòng)調(diào)度最合適的模型進(jìn)行處理,對(duì)外提供標(biāo)準(zhǔn)化的服務(wù)接口。
這種融合架構(gòu)屏蔽了底層模型的差異,實(shí)現(xiàn)了“無(wú)感調(diào)用”,用戶無(wú)需刻意區(qū)分某個(gè)識(shí)別能力是由大模型還是小模型提供,只需專注于自身業(yè)務(wù)需求即可。