
辦公文檔是各行各業(yè)最基礎(chǔ)也是最重要的信息載體,不管是金融、政務(wù)、制造業(yè)、零售行業(yè)等等,各種類(lèi)型的文檔都是業(yè)務(wù)流轉(zhuǎn)過(guò)程中必不可少的數(shù)字資料。以銀行信貸為例,一筆信貸業(yè)務(wù)在貸前貸中到貸后全流程中,需要涉及財(cái)報(bào)、銀行流水、貿(mào)易合同、發(fā)票、盡職調(diào)查報(bào)告、審批意見(jiàn)書(shū)、會(huì)議紀(jì)要等等材料,材料的格式和內(nèi)容均差異很大,但都是針對(duì)同一筆信貸業(yè)務(wù)、從不同角色視角、不同業(yè)務(wù)角度的情況描述。每一種材料都承載了重要的業(yè)務(wù)數(shù)據(jù),對(duì)這些材料進(jìn)行全面而準(zhǔn)確的價(jià)值提取,并匯集所有材料實(shí)現(xiàn)全流程數(shù)據(jù)穿透,是前述信貸業(yè)務(wù)目前急需解決的問(wèn)題。如何提取海量歷史文檔中的關(guān)鍵要素和數(shù)據(jù),構(gòu)建數(shù)據(jù)資產(chǎn),也是當(dāng)前各個(gè)行業(yè)做數(shù)字化智能化轉(zhuǎn)型的重要課題。
圖1 銀行信貸業(yè)務(wù)所需各類(lèi)材料及關(guān)鍵要素
其中最核心的技術(shù)難點(diǎn),是從原始的辦公文檔中發(fā)現(xiàn)和提取有價(jià)值的內(nèi)容,也是數(shù)據(jù)資產(chǎn)構(gòu)建的前置條件。達(dá)觀數(shù)據(jù)長(zhǎng)期致力于辦公文檔的智能化處理,即通過(guò)對(duì)文檔格式的全面解析、對(duì)文檔內(nèi)容的全面理解,從而提取出核心業(yè)務(wù)信息。與傳統(tǒng)的純文本語(yǔ)義理解問(wèn)題不一樣的是,辦公文檔除了文字以外還有大量的表格、圖片都包含了重要數(shù)據(jù),甚至文檔的排版、布局、分欄、文字格式等等,也隱含了一段文字中是否存在關(guān)鍵要素,以及要素重要性大小的信息。
(相關(guān)資料圖)
因此對(duì)于辦公文檔的智能分析,需要綜合考慮文字、圖像、排版布局等信息,單純處理文字信息的方法很難取得令人滿意的效果。近幾年興起的多模態(tài)算法在這一方向上展現(xiàn)出了很好的效果,微軟亞洲研究院的研究人員所提出的通用文檔理解預(yù)訓(xùn)練模型LayoutLM模型就是具有代表性的方法,模型目前是開(kāi)源的并且已經(jīng)發(fā)布到3.0版本,各個(gè)版本都在一系列文檔理解任務(wù)重取得了領(lǐng)先的效果。
總體而言,LayoutLM算法將文本信息和視覺(jué)信息做了深層次的融合,實(shí)現(xiàn)了多模態(tài)端到端預(yù)訓(xùn)練,利用大量無(wú)標(biāo)注的文檔數(shù)據(jù)進(jìn)行文本、布局版面的聯(lián)合學(xué)習(xí),可以學(xué)習(xí)到文檔中的局部不變形信息,避免了傳統(tǒng)方法需要大量標(biāo)注數(shù)據(jù)的問(wèn)題。LayoutLM一經(jīng)推出就在多個(gè)下游的文檔理解任務(wù)上取得了領(lǐng)先的結(jié)果。本文將重點(diǎn)圍繞LayoutLM的核心算法及其演進(jìn)過(guò)程做介紹,并介紹達(dá)觀基于多模態(tài)技術(shù)的優(yōu)化調(diào)整,以解決實(shí)際場(chǎng)景中真實(shí)辦公文檔的各類(lèi)數(shù)據(jù)問(wèn)題。
介紹LayoutLM之前,需要先介紹一下BERT,兩個(gè)模型具有較大相關(guān)性。在NLP領(lǐng)域,BERT是近幾年最具有突破性的一項(xiàng)技術(shù),于2018年10月由Google AI研究院提出的一種預(yù)訓(xùn)練模型,刷新了NLP領(lǐng)域多項(xiàng)評(píng)測(cè)任務(wù)的SOTA,引起了各行業(yè)的廣泛關(guān)注。Bert采用了Transformer架構(gòu)中的Encoder模塊,使得Bert有更好的特征提取能力和語(yǔ)言表征能力。BERT結(jié)構(gòu)有預(yù)訓(xùn)練與微調(diào)兩步。在Bert的預(yù)訓(xùn)練中引入兩大核心任務(wù):1、遮蔽語(yǔ)言模型(MLM)隨機(jī)遮擋輸入token,訓(xùn)練目標(biāo)是恢復(fù)被遮蓋的token 2、下一句預(yù)測(cè)(NSP)一個(gè)二分類(lèi)任務(wù),其將一對(duì)語(yǔ)句作為輸入,判斷其是否為連貫的語(yǔ)句。
經(jīng)過(guò)預(yù)訓(xùn)練的Bert模型增加了它的上下文信息的提取能力和捕捉句子間的語(yǔ)義聯(lián)系。由于有好的預(yù)訓(xùn)練模型,在做特定的下游任務(wù)時(shí),通過(guò)簡(jiǎn)單的fine-tune的方式就能取得不錯(cuò)的效果。
LayoutLM 1.0很大程度上借鑒了BERT模型,包括模型的預(yù)訓(xùn)練和微調(diào)。在NLP的任務(wù)中通常是只利用了文本信息,在辦公文檔中有豐富的視覺(jué)信息可以被編碼到預(yù)訓(xùn)練模型中以及作為模型的特征輸入。
LayoutLM1.0以Bert架構(gòu)作為主干,增加了布局版面的特征:
2-D位置特征;與建立序列中單詞位置模型的位置嵌入不同,二維位置嵌入的目的是建立文檔中的相對(duì)空間位置。圖像特征:為了使用文檔的圖像特征并將圖像特征與文字對(duì)齊,在模型中添加一個(gè)圖像嵌入向量層。采用了Faster R-CNN提取特征。
LayoutLM 1.0的模型結(jié)構(gòu)如下圖所示:
圖2 LayoutLM 1.0模型結(jié)構(gòu)
其中,2-D位置特征編碼了文檔中的空間位置關(guān)系(其中2-d位置信息來(lái)自于OCR識(shí)別的結(jié)果,并且會(huì)把所有的坐標(biāo)點(diǎn)標(biāo)準(zhǔn)化到0-1000)。一個(gè)文檔可視為一個(gè)坐標(biāo)系統(tǒng),其左上角即為坐標(biāo)原點(diǎn)(0,0)。對(duì)于一個(gè)單詞,其邊界框能夠以左上點(diǎn)坐標(biāo)(x0,y0)和右下點(diǎn)坐標(biāo)(x1,y1)進(jìn)行表示,最終轉(zhuǎn)成2d position embedding。同時(shí),LayoutLM以單詞的切片輸入到FasterR-CNN模型中,生成每個(gè)單詞切片所對(duì)應(yīng)的圖像特征。每個(gè)單詞token都有相應(yīng)的圖像特征,而在bert中起始都有一個(gè),而這個(gè)token所對(duì)應(yīng)的圖像特征則是將整個(gè)圖片作為FasterR-CNN的輸入所獲得的,以此來(lái)對(duì)齊圖像特征和文本特征的長(zhǎng)度。這樣對(duì)需要用到標(biāo)記表示的下游任務(wù)有利。
LayoutLM預(yù)訓(xùn)練任務(wù)設(shè)置了掩碼視覺(jué)語(yǔ)言模型(Masked Visual-Language Model, MVLM)損失與多標(biāo)簽文檔分類(lèi)(Multi-label Document Classification,MDC)損失進(jìn)行多任務(wù)學(xué)習(xí)。MVLM和Bert的掩碼策略相似。也是選擇15%的tokens進(jìn)行預(yù)測(cè),80%的tokens用標(biāo)記替換這些被掩碼的tokens,10%的tokens里用一個(gè)隨機(jī)的token替換,10%的tokens還是用原先的tokens。該模型用交叉熵?fù)p失作為損失函數(shù)來(lái)預(yù)測(cè)被掩碼的tokens。但LayoutLM1.0保留其2-D位置信息,使模型根據(jù)上下文、位置信息,推斷被遮擋的詞匯。以此來(lái)減少視覺(jué)特征和語(yǔ)言特征的gap。
MDC多標(biāo)簽文檔分類(lèi),聚合不同文檔特征,增強(qiáng)模型對(duì)于文檔級(jí)別的語(yǔ)義表征能力。由于MDC損失需要每個(gè)文檔圖像的標(biāo)簽,而這些標(biāo)簽對(duì)于較大的數(shù)據(jù)集來(lái)說(shuō)可能并不存在,所以在預(yù)訓(xùn)練過(guò)程中它是可選的。
實(shí)驗(yàn)證明,LayoutLM 1.0在多個(gè)數(shù)據(jù)集上都取得了非常大的精度的提升。首先是表格理解任務(wù),對(duì)表單的文本內(nèi)容進(jìn)行序列標(biāo)注。使用的數(shù)據(jù)集是FUNSD,包括199個(gè)表單,9707個(gè)語(yǔ)義實(shí)體和31485個(gè)單詞。每個(gè)語(yǔ)義實(shí)體包括一個(gè)唯一標(biāo)識(shí)符、一個(gè)標(biāo)簽(即,問(wèn)題、答案、標(biāo)題或其他)、一個(gè)邊界框、一個(gè)與其他實(shí)體的鏈接列表和一個(gè)單詞列表。數(shù)據(jù)集分為149個(gè)訓(xùn)練樣本和50個(gè)測(cè)試樣本。在FUNSD數(shù)據(jù)集上,加入視覺(jué)信息的LayoutLM1.0,精度上相比于純文本模型有了明顯提升,同時(shí)在增加數(shù)據(jù)量、增加訓(xùn)練時(shí)間的情況下還能進(jìn)一步提升,具體結(jié)果如下表所示:
票據(jù)理解任務(wù)上,需要提取票據(jù)信息,對(duì)每個(gè)詞進(jìn)行語(yǔ)義標(biāo)簽分類(lèi)。采用SROIE數(shù)據(jù)集進(jìn)行效果測(cè)試,包含626個(gè)訓(xùn)練票據(jù)和347個(gè)測(cè)試票據(jù)。每個(gè)票據(jù)都被組織成帶有邊框的文本行列表。每張票據(jù)都標(biāo)有四種類(lèi)型的實(shí)體(公司,日期,地址,總數(shù))。LayoutLM LARGE的效果已經(jīng)超過(guò)了當(dāng)時(shí)競(jìng)賽榜單第一名的模型。詳細(xì)的模型結(jié)果如下表所示:
文檔圖像分類(lèi)任務(wù)目的是預(yù)測(cè)文檔圖像的類(lèi)別。選定RVL-CDIP數(shù)據(jù)集,該數(shù)據(jù)集由 16 類(lèi) 40 萬(wàn)張灰度圖像組成,每類(lèi) 25000 張圖像。有 32 萬(wàn)張訓(xùn)練圖像,4 萬(wàn)張驗(yàn)證圖像和 4 萬(wàn)張測(cè)試圖像。類(lèi)別包括 : 書(shū)信、表格、電子郵件、手寫(xiě)體、廣告、科學(xué)報(bào)告、科學(xué)出版物、說(shuō)明書(shū)、文件夾、新聞文章、預(yù)算、發(fā)票、演示文稿、問(wèn)卷、簡(jiǎn)歷、備忘錄等。同樣LayoutLM 1.0也取得了領(lǐng)先的效果。
在 LayoutLM 1.0 推出一年之后,研究人員對(duì)模型做了進(jìn)一步的升級(jí),提出了 LayoutLM 2.0 模型。2.0模型在多模態(tài)預(yù)訓(xùn)練階段直接引入了圖像信息,對(duì)文本、圖像和布局信息進(jìn)行聯(lián)合建模。2.0模型的主體結(jié)構(gòu)相比LayoutLM 1.0有比較大的變化,是帶有空間感知自注意力機(jī)制(spatial-aware self-attention)的 Transformer 編碼器網(wǎng)絡(luò),將視覺(jué)向量和文本向量拼接到統(tǒng)一的序列,并且添加布局向量融合空間信息,得到第一層的輸入x(0):
其中v表示圖像的序列,t表示文本序列,W和H為圖像寬和高,文本序列的長(zhǎng)度。因?yàn)樵嫉淖宰⒁饬C(jī)制只能隱式地捕獲帶有絕對(duì)位置提示的輸入標(biāo)記之間的關(guān)系,為了有效地對(duì)文檔布局中的局部不變形建模,需要明確地插入相對(duì)位置信息。因此,文中提出了空間感知的自注意力機(jī)制。原始的自注意力機(jī)制通過(guò)映射queryXi和keyXj這兩個(gè)向量,然后計(jì)算它們兩個(gè)的注意力分?jǐn)?shù):
考慮到位置的取值范圍太大,模型將語(yǔ)義相對(duì)位置和空間相對(duì)位置建模為偏置項(xiàng),以防止添加太多的參數(shù),并明確地將它們添加到注意力得分中。
b1D,b2Dx,b2Dy分別表示一維和二維相對(duì)位置偏置。不同的注意力頭偏置是不同的,但是在全部的編碼器層是共享的。假設(shè)(xi,yi)表示第 i 個(gè)邊界框的左上角坐標(biāo),則空間感知注意力得分為:
最終,輸出向量表示為全部映射 value 向量相對(duì)于歸一化空間感知得分的加權(quán)平均值:
進(jìn)一步幫助模型在一維文本序列之上學(xué)習(xí)到文檔圖像中不同文本塊之間的相對(duì)位置關(guān)系。
圖3 LayoutLM 2.0模型結(jié)構(gòu)
在預(yù)訓(xùn)練任務(wù)上,LayoutLM 2.0在掩碼視覺(jué)語(yǔ)言模型(Masked Visual-Language Model, MVLM)之外,還增加了文本圖像對(duì)齊(text-image alignment)和文本圖像匹配(text-image matching)2個(gè)自監(jiān)督任務(wù),幫助模型提升語(yǔ)言能力、對(duì)齊模態(tài)信息。
01掩碼視覺(jué)語(yǔ)言模型
2.0對(duì)掩碼視覺(jué)語(yǔ)言模型任務(wù)進(jìn)行了擴(kuò)展,要求模型根據(jù)上下文、圖像信息和布局信息還原文本中被遮蓋的詞,遮蓋操作同時(shí)遮蓋文本中的詞和圖像中的對(duì)應(yīng)區(qū)域,但保留空間位置信息。在 MVLM 中,15% 的文本標(biāo)記被屏蔽,其中 80% 被特殊標(biāo)記 替換,10% 被從整個(gè)詞匯表中采樣的隨機(jī)標(biāo)記替換,10%保持原樣。
02文本—圖像對(duì)齊
文本—圖像對(duì)齊是一種細(xì)粒度的多模態(tài)對(duì)齊任務(wù),在文檔圖像上隨機(jī)按行遮蓋一部分文本,利用模型的文本部分輸出進(jìn)行詞級(jí)別二分類(lèi),判斷text token是否被覆蓋,計(jì)算二元交叉熵?fù)p失:
其中是二元標(biāo)簽值0或者1,是屬于標(biāo)簽值的概率。有15%的行被覆蓋該任務(wù)為了幫助模型學(xué)習(xí)圖像和邊界框坐標(biāo)之間的空間位置對(duì)應(yīng)關(guān)系。
03文本—圖像匹配
現(xiàn)有工作證明,粗粒度的文本—圖像匹配任務(wù)有助于幫助模態(tài)信息對(duì)齊。該任務(wù)隨機(jī)替換或舍棄一部分文檔圖像,構(gòu)造圖文失配的負(fù)樣本,并以文檔級(jí)別二分類(lèi)的方式預(yù)測(cè)圖文是否匹配,以此來(lái)對(duì)齊文本和圖像的匹配信息。該任務(wù)中有15%的圖像被替換,5%的被舍棄掉。
實(shí)驗(yàn)結(jié)果表明,LayoutLM 2.0的精度又取得了不錯(cuò)的提升。在表單理解FUNSD數(shù)據(jù)集上,F(xiàn)1達(dá)到84.20%,結(jié)果如下表所示:
票據(jù)理解任務(wù),使用了 CORD 和 SROIE 兩個(gè)數(shù)據(jù)集來(lái)評(píng)估模型性能。CORD 數(shù)據(jù)集包含了1,000張掃描票據(jù)數(shù)據(jù),需要從中抽取名稱、價(jià)格、數(shù)量等30類(lèi)關(guān)鍵信息實(shí)體。LayoutLM 2.0 模型在此數(shù)據(jù)集上微調(diào)后F1值達(dá)到96.01%。SROIE 數(shù)據(jù)集上LayoutLM 2.0 模型的效果位列 SROIE 測(cè)評(píng)任務(wù)三榜首。
在文檔圖像分類(lèi) RVL-CDIP 數(shù)據(jù)集上, LayoutLM 2.0 模型的預(yù)測(cè)準(zhǔn)確率相比之前的最好結(jié)果提升了1.2個(gè)百分點(diǎn),達(dá)到了95.64%。
針對(duì)復(fù)雜布局長(zhǎng)文檔理解,使用Kleister-NDA數(shù)據(jù)集進(jìn)行效果評(píng)測(cè)。該數(shù)據(jù)集包含了254篇合同文檔數(shù)據(jù),頁(yè)面布局復(fù)雜且內(nèi)容較長(zhǎng),結(jié)果表明LayoutLM2.0模型性能相比1.0取得了進(jìn)一步提升,結(jié)果如下表所示:
文檔視覺(jué)問(wèn)答任務(wù),需要模型將文檔圖像和問(wèn)題作為輸入,并輸出一個(gè)答案。研究人員使用 DocVQA 數(shù)據(jù)集來(lái)驗(yàn)證效果,該數(shù)據(jù)集共包含超過(guò)一萬(wàn)頁(yè)文檔上的五萬(wàn)組問(wèn)答對(duì)。LayoutLM 2.0 性能相比 LayoutLM 1.0 和純文本模型有了顯著進(jìn)步。甚至性能超出了原榜首方法1.6個(gè)百分點(diǎn),達(dá)到86.72%。
2022年微軟又推出了LayoutLM v3,相對(duì)于其前兩個(gè)版本,主要改進(jìn)點(diǎn)是優(yōu)化圖像特征表示方法,以統(tǒng)一的方式將文本和圖像嵌入結(jié)合起來(lái)。現(xiàn)有的文檔多模態(tài)模型要么提取 CNN 網(wǎng)格特征,要么依賴像 Faster R-CNN這樣的目標(biāo)檢測(cè)模型來(lái)提取區(qū)域特征用于圖像嵌入,這會(huì)使的模型有更多計(jì)算開(kāi)銷(xiāo),或需要依賴區(qū)域標(biāo)注的數(shù)據(jù)。受 ViT和ViLT的啟發(fā),LayoutLM v3用圖像塊的線性投影特征表示文檔圖像,然后將它們輸入多模態(tài) Transformer。具體來(lái)說(shuō),將文檔圖像的大小調(diào)整為W?H,然后將圖像分割成固定大小(P?P)的塊,將圖像塊線性投影到相應(yīng)的維度,并將它們展平為長(zhǎng)度為(M=HW/P2)的序列,再加上可學(xué)習(xí)的一維位置向量后得到圖像向量。具體實(shí)現(xiàn)上,將圖像利用二維卷積進(jìn)行處理,使用卷積核大小為P、步長(zhǎng)也為P實(shí)現(xiàn)將圖像分塊和線性映射,然后線性嵌入與文本標(biāo)記對(duì)齊。這樣計(jì)算復(fù)雜度更低,模型結(jié)構(gòu)如下圖所示:
圖4 LayoutLM 3.0模型結(jié)構(gòu)
預(yù)訓(xùn)練任務(wù)上,為了使文本和圖像模態(tài)之間更好的對(duì)齊,提出了文字-圖像塊對(duì)齊Word-Patch Alignemnt(WPA),文本與圖像還分別使用了無(wú)監(jiān)督預(yù)訓(xùn)練任務(wù)遮罩語(yǔ)言模型Masked Language Modeling(MLM)以及遮罩圖像模型Masked Image Modeling(MIM)。
01文本-圖像塊對(duì)齊
在 v3 中所有的圖像都是基于圖像塊的方式直接映射為圖像特征,mask 的最小單位變成了圖像塊。由于MIM和MLM隨機(jī)遮蓋了部分文本詞和圖像塊,模型無(wú)法顯式地學(xué)習(xí)這種文本詞和圖像塊之間的細(xì)粒度對(duì)齊關(guān)系。因此文本-圖像塊對(duì)齊任務(wù)預(yù)測(cè)的是未被masked文本對(duì)應(yīng)的圖像塊是否被覆蓋。具體來(lái)說(shuō),對(duì)于那些沒(méi)有被masked文本token并且該token所對(duì)應(yīng)的圖像token也沒(méi)有被覆蓋,那么會(huì)給一個(gè)對(duì)齊的標(biāo)簽,如果他的圖像token被覆蓋了,則標(biāo)一個(gè)未對(duì)齊的標(biāo)簽。并且那些被masked的文本不參與損失函數(shù)的計(jì)算。損失函數(shù):
其中L-L’表示沒(méi)有被masked的文本tokens的數(shù)量,是那些沒(méi)有被masked的文本tokens上的是否對(duì)齊的標(biāo)簽。
02遮罩語(yǔ)言模型
在MLM的預(yù)訓(xùn)練任務(wù)中,類(lèi)似Bert,對(duì)30%文本token做掩碼,但保留對(duì)應(yīng)的二維位置(布局信息),而掩碼策略不是單字隨機(jī)掩碼,而是用松柏分布()采樣跨度的長(zhǎng)度來(lái)進(jìn)行掩碼。由于保持布局信息不變,這個(gè)目標(biāo)有助于模型學(xué)習(xí)布局信息與文本和圖像上下文之間的對(duì)應(yīng)關(guān)系。MLM的訓(xùn)練目標(biāo)模型目標(biāo)是根據(jù)未被遮蓋的圖文和布局信息還原文本中被遮蓋的詞。損失函數(shù):
其中yl表示被masked的tokens,M’,L’,XM’,YL’分別表示圖像序列被masked的位置,文本序列被masked的位置,被masked的tokens的圖像和文本的上下文。
03遮罩圖像模型
在MIM預(yù)訓(xùn)練任務(wù)中采用的是BEiT中的MIM預(yù)訓(xùn)練任務(wù),先將圖片轉(zhuǎn)化成兩種特征:一是類(lèi)似文本Tokenizer,通過(guò)編碼學(xué)習(xí)將圖像變成離散的視覺(jué)符號(hào)(visual token);二是,將圖像切成多個(gè)小塊(patch),每個(gè)塊相當(dāng)于一個(gè)字符。并使用逐塊屏蔽策略隨機(jī)屏蔽40%左右的圖像token,預(yù)測(cè)被masked掉的實(shí)際圖像token長(zhǎng)什么樣。MIM的訓(xùn)練目標(biāo)是重建被mask掉的圖像token。因此,MIM 有助于學(xué)習(xí)高級(jí)布局結(jié)構(gòu)而不是噪聲比較多的低級(jí)細(xì)節(jié)。損失函數(shù):
其中Xm表示被masked的圖像token。
研究人員在四個(gè)多模態(tài)任務(wù)上對(duì) LayoutLMv3 進(jìn)行了效果測(cè)試,包括基于FUNSD數(shù)據(jù)集測(cè)試表單理解任務(wù)效果、基于CORD數(shù)據(jù)集測(cè)試票據(jù)理解任務(wù)效果、基于RVL-CDIP數(shù)據(jù)集測(cè)試文檔圖像分類(lèi)任務(wù)效果、基于DocVQA數(shù)據(jù)集測(cè)試文檔視覺(jué)問(wèn)答任務(wù)效果,整體測(cè)試結(jié)果如下表所示。在這些任務(wù)上,LayoutLMv3 取得了比以前的工作更好或相當(dāng)?shù)慕Y(jié)果。例如,對(duì)于LARGE模型規(guī)模,LayoutLMv3 在 FUNSD 數(shù)據(jù)集上取得了92.08的 F1 分?jǐn)?shù),大大超過(guò)了此前 LARGE 規(guī)模的 SOTA 結(jié)果(85.14)。
LayoutLM經(jīng)過(guò)從1.0到3.0版本的迭代,不斷優(yōu)化模型對(duì)文檔中文本、布局和視覺(jué)信息的預(yù)訓(xùn)練性能,對(duì)于復(fù)雜版式文檔的處理效果和處理效率都在逐步提升,不僅在多種多模態(tài)任務(wù)上取得了SOTA,而且在中文數(shù)據(jù)集EPHOIE上也取得了SOTA,證明了多模態(tài)技術(shù)對(duì)于文檔理解的可行性和未來(lái)巨大的潛力。目前達(dá)觀基于多模態(tài)文檔理解技術(shù)進(jìn)行自主研發(fā),處理復(fù)雜國(guó)際單據(jù)、復(fù)雜版式文檔場(chǎng)景數(shù)據(jù),諸如合同、發(fā)票、研報(bào)、表單等等,也取得了非常優(yōu)秀的效果,并在銀行、證券、報(bào)關(guān)、制造業(yè)等多個(gè)不同行業(yè)實(shí)現(xiàn)了成功落地,為各個(gè)行業(yè)帶來(lái)了巨大的效益提升。
圖5各行業(yè)版式和內(nèi)容各異的文檔
真實(shí)場(chǎng)景中樣本數(shù)據(jù)的質(zhì)量,比論文所使用的的公開(kāi)數(shù)據(jù)集的文檔質(zhì)量要差很多,算法需要處理的圖像質(zhì)量問(wèn)題會(huì)更加復(fù)雜,包括樣本傾斜、透視變換、樣本模糊、陰影問(wèn)題、水印劃痕、手寫(xiě)體等等,使用通用的ocr算法難以解決以上問(wèn)題,就會(huì)導(dǎo)致傳遞給多模態(tài)算法輸入的文本和坐標(biāo)有較大偏差,最終算法輸出結(jié)果就會(huì)有比較明顯的效果退化。因此在應(yīng)用多模態(tài)算法的時(shí)候,達(dá)觀使用自研的ocr算法,自動(dòng)實(shí)現(xiàn)高精度的傾斜校正、透視變換修正、樣本增強(qiáng)、去陰影去水印等等處理,將真實(shí)樣本還原為高質(zhì)量的純凈樣本,將負(fù)面影響降到最低。
圖6真實(shí)樣本存在模糊、陰影、水印、印章等等問(wèn)題
進(jìn)行了ocr通用處理之后,達(dá)觀基于多模態(tài)算法的原理做了較多自研和改進(jìn),主要是為了解決各行各業(yè)各個(gè)場(chǎng)景里真實(shí)樣本的布局變化非常之多的情況,以及要識(shí)別的關(guān)鍵要素差異很大的情況,重點(diǎn)強(qiáng)化了算法對(duì)文檔布局信息的感知和分析,尤其是針對(duì)不同布局模塊之間的空間關(guān)系、語(yǔ)義關(guān)系,引入了CRF模型做針對(duì)性的建模,改進(jìn)之后效果有了將近10%的提升。另外在一些場(chǎng)景的實(shí)踐中,我們做對(duì)比實(shí)驗(yàn)的時(shí)候發(fā)現(xiàn),LayoutLM v3的效果不如v2穩(wěn)定,在個(gè)別場(chǎng)景中甚至效果不如v2,但是v3的計(jì)算效率提升比較明顯,更加貼合實(shí)際線上運(yùn)行的性能要求。現(xiàn)階段我們也在嘗試調(diào)整和優(yōu)化模型,讓抽取效果和計(jì)算效率達(dá)到一個(gè)更高水平的平衡。實(shí)際落地過(guò)程中還有很多問(wèn)題值得研究和攻關(guān),未來(lái)基于零樣本、少樣本的進(jìn)一步嘗試也是非常值得期待的。
圖7達(dá)觀自研多模態(tài)模型解決國(guó)際票據(jù)審核難題
標(biāo)簽: 損失函數(shù) 如下表所示 模型結(jié)構(gòu)