大模型理解復(fù)雜表格,字節(jié)&中科大出手了
相信很多大家對(duì)大模型理解復(fù)雜表格,字節(jié)&中科大出手了還不知道吧,今天菲菲就帶你們一起去了解一下~.~!
只要一個(gè)大模型,就能解決打工人遇到的表格難題!
字節(jié)聯(lián)手中科大推出了一款統(tǒng)一表格理解大模型,可以以用戶友好的方式解決多種表格理解任務(wù)。
同時(shí)提出的還有一套開源測試基準(zhǔn),可以更好地評(píng)估模型在表格理解任務(wù)上的表現(xiàn)。
該模型名為TabPedia,利用多模態(tài)大模型,將不同處理表格任務(wù)的專有模型進(jìn)行了整合。
在這之前,不同的任務(wù)都有獨(dú)立的模型和解決方案,單是找到適合的模型就是已經(jīng)很讓人頭疼。
而TabPedia通過概念協(xié)同(Concept Synergy)機(jī)制來實(shí)現(xiàn)多個(gè)任務(wù)、多種源信息的整合協(xié)作,打工人再也不用為找模型而煩惱了。
那么,這款新模型都能實(shí)現(xiàn)怎樣的效果呢?
無需裁剪識(shí)別多表格結(jié)構(gòu)
首先來看,在測試數(shù)據(jù)集上,TabPedia可以在不借助后處理算法的條件下,精準(zhǔn)識(shí)別表格位置并直接生成無重疊的檢測框。
在判斷出表格位置的基礎(chǔ)之上,對(duì)于表格結(jié)構(gòu)識(shí)別任務(wù),TabPedia可以繼續(xù)生成一系列連續(xù)的表格結(jié)構(gòu)元素以及相應(yīng)的檢測框。
不僅判斷準(zhǔn)確,還有效地解決了標(biāo)記語言(HTML或者M(jìn)arkdown)處理空間坐標(biāo)的不足和非法語法潛在造成解析錯(cuò)誤的弊端。
而且不再需要將表格從圖片中手動(dòng)裁剪,研究者們借助大模型的理解能力,讓模型可以直接在原始文檔圖像中實(shí)現(xiàn)多表格實(shí)例的表格結(jié)構(gòu)識(shí)別。
值得一提的是,此類任務(wù)是由TabPedia團(tuán)隊(duì)的作者首次提出的。
當(dāng)然,只識(shí)別表格的位置和結(jié)構(gòu)是遠(yuǎn)遠(yuǎn)不夠的,而對(duì)于表格問答任務(wù),TabPedia不僅可以給出正確的答案,同時(shí)還能基于表格的內(nèi)容給出相應(yīng)的理由。
實(shí)戰(zhàn)方面,面對(duì)多種不同的開放場景,TabPedia同樣表現(xiàn)優(yōu)異。
比如在論文中的表格檢測任務(wù)當(dāng)中,TabPedia可以準(zhǔn)確地檢測出圖像中的所有表格實(shí)例。
對(duì)于表格結(jié)構(gòu)識(shí)別能力,研究者們隨機(jī)選取了不同論文中的表格圖像,對(duì)于包含密集文本信息的表格結(jié)構(gòu),依然預(yù)測出準(zhǔn)確的結(jié)構(gòu)信息。
而在問答任務(wù)上,TabPedia仍然可以像在數(shù)據(jù)集測試中一樣,根據(jù)表格內(nèi)容和表格結(jié)構(gòu)信息,做出合理且正確的回答。
此外,為了更好地評(píng)估各種模型在現(xiàn)實(shí)世界表格圖像上的TQA性能,作者還構(gòu)建了一個(gè)復(fù)雜的TQA數(shù)據(jù)集(ComTQA)。
與現(xiàn)有的基準(zhǔn)WTQ和TabFact相比,ComTQA具有更具挑戰(zhàn)性的問題,例如多個(gè)答案、數(shù)學(xué)計(jì)算和邏輯推理。
通過專家標(biāo)注,作者們從大約1.5k張圖像中注釋了約9k個(gè)高質(zhì)量的表格問答對(duì)。該數(shù)據(jù)集的標(biāo)注目前已經(jīng)在Huggingface開源。
那么,TabPedia具體是如何實(shí)現(xiàn)的呢?
高低分辨率分別訓(xùn)練
如下圖所示,TabPedia包含兩個(gè)視覺編碼器以及各自的映射層,一個(gè)分詞器以及大語言模型。
在預(yù)訓(xùn)練階段,TabPedia主要學(xué)習(xí)如何對(duì)齊視覺表征和語言模型的輸入空間;在微調(diào)階段,TabPedia進(jìn)一步專注于視覺表格理解。
其中,高分辨率視覺編碼器用于2560x1920的高分辨文檔圖像,可以提供豐富的細(xì)粒度視覺信息;
低分辨率視覺編碼器為了保持整圖的結(jié)構(gòu)信息,編碼224x224的低分辨圖像。
為了更好地讓語言模型理解視覺信息,該工作沿襲了主流多模態(tài)大模型的對(duì)齊策略,設(shè)計(jì)了兩個(gè)簡單的映射層。
對(duì)于高分辨率支路的映射層,TabPedia采用2D的卷積層來聚合近鄰的視覺特征,同時(shí)有效地緩解視覺token數(shù)量冗余的現(xiàn)狀。
給定大量的視覺tokens以及文本指令的嵌入特征,TabPedia采用Vicuna-7B作為語言模型生成回答。
考慮到表格感知和理解任務(wù)之間的差異,TabPedia引入了Meditative Tokens M 來實(shí)現(xiàn)概念協(xié)同機(jī)制,它可以自適應(yīng)地激活不同區(qū)域的視覺tokens,并理解特定任務(wù)問題的意圖。
整體的輸入序列為 X = [Q;; V_l ;; V_h,; M],其中,和都是可學(xué)習(xí)的特殊token,分別代表視覺tokens的開始、結(jié)束,以及區(qū)分不同分辨率的視覺tokens。
由于TabPedia和其它LLMs一樣執(zhí)行next token預(yù)測,因此僅需要簡單的交叉熵?fù)p失函數(shù)作為目標(biāo)函數(shù)來優(yōu)化整個(gè)框架。
通過預(yù)訓(xùn)練,TabPedia能夠很好地理解各種文檔圖像的文本和結(jié)構(gòu),但無法根據(jù)指示執(zhí)行不同的表格理解任務(wù)。
為了增強(qiáng)模型的指令跟隨能力,該工作首先構(gòu)建了一個(gè)用于視覺表格理解的大規(guī)模數(shù)據(jù)集。
基于該數(shù)據(jù)集,研究者引入了四個(gè)與表格相關(guān)的任務(wù),即表格檢測,表格結(jié)構(gòu)識(shí)別,表格查詢以及表格問答,來同步執(zhí)行感知和理解任務(wù)。
在該階段,LLM也參與訓(xùn)練微調(diào),進(jìn)一步增強(qiáng)大模型的指令跟隨和視覺信息抓取的能力。
開源數(shù)據(jù)集與合成數(shù)據(jù)共同訓(xùn)練
數(shù)據(jù)方面,TabPedia的全部數(shù)據(jù)來源于五個(gè)公開的表格數(shù)據(jù)集,包括PubTab1M、FinTabNet、 PubTabNet、WikiTableQuestions(WTQ)和TabFact,具體的數(shù)據(jù)使用情況如下圖所示:
同時(shí),對(duì)于不同任務(wù)的指令設(shè)計(jì),作者也給出了對(duì)應(yīng)的示例以便模型更好地理解。
其中最值得注意的是,表格檢測和表格結(jié)構(gòu)識(shí)別的任務(wù)擺脫了之前繁瑣的后處理的弊端,TabPedia直接可以預(yù)測無重疊的檢測框,高效率地輸出用戶需要的答案。
除此之外,研究者們進(jìn)一步借助大模型的理解能力,克服之前工作需要將表格從原文檔中裁剪出來做結(jié)構(gòu)識(shí)別的流程,直接在原文檔圖像中實(shí)現(xiàn)多表格實(shí)例的表格結(jié)構(gòu)識(shí)別。
該任務(wù)為利用大語言模型實(shí)現(xiàn)更復(fù)雜的表格理解奠定了強(qiáng)有力的基礎(chǔ)。
對(duì)于表格問答任務(wù),現(xiàn)有的數(shù)據(jù)絕大多數(shù)是基于文本的表格中生成的,僅在背景顏色和字體大小存在變化,導(dǎo)致在現(xiàn)實(shí)世界的表格中泛化能力較差。此外,TQA數(shù)據(jù)的量級(jí)遠(yuǎn)遠(yuǎn)落后于其他任務(wù)。
為了克服這些障礙,研究者們利用開源多模態(tài)大模型,基于FinTabNet和PubTab1M中部分圖像數(shù)據(jù)生成了大量的TQA數(shù)據(jù)。
另外作者表示,盡管TabPedia已經(jīng)在視覺表格理解展現(xiàn)出強(qiáng)大的能力,仍然有很多未解決的挑戰(zhàn)激發(fā)研究者更深入的探索:
對(duì)于扭曲表格無法準(zhǔn)確的理解和識(shí)別。該能力不足一方面源于訓(xùn)練數(shù)據(jù)的不足,另一方面是對(duì)于表格結(jié)構(gòu)的表示采用了規(guī)則的矩形框。
目前的表格問答仍需要table-centic圖像,如何將其遷移到在原始文檔圖像直接問答也是一項(xiàng)挑戰(zhàn)性的工作。
增加表格單元格內(nèi)容識(shí)別可以提升模型對(duì)于表格內(nèi)容的理解以及細(xì)粒度信息的抓取能力。
總體來說,視覺表格理解任務(wù)依然有很多技術(shù)難點(diǎn)等待攻克。TabPedia初步探究了多模態(tài)大模型的表格理解能力,作者希望能對(duì)大家的研究有所幫助。
論文地址:
https://arxiv.org/abs/2406.01326
ComTQA數(shù)據(jù)集:
https://huggingface.co/datasets/ByteDance/ComTQA
以上就是關(guān)于【大模型理解復(fù)雜表格,字節(jié)&中科大出手了】的相關(guān)內(nèi)容,希望對(duì)大家有幫助!
免責(zé)聲明:本文由用戶上傳,與本網(wǎng)站立場無關(guān)。財(cái)經(jīng)信息僅供讀者參考,并不構(gòu)成投資建議。投資者據(jù)此操作,風(fēng)險(xiǎn)自擔(dān)。 如有侵權(quán)請(qǐng)聯(lián)系刪除!
-
奔馳GLE作為豪華SUV市場中的佼佼者,憑借其卓越的性能、豪華的內(nèi)飾以及寬敞的空間,吸引了眾多消費(fèi)者的關(guān)注。...瀏覽全文>>
-
在2025年,安徽阜陽地區(qū)的帕薩特新能源汽車市場表現(xiàn)非常活躍。作為一款備受關(guān)注的新能源車型,帕薩特新能源憑...瀏覽全文>>
-
近日,滁州地區(qū)的大眾汽車經(jīng)銷商傳來好消息:備受矚目的2025款T-ROC探歌正式上市,并且以極具競爭力的價(jià)格吸引...瀏覽全文>>
-
在選擇一款新能源汽車時(shí),了解其價(jià)格和配置是非常重要的一步。安徽淮南地區(qū)的長安啟源E07作為2024款的新車型,...瀏覽全文>>
-
阜陽長安啟源A05作為長安汽車旗下的全新車型,自推出以來便憑借其獨(dú)特的設(shè)計(jì)風(fēng)格和豐富的配置吸引了眾多消費(fèi)者...瀏覽全文>>
-
阜陽長安啟源A07作為一款備受矚目的新能源車型,以其豪華配置和親民的價(jià)格在市場上引起了廣泛關(guān)注。這款車型不...瀏覽全文>>
-
安徽淮南威然2024款價(jià)格及配置詳解隨著汽車市場的不斷更新?lián)Q代,上汽大眾旗下的MPV車型——威然(Viloran)憑...瀏覽全文>>
-
QQ多米新車報(bào)價(jià)2025款,買車省錢秘籍隨著汽車市場的不斷發(fā)展,消費(fèi)者在選購車輛時(shí)不僅關(guān)注車型的性能和配置,...瀏覽全文>>
-
滁州途觀X 2024款最新價(jià)格及買車省錢秘籍隨著汽車市場的不斷發(fā)展,大眾途觀X作為一款兼具時(shí)尚與性能的中型SUV...瀏覽全文>>
-
隨著汽車市場的不斷發(fā)展,大眾蔚攬以其優(yōu)雅的設(shè)計(jì)和卓越的性能贏得了眾多消費(fèi)者的青睞。作為一款兼具實(shí)用性和...瀏覽全文>>
- Alienware 在 2025 年 CES 上展示了一些超凡脫俗的技術(shù)
- Wickes 任命首席零售和分銷官
- 分析師稱GTA 6或?qū)淞⑿袠I(yè)新標(biāo)準(zhǔn)
- 索尼和本田在拉斯維加斯推出售價(jià) 89,900 美元的 Afeela 1
- 日本 11 月游客人數(shù)創(chuàng)月度新高
- 神經(jīng)認(rèn)知測試在 3 歲兒童白血病治療期間可行
- 牛津郡小學(xué)支持圣誕毛衣日
- S?strene Grene 投資歐洲物流中心
- 有人已經(jīng)在電視上直播 BNMC 打造的 1967 年福特野馬 Restomod
- 潛在的分子療法可以逆轉(zhuǎn)小鼠的胎盤發(fā)育問題
- 奔馳GLE預(yù)約試駕,新手必看的詳細(xì)流程
- 滁州T-ROC探歌 2025新款價(jià)格,最低售價(jià)15.89萬起,趕緊行動(dòng)
- 安徽淮南威然最新價(jià)格2024款,各配置車型售價(jià)全知曉
- 滁州途觀X最新價(jià)格2024款,買車省錢秘籍
- 淮南長安啟源Q05 2025新款價(jià)格,最低售價(jià)9.69萬起,入手正當(dāng)時(shí)
- 安徽淮南探影多少錢 2023款落地價(jià),各配置車型售價(jià)一目了然
- 淮南途觀X價(jià)格大揭秘,買車前必看
- 安徽淮南長安獵手K50新款價(jià)格2025款多少錢?買車攻略一網(wǎng)打盡
- 滁州ID.4 X新款價(jià)格2025款多少錢?買車攻略一網(wǎng)打盡
- QQ多米落地價(jià),購車前必看的費(fèi)用明細(xì)
- Nvidia DLSS 4 有望將游戲性能提高 8 倍
- 人工智能在預(yù)測自身免疫性疾病進(jìn)展方面顯示出良好的前景
- 心理物理實(shí)驗(yàn)揭示皮膚水分感知是如何改變的
- 科茨沃爾德公司慶祝圣誕節(jié)圓滿成功
- 南法納姆學(xué)校被評(píng)為薩里郡表現(xiàn)最好的小學(xué)
- 約克區(qū)九所小學(xué)將削減招生人數(shù)
- 松下新款電動(dòng)汽車電池為 Lucid Gravity 帶來 450 英里續(xù)航里程
- 泰國旅游呈現(xiàn)新趨勢
- 研究人員找到在細(xì)胞水平上餓死前列腺癌腫瘤的新方法
- 領(lǐng)先的人工智能聊天機(jī)器人在測試中表現(xiàn)出類似癡呆癥的認(rèn)知能力下降
- 龐大的 Project Zomboid build 42 終于可以玩了
- Steam Replay 回歸向您展示 2024 年您玩得最多的 PC 游戲
- Jollyes 推出強(qiáng)化的人才支持和招聘措施
- Karen Millen 與 Simon Harrison 共同推出全新高級(jí)珠寶系列
- 奇瑞風(fēng)云A8L電動(dòng)轎車刷新續(xù)航里程世界紀(jì)錄
- 虛擬藝術(shù)家將別克 Cascada 帶回 2026 款車型
- OnePlus 宣布推出新計(jì)劃解決綠線問題
- OnePlus Watch 3 將擁有更大的電池和更薄的機(jī)身
- 研究人員發(fā)現(xiàn)可變剪接與自身免疫性疾病遺傳之間的細(xì)胞類型特異性聯(lián)系
- 科學(xué)家確定腦細(xì)胞類型是排尿的主要控制者