GPT4V只能排第二!华科大等发布多模态大模型新基准:五大任务14个模型全面测评

近期,多模态大模型(LMMs)在视觉语言任务方面展示了令人印象深刻的能力。然而,由于多模态大模型的回答具有开放性,如何准确评估多模态大模型各个方面的性能成为一个迫切需要解决的问题。

目前,一些方法采用GPT对答案进行评分,但存在着不准确和主观性的问题。另外一些方法则通过判断题和多项选择题来评估多模态大模型的能力。

然而,判断题和选择题只是在一系列参考答案中选择最佳答案,不能准确反映多模态大模型完整识别图像中文本的能力,目前还缺乏针对多模态大模型光学字符识别(OCR)能力的专门评测基准。

近期,华中科技大学白翔团队联合华南理工大学、北京科技大学、中科院和微软研究院的研究人员对多模态大模型的OCR能力进行了深入的研究。

并在27个公有数据集和2个生成的无语义和对比的有语义的数据集上对文字识别、场景文本VQA、文档VQA、关键信息抽取和手写数学表达式识别这五个任务上进行了广泛的实验。

为了方便而准确地评估多模态大模型的OCR能力,本文还进一步构建了用于验证多模态大模型零样本泛化能力的文字领域最全面的评估基准OCRBench,评测了谷歌Gemini,OpenAIGPT4V以及目前开源的多个类GPT4V多模态大模型,揭示了多模态大模型直接应用在OCR领域的局限。

评测模型概述

本文对谷歌Gemini,OpenAIGPT4V在内的14个多模态大模型进行了评估。

其中BLIP2引入了Q-Former连接视觉和语言模型;Flamingo和OpenFlamingo通过引入新颖的门控交叉注意力层,使得大语言模型具备理解视觉输入的能力;LLaVA开创性地使用GPT-4生成多模态指令跟随数据,其续作LLaVA1.5通过改进对齐层和prompt设计,进一步提升LLaVA的性能。

此外,mPLUG-Owl和mPLUG-Owl2强调了图像和文本的模态协作;LLaVAR收集了富文本的训练数据,并使用更高分辨率的CLIP作为视觉编码器,以增强LLaVA的OCR能力。

BLIVA结合指令感知特征和全局视觉特征来捕捉更丰富的图像信息;MiniGPT4V2在训练模型时为不同任务使用唯一的标识符,以便轻松区分每个任务的指令;UniDoc在大规模的指令跟踪数据集上进行统一的多模态指令微调,并利用任务之间的有益交互来提高单独任务的性能。

Docpedia直接在频域而不是像素空间中处理视觉输入。Monkey通过生成的详细描述数据和高分辨率的模型架构,低成本地提高了LMM的细节感知能力。

评测指标及评测数据集

LMM生成的回复通常包含许多解释性的话语,因此完全精确的匹配或平均归一化Levenshtein相似度(ANLS)在评估LMM在Zero-Shot场景中的表现时并不适用。

本文为所有数据集定义了一个统一而简单的评估标准,即判断LMM的输出是否包含了GT;为了减少假阳性,本文进一步过滤掉所有答案少于4个字符的问答对。

文本识别(TextRecognition)

本文使用广泛采用的OCR文本识别数据集评估LMM。这些数据集包括:

(1)常规文本识别:IIIT5K、SVT、IC13;

(2)不规则文本识别:IC15、SVTP、CT80、COCOText(COCO)、SCUT-CTW1500(CTW)、Total-Text(TT);

(3)遮挡场景下的文本识别,WOST和HOST;

(4)艺术字识别:WordArt;

(5)手写文本识别:IAM;

(6)中文识别:ReCTS;

(7)手写数字串识别:ORAND-CAR-2014(CAR-A);

(8)无语义文本(NST)和语义文本(ST):ST数据集包含3000张来自IIIT5K字典的单词图像,NST数据集与ST数据集的不同之处在于单词中字符的顺序被打乱而不具备语义。

对于英文单词识别,本文使用统一的prompt:「whatiswrittenintheimage」。对于ReCTS数据集中的中文文本则使用「WhataretheChinesecharactersintheimage」作为prompt。对于手写数字串,则使用prompt:「whatisthenumberintheimage」。

场景文本问答(SceneText-CentricVQA)

本文在STVQA、TextVQA、OCRVQA和ESTVQA上进行了实验。其中ESTVQA数据集被分为ESTVQA(CN)和ESTVQA(EN),分别包含中文和英文问答对。

文档问答(Document-OrientedVQA)

本文在DocVQA、InfographicVQA和ChartQA数据集上进行评估,包括了扫描文档、复杂海报以及图表。

关键信息抽取(KIE)

本文在SROIE、FUNSD和POIE数据集上进行了实验,这些数据集包括收据、表单和产品营养成分标签。KIE要求从图像中提取key-value对。

为了使LMM能够准确提取KIE数据集中给定key的正确的value,本文针对不同数据集设计了不同prompt。

对于SROIE数据集,本文使用以下prompt帮助LMM为「company」,「date」,「address」和「total」生成相应的value:「whatisthenameofthecompanythatissuedthisreceipt」、「whenwasthisreceiptissued」、「wherewasthisreceiptissued」和「whatisthetotalamountofthisreceipt」。

此外,为了获取FUNSD和POIE中给定key对应的value,本文使用prompt:「Whatisthevaluefor'{key}'」。

手写数学公式识别(HMER)

评估了HME100K数据集,在评估过程中,本文使用「PleasewriteouttheexpressionoftheformulaintheimageusingLaTeXformat.」作为prompt。

评测结果

LMM在识别常规文本、不规则文本、遮挡场景下的文本和艺术字方面取得了与Supervised-SOTA相媲美的性能。

InstructBLIP2和BLIVA在WordArt数据集中的性能甚至超过了Supervised-SOTA,但LMM仍然存在较大局限。

语义依赖

LMMs在识别缺乏语义的字符组合时表现出较差的识别性能。

具体而言,LMMs在NST数据集上的准确率相比于ST数据集平均下降了57.0%,而Supervised-SOTA只下降了约4.6%。

这是因为场景文本识别的Supervised-SOTA直接识别每个字符,语义信息仅用于辅助识别过程,而LMMs主要依赖语义理解来识别单词。

例如Figure1中,LMM成功识别了单词「Message」,但错误地识别了「egaesMs」,这只是单词「Message」的重新排序。

-手写文本

LMMs在准确识别手写文本方面存在挑战。手写文本通常因快速书写、不规则手写或低质量纸张等因素而显得不完整或模糊。平均而言,LMMs在这项任务中的性能比Supervised-SOTA差了51.9%。

-多语言文本

在ReCTS、ESTVQA(En)和ESTVQA(Ch)上观察到的显著性能差距展示了LMMs在中文文本识别和问答方面的不足。这可能是由于中文训练数据的缺少导致的。而Monkey的语言模型和视觉编码器都经过大量中文数据的训练,因此它在中文场景中表现优于其他多模态大模型。

-细粒度感知

目前,大多数LMMs的输入图像分辨率受限于224x224,与它们架构中使用的视觉编码器的输入尺寸一致。然而,高分辨率的输入图像可以捕捉到更多的图像细节,从而提供更细粒度的信息。由于BLIP2等LMMs的输入分辨率受限,它们在场景文本问答、文档问答和关键信息抽取等任务中提取细粒度信息的能力较弱。相比之下,Monkey和DocPedia等具有更高输入分辨率的多模态大模型在这些任务中具有更好的表现。

-HMER

LMMs在识别手写数学表达式方面存在极大的挑战。这主要是由于杂乱的手写字符、复杂的空间结构、间接的LaTeX表示以及训练数据的缺乏所导致的。

OCRBench

完整地评估所有数据集可能非常耗时,而且一些数据集中的不准确标注使得基于准确率的评估不够精确。

鉴于这些限制,本文进一步构建了OCRBench,以方便而准确地评估LMMs的OCR能力。

OCRBench包含了来自文本识别、场景文本问答、文档问答、关键信息抽取和手写数学表达式识别这五个任务的1000个问题-答案对。

对于KIE任务,本文还在提示中进一步添加了「Answerthisquestionusingthetextintheimagedirectly.」来限制模型的回答格式。

为了确保更准确的评估,本文对OCRBench中的1000个问答对进行了人工校验,修正了错误选项,并提供了正确答案的其他候选。

其结果如Table3所示,Gemini获得了最高分,GPT4V获得了第二名。需要注意的是,由于OpenAI进行了严格的安全审查,GPT4V拒绝为OCRBench中的84张图像提供结果。

Monkey展示了仅次于GPT4V和Gemini的OCR能力。从测试结果中,我们可以观察到,即便是GPT4V和Gemini这样最先进的多模态大模型在HMER任务上也面临困难。

此外,它们在处理模糊图像、手写文本、无语义文本和遵循任务指令方面也存在挑战。

正如图2(g)所示,即使明确要求使用图像中的文本回答,Gemini仍将「02/02/2018」解释为「2February2018」。

总结

本文对LMMs在OCR任务中的性能进行了广泛的研究,包括文本识别、场景文本问答、文档问答、KIE和HMER。

本文的定量评估显示,LMM可以取得有希望的结果,特别是在文本识别方面,在某些数据集上甚至达到了SOTA。

然而,与针对特定领域的监督方法相比,仍然存在显著差距,这表明针对每个任务定制的专门技术仍然是必不可少的,因为后者使用的计算资源和数据要少得多。

本文所提出的OCRBench为评估多模态大模型的OCR能力提供了基准,揭示了多模态大模型直接运用于OCR领域的局限。

本文还为OCRBench构建了一个在线排行榜,用于展示和比较不同多模态大模型的OCR能力(加入排行榜的方式参考Github)。

THE END
1.字体识别在线扫一扫图片找字体souziti.com ? 搜字体网提供图片字体识别、字体搜索、找字体、字体查询、求字体、识别字体、字体在线演示与字体下载服务,是提供给设计师的免费字体识别在线网站(软件)。https://www.souziti.com/
2.字体下载支持中、英、日、韩等多国语言海量字体的识别与搜索 常见问题免费商用 上传图片大小不超过800K,格式仅限于jpg、png 搜字体 拖拽图片到此区域 或 截图后按Ctrl+V识字体 求字体VIP特权 加入求字体VIP,享受更多特权哟 高速下载 海量字体闪电下载 字体补齐无需排队 http://qiuziti.com/
3.新是什麼字體?眾識社區識字體網字魂113号-武林江湖体 Regular 商用须授权 61.4% 下載 授權 字魂妙笔舍得手书 Regular 商用须授权 60.3% 下載 授權 字谷网免费商用字体 廣告 妙笔舍得手书 Regular 商用须授权 60.3% 下載 授權 回答 不是字體 指定字體 請您前往登入或注册後再回復! 客人https://hant.m.likefont.com/community/112811860/
4.Ai艺术字体在线生成艺术字转换器字体转换器艺术字体 叶根卡通恶魔尾巴美呗嘿嘿体庞门正道细线体铁蒺藜体淘淘字体汉仪彩蝶体简汉仪海纹体华康金文字体腾祥相思简下雨了哦足球宝贝甲骨文字体哥特式字体海星田螺听不到啊圆圆字体我初恋了西良文字落落汤圆迷你双线秋生书法虾皮铭记站酷快乐叶根友行国祥手写立夏手写玉米胖爷兮妞良品新蒂金钟新蒂绿豆锐字云字根友微影https://www.yishuzi.cn/
5.艺术字体在线生成器彩色艺术字转换器艺术的彩色字 艺术的荧光字 艺术的动态字 艺术的教写图 yì艺同音同调字 义亦亿射屹异役忆意抑易毅泄溢疙疫益绎翌翼肄臆艺艾裔议译诣谊逸邑食 艺组词(2个字) 作艺六艺农艺制艺卖艺园艺工艺手艺技艺文艺无艺曲艺武艺游艺球艺绝艺舞艺艺人艺名艺徒艺术艺林艺苑艺龄 http://www.yishuzi.com/ziti.php/page/font/326212.htm
6.艺术字识别腾讯云开发者社区LSVT项目(大规模弱标注街景文字识别):包揽全部两项冠军 MLT-19项目(多语言自然场景文字识别):包揽全部四项冠军 ReCTS项目(中文招牌文字识别):端到端文字识别Task获得冠军 三大比赛均难度极高、弱监督、低分辨率、艺术字、复杂排版等诸多技术难点。、商家信息自动识别等领域,覆盖了透视畸变、复杂排版、模糊文字https://cloud.tencent.com/developer/information/%E8%89%BA%E6%9C%AF%E5%AD%97%E8%AF%86%E5%88%AB
7.艺术字体在线生成器字体logo生成器创意字体logo设计生成器艺术字体在线生成器 多特软件园为您整理了多款艺术字体在线生成器软件,在多特您能下载多款正规的、无毒软件,其中有艺术字体、艺术字体免费、edufont(艺术字体设计软件)等App,找软件一定要找正规平台,多特每一款软件都进行查杀,确保软件安全,想要找艺术字体在线生成器应用,赶紧来多特软件园看看吧。 展开>https://m.duote.com/zt/yzztzxscq/
8.艺术签名字体在线生成器请注意,虽然我可以提供一些基本的建议,但我不能代替专业的艺术签名设计师或在线艺术签名生成器。 艺术字体识别在线 字体可以去下载,只要你的手机或电脑安装了这些字体,无论是qq或其它软件上就能随意娈换字体,除了少数软件存在对某些字体我法识别的问题,一般只要选中文字再点击字体样式就可以直接变换。你说的字体转换器http://www.spshc.com/article/3470.html
9.网络艺术字logo在线设计的不同定位识别性:关于识别性要求必须容易识别,易记忆。这就要做到无论是从色彩还是构图上一定要讲究简单。 内涵性:艺术字logo在线设计一定要有它自身的含义,否则就算做的再漂亮,再完美也只是形式上的漂亮,却没有一点意义。这就要求LOGO必须有自己的象征意义。 法律意识:关于LOGO的法律意识一定要注意敏感的字样、形状和语言。 https://gonglue.epwk.com/178398.html
10.在线图片韩文文字识别器韩文图片文字识别在线OCR图片识别_OCR通用文字识别_OCR文字识别在线-华为云 通用表格识别 识别图片中表格的文字与表格信息,同时支持将表格内容转换成可编辑的Excel格式。 通用、手写文字识别 识别图片中的文字信息(中英文以及部分繁体字),识别图片中的手写文字信息。 网络图片识别 识别网络图片中的文字信息,支持印刷体、艺术字等类型文字识别https://www.huaweicloud.com/theme/304855-1-Z
11.字体转换器网「艺术字在线生成」书法字体在线字体转换器字体转换器-是字体视界推出供站长下载字体,第一款字体转换器在线转换供用户免费下载。有艺术字体转换器、书法字体在线生成器,生成书法字体设计之魂https://www.17font.com/font-editor/
12.繁体字转换器在线转换真笔字转换器繁体字大全真笔网输入要转换繁体字的简体汉字或者输入要转换简体字的繁体汉字 请在此处输入文字 简化字 简化字(英文:Simplified Chinese)简体汉字,又称“简体字”或“简体中文”。与繁体字相对。 繁体字 繁体字(英文:Traditional Chinese)繁体汉字,又称“繁体中文”,与简化字相对。http://www.zhenbi.com/
13.图片识别文字在线免费识别的功能有哪些?使用哪个软件?2.字体明确,使用OCR文字识别软件识别若文件时,还要识别图片的字体是正常的字体,有很多图片中是艺术字或是毛笔字,这时候要识别里面的文字将会很难。 综上所述,图片识别文字在线免费软件在选择的时候不能过于盲目,首先识别的功能要齐全,比如证件,名片,图片里的文字都可以识别,其次,还可以免费使用。 https://www.foxitsoftware.cn/scanner/jiaocheng/1200.html
14.艺术字在线生成器书法体逐浪花体艺术字逐浪锥钉体逐浪创意婉约体文悦青龙花体文悦新青年体锐字工房卡布奇诺细字体管家方萌逐浪创意粗行体汉仪柏京体PS折纸字体设计逐浪创意含羞体逐浪创意沁竹体小麦体海报pop字体海派腔调禅创意艺术字相思艺术字形造字工房情书体设计蒙纳简岩流夏日风字体青铜古风艺术字卡布奇诺美瞳汉仪海纹体造字工房妙妙汉仪http://www.akuziti.com/
15.潦草字体在线识别51CTO博客已为您找到关于潦草字体在线识别的相关内容,包含IT学习相关文档代码介绍、相关教程视频课程,以及潦草字体在线识别问答内容。更多潦草字体在线识别相关解答可以来51CTO博客参与分享和学习,帮助广大IT技术人实现成长和进步。https://blog.51cto.com/topic/liaocaozitizaixianshibie.html
16.网世界最流行的艺术字体在线生成器工具网站,提供了字体识别艺术字生成 找字体网最初是为了黑板报字体参考而创造,现在找字体网已经成为了互联网世界最流行的艺术字体在线生成器工具网站,提供了字体识别.pop字体转换器.英文字体.手机字体大小怎么调.毛笔字体.手写字体.正楷字体.楷书字体,找字体网作为互联网第一款字体转换器一直忠诚且稳定免费的为您服务,期待您的建议!https://www.bidianer.com/site/110893
17.智能识别素材智能识别图片智能识别素材图片下载觅知网为您找到158个原创智能识别素材图片,包括智能识别图片,智能识别素材,智能识别海报,智能识别背景,智能识别模板源文件下载服务,包含PSD、PNG、JPG、AI、CDR等格式素材,更多关于智能识别素材、图片、海报、背景、插画、配图、矢量、UI、PS、免抠,模板、艺术字、Phttps://www.51miz.com/so-sucai/1638519.html
18.在线繁体字转换工具说明:请输入要转换简繁体的中文汉字,然后点击"简体转繁体"或"繁体转简体"按钮,即可将正体繁体字、中文简体字或QQ非主流繁体字转换翻译汉字繁简体。请将本翻译工具添加收藏,以便需要在线简体字转换繁体字时随时使用本简繁转换互换器 实用在线转换工具 繁体字大全 https://www.aies.cn/
19.连笔字转换器连笔字在线转换连笔字体在线生成器连笔字根据连笔程度的不同可分为轻连笔的行书字体,以及最具代表性的草书字体,其中草书又可分为狂草和行草体,它们都是属于连笔字体的小分类,可根据你的喜好进行生成,你要记住一点,连笔程度越高汉字的识别性就越低,但同时它具有更好的艺术性,书法美感,同时笔画也更少,更容易书写,特别是需要快速大数量的书写的时候,http://www.ziti88.com/lbz.php
20.[AI测试]python文字图像识别tesseract# 里面提到了艺术字的识别 https://www.jianshu.com/p/3326c7216696 # 简单的安装教程 https://zhuanlan.zhihu.com/p/186225362 # 比较详细的安装教程及pytesseract基本使用 https://zhuanlan.zhihu.com/p/341306710 # mac安装pytesseract https://blog.csdn.net/wodedipang_/article/details/84585914 https://blog.csdn.net/wx17343624830/article/details/132434213
21.ocr网易易盾OCR识别,基于行业前沿深度学习技术,提供图片检测通用网络文字识别、手写体识别、繁体字识别、艺术字识别、竖体斜体识别能力。OCR识别,OCR文字识别,图片文字识别OCR,OCR,图片OCR 来自:网站 信息认证_实证认证_身份OCR识别_网易易盾 网易易盾信息认证服务通过实证认证、身份证OCR识别校验等多技术手段,核验用户信息真https://dun.163.com/search/b2Ny
22.基于笔画和部首分解的零样本汉字识别研究.pdf人印象深刻的性能,如具有明确笔画级分解的印刷艺术字的识别,并能有效地 4 基于笔画和部首分解的零样本汉字识别研究 处理部首零样本设置,但当应用于一些困难的识别任务时,如具有复杂背景的 字符的识别,这些方法的性能是有限的。特别是,单独的笔画级分解可能不足 以进行零样本汉字识别,因为有一些汉字具有相同的笔画级https://m.book118.com/html/2023/1229/5324101303011032.shtm
23.识别图片字体识别图片艺术字识别图片字体 排序方式: 综合排序热门下载最新上传 2017字体 新年字体 新品上市字体 字体LOGO 字体变形 主题字体 感恩字体 恐怖字体 夏季字体 字体纹理 精选4个识别图片字体图片素材 1080P 下载 大气清新科技全息人脸识别AE模板00:33 打开声音 关闭声音 区块链科技网络图片先进手机海报https://ibaotu.com/tupian/shibietupianziti.html
24.Kalvin在线工具Kalvin在线工具旨在为大家提供便利、实用及有趣好玩的工具集合,如:证件照换底色、图片转卡通/素描/黑白图、人像动漫化、ASCII艺术字生成、压力测试、文章生成器、营销号生成器等工具。https://tools.kalvinbg.cn/
25.可以字体识别不了免费下载可以字体识别不了字体免费下载更多推荐: 魅族主题美化字体免费 创意字体峰模板免费下载 什么字体免费试用 毛笔字体是免费的 彩色艺术字字体免费下载 免费润行字体模板 halfdose免费字体下载 autobahn字体免费下载 免费38字体图库下载 边框字体免费下载 可以字体识别不了在线字体转换器 在线预览字体 默认 抖音 空心字 阴影效果 线性渐变 径向渐变 设置https://www.zitijia.com/keywordFonts/4011401