微信AI从识物到通用图像搜索的探索揭秘算法聚类

作者:lincolnlin,腾讯WXG专家研究员

从一个query到结果,识物引擎是如何完成一次图像识别全过程呢?

首先我们会对query的图片做目标检测,去除背景干扰。

然后以图像主体进行检索,拿到图像召回的列表。

最后一步是进行信息提炼,得到商品的标题,品牌,主体,主图等。

从一个识别天地一号的例子来讲,可以看到从检测、图像召回、信息提炼后,我们得到了这是一个天地一号的苹果醋,再关联更多的搜索结果。

识物搜索的现状

商品识别

社群中经常会看到商家在推荐商品,我们直接通过搜一搜,可以快速了解商品信息,看看是否真是物有所值,价廉物美。

细分类识别

我们还支持动物识别、菜品识别、红酒识别、名画识别等细分类识别能力。菜品识别对一些正在减肥健身的人群,了解食品的热量是个强需求。长按识别菜品我们很快会支持查热量,我们支持常见的菜肴、水果蔬菜、包装食品等。

以图搜图的拓展

接下来介绍以图搜图的一些拓展能力:

搜索物料:通过识别logo+ocr的方法,可以实现内容提取并跳转的能力。

以图搜图的系统实现

前面是一些产品介绍,接下来我详细聊一下以图搜图的系统实现,核心讲三个东西:分类、检测、检索。

分类篇|图片内容标签体系

分类篇|多标签分类

分类篇|细分类的应用

前面提到的图像标签,是一个粗分类的方法。我们只需要知道是一只狗,但不需要知道是蛤蟆狗,还是哈士奇。要真的能见微知著,通过一些细节来分辨物体具体的款式,这也是计算机视觉擅长的领域。实现细分类,总的来说,我们有两种做法。

电商场景:我们要识别的集合是无限大的,而且还是动态的。所以我们是通过动态图像召回。从召回的结果上推断出商品的具体款式。

动植物汽车这种场景:集合是相对固定的。而且需要一些专业的数据库。我们采用分类+检索的方法,在具体的处理逻辑上,也依据具体的场景不同而不同。目前我们支持了动物/植物/菜品/地标/汽车/名画/红酒识别。

检测篇|移动端主体检测

我们基于centernet的方法,并基于移动端的场景进行专项优化,如大感受野、轻检测头、改进可形变卷积在移动端的实现等。最终我们的方法与主流方法在ms-coco上对比,在MAP相当的情况下,参数量只有1M,大大降低。在iphone下测试,每帧只需25ms.。从上图可以看出,扫描模型改进版,有效提高了扫描速度,节省3倍流量。

检测篇|服务端物品检测

移动端是objness的无类别主体检测,服务端则更倾向于class-wise的目标检测。我们既要支持商品类目,又需同时识别出各种自然场景。故我们基于maskrcnn的训练框架,改进RetinaNet成为双流的RetinaNet,一条流用于商品的精确位置和类别输出,一条流只用于分类自然场景图片,以便快速拓展更新模型。

检测篇|目标检测的应用

目标检测算法对于Query理解,去除背景干扰,理解多主体,还有压缩源数据的基础算法能力。

在我们离线构建检索库的过程中,检测器会检出非常多的目标,这里会包含很多的噪声目标,如图中还会检出鞋子、上衣等。我们最后会根据标题NER后的主体,还有所有bbox之的聚类结果,来决定商品最后的bbox是哪些。

以图搜图本质上是寻找度量图像之间距离的方法,这个距离的表示有很多维度。

所以这里的核心工作之一,就是寻找一个强大的特征表达,可以跨越不同视角,不同装扮下的gap,让我们探寻事物的本质,更靠近任务的目标。一开始在重复图任务上,我们还会使用ORB,SIFT,SURF这些局部特征,再使用像BOW、VLAD、FisherVector这些方法,把多个局部特征聚合成一个统一维度的向量表示,以利于检索的工程化。但当我们积累了足够多的同款数据后,CNN的方法在平面图上的表达能力,也已远超传统的图像方法。

关于CNN特征学习的探索,在一文中已有全面的论述。我们的另一块核心工作,是解决大规模数据下带来的挑战。

检索篇|大规模检索系统之分库实现

检索篇|识物引擎系统框架

检索篇|识物引擎之分库路由

2.路由:那么当一个query到来时候,我们去检测哪个库呢?这就涉及到路由的逻辑。

前面提到服务端的检测是带有类别的,比如图中输出鞋子,那么我们就走鞋子的专用检索模型提取特征,再到鞋子库中检索。这是最朴素的版本。然而现实场景中的真实的数据分布往往是离散,且存在较大交叉边界的,这会导致以下问题。

检索的开集问题,比如未出现过的子类容易分错;

类间混淆性,从视觉上存在歧义。

检索篇|识物引擎之类目预测

基于我们前面提到的数据分布,我们首先从分类好的商品库中,采样出图片进行聚类,通过聚类堆中包含商品类目的多少,把所有的堆分成cleancluster和dirtyclean。如上图所示,cleancluster代表商品图是容易从视觉上分类的,都是鼠标。而dirtyclean则代表不容易视觉区分,都是一些相似的瓶瓶罐罐。相应的,clean的图一般只需检索1-2个类目库,而dirty的图需要检索4-5个类目库。简单讲,我们实现了一个动态topk检索的优化。从最终优化效果看,在平均检索次数更低的情况下,实现了更高的类别准确率。

检索篇|通用以图搜图之无监督的分库

上面提到的是识物的检索方案实现,回到通用的以图搜图场景,我们无法简单的把图片定义成N个库出来,所以我们用了无监督的分库方法。

1.分库:基于moco这种无监督的对比学习方法,得到图片一个向量表示。再通过聚类的方法产生伪标签,如下面的16个标签。可以看出,相同topic的图片,会被尽量分到同一个库中。

检索篇|图搜流程框架

2.路由:在离线流程中,我们把所有的图片通过上述的分库方法,分成了16个库。在线检索的时候,路由层会预测query图的标签,只走top3的分库。最后通过一个统一多库精排模型,把召回结果融合到一起。

THE END
1.您身边的是什麼字體?眾識社區識字體網微软雅黑 Bold 94.6% 商用须授权 YaHei Ubuntu Mono Bold Italic 94.5% 商用须授权 YaHei Ubuntu Mono Bold 94.5% 商用须授权 微软雅黑 - Kelvin 94.3% 商用须授权 方正兰亭粗黑简体 94.3% 个人非商用 方正兰亭粗黑_GBK 94.3% 个人非商用 Font Creator Program 94.2% 商用须授权 兰亭粗黑'Segoe https://hant.m.likefont.com/community/112774208/
2.搜图神器官方网站搜图神器官方网站|网页版|PC电脑版下载|APP客户端下载,聚合海内外知名图片搜索引擎,以图搜图引擎,一键搜索所有图片资源免费下载!更有海量丰富图库素材资源免费获取,主打二次元、插画、唯美、风景、美女壁纸,分类明细,主题齐全!满足你日常生活学习所有的用图需求!让http://soutushenqi.com/home/
3.《百度识图》在线入口手机软件php小编苹果为您介绍《百度识图》在线入口,这是一款功能强大的图片识别工具,用户可以通过上传图片或输入图片链接,在线快速识别图片内容。无论是想了解图片中的物体名称、获取相关信息,还是寻找相似图片,都能轻松实现。《百度识图》在线入口的便捷操作和准确识别,让用户在日常生活中更加便利快捷。 百度识图在线入口 https://m.php.cn/faq/690536.html
4.图像识别云主机 ECS GPU云主机 GACS 弹性伸缩 EAS 裸金属服务器 BMS 专属宿主机 DDH 容器服务 KCS 容器镜像服务 CIS 云主机备份 CBS 镜像服务 IMS Linux系统订阅服务 CLS 云电脑 容器服务 CNP版 云硬盘 EBS 对象存储 EOS 文件存储 EFS 云备份CBR 并行文件存储 PFS https://ecloud.10086.cn/op-help-center/api/outline/77270
5.百度识图网页版入口在线使用百度识图网页版登录官网《百度识图》作为百度公司倾力打造的在线图像识别工具,以强大的AI技术为支撑,为用户打开了一扇通往视觉智能新世界的大门。无需下载任何软件,无需复杂设置,只需上传或粘贴图片链接,即可享受即时、准确的图像识别服务。下面为大家带来《百度识图》网页版入口。 https://app.3dmgame.com/gl/523054.html
6.搜狗图片搜索/搜索识图图说新闻 组图:刘雯胶片质感大片曝光 微醺灯光下展现女性优雅自如的力量 6张 图说新闻 组图:章子怡刘嘉玲女神气场足 王俊凯宋亚轩等同场 12张 图说新闻 宋佳梳马尾穿个性花衬衫 单手托腮眼神霸气 13张 图说新闻 组图:师兄弟同框!王俊凯宋亚轩一前一后下飞机梦幻养眼 6张 图说新闻 组图:李现最新时尚大片释出 穿灰蓝色https://pic.sogou.com/
7.百度识图在线识图,以图搜图百度识图在线识图官网入口网址3:https://image.baidu.com/ 百度识图是一款基于图像识别技术的搜索工具,它允许用户通过上传图片或输入图片链接来自动识别图片中的内容,并提供相关的信息和搜索结果。用户可以在百度识图官网中,通过点击搜索栏中的相机图标,然后添加需要识图的图片,上传后系统将自动跳转到识图结果页面。https://www.bgrdh.com/sites/27069.html
8.百度识图网站用这个百度识图电脑版 https://graph.baidu.com/pcpage/index?tpl_from=pc 找一些原图之类的 在手机上不好用 感觉电脑上好用一点 我用了几次找到了想要的图 赞 回应 转发 赞 收藏 只看楼主 少年颜控 (喜欢狐狸,是个不想长大的家伙) 组长 楼主 2022-03-28 17:07:19 手机上打开百度识图网站地址https://www.douban.com/group/topic/218257131
9.手机谷歌识图入口手机谷歌识图入口 简介 手机谷歌识图入口在哪?怎么操作识图?工具/原料 华为P50 HarmonyOS2.0.0 方法/步骤 1 打开手机上 Chrome 浏览器打开 Google 首页,并点一下左上角的「图片」。2 在Google 图片搜索网页后点开右上角点击?「三个? 点」符号。3 在弹出菜单中点击「电脑版网站」进行切换模式。4 https://jingyan.baidu.com/article/948f5924ff404c990ff5f9cb.html
10.百度识图网页版入口“世界很复杂,百度更懂你”,常规的图片搜索,是通过输入关键词的形式搜索到互联网上相关的图片资源,而百度识图则能实现用户通过上传图片或输入图片的url地址,从而搜索到互联网上与这张图片相似的其他图片资源,同时也能找到这张图片相关的信息。 以上便是小编为大家带来的百度识图网页版入口了,感兴趣的小伙伴可以去https://m.ali213.net/news/gl2401/1292301.html
11.谷歌识图最精准的搜索,最绚丽的浏览。天下美图,尽收眼前。海量图库,精彩分类:生活时尚、潮流女星、闪亮男星、影视集锦、游戏动漫、精美壁纸、爆笑趣图、体育军事、风景名胜。https://images.google.com/
12.中望教育云中望CAD识图云平台218501人在线 建筑CAD 15898人在线 机械CAD 69770人在线 装饰仿真 107165人在线 机械识图 651501人在线 环境工程施工仿真 1536人在线 环境工程 453人在线 数字化设计 37人在线 水利工程识图 1536人在线 环保设备原理 585人在线 建筑力学 1536人在线 公差配合 https://www.cadexam.com/
13.谷歌图片搜索images.google.com.hk 请收藏我们的网址 ICP证合字B2-20070004号 http://images.google.cn/
14.照片在线识人在线照片识别人物怎么识别图片中的文字字体_识图搜索在线照片识别_图转文字 建议搭配:对象存储服务OBS图转文字 - 快递单自动填写 图转文字 - 快递单自动填写 自动填写快递收寄件人信息,识别图片中联系人信息并自动填写快递单,减少人工输入 优势 - 联系人信息识别精准 可以准确提取姓名、地址、电话等关键信息,并通过地址校验等方法提高https://www.huaweicloud.com/theme/466031-1-Z
15.抖音推文文字怎么提取抖音推文入口?谷歌识图:谷歌提供了一款强大的图像识别工具,能够识别图像中的文字。您可以将抖音视频的截图上传至谷歌识图,即可获得对应的文字内容。 这些截图识别工具使用方便,可以帮助您快速提取需要的文字内容。 总结 提取抖音文字是许多抖音用户关注的问题,而现在有多种方便快捷的方法可以实现这一目标。用户可以选择使用第三方工https://tool.a5.cn/article/show/39538.html
16.百度识图领先的图像识别技术连接人与信息百度识图通过图像识别和检索技术,为你提供全网海量、实时的图片信息;你可以通过上传,粘贴图片网址等方式寻找目标图片的高清大图,相似美图;通过猜词了解和认知图片内容(如花卉、宠物、名人等);百度识图还拥有全网检索的人脸技术,帮你找到最相似的人脸。https://pidoutv.com/sites/10209.html
17.抖音识图找人方法及扫图识人功能介绍数据扩展:百度是用户获取信息的主要入口,随着移动互联网的发展,百度网页搜索完成了从PC到移动端的转型,从连接人与信息到连接人与服务的转变,用户在PC、Pad、手机上都可以访问百度首页。 百度图片识别 在线识别,怎么使用百度图片识别 说到在线图像识别,大家都知道,有人问怎么识别图像,另外也有人想问网页版的图像识http://www.bjhwtx.com/h-nd-146094.html
18.识别字体找字体上传图片识字体 当前剩余检测次数:0 请点击上传本地图片或拖拽图片到此处 匹配海量字体库,可识别中、英、日、韩、法、德等多国语言字体;1秒识别检测字体,强大的数据处理能力,快速规避侵权风险;超便捷的字体解决方案,打造安全图片制作生产链,字体无忧 可免费商用无版权字体合集下载入口 https://check.rightknights.com/font
19.链图云本机识图指南 企业图像跨机管理 无地域限制 公司内电脑可互相搜索,不受地域限制 管理简单成本低 图片存放本地无需上传云端,也无需专职IT人员负责管理 支持移动端搜图 支持微信移动端小程序展示公司图库 权限设置灵活 多级权限灵活保障企业图库数据安全图像跨机管理指南https://www.lianty.com/