voc数据集格式(voc数据集和coco数据集区别)

voc数据集格式(voc数据集和coco数据集区别)

  近日,在国际顶级的计算机视觉竞赛 Pattern Analysis, Statistical Modeling and Computational Learning(PASCAL VOC)挑战赛目标检测 comp4 赛道上,创新奇智 (AInnovation) 研发的 AInnoDetection 目标检测算法在 20 项的评测指标中,取得 10 项指标排名第一的成绩,超越众多国内外知名人工智能企业和高校人工智能实验室,夺得大赛冠军。

  PASCAL VOC 挑战赛是视觉对象的分类识别和检测的基准测试比赛。该赛事是世界最权威的三大计算机视觉挑战赛之一,数据集标注质量高、场景复杂、目标多样、检测难度大、数据量小但是场景丰富,相比

  ImageNet

  等更加考验人工智能算法的设计和创新能力。如今,PASCAL VOC 挑战赛和其所使用的数据集已经成为目标检测领域普遍接受的标准,一年一度的挑战赛成为了国内外团队角逐实力的赛场。今年有全球近百支专业队伍参加挑战赛。参赛团队包括 Google、Microsoft、CMU、清华大学、阿里巴巴、腾讯、搜狗、Yi+、平安科技等国内外知名图像领域的顶尖队伍。

  目标检测

  是图像领域三大基本任务之一。任务要求算法在给定图像中精确定位物体的位置,并标注出被定位物体的类别。因此,算法首先需要确定图像中物体位置,然后对已定位的物体进行分类。

  目标检测的难点在于,图像中的目标大小、位置、姿态等不确定,同一图像中可能有多个目标。这些问题给算法准确检测目标带来了挑战。

  在 Pascal VOC 的数据集中,算法识别难度更高。首先,图像中的目标分属数十个类别,包括人类、动物、交通工具、室内物体等,目标种类数量较多。其次,数据集较小,模型难以通过大量数据训练提升表现。此外,图像包含多个室内外场景,单个图像中的内容多变,目标数量和种类丰富,这对算法在多种场景下准确检测多个目标提出了更高要求。

  Pascal VOC 数据集部分样本

  AInnoDetection 目标检测算法

  由创新奇智提出的 AInnoDetection 目标检测算法,在 20 类不同的目标检测上获得了 10 个类别的检测 MAP(准确率) 第一、总分第一的成绩。这一算法在模型架构、数据增强等方面都进行了创新和改进。

  模型架构

  从架构而言,AlnnoDetection 基于目标检测算法中著名的二阶段(two stage)检测法,首先由算法对目标生成候选框,然后将选定的物体进行分类。在结构上,骨干网络使用 ResneXt152 网络架构,使用它来提取多尺度特征图,而颈部网络采用一个 6 级特

  特征金字塔网络

  (FPN),用来生成更丰富的多尺度卷积特征金字塔。在这之后,连接两个共享子网,一个子网负责分类目标框,另一个网络负责将目标框回归到真实框,最后使用 focal-loss 作为二分类的损失。在训练中,模型采用多尺度测试融合,这样能够使网络根据不同的图像尺度来关注不同的目标框信息。

  让小图片更加关注大物体,大图片更加关注小物体。

  数据增强方法

  考虑到数据集较小的问题,团队采用数据增强来扩充训练数据。增强方法包括填充小目标和 mixup 的方法。

  填充小目标方法是在单个图像上,将目标复制多次,并添加在图像上。该方法可以增加小目标在训练中的曝光次数,使得模型更好的学习相关特征,最终使模型能够准确检测图像中的多个大小的目标。

  Mixup 方法则是将多幅图像融合,使被检测多个目标重叠。该方法增加了图像中的场景类别,丰富了模型需要检测的图像种类,使得模型在图像数据变得复杂的情况下学习目标的特征。Mixup 方法使模型拥有更好的预测效果,在应对复杂场景图像时更加稳健。

  为了提升目标检测的准确率,团队最后采用多模型融合的方法,输出最优的结果。

  模型表现

  从赛事主办方发布的排名显示,在 comp4 赛道比赛中,AlnnoDetection 算法在 20 项评测指标中取得 10 项指标第一、总分第一的成绩,超越了多家研究机构和知名 AI 企业。

  图片来源:Pascal VOC 官网

  

  目前,此次夺冠的目标检测算法在创新奇智的商品检测、工业视觉缺陷检测、渠道陈列监控等产品中已经使用。

  参赛团队

  创新奇智 CTO 张发恩

  参与本次 Pascal VOC 竞赛的创新奇智团队由张发恩、吴佳洪、杨志铮、曹浩天、宋剑飞和范馨予组成。Leader 张发恩现任创新奇智 CTO、创新工场人工智能工程院首席架构师和宁波诺丁汉大学荣誉教授,曾任职 Microsoft、Google 和百度,持有多项国内外人工智能算法专利和发表过数篇人工智能顶级会议论文。

  关于创新奇智

  创新奇智是创新工场的 AI 子公司,以「人工智能赋能商业未来」为使命,致力于用最前沿的人工智能技术为企业提供 AI 相关产品及商业解决方案。公司战略为「技术产品」+「行业场景」的双轮驱动模式,极力推动技术商业化。创新奇智 CEO 徐辉在 IT 行业拥有 20 余年的销售、产品、技术、服务、管理经验,历任 IBM、微软、SAP 等多家世界 500 强科技巨头企业高管。

  自成立伊始,创新奇智已在零售、制造、金融等多个领域的持续发力,稳步推进人工智能算法商业化。成果包括机器学习平台和 AI 工业视觉平台 ManuVision,以及多篇顶级会议论文。而除了这次 Pascal VOC 赛事夺冠之外,创新奇智在多个世界顶级人工智能算法大赛上夺冠。比如,创新奇智最近在 WIDER FACE 人脸检测赛事中夺冠。

  创新奇智拥有优异的技术研发团队,结合 AI 技术商业化的特点,制定了科学技术人才三级体系建设方案,包括:「创新奇智科研委员会、创新奇智创新研究院和创新奇智工程算法研发团队」。创新奇智科研委员会专家包括前腾讯 AI Lab 负责人张潼、 百度研究院三维视觉首席科学家杨睿刚、密歇根州立大学教授张弥、创新工场人工智能工程院执行院长王咏刚、创新奇智 CTO 张发恩等。

推荐阅读

    01- 第一天 spring boot2.3.1 +vue3.0 后台管理系统的研发

    01- 第一天 spring boot2.3.1 +vue3.0 后台管理系统的研发,自己的,后台,后台框架一直想开发一套完全属于自己的后台,但是18年的时候,曾经答

    电脑十进制算法|十进制的算法教程

    电脑十进制算法|十进制的算法教程,,十进制的算法教程0x10就是十六进制数10,转换为十进制数是16,即10(十六进制) = 16(十进制)。十六进制转换

    伪代码描述算法

    伪代码描述算法,算法,描述,伪代码,自然语言,语言,编程语言,  伪代码是自然语言和类编程语言组成的混合结构。它比自然语言更精确,描述算法很简

    进程调度详细总结|进程调度算法模拟

    进程调度详细总结|进程调度算法模拟,进程,优先级,一、概念: 无论是在批处理系统还是分时系统中,用户进程数一般都多于处理机数、这将导致它

    路由算法区分管理距离和最大跳数

    路由算法区分管理距离和最大跳数,路由,网络,路由器,路由协议,协议,状态,管理距离就是人为指定的一个数字,由这个数字来代表路由协议的优先度,数字

    支持国产!中国自主研发操作系统

    支持国产!中国自主研发操作系统,操作系统,国产,应用商店,厂商,中国,联盟,支持国产!中国自主研发操作系统国产操作系统想要迈过市场关,就必须打破&

    惠普研发公司简介

    惠普研发公司简介,公司,惠普,服务,硅谷,企业,美元,HP全球简介1939年,在美国加州帕洛阿尔托市(Palo Alto)爱迪生大街367号的一间狭窄车库里,两位年

    PostgreSQL存储过程返回数据集实例

    PostgreSQL存储过程返回数据集实例,门店,会员,这里用一个实例来演示PostgreSQL存储过程如何返回数据集.1 首先准备数据表//member_categor