知科技 看见科技的生产力

首页 /  数码IT / 内容详情

计算机视觉项目十大开源数据集

数码IT 时间:2021-10-24 20:00:07

这些是一些广泛使用的计算机视觉开源数据集。

计算机视觉是目前科技界最令人兴奋的领域之一。它是几个AI和ML驱动的应用程序和平台的主要组成部分,正在彻底改变几乎所有行业。传统的商业和机器工作方式已经被计算机科学这一公认的领域所提升。计算机科学在自动目标检测、图像字幕、视频帧分析和医学图像分析等方面有着多种应用。在本文中,我们将讨论计算机视觉中使用最广泛的开源数据集。

•ImageNet:这是一项正在进行的研究工作,旨在为研究人员提供一个可访问的图像数据库。它是最著名的图像数据库之一,深受研究人员和学习者的喜爱。ImageNet旨在提供平均1000幅图像来说明每个合成集。

•CIFAR-10和CIFAR-100:CIFAR-10和CIFAR-100是一组图像,用于培训机器学习和计算机视觉算法,供该领域的初学者使用。这些也是用于快速比较算法的机器学习的一些最流行的数据集,因为它捕获了缺点和优点,而不会给参数调整过程带来太多负担。

•MS COCO:MS COCO数据集,也称为Microsoft通用对象,由328K图像组成。它为目标检测、关键点检测、全景分割、字幕和密集人体姿势估计进行注释。

•MPII人体姿势:该数据集用于评估关节式人体姿势估计。它由大约25K张图像组成,其中包括超过40K个身体关节有注释的人。每个图像都是从不同的YouTube视频中提取的,并提供了前面的内容。总的来说,数据集覆盖了大约410人,每个图像都标有不同的活动。

•Barkley DeepDrive:该数据集主要用于自动驾驶车辆培训。它包含超过100K的视频序列,带有各种注释,如对象边界框、可驾驶区域、图像级别标记、车道标记等。此外,数据集在表示各种地理、环境和天气条件方面表现出广泛的多样性。

•城市景观:它是一个数据库,包含50个不同城市街道场景中记录的各种立体声和视频序列。它还包括语义、实例和密集像素注释,用于分为8个类别的30个分区。CityScapes为5000帧和20000个粗略注释的帧提供像素级注释。

•LabelMe:LabelMe是一个项目,旨在提供带有注释的数字图像数据集。这个平台是动态的,可以免费使用,也可以向公众开放。该工具可以匿名访问,也可以通过登录免费帐户访问。用户必须能够访问支持JavaScript的兼容web浏览器。

•CheXpert:CheXpert是一个大型胸部X光数据集,是自动胸部X光解释的竞争对手。它具有标准评估集的不确定度标签和放射学家标记的参考。由于胸部X光摄影是治疗危及生命的疾病最常见的影像检查,因此该平台在以下几个方面被证明是有效的。

•Flickr-30K:Flick-30K已成为图像字幕的基准。这些数据集提供的注释能够定位图像中提到的文本实体。该数据集包含从Flickr收集的31000张图像,以及人类注释者提供的5个参考句子。

•LSUN:LSUN,也称为大规模场景理解,包含近100万张标签图像,旨在为大规模场景分类和理解提供不同的基准。它还包含10个场景类别,如餐厅、卧室、室外教堂等。

标签: #数码IT

郑重声明:图文由自媒体作者发布,我们尊重原作版权,但因数量庞大无法逐一核实,图片与文字所有方如有疑问可与我们联系,核实后我们将予以删除。