摘要:本篇文章探讨了大数据采集之一份非常全面的开源数据集,希望阅读本篇文章以后大家有所收获,帮助大家对相关内容的理解更加深入。
本篇文章探讨了大数据采集之一份非常全面的开源数据集,希望阅读本篇文章以后大家有所收获,帮助大家对相关内容的理解更加深入。
近期,skymind.ai 发布了一份非常全面的开源数据集。内容包括生物识别、自然图像以及深度学习图像等数据集,现机器之心将其整理如下:(内附链接哦~)
最近新增数据集
开源生物识别数据://openbiometrics.org/
Google Audioset:扩展了 632 个音频分类样本,并从 YouTube 视频中提取了 2,084,320 个人类标记的 10 秒声音片段。
地址:https://research.google.com/audioset/
Uber 2B trip data:首次展示 2 百万公里的出行数据。
地址:https://movement.uber.com/cities
Yelp Open Dataset:Yelp 数据集是用于 NLP 的 Yelp 业务、评论和用户数据的子集。
地址:https://www.yelp.com/dataset
Core50:用于连续目标识别的新数据集和基准。
地址:https://vlomonaco.github.io/core50/
Kaggle 数据集:https://www.kaggle.com/datasets
Data Portal://dataportals.org/
Open Data Monitor:https://opendatamonitor.eu/
Quandl Data Portal:https://www.quandl.com/
Mut1ny 头部/面部分割数据集://www.mut1ny.com/face-headsegmentation-dataset
Github 上的优秀公共数据集:https://www.kdnuggets.com/2015/04/awesome-public-datasets-github.html
头部 CT 扫描数据集:491 次扫描的 CQ500 数据集。
地址://headctstudy.qure.ai/
自然图像数据集
MNIST:手写数字图像。最常用的可用性检查。格式 25x25、居中、黑白手写数字。这是一项简单的任务——仅某部分适用于 MNIST,不意味着它有效。
地址://yann.lecun.com/exdb/mnist/
CIFAR10 / CIFAR100:32x32 彩色图像,10/100 类。虽然仍有趣却不再常用的可用性检查。
地址://www.cs.utoronto.ca/~kriz/cifar.html
Caltech 101:101 类物体的图片。
地址://www.vision.caltech.edu/Image_Datasets/Caltech101/
Caltech 256:256 类物体的图片。
地址://www.vision.caltech.edu/Image_Datasets/Caltech256/
本文由职坐标整理发布,学习更多的相关知识,请关注职坐标IT知识库!
您输入的评论内容中包含违禁敏感词
我知道了
请输入正确的手机号码
请输入正确的验证码
您今天的短信下发次数太多了,明天再试试吧!
我们会在第一时间安排职业规划师联系您!
您也可以联系我们的职业规划师咨询:
版权所有 职坐标-一站式IT培训就业服务领导者 沪ICP备13042190号-4
上海海同信息科技有限公司 Copyright ©2015 www.zhizuobiao.com,All Rights Reserved.
沪公网安备 31011502005948号