博客数据挖掘-机器学习-深度学习常用数据集

数据挖掘-机器学习-深度学习常用数据集

数栈君发表于 2023-11-28 09:37 697 0

0.0 数据源

大的数据收录网站

github awesome-public-datasets
skymind open dataset : 保罗万象的数据集搜集网，什么类型的数据都有

0.1 普通数据集

即被交付给的原始数据集
0.2 公开数据集
0.2.1 离散和连续型普通数据集

uci数据集 :一个公开的用于机器学习的数据集，包含几乎所有类别数据，适用于多种机器学习任务
政府公开数据集
欧洲政府公开数据集
美国政府公开数据集
新西兰政府公开数据集
印度政府公开数据集
中国人民银行,社会融资规模、金融统计数据、货币统计、金融机构信贷收支统计、金融市场统计、企业商品价格指数等
国内各类型银行业金融机构
中国国家统计局
数据_中国政府网

0.2.2 图像数据集

图像分类

手写字识别MNIST，60000万张分辨率为28x28，数字0-9灰白图识别
CIFAR-10,6万张分辨率为32x32的10个分类的彩色分类图像
ImageNet 1400万张，1000多个类别的分类图像，深度学习图像领域的关键比赛数据
coco 微软组织的图像数据，包含了多种图像任务数据

目标检测

coco 微软组织的图像数据，包含了多种图像任务数据
PASCAL VOC

目标跟踪

OTB50和OTB100
VOT2013-2019

语义分割

PASCAL VOC:分割任务中VOC2012的trainval包含07-11年的所有对应图片， test只包含08-11。trainval有 2913张图片共6929个物体
Cityscapes 城市道路分割：该数据集包含images_base和annotations_base分别对应这文件夹leftImg8bit（5,030 items, totalling 11.6 GB，factually 5000 items）和gtFine（30,030 items, totalling 1.1 GB）。里面都包含三个文件夹：train、val、test。总共5000张精细释，2975张训练图，500张验证图和1525张测试图。在leftImg8bit/train下有18个子文件夹对应德国的16个城市，法国一个城市和瑞士一个城市
CamVid：城市街道分割
KITTI：移动机器人及自动驾驶研究的最受欢迎的数据集之一，包含7481张训练集，7518张测试集，总计80.256种标签。该网站也列出了历年的分割结果以及对应的方法。
ADE20K_MIT：场景理解的新的数据集包括各种物体（比如人、汽车等）、场景（天空、路面等），150个类别，22210张图。
Sift Flow Dataset: 包含2688张图片，33个labels，包括Awning（棚） balcony（阳台） bird（鸟） boat（船） bridge（桥）Building（建筑）等每一类都有百张左右。
Stanford Background Dataset:包含从现有公共数据集中选择的715个图像，具有大约320×240像素，包含label种类：天空，树，道路，草，水，建筑物，山脉和前景物体.
MSRC Dataset:240个图像，可识别9个object class。
LIP:人体图像是从microsoft coco训练集和验证集中裁剪的。定义了19个人体部件或衣服标签，它们是帽子、头发、太阳镜、上衣、衣服、外套、袜子、裤子、手套、围巾、裙子、连体裤、脸、右臂、左臂、右腿、左腿、右脚、右脚鞋、左鞋，以及背景标签。数据集中共有50462张图像，其中包括19081张全身图像、13672张上身图像、403张下身图像、3386张头部丢失的图像、2778张后视图图像和21028张有遮挡的图像。
Mapillary Vistas Dataset:25,000个高分辨率图像（分为18,000个用于训练，2,000个用于验证，5,000个用于测试）.152个物体类别，100个特定于实例的注释类别。一个多样化的街道级图像数据集，具有像素精确和特定于实例的人类注释，用于理解世界各地的街景。
MIT SceneParse150:MIT场景解析基准（SceneParse150）为场景解析算法提供标准的训练和评估平台。该基准测试的数据来自ADE20K数据集。
COCO 2017 Stuff Segmentation Challenge:COCO 2019 图像分割挑战赛。COCO数据集非常全面，可以从其官方网站下载各类图像任务数据集。
INRIA Annotations for Graz-02:2006年发布的数据集，包含人、自行车、汽车三类，合计超过2000张。
Clothing Co-Parsing (CCP) Dataset:衣服分割图片，2098张高分辨率街头时尚照片，共59个标签。
ApolloScape:百度提供的场景解析数据集,开放数据集累计提供146,997帧图像数据，总计34类，包含像素级标注和姿态信息，以及对应静态背景深度图像下载。

图像融合

爱分割人脸matting数据集:数据量大，包含34427张图像和对应的matting结果图，但是数据标注不够精细
alpha matting官方数据集: 目前已知的最精细的数据集，但是数据量太少，只有27张。
Deep Automatic Portrait Matting:包含2000张图像，精度和数量都适中，由于此数据集有很多明显的标注错误，需要进一步人工校正。

超分辨率

Vimeo-90k:包含89800张从vimeo.com网站上视频截图，图像分辨率为448 x 256
FlyingChairs：22872张图像对，2D对应的3D图像，标注ground truth为光流。
CelebA202599张各个尺寸的图片，此数据集有多类用途。
Waterloo：包含4741张原图，以及从这些图像中抖动生成的94,880图像。
DIV2K:包含800张训练集，100张验证集，100张测试集，总计1000张2k分辨率图像。

人脸数据集

CARC:百度网盘提取码 dvyn

celaba
celaba 128x128分辨率原始数据集官方下载
celaba 128x128分辨率原始数据集百度云下载
celaba hq 数据集生成方法
celaba hq 数据集图片格式 128x128,256x256,512x512,1024x1024 谷歌drive下载
celaba hq 官方提供的dat格式下载
年龄和表情数图像据集
FACES:包含了 171 young (n = 58), middle-aged (n = 56), and older (n = 57) ，不同表情的图片数据集。
————————————————
版权声明：本文为CSDN博主「春夏秋冬又一年」的原创文章，遵循CC 4.0 BY-SA版权协议，转载请附上原文出处链接及本声明。
原文链接：https://blog.csdn.net/huangxia73/article/details/108611010

免责申明：

本文系转载，版权归原作者所有，如若侵权请联系我们进行删除！

《数据治理行业实践白皮书》下载地址：https://fs80.cn/4w2atu

《数栈V6.0产品白皮书》下载地址：https://fs80.cn/cw0iw1

想了解或咨询更多有关袋鼠云大数据产品、行业解决方案、客户案例的朋友，浏览袋鼠云官网：https://www.dtstack.com/?src=bbs

同时，欢迎对大数据开源项目有兴趣的同学加入「袋鼠云开源框架钉钉技术群」，交流最新开源技术信息，群号码：30537511，项目地址：https://github.com/DTStack

人工智能与数据挖掘的关系大数据挖掘是什么，数据挖掘的方法有哪些？来，带你一次性搞懂数据分析和数据挖掘数据挖掘和数据仓库之间的区别数据挖掘近年来的研究方向、方法总结一文读懂数据挖掘建模预测？大数据工程师、数据挖掘师和数据分析师有啥区别数据挖掘教程：什么是数据挖掘？技术，工艺数据挖掘数据挖掘机器学习深度学习常用数据集

0条评论

上一篇：数据挖掘一：数据挖掘与数据理解

下一篇：什么是数据安全及数据安全漏洞

我要提问

分享经验

社区公告

大数据领域最专业的产品&技术交流社区，专注于探讨与分享大数据领域有趣又火热的信息，专业又专注的数据人园地

最新活动更多

数据挖掘-机器学习-深度学习常用数据集

我要提问

分享经验

微信扫码获取数字化转型资料

钉钉扫码加入技术交流群