1. 通用图像数据集数据集名称
特点
适用任务
获取方式
CIFAR-10/100
6万张32x32小图像,10/100类别
图像聚类、特征学习
官网下载
STL-10
10万张96x96图像,含未标注数据
无监督预训练、聚类
官网下载
ImageNet-1k(无标签版)
随机抽取的未标注ImageNet子集
大规模特征提取
Kaggle
Tiny Images (80M)
8000万张32x32小图像(需过滤噪声)
大规模聚类研究
MIT授权访问
2. 领域专用数据集
数据集名称
领域
特点
适用任务
CelebA
人脸
20万张名人脸部图像
人脸聚类、生成模型
官网
DeepFashion
时尚
80万张服装图像
时尚品类聚类
GitHub
Places365
场景
180万张场景图像
场景分类/聚类
官网
EuroSAT
遥感
2.7万张卫星图像
地物自动分类
GitHub
3. 无监督学习专用基准库工具/库
功能
特点
Torchvision (Unlabeled Datasets)
PyTorch内置未标注数据集
直接调用torchvision.datasets中的无标签模式
TensorFlow Datasets (TFDS)
提供tfds.load的无监督模式
支持split='unlabelled'的数据
Scikit-learn 内置数据集
make_blobs/make_moons
快速生成模拟聚类数据
UC Irvine Machine Learning Repo
500+无标签数据集
筛选"Unsupervised"标签
UCI官网
4. 特殊类型数据
类型
推荐数据集
特点
医学图像
CheXpert(去标识版)
胸部X光片无监督分析
官网
文本转图像
LAION-5B子集
从文本描述生成图像聚类
官网
时序图像
Moving MNIST
动态数字序列聚类
GitHub
5. 实用工具推荐数据增强工具Albumentations:生成多样性图像变体python复制from albumentations import HorizontalFlip, Rotate augment = Compose([HorizontalFlip(p=0.5), Rotate(limit=30)])特征提取预训练模型python复制# 使用ResNet提取特征 model = torch.hub.load('pytorch/vision', 'resnet50', pretrained=True) features = model(images)可视化工具UMAP:降维可视化python复制import umap reducer = umap.UMAP() embedding = reducer.fit_transform(features)选择建议:入门练习:STL-10(含专门的无监督学习分支)大规模实验:LAION-5B子集(需GPU支持)领域研究:根据方向选择CelebA/DeepFashion等快速验证:用sklearn.datasets.make_classification生成模拟数据所有数据集使用时请注意遵守对应的数据使用协议(尤其含人脸的数据需谨慎)。