无监督学习分类图片库列表

1. 通用图像数据集数据集名称特点适用任务获取方式 CIFAR-10/100 6万张32x32小图像，10/100类别图像聚类、特征学习官网下载 STL-10 10万张96x96图像，含未标注数据无监督预训练、聚类官网下载 ImageNet-1k（无标签版）随机抽取的未标注ImageNet子集大规模特征提取 Kaggle Tiny Images (80M) 8000万张32x32小图像（需过滤噪声）大规模聚类研究 MIT授权访问 2. 领域专用数据集数据集名称领域特点适用任务 CelebA 人脸 20万张名人脸部图像人脸聚类、生成模型官网 DeepFashion 时尚 80万张服装图像时尚品类聚类 GitHub Places365 场景 180万张场景图像场景分类/聚类官网 EuroSAT 遥感 2.7万张卫星图像地物自动分类 GitHub 3. 无监督学习专用基准库工具/库功能特点 Torchvision (Unlabeled Datasets) PyTorch内置未标注数据集直接调用torchvision.datasets中的无标签模式 TensorFlow Datasets (TFDS) 提供tfds.load的无监督模式支持split='unlabelled'的数据 Scikit-learn 内置数据集 make_blobs/make_moons 快速生成模拟聚类数据 UC Irvine Machine Learning Repo 500+无标签数据集筛选"Unsupervised"标签 UCI官网 4. 特殊类型数据类型推荐数据集特点医学图像 CheXpert（去标识版）胸部X光片无监督分析官网文本转图像 LAION-5B子集从文本描述生成图像聚类官网时序图像 Moving MNIST 动态数字序列聚类 GitHub 5. 实用工具推荐数据增强工具Albumentations：生成多样性图像变体python复制from albumentations import HorizontalFlip, Rotate augment = Compose([HorizontalFlip(p=0.5), Rotate(limit=30)])特征提取预训练模型python复制# 使用ResNet提取特征 model = torch.hub.load('pytorch/vision', 'resnet50', pretrained=True) features = model(images)可视化工具UMAP：降维可视化python复制import umap reducer = umap.UMAP() embedding = reducer.fit_transform(features)选择建议：入门练习：STL-10（含专门的无监督学习分支）大规模实验：LAION-5B子集（需GPU支持）领域研究：根据方向选择CelebA/DeepFashion等快速验证：用sklearn.datasets.make_classification生成模拟数据所有数据集使用时请注意遵守对应的数据使用协议（尤其含人脸的数据需谨慎）。

玩酷网

信息化聊科技