无监督学习分类图片库列表

信息化聊科技 2025-04-19 14:56:48
1. 通用图像数据集数据集名称 特点 适用任务 获取方式 CIFAR-10/100 6万张32x32小图像,10/100类别 图像聚类、特征学习 官网下载 STL-10 10万张96x96图像,含未标注数据 无监督预训练、聚类 官网下载 ImageNet-1k(无标签版) 随机抽取的未标注ImageNet子集 大规模特征提取 Kaggle Tiny Images (80M) 8000万张32x32小图像(需过滤噪声) 大规模聚类研究 MIT授权访问 2. 领域专用数据集 数据集名称 领域 特点 适用任务 CelebA 人脸 20万张名人脸部图像 人脸聚类、生成模型 官网 DeepFashion 时尚 80万张服装图像 时尚品类聚类 GitHub Places365 场景 180万张场景图像 场景分类/聚类 官网 EuroSAT 遥感 2.7万张卫星图像 地物自动分类 GitHub 3. 无监督学习专用基准库工具/库 功能 特点 Torchvision (Unlabeled Datasets) PyTorch内置未标注数据集 直接调用torchvision.datasets中的无标签模式 TensorFlow Datasets (TFDS) 提供tfds.load的无监督模式 支持split='unlabelled'的数据 Scikit-learn 内置数据集 make_blobs/make_moons 快速生成模拟聚类数据 UC Irvine Machine Learning Repo 500+无标签数据集 筛选"Unsupervised"标签 UCI官网 4. 特殊类型数据 类型 推荐数据集 特点 医学图像 CheXpert(去标识版) 胸部X光片无监督分析 官网 文本转图像 LAION-5B子集 从文本描述生成图像聚类 官网 时序图像 Moving MNIST 动态数字序列聚类 GitHub 5. 实用工具推荐数据增强工具Albumentations:生成多样性图像变体python复制from albumentations import HorizontalFlip, Rotate augment = Compose([HorizontalFlip(p=0.5), Rotate(limit=30)])特征提取预训练模型python复制# 使用ResNet提取特征 model = torch.hub.load('pytorch/vision', 'resnet50', pretrained=True) features = model(images)可视化工具UMAP:降维可视化python复制import umap reducer = umap.UMAP() embedding = reducer.fit_transform(features)选择建议:入门练习:STL-10(含专门的无监督学习分支)大规模实验:LAION-5B子集(需GPU支持)领域研究:根据方向选择CelebA/DeepFashion等快速验证:用sklearn.datasets.make_classification生成模拟数据所有数据集使用时请注意遵守对应的数据使用协议(尤其含人脸的数据需谨慎)。
0 阅读:2

信息化聊科技

简介:感谢大家的关注