以下是一些比较优秀的共享数据集:
ImageNet:这是一个大规模图像识别数据集,包含1400万张图像和21000多个类别。ImageNet可以用于训练和评估各种图像分类、检测和分割算法。
COCO:这是一个通用的目标检测、分割和图像字幕生成数据集,包括330000个图像和250000个标注对象。COCO可用于训练和评估各种计算机视觉算法。
Open Images:这是一个由Google创建的大型图像数据集,其中包括900万个图像和1600个类别。Open Images还提供了物体检测、实例分割和关键点检测等任务的标注信息。
BERT Pre-training Data:这是一个来自谷歌的自然语言处理数据集,包括340亿个单词级别的文本片段。它被用来预训练BERT等深度学习模型,以提高它们在各种自然语言处理任务中的性能。
Common Crawl:这是一个由互联网上公开可用的文本数据组成的数据集,可以用于各种文本分析和自然语言处理任务。Common Crawl每年都会更新数据集,并提供在线API和下载选项。
以上是一些比较优秀的共享数据集,它们有着大规模、多样性和高质量的特点,对于训练和评估各种深度学习算法都具有重要意义。同时,这些数据集也为研究者提供了更好的数据来源,推动了各种基础研究和应用领域的发展。