5个免费的数据集来源,可用于数据科学项目

5个免费数据集,适用于数据科学项目

在进行数据驱动项目时,找到可靠和高质量的数据集是至关重要的。幸运的是,有几个免费的来源可提供各个领域的各种数据集。

然而,请注意数据的质量、文档和与每个数据集相关的任何许可限制。本文将探讨五个可以用于您下一个项目的免费数据集来源。

Kaggle

Kaggle是数据科学家和机器学习爱好者常用的平台。它提供了大量的开放数据集,同时还举办机器学习竞赛。这些数据库涵盖了广泛的主题,包括社会科学、医疗保健和金融等。Kaggle所采用的社区驱动方法保证了数据集的定期更新和维护。

正好赶上新的Kaggle连帽衫!@kaggle 发起了一个非常有趣的大型语言模型竞赛,旨在使用(大型)语言模型回答基于科学的多项选择题。我将结束我在Kaggle上的休息,参加这个竞赛。对于任何人来说,这是一个很好的问题,可以加速他们的学习! pic.twitter.com/eMKeOnUBZ8

— Sanyam Bhutani (@bhutanisanyam1) 2023年7月16日

UCI机器学习库

加州大学欧文分校的UCI机器学习库是机器学习社区经常使用的全面数据集合。它为许多不同类型的任务提供数据集,如分类、回归和聚类。库中的每个数据集都有完整的描述、属性列表和数据预处理说明。

相关文章: 初学者的9个数据科学项目创意

一种名为Google数据集搜索的搜索引擎专门用于帮助用户发现公开可访问的数据集。它索引了来自不同来源的大量数据集,如政府网站、学术机构和数据存储库。在寻找数据集时,可以使用关键字搜索、文件类型和许可过滤器、相关元数据和下载链接。

团队正在 #Megahack Hackathon上开发使用Tensorflow的癌症检测系统。对于数据集感到困惑,鼓励他们使用Google数据集搜索。#TensorFlow @JeffDean @ialimustufa @ericsk @ksoonson @DynamicWebPaige pic.twitter.com/EKmeQshcc2

— Shubham (@ishubhamsah) 2020年1月29日

Data.gov

Data.gov是美国政府的官方开放数据门户。它提供了大量来自多个联邦机构的数据集,涵盖了健康、环境、教育、交通等多个主题。Data.gov提供的数据集经常被用于分析、研究和创建数据驱动的应用程序。该平台倡导利用公共数据做好事,并提倡透明度。

相关文章: 你应该了解的15个重要数据术语

OpenML

OpenML是一个鼓励协作的平台,提供各种数据集和机器学习挑战。用户可以比较和复制机器学习实验,同时探索、下载和捐赠数据集。OpenML促进数据集、代码和结果的共享,同时强调机器学习研究中可重复性的重要性。

We will continue to update 算娘; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

资讯

以太坊的“Dencun”升级:交易更便宜更快

高度期待的以太坊Dencun升级计划将于3月13日推出,据开发人员证实,该升级将显著降低二层网络的燃气费用这一增强功能承诺大大...

区块链

如果Dogecoin达到比特币或以太坊的市值,它的交易价格会达到多少?

如果这个迷因币的市值达到比特币或以太坊的当前市值,那么Dogecoin的价格将会是多少?

资讯

美国证券交易委员会(SEC)委员“加密货币妈妈”皮尔斯对现货以太坊交易所交易基金(ETF)持乐观态度

根据美国证券交易委员会委员赫斯特·皮尔斯(Hester Peirce)的表示,该委员会批准实物以太币ETF并不需要提起诉讼这显示了ETF...

区块链

今天DEXTools上最大的加密货币涨幅者是GUISE、XLRT和BT2017

随着比特币(BTC)和以太坊(ETH)等主要加密货币受到卖压,以下是一些表现最佳的低市值垃圾币

政策

首个截止日期窗口临近,美国证券交易委员会(SEC)批准比特币ETF的法定代码

本周的《法规解析》新闻简报将为您报道比特币ETF的批准期限、CLARITY法案、欧洲新的稳定币指南以及国际上就交换加密货币税收...

DeFi

今天加密货币新闻:Bakkt透露国际和国内扩张计划,Justin Sun提供5%赏金,Metaverse平台ZEP将建立在NEAR上

获取每日的小块加密和区块链相关新闻摘要-调查今天新闻中未被关注的故事