国产成人在线观看免费网站-国产成人在线电影-国产成人在线播放-国产成人愉拍精品久久-日韩一区二区三-日韩一区二区免费在线观看

信息經(jīng)濟(jì)

盤(pán)點(diǎn)20多個(gè)強(qiáng)大且免費(fèi)的數(shù)據(jù)源,任何人都能以此來(lái)構(gòu)建AI

發(fā)布于:2023-06-12 點(diǎn)擊量:2280 來(lái)源:至頂網(wǎng)軟件與服務(wù)頻道

當(dāng)我們談?wù)摦?dāng)今商業(yè)領(lǐng)域和社會(huì)中的人工智能時(shí),我們其實(shí)指的是機(jī)器學(xué)習(xí)。機(jī)器學(xué)習(xí)是一種應(yīng)用,通過(guò)使用算法(一組指令)變得越來(lái)越擅長(zhǎng)執(zhí)行某項(xiàng)特定任務(wù),因?yàn)樗佑|了越來(lái)越多與這項(xiàng)任務(wù)相關(guān)的數(shù)據(jù)。

這些任務(wù)可以是任何任務(wù),從回答問(wèn)題、創(chuàng)建文本或圖像(如ChatGPT或Dall-E等應(yīng)用所能做的)到識(shí)別圖像(計(jì)算機(jī)視覺(jué))或者把自動(dòng)駕駛汽車(chē)從A地導(dǎo)航到B地。

所有這些任務(wù)都需要數(shù)據(jù),那些想要訓(xùn)練自己的機(jī)器學(xué)習(xí)算法以自動(dòng)執(zhí)行日常任務(wù)的企業(yè),他們需要一些數(shù)據(jù)源。

有哪些類型的數(shù)據(jù)?

企業(yè)數(shù)據(jù)通常分為兩類——內(nèi)部數(shù)據(jù)和外部數(shù)據(jù)。

內(nèi)部數(shù)據(jù)是企業(yè)組織自己從運(yùn)營(yíng)過(guò)程中收集的數(shù)據(jù),這通常包括財(cái)務(wù)數(shù)據(jù)、客戶反饋數(shù)據(jù)、人力資源數(shù)據(jù)、運(yùn)營(yíng)數(shù)據(jù)、和其他更多來(lái)源的數(shù)據(jù)。某個(gè)組織在監(jiān)控其自身運(yùn)營(yíng)過(guò)程中收集的數(shù)據(jù)被稱為專有數(shù)據(jù),這種數(shù)據(jù)很有價(jià)值,因?yàn)樗峁┝擞嘘P(guān)特定業(yè)務(wù)的信息。

外部數(shù)據(jù)是來(lái)自組織外部來(lái)源的數(shù)據(jù),通常是從如下所列的第三方數(shù)據(jù)源收集而來(lái)。如果數(shù)據(jù)可供任何人免費(fèi)使用,則稱為開(kāi)放數(shù)據(jù)。

除此之外,數(shù)據(jù)還可以分為結(jié)構(gòu)化、非結(jié)構(gòu)化或半結(jié)構(gòu)化數(shù)據(jù)。

結(jié)構(gòu)化數(shù)據(jù)是可以很好地、整齊地放入表格中的信息——例如,顯示企業(yè)銷(xiāo)售的產(chǎn)品、時(shí)間、地點(diǎn)、價(jià)格的銷(xiāo)售數(shù)據(jù)就是內(nèi)部結(jié)構(gòu)化數(shù)據(jù)。或者,企業(yè)會(huì)選擇分析歷史市場(chǎng)數(shù)據(jù)和經(jīng)濟(jì)指標(biāo)來(lái)預(yù)測(cè)他們面向市場(chǎng)的未來(lái)走勢(shì)(結(jié)構(gòu)化的外部數(shù)據(jù))。

非結(jié)構(gòu)化數(shù)據(jù)則是其他一切,例如圖片、視頻、文本和社交媒體內(nèi)容,當(dāng)然也可以包含有價(jià)值的洞察,但更難于分析。不過(guò),AI已經(jīng)被證明對(duì)于從非結(jié)構(gòu)化數(shù)據(jù)中提取意義特別有用處。例如,圖像識(shí)別算法可以通過(guò)分析店內(nèi)閉路電視圖像(內(nèi)部非結(jié)構(gòu)化數(shù)據(jù))來(lái)告訴企業(yè)有關(guān)客戶行為的有用信息,還可以通過(guò)分析社交媒體上發(fā)布的與業(yè)務(wù)相關(guān)的圖像(非結(jié)構(gòu)化外部數(shù)據(jù))來(lái)找到有價(jià)值的洞察。

所幸的是,數(shù)據(jù)無(wú)處不在。政府、研究機(jī)構(gòu)、私營(yíng)公司、非政府組織都免費(fèi)提供數(shù)據(jù)用于研究甚至商業(yè)目的。因此,這里羅列了一些2023年可用的免費(fèi)在線數(shù)據(jù)最佳來(lái)源。

數(shù)據(jù)搜索引擎和存儲(chǔ)庫(kù)

Google Dataset Search——這實(shí)際上是谷歌編目的數(shù)據(jù)集的搜索引擎;使用這個(gè)搜索引擎可以查找你可能需要的幾乎所有內(nèi)容的數(shù)據(jù)。

AWS Open Data Search——另一個(gè)數(shù)據(jù)集搜索引擎,由亞馬遜的AWS提供。

Microsoft Research Open Data——由Microsoft收集的免費(fèi)、開(kāi)放的數(shù)據(jù)集,主要以科學(xué)為重點(diǎn)。

UCI Machine Learning Repository——由加州大學(xué)歐文分校策劃和維護(hù)的600多個(gè)開(kāi)放數(shù)據(jù)集的存儲(chǔ)庫(kù),可用于訓(xùn)練機(jī)器學(xué)習(xí)算法。

Kaggle Datasets——在線數(shù)據(jù)科學(xué)平臺(tái)Kaggle還提供了精選的數(shù)據(jù)集目錄,涵蓋從大學(xué)排名到谷歌搜索趨勢(shì)、零售銷(xiāo)售、在線電影評(píng)論和犯罪統(tǒng)計(jì)數(shù)據(jù)的所有內(nèi)容。

Reddit R/Datasets——由在線社區(qū)網(wǎng)站Reddit的用戶提交的龐大數(shù)據(jù)集,涵蓋了數(shù)百個(gè)主題。

政府和政府間組織的數(shù)據(jù)集

Data.Gov——美國(guó)政府提供的開(kāi)放數(shù)據(jù)門(mén)戶,托管了政府機(jī)構(gòu)發(fā)布的一百萬(wàn)個(gè)數(shù)據(jù)集中的近四分之一數(shù)據(jù)。

Data.Census.Gov——如果你專門(mén)尋找美國(guó)的人口統(tǒng)計(jì)數(shù)據(jù),這是一個(gè)很好的起點(diǎn)!

Data.EU——?dú)W盟的開(kāi)放數(shù)據(jù)門(mén)戶,包含了來(lái)自歐盟組織的數(shù)據(jù)和成員國(guó)政府的數(shù)據(jù)。

Data.gov.uk——英國(guó)政府機(jī)構(gòu)發(fā)布的開(kāi)放數(shù)據(jù)集。

World Health Organization Data——與全球健康和福祉相關(guān)的數(shù)據(jù)集。

World Bank Open Data——與經(jīng)濟(jì)發(fā)展、國(guó)際金融市場(chǎng)、社會(huì)指標(biāo)和環(huán)境問(wèn)題相關(guān)的數(shù)據(jù)集。

圖像數(shù)據(jù)

Google Open Images——數(shù)以百萬(wàn)計(jì)的圖像以各種方式分類和標(biāo)記,用于訓(xùn)練許多不同類型的計(jì)算機(jī)視覺(jué)算法。

ImageNet Open Dataset——另一個(gè)由標(biāo)記圖像組成的數(shù)據(jù)集,可免費(fèi)用于非商業(yè)機(jī)器學(xué)習(xí)應(yīng)用。

COCO Dataset——Common Objects in Context (COCO)數(shù)據(jù)集中包含了超過(guò)200000張圖像,這些圖像被選擇用于訓(xùn)練對(duì)象檢測(cè)和字幕算法。

聲音數(shù)據(jù)

Mozilla Common Voice——一個(gè)開(kāi)放的錄音數(shù)據(jù)集,可用于訓(xùn)練任何涉及語(yǔ)音的AI應(yīng)用。

Audioset——另一個(gè)由谷歌策劃的數(shù)據(jù)集,這個(gè)數(shù)據(jù)集專注于聲音,包含數(shù)十萬(wàn)個(gè)10秒樣本,這些樣本被分解為樂(lè)器、車(chē)輛和人聲等類別。

Million Song Dataset——來(lái)自一百萬(wàn)個(gè)當(dāng)代流行音樂(lè)曲目的樣本和元數(shù)據(jù)。

文本數(shù)據(jù)

Wikidata——多種不同格式的維基百科文章的數(shù)據(jù)庫(kù)下載。

Common Crawl——一個(gè)從萬(wàn)維網(wǎng)上抓取的開(kāi)放數(shù)據(jù)存儲(chǔ)庫(kù),最知名的用途就是對(duì)ChatGPT和其他聊天機(jī)器人的GPU大型語(yǔ)言模型進(jìn)行訓(xùn)練。

其他和雜項(xiàng)數(shù)據(jù)集

Amazon Reviews——包含約3500萬(wàn)條亞馬遜產(chǎn)品評(píng)論的數(shù)據(jù)庫(kù),包括產(chǎn)品信息和評(píng)級(jí)。

Waymo Open Dataset——Alphabet自動(dòng)駕駛子公司W(wǎng)aymo公開(kāi)了通過(guò)自動(dòng)駕駛車(chē)輛收集的大量數(shù)據(jù),包括來(lái)自攝像頭和LiDAR傳感器數(shù)據(jù)。

Apolloscape Dataset——更多的自動(dòng)駕駛數(shù)據(jù),是由百度開(kāi)源Apollo平臺(tái)提供的。

【版權(quán)聲明】:本站內(nèi)容來(lái)自于與互聯(lián)網(wǎng)(注明原創(chuàng)稿件除外),如文章或圖像侵犯到您的權(quán)益,請(qǐng)及時(shí)告知,我們第一時(shí)間刪除處理!
主站蜘蛛池模板: 欢迎观临| 大胆写真| 影库| 谢容儿| 浪人电影在线观看完整版免费| 历代高僧大德开悟诗100首| 电影云南虫谷演员表 全部| 张静初吴彦祖演的门徒| 日记100字简单| 日本电影小小的家| 山西影视频道| 寒形近字| 《完美无瑕》莫妮卡贝鲁奇| https://www.douyin.com| 王安宇电影| 伦理<禁忌1| 韩国一级免费| 心经原文全文| 漂亮小蜜桃| 大海中的船歌词歌谱| 大兵相声小品蠢得死| 张芸| 大众故事1974意大利| 掀开jk扒开内裤打屁股作文| 奥村| 电影在线观看高清完整版免费| 北京卫视节目单全天| 电影院线| 网页抖音| 浙江卫视今天电视节目表| 热爱 电影| 海蓝之谜精粹水| 守卫者2| pirates of the caribbean| 天然气一立方多少钱| 林佑星| 暴雪电影| 林岚| 漂亮孕妇突然肚子疼视频| 变态的视频| 电影《kiskisan》在线播放|