DATA2001:數(shù)據(jù)科學(xué):大數(shù)據(jù)和數(shù)據(jù)多樣性作業(yè)輔導(dǎo)本課程側(cè)重于有效探索和分析大數(shù)據(jù)收集的方法和技術(shù)。整個城市的行人交通事故熱點(diǎn)在哪里?根據(jù)用戶在旅游網(wǎng)站上發(fā)布的信息,最受歡迎的旅游地點(diǎn)是哪些?組合和分析來自各種來源和數(shù)據(jù)庫的數(shù)據(jù)的能力對于研究和行業(yè)中明智的決策至關(guān)重要。學(xué)生將學(xué)習(xí)如何從數(shù)據(jù)科學(xué)項(xiàng)目中通常遇到的各種數(shù)據(jù)模型中提取,合并和匯總數(shù)據(jù),例如關(guān)系,半結(jié)構(gòu)化,時(shí)間序列,地理空間,圖像,文本。除了通過使用相關(guān)Python庫的經(jīng)驗(yàn)來增強(qiáng)其編程技能外,本課程還將向?qū)W生介紹使用SQL進(jìn)行聲明式數(shù)據(jù)處理的概念,并分析關(guān)系數(shù)據(jù)庫中的數(shù)據(jù)。將向?qū)W生提供來自例如的數(shù)據(jù)集。,社交媒體,運(yùn)輸,衛(wèi)生和社會科學(xué),并在小用例的背景下教授基本的探索性數(shù)據(jù)分析和挖掘技術(shù)。本課程將使學(xué)生進(jìn)一步了解分析大數(shù)據(jù)量所涉及的挑戰(zhàn),例如在多臺計(jì)算機(jī)之間分配和分配數(shù)據(jù)以及進(jìn)行計(jì)算以處理“大數(shù)據(jù)”的想法。
細(xì)節(jié)入學(xué)規(guī)則學(xué)習(xí)成果完成本單元后,您應(yīng)該能夠:
LO1 。使用適當(dāng)?shù)腜ython庫來自動化各種數(shù)據(jù)上的數(shù)據(jù)科學(xué)活動
LO2 。攝取,合并和匯總來自各種數(shù)據(jù)模型的數(shù)據(jù)
LO3 。展示處理各種數(shù)據(jù)集(包括關(guān)系,半結(jié)構(gòu)化,時(shí)間序列,地理位置,圖像,文本)的經(jīng)驗(yàn),包括結(jié)合不同類型數(shù)據(jù)的經(jīng)驗(yàn)
LO4 。了解并產(chǎn)生聲明性查詢以從數(shù)據(jù)集中提取適當(dāng)?shù)男畔?,包括使用SQL的能力
LO5 。了解分析“大數(shù)據(jù)”的主要挑戰(zhàn):數(shù)據(jù)量,多樣性,速度,準(zhǔn)確性
LO6 。了解數(shù)據(jù)量對數(shù)據(jù)處理的影響,并了解解決此問題的方法,例如索引,壓縮,數(shù)據(jù)分區(qū)和分布式處理框架(Hadoop)。
LO7 。在處理數(shù)據(jù)時(shí)表現(xiàn)出對隱私問題的意識
圖片歸版權(quán)方所有,頁面圖片僅供展示。如有侵權(quán),請聯(lián)系我們刪除。凡來源標(biāo)注“考而思”均為考而思原創(chuàng)文章,版權(quán)均屬考而思教育所以,任何媒體、網(wǎng)站或個人不得轉(zhuǎn)載,否則追究法律責(zé)任。
添加微信【kaoersi03】(備注官網(wǎng))申請?jiān)嚶牐韺偬撞蛢?yōu)惠!
kaoersi03