Hello~大家好,墨爾本大學數(shù)據(jù)科學是非常重要的一門專業(yè),所以同學們需要掌握其中的知識,今天學姐為大家簡單的介紹數(shù)據(jù)科學中的基本概念??级紝W⑤o導國內(nèi)外留學生在學習中遇到的各種問題。
變量類型
我們將使用兩種類型的變量:分類的和數(shù)字的。每一個都可以分為另外兩組:分類變量可以是序數(shù)的,也可以不是,而數(shù)值變量可以是離散的,也可以是連續(xù)的。
當向量中的每個條目來自少數(shù)幾個組中的一個時,我們將數(shù)據(jù)稱為分類數(shù)據(jù)。兩個簡單的例子是性別(男性或女性)和地區(qū)(東北、南方、中北部、西部)。一些分類數(shù)據(jù)可以排序,即使它們本身不是數(shù)字,例如辛辣(溫和、中等、熱)。在統(tǒng)計學教科書中,有序分類數(shù)據(jù)被稱為序數(shù)數(shù)據(jù)。
數(shù)字數(shù)據(jù)的例子有人口規(guī)模、謀殺率和身高。一些數(shù)字數(shù)據(jù)可以被視為有序分類的。我們可以進一步將數(shù)值數(shù)據(jù)分為連續(xù)和離散。連續(xù)變量是那些可以取任何值的變量,例如高度,如果測量足夠精確的話。例如,一對雙胞胎可能分別為68.12英寸和68.11英寸。計數(shù),如人口規(guī)模,是離散的,因為它們必須是整數(shù)。
請記住,離散的數(shù)字數(shù)據(jù)可以被視為序數(shù)。雖然這在技術上是正確的,但我們通常為屬于少數(shù)不同組的變量保留術語序數(shù)數(shù)據(jù),每個組都有許多成員。相比之下,當我們有許多組,而每組中的情況很少時,我們通常將它們稱為離散的數(shù)值變量。因此,例如,一個人每天吸煙的包數(shù),四舍五入到最接近的包數(shù),將被認為是序數(shù),而實際的香煙數(shù)將被認為是一個數(shù)字變量。但是,事實上,在可視化數(shù)據(jù)時,有一些例子可以同時考慮數(shù)字和序數(shù)。
分布函數(shù)
事實證明,在某些情況下,平均值和標準差幾乎是我們理解數(shù)據(jù)所需的全部。我們將學習數(shù)據(jù)可視化技術,這將有助于我們確定何時這兩個數(shù)字的總結是合適的。當兩個數(shù)字不足夠時,這些相同的技術將作為一種替代。
累積分布函數(shù)
不是絕對的數(shù)字數(shù)據(jù)也有分布。一般來說,當數(shù)據(jù)不明確時,報告每個條目的頻率并不是一個有效的總結,因為大多數(shù)條目都是唯一的。在我們的案例研究中,雖然幾名學生報告的身高為68英寸,但只有一名學生報告的身高為68.503937007874只有一個學生報告了身高68.8976377952756英寸。我們假設它們分別從174和175厘米轉(zhuǎn)換而來。
以上是關于墨爾本大學數(shù)據(jù)科學的專業(yè)知識概述,希望對廣大的留學生們有所幫助,預祝大家都能順利通過這門專業(yè)的所有課程,完成自己的留學生學業(yè)。
圖片歸版權方所有,頁面圖片僅供展示。如有侵權,請聯(lián)系我們刪除。凡來源標注“考而思”均為考而思原創(chuàng)文章,版權均屬考而思教育所以,任何媒體、網(wǎng)站或個人不得轉(zhuǎn)載,否則追究法律責任。
kaoersi03