統計中的樣本是什么:SCI論文中的描述性統計(descriptivestatistics)是什么?
《論語·為政第二》里有說“視其所以,觀其所由,察其所安”,對于科學研究來說,就是需要通過實驗或調查等手段獲取數據,進行必要的統計分析,對科學研究進行數據畫像。那么因此,SCI論文中的統計內容一般包括描述性統計分析。所謂描述性統計(descriptivestatistics)對即將到來的調查樣本中包含的大量數據數據進行整理和計算,并對調查整體所有變量的相關數據進行統計總結。簡單地說,用幾個具有代表性的數據來描述一系列復雜的數據集,然后直觀地解釋數據的變化,主要包括離散程度分析、集中趨勢分析、頻率分析、分布和一些基本的統計圖形。描述性統計是推斷性統計的基礎。
以下是SCI論文中包含描述性統計內容的一些實例:
在定量研究中,收集數據后,統計分析的第一步是描述樣本數據的特征,如變量的平均值(如年齡)或兩個變量之間的關系(如年齡和創造力)。下一步性統計的基礎上,下一步的研究是推論性統計(Inferentialstatistics),用來幫助研究人員確定樣本數據是否確認或反駁研究的假設,假設結論是否可以推廣到更大的整體,并以概率的形式推斷統計的未知數量特征。
描述性統計有三種主要方法:
1.頻率分析與每個變量值的數量有關。
2.集中趨勢分析,與變量數值的平均值有關。
3.離散程度分析與各個變量值的差異程度有關。
在單變量分析中,一次只能評估一個變量,或在雙變量中比較兩個變量之間的關系,或在多變量分析中比較多個變量之間的關系。
以下是描述性統計的三種方法。
例1:一個主題想根據性別研究不同業余時間休閑活動的流行程度。研究項目發布了一份問卷調查,并詢問被調查人員在過去一年中做了以下每項休閑活動的次數,分別包括:
去圖書館讀書,簡稱圖書館;在電影院看電影,簡稱電影院;參觀國家公園,簡稱公園。
統計數據集是對調查結果的收集。通常,描述性統計可以用來確定每個活動的總頻率(分布)、平均值(中心趨勢)和離散程度(可變性)。
01頻數分析(Frequencydistribution)
頻數分布(frequencydistribution),也被稱為次數分布,是數據的基本統計分類方法之一,即每個測量值的頻率或頻率可以用數字或百分比來總結。頻率通常是指每個數據的次數,頻率是指每個數據的次數與總次數的比率,是一個相對頻率。
在SCI在論文中,常用兩種圖表來表達頻數分布:簡單頻數分布表(Simplefrequencydistributiontable)分組頻數分布表(Groupedfrequencydistributiontable)。
簡單頻數分布表:
對于實例1,根據性別變量在左欄列出所有可能的答案。計算每個答案的答案數量或百分比,并在相應的右列中顯示。
Gender
Number
Woman
Noanswer
從上表可以得出結論:在本研究中,男性參與調查的人數較多。
分組頻分布表:
對于實例1,在分組頻率分布中,在分組頻率分布中分組,每組的響應數可以加起來,每個數字也可以轉換成百分比。
Libraryvisitsinthepastyear
Percent
13-16
從上表可以看出,過去一年大多數人去圖書館4到16次。
02集中趨勢測量(MeasuresofCentralTendency)
集中趨勢測量表明數據集的中心或平均值,能夠對總體的某一特征具有代表性,表明所研究的輿論現象在一定時間、空間條件下的共同性質和一般水平。平均值(mean)、中位數(median)和眾數(mode)是估計集中趨勢測量的三種方法。
平均值是尋求平均值最常用的方法。這里的平均值是指算術平均值,即一組數據和除以這組數據的平均值。
如圖書館平均訪問次數為{15、3、12、0、24、3},則平均為(15 3 12 0 24 3)/6=9.5
中位數是數據集中間的值。為了找到中位數,從最小到最大對每個數據值進行排序。然后,中間數是中間數。如果中間有兩個數字,計算它們的平均值。對于數據集{15、3、12、0、24、3},中位數為(3 12)/2=7.5。當數據集中數據的大小趨勢較大時,中位數比平均數更能代表整體水平,而數據大小趨勢較小時,中位數和平均數可以代表這組數據的整體水平。
眾數是指統計分布中具有明顯集中趨勢點的值,代表數據的一般水平。它也是一組數據中最常見的值,有時在一組數中有幾個。對于數據集{0、3、3、12、15、24},最常見的數字是3。
1.差異量數(MeasuresofVariability)
差異量又稱離中趨勢量,是指描述一組數據離中差異和離散程度的量。差異量數有很多種,主要包括極差(Range,R)、標準差(Standarddeviation,σ)、方差(Variance,σ2)、四分位距(interquartilerange,IQR)。以下是前三種方法的簡要介紹:
極差(Range),也稱為范圍誤差或全距,用于表示樣本數據中最大值與最小值之間的差距,即最大值減少最小值后獲得的數據。
例如,去年參觀圖書館的次數為有序數據集:{0、3、3、12、15、24},極差為:24–0=24。
標準差(Standarddeviation)它是數據的平均變異,主要描述數據的離散程度,符號為σ。它告訴你數據中的平均每個分數離平均值有多遠。標準差越大,數據集的離散程度越大。例如,兩組數的平均值為7,但第二組數的標準差較小。
計算標準差的步驟通常主要有三步:計算平均值、計算方差、計算標準差。例如,對于一個數據集{7、13、15、18、20、24、30、31},其標準差可通過以下步驟計算:
1)計算平均值:
2)計算方差:
3)計算標準差:
方差(variance)它是每個樣本值與所有樣本值之間平均差的平方值的平均值,也用來描述數據的離散程度,實際上是標準差的平方,符號是σ2。在統計史上,方差早于標準差,但由于統計學家發現方差和樣本值不在同一數量級(因為它們來自平方),因此不便于比較樣本值和偏差之間的關系。后來,為了確保計算偏差值與實際樣本值的單位統一(該值與實際值的單位為平方關系),統計人員建議再次打開該值,以確保其與樣本值相同。
以上數據集{7、13、15、18、20、24、30、31}為例:
描述性統計可分為單變量描述性統計、雙變量描述性統計和多變量描述性統計。
所謂單變量描述統計,就是每次只關注一個變量數據。以下是單變量描述性統計的集中趨勢度的一個例子。檢查每個變量的數據是非常重要的。SPSS和Excel這樣的軟件工具或自己編寫Python、R數據集的差異(離散)評價值可以很容易地計算小程序。
例1采用一年內訪問圖書館次數的數據集{3、3、8、7、14、18、20、25、22、15、9、5、20、31}
Smalltips:在統計分析數據時,如果研究人員只考慮平均值作為中心趨勢的衡量標準,那么數據集的中心可能會被異常值扭曲,這與中位數或眾數不同,如研究團隊的張三和李四月薪3K,王五月薪100W所以這個研究團隊的平均月薪是33萬。
同樣,盡管極差(全距)對極值非常敏感,但也應考慮標準差和方差,以獲得更準確的差異(離散)測量。
在收集不止一個變量的數據時,雙描述統計和多描述統計可以使用雙描述統計來探索它們之間的關系。
同時研究兩個變量的頻率和變異性,看它們是否同時變化。這兩個變量的中心趨勢也可以在進一步統計測試前進行比較。多元分析與二元分析相同,但有兩個以上的變量。
列聯表是雙重描述性統計描述的重要工具(ContingencyTable)。列聯表也被稱為條件時間表和情況分析表,它由兩種不同的方法分析一組數據的行和列組成。在列聯表中,每個單元格表示兩個變量的交集。通常,由于變量(如性別)沿縱軸出現,自變量(如性別)沿橫軸出現(如活動)。在閱讀表格時,您可以觀察自變量和因變量是如何相互關聯的。例如,在過去的一年里,圖書館的訪問次數是根據性別進行統計的。
Numberofvisitstothelibrary
inthepastyear
Group
13–16
Women
Smalltips:當原始數據的數值轉換為百分比時,SCI論文讀者更容易理解列聯表。百分比使每行看起來像100名觀察者或被調查者,使每行與另一行具有可比性。在創建基于百分比的列聯表時,在最后為每個變量添加一列作為樣本總量N。
Visitstothelibraryinthepastyear
(Percentages)
從上表可以更清楚地看出,喜歡泡圖書館的男女每年都要去圖書館17次以上。此外,男性通常去圖書館5到8次,而女性去圖書館13到16次。
散點圖是雙元和多元數據統計描述的重要工具(Scatterplots)。散點圖是用來表達兩個或三個變量之間關系的圖表。這是關系強度的視覺表現。
沿散點圖x軸繪制變量,沿y軸繪制另一個變量。圖表中的一個點表示每個數據點。
下面是一個散點圖的例子。例1中,參觀圖書館和電影院的描述統計需要了解經常去圖書館的人是否更喜歡去電影院看電影。散點圖可以設計為沿線x軸是電影院看電影的次數。y軸是訪問圖書館的次數。
從散點圖可以看出,隨著電影院電影數量的減少,圖書館的訪問量也在增加。研究人員可以根據對可能線性關系的可視化和直觀評估,進一步分析和測試數據的相關性。
良好的統計方法是寫作SCI論文的利器!萬歷年間最遲寫的《增廣賢文》有言:畫龍畫虎難畫骨..這句話突出了通過現象很難理解本質,所以SCI論文中的描述性統計部分往往會降低這種難度。
作者簡介:晨星,湖北武漢人,副高職稱,理學博士,高級程序員,IAMG(國際數學地球科學協會)會員,省級醫學人工智能與大數據委員會會員、部級行業智庫專項研究員。
畢業證樣本網創作《統計中的樣本是什么(所說)》發布不易,請尊重! 轉轉請注明出處:http://www.fangrui88.com.cn/161126.html