統計學定義與三大內容解析

格式
doc
大小
379.5 KB
頁數
19
上傳者
收藏 ⬇️ 下載檔案
提示: 文件格式为 Word(doc / docx),轉換可能會出現排版或格式的些許差異,請以實際檔案為準。
此檔案建立於 2005-06-24,离现在 20 126 天,建議確認內容是否仍然適用。

第一章習題解答

題號

答案

1

意義:「統計學是蒐集、整理、分析所得統計資料,並在不確定的情況下,對分析的結果作推論,解釋說明並且下合理決策的一門科學。」


內容:
統計學的內容主要分為三部分:

一、統計資料
統計資料是經由實驗、普查、抽查或查閱歷史文獻所得的具體數字資料。

二、統計分析

針對蒐集得來的統計資料加以組織、呈現、分析、解釋,歸納出統計資料的基本特性和重要關係。然後根據分析的結果觀察資料未來的變動趨勢。
三、統計推論
根據部分個體資料以預測或推估全部個體資料,即為統計推論。

2

統計學分為兩類:統計方法和統計原理。依統計方法可分為敘述統計學和推論統計學,主要內容分述如下:
.
敘述統計學
就現有統計資料予以分類、整理、表示與分析,並說明其特性,結果得以用圖表或數字呈現。
例如電視新聞報導、雜誌等等


推論統計學
根據部分資料的分析結果對更大範圍資料的某些特性作一合理的推測與估計。

例如新上任台北市長想大致瞭解台北市的國民所得水準,因此調查一組具代表性的樣本個體,將這些資料分類、整理,製成統計圖表呈現出來,並且計算統計量數(如平均數、變異數等)作簡單的比較,這些都是敘述統計學的部分。如果根據上述求得的數據推論全台北市的國民所得水準則屬於推論統計學的範圍。

3

(1)常在電視新聞上聽到根據哪一項民調國民黨的候選人支持率有15%
民進黨候選人的支持率是26%、新黨候選人6%等等

(2)今天的金曲龍虎榜公佈本週的排行榜第一名是張惠妹、第二名是許如
芸、第三名是…..

其它還有每天看到的氣象預測;民眾對交通狀況意向調查等等各式各樣的市場調查都要應用到統計的分析方法。

4

母體(population)

人們在研究某一現象或問題時,必須針對發生此一現象或問題的對象進行調查研究,調查研究的全體對象(可稱元素)即是所謂的母體


樣本(sample)

樣本是研究者從母體中抽取部分元素所組成的集合,即全部研究對象集合感興趣的部分集合。


母體參數(parameter)
研究者想瞭解母體的某特性值,一般簡稱為參數。


統計量(statistics)
表示樣本特徵的量數我們稱為樣本統計量,一般簡稱為統計量(statistic),常以大寫字母表示,例如表示樣本集中趨勢量數的樣本平均數 ,以及表示樣本差異量數的樣本變異數 ,因此,由抽樣而產生的統計量的機率分配,特別稱為抽樣分配


估計誤差(estimating error)

當我們利用樣本統計量去推論母體參數時,不論用什麼抽樣方式或多精密的測量,樣本統計量與母體參數間總會有差距。這樣的差距我們稱為估計誤差,其又分成兩種類型,一為抽樣誤差(sampling error),另一為非抽樣誤差(nonsampling error)

*抽樣誤差:指樣本統計量的數值與母體參數值間的差異。

  • 非抽樣誤差:抽樣誤差以外的因素,如在資料整理時,因抄寫、計

算的錯誤等所引起,由於無法估計其大小,因此我們

通常假定此誤差不存在。


5

母體:(1)

樣本:(2)(3)

6

推論統計的目的是希望透過少量的樣本來推估母體的特徵,而普查則是對母體中的全體對象進行調查,因此資料以普查方式收集則推論統計學是不必要的

7

敘述統計:(1)(2)

推論統計:(3)

8

一但我們確定要研究的對象母體,且母體是有限的,則了解母體最好的方法,就是對母體內每一個個體加以調查並記錄其特徵,這種調查方式就稱為普查(census)。但如果母體的個數過於龐大,則普查所耗費的人力物力財力將非常龐大,對時間緊迫的人是無法容忍的,所以只能從母體中抽選一部份個體來加以調查,這種調查就稱為抽樣調查。

9

(1)2500名員工;普查

(2)50萬客戶;抽查

第二章習題解答

1

質的資料:(4)(5)

量的資料:(1)(2)(3);其中(1)(2)為離散資料,而(3)為連續資料。

2

組中點:上限與下限的中點,即

(1) 12.5的上組限為11,下組限為14,組距=4

(2) 16.5的上組限為15,下組限為18,組距=4

(3) 20.5的上組限為19,下組限為22,組距=4

(4) 24.5的上組限為23,下組限為26,組距=4

(5) 28.5的上組限為27,下組限為30,組距=4

3

(1),(2)

組限

次數

相對次數

百分比

以下累加

以上累加

45~49

50~54

55~59

60~64

65~69

70~74

75~79

80~84

85~89

90~94

2

2

3

4

5

6

6

8

8

6

2/50=0.04

2/50=0.04

3/50=0.06

4/50=0.08

5/50=0.10

6/50=0.12

6/50=0.12

8/50=0.16

8/50=0.16

6/50=0.12

4 %

4%

6%

8%

10%

12%

12%

16%

16%

12%

2

4

7

11

16

22

28

36

44

50

50

48

46

43

39

34

28

22

14

6

總計

50


100%




(3)直方圖


(4)多邊形圖。



(5)直方圖。



4

(1)次數分配

組限

組界

劃記

次數

70~78

79~87

88~96

97~105

106~114

115~123

69.5~78.5

78.5~87.5

87.5~96.5

96.5~105.5

105.5~114.5

114.5~123.5





2

13

6

5

3

1


次數總計

30

(2)直方圖





(3)多邊形圖


5

(1)

組限

組界

組中點

0.1~1.1

1.2~2.2

2.3~3.3

3.4~4.4

4.5~5.5

5.6~6.6

0.05~1.15

1.15~2.25

2.25~3.35

3.35~4.45

4.45~5.55

5.55~6.65

0.6

1.7

2.8

3.9

5.0

6.1

(2)

(3)


6

(1)

組限

組界

次數

7.7~22.2

22.3~36.8

36.9~51.4

51.5~66.0

66.1~80.6

7.65~22.25

22.25~36.85

36.85~51.45

51.45~66.05

66.05~80.65

8

6

9

5

2


次數總計

30







(2)

組限

次數

相對次數

7.7~22.2

22.3~36.8

36.9~51.4

51.5~66.0

66.1~80.6

8

6

9

5

2

8/30=0.267

6/30=0.2

9/30=0.3

5/30=0.167

2/30=0.067

總計

30


(3)

組限

次數

以下累積

以上累積

7.7~22.2

22.3~36.8

36.9~51.4

51.5~66.0

66.1~80.6

8

6

9

5

2

  8

 14

 23

 28

 30

 30

 22

 16

  7

  2

總計

30





(4)


7

質的資料又稱屬性資料,常依據其性質的不同或類別的尺度而加以區分,故亦稱類別資料(category data)

「例」:質的資料如性別、教育程度、職業別、產品的品質等,不能以具體的數值來表示。

量的資料(quantitative data)


8

量的資料又稱為屬量資料,其大多依照計量的特性而劃分的,也就是說可以用尺度衡量的方法以數字表示出來。

「例」:量的資料如人的身高、體重、子女數目、銷貨量、利潤額等等。大部分的統計資料屬於數量資料,如經濟成長率、薪資收入、就業人數、消費支出、產品的生產等、這些都可用數值來表示。


9

通常全距、組數、組距會有下面之數學關係:

組距 ,由這個式子可知組數的多寡是與組數成反比的。


10

我們將全部的資料量分成若干類,每類稱為一組,則每一組的數目稱為組數。而在每一組的包含範圍中,用這組的最大值減去這組的最小值之差即稱為組距。


11

不連續資料又稱離散資料,是可計數的(countable),具有最小的計數單位。

「例」:養育子女的數目、擲骰子所得到的點數等。


12

連續資料是可以無限制細分的,即在任意兩個數值間可插入無限多個數值。

「例」:如人的身高、體重、時間、速度等。

第三章習題解答

1

(1)平均數=3223/50=64.46

(2)先將上表作排序,如下表

15 18 23 26 32 33 35 40 42 43 52 53 55 55 56 57 60 60 60 62 64 65 65 67 67 69 69 71 72 73 74 74 75 76 77 79 81 81 81 81 82 83 84 86 88 89 91 91 95 96







因全部50項,所以中間兩個數值的平均數為中位數,即第

50/2=25項與50/2+1=26項兩個位置之數值的平均數為中位數。而中位數

Me= (67+ 69)/ 2= 68

(3) 求眾數由上表發現81出現次數最多,即知81為眾數。

(4)先求標準差

利用未分組標準差之公式
==20.723

變異係數=


2

(1)平均數


=5200/75=69.33

(2)中位數

因全部75項,所以中間數值即為中位數,即第(75+1)/2=38項,由表可知69為中位數。

(3)眾數

由表發現69出現次數最多,即知69為眾數。

(4) 變異係數=

(5) 全距R=74-66=8

(6) 標準差

= =

= 1.47


3

由題意知:=86=7=82=8

由標準差公式

所以可知=3472+35862=260526

=1582+16822=108544

全班之平均成績

全班成績之標準差=7.43


4

先將資料由小到大排序

10 25 41 52 55 64 65 75 76 77 78 81 82 85 85 86 88 88 90 92 95 96 97 97 98 115



  1. 全距為115-10= 105

  2. 四分位距為

  3. 第一四分位數的所在位置為,不為整數,故取第7個位置的數值,即Q1=65

  4. 第二四分位數即中位數的所在位置為,為整數,故取第13與第14個位置的數值之平均,即= = 83.5

  5. 第三四分位數的所在位置為,不為整數,故取第20個位置的數值,即Q3=92


5

s= 8

(1)

50×0.0668= 3.34,所以約有3個人不及格。

(2)

50×0.0122=0.61,所以沒有人超過90分。

(3)

50×0.35385=17.6925,所以為第18名。


6


組別

組界

組中點(xi)

次數(fi)

1

2

3

4

5

6

7

30.25-30.75

30.75-31.25

31.25-31.75

32.25-32.75

33.25-33.75

34.25-34.75

34.75-35.25

30.5

31

31.5

32.5

33.5

34.5

35

4

2

8

24

14

6

2

122

62

252

780

469

207

70

3721

1922

7938

25350

15711.5

7141.5

2450

總計




= 60

= 1962

= 64234

  1. 平均數

(2) 總次數n= 60故中位數位置在第60/2= 30項,而第30項落於第4(32.25-32.75)所以利用分組後之中位數公式得:

中位數=32.25+=32.58

(3) 由次數分配表知,眾數組在32.25-32.75這一組中(組次數24為最多)此時利用分組後眾數之公式:

金氏插補法:=32.25+=32.568

克如伯比率法:

=32.25+=32.558

皮爾生法:

首先必須先求出此次數分配的平均數及中位數,由(1)可知中位數Me=32.58且利用分組後的求法得出

平均數

Mo== 32.34

(4)

(5)

  1. 偏態係數


7

數學及格人數的比例

英文及格人數的比例

,由此可知英文及格人數比例較多,成績較佳。


8

9

T表可考上的最低分數

T=189.74220>189.74,故可考上。


10

11

全距、四分位差、平均絕對差及標準差都帶有與原始資料相同的單位,這些都是所謂的絕對分散度之衡量統計量,僅能表示一組統計資料的分散情形,但如果要比較兩組或兩組以上單位不同或雖然單位相同但其性質差異甚大的統計資料,單用絕對分散度之衡量統計量不能判斷其分散程度到底哪一個大、哪一個小。這時需要用相對分散度之衡量統計量來作比較。所謂的相對分散度之衡量統計量即絕對分散度之衡量統計量與某一中央趨勢之衡量統計量或其它適當數量之比,常以百分比表示,且它與原來的單位無關。一般最常用的相對分散度之衡量統計量是變異係數,通常以cv表示,變異係數乃標準差與平均數比值的百分數,即:

變異係數(coefficient of variance

12

(1) 平均數

未分組資料的平均數

各個資料數值總和除以資料的項數即平均數。令為任何統計資料的n個數值,為平均數,則

已分組資料的平均數

其中為各組組中點,為各組次數。
(2)
中位數

未分組資料的中位數

若資料項數為奇數,其中間位置即的數值為中位數;若資料項數為偶數,則中間兩個數值的平均數為中位數,即兩個位置之數值的平均數為中位數。
已分組資料的中位數

-(4)

-(5)
在以上二式中=中位數

=中位數所在組之下限

=中位數所在組之次數

=中位數所在組之組距

=小於L各組之次數和

=中位數所在組之上限

=大於U各組之次數和

=總次數

(3) 眾數

未分組資料的眾數

在未分組的統計資料中尋找眾數可先依數值大小排列,其中出現次數最多的數值即為眾數;若某一數值在全部統計資料中佔最大比例時,不必將資料排列也可找到眾數。

已分組資料的眾數
在一次數分配表內,眾數應在次數最多的一組中,這一組通常被稱為眾數組(Mode class)。眾數組的組中點即為眾數,這是最簡單求得眾數的方法。但眾數組的組中點會隨著組距及組界之變動而變動,非常不確定。眾數是次數曲線最高峰下面一點的數值。因此,如果能確知最高峰的位置就能確定眾數,但配合的曲線不一定能符合事實。又若資料呈對稱分配,眾數組的組中點即為眾數;若資料的分配呈偏態,則眾數組的組中點就不一定是眾數,所以求得的眾數也不能說是真正的眾數。

求分組資料之眾數的方法很多,一般最常見的有以下三種計算公式:

(1) 金氏(W.I. King)插補法
(2)
克如伯(E. Czuber)比率法

(3)皮爾生(K. Pearson)

若論應用上之差異:

前面介紹的中央趨勢之衡量統計量有平均數、中位數、眾數。這些統計量都各有其不同的優缺點,因此在選用時,必須考量所用的測量尺度及用途。以測量尺度來看:

中央趨勢之類別資料順序資料等距資料比率資料

衡量統計量

平均數不適用不適用適用適用

中位數不適用適用適用適用

眾數適用適用適用適用


13

(1) 全距

全距為測量分散度之最簡單的方法,計算容易、意義明顯。日常生活中用全距的例子很多,例如,每日氣象報告中均可看到最高溫和最低溫;股價指數行情中也有最高價和最低價;尤其工廠品質管制最常應用全距作管制圖。但全距的缺點為易受極端值影響,未能考慮到全部資料的變動情形,很多時候是資料的全距相同,但中間部分數值差異很大,因此用全距來衡量資料分散程度的結果並不可靠,它也會受抽樣以及樣本大小不同的影響,使用時必須考量資料本身的性質。

(2) 四分位差

若將統計資料中數值特別大或特別小的去掉,只剩下中間部分的數值來測定分散度,就可以更正全距的缺點,其中最簡單常用的便是四分位差。四分位差是把資料去掉兩端最大值及最小值各25%的觀察值只剩中間部分50%的觀察值,再求這50%資料的全距。通常先算出第一四分位數和第三四分位數。第三四分位數和第一四分位數的差即所謂的四分位距,通常以符號IQR;而四分位距的一半則為四分位差,通常以符號QD表示

其中,Q1為第一四分位數(First Quartile)

Q3為第三四分位數(Third Quartile)


(3) 平均絕對離差

平均絕對離差是簡單的分散度之衡量統計量,通常以MAD表示與全距和四分位差不同的是它將統計資料中每一個數值都考慮在內,受極端值的影響又比較小,所以在樣本數不多時,常用平均絕對離差來測定資料的分散情況。平均絕對離差為一組統計資料各數值與某一中央趨勢之衡量統計量(通常為平均數或中位數)差之絕對值的平均數。由於在計算平均絕對離差時討論的是各數值與某一中央趨勢之衡量統計量的距離,不計正負號,因此牽扯到絕對值的計算使得公式的演算變得較為複雜。

14

形狀之衡量統計量是衡量一組資料是否對稱,資料分佈形狀峰度有多高等的問題。最常用的是偏態係數及峰態係數。

(1) 偏態係數
所謂偏態(skewness)係指次數分配形態不對稱的程度。在對稱分配的統計資料中眾數、平均數與中位數在同一點上;次數分配如有偏斜則眾數、平均數及中位數分離。若次數分配向右偏斜則眾數、平均數及中位數之間的關係是:;若次數分配向左偏斜則它們之間的關係是:。次數分配的偏斜度愈大,三個中央趨勢之衡量統計量分離的愈遠。
偏態係數(coefficient of skewness)


其中,是樣本平均數,Me是中位數,s是樣本標準差。

(2) 峰度係數
次數分配的高峰有高而狹,有低而闊等等,這種高峰的形態叫做峰度。在次數分配中有一種特殊的次數分配叫做常態分配(Normal distribution),而常態分配的高峰叫做常態峰(Mesokurtic),若次數分配中較常態峰高而狹者叫做高狹峰(Leptokurtic),較常態峰低而闊者叫做低闊峰(Platkurtic)
峰度是指次數分配的高峰之高聳程度。判斷一組統計資料次數分配峰度的高低常以常態峰為標準。峰度雖為次數分配的特性之一,但用途不多,加上計算繁複,一般只要知道有此形狀之衡量統計量即可。峰度係數的定義為:

(一般以CKck表示峰度係數)

*峰度係數

母體:

樣本:

15

謝比雪夫定理與經驗法則之比較

區間

謝比雪夫定理

經驗法則

至少0%

至少75%

至少89%

68%

95%

99.7%

Chebyshev定理只能讓我們得到一個限制,它是多少比例以上或多少比例以下,但它可適用於任何資料分配。

經驗法則可較具體告訴我們約有多少比例的訊息,但它的限制條件便是只適用於常態分配或者近似於常態分配也可以。

16

(1)cov(X, Y)0,則 ,表變數XY具正線性相關。

(2) cov(X, Y)0,則,表變數XY具負線性相關。

(3) cov(X, Y)0,則,表變數XY不具線性相關。

其中,cov(X, Y)的值在(-,)之間,故無法從數值大小判斷其相關程度;相關係數的值在[-1,1]之間,故由的大小及正負可知XY相關程度的大小及方向。

17



x

y

xy

x2

y2

11

12

11

15

8

10

11

12

17

11

25

33

22

41

18

28

32

24

53

26

275

396

242

615

144

280

352

288

901

286

121

144

121

225

64

100

121

144

289

121

625

1089

484

1681

324

784

1024

576

2809

676

總和118

302

3779

1450

10072

cov(X,Y)






版權說明: 檔案資源由用戶上傳,僅供學習交流使用,尊重著作權。 若您認為內容涉及侵權,請點擊「侵權舉報」提交相關資料,我們將儘快核實並處理。