108年 台電、中油、台水、台糖 新進職員 統計資訊 統計學、巨量資料概論 試卷

pdf
394.33 KB
4 頁
ctr
侵權投訴
加載中. ..
PDF
1.統計學 2.巨量資料概 1 頁,共 4
經濟部所屬事業機構 108年新進職員甄試試題
類別:統計資訊 節次:第二節
科目:1.統計學 2.巨量資料概論
1.本試題共 4(A3 1)
2.可使用本甄試簡章規定之電子計算器。
3.本試題為單選題共 50 題,每題 2分,共 100 分,須 2B 鉛筆在答案卡畫記作答,於本
試題或其他紙張作答者不予計分。
4.請就各題選項中選出最適當者為答案,各題答對得該題所配分數,答錯或畫記多於 1
選項者,倒扣該題所配分數 3分之 1,倒扣至本科之實得分數為零為止;未作答者,不
給分亦不扣分。
5.本試題採雙面印刷,請注意正、背面試題。
6.考試結束前離場者,試題須隨答案卡繳回,俟本節考試結束後,始得至原試場或適當處
所索取。
7.考試時間:90 分鐘。
[C]
1.
X為間斷隨機變數,其 E(X) = 5Var(X) = 2,試求 E(X2 + 3X + 3)為何?
(A) 43 (B) 20 (C) 45 (D) 17
[A]
2.
下列何種計算機率方法假設事件(events)發生之機率都相等?
(A)古典(classical) (B)實證(empirical) (C)主觀(subjective) (D)互斥(mutually exclusive)
[B]
3.
設隨機變數 Z~ N(0 , 1) 標準常態分布。試問 P(Z < 5) 最接近下哪個數值?
(A) 0.95 (B) 0.99 (C) 0.50 (D) 0.10
[A]
4.
tn 代表自由度為 n t 分布,下列何者最接近標準常態分布?
(A) t100 (B) t36 (C) t25 (D) t1
[C]
5.
A B 兩個獨立之事件,則條件機率 P(A | B) 於下列何者?
(A) P(B) (B) P(AB) (C) P(A) (D) P(AB)
[C]
6.
何種統計圖表會呈現四分位距(inter quartile range)
(A)點圖( dot plot ) (B)散布圖( scatter diagram )
(C)箱型圖( box plot ) (D)列聯表( contingency table )
[C]
7.
X1, X2, X3, X4 4 個獨立之隨機變數且都來自於常態分布 N(8 , 16)已知 X
=Xi
4
1/4,試
問下列何者為 X
之標準誤(Var(X
) )
(A) 16 (B) 8 (C) 2 (D) 1
[B]
8.
班上學生人數共 20 人,第一次統計考試中,學生唸書時間及成績之判定係數(coefficient of
determination) 80 %。迴歸方程式之變異數 𝜎2 估計式的標準誤(standard error of estimate)
10。以上資訊可編製變異數分析表(ANOVA)表,試問總變(total sum of square)為何
(A) 7,200 (B) 9,000 (C) 8,000 (D) 5,400
[C]
9.
下列何種抽樣方法可達到群內變異大、群間變異小之結果?
(A)分層抽樣( stratified random sampling ) (B)系統抽樣( systematic sampling )
(C)部落抽( cluster sampling ) (D)簡單隨機抽樣( simple random sampling )
[D]
10.
設有一組資料{11,15,13,15,9,8,4,5,5,15},其最後一個數字由 15 改為 14 ,試問下列何者不變?
(A)平均數 (B)變異數 (C)變異係數 (D)中位數
[B]
11.
若隨機變數 X 服從於均勻分布 U(0 , 2),則X的變異數Var(X)為何?
(A) 18 (B) 1/3 (C) 4 (D) 1/12
1.統計學 2.巨量資料概 2 頁,共 4
[D]
12.
X1 X2 為獨立同態 2 個柏努利分(Bernoulli distribution),且其值為 1 之機率為 0.4,即
P( X = 1 ) = 0.4 = 1 P( X = 0 )則樣本平均值 ( X1 + X2 ) / 2 介於 0.25 0.75 間的機率為何
(A) 0.16 (B) 0.32 (C) 0.36 (D) 0.48
[A]
13.
關於敘述統計之陳述,下列何者正確?
(A)一個右偏分布其偏斜度( skewness )大於 0
(B)一個右偏分布通常其中位數會大於平均值
(C)一個對稱的分布,其峰度( kurtosis )必等於 3
(D)一個分布,若知道其前4個動差( Moment )值,則此分布就可決定
[D]
14.
對於標準常態分 Z,設 Zα 表示 P(Z > Zα) = α 之百分位點,0 < α < 1。下列何者正確?
(A) Z0.5 = 0.5 (B) Z0.5 = 1.96 (C) Z0.975 = 1.96 (D) Zα = -Z1
[D]
15.
X1, X2, …, Xn 表一組獨立且來自於常態分布 N(μ , 1) 之隨機樣本。下列何者不是 μ 之不偏估
(unbiased estimate)
(A) X
(樣本平均) (B) X1 (C) ( X1 + X2 ) / 2 (D) X(1) (最小順序統計量)
[C]
16.
某樣本資料為 26, 21, 24, 9, 17, 23, 18, 22, 20,下列何者正確?
(A)四分位距 8 (B)全距為 16 (C)變異係數為 25 % (D)此資料有異常值
[C]
17.
設樣本空間 S={𝐸1, 𝐸2, 𝐸3, 𝐸4, 𝐸5},其中 𝐸1, 𝐸2 ,…, 𝐸5 為樣本點(sample point)。各樣本點機率
𝑃(𝐸1) = 0.3 , P(𝐸2) = 0.3 , P(𝐸3) = 0.1 , P(𝐸4) = 0.15。令 A = { 𝐸1, 𝐸4, 𝐸5 } B = { 𝐸3, 𝐸4 }
下列何者正確?
(A) P( E5 ) = 0.1 (B) P( A Bc ) = 0.4 (C) P( B | A ) = 0.25 (D) A B 獨立
[C]
18.
設事件 𝐴1 𝐴2 率為 P( A1 ) = 0.4 P( A2 ) = 0.6,已知 𝐴1 𝐴2 互斥,P( B | A1) = 0.2
P( B | A2 ) = 0.1下列何者正確
(A) P( A1 | B ) = 3/7 (B) P( 𝐴1 𝐵 ) = 0.06 (C) P(B) = 0.14 (D) P( A2 B ) = 0.46
[B]
19.
關於顯著水準之敘述,下列何者正確?
I:是 1減信賴水準; II:是 P值; III:是最大可容許型一誤差發生之機率
(A) III (B) IIII (C) IIIII (D) IIIIII
[B]
20.
盒子中有 8 顆球,其中 4 顆是白球,其餘是黑球。以取後不放回方式隨機取 2 顆球,令 X
取到白球之個數。下列何者正確?
(A) E(X) = 0.5 (B) Var(X) = 3/7 (C) P(X = 1) = 3/7 (D) P( X 1 ) = 5/7
[C]
21.
隨機選取 n 樣本欲計算母體比例之95 % 信賴區間,若希望誤差界限在 0.05 以內,則需要
個樣本數?
(A) 196 (B) 271 (C) 385 (D) 1,068
[B]
22.
變數 X Y 之線性關係 Y = 0.5X + ϵ 其中隨機誤差 ϵ 服從常態分布 N(0 , 1) 且與 X
獨立, X 之期望值與變異數各為 E(X) = 0 , Var(X) = 1 X Y 之皮(Pearson
correlation coefficient)為下列何者?
(A) 1 2
(B) 1 5
(C) 3/4 (D) 1/4
[BC]
23.
考慮下列線性迴歸模型 Y = βX + ϵ 。若我們有 n (Xi , Yi) 觀察值, β 之最小平方估計為 β
,下列何者正確
(A) β
=(Xi−X
)(Yi−Y
)
n
1
(Xi−X
)2
n
1 (B) β
=XiYi
n
1
Xi2
n
1
(C) ϵi 必須服從常態分布 (D) Xi 必須服從常態分
1.統計學 2.巨量資料概 3 頁,共 4
[A]
24.
對於 3 Yi= β0+ β1X1i + β2X2i + β3X3i + ϵi, i = 1 ,…,nϵ~N( 0 , σ2)
,若 n = 30。下列何者正確?
(A)想要檢定 β1 β2 是否同時為 0 ( H0β1= β2= 0 ),可使用 partial F 檢定
(B)想要檢 β1 β2 是否同時為 0 ,則對立假設應為 H1 β1 0 β2 0
(C)想要檢 β3 是否為 0 ( H0β3= 0 )H0 為真時檢定統計量服從於 t1
(D)檢定H0β1= β2= β3= 0,須使用自由度為 3 t 分布
[D]
25.
資料進行變異數分析(analysis of variance),不需下列何種假設?
(A)資料呈常態分配 (B)各組母體變異數相等
(C)各組資料間獨立 (D)各組母體平均數相
[C]
26.
關於雲端運算之敘述,下列何者有?
(A)公有雲不一定免費,但可降低硬體投資和機房管理等成本
(B)使用雲端服務之付費方式採用「Pay-As-You-Go
(C) AWS EC2 屬於雲端服務中之 SaaS
(D) OAuth 2.0 協議的授權碼授予模式,需要服務端之認證伺服器許可
[D]
27.
何者非屬監督式學習之演算法?
(A)決策樹 (B)隨機森林 (C)支持向量機 (D)關聯規則
[C]
28.
針對巨量資料之特性,下列何者有誤?
(A)巨量資料之巨量性質(volume)意指存放數據量超過 PB
(B)巨量資料之即時性(velocity)意指數據擷取時間不到 1
(C)巨量資料等同於巨大價值(value)
(D)根據巨量資料分析需求之改變趨勢,視覺(visualization)在分析中日趨重要
[B]
29.
針對 Apache Spark,下列何者有誤?
(A) in-memory 之計算框架 (B)不允許用戶將資料載入至叢集記憶體內儲
(C)多次記憶體重覆運 (D)非常適合用於機器學習演算法
[C]
30.
影響資料分析技術之重要資料集特質,下列何者有誤
(A)維度(dimensionality) (B)稀疏性(sparsity)
(C)連續性(continuity) (D)分辨度(resolution)
[B]
31.
巨量資料之定義為何?
(A)巨量資料中有 70 % 都為結構化資料
(B)巨量資料除資料量龐大外,其資料特性具變化速度快及多樣性
(C)儲存的資料內容不包含影片或電子郵件
(D)巨量資料強調資料數量能為企業帶來商業機會
[A]
32.
若欲將大量資料進行分群,下列何種方法不適合?
(A)決策樹法 (B) K-means (C)階層式方法 (D) SOM方法
[B]
33.
關於巨量資料之特性,下列何者正確?
(A)堅持原始資料都要做到標準化與精確 (B)陷入資料獨裁之問題
(C)利用「隨機取樣」處理所有的資料 (D)看重資料之間的因果關係
[C]
34.
下列何者非屬巨量資料分析工具?
(A) Spark (B) Python (C) Spigot (D) Julia
[B]
35.
關於由小到大的電腦容量(單位),下列何者正確?
(A) YBGBTBPB (B) GBTBPBEB (C) TBPBYBEB (D) GBTBZBEB
[B]
36.
巨量資料分析所蒐集之資料來源,下列何者與其他來源差異最大?
(A)養殖水產保險 (B)網路溫度計 (C)豆腐指 (D) 753感冒指數
1.統計學 2.巨量資料概 4 頁,共 4
[A]
37.
關於工業 4.0 製造模式轉變,下列何者正確?
(A)將原本 B2C 製造模式轉變為 C2B (B)將原本 B2C 之製造模式轉變為 B2B
(C)將原本 B2B 之製造模式轉變為 C2B (D)將原本 B2B 之製造模式轉變為 C2C
[D]
38.
針對巨量資料分析進行資料探勘(data mining),下列何者有誤
(A)找尋趨勢 (B)找尋特徵 (C)找尋相關性 (D)無法發掘出各種假設
[C]
39.
下列何者非屬邏輯迴歸(logistic regression)之特性?
(A)離散選擇法模型之一 (B)屬於多重變量分析範疇
(C)需要常態分配的假 (D)羅吉斯迴歸用到的對數函數是Sigmoid函數
[C]
40.
強化學習(reinforcement learning)系統中不包括下列何者
(A)智能體( agent ) (B)獎賞( reward ) (C)回應( response ) (D)環境( environment )
[A]
41.
關於遷移學習(transfer learning)特性,下列何者有誤
(A)遷移學習之重點是不必儲存已解決一個問題之模型
(B)遷移學習被應用於認知科學
(C)可使用遷移學習重新利用既有神經網絡
(D)遷移網絡之應用包括語句分類,篩選垃圾郵件與簡訊以及發現癌症種類
[D]
42.
配置 Hadoop 時,JAVA_HOME 包含在下列何者配置檔案中?
(A) hadoop-default.xml (B) hadoop-site.xml
(C) configuration.xsl (D) hadoop-env.sh
[A]
43.
Java 語言 Buffered Reader 類別是將資料讀入下列何者當緩衝區?
(A)陣列 (B)資料庫 (C)檔案 (D)變數
[C]
44.
巨量資料分析之資料存在著資料量大、非結構化、高度異質性等特性,下列何種資料庫工具
最不適宜運用在此類型工作?
(A) Mongodb (B) Redis (C) Sybase (D) Hbase
[B]
45.
關於關聯式資料庫資料表(table)之敘述,下列何者正確?
(A)是一維資料組成之集合 (B)資料表由橫列和直行所組
(C)一般不會設定主索引鍵 (D)資料表每一列表示屬性
[A]
46.
關於遞歸神經網(RNN)之基本概念,下列何者有誤?
(A)反向傳播的權重更新不會造成梯度爆炸
(B)長短期記憶模組共 4 層,比 RNN 3 S 型函數
(C)長短期記憶模組,能改善 RNN 在長期記憶之不足
(D)可用來處理時間序列資料
[A]
47.
關於機器學習之敘述,下列何者正確?
(A)主成分分析法( PCA )是用於資料降維
(B)用大量人力對訓練資料集來標籤特徵,是強化學習( RL )之特色
(C) Q-Learning γ 數值趨向於 1 表示 agent 只在乎目前可獲得之獎勵
(D)監督式學習之演算法有邏輯迴歸和 K-means
[B]
48.
有關卷積神經網路之基本概念,下列何者有誤?
(A)運作流程:輸入的圖片特徵擷取分類辨識
(B)池化層會使用到 ReLU 之激勵函數
(C)得到之特徵圖比原圖要小,被稱為valid padding
(D)可應用於人臉識別、語音識別等
[BC]
49.
關於巨量資料中之資料庫,下列何者有誤?
(A) HBase 技術提供非關聯式資料( NoSQL )之儲存環境
(B) HBase 技術支援隨機存取功能
(C)無法直接透過 SQL 來查詢 Hadoop 儲存之資料
(D) Apache Hive 就是 SQL 編譯成 Map Reduce,從而讀取和操作 Hadoop 上之資料
[D]
50.
下列何者非屬資料操作語言(data manipulation language)
(A) INSERT (B) UPDATE (C) DELETE (D) CREATE
收藏 ⬇️ 下載