
1.統計學 2.巨量資料概論 第 3 頁,共 4 頁
關於中央極限定理,下列敘述何者有誤?
(A)若母體為均勻分配,僅抽10個樣本,其樣本平均數分配即為常態分配
(B)有了中央極限定理,我們才能從樣本統計量去推估母體參數
(C)若母體為常態分配,僅抽10個樣本,其樣本平均數即為常態分配
(D)若母體為指數分配,僅抽5個樣本,其樣本平均數即為常態分配
歷年台北市長各候選人的選舉得票率,皆與士林區天玉里開出之結果很接近,若在台北市長選
舉前,對天玉里的居民隨機調查各候選人的支持度,此種作法較類似於下列何種抽樣方式?
(A)簡單隨機抽樣 (B)群集抽樣 (C)分層隨機抽樣 (D)便利抽樣
巨量資料最後提出的第四個V是什麼?
(A)大量化Volume (B)多樣化Varity (C)快速化Velocity (D)真實性Veracity
下列何者屬於類神經網路的機器學習方法?
(A) SVM (B) Gaussian Mixture Model
(C) BERT (D) Adaboost
下列何者不是維度縮減(Dimensionality Reduction)的方法?
(A) Random Forest (B) t-Distributed Stochastic Neighbor Embedding
(C) Principal Component Analysis (D) Linear Discriminant Analysis
關於巨量資料,下列敘述何者正確?
(A)巨量資料的分析目的是從大量資料中找出因果關係
(B)隨著巨量資料分析技術的進步,數據的真實性已不影響分析結果
(C)好的巨量資料運算服務,可以根據運算需求與時效性,動態的擴增運算資源
(D)如何妥善處理及保存大量的數據資料並非巨量資料分析涵蓋的範疇
關於巨量資料思維,下列敘述何者正確?
(A)巨量資料中包含大量的雜訊,運用傳統統計方法較能降低雜訊對模型的影響
(B)企業在蒐集資料的過程中可能觸及個人隱私的疑慮
(C)巨量資料分析純粹是應用於商業競爭上的技術,無法廣泛被應用於日常生活中
(D)巨量資料分析建模的過程中不需要考慮資料是否與背景假設吻合
機器學習(Machine Learning)是屬於下列哪一個領域的子集合?
(A)深度學習 (B)人工智慧 (C)資料處理 (D)網路系統
通常處理有問題的資料時,不包括下列哪一項?
(A)移除 (B)插補 (C)加權 (D)替換
與資料庫(Database)比較,資料倉儲具有下列哪一種特性?
(A)具有跨平台作業能力 (B)具有資料修改及新增功能
(C)資料結構高度正規化 (D)儲存短期詳細的作業資料
關於平行運算(Parallel Computing),下列何者不是分散式計算(Distributed Computing)的特性?
(A)共享稀有資源 (B)平衡負載 (C)共享記憶體 (D)允許計算錯誤
請問以500 Mbps(Mega bit per second)的網路速度傳送1 Petabyte,不考量其他影響,大約需要
多少時間才能傳送完畢?
(A)大約2年 (B)大約200天 (C)大約20天 (D)大約2小時
下列何者可能是模型有配適不足(Under-fitting)的狀況?
(A)訓練誤差較小,測試誤差較小 (B)訓練誤差較小,測試誤差較大
(C)訓練誤差較大,測試誤差較小 (D)訓練誤差較大,測試誤差較大
關於監督式學習(Supervised Learning),下列敘述何者有誤?
(A)需要有標記(labeled)的數據做為訓練集
(B)決策樹(Decision tree)是一種監督式學習方式
(C) K-mean分群法(k-means clustering)是一種監督式學習方式
(D)監督式學習是機器學習方法中的一個子類別
關於MAP Reduce Programming Model,下列敘述何者正確?
(A)是一種處理地理資訊的程式設計方法
(B)是一種資料壓縮的技術
(C)是一種類神經網路的程式設計架構
(D)是一種用平行化、在分散式系統上處理數據的程式設計架構