
1.統計學 2.巨量資料概論 第 5 頁,共 6 頁
在巨量資料分析專案中,下列何者比較無助於提升分類模型準確度(Accuracy)?
(A)使用交叉驗證(Cross-Validation)
(B)增加或減少模型參數(Parameters)以提升或降低模型複雜度
(C)進行更進一步的特徵工程(Feature Engineering)
(D)取得與使用有更多變數/特徵(Variables/Features)的訓練資料
下列的統計學習(Statistical Learning)方法經常被用於分析巨量資料,請問何者應用的領域問
題與其它不同?
(A)隨機森林(Random Forests) (B)主成分分析(Principal Component Analysis)
(C)彈性網絡(Elastic Net) (D)分類迴歸樹(Classification and Regression Tree)
有關隨機森林(Random Forests)之敘述,下列何者正確?
(A)採用 Boosting 方法
(B)使用多個淺層決策樹 (Decision Stump) 構建整個森林
(C)是一種重抽樣(Re-sampling)技術的應用
(D)模型訓練的運算較難平行化
在統計學習(Statistical Learning)方法論中,有關模型的過適(Overfitting)之敘述,下列何者有
誤?
(A)此種模型的錯誤(Error)常來自於高的方差(High Variance)
(B)此種模型的參數較少或複雜度過低
(C)此種模型過度學習訓練資料集(Training Dataset)
(D)採用Bagging技術有可能避免過度擬合
有關近年來巨量資料處理與分析的發展,下列何者有誤?
(A)異質運算(Heterogeneous Computing)的興起
(B)記憶體內運算(In-memory Computing)的普及
(C)資料湖(Data Lake) 的採用
(D)關聯式資料庫系統(Relational Database Systems)的沒落
有關巨量資料分析的平台環境建置之敘述,下列何者正確?
(A)傳統的關聯式資料庫管理系統無法處理巨量資料
(B) NoSQL資料庫系統已逐漸取代傳統的關聯式資料庫系統
(C) Apache Hadoop可用來建構資料湖(Data Lake)
(D) Apache Spark不適合用來處理串流(Streaming) 資料
有關 MapReduce程式模型(Programming Model)之敘述,下列何者有誤?
(A)比較不適合用來處理疊代式(Iterative) 的資料處理分析過程
(B)概念來自於函數式程式語言(Functional Programming Languages)
(C)不適合用來處理資料量相對較小,但運算量大的工作
(D) Combiner 的使用可以減少資料在各節點(Node)之間的傳輸
有關統計學習(Statistical Learning)中的非監督式學習(Unsupervised Learning)方法,下列敘述何
者有誤?
(A)可以做為維度縮減 (Dimensionality Reduction) 的工具
(B)此類方法也可用於特徵工程 (Feature Engineering)
(C)是一種無目標變數 (Target Variable) 的模型學習方法
(D) Receiver Operating Characteristic (ROC) 曲線常用來評估此類模型優劣
下列統計學習(Statistical Learning)的方法或過程,何者不易受到變數尺度(Scale)不同的影響?
(A)決策樹學習(Decision Tree Induction) (B) K-近鄰算法 (k-nearest Neighbors Algorithm)
(C) K-均值聚類算法 (K-means Clustering) (D)隨機梯度下降 (Stochastic Gradient Descent)