數據分析裡面,R 語言也可將資料區分成訓練(training)與測試(test)集合。本文將使用 R 語言語句完成資料切割的工作。
1. 先看程式庫
看起來沒有,所以要用之前先安裝。在左上角打入
install.packages('caTools')
安裝過程中,會先顯示安裝那些程式庫(libraries)或包裝(packages)
安裝後,右下角的 packages 裡面會出現 caTools
在指令區域輸入這3行
library(caTools)
set.seed(15478)
split=sample.split(datasets$Purchased, SplitRatio = 0.8)
第1行是要使用 caTools library
第2行是要產生一組亂數值;這是希望每一次切割資料的時候都不是相同的順序。
第3行是要切割資料。
執行後,螢幕右上方會出現 split 變數,和裡面的內容
再到左下方的區域輸入 split
內容裡的 TRUE 代表這是 訓練(training) 的資料;FALSE 這是測試(test)資料
split 變數準備好,才開始創造 training set
接著在左上角的命令區輸入命令語句:
training_set = subset(datasets, split == TRUE)
test_set = subset(datasets, split == FALSE)
這裡的意義是:建立一個 training_set 的資料集合,它是 datasets 的子集合(subset),條件是 當 split 變數為 TRUE 的條件;建立一個 test_set 的資料集合,它是 datasets 的子集合(subset),條件是 當 split 變數為 FALSE 的條件。
執行這兩行程式後,可以看到 右上角出現 training_set 和 test_set 2 個變數。
點擊(click) 這個變數區,也可以在左上角看見它們的內容。
留言列表