R 語言的大數據分析3：數據區分成訓練(training)與測試(test)集合－小木屋

數據分析裡面，R 語言也可將資料區分成訓練(training)與測試(test)集合。本文將使用 R 語言語句完成資料切割的工作。

1. 先看程式庫

資料區分功能需要 caTools，我們可以先看右下方 packages裡面的內容

看起來沒有，所以要用之前先安裝。在左上角打入
install.packages('caTools')

安裝過程中，會先顯示安裝那些程式庫(libraries)或包裝(packages)

安裝後，右下角的 packages 裡面會出現 caTools

在指令區域輸入這3行
library(caTools)
set.seed(15478)
split=sample.split(datasets$Purchased, SplitRatio = 0.8)

第1行是要使用 caTools library
第2行是要產生一組亂數值；這是希望每一次切割資料的時候都不是相同的順序。
第3行是要切割資料。

執行後，螢幕右上方會出現 split 變數，和裡面的內容

再到左下方的區域輸入 split

內容裡的 TRUE 代表這是訓練(training) 的資料；FALSE 這是測試(test)資料

split 變數準備好，才開始創造 training set

接著在左上角的命令區輸入命令語句：

training_set = subset(datasets, split == TRUE)
test_set = subset(datasets, split == FALSE)

這裡的意義是：建立一個 training_set 的資料集合，它是 datasets 的子集合(subset)，條件是當 split 變數為 TRUE 的條件;建立一個 test_set 的資料集合，它是 datasets 的子集合(subset)，條件是當 split 變數為 FALSE 的條件。

執行這兩行程式後，可以看到右上角出現 training_set 和 test_set 2 個變數。