close

數據分析裡面,R 語言也可將資料區分成訓練(training)與測試(test)集合。本文將使用 R 語言語句完成資料切割的工作。
 

 

1. 先看程式庫

資料區分功能需要 caTools,我們可以先看 右下方 packages裡面的內容
 

0_unInstall.png

 

看起來沒有,所以要用之前先安裝。在左上角打入
install.packages('caTools')

1_2_Install_packages_caTools.png

安裝過程中,會先顯示安裝那些程式庫(libraries)或包裝(packages)

2_InstallcaTools.png

 

安裝後,右下角的 packages 裡面會出現 caTools

3_caTools.png

 

在指令區域輸入這3行
library(caTools)
set.seed(15478)
split=sample.split(datasets$Purchased, SplitRatio = 0.8)

第1行是要使用 caTools library
第2行是要產生一組亂數值;這是希望每一次切割資料的時候都不是相同的順序。
第3行是要切割資料。

執行後,螢幕右上方會出現 split 變數,和裡面的內容
4_split_obj.png

 

再到左下方的區域輸入 split

6_cmd_split_out.png

 

內容裡的 TRUE 代表這是 訓練(training) 的資料;FALSE 這是測試(test)資料

split 變數準備好,才開始創造 training set

接著在左上角的命令區輸入命令語句:

training_set = subset(datasets, split == TRUE)
test_set = subset(datasets, split == FALSE)

 

這裡的意義是:建立一個 training_set 的資料集合,它是 datasets 的子集合(subset),條件是 當 split 變數為 TRUE 的條件;建立一個 test_set 的資料集合,它是 datasets 的子集合(subset),條件是 當 split 變數為 FALSE 的條件。


執行這兩行程式後,可以看到 右上角出現 training_set 和 test_set 2 個變數。

7_1_training_test_set.png

 

點擊(click) 這個變數區,也可以在左上角看見它們的內容。

7_2_training_set.png

7_3_test_set.png

 

arrow
arrow
    創作者介紹
    創作者 小木屋 的頭像
    小木屋

    小木屋

    小木屋 發表在 痞客邦 留言(0) 人氣()