在數據分析的世界裡面,除了 Python 語言外,另一個知名的語言就是 R 語言。這裡我們嘗試著用 R 語言來讀取資料和處理資料遺失值。
1. 操作環境:RStudio
大家都知道,R 語言也是一種直譯式(interpreter)語言。這裡我使用 RStudio 作為 R 語言的操作環境。
2. 讀取資料
RStudio 的左上方是程式輸入區。在這裡我們輸入:
datasets = read.csv('Data.csv')
就可以將 Data.csv 這個檔案讀入 R 語言的 datasets 變數中。
在 RStudio 的右上方可以看到已經建立的變數區,也看見我們已經讀入 datasets 的內容:有10 筆資料項目(rows),每一筆都有4個欄位。
我們在這裡用滑鼠點一下(click)。
左上方就可以看到讀進來的資料內容。
跟 Python 語言比較起來, R 語言的 RStudio 工具提供了很高的資料視覺化(data visualization)。
3. 處理遺失值
在 R 語言裡面處理遺失值需要指定特定列(Column)。
在上圖中,我們發現 Age 列有遺失值,我們要用這樣的指令:
datasets$Age = ifelse(is.na(datasets$Age),
ave(datasets$Age, FUN = function(x) mean(x,na.rm = TRUE)),
datasets$Age)
ifelse 指令有3 個參數
第1個是 邏輯判斷條件
如果 Age 列遺失值: is.na(datasets$Age)
第2個是 如果第1個邏輯條件成立時要做的工作
ave(datasets$Age, FUN = function(x) mean(x,na.rm = TRUE))
如果遺失值,則填入 Age 列的平均值
第3個是 如果第1個邏輯條件不成立時要做的工作
這裡如果沒有遺失值,就保留和原來的數值一樣
對於 Salary 列也有遺失值,也是一樣的指令,只是將
datasets$Age 改成 datasets$Salary
這就是最後修改的結果
