在數據分析的世界裡面,除了 Python 語言外,另一個知名的語言就是 R 語言。這裡我們嘗試著用 R 語言來讀取資料和處理資料遺失值。

 

1. 操作環境:RStudio
  大家都知道,R 語言也是一種直譯式(interpreter)語言。這裡我使用 RStudio 作為 R 語言的操作環境。

 

2. 讀取資料
  RStudio  的左上方是程式輸入區。在這裡我們輸入:

datasets = read.csv('Data.csv')

就可以將 Data.csv 這個檔案讀入 R 語言的 datasets 變數中。
在 RStudio  的右上方可以看到已經建立的變數區,也看見我們已經讀入  datasets 的內容:有10 筆資料項目(rows),每一筆都有4個欄位。

 

我們在這裡用滑鼠點一下(click)。
左上方就可以看到讀進來的資料內容。

 

  跟 Python 語言比較起來, R 語言的 RStudio 工具提供了很高的資料視覺化(data visualization)。

3. 處理遺失值
  在 R 語言裡面處理遺失值需要指定特定列(Column)。
在上圖中,我們發現 Age 列有遺失值,我們要用這樣的指令:

datasets$Age = ifelse(is.na(datasets$Age),
                     ave(datasets$Age, FUN = function(x) mean(x,na.rm = TRUE)),
                     datasets$Age)

ifelse 指令有3 個參數
第1個是 邏輯判斷條件
如果 Age 列遺失值: is.na(datasets$Age)
第2個是 如果第1個邏輯條件成立時要做的工作
ave(datasets$Age, FUN = function(x) mean(x,na.rm = TRUE))
如果遺失值,則填入 Age 列的平均值
第3個是 如果第1個邏輯條件不成立時要做的工作
這裡如果沒有遺失值,就保留和原來的數值一樣

對於 Salary 列也有遺失值,也是一樣的指令,只是將
datasets$Age 改成 datasets$Salary


這就是最後修改的結果

文章標籤
全站熱搜
創作者介紹
創作者 小木屋 的頭像
小木屋

小木屋

小木屋 發表在 痞客邦 留言(0) 人氣(158)