訂閱
糾錯
加入自媒體

R語言教程:數(shù)據(jù)結(jié)構(gòu)+導入數(shù)據(jù)!

2020-12-29 16:46
科研菌
關注

2.1 數(shù)據(jù)結(jié)構(gòu)

數(shù)據(jù)集通常是由數(shù)據(jù)構(gòu)成的一個矩形數(shù)組,行表示觀測,列表示變量(但不同行業(yè)對行和列叫法不同,在R中用觀測和變量代表行和列)。

R可以處理的數(shù)據(jù)類型(模式)包括數(shù)值型、字符型、邏輯型(TRUE/FALSE)、復數(shù)型(虛數(shù))和原生型(字節(jié))。

R擁有許多用于存儲數(shù)據(jù)的對象類型,包括標量、向量、矩陣、數(shù)組、數(shù)據(jù)框和列表。

1. 標量

標量是只含一個元素的向量,用于保存常量。例如例如 f<-3 、 g<-“US” 和 h<-TRUE。

2. 向量

向量是用于存儲數(shù)值型、字符型或邏輯型數(shù)據(jù)的一維數(shù)組。執(zhí)行組合功能的函數(shù)c()可用來創(chuàng)建向量。

a <- c(1, 2, 5, 3, 6, -2, 4) b <- c("one", "two", "three")c <- c(TRUE, TRUE, TRUE, FALSE, TRUE, FALSE)

注意,單個向量中的數(shù)據(jù)必須擁有相同的類型或模式(數(shù)值型、字符型或邏輯型)。

訪問向量中的元素:在方括號中給定元素所處位置

a <- c("k", "j", "h", "a", "c", "m")a[3][1] "h"a[c(1, 3, 5)][1] "k" "h" "c"a[2:6]        #冒號用于生成一個數(shù)值序列[1]  "j" "h" "a" "c" "m"

3. 矩陣

矩陣是一個二維數(shù)組,只是每個元素都擁有相同的模式(數(shù)值型、字符型或邏輯型)。可通過函數(shù)matrix()創(chuàng)建矩陣。一般格式:

myymatrix <- matrix(vector, nrow=number_of_rows, ncol=number_of_columns,                     byrow=logical_value, dimnames=list(char_vector_rownames, char_vector_colnames))

vector包含了矩陣的元素

nrow和ncol用以指定行和列的維數(shù)

選項byrow則表明矩陣應當按行填充(byrow=TRUE)還是按列填充(byrow=FALSE),默認情況下按列填充

dimnames包含了可選的、以字符型向量表示的行名和列名

創(chuàng)建一個5×4的矩陣:

y <- matrix(1:20, nrow=5, ncol=4)   y     [,1] [,2] [,3] [,4]    [1,]    1    6   11   16    [2,]    2    7   12   17    [3,]    3    8   13   18    [4,]    4    9   14   19    [5,]    5   10   15   20

創(chuàng)建一個按行填充的2×2矩陣:

cells <- c(1,26,24,68)rnames <- c("R1", "R2")cnames <- c("C1", "C2")mymatrix <- matrix(cells, nrow=2, ncol=2, byrow=TRUE,                   dimnames=list(rnames, cnames))  mymatrix          C1 C2    R1  1 26   R2 24 68

創(chuàng)建一個按列填充的2×2矩陣:

mymatrix <- matrix(cells, nrow=2, ncol=2, byrow=FALSE,                   dimnames=list(rnames, cnames))mymatrix   C1 C2R1  1 24R2 26 68

矩陣下標的使用:

x <- matrix(1:10, nrow=2)  #創(chuàng)建了一個內(nèi)容為數(shù)字1到10的2×5矩陣x           [,1] [,2] [,3] [,4] [,5]    [1,]    1    3    5    7    9    [2,]    2    4    6    8   10
x[2,]        #選擇第二行的元素[1]  2  4  6  8 10 x[,2]        #選擇第二列的元素[1] 3 4 x[1,4]       #選擇第1行的第4列的元素[1] 7x[1, c(4,5)] #選擇第1行的第4和5列的元素[1] 7 94. 數(shù)組

數(shù)組(array)與矩陣類似,但是維度可以大于2?赏ㄟ^array函數(shù)創(chuàng)建,格式如下:

myarray <- array(vector, dimensions, dimnames)

vector包含了數(shù)組中的數(shù)據(jù)

dimensions是一個數(shù)值型向量,給出各個維度下標的最大值

dimnames是可選的、各維度名稱標簽的列表

創(chuàng)建一個三維(2×3×4)數(shù)值型數(shù)組:

dim1 <- c("A1", "A2")dim2 <- c("B1", "B2", "B3")dim3 <- c("C1", "C2", "C3", "C4")z <- array(1:24, c(2, 3, 4), dimnames=list(dim1, dim2, dim3))  z    , , C1          B1 B2 B3    A1  1  3  5    A2  2  4  6    
, , C2          B1 B2 B3    A1  7  9 11    A2  8 10 12    
, , C3          B1 B2 B3    A1 13 15 17    A2 14 16 18    , , C4          B1 B2 B3    A1 19 21 23    A2 20 22 245. 數(shù)據(jù)框

數(shù)據(jù)框是包含了不同模式(數(shù)值型、字符型等)的數(shù)據(jù)的集合。可通過函數(shù)data.frame()創(chuàng)建:

mydata <- data.frame(col1, col2, col3, ...)

列向量col1、col2、col3等可為任何類型(如字符型、數(shù)值型或邏輯型)

每一列的名稱可由函數(shù)names指定

創(chuàng)建數(shù)據(jù)框:

patientID <- c(1, 2, 3, 4)age <- c(25, 34, 28, 52)diabetes <- c("Type1", "Type2", "Type1", "Type1")status <- c("Poor", "Improved", "Excellent", "Poor")patientdata <- data.frame(patientID, age, diabetes, status)patientdata        patientID age diabetes    status    1         1  25    Type1      Poor    2         2  34    Type2  Improved    3         3  28    Type1 Excellent    4         4  52    Type1      Poor

每一列數(shù)據(jù)的模式必須唯一。

選取數(shù)據(jù)框中的元素:

patientdata[1:2]  patientID age1         1  252         2  34 3         3  284         4  52patientdata[c("diabetes", "status")]  diabetes    status1    Type1      Poor    2    Type2  Improved    3    Type1 Excellent    4    Type1      Poorpatientdata$age         # $用來選取一個給定數(shù)據(jù)框中的某個特定變量[1] 25 34 28 52

可以聯(lián)合使用函數(shù)attach()和detach()或單獨使用函數(shù)with()來簡化代碼,避免每個變量名前都鍵入一次patientdata$。

attach()、detach()和with()

例:mtcars數(shù)據(jù)框

summary(mtcars$mpg)plot(mtcars$mpg, mtcars$disp)plot(mtcars$mpg, mtcars$wt)

以上代碼可以寫成:

attach(mtcars)    #函數(shù)attach()可將數(shù)據(jù)框添加到R的搜索路徑中summary(mpg)plot(mpg, disp)plot(mpg, wt)detach(mtcars)    #函數(shù)detach()將數(shù)據(jù)框從搜索路徑中移除

detach()并不會對數(shù)據(jù)框本身做任何處理,可以省略,但其實它應當被例行地放入代碼中。

當名稱相同的對象不止一個時,這種方法有局限性。

mpg <- c(25, 36, 47)attach(mtcars)The following object(s) are masked _by_ '.GlobalEnv':     mpg
plot(mpg, wt)Error in xy.coords(x, y, xlabel, ylabel, log) :      'x' and 'y' lengths differ
mpg    [1] 25 36 47

在數(shù)據(jù)框mtcars被綁定(attach)之前,環(huán)境中已經(jīng)有了一個名為mpg的對象,原始對象將取得優(yōu)先權。函數(shù)attach()和detach()最好在分析一個單獨的數(shù)據(jù)框,并且沒有多個同名對象時使用。

函數(shù)with()重寫上例:

with(mtcars, {  print(summary(mpg))  plot(mpg, disp)  plot(mpg, wt)})

花括號{}之間的語句都針對數(shù)據(jù)框mtcars執(zhí)行,如果僅有一條語句(例如summary(mpg)),那么花括號{}可以省略。
因此,函數(shù)with()的局限性在于,賦值僅在此函數(shù)的括號內(nèi)生效。

with(mtcars, {  stats <- summary(mpg)  stats})stats錯誤: 找不到對象'stats'

創(chuàng)建在with()結(jié)構(gòu)以外存在的對象,使用特殊賦值符<<-替代標準賦值符(<-)即可,它可將對象保存到with()之外的全局環(huán)境中。

1  2  下一頁>  
聲明: 本文由入駐維科號的作者撰寫,觀點僅代表作者本人,不代表OFweek立場。如有侵權或其他問題,請聯(lián)系舉報。

發(fā)表評論

0條評論,0人參與

請輸入評論內(nèi)容...

請輸入評論/評論長度6~500個字

您提交的評論過于頻繁,請輸入驗證碼繼續(xù)

暫無評論

暫無評論

人工智能 獵頭職位 更多
掃碼關注公眾號
OFweek人工智能網(wǎng)
獲取更多精彩內(nèi)容
文章糾錯
x
*文字標題:
*糾錯內(nèi)容:
聯(lián)系郵箱:
*驗 證 碼:

粵公網(wǎng)安備 44030502002758號