北河以北

R 学习笔记(二)

文/宋春林

Computing for Data Analysis课程Week 2学习笔记。这一周的课程和作业都比上周难。

一、控制结构

在正常情况下,R程序中的语句是从上到下顺序执行的,但有些情况下可能需要重复执行某些语句,就需要控制语句。常见的控制结构有:if,else;for;while;repeat,break;next,return等。

if,else:条件执行结构,条件为真时执行语句,条件为假时执行另外的语句。语法为:if(cond) statement1 else statement2

for:循环重复地执行一个语句,直到某个变量的值不再包含在序列seq中为止。语法为:for (var in seq) statement

while:循环重复地执行一个语句,直到条件不为真为止。语法为:while(cond) statement

需要注意的是使用while循环的时候必须确保它在某个时刻可以停止,否则语句将永远执行下去。必须小心使用!

repeat,break:在有限循环中使用,通常的统计运用中并不常用。唯一可以中止repeat语句的是break。

next,return:next用来跳过循环中的迭代,return指示函数应该退出并返回相应值。

二、函数

基本结构:

myfunction <- function(arg1, arg2, … ){ statements return(object) }

函数是R中最主要的对象,用户可以编写自己的函数。具体情况还要具体分析,此部分从略。

三、作用域规则

本部分引自丁国徽翻译的R语言定义-作用域规则,我做了修改。英文原文在这里

作用域或作用域规则简单说就是求值程序为一个符号 寻找值所用规则的集合。每种计算机语言都有这样的一套规则。在R里面,这个规则非常的简单,但也确实存在一些不同寻常的机制。

R沿用一套称之为词法作用域的规则。这表明在表达式创建时变量的有效绑定可用来为表达式中任何自由符号提供值。

作用域的许多有趣的性质都和函数的求值有关,现在我们集中描述这个问题。一个符号要么是有约束的要么是自由的。一个函数的所有形式参数在函数主体中提供了被约束的符号。任何其它在函数主体里面的符号要么是局部变量要么是自由变量。局部变量是在函数中定义的变量。因为R有变量的形式定义,它们只在需要的时候才使用,这样就很难区分一个变量是否是局部变量。局部变量首先需要定义,典型的做法是让它们处在一个赋值操作的左边。

在求值过程中,如果发现一个自由变量,那么R会去给它找一个值。作用域规则决定了这个过程如何进行。在R里面,函数的环境首先会被搜索,然后是它的外围,如此直到全局环境。

全局环境指向一个为某个匹配符号逐步搜索的环境的搜索列表。 第一个匹配上的值会被采用。

当这些规则结合了函数能以值的形式从其它函数返回的事实,确实不错。但是首先,你必须获得所有特性。

一个简单的例子是:

 
f <- function(x) 
{ 
y <- 10 
g <- function(x) 
x + y 
return(g) 
}
h <- f() 
h(3) 

一个非常有意思的问题是,给h求值会怎样?为了描述这个,我们需要考虑更多的东西。在函数主体里面,变量可以被约束为局部的或自由的。被约束的变量是这些匹配函数形式参数的变量。局部变量指的是那些在函数主体内创建和定义的变量。自由变量指的是那些既不是局部也不是被约束的变量。当一个函数主体被求值时可以确定一个局部或被约束变量的值。作用域规则决定了语句如何为自由变量找恰当的值。

当h(3)被求值,我们发现它的主体就是g的主体。在该主体中,x和y都是自由的。在一个词法作用域定义的语言中,x的值为3而y和的值为10,因此h(3)返回值为13。在R里面,这就是实际运行过程。

这一节里的Optimization Application没有搞懂。

四、loop函数

lapply: 遍历列表并为函数的每个元素赋值,返回值均为list。sapply本质上与lapply没有区别,是lapply输出结果的简化。

apply函数常用于矩阵行列运算,也可用于一般数组。使用格式为:function (X, MARGIN, FUN, …) X是一个数组;MARGIN:1表示行,2表示列; FUN是即将运行的函数;…是其他进入函数FUN的分量。

tapply用于对向量子集的函数,其使用格式为function (X, INDEX, FUN = NULL, …, simplify = TRUE),其中X是一向量,INDEX是与X有相同长度的因子;FUN是需要计算的函数;simplify是逻辑变量,取值为为TURE(默认)或FALSE。tapply常见于方差分析中对各个组别进行mean、var(sd)的计算。

split根据某些条件因子把向量或其他对象分成组,其使用格式为function (x, f, drop = FALSE, …),其中x是向量(或list)或数据框;f是一个或一列因子;drop取值为为FALSE(默认)或TRUE。

mapply是一个多变量应用中的对一组适用的函数在并行排序参数。其使用格式为function (FUN, …, MoreArgs = NULL, SIMPLIFY = TRUE,USE.NAMES = TRUE),FUN和…含义同上,其中MoreArgs为其他应用于FUN的参数。

五、调试(debugging)工具

R中最重要的几个调试工具:

traceback: prints out the function call stack after an error occurs; does nothing if there’s no error

debug: flags a function for “debug” mode which allows you to step through execution of a function one line at a time

browser: suspends the execution of a function wherever it is called and puts the function in debug mode

trace: allows you to insert debugging code into a function a specific places

recover: allows you to modify the error behavior so that you can browse the function call stack

发表于
分类 学无止境  标签 R  统计学  Coursera