北河以北

生物统计学这门课

文/宋春林

昨天晚上上了李欣海老师的生物统计学,三个小时的课我居然听得津津有味,而上学期基于SAS的统计学课我一般都是听得想睡觉。多数情况下,我上课听讲的效率一直不高,因为我很难跟着大部分老师的思路走,经常是听着听着就不想听了,自己看自己的。这也导致了我的考试成绩一直不是很高。不过,我对分数这个东西不是很感兴趣,所以也觉得没什么。

李老师讲课的风格我很喜欢,逻辑清晰,足够生动。我想这可能和李老师受过长时间的北美科研训练有关。他在加拿大读了两个博士后,然后又在那边工作了几年才回的国。课堂上李老师没有一句废话,从头到尾我感觉到他的思路极其清晰,偶尔还能幽上一默。这样的风格我喜欢。

上课的课件是全英文的,推荐的两本教材也是英文的,这很好。这学期选的几门课,老师们推荐的教材基本都是英文的,咱中科院的老师果然是有品位。英文学习材料或许在语言上稍有不适,但是清晰的逻辑会更节省时间。学术类教材,英文的总体质量比中文的高。与其去看糟糕的中文教材,还不如直接看英文。虽然看中文花的时间更少,但是得到的东西也少得多,用英文学习材料会更加高效。

课件上有一张图比较有意思,李老师对这张图也很得意。图中μ是总体均值(待估计),M是样本均值。

MSE

第一节课主要是生物统计学的介绍,从名词概念到统计学的简史再到R语言和基本的统计描述量。有几个问题比较有意思,比如用样本估计总体的时候,为什么有偏的估计总是比实际量小(样本估计量为实际总体的(N-1)/N)?为什么分母是(N-1)就是无偏的估计?老师上课讲了,但是我感觉讲得还不够清楚,所以我Google了一下,发现可汗学院有专门讲这个(N-1)的,讲得挺生动。链接在这里,视频来自YouTube,中科院IPV6网络不用翻墙就能看。实际上中科院的网也是有墙的,比如诺贝尔和平奖的网站就无法访问(原因你懂的),但是YouTube、Facebook、Twitter这些却可以访问。不知道是北京这边解禁了还是怎么回事,反正我对此是非常喜闻乐见的。

关于统计学,李老师认为这门学科是独立于数学的。统计学里面有很多公式,普通人不必会推导,那是数学家干的事,就算会也未必就学好了统计学。就算是没有数学基础,学好统计学也是完全可能的。老师举了一个例子,说有个西方学者,做多元统计的分析的,连基本的正态分布都不懂,但是统计模型用得非常好。也不是说数学不重要,只是统计学更重要的是一种思想,特别是实验设计的思想。即使是非常顶级的期刊,上面发的文章犯统计学错误的也相当普遍。

李老师这门课是基于R语言讲的,由于寒假的时候我接触过R,所以课件上的R代码我看起来很轻松。李老师对R语言极其推崇,他以前用的是SAS,后来转到R(我猜是到了北美之后,因为那边学术界基本只用R)。虽然SAS非常强大,运行速度也快于R,但是R的工作效率更高,各种package很方便。并且R是开源软件,网络上有非常丰富的学习资源。他说的一句话让我印象深刻,说「学习R所花的时间,以后会得到数倍于此的回报」,这更加坚定了我学习R的决心。李老师说他现在正在写一个R的package,能写package,R编程应该是非常厉害的,这也是我努力的目标之一。

发表于
分类 学无止境  标签 R  统计学