2026

几亿光年

2025

生活是不确定性的。

Let's face it - Life is uncertain

2024-年度总结

2024 Annual Review

Lost in Tokyo 03

迷失东京03:科学与艺术

Lost in Tokyo 02

迷失东京02:御台场纪念日

Lost in Tokyo 01

迷失东京01:东京塔的夜景、爱宕神社与涉谷

2019

慢灵魂

终究会习惯,这种生活。

万寿菊,Aimyon,开黑三人组。

一半人生

2018

日常恐飞

2017

所有的苦难与背负尽头,都是行云流水般的此世光阴。 ​​​​

亲爱的树洞

成都纪事

借我十年,借我亡命天涯的勇敢

2016

你的名字,なんでもないや。

1997年过去了,我很怀念它。

都怪这月色,撩人的风光

只不过是2016年过了一半而已

如果我们不曾相遇

北京天气好的时候,二环也让我恍惚在海边。

三人行必有自拍杆与我想去江南——五一游记之周庄记

一个人的姑苏城:五一游记之苏州记

2015

写在2015年最后一个法定节假日的末尾

你所生活的方式:岭南游记

未名湖畔的爱与罚

2014

我说今晚月光那么美,你说是的。

Flappy bird,或者其他

2012

离回学校还有两天时间

Scream

以爱与和平的名义,技术宅才能拯救世界。

终于开了博客

2025
6.431

Lecture 1. Probability models and axioms 概率模型和公理

6.431

Lecture 11. Derived distributions 导出分布

6.431

Lecture 12. Sums of independent r.v.'s; Covariance and correlation 独立随机变量和,协方差与相关性

6.431

Lecture 13. Conditional expectation and variance revisited; Sum of a random number of independent r.v.'s 条件期望与条件方差复习;随机数个独立随机变量和

6.431

Lecture 14. Introduction to Bayesian inference 贝叶斯统计推断导论

6.431

Lecture 16. Least mean squares (LMS) estimation 最小均方估计

6.431

Lecture 19. The Central Limit Theorem (CLT) 中心极限定理

6.431

Lecture 21. The Bernoulli process 伯努利过程

18.6501x

Recitation 23: Hypothesis Test for Linear Regression

18.6501x

(Optional) Recitation 1. Modes of Convergence 收敛性的模式

18.6501x

(Optional) Recitation. Distance measures between distributions

18.6501x

Lecture 10. Other Methods of Estimation: Method of Moments and M-Estimation 其他估计方法:矩方法和M-估计

18.6501x

Lecture 12. The Wald Test and Likelihood Ratio Test -Wald检验与似然比检验

18.6501x

Lecture 13. The T-test T检验

18.6501x

Lecture 14. Multiple Hypothesis Testing 多重假设检验

18.6501x

Lecture 15. Goodness of Fit Test for Discrete Distributions 对离散分布的拟合优度检验

18.6501x

Lecture 18. Introduction to Bayesian Statistics 贝叶斯统计导论

18.6501x

Lecture 5. Confidence Intervals and Delta Method 置信区间与delta方法

18.6501x

Lecture 6. Measures of Distance Between Probability Distributions 测量概率分布的距离

18.6501x

Lecture 7. Computing the Maximum Likelihood Estimator 计算极大似然估计量

18.6501x

Lecture 8. Examples of Maximum Likelihood Estimators 极大似然估计量的例子

18.6501x

Lecture 9. Statistical Properties of the MLE 极大似然估计量的统计性质

18.6501x

Recitation: Method of Moments 详述:矩方法

18.6501x

Recitation: T-test

6.86x

Lecture 1. Introduction to Machine Learning 机器学习导论

18.6501x

Lecture 1. What is statistics 什么是统计

18.6501x

Lecture 2. Probability Redux 概率论复习

18.6501x

Lecture 3. Parametric Statistic Models 参数统计模型

6.86x

Lecture 8. Introduction to Feedforward Neural Networks 前馈神经网络导论

18.6501x

MITx 18.6501x Fundamentals of Statistics | 统计学基础

6.431

MITx 6.431x Probability - The Science of Uncertainty and Data | 概率论

6.86x

MITx 6.86x Machine Learning with Python-From Linear Models to Deep Learning | Python机器学习

18.6501x

[Lecture 20] Linear Regression 1 线性回归1

6.431

[Lecture 18] Inequalities, convergence, and the Weak Law of Large Numbers 不等式,收敛性与弱大数定律

6.431

[Lecture 20] An introduction to classical statistics 经典统计导论

MITx MicroMasters Program in Statistics and Data Science

千の夜をこえて
今あなたに会いに行こう
伝えなきゃならないことがある

我是HeYan,男,四川土著,帅且可爱,🌈。理性,INTP,热爱科学,并且有点宅。会弹琴,常听J-Rock, J-Pop, Folks, Original Soundtrack。喜欢 いきものがかり (生物股长),Aimyon陈致逸 。现在常住在北京。

现在在tiktok-platform responsibility部门摸鱼。在此之前,我在字节跳动-生活服务的平台治理(base成都)打工。

在重新回到字节前,就职于美团保险,并负责一个小的两核策略团队。更早一些时候,在字节跳动有过两段工作履历,负责建立了抖音支付最早期的风险管理体系以及做过一段时间的贷前信用策略,并且交到了几个很好的朋友。当时的字节跳动带给了我迄今为止的工作经历中最棒的体验。在此期间有过短暂的银行风险经理的工作。在加入字节跳动之前,在美团支付团队负责支付风险管理。最早的时候,在支付宝做支付方向的风控,那是毕业之后的第一份工作。

在工作之前,我在四川成都的西南财经大学度过了四年本科生活,我很喜欢成都这座城市,并且在成都买了一套贷款三十年的房子(虽然迄今为止入住的时间总和不超过一个月,计算ROI是一笔非常失败的投资)。现在房贷已经基本还完啦。

想读PhD拖了十年的重度拖延症患者,但我相信时间会在三十五岁之前给我一个答案。感兴趣的领域包括宏观金融、资本市场、机器学习与统计。在此之外也对编曲与作曲抱有极大的兴趣。

有一只叫做何包蛋的五岁美国短毛猫,一只叫做香蕉的六岁柴犬,以及一个男朋友,他在游戏行业从事数据分析工作。我们都希望能够环游世界。

关于专业与兴趣

MITx Micromasters Statistics and Data Science

  • 6.431x Probability - The Science of Uncertainty and Data ✅
  • 18.6501x Fundamentals of Statistics ✅
  • 6.86x Machine Learning with Python-From Linear Models to Deep Learning ✅
  • 6.419x Data Analysis: Statistical Modeling and Computation in Applications (ongoing)

Finance & Risk Management

Coursera

Udacity

迄今为止的人生路径

  • 2025-now TikTok - Platform Responsibility, Beijing
  • 2024 - 2025 字节跳动 - 本地生活-平台治理与体验,成都
  • 2021 - 2024 美团点评 - 保险平台部,北京
  • 2020 - 2021 字节跳动 - 财经业务部,北京
  • 2019 - 2020 蓝海银行 - 零售信贷风险管理部,北京(并不是很喜欢这段经历)
  • 2018 - 2019 字节跳动 - 财经业务部,北京
  • 2015 - 2018 美团点评 - 技术工程部/支付平台部,北京
  • 2014 - 2015 支付宝 - 国内风险管理部,杭州
  • 2010 - 2014 西南财经大学,成都

关于签名

第一段来自Aqua Timez千の夜をこえて, 2010年左右最喜欢的日文歌。这个乐队在2018年正式解散。

Back

几亿光年

墨尔本RMIT门口。

#Writing

Back

生活是不确定性的。

>周报这个题材是学的https://www.pseudoyu.com/posts 的博客风格,但人家能保持每两周写一篇,我还是算了吧:)

在经历了三个月6.431x和18.6501的摧残后,今天难得的拥有了一个自由的周末写写久违的博客,虽然个人域名又忘了续费。

从5月到8月,这三个月几乎所有的周末和工作日闲暇时间都献给了这两门课,我果然还是too young too simple sometimes naive,天真的以为『老子概率统计学得很好啊这不是随便刷吗』。概率那门课还好,但统计确实恼火,在知乎上看参与了MIT这个项目课程制作的一个博士说18.6501原型是数学系的课,怪不得充斥着大量的证明和渐进理论。好处是上完课之后再看一些论文里涉及到概率统计相关的公式和理论就觉得so easy啦。

这三个月的重心都放在了上课上面,但工作过于繁忙(瞎忙),以至于出差的时候全程都带着ipad mini。在两舱休息室做题,在公务舱看lecture和拿着A4草稿纸算题,空姐大概会以为我是个赶作业DDL的大学生吧,笑。

2025.6.11 @ 成都双流国际机场

2025.6.21 @ 家

我很少在意绩效,指望『一两个傻逼就对一个人的整体工作作出一个评价』这件事本身就充满着统计学上的滑稽和荒谬(unbias but large variance)。但这次是为了想转去tt而必须有一个相对好点的绩效,所以结果还是对我预期的规划造成了一些不可控的影响。老张已经提前去了北京,而我现在只能重新去看北京的职位——甚至也在开始看外面的机会了。

这时候想起了在6.431的第一节课上,Professor说的一句话,Let's face it - Life is uncertain。

从四月开始,做各种心理量表,结果都在不约而同告诫我『你现在是重度抑郁』,但我自己感觉还好。我不知道其他的抑郁症患者为什么难以自救,和馨予聊天时我有一种结论(但不一定对):他们抑郁症的根源就来自于自己在乎的事物。而我恰好不是。是的工作很烦,现在生活也不是我想过的那种生活,一看年龄也即将35岁了却还是一塌糊涂。但我自己想的还是现在的一切都只是过眼云烟。本来计划的是今年申请硕士,但现在看来确实也没时间考语言了吧笑。但转念一想再赚两年钱也挺好。

最近开始尝试用notion来做笔记,顺便发现notion也可以拿来当博客。之前在有一篇文章里说过独立建站最大的问题是从写作到发布之间多的那几步始终挺麻烦的,特别是图床贴图(我没有一点给自己不写博客找借口的意思)。所以顺便就一起迁移到notion上了。顺便一说,财大现在给校友提供校友邮箱,所以我注册了一个校友邮箱来薅notion的免费教育版。

是的薅羊毛+存钱是真的会上瘾的。

希望接下来保持每两周写一次博客的习惯吧,加油鹿小葵!

Back

2024-年度总结

前言

2024年在微博上给自己立了一个OKR是「重新成为一个有趣的人」。这个「有趣」的来源,其实是翻看以前的微博时,18-19、20-21年这两段时间的整个人状态是个人最喜欢的。

抛开那时候还不满三十岁的青春生气不说,更多是工作上做着自己还比较喜欢的事情,能感受到自己的迅速成长,团队同事和老板也都是一群高学历聪明人并且少了很多傻逼间的低劣宫斗场面。

生活里,逐渐跳出舒适圈广泛涉猎各种兴趣爱好,比如穿卫衣的习惯就是18年有段时间比较迷彭昱畅时学的。那段时间也喜欢在上下班路上拿着iPhone X用nomo拍一些现在看来模仿低劣胶片质感的照片,但照片里北京二环里阳光的漏影也成为日后怀念的注脚。

18-19年外面的世界发展很快。日本那一年的流行文化恰好精准踩到我的审美点上:aimyon在18年发行了「マリーゴールド」,King Gnu发行了「白日」,official higedam发行了「pretender」。在之后的几年,这都是我听得最多的流行音乐人。流行小说上,乌贼写出了他网文生涯的巅峰之作「诡秘之主」,追得不亦乐乎。

很可惜后面就是大家都懂的三年疫情,而我也换了工作并且每天工作如上坟。24年年初,有一次翻到20年在微博和别人对线吵架,发现当时连吵架都是翻着论文引经据典言之有物,妥妥一个INTP。所以想,还是要重新成为一个「有趣」的人。

现在2024年结束了,对OKR打个分的话,只能算不及格。BTW,如果以标准的OKR的定义,这不能算是一个很好的OKR:没有量化的衡量指标,没有细拆的O和具体的执行动作,摊手。

那么,简单回顾一下2024年都做了一些什么事情,又有哪些是可以被铭记的。

工作:6.0/10

工作上还是乏善可陈。2月份从美团跳回了字节,本意是想回成都而投了字节的本地生活,但因为另一半没有找到成都的工作,又被迫在北京待到了6月。

我不喜欢美团,自然地,我也不喜欢字节本地生活——这是一个超过1/3的原美团人组成的和美团类似的业务部门,与其说是字节范氛围是字节洼地,倒不如说是美团价值观复刻。另一方面,成都合适的职位只有风控运营专家——title再怎么花里胡哨也是运营,而运营是我过去最不喜欢的工种,运营的主要工作基本都踩在我的雷区上。但为了回成都,勉为其难地接了这个offer并且到现在刚好工作了一年。每一天都上班如上坟,一如在美团时一样。

作息:5.0/10

很遗憾作息仍然维持了2点睡、9点半起的传统。在互联网公司工作,同时如果还想要有点属于自己的下班时间,那么晚睡几乎成了一个必然的选择。作息上给了不及格,但好像我也没什么其他的办法。

音乐:7.5/10

2024听的音乐总的来说也是乏善可陈的一年。

这一年听NewJeans最多,也成为了NewJeans的粉,但很可惜这一年也是NewJeans命途多舛的一年。年度歌曲是「ditto」,这一年又听了几百遍。「ditto」自带的东亚校园伤痛文学情绪在这一年里一直贯穿在我的生活心理状态中,常常在上班途中和出差的飞机上听着「ditto」突然沉默。如果看24年新发行的歌里听得最多的,大概是「Supernatural」。New Jack Swing的律动和流行式的旋律让我经常反复重播。

网易云音乐的年度歌曲是omoinotake的「几亿光年」,是一首胡子男风格的日式流行,听得多的最主要原因是旋律线条流畅顺耳,在这一年的billboard J-POP TOP10里算是一股清流了。

除此之外,还有Chante Moore在歌手上直播版本的「If I Ain’t Got You」,也是惊为天人。

学习:5/10

首先,24年没有看完任何一本专业性的书,悔过。一方面工作确实用不到(还记得前文提到的吗?运营这个工作主要还是拉皮条和paperwork),另一方面是在美团待了两年后,已经和技术向的东西彻底脱节了,要重新捡起来需要一些勇气,并且也会常常自我质疑「这样做还有什么必要吗」。总而言之,24年在技术上是彻底垮掉的一年。

论文也没怎么看,原因同上。另外,24年全年都处在一个「我不知道自己对什么方向感兴趣」的迷茫状态中,大部分时候都是东看一点,西看一点。现在回想,这一年浅浅地了解了一下深度学习做tabular数据的新进展和时序数据的异常识别,但都只是浅尝辄止。也重新看了一下可解释性机器学习、因果推断在业界的使用,但书也没怎么看完。

公开课or网课,这一年也是0。

这一年的代码量甚至小于了100行——SQL不算。以至于某一次需要用Python做一个比较detail的数据分析的时候,连基本的语法都忘得干干净净,摊手。

阅读:6/10

这一年完本的小说里没有什么是印象特别深刻的,看虚构小说更多是阶段性找个事情消磨时间,与19年狂热地追诡秘的连载截然不同。

但得益于从24年下半年开始骤然增多的出差频率,让我重新拾起了飞机上用iPad Mini看书的习惯。

这一年首先把断断续续拖了好几年的「大灭绝时代」,在10月18号广州飞成都的3U6714航班上看完了。除了六次生物灭绝带来的情感冲击外,另一方面我还是很向往书里那些科学家们做田野调查和科研的生活方式。

在此之后,「教育的浪费」看了一半弃书:这真的是一个经济学家写的么,车轱辘话来回折腾。

然后是「像火箭科学家一样思考」,我以为作者会讲自己负责好奇号、机遇号的火星探测项目中的经验,但读到后面越来越像一本略拙劣的成功学著作。

「太白金星有点烦」:略微超出预期的快餐文,马伯庸难得的没有烂尾,字数也不多,记得好像一个来回航班就看完了。

旅行:7/10

24年因为跳槽的缘故,旅行频率比23年低了很多。

1月元旦节去了厦门,2月春节去了乐山,10月国庆去了拉萨,11月的一个周末去了九寨沟,12月底为了刷川航积分去了一趟鄂尔多斯。这就是24年的全部旅行行程。

BTW,因为出差的缘故,差不多每3周会飞一次北京,趁机把川航刷到了白金卡。但不得不说川航现在的飞机餐甚至不如国航,如果不是因为身为四川人对川航和熊猫有家乡滤镜,我大概率会弃川航改刷国航……

数码设备:NA

24年在数码产品上几乎没有任何的更新。

  1. 手机:手机是23年买的iPhone 15 Pro Max并且肉眼可见还能继续坚挺一年。
  2. 耳机:依然是几年前首发买的AirPods Pro2,因为随时会开线上会议,所以AirPods全天都几乎挂在耳朵上不取。
  3. 音箱:回成都之后,又买了两个HomePod新款用来组家庭立体声音箱,但实话实说音质还是不如一代的HomePod。
  4. 其他配件:必须重点提一下小米的踢脚线取暖器,此刻就在我的脚边,四川阴冷的冬天全靠它。

影视作品:6/10

24年进电影院的次数也屈指可数。

当年新上映的新电影里,「朱同在三年级丢失了超能力」是相对更喜欢的一部,除此之外「从21世纪安全撤离」也还不错,但应该没什么二刷的冲动。

如果抛开「新上映」这一限制,24年最喜欢的是「宇宙探索编辑部」,这也是一部人人都觉得我一定会第一时间看但我居然硬生生拖了三年才开始看的电影。在这里直接引用我在豆瓣上留的短评吧:

拖了很久终于把这部电影看了。除了故事大部分剧情发生在我的家乡以至于带来了一些陌生的熟悉感之外,其他时候我总是会想起小时候看的科幻世界,想买而家长一直不肯买的天文望远镜,以及曾经想过的,「朝闻道」里也提过的问题,宇宙的意义是什么。大概是一个中年社畜不会再去深入思考的问题吧,笑。

其次是「花束般的恋爱」,感触太多以至于不知道怎么写短评。

总结:6.0/10

2024年过去了,这是乏善可陈的一年,年度盘点也只需要花一个晚上的时间就可以匆匆总结。如果一定要用一个量化的指标来打个分,我可能会给到6分:及格。给到一个及格分数,是因为这一年肉眼可见地做出了改变:离开北京,回到成都。下半年虽然过得比较混乱,但这也许是从一种生活状态中脱离,尚未准备好进入另一种生活状态的过渡阵痛。

可能接下来会再写一个2025年的计划。拖24年时不时思考的福,25年的计划,大概不会再像24年一样,是一个不合格的OKR了吧,笑。

Back

Lost in Tokyo 04

纪念2025.01.01 - 01.05 的五天四夜东京之旅。
很遗憾一次性并不能全部写完。

Day4: 浅草寺与庙会

第四天天气又恢复了晴朗。 这一天主要是在浅草寺和逛庙会。

雷门,全是人。

在浅草寺看到了米家三件套之绝区零的宣传海报,至此三件套的广告全部get。不愧是米桑的故乡。

浅草寺主体建筑

刚好遇到了元旦祈祷大会,我们也排队进去参观了一会儿。

也买了一个蛇年主题的绘马,挂在了浅草寺。

在浅草寺买了御朱印小本本,一直排队盖御朱印。BTW,这是唯一一处必须懂一点日语才可以交流的场景。盖御朱印的流程是:

  1. 首先排队将本子交给巫女小姐姐,给她说你需要选择哪几个印——这一步可以直接填表、用英语或者直接用食指大法说「this/this/and this」。
  2. 付钱——这一步也直接看展示出的需付款金额给钱就好。付完钱,小姐姐会给你一个编号。
  3. 排队等人工制作御朱印,然后另一个巫女小姐姐会在窗口报号码——这个地方就比较尴尬,因为报号的人一般都只说日语数字,如果游客不懂日语的话,就只能不停挤进排队的窗口,试图伸着头去看自己的编号。

万幸的是我日语虽然几乎忘光了,但数字好歹还记得一些,所以我和老张分别是617和618号,也算能听得懂。

当时在日本没有拍御朱印的图,今晚在成都写这篇博客的时候翻出了我沉寂已久的SONY A7拍了两张,不得不感叹相机的效果就是比手机好太多。

1月4号在浅草寺刚好也是庙会时间,全是卖小吃的摊贩,我们午饭主要就是靠各种小吃吃饱的。不过当时我人应该是比较疲惫,就没拍照片,现在想想还是有点后悔。

Day 5: 新宿买手机未果 & 回程

5号早上和老张商量想买个iPhone 16 Pro,因为我确实不太喜欢现在的15 Pro Max屏幕太大。但日本现在的iPhone也比较容易缺货,所以5号早上起一大早就跑新宿的几个电器城:Bic Camera、山田电机等等。但最后跑了大概五六个电器城还是缺货,遂放弃。

新宿地铁站出口的鸽子

中午吃了一家干拌拉面,我和老张各点了一份「地狱辣」,一开始还不屑:日本的地狱辣能有多辣,我打算面不改色吃完之后面对服务员不可置信的眼神,轻飘飘留下一句「私たちは四川人です」。结果吃到一半我和老张就已经被辣的面红耳赤不停喝水,最后也没把面吃完就灰溜溜走了……

下午从羽田机场搭国航CA134飞北京,这架飞机的舷窗玻璃被划得过于花,以至于每张照片都拍出了梦核版的朦胧感。不得不说,日本城市规划与建筑物的规整感是真让人身心愉悦。

后记

经验教训:

  • 在「吃什么」上可以提前做规划,这次没有吃寿司、炸天妇罗和海鲜还是有点遗憾;
  • 部分景点的游玩时间超出预期,不能太相信网上的攻略,毕竟每个人的兴趣点是截然不同的:例如因为时间不够,东博就只来得及逛主馆,但我和老张的兴趣出发,上野公园和附近的博物馆其实可以安排一整天的时间;
  • 带相机在很多场合还是比手机拍照要更好的。
Back

Lost in Tokyo 03

纪念2025.01.01 - 01.05 的五天四夜东京之旅。
很遗憾一次性并不能全部写完。

Day 3: 科学与艺术

到日本的前两天天气都很好,以至于我们有一种“沿海城市可能每天都是蓝天白云吧”的错觉。第三天就给了当头一棒,早上起床拉开窗帘就发现是个阴天。

第三天主要去了东京大学和东京国立博物馆,因为天气的缘故,照片也没有拍很多。

東京大学 University of Tokyo

东大是这次旅行时一早就计划会去的目的地。我和老张两个人都有逛大学的习惯,在疫情前的旅行基本都会去当地的大学校园走一走。但国内因为疫情的缘故,很多大学趁疫情封控之机封闭了校门,疫情解封后也一直拖延不肯开放,社会上一直有抨击的舆论和声音。直到2024年才开始逐渐有大学开放,但据我个人观察绝大部分国内高校目前游客想进入还是非常困难的一件事(例如需要提前预约、或只给校友身份开放权限等),所以「逛大学」这件事,只能在国外实现了:(

但不幸的是,元旦节刚好也是日本春节,学生都放假了,东大的整个校园都冷冷清清,里面只有零星的几个游客。食堂、纪念品店统统没开门。我们在里面拍了几张照片就离开了,打算五月份再重新去一次。

从东大出来吃午饭,找了一家校门附近的餐馆,进去后女服务员第一句是「いらっしゃいませ」(欢迎光临),但她抬头看了我们一眼,第二句话就改成了字正腔圆的中文:「楼上有座位」。我点了一个小炒牛肉盖饭套餐,老板亲自在二楼炒菜,一边问我能不能吃辣,我说我是四川人。吃饭中和老板聊天,老板自述是第一批留学生,八十年代从大连来日本留学,已经几十年了。他妈妈是成都人,所以还问了我一下成都的近况。

中途有三个女生也上二楼来吃饭,老板习惯性用日语问几个人,为首的一个女生稍微有些怯生生地说「さんにんです」(三个人),然后很快老板也发现这是中国人,于是大家又愉快地切换成中文对话。因为已经过了饭点,整个二楼就我们两桌人,各自都在用中文聊天,有种在国内吃饭的错觉。

盖饭的味道还不错,牛肉的肉质和国内有区别,可能是美国牛肉?笑

東京国立博物館 Tokyo National Museum

东博也是原定计划中的地点,从东大出来之后我们选择走路去东博,路上大概走了半个小时。东博人蛮多的,而且当天因为天气不好、气温偏低,有冷风吹得我头疼,在东博的时间也不够多,就只逛了主馆。东博的纪念品倒是买得挺多的。

东博给蛇年单独开了个展馆,这个蛇可以动,设计的也挺好看。

东博的展品里我最喜欢的反而是浮世绘系列,有个展厅专门展出了很多浮世绘作品,葛饰北斋的也有不少,但我没看到神奈川冲浪里。在这个展厅可能看的太认真,反而忘了拍照,没留下一张照片纪念。

从主馆出来的庭院景观也有种秋风萧瑟的意思。

1月3号刚好在东博有hello ketty的特展,我们提前买了票也进去看了看。虽然两个男人对hello ketty向来是不怎么感冒的。

hello ketty特展里我觉得最好玩的是和东博的几个镇馆之宝的联动:比如「神奈川冲浪里 X hello ketty」之类的梗图。所以在参观完后的纪念品店也买了几个这一主题的画。

晚饭:美式牛排

从东博出来天色已暗,也来不及逛上野公园和其他的几个博物馆了。在附近的商圈找到了一个美式牛排的店吃了晚饭,我选了牛排+日式酱汁,味道也挺好的。

说起来这次在日本几乎没怎么吃当地特色,我对Omakase也毫无兴趣,还是资本主义大口吃肉的生活方式更让我开心。

第三天的两个景点都不算逛得很彻底,也不是一次性能逛得完的,所以期待五月再去的时候会有不一样的风景。

#Writing

Back

Lost in Tokyo 02

纪念2025.01.01 - 01.05 的五天四夜东京之旅。
很遗憾一次性并不能全部写完。

迷失东京02:御台场纪念日

国内一般把お台場翻译成「御台场」,主要是受到数码兽大冒险第一部(digimon adventure 01,以下简称DA)的台版音译,お在日语里的一个用法是表示对对方的尊敬,所以翻译为「御」。实际上日常里一般就直接叫成「台场」。

御台场是数码兽大冒险在现实世界里的故事主要发生场景,而DA的制作方富士电视台使用了台场大量的实地景点(甚至贡献了自家电视台的大球供战斗暴龙兽去打怨毒吸血魔兽……)。在DA02里,「御台场纪念日」成为了动漫里的一个专有名词,纪念现实世界的这一段经历。

对国内DA的粉丝而言,去御台场的圣地巡礼几乎已经成为了一个例行活动。我还在高中时,贴吧里有个在新浪新闻工作的老哥,就经常在贴吧里发台场的实景拍摄贴。老张在这次东京旅行里特地安排了一天台场之行,感谢科技进步,ChatGPT甚至可以提供御台场圣地巡礼的完美路线图和典型景点实物对比图。

1月2号早上起床,天气非常好,能见度极高。我们选择临时调整旅游计划,早上直接从新桥坐临海线去台场海滨公园。临海线是地上运行的轻轨,我们选了一个车头的车厢,方便从车窗看城市的景色。

白天的东京塔

### 台场海滨公园站

台场海滨公园站下车。这一站其实只在DA的剧场版「我们的战争游戏」里出现了一个镜头,但大家似乎都喜欢把站牌当成是圣地巡礼的第一站,大概都是因为从这里下轻轨方便拍摄吧:)

台场海滨公园站

台场站台

#### 太一&光的公寓

台场出来可以走路到的就是太一和光住的公寓。这是著名景点,从DA的TV版到剧场版都频繁出镜。印象中,这一栋公寓以前还在楼下立了个牌子介绍这是太一的家,这次去公寓找了半天也没找到,估计是撤了吧,毕竟整个digimon的热度不管是在中日都已经江河日下了。

太一家的公寓

这个全家也在剧场版出镜过

#### 台场海滨公园

从公寓走出来不太远就到了台场海滨公园。很幸运的,我遇到了第二个抽烟区。这次在日本我特意没有买打火机,一路都靠抽烟区找人借火。在台场海滨公园的抽烟区,遇到一个像是环卫的大爷,借火也很顺利。

台场海滨公园是我这次在东京见过的最美好、最漂亮的风景,阳光蓝天白云+平静的海平面,手机随便一拍就可以作为壁纸。海边步道和沙滩上有不少平静的游客与遛狗的当地人,最难得的是整个环境非常安静,甚至可以听到大海被微风吹得泛起波光的哗啦声。

彩虹桥

坐船点

过于好的天气

沿着海滨公园散步,在Aqua City台场找了一家海鲜盖饭的定食店,叫「筑地食堂 源」。BTW,这个店是在点评上也有收录,可能中国人去得多,提供的菜单也有中文。我点了个生鱼海鲜盖饭,很难得没什么腥味儿。吃完饭和老张在商场里逛了会儿ニトリ,宜家青春版,我记得国内好像在上海也开了一家。

吃完饭,又去看了一下台场的东京自由女神像(自由の女神像(台場),这是1999年为纪念日本与法国友好关系时建造的法国自由女神像的复制品。同时也在digimon 2000剧场版「我们的战争游戏」里出现过。

自由女神像

#### 富士电视台/富士产经集团大楼/FCG大楼

然后就是本次旅行的重头戏:富士电视台。当然我们的主要目的是为了去那个大球。富士电视台大楼是丹下健三设计修建的(丹下健三是日本第一位普利兹克奖得主,但其实我并没有觉得富士电视台修得很好看,丹下健三的香川县厅舍更符合我的审美:))。富士电视台的球体观光厅对外售票,从球体内部可以俯瞰台场绝大部分景观。

富士电视台

我印象最深刻的是从球体往下看其他建筑时,看到修建在建筑楼顶的篮球场和停车场,有人在打篮球。之所以印象深刻,那一瞬间我突然想到超级马里奥奥德赛的都市国(New Donk City)里我见过几乎一模一样的场景:高耸入云的摩天楼、马里奥在楼顶与楼顶间穿梭、楼顶停着汽车、有人正在打篮球、你甚至可以操纵马里奥用帽子去干扰他们。17年玩奥德赛的时候就觉得这个画面很好玩,现在想想,大概游戏设计师的灵感就来源于东京的这些现实场景吧。

#### The Gundam Base Tokyo,鰻丼,东京塔

最后又去了Diver City Tokyo看了下高达模型,在专卖店买了一点手办,就到了吃晚饭的时间。晚饭我们去了池袋吃晚饭,去了一家做鳗鱼饭的店,我点了一个双倍鳗鱼三吃,花了大概10000円,但确实烤得好吃(写到这里我突然饿了……

高达

鳗鱼饭

吃完饭,从池袋回到东京塔,顺利赶在TOP DECK TOUR的预定时间排上队。欣赏东京夜景。可惜这次去东京没带相机,而手机拍夜景还是差点意思。

### 总结

台场的风光可以让我坐一上午。池袋也不是传闻中的全是中国人。鳗鱼饭真好吃啊( ̄▽ ̄)"

#Writing

Back

Lost in Tokyo 01

纪念2025.01.01 - 01.05 的五天四夜东京之旅。
很遗憾一次性并不能全部写完。

关于这次旅行

很难想象作为一个将日本流行文化作为超过一半的娱乐生活的人居然没有去过东京,上次和朋友聊到的时候,对方也很吃惊。我将其总结为一种『近乡情怯』的微妙情感:了解得越多、越想准备好、越准备不好的恶性循环。

2024年换工作回字节、回成都之后,还是能感觉到比在美团忙碌很多,以至于24年一整年都没怎么旅行,遑论出国。老张作为一个爱旅行的人,在24年底的时候订了元旦五天四夜的东京之旅,我咬牙元旦节请了两天假,顺利出行。

去程坐的是川航从成都直飞东京成田。飞机快降落的时候,看到大片规整的农田,冬日的昏黄氤氲光线,虽然同为东半球北纬30°~40°的地理分布,但每个像素都透露着异国他乡的熟稔感。坐成田特慢花了一个半小时才到新桥,老张斥巨资订的东京汐留皇家花园酒店,房间非常小,主打东京塔景观。我们到酒店的时候刚好当地时间五点,赶上了东京日落,于是看到了夕阳、东京塔和富士山同框的无敌画面。

飞机上的地平线

夕阳、东京塔和富士山

Day 1:东京塔的夜景,爱宕神社与涉谷

东京塔毕竟太过于熟悉,作为东京地标活跃在无数影视文学动漫作品里,也时常出现在我的手机和电脑壁纸上。我们决定在新桥附近随便找了一家麦当劳(BTW,每次去日本都必然有一顿饭是靠麦当劳解决,老张为数不多会的几个日语单词就是搞笑式的makudo narudo,感谢黄明志tokyo bon的普及,笑)。吃完晚饭就徒步去东京塔。

徒步过程中偶遇爱宕神社神社,我们爬石梯上去闲逛了一下,本也打算顺便祈个福,无奈排队游客太多,外加这个神社供奉的神主要保佑防火,与我们关系不大,遂作罢。

爱宕神社还有个称号是東京23区最高峰の神社。

东京塔的近景也是很美的,打卡点全是外国游客排队拍照。我挑了一个仰视角度,偶然发现东京塔下半部分纵横交错的竖直钢筋很像是细田守在「我们的战争游戏」里战斗暴龙兽打大菠萝兽的背景构图。

爱宕神社

近距离看东京塔

到现场再买东京塔的top deck tour需要等两个小时,我们商量了下决定可以改天在网上订票,当晚去其他地方逛逛。于是坐地铁直接去了涩谷。印象中,在我小时候涩谷并不算特别出名,只有涩谷辣妹这种我迄今为止都无法欣赏的审美。但毕竟是游客必打卡点。从汐留到涩谷明显感觉到人流骤然变多,张灯结彩和鳞次栉比的广告牌,等待着红绿灯过十字路口的人潮,以及我在东京发现的第一个吸烟点。老张说,「这才是印象中的日本嘛」。

从涉谷站出地铁就是忠犬八公雕像,但拍照的人还是太多,我们挑了个合影游客换人的空隙赶紧拍了两张,回成都带给香蕉看。

在涉谷抽了两根烟,去mont-bell买了件羽绒服,丑归丑,但的确轻薄保暖,现在已经是我的日常最爱冬季外套了。去唐吉坷德买了一堆小玩意儿和纪念品,排队结账时从喧嚣吵闹的人群中听到了商场广播放的歌是「几亿光年」。哦omoinotake实火,我的2024年年歌。

地铁里的广告是原神,火神玛薇卡up,不愧是米桑故乡

忠犬八公

涉谷十字路口

涉谷商业街

未完待续

作为强迫症患者,想把游记写得面面俱到事无巨细,而这对一个INTP&完美主义者来说是一件异常痛苦的事情。过去也去了很多地方,回来后总是在脑子里开始打草稿,但想得越多越难以下笔,最后拖延着拖延着也就像时间一样流逝过去了。上一篇博客是2023年4月,在这一年半中,其实发生了很多人生大事。例如23年沿着丝绸之路的轨迹去了银川、敦煌、喀什、乌鲁木齐,跳槽回了字节生活服务然而发现这只是一个美团plus, 从工作生活了整整九年的北京举家搬迁回了成都,办好了日韩五年签并且第一次去了大阪,还完了房贷然而又想着换一套更好的房子,头发越掉越少:(

神经细胞无法再生,记忆也并不像想象中那么牢靠,最终还是需要记录到互联网的某个地方,可以让自己在未来的某一天重新翻开,重温当时瞬间的快乐。所以我能想到的一个缓释措施就是将一个大而全的文章拆成一段段独立的博客来写,就像这次的东京之旅一样。

デイバイデイ
どんなスピードで 追いかけたら
また君と 巡り逢えるだろう
寄り添った日々 生きている意味
くれたのは君 なんだよ

日复一日
该用多快的速度追赶才好
才能与你再次辗转相遇
相依相伴的日子 活下去的意义
将这些给我的都是你啊

#Writing

Back

写在二十岁的尾巴上

昨天开始正式步入了『二十岁』这个区间的最后一个年头,但是特别忙,和京东来的人开会,去瓜子做贷后检查,然后五点回公司又帮同事check代码,晚上还开了个data的汇报会,回家躺沙发上居然就这么直接睡着了,想写点感想也没机会。

我常常在想自己的这二十多年过得还是蛮有意思的。驱魔少年钢炼凉宫夏日大作战fate周杰伦蔡依林SHE生物股长Mr.Children&aimyon生活大爆炸西部世界还有一大堆数不清人类科技娱乐和艺术的结晶,都在不同的时间和空间下构成了我的性格和回忆的一部分。

读书的时候热衷于穿衬衫和纯色毛衣好像可以让自己显得成熟一点,真快到30岁了又天天套头卫衣和迷彩裤,连上班都随意地穿小米运动鞋只因为走路舒服。昨天上班时抽空下楼抽烟遇到一个推销招行信用卡的哥们和我搭讪,随意聊到工作多久了我说我工作五年了28岁小哥恭维一句看不出来啊跟刚毕业一样,我差点习惯性低下头给他瞅『你看我脱发哟』,笑。

二十岁这十年分别被成都杭州和北京这三座城市瓜分,今年突然意识到北京已经成了除了家乡之外我呆的时间第二长的地方,对望京回龙观和惠新西街南口周边无比熟稔,然而还是没有胆量去尝试豆汁儿卤煮炒肝和爆肚儿。

记得以前每年生日和新年也会装模作样写一番规划但反正从来没有实现过,我就是计划的巨人行动的矮子然而这样过着日子似乎也并不坏。就像是每个基于历史数据训练的模型AUC和KS再高也只是当前各种约束条件下的最优选择,也会在时间变量的推移中迅速衰减。

小时候想当个天文学家,中学时觉得自己辩论(吵架)厉害适合当律师,大学又以为会在华尔街中环陆家嘴金融街做个西装革履天天打飞的看项目的投行狗或者在四大累死累活审底稿看财务的审计狗,结果毕业去了互联网做PM和分析师天天和别人扯统计和机器学习模型,最后跳到这家小银行做credit risk时居然能在深圳出差时和微众税银的人讲会计折旧方法对净利润的影响。

然而最让我无力的大概是时间的线性增长。古川流老贼沉迷打麻将不再续凉宫,生活大爆炸在freestyle的吉他慢板主题曲中落下帷幕,生物股长放了两年牧又合体,京阿尼今年的灾难带走了好几个我熟悉的人名以至于我重新看2006年的凉宫的时候不忍心看字幕的staff出现他们的名字。只能默念几遍,Que sera sera,一切都会过去。

我也很难去预测接下来的一年和十年会发生什么,但正如去年年底循环过好多遍艾怡良的forever young,永远年轻,像一个少年一样。

#Writing

Back

慢灵魂

有一个大学玩得比较好的同学的小微信群,最近的讨论话题都围绕着买房、跳槽、生孩子。

很多事情做决定时总是有一大堆现实因素扯着你往地上拽,比如从SMU回成都的朋友L会因为男朋友和家庭父母原因而难以去自己想去的城市。

说着说着就突然想起我们大学的时候。有一次大二刚开学,学校举行运动会,我们一行五人就趁机去逛了一天宜家。因为我们三个金融,一个会计,一个国商,所以还在校车上欢乐地刷人人看运动会看各学院走方阵『撕逼』。

逛成都宜家的时候各种恶搞,我和WQ用iPod touch 4那500W的劣质摄像头对着各自拍了一堆低分辨率高噪点的囧照。

下午去玉林那家著名的王妈手撕兔排队买兔子,准备带回学校吃。但是一路走饿得不行,最后在人民公园附近找了一家KFC,借着吃汉堡的名义,吃完了一整只手撕兔……

最后晚上从光华校区坐校车回柳林,回宿舍前还特意去颐德楼I座实验室看被WQ吐槽了一个学期的某浓妆艳抹女老师照片。

我记得那天晚上的月亮特别圆,大概和中秋节刚过去不久有关。走在回宿舍的路上,我的iPod刚好随机到卢广仲的《慢灵魂》:

终究会习惯 这种生活
太多的困惑 我不想懂
就在没有月光的时候 流星划过我的身后

那时候以为生活大概会常常保持着这般的快乐与满足,就连十月成都乍起的晚风也吹得我那文青的小情绪纷飞。

直到很多年后才知道,中年人的世界里,想维持『从心所欲不逾矩』的少年心态原来也那么难。

Back

万寿菊,Aimyon,开黑三人组。

1.

距离春节五月有余,终于又一次离开北京前往上海,为aimyon上海演唱会以及平安京三人组首次当面开黑。

上一次正经听演唱会是15年北京五棵松的Rie Fu, 以及16(还是17?)的好妹妹工体。其实北京也开了不少演唱会,但一直没心情去参加。大概成年以后愈发懒散,对任何事情都提不起兴趣。这次Aimyon难得来一次上海,恰好这半年都常听她的歌,所以买了内场票,又奢侈一把定了个静安洲际,开始第n次上海游。

2.

天公不作美,高铁进入南京开始就一直阴雨连绵,到上海的时候恰好倾盆大雨。

害得我本来就稀疏的头发在湿气的夹击之下纷纷败下阵来,贴着头皮,别提多丑。

打车到静安洲际,赶紧把头发吹干,换了件衣服之后,就和SY去旁边的大悦城吃饭,等师兄。

在大悦城五楼的momo牧场门口,正在发微信问师兄到哪里了,我抬头看到一个唇红齿白的少年,穿着黑色TEE和绿色短裤,向我和SY走来,挥手。心想卧槽,这小哥好帅,难道是师兄?

3.

这小哥还真是师兄,我感觉自己顿时遭受到了一万点打击。说好的30岁中年男人呢,为什么少年感如此强烈,像个二十出头的小孩…

我第一次理解所有的脆皮鸭小说里描述男主角的“唇红齿白”“明眸皓齿”,具现在我面前,以至于我有点不敢多看两眼。

在此往后的三天里,和SY、师兄一起吃饭打游戏和撸猫的时候,一直忍不住偷瞄师兄的嘴唇。薄薄的,红红的,粉粉嫩嫩的,说话的时候上下轻启,我竟然有一种想咬上去的冲动。

咳咳,大概真是寂寞太久了吧。

4.

Aimyon演唱会在世博中心红厅,我提前一个小时到的,本以为到早了,结果看到路边全是陆陆续续往世博中心走的人们,不少人手里还提着个袋子放着一朵万寿菊。

入场之后旁边坐一小哥,喷的香水略浓,穿衬衫,拿着一本竖排的人间失格在看。

必然是基佬!

Aimyon登场第一首就是《不听摇滚的你》,当场就差点吼出来了,可惜这首不太会唱,只会副歌那几句,尴尬- -

基本把新专辑的歌都唱完了,然后九点谢幕,又在大家encore里返场,响起《marigold》的前奏。这时候第一排的一个小哥站起来对后面所有人招手,让大家都起来,会唱的不会唱的都在跟着

麦わらの帽子の君が
戴着麦秸帽子的你
揺れたマリーゴールドに似てる
仿若摇曳的万寿菊般
あれは空がまだ青い夏のこと
那是天空蔚蓝的夏日
懐かしいと笑えたあの日の恋
令人怀念的、开怀的那日的热恋

真是令人怀念的,开怀的,上海之行啊。

5.

接下来三天都是在师兄家,在酒店里,我们三个人一起开黑,每晚打到两点钟,但是我好想还是得业生…

开黑真好玩,我还要玩。

发现师兄除了嘴唇很红之外,竟然还有胸肌,黑色皮卡丘TEE下面隐约可见胸前起伏的两块。

嗯,他弯腰找咖喱的时候,屁股还很翘,被绿色短裤包裹着完美的伏线。

当晚回酒店之后默默拿出手机开始搜,如何让嘴唇变红润。

6.

周一回北京,G4。

上高铁前买了一杯星爸爸的美式,打算高铁上看看书。

然后打开一篇Airbnb KDD2018的做dynamic pricing的论文,醒了看,看了睡,睡醒了继续看。

最后一共看了三页。

BTW,邻座小姐姐吃的德州扒鸡太特么香了…

在高铁上靠窗坐着的时候想,这段经历大概也会成为2019年难忘的回忆吧。

一定。

#Writing/_ #Writing/_ #Writing/2019

Back

一半人生

昨天的这个时候,大年三十,我还在北京海淀知春路中航广场的字节跳动矮楼二楼为头条的春节活动值班。大概一点过,忙得差不多,好不容易叫到一辆神州,趁师傅从二环开过来的空隙下楼抽了根烟。

大年三十的北京其实很冷清,看不到烟火,远处的高楼大概零星点亮了几户人家,然后就是死一般的寂静,烟头的火星在零下十度的寒风中摇曳。

今天的这个时候,大年初一,我在成都高新区象南里的凯悦嘉寓19楼,洗完澡湿漉漉的头发,久违地贴张面膜,坐在床边的书桌上敲着这篇距上次更新已经有半年之久的博客,听田馥甄的《爱了很久的朋友》。

去年下半年工作压力最大的时候认真考虑过回成都工作的问题。买了房之后顺其自然看装修,看车,想着买条狗,这种想法不可抑止地蔓延生长,倒过头再看北京租的地方,惠新西街八十年代的老房子,感慨二十多岁的年轻岁月怎么就磨灭在这种地方了呢。

晚上十点回酒店,脱了外套,穿一件卫衣就跑出门找附近的红旗买洗面奶和可乐。从超市出来的时候听米津玄师的flamingo,坐在仁和新城商城对面的靠椅上一边抽烟一遍打量这个城市高耸的建筑。讲道理觉得旁边那个楼盘还不错,打开链家搜了下似乎才3W一平,有点后悔之前买的房子在温江光华大道呢(笑

大概是年纪大了之后愈发向往安稳的生活吧。

今年春节例行立flag,目前的计划是把CMU的convex optimization看一半。

嗯,目前进展是看了第一个lecture的一半。

即将引来二十多天以来第一个不用设闹钟的睡眠周期。

我的一半人生
飘荡就像风筝
如果命运是风
什么又是我的绳
Back

但愿人长久,千里共婵娟

今天又是睡了一上午的觉,然后起床洗澡吹头发去三里屯和两个前室友(小基佬)吃饭。

说起来当年在回龙观东大街一起住的一年里虽然也有一点小摩擦,但基本是欢乐的一年。特别是编剧W同学,常年在家写剧本,给我们做饭,土豆牛肉焖饭特别好吃。

那一年的每周末晚上六七点过,打开电视放着综艺,W在厨房做饭,我和G在旁边打下手,炒菜下锅溅起的油烟让整个房间弥漫着烟火气,落地窗外是起伏的群山与回龙观的夕日。

那一年学会了看综艺和电视剧,开始学习着不要那么功利地看书考证,习惯于穿着裤衩和帆布鞋听着阿肆的《预谋邂逅》穿过回龙观东大街的人行道去对面的全时买罐装雀巢咖啡。

啊真是美好的2016年。

回家的时候从三里屯坐特16,居然是久违的双层公交,于是冲上二层第二排靠窗的位置欣赏沿途不一样的风景。

九十月的北京美得让人想哭。蓝天夕阳红霞电线杆与低矮的居民楼。

也许以后应该周末多出来逛逛呢。

Back

日常恐飞

自从毕业以后,我飞的次数其实也不算少,但是还是常年恐飞,所以试过很多在飞机上缓解焦虑的方法:

听歌:通常一首歌4分钟,国内航线听30首歌就足够。不功不过。

看电影:不是一个好方法。其中最糟糕的体验是看了釜山行(封闭空间大逃杀)和星际穿越(涉及飞行器爆炸),整个人都不好了。搞不懂那些在途中看空中浩劫的人怎么想的……

看文献:刚毕业的时候还会看看券商深度研究的研报,后来因为工作性质实在差的太远,也没什么看的动力,就慢慢过度到看论文和一些互联网的文献,最好是挑逼格高的数理多的。看不看得懂是其次,主要能给人一种『啊这是人类文明的结晶,我也是能为人类做一些微小的贡献的人』的错觉,上天会格外照顾一些一样……

不过有时候巡航阶段看着窗外远方连成一线的晚霞与夕阳,夜航时地面陡然出现的灯火勾勒出城市的轮廓,以及每次北京起飞时西边连绵起伏的山脊,都会觉得还是很美的啊。

Back

所有的苦难与背负尽头,都是行云流水般的此世光阴。 ​​​​

上上周不知道什么地方抽了风,又开始季节性的咳嗽,仿佛要把肺都咳出来。从医院拿了药之后一直没什么好转,还好我聪明地在药店买了头孢,一边吃止咳药一边杀菌消炎,寄希望于尽快好起来。

正因如此,最近也过于烦,找工作、晋升与述职、找房子等等等等,忍不住又想当只鸵鸟。最后干脆在周末开始躺床上重操旧业——看小说。

周末刷了不少小说,大致是接着前一轮小说的题材——穿越BL,先刷完宋朝,又开始刷明朝。看完眷皇明,想养个儿子。拿着“眷皇明 类似”的关键词去搜,在事件记录吧里搜到江南岸,看完之后,想养个小崽子。

周末晚上看完江南岸之后整个人都淹没在一种压抑的气氛里,然后开始无意识地循环宋冬野的《 安和桥北》,恰好北京刮着今年以来最大的西北风,鼓点和马头琴映衬着窗外回龙观边缘的匍匐的群山。然后非常非常想谈恋爱。

昨晚躺床上刷完江南岸的番外,又依葫芦画瓢搜“江南岸 类似”的关键词,这次就发现一些更加精确的描述:忠犬攻,养成文,然后就搜到priest的《大哥》。

昨晚看了《大哥》的开头,深感此文文风深得我心。遂今天上班心不在焉,傍晚七点半就悄悄穿上外套溜回家接着看小说,此番不可收拾——一直看到这句话:

所有的苦难与背负尽头,都是行云流水般的此世光阴。

离开矫情的文青生涯已经很多年,开口概率分布闭口统计模型以及书桌旁边厚厚一摞计算机的书已经把自己成功伪装成一个理科生。有时候连自己都快忘记读了那么多年文科,当了那么多年语文课代表,只有在每年特定的看小说的时间内会有所感触。

上一次看到如此精妙又点题,文章结构无懈可击,让自己感觉心头被强烈震撼以至于忍不住放下 书抬头四顾缓缓情绪的句子是什么时候?

大概是高中看《庆余年》的第六卷殿前欢的最后一章:我们的不满的冬天(某一年的年终总结 还 套用了这个标题:http://laplace.lofter.com/post/256c60_9e3d7ca),然后在作文里疯狂引用张可久的次酸斋韵;也可能是大二看《间客》看到施清海挂掉的结尾三段话和结尾徐乐与联邦中央电脑的那句“欢迎回来”;也可能是看胖宝宝的《与你同行》时,林林在秦海清家上网逛论坛吃年夜饭,以及结尾一段:

那天以后,一星期不到,林林就忘记了那天晚上春节联欢晚会的节目,只记得很热闹。一个月不到,他就忘记了那天刘英惠精心准备的年夜饭,只记得很丰盛。但是一直到很久以后,他仍然记得四大美女的故事,每一个故事的结尾都是一样的,“从此过上了幸福的生活。”

应该是最近生活不怎么顺遂,才想着从虚构的小说中找寻慰藉吧。

上班时和春春聊微信,从欅坂46的单曲以及校服短裙围巾女生说到长泽雅美堀北真希说到性取向,我打趣我的审美观在某种程度上很直男,不喜欢gay icon的diva而喜欢摇滚乐队、Taylor Swift和AKB,她说“所以maybe你是个直男也说不定”。

我觉得我长成现在这样子也许是从小到大的生长环境里太缺爱了吧。

大二喜欢过一个男生,长相不是我的style,也没有生理上的冲动,却在某一次因为社团活动争吵后,我大怒摔门而去,他从KTV店里追出来从背后抱住我。我挣扎了一下,却贪恋他怀里的温度,从此一切作罢。

啊我上面一段写了些什么乱七八糟的= =。

总之,看到一本好看的小说的标志是,我会忍着不去一口气读完,生怕读完之后就再也没了,不喜欢那种失落感。

桥本奈奈未长得好好看可惜已经毕业了。

宋东野的歌一定要在北京的风沙里才能听出感情。

抬起手似乎能够遮住刺眼的日光灯,胡乱地挥舞几下却依然会心烦意乱。

我最疯狂的那年 已经越来越远
纯真的容颜都随季节而蜕变
曾许下的心愿 全部都没有实现
有过的信念 都输给了时间

## 哎呀今天没图。

Back

亲爱的树洞

昨晚用python写了一个batch gradient descent(BGD,批量梯度下降)的脚本来跑一个多元线性回归的参数估计,然后一直不收敛,一直debug,最后发现果然是学习步长alpha太大了点。搞定之后已经半夜一点,上床玩了会儿手机刷DIGIMON贴吧到两点。

然后就通宵失眠了。

很难去回忆这是一种怎样的感觉,就是意识迷糊但是清楚的认识到自己睡不着觉,辗转反侧,加之近段时间咳嗽不断,就那么眼睁睁的看着天亮。

六点半干脆拿手机挂了个积水潭医院的上午的号,再躺了一下,起床洗个澡去医院看咳嗽。

积水潭医院回龙观分院在育知路,8号线过去两站。早上人也很多,一路挂号、看病、拍胸片、拿药,一切搞定之后感觉过了几百年,但是一看时间和平时上班的时间好像也差不多。但还是果断请了个假,回家躺着……就睡着了。

最近事情总是很杂很烦,房子租约快到期了而我还没想好工作的下家和城市;久违的咳嗽又来的悄无声息,每次都以为是肺癌了要死了;生活上一团糟,晚上熬夜早上起不来,上班没精神记忆力衰退。

最关键的是还是不知道应该找什么类型的工作,在哪里找,一切都是缥缈无定数的事情啊。

看不久之前写的代码,连“自己写过这种东西”的记忆居然也几乎全部遗忘,突然感受到一阵莫名且巨大的悲哀,似乎过去的那段时间的存在被硬生生从世界上抹去。

啊。时间过得好快。

亲爱的你说 这到底为什麽

有没有谁的人生 能真的永远快乐
Back

北京,我们并不拥抱

2月5号下午,CZ6184,A380的公务舱,19:50降落在北京首都机场。

也许是我已经默认这是last year in Beijing,也可能是北京今天破天荒的好天气,总之是在飞机从平流层下降,穿过对流层后,看到漫天的城市灯光,莫名有些感动,就像是丈夫加班回家时看到的住宅楼里自己家那一层的窗户里透出来的灯光一样。

沿着通道去取行李的路上,不经意一瞥,看到楼下全是候机的人们,走来走去,面色匆匆或淡定,然后耳机里恰好是张悬的《并不》,舒缓的贝斯拨弦,所有人穿的衣服迅速褪色成黑白两色,嘈杂的人声、脚步声、电子提示牌与播报声、飞机起飞与降落的噪音隐没成背景音。

那一瞬间,发现自己能够心平气和地和这个被自己博客里吐槽过无数次的城市正面交谈。

北京,我们并不拥抱。

老板在大象上留言,说是如果年终不符合预期的话,直接找他谈,看以后能不能弥补。我看到了这条留言,又假装没看到,因为什么都不想说,反正都要走了,也没必要多此一举。

似乎每个农历新年的开头都会这样,完美的计划,自信勃勃的雄心,对春天即将到来而充满好感。

“2017年:Shanghai/Shenzhen, OMSCS, FRM, R,python,CFA/CICPA, 日本,吉他,健身,遛狗。”

听起来也是美好呢。

走了后他曾和别人全都说好
提也不提苦恼
眼看着爱便成了玩笑
记忆毕竟缺乏了点干燥
离开时他说不是厌倦了争吵
哪怕争吵招摇
只是不想再费心讨好
这场面多少也就失去热闹
Back

成都纪事

今年春节请假比较早,1月24号的飞机回成都。

订票的时候一直在纠结时间和飞机型号,主要是国航有748南航有380都在这一天执飞北京到成都的航班,让我这个一般就坐320和737的人趋之若鹜。纠结了半天,突然看到748的头等(A舱)才2770RMB,赶紧下了订单。

其实我也不知道为什么作为一个工作几乎不出差又有严重飞行恐惧症的人会对飞机型号,性能,航班这种事特别热衷,大概是觉得城里真好玩把: )

头等舱有头等舱的好处,从柜台值机开始。春运期间的首都机场挤成狗,经济舱的队蜿蜒盘旋大概排了几百人,头等舱和金银卡会员取票的人明显稀少许多。然后一路快速安检到VIP休息室然后闲得无聊拿出MacBook把拖了两天的周报写了。

国航747-800是才买两年的新飞机,所以专门选了上层的座位。空姐的服务态度和空中餐明显比经济舱好太多……标准的西餐顺序,发给我刀叉的时候心里腹诽了一下这凶器拿来劫机多合适啊。

旁边坐了一个三十岁左右的小哥,一看就是成都人的长相和口音,大概是头等公务舱常客,对一切服务和设施都了如指掌。长得蛮好看可惜结婚了,从他打电话里聊天的内容依稀判断出是做金融的,感觉有很大可能是你财学长呢……

酒店定在了春熙路旁边新开的亚朵轻居,然后去红星路找LMJ,汇合后又在地铁里碰到ZZ,中途经历WZH放鸽子,最后在熘熘排骨吃晚饭,等到姗姗来迟的ZHY和他女朋友。吃饭时气氛有种蜜汁尴尬,因为我们都以为ZHY其实是gay咋突然就有女朋友了……

吃完饭在旁边的KTV唱歌,终于等到WZH,长胖了脸更方了长丑了,大概是感觉到因为放我鸽子而被我删微信好友这件事反映了我真的有怒气,唱歌的时候一个劲要靠过来抱抱和喝酒,我还是一脸不耐烦地应酬了过去。

其实那时候心里在感慨的是所有的一切其实都会变啊,读大学时和自己看过无数场电影吃过无数次饭逛遍了成都的大大小小角落的人最后也会放鸽子了,回不去的时光最多也就是在北京寒冷而寂寞的冬夜里回想起来给人些微慰藉罢。

25号睡了个懒觉,在IFS吃完午饭后坐地铁跑去金沙博物馆看古埃及展览。成都遍地是摩拜和OFO以及乱七八糟不认识的共享单车,骑着车在青羊区平缓狭窄的街道欢快地拐来拐去。

晚饭和WQ,CMQ一起吃的,上次见面还是九月在泰国曼谷。一路在川大旁边逛了无数圈,悲剧的发现好多想吃的店都关门了,WQ愤愤不平说自己一定来了一个假成都。

最后在川大北门发现一家小火锅还没关,欣欣然吃火锅,菜单一拿上来我们三个人都懵逼,个位数的菜钱这是几百年没见到过了?

最后吃的无比爽快才花了190……

有个小插曲是我们本来想坐中间的桌子,服务员说有人预定了。然后八点过店里人走得差不多的时候服务员们开始把中间的桌子收拾出来,原来是他们的年夜饭,有人拿菜有人拿肉有人端锅,点上火,红汤油锅氤氲的热气里我突然有那么点感动。

吃完晚饭又打了个车去逛太古里,在太古里拍了张合照。

(我觉得自己这个装严肃的表情简直帅爆了)

告别WQ和CMQ,一个人走在回酒店的路上,逐渐关闭的大屏广告与环卫工人打扫的垃圾,耳机里突然随机到张悬的『模样』,淡淡的吉他和声调伴着纷飞的垃圾塑料袋,突然好像回到还在成都读书时的心情,湿润的空气。

26号又睡了一个懒觉,下午打算去逛文殊院,发现周围关的饭店更多了……所以中午饭吃的是麦当劳。

文殊院人不是很多,建筑风格其实和成都其他佛教寺院没太多区别,如果一定要说的话就是所有的大屋顶的屋檐翘起的角度都比较高,这种建筑风格应该是高层塔常见,估计和成都的采光环境不好有关。

逛到文殊院的图书馆的时候有个老奶奶走路颤巍巍的,告诉我可以上三楼拜菩萨。等我逛完下楼,老奶奶还在一楼门口祭拜,考我说『你知道里面供奉的哪些菩萨么』,我心想让着老人家吧就说不知道,然后被老奶奶教育了一番……最后劝诫,年轻人还是多读读佛经。

我心想这大概是我有慧根的表现吧。

然后打算去青羊宫,坐58路公交时突然懒得不想下车,就直接坐到了你财光华校区。平时学校里就没啥人,过年时人更走光了。对光华校区其实没啥影响,走走停停看看绕到南门,发现光华牛肉馆也关门了,沈妈砂锅也关门了,想哭……

晚饭绕回春熙路吃的乡村基的功夫鸡腿饭,上一次吃还是2014年在重庆。恍然发现好像一切记忆都要用『两三年』这样的数量词来形容了,说不清道不明的寂寞感。

27号从东站回家。

按道理来说写到这里应该是抒发内心情感和升华文章主题的时候了,但是我爸妈在催我吃晚饭。我想了想,还是吃饭比较重要。

自从发现了OMSCS这种神物之后一切艰难的抉择仿佛都得到了完美的最优解,最近心情一向不错,每天看看FRM的视频和lecture,写写代码,收集资料准备年后跳去上海,健身,吉他,等等等等。

然后我想说,虽然以后的几年似乎都和成都没太大关系,但我还是蛮喜欢这个城市。

以及我爱张悬的这首歌。

你听见了我吗?你听见了我吧

你懂不懂,你懂不懂

你听见了我吧。你听见了我吗?

记着我笨拙的说话
Back

借我十年,借我亡命天涯的勇敢

上海跨年后,回到北京的第二天就感冒了。2017年的开篇总是那么不同寻常。

回首2016,惊觉日子的飞逝,而自己也愈发懒散,更博客的速度远不及2015年,以至于想去找寻2016年其中几个月的痕迹时却一无所获。

该怎么说呢,吃了最后一颗感冒药,扑尔敏即将起作用,想着2016年那些没有完成的事,以及2017该往何处去,终究是一团乱麻,不忍卒读。

也许等感冒好了会腾出时间来整理最近发生的事,像一个蹩脚作家一样记录2016年的流水账,顺便展望一下2017。

但有时候真想变成一只鸵鸟,把脑袋埋进夜色笼罩的帝都深沉雾霾中,从此不过问世事。大家都爱干嘛干嘛去吧。

Back

你的名字,なんでもないや。

周四早上上班的公交车里订好了周五晚上《你的名字。》的票。

周五晚上下班准时去望京SOHO旁边的新荟城购物中心五楼保利DMC看电影。

九点半散场后,在SOHO旁的公交站坐538到望京西,再坐13号线回家。

12月的北京经年刮着零下几度的寒风,路上忍不住把黑色大衣的牛角扣多扣上一颗。

从网上有你的名字的枪版片源开始就一直忍着不去看,豆瓣上的影评每次用鼠标点开之后又迅速收起正文,避免被剧透。那时候以为半年之后有高清片源(日本剧场电影DVD发行一般是在电影下档半年之后)再说,谁知这次国内也破天荒引进了。

我不是新海诚死忠,也常常看不起国内的新海诚粉——浮夸,低俗,造作。我喜欢的动画电影导演是细田守和今敏,喜欢驱魔、钢炼、凉宫、龙之塔(第一季是贺东招二的脚本)和FZ,热爱剧情和科技,唯独不对唯美画风感冒。新海诚几乎处处都和我的审美志趣相悖而驰,难怪不喜欢。

新海诚的作品里看过的只有《秒速五厘米》,之所以喜欢这部作品,除了主题曲《one more time, one more chance》之外,最重要的一点,是内禀的巨大的跨越时间和空间的孤独感,像一个极为内敛的日本人的情感流露,通过电影孱弱的剧情和人物,意外地表达得无比精确。

我更多地当成是巧合,新海诚本质上仍然是一个剧情苦手,画风虚浮的电影导演(也许他自己更喜欢的称呼是映像作家)。

上面说的一切在《你的名字。》里被完美推翻。

这部电影除了画面之外,简直美好地不像是新海诚的作品。科幻的结构,爱情的内核,仿佛看到《穿越时空的少女》和《夏日大作战》时期的细田守。完整的故事框架和丰满的人设再加上RADWIMPS的原声,把这部电影该有的缺陷都几乎弥补上,以至于成为我心中的今年年度最佳。

好吧这篇博客又不是写影评。

最近一周特别困,明明调整了作息使得睡眠时间提早,并且整体睡眠小时数比以前多了半小时。昨晚小熬了一下夜,今天十二点醒来的时候整个人是懵逼的,懵到现在。

醒来后打开UBL的红色蓝牙音响,躺在床上开始循环RADWIMPS的原声,然后阴差阳错想起了ASIAN KUNG-FU GENERATION,顺势又想起了大四在念上写的日记,翻出来看,觉得那时的自己咋和现在差别那么大呢。

我是感觉到了一些不好的转变,在这两年的时间里。

但是人的生长存在着某种惯性,以至于虽然意识到但很难去控制。

这两年还是有很大的成长的嘛,前几天和小付姐姐聊天,说到当时被我们半途而废的余额宝预测,如果现在去做,会觉得容易很多嘛。

前两天去看别人的天池和kaggle经验贴,感觉自己还是有些差距,慢慢来。有个人说其实可以去听听培训班的课,看了下课程计划感觉还可以,不过讲师水平自己良莠不齐就是问题了。我对培训班有些偏见,总觉得里面的人都是急于求成,不过也许这种看法并不很准确。有时候培训班的内容也是短平快上手的途径之一。

好吧其实今天没太多写博客的心情呢。是太困而思维反应迟钝?大概。

もう少しだけでいい あと少しだけでいい
只要一点点时间就好 再给我一点点时间就好
もう少しだけでいいから
真的只要一点点就好
もう少しだけでいい あと少しだけでいい
只要一点点时间就好 再给我一点点时间就好
もう少しだけ くっついていようか
再让我们相互依偎一会吧
Back

1997年过去了,我很怀念它。

最近写博客的频率骤降,快要变成每月一次的节奏。

最近忙得兵荒马乱,昨天一边洗澡一边想,除了“兵荒马乱”这个已经被我用滥的词之外还有什么词语可以形容忙得一团糟的生活,答案是还真想不起来。

哎,毕竟不看小说好多年。

最近忙些什么呢,考试什么的,反正过去了。一直在酝酿写这篇博客,大概人都是在压力之下不自觉地想去寻找一个发泄口。这种情绪在周五晚上时愈发明显。那天我在魏公村北理工的东北门订了一个酒店,磨磨蹭蹭去麦当劳吃完晚饭往回走时,在北理工的校园里逛了逛。

北京的深秋分外美,比如落叶和稍显凛冽的晚风。路过一个教学楼时,鬼使神差跟着前面的小哥走了进去,一进大厅就看到一个老式的开水器,来来往往皆是穿得臃肿小声背书的学生。诧异了一小下就反应了过来,哦,快考研了呢。

那个老式开水器是一切回忆的根源,在成都的每个冬天的自习,总是假装去打水暖手而从自习室里溜出去晃荡,而考研的时候更是明显,主要打完水之后可以趁机看一眼旁边自习室的帅小哥。反正一切都过去得了无痕迹,只余下残存的记忆碎片在某个不经意的时刻偶尔跑出来供人凭吊。

周六考完试之后滚回家睡了一觉,下午五点钟起床洗漱完毕穿上衬衫和V领毛衣出门,在公司加了一个美食俱乐部,大家约着周六晚在三里屯喝精酿啤酒。

不得不说这是一次比较成功的聚会,虽然所有同事都是第一次见,但聊天过程却意外熟悉,大概是有种大学同学身上的味道。精酿啤酒逼格虽然略高,但后半程大家还是喝成了像路边摊普通啤酒一样玩游戏输了的人罚一杯。

所以这个时候突然对公司的印象好了不少,毕竟之前和同部门同事一直不在一个聊天的层面上,估计真是进错了部门吧哈哈。

和朋友讨论《我不是潘金莲》的时候起了些争执,我从1942之后就再也不看冯小刚的电影,对他的人品颇有微词,而朋友相反。说着说着,突然想起一句台词:

1997年过去了,我很怀念它。

这句词出自冯小刚1997年末的贺岁电影《甲方乙方》的最后一句。当想起这句台词的时候,突然有一种巨大的,排山倒海的东西迎面扑来,毫无抵抗力。

然后就莫名其妙湿了眼眶。

我这该死的多愁善感啊。

于是因为考完试而无所事事的周末,把《甲方乙方》正经地看了一遍。1997年的海报,希望工程募捐,葛优大爷喝水的搪瓷杯,下半截漆成绿色的上世纪室内建筑风格,都是属于某个我曾经历过但却消逝无踪的年代的回忆。

葛优和刘蓓坐的公交车背后写的标语是,“学习李素丽”。李素丽出现在我的中学政治课本的阅读材料里,模范公交车售票员。而十九年后,公交车已经基本实现了无人售票,北京城里还能见到售票员的话,更多是为解决本地人口就业而设的福利性岗位。

正如常常向朋友感叹的,这个时代发展太快,我总有种跟不上的乏力感。

电影最出名的画面应该是最后一幕,除夕夜,大红灯笼高高挂,镜头最远处是杨立新落寞的背影和色调陡然转冷的下雪天。然后葛优低沉的声音响起。

那天我们都喝醉了,也都哭了
互相说了许多肝胆相照的话,真是难忘的一夜

几天后我和北燕正式举行了婚礼
她的父母单独跟我谈了一次话,问我是否隐瞒了年龄
我告诉他们,我从一出生,就比一般的孩子老。

1997年过去了。我很怀念它。

其实1997年已经过去了好久好久,我也不知道我在怀念什么。

北京今晚开始下雪,又是一个轮回,2016仅剩一个多月,在北国的暖气里,怀念1997年。

借我十年
借我亡命天涯的勇敢
借我说得出口的旦旦誓言
借我孤绝如初见


借我不惧碾压的鲜活
借我生猛与莽撞不问明天
借我一束光照亮黯淡
借我笑颜灿烂如春天



借我杀死庸碌的情怀
借我纵容的悲怆与哭喊
借我怦然心动如往昔
借我安适的清晨与傍晚

#Writing

Back

都怪这月色,撩人的风光

又是浑浑噩噩的一周,自制力差,思绪不受控制,计划未完成。

周五晚上和MH、十七老师去看《驴得水》,冲着开心麻花的名头打算去看一部喜剧片的我们最后出来时满头懵逼在考虑是给一星还是二星但回家回味了半天又完整看完影评之后发觉其实是我定位略微有点偏如果切换到严肃电影的话给到四星都不为过。

任素汐真漂亮,演技真好,唱的歌真好听。

周六早上起一大早在QSM找熟人的带领下去潘家园眼镜城买眼镜然后终于知道这行业的水有多深,以至于整个世界观有点受冲击,又不禁高看了马云一层,去中介和去渠道之必要性。

最后买了一副TagHeuer的urban7镜框和zeiss的镜片以纪念一下自己第一副2K RMB的眼镜,然而下一副眼镜还是想像后藤正文那样买一个STARCK的镜框呢。

回到家睡了一下午觉。

这星期赵雷的《成都》终于发了单曲然后整个朋友圈像被炸弹炸了一样人人都在转,讲真最开始听这首歌的时候直觉得矫情而听不下去,然而录音室版的吉他前奏一想起整个人就忍不住想哭然后就在微信上给WZH说我好想回成都啊。

讲不清楚情感的来源和路径,就是想内牛满面。

AKB又要发新单了paruru毕业站C位,PV一出来我整个人有点懵逼,因为黑了paruru那么多年突然发现红唇复古装套在她身上简直不能再好看了于是偷偷把PV看了好多遍。我就是个该死的肤浅的颜控。

夏目第五季如约而至,每次看完之后心里暗暗想我要像夏目贵志一样做一个温柔的男人然后第二天上班又不得不开启撕逼模式,人生啊就是这样光天化日之下的嘲讽。

我也不知道为什么今晚鬼迷心窍跑去nian上看大四写的日记,总之看完之后心想那么可爱的男孩子是谁啊真心疼好想抱在怀里揉揉哈哈哈哈哈哈哈

我要 你在我身旁

我要 你为我梳妆

这夜的风儿吹 吹得心痒痒,我的情郎

你在何方,眼看天亮
Back

夏天,高铁,热带,行走的青年。

写博客这件事越来越变得懒散。写上一篇的时候,北京闷热的夏夜仍然历历在目,而今天一场秋雨后,忍不住想套上毛衣。

过去的一个多月,去了一次上海出差,去了一趟南京旧地重游,去了一次泰国曼谷欢度中秋,在上海的第二天和Bangkok的第三天分别去了一次gay吧,算是这么多年来第一次在真实生活中遇到如此多同类。

虽然活着的印记并不全部是旅行,但除此之外留在北京的日子总是平淡无味以至于没兴趣再提起。

在知乎日报里看到别人眼中的背景,晨练的颐和园,之类的,总是离自己很遥远。

我是想着如何把这种扭曲的生活观尽量扭回去,让自己意识到,这是真真切切的生活,不是为将来而做的预备功课,所以早饭要漂亮的家具要买好看的综艺和电视也要看,而不是只为了考试、雅思、刷课而活着。

虽然说是要写游记,不过拖太久就什么想法都没了。五一上海行还差两篇没写,八月哈鲁生日也没写,南京二次游也没写,至于曼谷这次……唉。

或许下次我应该把电脑带出去,这样可以每晚趴在酒店的床上敲键盘记下来。

本来想立一个flag说25岁谈一次恋爱,转念一想还是算了……因为还剩下一个月了 :(

最近玩网易的阴阳师每晚肝到三点钟感觉自己快猝死,10月2号和CJ去了一趟IDO动漫嘉年华中间自拍的照片已经到了不美颜就不敢见人的地步,熬夜这种事真是自己作死啊。

最近工作上也渐渐不想吐槽了也不知道为什么。

最近总是觉得不想用微博说话不太方便,转而开始用豆瓣和LOFTER了。

最近听《好爱好散》特别多,真的挺好听的。

我想元旦节再去一次HCMC。

————————————我是分割线——————————

9.3 南京,傍晚,快关门的总统府。

9.3 南京,晚饭,蒋有记锅贴。

9.13,北京,望京恒电大厦,我画给同事们的中秋贺礼。

9.15,Bangkok, Grand Palace.

9.15 Bangkok,Royal Orchid Sheraton, Chao Phraya River.

9.17 Bangkok , Wat Arun. 遇到一个人特别好的女出租司机,可惜语言不通。

9.17 Bangkok , China town.

人一生多少烟火流转

绚烂的总走得太短

人总要经历好爱好散

告别了才懂得太晚
Back

只不过是2016年过了一半而已

今晚补了spotlight,觉得刚好可以拿来作为封面。

2016年刚好过了一半,之前有计划过写一个上半年总结与下半年展望,可是洗澡的时候回想上半年做了哪些值得铭记与回味的事,发现好像也没什么。整整半年也是在为生活而奔波忙碌,每日匆匆掠过,工作内容日复一日令人厌烦,或许是北京最长的13号线每天都像一个潜伏在城市的钢铁巨兽吞吐着千篇一律的上班族,很不幸的是其中也有我。

说起来总归是一件令人悲伤的故事。

大概是我谋求改变的心情并不十分强烈,或者是囿于种种原因导致改变的成本超过预期,总而言之就是我逐渐开始接受现状。但始终是想离开这个城市,想要一些更多的变化吧。

对下半年的想法就是每周做个总结啊首先把买的书看完把想上的课程上完多听点新歌多看点电影和小说试试用一些新的APP写一些更有营养的内容做一个professional的人然后好好告别这三年意外的工作生涯。去更多的地方玩吃更多好吃的食物攒钱然后再拼命给挥霍掉。

偶尔会想起我野蛮生长十六年的那个小县城,然后异常怀念那里烧腊的美味,长江边的风吹起来也常常带有沉醉的味道,熟稔的每一条街道和转角和单位以及我偷偷探访过的居民楼,再然后就想啊也许以后也很难有机会再回去了呢大概这就是人生吧。

今天下午躺在床上用ipad看书时突然一个画面闪回到成都的某个时点,我自己都很诧异为什么看《癌症传》这种书里的某一个名字怎么就联想到成都了,然而下一个时刻就感觉这像是一段被遗忘的记忆一般。

人活着就是不断地遇见告别与离开,在北京呆了一年多却愈发寂寞,在闲下来的某个时刻就会特别清晰可见。

大学在宿舍晚上睡觉之前会躺在床上玩ipad,那个时期看完的《审计师的浮生六记》,书里曾经有一个画面是作者和同事在夕阳的余晖中站在一个老四合院还是什么的地方,曾经会认为如果我要工作的话应该也会去四大也会过上两年这样的生活吧,但是命运却总是给人看玩笑。或许我给自己脑补了很多小说的画面,像叶文洁给东北村庄的生活自顾自的在记忆里加上一层浓墨重彩的油画一样,然而我极少看到日落——每天下班的时候,已经是夜色降临多时。

我也以为自己会慢慢习惯,但是在每个见不到太阳的日子里,总是显得那么不开心。

只不过是2016年过了一半而已,时间的概念,农历、节气、月相都是人类的自以为是,给虚无的熵增过程赋予某种庄严的仪式感,然后再自娱自乐。

突然有点想学吉他,当然我也知道只是想想而已。

想做的事情与想存在的生活,总是能构成日复一日的小情绪降临的源泉。

那就这样吧。

他只不过是唱了一首悲伤的歌

你就突然觉得感伤心也跟着疼了

想起传说中的爱情都是没有道理的

他越是温柔笑着你的眼里越是饥渴

写在最后:没想到我也有单曲循环花粥的歌的一天……

Back

如果我们不曾相遇

一晃又是一个星期没有写blog,似乎人变懒了一些。

五月天新歌意外地不错,过了那么多年编曲水准突然进步了一下,就像Mr.Children在离开小林武史后《refection》一专出现各种惊艳的编曲,这次五月天依然浓浓的MC感。

但是也足以让我路人转粉了。

这个周写matlab代码遇到些坑,不太熟那些非线性最优的函数调用逻辑。

这周开始早睡早起一点左右就睡觉但是第二天早上仍然困成狗。

这周开始恢复吃早饭的习惯,强行咽下三片早餐饼。

周杰伦24号发了新专辑,于是早上坐着专112路公交在望京阳光明媚的街道里穿行时心情喜悦地带着耳机享受。

买了一台新电脑终于又可以开始玩冒险岛了。

新版的R语言实战居然还没看完所以书评拖了一个星期也还没写。

熟悉的麻辣香锅店老板生了一对龙凤胎于是欣欣然关店一周。

又去颐堤港的青柠吃了一次泰国菜感觉短时间内都不会再吃了。

最近开始做半年盘点发现2016年好像没太多值得铭记的事件与地点所以有那么一点失落。

在想接下来是不是应该去什么地方。

但是一个人旅行真的有点孤单啊= =

如果我们不曾相遇
你又会在哪里
如果我们从不曾相识
人间又如何运行
Back

北京天气好的时候,二环也让我恍惚在海边。

如题。

Back

三人行必有自拍杆与我想去江南——五一游记之周庄记

1.

拖延症真乃人之大敌,距离本次游记的上一篇已经过去快一个月了。五月事情不要太多,自己也忙不迭应付生活与考试,没什么精力写博客。

昨天搬新办公楼,刺鼻的甲醛似乎是压垮骆驼的最后一根稻草,回到家就感冒了。今天上午睡了一上午的觉,下午起床拖着昏昏沉沉的脑袋收拾已经半个月没人打理的卧室,再坐50分钟的地铁去人大参加今年的R语言会议。

然后晚上终于把该洗的衣服全部洗完、该收拾的房间收拾完,突然闲了下来,于是想,貌似可以把五一游记再补一篇。

2.

旅行这件事,我向来喜欢一个人出门。一是自己假期方便调节,二是不用妥协与讨论,哪怕睡过头而错过景点和行程,也觉得并不是什么大事。

但和朋友结伴而行的乐趣也是很有意思的一件事。人数不要太多,关系要比较厚,兴趣要比较契合。这种时候旅行本身反而是其次,大家在一起聊天啊规划行程啊最关键的是可以去吃很多当地出名的美食——一个人总是会感觉怪尴尬的。

上次讲到4.30中午春春和阿璨从杭州姗姗来迟,在观前街吃了传说中的松鹤楼之松鼠桂鱼后,三人前往苏州汽车站,买开往昆山周庄的汽车票。

车程大概一个多小时,和以前在四川坐的汽车没有什么区别。昏沉睡过去又被叫醒的时候,就发现已经到了周庄边境,车窗外是一片广阔的水域,差点以为是太湖。

民宿客栈是春春在网上先定好的,就是不大好找。我拿着高德地图一路找过去,在古镇的小路和石板桥上来来回回穿梭,最后在河边找到客栈,安顿好,又在客栈临河的一楼吃个晚饭。

乌篷船在排队等着出发。从蚂蜂窝上的游记得知这也是周庄作为江南水乡的特色。

我们吃完饭就沿着穿城而过的小河与低矮的屋檐去找乘船的码头。只是没想到的是,别人都是船娘,为什么我们的是个船夫(而且唱歌还跑调)……

3.

白墙黑瓦,蜿蜒的河流,青石拱桥,采莲少女言笑晏晏。

好吧最后一个是我脑补不要当真。

当我还是一个纯良且人畜无害的初中男生时,曾经很是喜欢过四娘,比如幻城,比如左手倒影右手年华,然后再想方设法模仿四娘文风(惊悚的是同时期也很喜欢鲁迅和模仿鲁迅写作手法)。也喜欢婉约派的词,雁字回时月满西楼红酥手黄藤酒这种江南水乡的少女情怀。不出意外的是这种文体很是受中学语文老师喜欢,现在回想原因,大抵是女语文老师们年轻的时候都曾经是娇羞的女文青。

有那么两件事让我记忆深刻:

第一个是从四娘的书里学会一个词叫做“罅隙”,然后这个词就频繁出现在我的作文里。语文老师第一次看到的时候很是欣喜,作为范文在班里宣读的时候,不忘点评一句,这个词出自XX的文章XX(当然不是四娘),你们看HY的阅读面多广。我在下面差点笑成内伤。

第二个是初三有一次月考的作文题是半命题作文,叫做“我想_____”。那次我灵机一动写了个“我想去江南”,然后就是把各种婉约派抒情词里的意象剥离出来,再用四娘的华丽忧郁文风包装,标题再套用科幻世界在十六年前一篇记忆深刻的文章叫“我想去桂林”。语文老师好像特别喜欢,还把这篇作文拿去给高中部的老师看,说可以给高三学生做范文了。

笑,其实说那么多的原因是,江南成为年少时的我的一个执念。岁月翻滚那么多年,当年的自己好像什么都没剩下,连体内的细胞也早早更换完一个周期。但是总觉得还是要亲自去一次江南,也算是一次不完美的告别。

4.

游船上,春春和阿璨不停伸长手自拍,看到这一幕的我若有所思。嗯后面的就是我们的船夫,这张照片里的他显得有种武林高手的风范。

上岸后,在我的强烈要求下,我们终于买了一根自拍杆。在开启美颜模式自拍后,大家终于发现了真*旅行的意义——自拍……

5.

美颜相机真是神一般的存在。

6.

周庄其实不大,一晚上我们就在躲避人流的过程中不知不觉地逛完了。最后一看时间还早,就就近找了家酒吧听听live喝喝小酒。期间春春对我的微单产生了浓厚的兴趣。

一脸懵逼的歌手,唱了一晚上也是不容易啊。

BTW我很喜欢这张的姿势显得我很帅。

7.

第二天上午起床,准备再逛逛白日里的周庄,却被蜂拥而至的人潮给吓了一跳。按照这人群密度,可以推断出我们就甭想轻松逛了。于是一合计,随便走走,就去车站直接去上海。

在XX(抱歉我实在忘了是谁)的故居里给自己寄了一张明信片,上周去公司小邮局翻的时候发现刚寄到。

离开周庄等待开往上海的客车来临之前,春春和阿璨跑去旁边的草莓地里自摘草莓吃,可怜我在太阳下被暴晒,不知道要黑多少。。

8.

现在是2016年5月28日22点,北京的夜晚逐渐炎热,冰箱里冻着我买的十多斤的大西瓜。

网易云音乐PC版突然随机到莫文蔚的《盛夏的果实(Live)》。

感冒导致的鼻塞在喷雾的功效逐渐退去后又开始卷土重来。

新买的短袖TEE意外地不错。

喝了2/3的雀巢罐装香滑咖啡。

微博上刚转发了NLPjob举办的《R语言实战(第二版)》抽奖活动,心想要是没有抽中不如自己再去买一本来珍藏。

站在五月的尾巴上,回过头一看,这个月是如此兵荒马乱。忍不住摇头。

前两天翻到去年五月写的《北京欢迎你》,有点恍惚,一下又是一年,对北京的感情也逐渐好转。

9.

最近听得最多的两首歌之一的两句歌词:

越过高山越过平原
跨过奔腾的黄河长江

这个画面,想想就能想象是多么美好啊。

Back

一个人的姑苏城:五一游记之苏州记

1.

五一节的旅行计划是在一种很仓促的情形下做出的决定。

大概在清明节过后几天,突然想到五一是不是应该出去玩。于是又沿着京沪高铁线沿途找落脚点,又联系FPC同学讨论“去哪里”可以求一个最大公约数。在排除大连(太远)、济南(看夏雨荷不需要三天)、青岛(太麻烦)、扬州(居然没高铁直达)、婺源(油菜花都谢了,还有这个字念wu)之后,最后敲定苏州与周庄可行。之后还能去上海吃个晚饭,回杭州看看哈鲁。

嬉皮笑脸找晨文叔叔请假,五一前请一天半,五一后请一天。得到首肯后赶紧定从北京到苏州以及杭州回北京的高铁票,然后春春赶紧忽悠阿璨同行。三人再约了同一时刻一起定上海回杭州的高铁票希冀能够买到连排的座位然而春春总是买到前一排的E…

2.

4.28,大老板出差上海,风控组处于短暂而罕见的祥和喜悦气氛中。早上写好周报统计数据的SQL发给MH,写好本周风险分析wiki丢群里,下午两点不到就悄悄背着书包坐着547路去东湖渠转14号线前往北京南站。在嘈杂的人工售票处把此行所需的三张火车票全部换到手。

在星巴克买了一杯美式,顺带被服务小妹忽悠着换了一张星享卡。带上提前下载好五集《欢乐颂》的mini,准备第一次在长距离旅行中不看文档而改看庸俗的肥皂剧。

列车开动时,意外发现旁边有一辆绿皮小火车,透过窗口看到两个乘务员小哥在餐车面对坐着吃饭。我的记忆中几乎没有坐过火车的经历,绿皮火车这种就快被淘汰进历史的存在似乎和我没有太大交集。但是看到它的时候,却是能莫名联想到大刘的小说,大概同样带有上个世纪六十到八十年代的痕迹,黄金时代的集体主义色彩。我并非出生在那个年代,却不妨碍从小说与电影中追寻灵感。

途经山东的时候,连绵起伏的群山脊背与夕阳很漂亮。

经过泰安的时候,没来由想起下面这段:

火车到达泰安站时,我心中一动,想起了张彬所说的有大气物理学工作者在玉皇顶目击球状闪电的话,于是中途在这里下了车,去登泰山。

——《球状闪电》

于是把登泰山看日出重新列入今年夏天的TO DO LIST.

3.

火车到苏州的时候已是晚上快十点,打了个车去观前街订的酒店办check in,整理了一下衣服就冲出门觅食。

观前街算是苏州的商业区,几乎所有景点都集中在附近。而十点过时,商店已经陆陆续续打烊,游客也只是零星可见,环卫工人在昏黄的路灯下开始把街上的垃圾扫到路中间。

这时候耳机里放的是张老板的《城市》,夜里回忆是白天川流来往此刻广播里的歌。心情无比轻松愉快,插着手四处闲逛,与工作的一切都被甩在在一千公里外的帝都,与我又何干。

4.

人们火热城市何必寂寞我多爱你但不因你而什么

时光穿梭我们不在左右只在彼此其中

5.

4.29起床略迟,挂上微单坐公交去第一个目的地——苏州园林。没想到五一节前一天也是人山人海,苏博前排了冗长的队伍,估摸着短期内也进不去。遂往前继续走,瞅到拙政园游客量尚可,所以打算先去拙政园好了。

门口有一个美丽的大姐姐声音很好听地问,需要导游吗?我回绝说不需要。——这成为接下来两个小时内我最后悔的事情没有之一。

读书时候学过叶圣陶的《苏州园林》。准确说这篇课文并未给我留下太深刻的印象,而我对中国古建筑的爱好也更偏向于宗教建筑。于是苏州园林给我的最大特点就是高中人文地理里的“隔景”和“障景”,大学时还拿这个来调侃WZH很多次。

所以我以为我的知识储备足够到不需要导游也可以欣赏拙政园——真是又傻又天真呢 :)

在园子里漫无目的逛了半天之后,无意在一个导游的后面听到讲解窗台雕花的特色,才发现好像我错过了很多不经意的精致的小东西……又遇到门口那个美丽的大姐姐,正在给两个中年男人做讲解,声音是所有导游里最好听的,带有吴侬软语的温润。跟在后面听了一小段,觉得怪不好意思,又不好意思现在付钱加入,就偷偷跑开自己瞎逛了。

从拙政园出来,发现苏博排队的人群神奇地消失了,于是赶紧进去。吸取了拙政园的经验,这次主动找到前台想租一个讲解器,前台志愿者阿姨告诉我,马上有一场免费讲解要开始,不如稍等等。

这是第一次在讲解的引导下逛博物馆,体验很新奇以至于我暗下决定以后每次逛博物馆都要用讲解器。

提前做过功课,知道苏博是贝聿铭封山之作,而我事先对现代主义建筑其实并不很感冒,即使在中外建筑文化赏析的课上presentation讲的是后现代主义与卡拉特拉瓦。但实地观摩的冲击感与以前看图片的差异无疑是巨大的,细腻的细节与排列需要用肉眼与躯体去丈量,才能体会个中新意。

这时候就很想去实地看流水别墅啊。

运气比较好的是,苏博的两件镇馆之宝,真珠舍利宝幢和秘色瓷莲花碗,以往展出的都是复制品。而这次复制品借去韩国展览,所以苏博破天荒把真品给放了出来。

真珠舍利宝幢是1978年几个小学生在瑞光寺塔玩的时候无意中发现的,熊孩子真会玩呢。

看到秘色瓷莲花碗时,忍不住拿A7拍了张照。不小心开了闪光,罪过罪过。

苏博的明信片都很好看,手感也极好,一口气买了八张,写了五张寄出来。老规矩是给自己寄一张,写上一堆乱七八糟的话,已经成了旅行的恶俗标配吧。

稍事休息,去了寒山寺。大抵是张继的诗意境太深远,第一次读到时就画面感十足,故寒山寺是很早就决定的必游景点。但大多寺庙都躲不过商业化的浪潮,寒山寺尤甚。

不怪他,反正要怪也是佛祖的事。

从寒山寺回酒店,已累趴。洗了个澡之后又出门,直奔金鸡湖商圈的诚品书店。苏州诚品是诚品在大陆的第一家店,台湾建筑师姚仁喜设计,去不了台北的那家,苏州这家也是心心念念好多年。

去过很多城市,也去过很多大学和书店。写过一句文青的话,“一个城市的精神在于书店与大学,前者是人类的历史,后者是人类的未来。”总的来说,书店的气质归因于选书的品位,而诚品的设计理念与推荐书系列恰合我口味。

无奈一个人漂在帝都,买书太多,搬家的时候已经很痛苦,只能忍痛砍掉买书的手。

往往这个时候就特别想买一个大房子,拿一件做书房,放满书,然后就像一个守财的葛朗台一样躲在里面幸福地睡觉。

第二天中午,春春和阿璨从杭州过来,请她们在观前街松鹤楼吃饭,苏帮菜果然和杭帮菜一样,甜= =满是期待的招牌菜——松鼠桂鱼也没有太大惊喜。

happiness = reality - expectation

所以预期一定不能太高啊。

6.

上有天堂,下有苏杭,这句话是范成大说的。如果一定要给短暂的人生设定一些必做事项的话,“苏杭游”这一成就终于达成。

说不上特别喜欢亦或是特别不喜欢,总之平平淡淡。可能最大感触是在从诚品书店出来,远远望见一旁的凯悦时,顿感的人生迷茫。这种感触和苏州这座城市并没太大关系。

工作以来愈发厌倦,时间如流水淙淙流过,却不知道能够留下什么。

这种对生活的无力感已经贯穿在blog里很多次,以至于每次看以前写的文章的时候都会觉得,这人怎么那么婆妈。

然而吐槽还是要继续。

7.

写下这篇游记(流水账)的今晚,刚看完《白日梦想家》。

所以说,要亲眼去看见更多这个宇宙的美好。

There's a rhythm in rush these days

匆忙繁忙的日子里 心中总有一抹旋律

Where the lights don't move and the colors don't fade

悄悄倾诉着远方有个永昼的缤纷天地
Back

写在2015年最后一个法定节假日的末尾

2015年最后一个法定节假日的末尾我干了些什么?

一觉醒来已经是11点过。

京东大叔敲门未果后把买的书悄悄藏在门口水表的管道后面然后给我发了个短信让我赶紧去拿。

开电脑工作,看案件,遇到一个实物类案件,几十笔交易要手动一个个退款到余额。过程太心酸,默念下个Q要做一个一键退回的功能。

网易云音乐推荐了一首很好听的歌『君だったら』,单曲循环一整天。

三点整出门吃麦当劳,剪头发。理发的技术总监小哥颜值颇高。他说你要把头顶的头发多留一点呀,不然想抓个发型都没条件。然后一脸惋惜的表情小声说平时还是要多打理打理发型。

我姑且把这个当成对我颜值的赞美。

下午保修客厅的灯,然后和做管理咨询的室友聊聊天,在他房间意外发现一排CPA教材,差点内牛满面和他握手说『可总算是找到兄弟了』。

新发型很帅。

晚饭去外经贸和DMH一起吃,又是烤鱼。喝了点酒,发现自己酒量貌似上升了不少。

夜晚的UIBE校园很漂亮。晚风吹过我的脸,球场鲜嫩的肉体,走过的女生抱着一本肖秀荣考研政治。

洗澡时对镜子里的自己半裸的身体凝目注视三十秒,本来隐隐若现的四块腹肌重新合拢成一块。决定还是要健身。

嗯是的今天就是平淡无奇的一天。

君だったら君だったら 【如果是你 如果是你】

今ここに居るのが 【现在会在这里吗】

君だったら君だったら 【如果是你 如果是你】

どんなによかったか 【那该有多好】

君だったら君だったら 【如果是你 如果是你】

わたしはしあわせだったのに 【我该有多幸福】

そんなことばかり考えてしまう 【无可救药 这一切充斥着我的脑海】
Back

你所生活的方式:岭南游记

24小时前的这个时候,我躺在北纬23度的广州荔湾区某全季酒店16楼,听窗外热带台风带来的滂沱大雨翻来覆去冲刷这个城市的街道与建筑一遍又一遍。

自从毕业以后才开始逐渐意识到国庆节的特殊之处。如果说假期长短限定了生活的半径,那国庆节所画的圆圈必然是一年中最大的一个。宝树在《时间之墟》里有一个有趣的小细节,大意是讲当全世界的人类被困在同一天时,其实你的生活就已经被时间死死地框定住了。所以回到现实,以你生活的城市为圆心,能够使用的交通工具时速x24H为半径,在这个圆以外的世界其实都与你无关。正所谓光锥之内皆是命运。而光锥之外,毫无意义。

所以当我决定国庆节要出去玩的时候,眼光只落在了西北、西南与东南。西北太艰苦,西南太吃亏,不若去东南,说不定去了就会爱上这座城市。前一个这样爱上的城市是上海,为此心心念念直到现在,搞得好像非上海不嫁一样。

于是10月2号下午五点,我出现在深圳。

飞机从平流层慢慢穿过云层时意外看见了大海。与想象中一望无垠的湛蓝海洋不同,我看到了一个绿色水面,以至于很长一段时间我都以为那是一个富营养化导致绿藻爆发的水塘。然后仔细想了一想,2015年计划里确实没有『看海』这项目标,所以算是意外之喜。

深圳处处都透露着『老子就是一个没底蕴的新兴城市』的吐槽感,常常是几幢高层公寓突然出现在绵延起伏的岭南丘陵之间。傍晚范静锋同学也赶来,相约去吃个晚饭(宵夜?),下楼右拐,走到了木屋烧烤。

但是这个北京也有啊……

第二天上午照旧是睡懒觉,下午吃了传说中的潮汕牛肉火锅,其实感觉还不如四川火锅。但大抵是汤底不油不辣,所以食材本身的质感与味道会更加明显一些。吃完饭我开始钻各种小巷,三两下之后就顺利找到了传说中的深圳城中村。欣欣然在狭窄的楼间小巷中穿过,两边是各种食肆后厨,各种下水的血腥味与鱼的腥味混杂在一起。剖鱼的小哥会疑惑地抬起头瞟我一眼。

嗯,不是帅哥,没兴趣。

深圳城中村

然后去了深南大道瞻仰传说中的深交所。

深交所

再然后去了深圳市民中心躲雨。在逼格颇高的书店里喜闻乐见地发现做高中自然地理题的中学生情侣,考CPA的苦逼大学生。

吃完晚饭后在深圳二刷了『夏洛特烦恼』。意外发现,北方人与南方人对于笑点的把控不太一样。夏洛刚穿越回高中时说了一句『我擦』,在北京看时观众一下子就笑场了,搞得我一愣一愣的。在深圳看的时候,我有所准备,夏洛一说完我就笑,结果偌大一个电影院就没人笑,又搞得我一愣一愣的……然后片尾金志文的歌声响起时,又忍不住泪目。

看完电影准备去深圳大学逛逛,地铁坐了十站,出地铁站才发现大雨哗啦啦连成一片……

为了避免整篇文章像流水账一般展开,于是我决定长话短说。10月4号去广州,看了南越王墓,吃了一家小店的煲仔饭然而味道一般,逛了陈家祠,晚饭吃了川菜……逛了荔枝湾。

10月5日去了太古汇,方所书店,吃了茶餐厅。前前后后买了两本书,却意外地都是讲述上海的故事。晚上去了广州塔,塔顶风略大。

10月6号,就回来了。

台风带来的雨从一而终一直没停过,以至于这个城市在我心中没有留下一个完整的意象。有时候雨下得太烦,会让我想起小学看过的一篇科幻小说,雷.布雷德伯里的『雨一直下』,回想起金星上几万年不停歇的雨,一阵压抑与烦躁。

然而这终究是一个城市,无数人从生到死所生活的地方。我期待着像一个当地人一样早上悠悠然去一家茶餐厅吃早茶吃到下午茶,在食物的咀嚼与热企之间消磨一天时光。然而竟然是没有机会。直到小付姐姐在微信上说,她上一次来广州也没有吃成早茶,我才发现,原来大家都一样,总是期待着另一种理想中的人生,虽然自己并没有经历过。

我总是喜欢用中国经济来比喻我的生活,大抵上差不多,都像一列苏联造列车,全身都是毛病但是还能够吭哧吭哧向前开去,一路上不停抖落几个零件再换上几个,每个人都知道终有一天会停下来但是都不愿意去想这么久远的事情。于是日子照常过,心情却是越来越差。不想像一个螺丝钉一般迷失在这个城市里,却无可奈何看着生活一步步滑入深渊。

当走在广州街头骑楼下躲着雨时,我会想,若是有机会,此生做一个岭南人,其实也挺好。

不明白 要多远 看那漂浮的时间 和过往的云烟 却抹不掉对你的思念
Back

记一场猫眼公开课

上周去参加了猫眼学院的公开课第一期,主讲是关雅荻。

作为一个从幼儿园到大学都生活在女生远多于男生(譬如文科班,财大,金融,etc.)的环境中的人,坐在这次公开课的观众群体第二排时的确有一些「熟稔」的感觉,氛围与气场让我更舒适和游刃有余,心态上的轻松感非常明显。

大概是因为猫眼电影本质上算是文化公司?(呃,互联网买票的)

还是因为我在程序猿野蛮生长的世界里呆得太久但是仍然有种格格不入的隔阂感?

有一次MH说“天啊你上班居然三天没换衣服了简直不是以前的你。”

这个时候我的表情大概是「只需要微笑就好了T^T」。

所以我想还是要做出一些改变啊。

Back

未名湖畔的爱与罚

今天去北大参加R语言会议,一整天都在邱德拔体育馆。

来北京那么久,一直没去清华北大。因为两校在我心中必经地位特殊,不舍得在一个平凡的日子去邂逅,而就应该像这样,用一种冠冕堂皇的理由,大摇大摆地走进去,然后毫不吝啬地从眼睛里散发出对这里的崇拜。

高中的时候看《未名湖畔的爱与罚》,然后决定要考光华,要读金融。那是我最喜欢的BL小说之一,虽然仅仅看过一遍,但对里面的地名与人物,真实存在或者虚构的,都地位特别。于是我跑去书店买了一本萨缪尔森微观经济学,好像这样就能表示我要读金融系的决心,也能够离小说更近一点。

最后还是死在文综上啦,查到成绩的那个晚上并不很伤心,也不会觉得,去不了P大是一件多么令人遗憾的事。

最后报志愿,每个志愿上都填上金融,金融学,经济学(金融方向)。其实我一点都不喜欢金融,我讨厌炒股,我不喜欢去银行,我讨厌和人打交道。

然后我发现这种遗憾一直都没有消失,而是隐隐躲在某个角落,总是在某种吧特定的时刻,跑出来,告诉我,你多么可惜啊。

是啊,今天站在未名湖边,恰逢下起太阳雨,抬头看博雅塔,这种情感就像是潮水满溢。旁边P大的好基友认真拿手机拍夕阳,旁边的游客让我们帮忙拍照,然后说,你们俩好年轻啊,就在这里读大学啦?

我和基友大笑着走开。笑着笑着,就好伤感。

你看,这辈子是没机会啦。

和光华读博士的的学长聊微信,学长说,要不你考虑一下光华的MBA。我说感觉贵院MBA都是给成功企业家上的。学长笑,说MBA还是蛮适合你这种背景的。我说我等不及啦,不想再工作两年,想明年秋季就读书了。学长说,那就只能出国啦。我说,是啊是啊。

但是还是会觉得好遗憾的。

本科的时候有个外号叫专业黑校大师。人人还流行那会儿,不少黑西财的PS图和段子都是从我那里流出去的。其实我自己很明白,我对西财的厌恶是超出了客观的范畴的——因为我会忍不住把自己对大学生活的向往,与现实之间的落差,发泄在对这个学校的失望上。我知道这并不太公平,但我不介意用这个方式来展现自己的态度。

那天FPC说,你内心这么阴暗的一个人,怎么好意思在网络世界还卖萌。我说,我本来就很萌呀。

扯远了扯远了,今天主题是P大。

散会后去农园吃的饭,感慨了一下TOP2学生食堂补贴简直是吓人。然后去光华老楼,和基友讨论就业版上那些男生照片谁最帅。然后是北大图书馆、未名湖博雅塔、朗润园、经院、光华新楼、法学院和政府管理学院、百讲、最后理教看夕阳。

来来往往的男生颜值都比较高,着实打击到我。

教室修得是如此豪华以至于我都不敢进去。

理教五楼有个女生在背书。

光华好土豪好土豪好土豪好土豪好土豪好土豪好土豪。

就算知道人生总是在错过与遗憾中溜走,但我还是会珍惜这种惋惜的心情。要是时光能够倒流的话,或许我会比较开心吧。

Back

我说今晚月光那么美,你说是的。

本文发表于2014–09-01

下班之前得知上周工作小组倒数TOP1,心里居然觉得“哦”就这么过去了。反正也是不喜欢的工作,你叫我怎么提得起兴趣去做。

来杭州之前几乎不曾犹豫过,因为我始终找不到喜欢成都的理由。不止一次坐在夜晚八九点过穿梭于城市车水马龙的公交上靠着车窗听着好妹妹唱《我说今晚月光那么美,你说是的》,那时候真的天真地以为离开了会比较美好。

然后你懂的。

我在用各种方法提醒自己还是一个想读书的男人,下了班滚回家关上房门躲着室友开始背单词看Machine Learning,却悲哀地发现高强度的工作已经把大脑压迫着无法再继续学习。上班的公交上刷着微博和知乎看高频交易和算法,再不济也可以看信用评分、FICO、FRM或者财务估值,就是不想看工作相关内容。我在骄傲地宣称自己终究是学金融而非互联网公司的非技术民工小二。但是公交到古荡站然后随着上班的人流走过人行道再看到高耸的黄龙时代广场,也不由得叹一口气,手机放进裤子口袋,书包里拿出橙色工牌,又开始每日每时每分都完全相同的枯燥工作。

从转岗失败之后我几乎是已经下定了决心,于是乎这段时间的恍惚其实只是调整和平衡工作和目标之间的偏差。每天不可抑制地循环朴树和aqua timez,就像现在听着《生如夏花》能够很欢乐地写着日志一样。

你看,懂我的看到这里应该早就懂我。

也开始学着每天要生活地更快乐。拿着手机到处拍照,再用instagram和VSCO Cam调好滤镜po到微博上去;心心念念着下了班背着双肩包戴着耳机去西湖吹吹风;跑去杭州的独立通宵书店买小说;强迫自己去吃那些一点辣椒都没有的餐馆;对自己的狗更好一点;买喜欢的乐队的CD;坐这个城市公交的末班车;走路下班回家。

但是我还是没有办法爱上工作。

夏目漱石说把I LOVE YOU 翻译成“我爱你”太直白,非得译成“今晚月色真美啊”。你看,今晚的月光那么美,喜欢的乐队有新的专辑发行,晚餐时的那家饺子很好吃,白天喝了两杯咖啡一罐红牛但是都没有晚上的可乐好喝,坐电梯时旁边的小哥笑起来很好看。

然后你说,是的啊。

#Writing/_ #Writing/2014

Back

Flappy bird,或者其他

本文发表于2014年5月7日

mini2里只有一个游戏,就是flappy bird。

我不是那么无趣的一个人,这类单调枯燥的游戏一向是没啥耐心玩下去的。

但是这游戏火的时间很巧,刚好是一月,考研挂了滚回家混吃等死的寒假。每天去宇宙行累死累活应付各种大妈,下班回家已经累得饭也不想吃,就躺在床上望着天花板带着耳机单曲循环《东京》。

那时候大概是觉得自己真是一个啥事儿都做不好的loser。

然后微信朋友圈里里突然开始发各种关于flappy bird的截图,不外乎是变态反人类之类。下了一个APP到手机上后也开始尝试,最开始分数就没突破过两位数。

但是也不知道为什么,一回家有空就刷几盘,然后分数慢慢往上涨,知道一天刷出140 之后,淡定地手机截屏再发朋友圈。果不其然炸开锅。

其实这游戏没啥难度,掌握好重力加速度之后就是看人品了。

重点是, 我居然从一个游戏里找自信,你看,熟能生巧而已。

然后收拾行李回学校找工作,签offer,实习,毕业……接下来的一切都感觉活在云里雾里。

自从找工作有offer在手了之后,也乐于拿自己考研那破事儿自嘲, 堵住别人嘴最好的方式不外乎就是自己抢先把话说了,让别人无话可说。

不过还是会觉得,要是当年努力一点的话,情况会有不一样吧。

后来又流行了很多游戏,2048什么的,都没去玩。

夜深人静的时候,偶尔想起这只死了千百次的黄色笨鸟,还有点小感激呢。

Back

The Winter of Our Discontent

这篇博客写于2014年1月10日,考研结束的第六天。那时候已经知道考得不太好。
本文略有修改,删除了部分略微有点矫情的内容,另外把用字母代替的人名更换为本来的名字,我怕时间太长,有些人会被遗忘。

用斯坦贝克的小说标题作为2013年年终小结的抬头与装逼无关,事实上我还没看过这部小说,但“我们的不满的冬天”很好的刻画出了我现在的心情,噢不,大概是这一整年的心态,从2013年1月5日开始,直到现在。

很难去描述这一年是怎样细细度过,但终归留下的是一个不太好的印象。2012年12月31日晚上十点过,打完麻将后和吴奇说说去通博楼走走,顺便参观一下我们即将奋战一年的自习室。一上五楼就被莫名压抑的氛围给影响到,匆匆扫了几眼就赶紧坐电梯下楼。电梯里还有两个学姐,一个对另一个说,“完了,我最近都睡不着觉。”另一个女生说,“你别紧张,你别紧张。”我和吴奇一边听一边忍住笑,等出了电梯,看不到学姐身影后才哈哈哈的狂笑出声。

2013年1月4、5日是考研的大喜日子,同时也是通博楼占座战争的最高潮。吴泽恒的学姐给了他两张桌子,我又联系了朱证宇要到两张,心想着这下算是有备无患,放心回家过年。大年初八,即2月18日就早早返校,为的是通博楼开门时能够抢先确认敬业的阿姨有没有在寒假时情场——事实证明阿姨在这一年很仁慈的偷了下懒。

2月底开学,本来说着这学期的课水着水着也就过去了,精力还是放在考研上。结果每天上课上得不亦乐乎,刘晓辉的国金和黎叔的计量都很赞,廖奇琦的中外建筑赏析更是心头大好,在上面投入了太多时间。至于上自习的事,告诉自己“时间还多着呢”,继续拖。

不想用13年版的全书,就等到14年出来了再买。等14年全书上市已经是三月中下旬的事,我突然发现和研友相比数学进度已经落后了一大截,于是草草跳过看教材的阶段,心想着赶紧进入全书吧。

应该是在四月开始做全书,头几天做下来让我不禁怀疑自己智商——题目不会做,做题速度慢,一天刷全书<=10p。这样的速度略伤心,于是给自己定下更高的目标,更加完不成,更加伤心……恶性循环了几个月,最大的影响就是有意无意的不想做数学。同时由于赶进度的缘故,做题难免不仔细,也没什么太深刻印象,做完即忘。

就这样一直到了六月,准备期末考试,又恰逢老大来成都,舍身作陪好几天。期间投了个腾讯暑期实习,第一轮群面即被刷(嗷大概是我把小组给带跑题了?),认识华西男H(黄)同学,盛情邀请我七月去华西来个N日游。

暑假期间转战有空调的E座,白天上海文的公共课,晚上自己看书。一直嫌海文上课啰嗦,每每搞得自己上完一天课精疲力尽,晚上压根不想做数学。专业课看了一遍袁志刚,心想这玩意儿在讲些什么乱七八糟的,拿出高老爷子又刷一遍宏微观。放假前看了一遍货银,念着以后可以多看几遍,哪知道那就是我在上考场前看的第一遍也是最后一遍。一个暑假结束,突然发现复习进度几无长进。

九月开学,还剩下最后一门金融风险管理的课程。老师上课讲的不错,可惜已经没有什么心思去听。搬回通博楼,草草结束数学全书第一遍,又草草开始第二遍。十月照常度过。

十一月伊始,终于发现自己这复习状态实在是难以启齿,思前想后,终于决定还是要抓紧。英语做了真题,反映反常得不错。数学开始做真题。专业课,也终于抛弃以往顺其自然的心态,两个星期刷完两本绿皮书。也就是在那个时候,开始反省为什么要报复旦,同时不可抑止的生出对P大的向往。

十二月,一切照旧。

一月一号,新年开始,突然看不进去书,在座位上辗转反侧,看风景,看手机,心想着赶紧考完就解放了吧。

一月三号中午一点,和陈商龙以及两个统计的同学拼车去西华,订酒店,看考场。

一月四号考政治和英语,下午英语考试时非常不在状态,考完就知道今年已跪。一月五号上午考数学,考完已经没太大感觉,下午考专业课反倒异常兴奋。考完回学校,久违的几个考研党凑在一起吃了顿饭,又打麻将到十一点。一向手气烂的我胡了好几把满贯,陈商龙更是运气惊人。吴奇输得略惨,大家开玩笑说这大概就是我们考研成绩的反比,陈商龙深表赞同,他英语作文没写完;吴奇奸笑,他的P大汇丰应该是稳上了。

六号上午一直在睡觉,下午去西门海科租的房子收拾东西,晚上把细田守三部曲中的穿越时空的少女又看了一遍。

七号和吴泽恒去青羊宫,沿着中轴线一路走下来,对着一个个明清古建指指点点,看看大屋顶回忆这是重檐庑殿顶还是重檐歇山顶,突然发现供奉的有文昌帝君和财神赵公明,互相揶揄着“赶紧去拜拜,保佑考研顺利“,真走到面前拜下去时,心里想着,考研终究是自己的事,考得差了是咎由自取,实在不关文昌帝君什么事,暗自叹了口气,暗想,我拜就拜了,也没别的什么意思,您就随意吧。

是啊,我实在无法为考研这种事找什么借口。我一开始就对复旦没什么特别感情,越复习到后面越觉得抵触,脑子里挥之不去”今年就这样吧明年换个学校“,一边看姚洋的发展经济学一边在草稿纸上无意义地写下CCER或者GSM的全称,磨蹭时间直到到点吃饭,欢快地带上耳机背起背包往食堂的方向出发。

好久没有写过这么多的文字了,以至于最后赶紧着想收尾。就用我在很长一段时间,十一点下自习,骑着自行车穿过寂静的校园时,耳机里总会放到的歌来结束这一年的纪念:

犯过怎样的错 是否曲折太多 我也曾经想过 到底为了什么而活 会不会一天一天最后 化成了泡沫 做过怎样的梦 是否包袱太重 就算是场烟火 也要努力爆炸这天空 我们是一双一双彼此 照顾着的手 相拥
Back

离回学校还有两天时间

在ipad上下载了《ONE PIECE》漫画,准备一次性追完。虽说是三大民工漫之首,但质量的确不错。其实是想让自己爱上了海贼王之后又能在“喜欢”这一范围内新增一系列海贼相关的周边,不追点漫画心里不是很自在的感觉。

CPA还是老样子,看起来头疼。听了一下午和晚上的课件,不禁深深怀疑光是不计效率的听完课件就需要花多少时间,想起来就害怕。谁叫之前拖得太久,看来我果真不适合在家里看书,以后别勉强自己了。

新生们开学,搞得自己也很想回去。很难想明白为什么我那么爱校,明明是个又小又破又在郊区的地方,名字也不霸气也没多少牛人出没,但还是喜欢他喜欢他一直喜欢他。

我在想自己是不是太过于去装成熟和冷静了,不少人说要是老是这样子是不可能会有人喜欢的。但很难去刻意的装嫩装可爱,不是那个年纪也不是那块料,想起来都会有一阵阵恶心的感觉。怪不得单身,不过也没办法。劝G考MPAcc,他倒是很疑惑为什么我突然开始操心起他的事。实际原因就是那天准备把QQ空间里的日志搬到点点来的时候无意中看到2010年他写的那篇纪,那句“一生的朋友”看起来略显矫情,而且毕竟从前发生了那么多事怎么可能还像两个普通朋友交往下去,但还是小小的感动了一下。

anyway,生活要继续,CPA要继续看下去。

697

#Writing/_ #Writing/2012

Back

Scream

本文发表于2012年9月3日

和L微博上私信,从MPAcc扯到耽美文再扯到恶搞还珠,突然她冷不丁问我CPA二审过没,我才发现自己完全忘了这档子事。一时心急登录CICPA官网才发现自己似乎忘了注册ID,那瞬间心情就像被浸到冰窖里冰冷刺骨。颤抖抖的打开注册页面却发现自己的身份证和姓名已经注册了,但又不知道密码。于是对L调侃说,可能没机会考了。

说那句话时的心情其实是带有一些窃喜的,反正自己知道自己没有复习完,但囿于面子又不好在别人面前说真心话。要是能有这样一个借口可以体体面面不去参加考试倒也不错,只是可惜了那么多报名费资料费和东奥的课程费。

不知道从什么时候开始给别人留下自己貌似很NB的印象,大概也有自己某些时候刻意装逼的原因。这叫自作孽不可活,其实自己几斤几两倒也心知肚明,周围人大概是什么水平也能摸个八九不离十。别人觉得自己很NB的一个后果就是,每次抱怨复习不完或者看不完的时候,总会感觉一阵被嘲笑的阴森感。

也不是不想像一众牛人一样把学习工作和生活安排的井井有条互不相干,也不是不想通读金融领域所有经典,也不是不想认真做一次挑战杯或者数模,也不是不想亲自操作股市期货和外汇,但自己其实从来就没有办到过。其实我就是一个很普通的SWUFE 金融系即将大三的学生而已。

后来尝试摸索用最公用的密码登陆,没想到还真成了。但是资料已经提交中注协,个人主页上什么信息都看不了。恰好明天开始打印准考证,所以将一切希望压到明天,倘若可以打印准考证,那是否应该改头换面重新做人,再剩下的一个月里给自己一个奇迹?

说起来自己是一个不相信奇迹却又寄希望于奇迹的人,一个月能复习完两科?我倒没报那么大希望。但正如昨天说的,事在人为,尽力吧。虽然自己从来就没那个毅力不玩手机不听歌不分心认认真真看书的能力,摊手,叹气。

下午醒来的时候阳光很好,用ipad刷微博看到一个很文艺的小男生,大概才高二的样子。那叫真文艺,我是伪文青。私以为真正的文艺青年会让人感觉自然舒服,就像充满了阳光香味的窗台一样。拉不下老脸去关注一个小孩子,于是更不要脸的用了偷偷关注功能。咳咳。

看财务报告一章的时候仍不能免俗的戴着耳机听歌,张悬的第一张专辑《My life will…》,Scream。一方面为了自己可怜的复习进度而唉声叹气,一方面为了下午温暖的阳光而欣喜不已。于是继续把希望寄托于明天,正如过去的两个月一样。

I’m trying to be perfect someday, But till now it’s still in vain 。
Back

以爱与和平的名义,技术宅才能拯救世界。

SUMMER WARS是09年的电影了,我在10年才看到。当时觉得动新上罕见的对这部电影的好评有点吃惊,所以找来看。结果果然被全片震撼了。

觉这电影从剧本,分镜,节奏,人物刻画,情节推动,声优,OST都好得找不出什么问题来。细田守三年磨一剑所以每次出的都是精品。剧情足够狗血,但是狗血地一样让我改燃就燃该泪奔就泪奔。然后最后是一个意料之中的happy end,欣慰之余内牛满面。

其实我个人很喜欢男主角健二。健二这名字在日本俗到家,简直跟张三李四一个档次了。所以健二也是一个很俗很俗很普通的技术宅男,乱糟糟的头发,恶俗的白T恤牛仔裤,看到女神就流鼻血,丢人群中绝对第二眼就找不出来。但就是这么一个普通恶俗青年,有着些微的闪光点比如数学好奥赛落选选手,就是我觉得最喜欢的一类人。

豆瓣上有各种精彩的影评,我就不班门弄斧了。一直觉得豆瓣文青装逼,但是关于SUMMER WARS的的影评却是少有的能够引起我共鸣的文字。唯有技术宅才能拯救世界,超人也不一定要内裤外穿。这电影里太多地方让我感动,真是一股清新的夏天的味道扑面而来。从小的梦想就是拯救世界,所以我在自己的世界里就是超人。我是果壳之王~

以爱与和平的名义,这句话是从猫大的间客里看到的,喷血三尺。恶俗和闷骚到一种境界之后反而是莫名其妙的感动。所以夏希一家人站在背后拿着NDS和手机喷着唾沫的加油呐喊,一亿五千万人把自己的账号给夏希然后屏幕打出“请保护我们的家园”,最后一张花牌翻开的时候全世界一起大吼“开!”,桥段虽狗血,但是看到这里无不被感动。啊,这个世界上的人其实还是好人偏多吧。那些社会的阴暗面暂时失色,陌生人,普通人,文艺青年二逼青年也可以手挽手高唱让世界充满爱。我觉得这种感动是发自内心的人类本真情感,对美好的事物总会不自觉的向往和追求。

值得一提的是细田守对细节的重视,真是造福我们这群考据党。CCTV4和各种专业设备就不说了,就连一晃而过的镜头里电脑屏幕出现的天涯页面的每个帖子都能看得仔仔细细清清楚楚,其中那句“又是日本人搞的鬼?”简直是恶搞的巅峰。天涯当时还有个活动想吧那些出现在电影里的发帖人的ID给挖出来,不知道结果咋样。

又到夏天了。两年前的这个时候看了SUMMER WARS,听着原声,告诉自己“如果是你的话就一定可以的。”然后义无反顾的继续刷漫天的数学试卷。我爱高中,虽然回不去了。我爱夏天,虽然总会出很多的汗。但是这种慵懒的气息,蓝得象水洗过的天空,T恤牛仔短裤和凉鞋,冰淇淋和自然垂下的白色耳机,永远是夏天才有的味道。

“あの丘の向こうに,仆らの夏がある 。わらないもの,美しいもの,すべてそこにある 。

太阳の行方を,向日葵が追いかける,风の音さえ ,闻こえないほど ,仆らは见つめ合う 。”

“僕らの夏の夢”。

Back

终于开了博客

原文发表在Lofter上,我都不知道我是怎么无意中找出来的(大概是登错了账号2333)——2026年5月16号留

一直想写日志,但是人人不安全。毕竟有些东西不是可以随便写随便给被人看的。一直想吐槽和发泄,但是微博不安全。总是有被别人偷窥的感觉,悄悄关注这功能真恶心。

五一宅宿舍,那天晚上搜Mr.Children的《旅立ちの唄》的相关资料的时候无意中连接到一个学姐的博客里面去。说是学姐大概是因为知道她比我大而她又是女生。学姐的博客很不错,文艺小清新一个跟我又有些共同之处比如听日音。学姐的博客很早之前的东西了,不然也不会从“四月好歌推荐”里看到《旅立ちの唄》。学姐喜欢发感叹说生物股长的每首歌都好听,同感。于是翻出许久没听的《帰りたくなったよ》又开始单曲循环。

所以萌生了开个博客的念头。印象中高中也玩过一下博客,一篇日志都没发。老大有过博客,在博客大巴,印象比较深的是首页是一张格子衬衫+单反相机的照片, 我高一那会儿玩这俩玩意儿的才是真文青。所以老大在我心中的印象就永远定格成了一个小清新。

最近心情都不咋好,人人和微博虽然天天刷,但是刷的多了突然觉得自己和他们都不一样,搞得遗世独立了。他们刷五月天,我难以理解这种伪文青的狂热。他们刷金投十周年庆但是我对这活动也没啥兴趣。他们刷各种谣言钓鱼分请文,我连反驳的心都没了。每天雷打不动的刷人人和微博已经成了个习惯,但是这习惯已经越来越恶心让我觉得没有任何意义,找不到最开始的时候总会遇到几个志同道合的朋友的感觉了,看他们的分享,和他们聊天,感觉很愉快。

于是开博客。一开始打算用新浪,毕竟方便嘛。但是新浪那页面着实恶心到我。遂转战网易,结果在登陆的时候发现博客下的LOFTER。之前做海报的时候在网易找图无意中看到过这玩意儿,觉得太小清新了怕里面各种文青装逼,结果仔细一看还不错,所以就开个轻博客吧。至少目前为止对这东西都很满意,虽然我骨子里是个伪文青。

最近听得比较多的是秦基博,18线男SOLO。总体来说还是很本质的一个歌手,当初入他坑的是《アイ》。我记得是一个夏天的暑假,但是是09年还是10年忘了。这两个暑假对我来说有着截然不同的含义,不赘述。这首歌旋律和声音很好听,听多了总会有种莫名的惆怅,说不出来的感觉。所以昨天听着这首歌下午跑去H上自习看财管,效率还算不错。

之前有在人人说过自己大致喜欢哪种大学生活,其中安安静静在有阳光的下午的干净的窗户边看书听歌喝咖啡和看小说是其中之一。如果有喜欢的老师在讲台上讲喜欢的内容就更好。

写博客就像写日记,总是在隐私和给别人看之间纠结。希望有人会看但不会是太多的人,特别是现实中交集比较多的人。纠结来纠结去也就那么回事吧,以后再说。

五月一日,成都,阴。音乐是アイ,时间是13点。接下来准备吃午饭睡觉然后刷高代统计。

“我现在喜欢看着天空,因为这天空由于你而变得不一样了。”

Back
6.431

Lecture 1. Probability models and axioms 概率模型和公理

#Courses/MITx/6.431

1. Motivation

Let's face it - Life is uncertain

2. Lecture 1 overview and slides

3. Sample space

5. Sample space examples

6. Exercise: Tree representations

7. Probability axioms 概率公理

**8. Exercise: Axioms**

**9. Simple properties of probabilities** 概率的简单性质

{s}是set(集合), A是event(事件)

**10. Exercise: Simple properties**

**11. More properties of probabilities** 概率的更多性质

**12. Exercise: More properties**

**13. A discrete example** 一个离散案例

**14. Exercise: Discrete probability calculations**

**15. A continuous example** 一个连续案例

**16. Exercise: Continuous probability calculations**

**17. Countable additivity** 可数可加性

**18. Exercise: Using countable additivity**

**19. Exercise: Uniform probabilities on the integers**

**20. Exercise: On countable additivity**

**21. Interpretations and uses of probabilities** 概率的解释与使用

Back
6.431

Lecture 11. Derived distributions 导出分布

**Lecture 11. Derived distributions 导出分布**

#Courses/MITx/6.431

1. Lecture 11 overview and slides 讲义概览

This lecture develops a method for finding the distribution (PMF or PDF) of a function of one or more random variables with known distribution.

2. The PMF of a function of a discrete r.v. 离散随机变量的函数的PMF

3. Exercise: Linear functions of discrete r.v.'s

4. A linear function of a continuous r.v. 连续随机变量的线性函数

与离散随机变量不同的是,连续随机变量的线性函数的PDF,需要对X前的系数a做放缩。

5. Exercise: Linear functions of continuous r.v.'s

6. A linear function of a normal r.v. 正态随机变量的线性函数

正态分布的线性变换仍然为正态分布。

7. The PDF of a general function 一般性函数的PDF

接下来是对于一个一般函数g(x),求解PDF的步骤。

8. Exercise: PDF of a general function

主要是在求解Y的PDF的时候,需要先求CDF。

但从这道题里,不用显性的写出CDF,只要能转化为 $F_X(g^{-1}(x))$ 的形式,接下来就用链式法则,直接套用公式: $f_X(\sqrt y)$ 对y求导数。

9. The monotonic case 单调案例

当g(x)是单调函数的时候,可以不用写出F_Y的CDF,只需要找到反函数h(y),然后套用下列公式:

$$

f_Y(y) = f_X(h(y))\left|\frac{dh}{dy}(y)\right|

$$

10. Exercise: Using the formula for the monotonic case

11. The intuition for the monotonic case 单调案例的直觉性解释

当x变动 $\delta_1$ 个单位时,y 变动 $\delta_2$ 个单位。我们现在将两者联系起来,可以得知:

$$

\begin{aligned}

\delta_2 \approx \delta_1 * \frac{g}{x}(x) \\ \delta_1 \approx \delta_2 * \frac{h}{y}(y)

\end{aligned}

$$

由于X和Y的变化事件的概率是相等的,即:

$$

\mathbf P(y \le Y \le y + \delta_2) = \mathbf P(x \le X \le x+\delta_1)

$$

所以有:

$$

\begin{gather}

f_Y(y)*\delta_2 \approx \mathbf P(y \le Y \le y + \delta_2) = \mathbf P(x \le X \le x+\delta_1) \approx f_X(x)*\delta_1 \\

有\\

f_Y(y)*\delta_2 \approx f_X(x) * \delta_2 * \frac{h}{y}(y)\\ 所以有:\\ f_Y(y) = f_X(x)\frac{h}{y}(y)

\end{gather}

$$

12. A nonmonotonic example 非单调案例

13. Exercise: Nonmonotonic functions

14. A function of multiple r.v.'s 多元随机变量的函数

15. Exercise: A function of multiple r.v.'s

这道题的标准解法需要求联合概率密度函数的积分,但根据题目的意思,可以有渐变求法:

P(Z ≤ z) = P(sqrt(X^2 + Y^2) ≤ z)

x^2 + y^2 ≤ z^2表示以z为半径的圆,, 又因为(X, Y)均匀分布在单位圆内,所以这里求P(Z ≤ z)等于是求z为半径的圆与单位圆的面积比值,即 z^2*pi / pi = z^2

然后求导即可。

Back
6.431

Lecture 12. Sums of independent r.v.'s; Covariance and correlation 独立随机变量和,协方差与相关性

**Lecture 12. Sums of independent r.v.'s; Covariance and correlation 独立随机变量和,协方差与相关性**

#Courses/MITx/6.431

1. Lecture 12 overview and slides

This lecture covers two different topics:

1 the calculation of the PMF or PDF of the sum of independent random variables;

2 the concepts of covariance and correlation, and their main properties.

这个lecture主要包含两个主题:

  • 计算独立随机变量和的PMF或PDF;
  • 协方差、相关性的概念与他们的主要性质。

2. The sum of independent discrete random variables 独立随机变量和

shift的距离就是要求的Z的数值

3. Exercise: Discrete convolution

4. The sum of independent continuous r.v.'s

$$

由\ f_{X+b}(x) = f_X(x-b), \\ 有\ f_{Z|X}(z|x) = f_Y(z-x)

$$

5. Exercise: Continuous convolution

TBC

6. The sum of independent normal r.v.'s

7. Exercise: Sum of normals

8. Covariance

X和Y独立, cov = 0

反过来不成立,若cov = 0, X和Y不一定独立

9. Exercise: Covariance calculation

Suppose that $X,Y$ , and $Z$ are independent random variables with unit variance. Furthermore,  $\mathbf E[X]=0$ and $\mathbf E[Y]=\mathbf E[Z] = 2$ . Then, 求解 $\text{Co}v(XY, XZ) = ?$

首先按照协方差公式进行展开,这里有两种展开方式:

$$

Cov(X, Y) = E\left[(X-E[X])·(Y-E[Y])\right]

$$

一般常用下面的形式:

$$

\\ Cov(X, Y) = E(XY) - E(X)E(Y)

$$

得到:

$$

\begin{aligned}

\text{Co}v(XY, XZ) &= E[XY·XZ] = E[X^2YZ] = E[X^2]E(Y)E(Z) \\

&=(Var(X)+(E[X])^2)·E(Y)E(Z) \\

&= 4

\end{aligned}

$$

这里有两个小点不太熟悉:

1 $E[XY·XZ] = E[X^2YZ]$ 可以对随机变量的乘积进行乘法规则计算,因为E是一个线性算子;

2 $X,Y,Z$ 相互独立,可以推导出任意可测函数 $g,h,k$, $g(x), h(y), k(z)$ 也是相互独立的。

10. Covariance properties

12. The variance of the sum of r.v.'s

13. Exercise: The variance of a sum

14. The correlation coefficient

这里有一个知识点是 $\rho$ 的数学运算法则:

15. Exercise: Correlation coefficient

It is known that for a standard normal random variable $X$ , we have $E[X^3] = 0, E[X^4] = 3, E[X^5] =0, E[X^6] = 15$. Find the correlation coefficient between $X$  and $X^3$ . Enter your answer as a number.

由定义:

$$

\begin{gather}

\rho(X, X^3) = \frac{Cov(X, X^3)}{\sigma_X\sigma_{X^3}}\\ Cov(X, X^3) = E[X*X^3] - E[X]E[X^3] = E[X^4] - E[X]E[X^3]\\ 由X是标准正态分布,由E[X]=0, Var[X] = 1, E[X^2] = 1\\ 所以:Cov(X, X^3) = 3-0 = 3\\ 接下来计算方差: Var(X^3) = E[(X^3)^2] - (E[X^3])^2 \\= E[X^6]-0 = 15\\ 所以:\sigma_{X^3} = \sqrt 15 \\ 所以有,\rho(X, X^3) = \frac{3}{\sqrt15}

\end{gather}

$$

16. Derivation of key properties of the correlation coefficient

17. Interpreting the correlation coefficient

这一节主要介绍:相关不一定具有因果关系。

举例用一个隐变量Z来描述,X和Z相关、Y和Z相关,但X和Y没有关系。通过计算相关系数,可以得到 $\rho(X,Y)$ = 1/2。

这说明即使两个随机变量相关系数不为零,也不能说明他们存在因果关系。

另外有一个小trick: 如果一个随机变量X的期望为0,那么X^2的期望就等于方差。 $E[X^2] = Var(X) + (E[X])^2 = Var(X)$

18. Exercise: Correlation properties

19. Correlations matter

Back
6.431

Lecture 13. Conditional expectation and variance revisited; Sum of a random number of independent r.v.'s 条件期望与条件方差复习;随机数个独立随机变量和

**Lecture 13. Conditional expectation and variance revisited; Sum of a random number of independent r.v.'s 条件期望与条件方差复习;随机数个独立随机变量和**

#Courses/MITx/6.431

1. Lecture 13 overview and slides

This lecture explains that the conditional expectation and variance can be viewed, more abstractly, as random variables, and presents some of their properties, concluding with an application to the calculation of the mean and variance of the sum of a random number of random variables.

textbook: 4.3和4.5章节

2. Conditional expectation as a r.v.

3. Exercise: Conditional expectation

4. The law of iterated expectations

利用全期望公式,可以推导出:

$$

\mathbf E[\mathbf E[X|Y]] = \mathbf E[X]

$$

条件期望通常是一个随机变量,是所条件化的随机变量的函数。条件化一般就是 | 右边,所以条件期望就是右边的随机变量的函数。

5. Exercise: Iterated expectations

TBC

6. Stick-breaking revisited

这是一道题:

一根长度为 $l$ 的木棍,从一点将其截断,这一点是随机选择的,且相应概率在整根木棍上均匀分布。截断以后,留下木棍的左边部分。接下来重复以上步骤,问,在截断两次以后,剩下木棍长度的期望是多少?

记 $Y$ 是第一次截断后剩下的木棍长度, $X$ 为第二次截断以后木棍剩下的长度。因为截断点在剩下的长度 $Y$ 上均匀选择的,所以 $E[X|Y] = Y/2$。类似的,有 $E[Y] = l/2$。因此:

剩下木棍长度的期望为:

$$

\mathbf E[X] = \mathbf E[E|Y]] = \mathbf E[Y/2] = \mathbf E[Y]/2 = l/4

$$

7. Exercise: Conditional expectation example

The random variable $Q$ is uniform on $[0,1]$ . Conditioned on $Q=q$ , the random variable $X$ is Bernoulli with parameter $q$. Then, $E[X|Q]$ is equal to:

首先翻译这道题目的意思:

  1. Q ~ Uni(0,1)
  2. 当Q = q时,X服从参数为q的伯努利分布。
  3. 求解 $E[X|Q]$, 意味着求解:在已知Q的条件下,X的期望是多少。

由于伯努利分布的期望是参数 $q$,意味着 $E[X|Q = q] = q$。

用抽象表达,即 $E[X|Q] = Q$。

这个类型的题有一个万能解法。

假设:

  1. 有个随机变量 $\Theta$(参数),他本身是随机的。
  2. 给定 $\Theta = \theta$ 时, $X$ 的条件分布是已知的。

那么,条件期望就是“参数本身”。

$$

\mathbf E[X|\Theta] = 分布的参数(参数是\Theta的函数)

$$

8. Forecast revisions

以预测为例:

在数学上,当你在年初的时候,对未来的销量做预测 $E[X]$。同时,你假定随时间推移,你会获得一些新的信息 $Y = y$ 来修正你的预测:revised forecast。

在新的时间节点一月底:修正预测 revised forecast : $E[X|Y=y]$

在年初的时间节点,你的修正预测 revised forecast: $E[X|Y]$。

由迭代期望率, $E[\text{revised forecast} ] = E[X] =\text{original forecast}$

意味着在给定上年的销量后,你不应该对预期销量做任何上涨或下跌的预测,而是认为新一年的销量应该等于上一年。

但这只是数学上的结果,实际工作中通常会预测销量会上涨。

9. The conditional variance

总方差(无条件方差) = 条件期望的方差 + 条件方差的期望

10. Exercise: Conditional variance II

继续上一节的练习题:

  1. 求解 $Var(X|Q)$

由 $Var(X|Q = q) = q(1-q)$, 可以知: $Var(X|Q) = Q(1-Q)$

  1. 假设 $E[Q^2] = 1/3$,求解: $Var(E[X|Q]), E[Var(X|Q)]$。

由定义可知, $E[Q] = 1/2, Var(Q) = 1/12$

所以, $Var(E[X|Q]) = Var(Q) = 1/12$

$E[Var(X|Q)] = E[Q(1-Q)] = E(Q) - E[Q^2] = 1/2 - 1/3 = 1/6$

同时,利用全方差公式可以计算出:

$$

Var(X) = \mathbf E[\text{Var}(X|Q)] + \text{Var}(\mathbf E[X|Q]) = 1/6+1/12=1/4

$$

11. Exercise: Conditional variance definition

12. Derivation of the law of total variance

13. A simple example

注意这里在计算 $Var(E[X|Y])$ 时,使用的是方差的定义:

$$

Var(X) = E[(X-E[X])^2]

$$

这个期望其实就是“所有可能取值下,偏差平方的加权平均”。

所以上式可以变形为:

$$

Var(X) = \sum_x\mathbf P(X = x)(x-\mathbf E[X])^2

$$

14. Section means and variances

15. Exercise: Sections of a class

TBC

16. Mean of the sum of a random number of random variables

当N是一个随机变量时,随机数个变量和 $Y = X_1+X_2+…+X_N$ 也是一个随机变量。

这一页的PPT使用了两个方法来计算 $E[Y]$。

  • 全期望公式;
  • 迭代期望定律

⠀最后的结果都是:

$$

\mathbf E[Y] = \mathbf E[N]·\mathbf E[X]

$$

17. Variance of the sum of a random number of random variables

18. Exercise: Second generation offspring

Every person has a random number of children, drawn from a common distribution with mean 3 and variance 2. The numbers of children of each person are independent. Let  $M$ be the number of grandchildren of a certain person. Then:

求解: $E[M], \ Var[M]$

解答:

这也是一个两层嵌套的随机变量问题。与Lecture中的例题一致。

假设每个人的孩子数量为 $N$, 同时,孩子的孩子数量为 $X$。即, $X_i$ 代表第i个孩子的孩子数量。

接下来就是套公式: $M = X_1+X_2+…+X_N$。

根据题意,有: $E[N] = E[X] = 3, Var(N) = Var(X)=2$。

$E[M] = E[N]·E[X] = 3*3 = 9$

$Var[M] = E[N]Var(X) + (E[X])^2 Var(N) = 3*2+9*2 = 24$

Back
6.431

Lecture 14. Introduction to Bayesian inference 贝叶斯统计推断导论

**Lecture 14. Introduction to Bayesian inference 贝叶斯统计推断导论**

#Courses/MITx/6.431

1. Lecture 14 overview and slides

In this lecture, we start by discussing the numerous domains in which inference is useful. We then develop the conceptual framework of Bayesian inference, and review the various forms of the Bayes rule. We discuss possible ways of arriving at a point estimate based on the posterior distribution, and present the relevant performance metrics, namely, the probability of error for hypothesis testing problems and the mean squared error for estimation problems.

2. Overview of some application domains

3. Types of inference problems

4. Exercise: Hypothesis testing versus estimation

5. The Bayesian inference framework

贝叶斯统计推断的核心是将未知参数 $\theta$ 视作一个已知分布的随机变量,而频率学派则将未知参数 $\theta$ 看做一个常数。

在模型假设上,贝叶斯学派的观点是从一类已知的模型中随机选择的,引入随机变量 $\Theta$ 来刻画这一个模型;而频率学派的观点是多个待选的概率模型,每个 $\theta$ 的可能值对应一个模型。

显著性检验(Significance Testing)、假设检验(Hypothesis Testing)和极大似然估计(Maximum Likelihood Estimation, MLE) 都属于频率学派(经典统计推断)的核心方法。它们基于频率学派的框架,强调数据的重复抽样性质参数作为固定常数的假设。

第三页PPT说的是,在求出后验分布后,如果你想用一个单独的数或者一个单独的预测来表示后验分布,有两种可以选择的方式:

  • MAP(最大后验概率)
  • LMS(最小均方估计)

6. Exercise: Estimates and estimators

7. Discrete parameter, discrete observation

9. Discrete parameter, continuous observation

在连续观测值的情况下,如果要计算over probability of error(全局错误概率),选择第二个公式会比较方便(只需要求和,不需要积分):

$$

\mathbf P(\hat\Theta \neq \Theta) = \sum_\theta\mathbf P(\hat\Theta \neq \Theta|\Theta =\theta)p_\Theta(\theta)

$$

10. Exercise: Discrete unknown and continuous observation

11. Continuous parameter, continuous observation

12. Exercise: Continuous unknown and observation

Let $\Theta$ and $X$ be jointly continuous nonnegative random variables. A particular value $x$ of $X$  is observed and it turns out that $f_{\Theta|X}(\theta|x) = 2e^{-2\theta}$, for $\theta \ge 0$ .

The following facts may be useful: for an exponential random variable $Y$ with parameter $\lambda$ , we have  $E[Y]=1/\lambda$ and $Var(Y) = 1/\lambda$ .

这道题是已经告诉了后验分布是一个指数分布,求MAP和LMS。

  1. The LMS estimate (conditional expectation) of $\Theta$:

⠀根据定义,LMS(最小均方估计)等于 $E[\Theta|X=x]$。也就是后验分布的期望 = 1/2

  1. The conditional mean squared error  $\mathbf E[(\Theta - \widehat \Theta_{LMS})^2|X=x]$:

还是根据定义,由于LMS是条件期望,那么均方误差就是条件方差,所以等于1/4。

如果带入数值,也可以得到:

$$

\mathbf E[(\Theta - \widehat \Theta_{LMS})^2|X=x] = \mathbf E[(\Theta - E[\Theta])^2|X=x] = Var(\Theta|X=x)

$$

  1. The MAP estimate of $\Theta$:

MAP估计 $\hat\theta = \arg\max_\theta f_{\Theta|X}(\theta|x) = 2e^{-2\theta}$。由于后验分布是一个单调递减函数,所以在 $\theta = 0$ 处取得极大值。

  1. The conditional mean squared error $\mathbf E[(\Theta - \widehat \Theta_{MAP})^2|X=x]$  :

还是带入定义, $\mathbf E[(\Theta - \widehat \Theta_{MAP})^2|X=x]= \mathbf E[(\Theta)^2|X=x] = E[Y^2] = Var(Y) + (E[Y])^2 = 1/4+1/4 = 1/2$

13. Inferring the unknown bias of a coin and the Beta distribution

丢一枚不均匀的硬币,记正面向上的概率为 $\theta$, 并且将 $\theta$ 看做随机变量 $\Theta$ 的一个值。 $\Theta$ 的先验概率密度函数记为 $f_\Theta$。

现在考虑n次独立实验,记 $K$ 为观测到正面朝上的总次数。

首先,我们假设先验分布 $f_\Theta(·)$ 服从[0,1]之间的均匀分布。

写出后验分布:

$$

f_{\Theta|K}(\theta|k) = \frac{1*\tbinom{n}{k}\theta^k(1-\theta)^{n-k}}{p_K(k)}

$$

然后将与 $\theta$ 无关的项提出来,记为 $\frac{1}{d(n,k)}$,得到:

$$

f_{\Theta|K}(\theta|k) = \frac{1}{d(n,k)}\theta^k(1-\theta)^{n-k}

$$

这就是beta分布,参数为 $(k-1, n-k+1)$。其中+1是一个历史习惯。

现在我们假设先验分布不再是均匀分布,而是一个beta分布:

$$

f_\Theta(\theta) = \frac{1}{c}\theta^\alpha(1-\theta)^\beta, \quad \alpha, \beta \ge 0

$$

再求其后验分布,将与 $\theta$ 无关的项抽出来,可以得到:

$$

f_{\Theta|K}(\theta|k) = d*\theta^{\alpha+k}(1-\theta)^{\beta+n-k}

$$

可知,beta分布的后验分布也是beta分布。

14. Exercise: The posterior of a coin's bias

15. Inferring the unknown bias of a coin - point estimates

在先验分布为均匀分布的假设下,我们求得了后验分布是一个beta分布。接下来需要分别求解点估计:MAP估计和LMS估计。

首先是MAP估计:对后验分布取对数后求导,求导数为0的极值点,得到:

$$

\hat\theta_{MAP} = k/n

$$

同时,对 $\Theta$ 随机变量可以刻画为:

$$

\hat\Theta_{MAP} = K/n

$$

然后是LMS估计。由于LMS估计是 $\theta$ 的条件期望,所以带入条件期望的公式,有:

$$

\begin{aligned}\mathbf E[\Theta|K=k] &= \int_0^1\theta f_{\Theta|K}(\theta|k)d\theta\\ &= \frac{1}{d(n,k)}\int_0^1\theta^k(1-\theta)^{n-k}d\theta \end{aligned}

$$

从后验分布的形式可知 $\frac{1}{d(n,k)}$ 是归一化常数,让后验分布的概率密度函数在[0,1]上积分等于1,所以带入PPT种蓝色方框的等式,再进行化简,有:

$$

\mathbf E[\Theta|K=k] = \frac{k+1}{n+2}

$$

16. Exercise: Moments of the Beta distribution

Exercise: Moments of the Beta distribution

Suppose that $\Theta$ takes values in [0,1],  and its PDF is of the form

$$

f_\Theta(\theta) = a\theta(1-\theta)^2, \ for \ \theta \in [0,1]

$$

where  $a$ is a normalizing constant.

Use the formula:

$$

\int_0^1\theta^\alpha(1-\theta)^\beta d\theta = \frac{\alpha!\beta!}{(\alpha+\beta+1)!}

$$

首先求解 $a$

根据定义, $\alpha = 1, \beta = 2$,带入公式,有a = 12.

其次求解 $\mathbf E[\Theta^2]$:

这是求先验信息,本体不涉及任何后验分布和后验估计。

根据定义,有:

$$

\mathbf E[\Theta^2] = \int_0^1\theta^2f_\Theta(\theta)d\theta = \int_0^1a\theta^3(1-\theta)^2d\theta = 12*1/60 = 1/5

$$

17. Summary

Back
6.431

Lecture 15. Linear models with normal noise 正态噪声的线性模型

**Lecture 15. Linear models with normal noise 正态噪声的线性模型**

#Courses/MITx/6.431

1. Lecture 15 overview and slides

In this lecture we focus on an important special case of inference problems in which the random variables of interest are normal and are related through linear relations. We show that the posterior distribution is also normal and examine how we can calculate the posterior mean and variance. We illustrate the methodology through a progression of increasingly complex examples, including the problem of estimating a trajectory on the basis of multiple noisy measurements.

Some of the material in this lecture is covered in Example 8.3 on page 415 and page 421, and on pages 480-482 of the textbook.

2. Recognizing normal PDFs

3. Exercise: Recognizing normal PDFs

4. Normal unknown and additive noise

5. Exercise: Normal unknown and additive noise

Exercise: Normal unknown and additive noise

TBC

6. The case of multiple observations

7. Exercise: Multiple observations

8. Exercise: Multiple observations, more general model

9. The mean squared error

注意这里的方差:

$\sigma_0^2$ 是 $\Theta$ 的方差; $\sigma_i^2$ 是噪声 $W_i$ 的方差。

特别的,当所有方差 $\sigma_i^2$ 都相等时,MAP的均方误差 就等于 $\sigma^2/(n+1)$。这个均方误差不依赖于样本个数,对任意一个观测值 $x_i$,均方误差都相等。

10. Exercise: The mean-squared error

11. Exercise: The effect of a stronger signal

12. Multiple parameters; trajectory estimation

在有多个未知参数 $\Theta_0, \Theta_1, \Theta_2$ 时,求解MAP的方法还是从基本定义入手:

首先,假设给定了 $\theta_0, \theta_1, \theta_2$, 那么 $X_i \sim N(\theta_0+\theta_1*t_1+\theta_2*t^2, \sigma^2)$

然后,写出 $f_\Theta$ 的先验分布(这里有三个未知参数,意味着有三个关于 $\theta$ 的正态分布概率密度函数。

然后,写出 $f(x|\theta)$ 的分布函数,并且他们之间是独立的。

最后,联立、求导数,再分别令 $\theta_0, \theta_1, \theta_2$ 的偏导等于0,可以得到三个线性方程和三个未知数。

13. Exercise: Multiple observations and unknowns

14. Linear normal models

线性正态模型的每一个参数 $\Theta$ 的MAP估计是一个关于观测值X的线性函数: $\widehat \Theta_{MAP,j}: \text{Linear function of }X=(X_1,...,X_n)$

线性正态模型有以下良好的性质:

  • 参数MAP估计等于给定X下的条件期望: $\Theta_{MAP,j}=\mathbf E[\Theta_j|X]$;
  • 后验分布 $f_{\Theta|X}(\theta|x)$ 的边缘后验分布概率密度函数 $f_{\Theta_j|X}(\theta_j|x)$ 也是正态分布。所以对当想求解参数的MAP估计时,有两种方式:一是对联合后验分布求偏导后联立方程;二是对单个边缘分布概率密度函数求导后找极值。两者是等价的。
  • 对特定观测值 $x$ 的均方误差,对所有 $x$ 始终相等。

15. Trajectory estimation illustration

这一节主要讲对抛物线试验的贝叶斯统计推断。

为了更贴合实际,假设了参数 $\Theta_0 \sim N(200, 50^2)$ 代表初始点; $\Theta_1\sim N(50,50^2)$ 代表重力; $\Theta_2 = -9.81$ 代表加速度。

由此,原方程的未知参数从3个减少为两个,因此MAP估计时,对 $\Theta_2$ 的部分就直接删除了;同时,由于方差已知且相等,且与 $\theta$ 无关,所以方差项也移出不考虑。

由于未知参数的均值不再是0,所以需要对原最小化公式变形:从MAP估计的似然函数可知,如果均值发生了变化,等价于 $\theta^2 \rightarrow (\theta-\mu)^2$。

最后,这里还给出了贝叶斯置信区间的概念。由于贝叶斯估计将未知参数 $\Theta$ 视为随机变量,因此MAP估计是可以刻画出一个分布来的。在限定95%置信度下,可以得到关于点估计的概率区间。这是与频率学派不同的一点。

Back
6.431

Lecture 16. Least mean squares (LMS) estimation 最小均方估计

**Lecture 16. Least mean squares (LMS) estimation 最小均方估计**

#Courses/MITx/6.431

1. Lecture 16 overview and slides

In this lecture we focus on the conditional expectation estimator. We show that it minimizes both the conditional and the unconditional mean squared estimation error. We develop some its mathematical properties and also illustrate the calculation of the mean squared error.

2. LMS estimation without any observations

3. LMS estimation; single unknown and observation

这一段比较绕。上一节是在假设没有任何观测值的情况下,推导出了最小化MSE的参数估计:

$$

\mathbf E[(\Theta-\hat\theta)^2] : \hat\theta = \mathbf E[\Theta]

$$

那么,现在我们有观测值X = x了,最小化条件MSE的参数估计的形式是一样的,最优参数theta是在X=x时, $\Theta$ 的条件期望。

$$

\mathbf E[(\Theta-\hat\theta)^2|X=x] : \hat\theta = \mathbf E[\Theta|X=x]

$$

所以,抽象表述,LMS估计量(一个随机变量)为:

$$

\widehat \Theta = \mathbf E[\Theta|X]

$$

第二页PPT则是用到了不等式变形和迭代期望定理。

4. Exercise: LMS estimation

Exercise: LMS estimation

Let $\Theta$ be the bias of a coin, i.e., the probability of Heads at each toss. We assume that $\Theta$ is uniformly distributed on [0, 1]. Let $K$ be the number of Heads in 9 independent tosses.

By performing some fancy and very precise measurements on the structure of that particular coin, we determine that $\Theta = 1/3$. Find the LMS estimate of $K$ based on $\Theta$ .

这道题比较迷惑的是,求的是 $K$ 的LMS估计,而不是 $\Theta$。

因为 $K$ 是代表正面向上的次数,并且单次试验正面向上的概率为 $\Theta = 1/3$。所以我们知道:

$$

p(K|\Theta) \sim Binomial(9,1/3)

$$

根据LMS的公式(注意这里和PPT的形式不同):

$$

\hat K_{LMS} = \mathbf E[K|\Theta = \theta] = n*\theta = 9*1/3 = 3

$$

5. LMS performance evaluation

整体均方误差也是一个确定值,而不是一个随机变量?

6. Exercise: LMS estimation error

Exercise: LMS estimation error

As in the previous exercise, let $\Theta$ be the bias of a coin, i.e., the probability of Heads at each toss. We assume that $\Theta$ is uniformly distributed on [0, 1]. Let  $K$ be the number of Heads in  9 independent tosses. We have seen that the LMS estimate of $K$ is $\mathbf E[K|\Theta = \theta] = n\theta$.

  1. Find the conditional mean squared error $\mathbf E[(K -\mathbf E[[K|\Theta - \theta])^2|\Theta = \theta]$ if $\theta = 1/3$.

第一问直接套用公式:

在给定观测值时,条件均方误差等价于条件方差。

$$

\mathbf E[(K -\mathbf E[[K|\Theta - \theta])^2|\Theta = \theta] = Var(K|\Theta = \theta) = n\theta(1-\theta) = 2

$$

  1. Find the overall mean squared error of this estimation procedure.

第二问犯了一个错误:全局均方误差,并不是一个随机变量,而是一个确定数。全局均方误差是所有可能的 Θ 取平均后的期望误差,消除了 Θ 的随机性。

从定义上,可以推导出全局均方误差等于条件方差的期望。在这道题里,即:

$$

\mathbf E[(K -\mathbf E[[K|\Theta ])^2] = \mathbf E[Var(K|\Theta)] \\ = E[n\Theta(1-\Theta)] = nE[\Theta(1-\Theta)]

$$

注意现在 $\Theta$ 不再是条件分布了,所以根据题目定义,可知 $\Theta \sim Uniform[0,1]$。对 $\Theta$ 求期望可以视作对随机变量的函数求期望,求积分:

$$

nE[\Theta(1-\Theta)] = n\int_0^1(\theta(1-\theta)d\theta \\ = 9*1/6 = 3/2

$$

7. Example: the LMS estimate

8. Exercise: LMS example

9. Example: LMS performance evaluation

这里积分的对象应该是 $\theta$ 而不是 $x$?

这个例题中的条件均方误差,是一个关于x的函数: $Var(\Theta|X = x)$。在给定X的时候, $\Theta$ 是一个[0,x]上的均匀分布,所以条件方差 = x^2/12。

全局均方误差要更复杂一点: $\mathbf E[Var(\Theta|X)]$ 是对条件方差求平均。即:

$$

\mathbf E[Var(\Theta|X)] = \int f_X(x)\mathbf E[Var(\Theta|X=x)]dx

$$

但题目中并没有给出关于X的边缘概率密度函数,只给了联合密度函数。所以需要从联合密度函数里求解出边缘密度函数。

10. Exercise: Mean squared error

TBC

因为联合区域是一个直角三角形,所以 $f_{\Theta, X}(\theta, x) = 2$。

所以,边缘密度函数 $f_X(x) = \int_0^x f_{\Theta, X}(\theta, x) d\theta = 2x$。

11. The multidimensional case

12. Exercise: Multidimensional challenges

13. Properties of the LMS estimation error

14. Exercise: Theoretical properties

homework重新做

Back
6.431

Lecture 19. The Central Limit Theorem (CLT) 中心极限定理

**Lecture 19. The Central Limit Theorem (CLT) 中心极限定理**

#Courses/MITx/6.431

1. Lecture 19 overview and slides 概览

This lecture introduces, discusses, and applies the celebrated Central Limit Theorem.

Printable transcript available ~here~.

Lecture slides: ~[\[clean\]](https://courses.edx.org/asset-v1:MITx+6.431x+2T2025+type@asset+block/lectureslides_L19-clean-slides.pdf)~ ~[\[annotated\]](https://courses.edx.org/asset-v1:MITx+6.431x+2T2025+type@asset+block/lectureslides_L19-annotated-slides.pdf)~

The material in this lecture is covered in ~Section 5.4~ of the text.

Note: In all of the numerical examples in this lecture, one can of course bypass the normal table and use an online tool, such as the one found ~here~ or ~here~. Note also that such tools also allow you to go backwards, from the value of $\Phi(x)$ to the value of $x$ .

2. The Central Limit Theorem 中心极限定理

iid随机变量和的不同放缩模式

  • $S_n = X_1+\dots+X_n$:方差为 $n\sigma^2$,随n趋近于无穷大, 方差也无穷大;
  • $M_n = \frac{S_n}{n} = \frac{X_1+\dots+X_n}{n}$:方差为 $\frac{\sigma^2}{n}$,随n趋近于无穷大, 方差趋近于0,整个分布退化为一个单点分布;
  • $\frac{S_n}{\sqrt n} = \frac{X_1+\dots+X_n}{\sqrt n}$:方差为 $\sigma^2$,这个分布比较好,既不趋近于无穷大, 也不退化。

在这里,我们重新构建一个新的随机变量: $Z_n = \frac{S_n-n\mu}{\sqrt n\sigma}$。这个新构建的随机变量有良好的性质:

期望为0,方差为1。

由此,给出中心极限定理:

对任意 $z$, $\lim_{n\rightarrow\infty}\mathbf P(Z_n \le z) = \mathbf P(Z \le z)$

3. Exercise: CLT

简单的标准正态化题目

4. Discussion of the CLT 对CLT的讨论

$$

Z_n = \frac{S_n-n\mu}{\sqrt n\sigma} = \frac{M_n-\mu}{\sigma/\sqrt n}

$$

CLT的理论性质

  • $Z_n$ 的CDF收敛于正态CDF;
  • $Z_n$ 的PDF或PMF也收敛(但需要更多的假设);
  • $X_i$ 不需要保证同分布;
  • $X_i$ 弱相关时,CLT也成立。例如X_1和X_2相邻相关,但和X_10000不相关,这时候CLT也是成立的。
  • 完整的数学证明比较复杂。

CLT的实践应用

  • 可以将 $Z_n$ 看做标准正态分布,那么样本和 $S_n \sim \mathcal N(n\mu, n\sigma^2)$
  • 当 $X_i$ 的分布更接近正态分布时(例如具有对称性,并且只有一个峰值(unimodel)),那么n在小样本下CLT也成立。

5. Exercise: CLT applicability

6. Illustration of the CLT CLT图例

这一节主要展示不同的X分布下,随机变量和随n增大而逐渐趋近于正态分布。

7. CLT examples CLT的例子

本节介绍如何利用CLT解决问题。

第一类问题是: $P(S_n \le a) \approx b$。 在这类问题里,有n,a,b三个参数,已知其中两个,可以求第三个。

第四个案例有一些变形:这里我们不再直接求解n,a,b。问题变成:

当container的重量超过210的时候,停止装卸。求装载包裹数量 N>100的概率。

这里的变形在于:

装载包裹数量N>100的概率等同于前一百个包裹的重量都还没有超过210。所以概率变形为: $P(N>100) = P(\sum_{i=1}^{100}X_i ≤ 210)$。后面的步骤就一样了。

8. Exercise: CLT practice

第七节案例的翻版

9. Normal approximation to the binomial 对二项分布的正态近似

对二项分布来说,如果我们计算S_n ≤21的概率,按照二项分布的精确计算答案是0.8785。

现在我们使用CLT进行正态近似。由于S_n是一个二项分布,可以直接利用二项分布的期望与方差来进行标准正态化(对比常规的S_n,期望是nu,方差时n*sigma^2)。

以≤21算,对应的概率是0.8413,会低估概率;以≤22算,对应概率是0.9082,会高估概率。

造成这个区别的原因是,对离散分布来说,取21和22来计算结果是一样的,但对连续分布来说会多出21到22的这一段概率。这一段概率是否该被计算?答案是只有一部分需要被计算,因此可以取中点,即计算≤21.5的概率。这时候算出来的概率为0.8790,就非常接近二项分布的精确概率了。

二项分布的De Moivre-Laplace近似

如果对离散变量计算一个精确值的概率:例如S_n = 19,那么我们在做正态近似的时候,采用1/2 correlation:计算 18.5 ≤ S_n ≤ 19.5的概率。这个结果与二项分布精确计算的概率十分接近。

10. Exercise: CLT for the binomial

11. Polling revisited 重访选举问题

重新看选举问题,上一节里我们是用切比雪夫不等式和WLLN来求解的一个误差上界,但不够精确。

现在用正态近似来重新求解这道题:

首先是将原概率标准正态化,转化为一个正态分布求概率问题。

$P(|M_n-p| ≥ 0.01) = P(|Z_n| ≥ \frac{0.01\sqrt n}{\sigma}) \approx P(|Z| ≥ \frac{0.01\sqrt n}{\sigma})$

由于右边带有 $\sigma = \sqrt{p(1-p}$,无法精确求解,所以选择取sigma的最大值 1/2。

  • 这里需要注意放缩之后的不等式方向。由于 $\sigma ≤ 1/2$,所以 $\frac{0.01\sqrt n}{\sigma} \ge \frac{0.01\sqrt n}{1/2}$。接下来画出概率分布图,发现后者前者是更加极端的概率事件,所以 $P(|Z| \ge \frac{0.01\sqrt n}{\sigma}) \le P(|Z| \ge\frac{0.01\sqrt n}{1/2})$。

然后打开绝对值,令单侧分布概率为0.025,求解出误差上界为0.046。

如果要精确让误差在5%,可以算出n = 9604。

Back
6.431

Lecture 21. The Bernoulli process 伯努利过程

**Lecture 21. The Bernoulli process 伯努利过程**

#Courses/MITx/6.431

**1. Lecture 21 overview and slides**

In this lecture we introduce the Bernoulli process, which consists of a sequence of independent trials. We study various associated random variables (e.g., number of successes, arrival time of the th success, time between consecutive successes, etc.). We also discuss the merging and splitting of Bernoulli arrival streams.

**2. The Bernoulli Process**

伯努利过程是最简单的随机过程,本质上是一个独立伯努利实验的序列, $X_i$。

对每个实验 $i$ :

  • $P(X_i = 1) = P(第i个实验成功) = p$
  • $P(X_i = 0) = P(第i个实验失败) = 1-p$

关键假设:

  • 独立
  • 时间同质性(time-homogeneity)

3. Exercise: The Bernoulli process

4. Stochastic processes随机过程

随机过程有两种理解的方式:

  1. 将随机过程视为无限随机变量 $X_1,X_2,\dots$ 的序列;
  • 我们关心每一个随机变量 $X_i$ 的性质:期望、方差、PMF;
  • 同时关心无限长度的联合概率密度 $p_{X_1,\dots,X_n}(x_1,\dots,x_n) = p_{X_1}\cdot\dots p_{X_n}(x_n)$
  1. 将随机过程视为样本空间:
  • $\Omega$ = set of infinite sequences of 0’s and 1’s 样本空间是0和1的无限序列的集合。
  • 视为单次试验,试验按时间运行,每个时间我们得到一个无限序列。

**5. Review of known properties of the Bernoulli process**

复习伯努利过程的已知性质。

视作一个二项分布,PMF、期望、方差已知。

Time until the first success/arrival 首次成功/到达所需的时间

将其视作为一个几何分布

  • $T_1 = \min\{i:= X_i = 1\}$
  • $P(T_1 = k) = (1-p)^{k-1}p, \ k = 1,2,…$
  • $E[T_1] = 1/p$
  • $Var(T_1) = (1-p)/p^2$

**6. Exercise: Time until the first failure**

这道题做错了

**7. The fresh start property**

Back
18.6501x

Recitation 23: Hypothesis Test for Linear Regression

#Courses/MITx/18.6501x

**1. Hypothesis tests for Linear Regression**

Back
18.6501x

(Optional) Recitation 1. Modes of Convergence 收敛性的模式

#Courses/MITx/18.6501x

1. Modes of Convergence

$X_n$ 是一个随机变量序列,如果他与随机变量 $X$ 具有以下关系,认为 $X_n \rightarrow X$ 具有收敛性。

Convergence almost surely 几乎处处收敛

definition:

$$

\begin{align}

X_n \xrightarrow[n\rightarrow\infty]{a.s}X,\ \text{iff } \mathbf P(X_n\xrightarrow[n\rightarrow\infty]{}X) = 1\\ 等价于: \lim_{n\rightarrow\infty}X_n = X

\end{align}

$$

Convergence in probability 依概率收敛

definition:

$$

\begin{align}

X_n \xrightarrow[n\rightarrow\infty]{p}X,\quad \text{iff } \forall \epsilon > 0, \ \mathbf P(|X_n -X| > \epsilon) \xrightarrow[n\rightarrow\infty]{} 0\\ 等价于: \lim_{n\rightarrow\infty}P(|X_n-X|>\epsilon) = 0

\end{align}

$$

Convergence in distribution 依分布收敛

definition:

$$

\begin{align}

X_n \xrightarrow[n\rightarrow\infty]{d}X,\quad \text{iff } F_{X_n}(x) \xrightarrow[n\rightarrow\infty]{}F_X(x) \\ 等价于: \lim_{n\rightarrow\infty}F_{X_n}(x) = F_X(x)

\end{align}

$$

2. Example 1 证明几乎处处收敛

定义 $U \sim \text{Unif}[0,1], \ X_n = U + U^n$.

证明: $X_n \xrightarrow[a.s]{n\rightarrow\infty} U$。

证明这个性质需要用到全概率定理(law of total probability):

Law of Total Probability
$S$ 是样本空间(sample space),将其分为两个互斥空间: $S = S_1\coprod S_2$.
for any given event A:
$P(A) = P(A|S_1)P(S_1) + P(A|S_2)P(S_2)$

现在分阶段讨论U的收敛性:

1 U < 1: $$P(X_n

Back
18.6501x

(Optional) Recitation. Distance measures between distributions

#Courses/MITx/18.6501x

**1. Distances between probability distribution**

Recitation problem statement

TBC.

Back
18.6501x

Lecture 10. Other Methods of Estimation: Method of Moments and M-Estimation 其他估计方法:矩方法和M-估计

#Courses/MITx/18.6501x

1. Other methods of estimation

Objectives

At the end of this lecture, you will be able to do the following:

  • Extend the principles of maximum likelihood estimation to the more general M-estimation approach favored in machine learning.
  • Define an M-estimator for the mean , median , and quantile of an unknown distribution.
  • Compare and contrast the maximum likelihood estimator and the method of moments .

2. Introduction to M-estimation

M: minimization

我们可以将KL散度替换为任意的损失函数,只要这个损失函数能够转化为期望形式,后面的推导步骤就与MLE类似。

关键的统计技巧(statistical trick)来定义M-estimator是用均值(average)来代替期望(expectation)。

如果我们定义损失函数 loss function $\rho(x,\mu)$,有以下形式:

$$

\mu ^* = \arg\min\limits_{\mu\in \mathbb R} \mathbb{E}_{X\sim \mathbf{P}}[\rho(X,\mu)]

$$

利用统计技巧,将期望替换为均值,那么有:

$$

\hat\mu = \arg\min\limits_{\mu\in \mathbb R}\frac{1}{n}\sum\limits_{i=1}^n[\rho(X_i, \mu)]

$$

这里的 $\hat \mu$ 是 $\rho(x, \mu)$ 的M-estimator.

3. M-estimation

使用M-estimator的问题是,如何找到一个合适的 $\rho$,来代表我们想计算的统计量(期望/方差/中位数/其他分位数)?

下面,通过一个例子:定义 $\rho(x, \mu) = (x-\mu)^2$, 推导对 $\mu$ 求一阶导,可以得到 $\mu = \mu^*$。说明这个损失损失函数是求期望 $E(X)$。

以下是期望、中位数的损失函数 $\rho$ 定义。

特别的,如果想定义一个求分位数的损失函数,用到的技巧是:

绝对值损失函数 $\rho(x, \mu) = |x-\mu|$ 是一个对称函数, $\mu^*$ 是中位数。那么将这个函数进行倾斜(等于重心进行了偏移),那么这个Check function就可以求解任何分位数 $\alpha$。

M-estimation

Let $X_1, … ,X_n$ be i.i.d. with some unknown distribution $\mathbf{P}$ and an associated parameter $\mu^*$ on a sample space $E$. We make no modeling assumption that $\mathbf{P}$  is from any particular family of distributions.

An M-estimator $\widehat \mu$ of the parameter $\mu^*$ is the argmin of an estimator of a function $\mathcal{Q}(\mu)$  of the parameter which satisfies the following:

  • $\mathcal{Q}(\mu) = \mathbb{E} [\rho(X, \mu)]$ for some function $\rho: E \times \mathcal M \rightarrow \mathbb R$ where  $\mathcal M$ is the set of all possible values of the unknown true parameter $\mu^*$;
  • $\mathcal{Q}(\mu)$ attains a unique minimum at $\mu = \mu^*$  in $\mathcal M$.  That is, $\arg\min_{\mu\in\mathcal M}\mathcal Q(\mu) = \mu^*$.

⠀In general, the goal is to find the loss function $\rho$  such that $\mathcal{Q}(\mu) = \mathbb{E} [\rho(X, \mu)]$ has the properties stated above.

Note that the function $\rho(X, \mu)$ is in particular a function of the random variable $X$ and the expectation in $\mathbb{E} [\rho(X, \mu)]$ is to be taken against the true distribution $\mathbf P$ of  $X$, with associated parameter value $\mu^*$.

Because $\mathcal Q(\mu)$ is an expectation, we can construct a (consistent) estimator of $\mathcal Q(\mu)$ by replacing the expectation in its definition by the sample mean.

Median as a Minimizer

这道题很复杂

首先是median of 连续随机变量X的定义为 $med(X) \in \mathbb R$:

$$

P(X > \text{med}(X)) = P (X < \text{med}(X)) = \frac{1}{2}

$$

在这个问题中,我们要求解的是:任意median符合下列条件:

$$

\text{med}(X) = \arg\min_{\mu\in\mathbb R}\mathbb E[|X-\mu|]

$$

Step1: 用密度函数 $f(x)$ 来表示 $\mathbb E[|X-\mu|]$:

按照期望的定义:

$$

\begin{aligned} \mathbb E[|X-\mu|] &= \int_{-\infty}^{+\infty}|x-\mu|f(x)dx \\ &= \int_{-\infty}^{\mu}(\mu-x)f(x)dx + \int_{\mu}^{+\infty}(x-\mu)f(x)dx \\ &= \int_{\mu}^{+\infty}xf(x)dx - \int_{-\infty}^{\mu}xf(x)dx - \mu(\int_{\mu}^{+\infty}f(x)dx - \int_{-\infty}^{\mu}f(x)dx)

\end{aligned}

$$

Step2: 令 $\mathcal Q(\mu) = \mathbb E[|X-\mu|]$, 对 $\mu$ 求导:

$$

\begin{aligned} \frac{d}{d\mu}\left(\int_\mu^\infty xf(x)dx\right) &= -\mu f(\mu) \quad \text{利用积分基本定理}\\ \frac{d}{d\mu}\left(\int_{-\infty}^\mu xf(x)dx\right) &= \mu f(\mu) \end{aligned}

$$

$$

\frac{d}{d\mu}\left(\mu(\int_{\mu}^{+\infty}f(x)dx - \int_{-\infty}^{\mu}f(x)dx)\right) \\ = (\int_{\mu}^{+\infty}f(x)dx - \int_{-\infty}^{\mu}f(x)dx) + \mu*(-f(\mu)-f(\mu)) \\ = \int_{\mu}^{+\infty}f(x)dx - \int_{-\infty}^{\mu}f(x)dx - 2\mu f(\mu)

$$

合并结果,得到:

$$

\begin{aligned} \mathbb E[|X-\mu|] &= -\mu f(\mu) - \mu f(\mu) - \int_{\mu}^{+\infty}f(x)dx + \int_{-\infty}^{\mu}f(x)dx + 2\mu f(\mu) \\ &= \int_{-\infty}^{\mu}f(x)dx - \int_{\mu}^{+\infty}f(x)dx

\end{aligned}

$$

Step 3: 求解 $\mathcal Q^\prime(\text{med}(X))$:

$$

\begin{aligned} \mathcal Q^\prime(\text{med}(X)) &= \int_{-\infty}^{\text{med}(X)}f(x)dx - \int_{\text{med}(X)}^{+\infty}f(x)dx \\ &= P(X < \text{med}(X)) - P(X >\text{med}(X)) \\ &= 1/2 -1/2 \\ &= 0 \end{aligned}

$$

注意到第二问的结论,由CDF(概率分布函数)的性质,有:

$$

\begin{aligned} \mathcal Q^\prime(\mu)

&= \int_{-\infty}^{\mu}f(x)dx - \int_{\mu}^{+\infty}f(x)dx \\ &= F(\mu)-(1-F(\mu)) \\ &= 2F(\mu) -1 \end{aligned}

$$

Quantile as a Minimizer

TBC

与上一题类似

(Optional) Convexity of the Expectation of the Loss Function

TBC

4. (Optional) Preparations for the Asymptotic Normality of M-estimators

这里定义了两个新的矩阵(matrices): J matric和K matric

主要用于计算渐进方差。对比之前的MLE,这里有一些形式上的扩展变形。

  • J矩阵:损失函数的曲率(二阶导),也是二阶导数的期望。反应曲率信息:目标函数在 $\mu^*$ 附近的凸性。——来自delta method.
  • K矩阵:损失函数的协方差,反映波动信息:梯度估计的稳定性 ——来自渐进协方差矩阵

⠀可以注意到,在参数为一维的特殊情况下, $\mathbf J$ 和 $\mathbf K$ 就是Fisher Information的两种等价形式。

The $\mathbf J$ and  $\mathbf K$ matrices :

Let $\mathbf X_1, … , \mathbf X_n$ be i.i.d. random vector in $\mathbb R^k$ with some unknown distribution  $\mathbf P$ with some associated parameter $\vec \mu^*\in\mathbb R^d$   on some sample space $E$.   Let $\mathcal Q(\vec \mu) = \mathbb E[\rho(\mathbf X, \vec\mu)]$ for some function $\rho: E \times \mathcal M \rightarrow \mathbb R$  where $\mathcal M$ is the set of all possible values of the unknown true parameter $\vec\mu^*$.

Then the matrices $\mathbf J$  and $\mathbf K$ are defined as

In one dimension, i.e. $d=1$, the matrices reduce to the following:

$$

\begin{aligned} J(\mu) &= \mathbb E\left[\frac{\partial^2\rho}{\partial\mu^2}(X_1,\mu)\right] \\ K(\mu) &= \text{Var} \left[\frac{\partial\rho}{\partial\mu}(X_1,\mu)\right] \end{aligned}

$$

5. (Optional) Asymptotic Normality of M-estimators

需要复习一下Fisher Information的推导过程。

回忆一下如何证明MLE的渐进正态性:

  • 首先对Log-likelihood的一阶导做泰勒展开
  • 再进行二阶导

Asymptotic normality of the M-estimators

这一段内容描述M-估计量的渐进正态性。用于解决:

  • 估计量的分布性质:当样本量 $n\rightarrow\infty$ 时,估计量 $\widehat \mu$ 的标准化形式收敛于某个分布 $Q$ (通常为正态分布)。
  • 统计推断基础:为构建置信区间(例如 $\mu^* \pm 1.96\times标准误$)和假设检验提供理论依据。

⠀Let $\mathbf X_1, … , \mathbf X_n \stackrel{\text{iid}}{\sim} \mathbf P$ . Let $\rho(x, \mu)$ denote a loss function satisfying

$$

\mu^* = \arg\min_{\mu\in\mathbb R}\mathbb E[\rho(X_1, \mu)]

$$

where  $\mu^*\in\mathbb R$ is some unknown one-dimensional parameter associated with $\mathbf P$  that we would like to estimate. Let

$$

\begin{aligned} J(\mu) &= \mathbb E\left[\frac{\partial^2\rho}{\partial\mu^2}(X_1,\mu)\right] \\ K(\mu) &= \text{Var} \left[\frac{\partial\rho}{\partial\mu}(X_1,\mu)\right] \end{aligned}

$$

You construct the M-estimator $\widehat\mu$ associated $\rho$.

Assuming that the conditions for the asymptotic normality of this M-estimator hold, we have

$$

\sqrt n\frac{\widehat\mu-\mu^*}{\sqrt{J(\mu^*)^{-2}K(\mu^*)}}\xrightarrow[n\rightarrow\infty]{(d)}Q

$$

for some distribution .

根据M-estimator的渐进正态性,可以推导出 $\widehat\mu$ 的渐进方差为: $J(\mu^*)^{-2}K(\mu^*)$.

因此,

$$

\sqrt n\frac{\widehat\mu-\mu^*}{\sqrt{J(\mu^*)^{-2}K(\mu^*)}}\xrightarrow[n\rightarrow\infty]{(d)}\mathcal N(0,1)

$$

即收敛于标准正态分布(或者说极限分布Q为标准正态分布)。

这里在进行推导时利用了 $X_1$ 计算期望而非全体 $X$。因为样本满足iid,任意单一样本 $X_i$ 的分布均等同于总体分布 $\mathbf P$,使用 $X_1$ 可以代表总体分布的性质,同时避免冗余的求和符号。

6. Robust Statistics

Robust Statistics, Cauchy Distribution

7. Moments of a random variable

trick: 计算Ber(p)的二阶矩时,既可以使用定义: $E[X^2] = \text{Var}[X] + (E[X])^2 = p(1-p)+p^2 = p$,也可以从定义上看:由于X的取值只有0和1,所以X^2的取值也是0和1,所以X^2 = X, 所以 $E[X^2] = E[X]$.

Let $X \sim \mathcal N(0,1)$. Compute its moment of order $2k+1$ for any integer $k \geq 0$.

标准正态分布的奇数阶矩恒为0。

两个证明方式:

  1. 因为X和-X有相同的分布,即 $f(x) = f(-x)$。所以:

$$

\mathbb EX^{2k+1} = \mathbb E(-X)^{2k+1} = (-1)^{2k+1}\mathbb EX^{2k+1}

$$

由于k是一个非负整数,所以 $\mathbb EX^{2k+1} =0$

  1. 从期望的定义出发证明,利用 $g(x) = x^{2k+1}e^{-x^2/2}$ 为奇函数,奇函数在对称区间上 $[-a, a]$ 上的积分为0的性质来求解。

Mapping Parameters to Moments I

8. Moment Generating Function

MGF of the Exponential Distribution 求解指数分布的矩母函数

指数分布的密度函数为:

$$

f_X(x) = \lambda e^{-\lambda x}, \quad x\geq0, \lambda >0

$$

矩母函数的计算公式实质上是求 $e^{tx}$ 的期望,所以有:

$$

\begin{aligned} M_X(t) &= \mathbb E[e^{tx}]=\int_0^{+\infty}e^{tx}\lambda e^{-\lambda x}dx \\ &= \lambda \int_0^{+\infty}e^{tx}e^{-\lambda x}dx \\ &= \lambda \int_0^{+\infty}e^{(t-\lambda)x}dx \end{aligned}

$$

上面的广义积分如果需要收敛,需要满足条件:指数部分<0。所以有: $t-\lambda <0$.

所以有:

$$

\begin{aligned} M_X(t) &= \lambda \int_0^{+\infty}e^{(t-\lambda)x}dx \\ &= \lambda \frac{e^{(t-\lambda)x}}{t-\lambda}\bigg|_0^{+\infty}\\ &= \lambda(0-\frac{1}{t-\lambda})\\ &= -\frac{\lambda}{t-\lambda} \quad \text{when}\quad t<\lambda \end{aligned}

$$

现在如果需要求 $\lambda = 2$ 时,X的8阶导:

$$

\begin{align}

M_X(t) = \frac{-2}{t-2} = (-2)(t-2)^{-1}

\\

m_8 = \mathbb E[X^8] = \frac{d^8}{dt^8}(-2)(t-2)^{-1}\bigg|*{t=0}

\\

由:\frac{d^k}{dx^k}\frac{1}{x} = \frac{(-1)^kk!}{x^{k+1}}

\\

有: m_8 = -2*\frac{(-1)^88!}{(t-2)^9}\bigg|*{t=0}\\ = \frac{8!}{(-2)^9}

\\

= 157.5

\end{align}

$$

9. The method of moments

Method of Moments Concept

Let $(E, \{\mathbf P_\theta\}*{\theta\in\Theta})$ denote a statistical model associated to a statistical experiment $X_1, …, X_n \stackrel{\text{iid}}{\sim} \mathbf P*{\theta^*}$ where $\theta^*\in\Theta$ is the true parameter. Assume that  $\Theta\subset \mathbb R^d$ for some $d \geq 1$. Let  $m_k{(\theta)} := \mathbf E[X^k]$ where $X \sim \mathbf P_\theta$. $m_k{(\theta)}$  is referred to as the $k$-th moment of $\mathbf P_\theta$ . Also define the moments map:

$$

\begin{aligned} \psi: \Theta &\rightarrow \mathbb R^d \\ \theta &\mapsto (m_1(\theta), m_2(\theta)..., m_d(\theta)) \end{aligned}

$$

Assume that $\psi$  is one-to-one (and hence, invertible).

Note: $\mapsto$ 用latex打是\mapsto, 代表函数映射
one-to-one: 单射
$\psi$: 希腊字母psi

设 $(E, \{\mathbf P_\theta\}*{\theta\in\Theta})$ 表示一个统计模型,对应统计实验 $X_1, …, X_n \stackrel{\text{iid}}{\sim} \mathbf P_{\theta^*}$,其中 $\theta^*\in\Theta$ 是真实参数。 假设  $\Theta\subset \mathbb R^d$ ($d \geq 1$) 。定义:

$m_k{(\theta)} := \mathbf E[X^k]$ ,其中 $X \sim \mathbf P_\theta$。

$m_k{(\theta)}$  被称为 $\mathbf P_\theta$的 $k$ 阶矩。同时定义矩映射:

$$

\begin{aligned} \psi: \Theta &\rightarrow \mathbb R^d \\ \theta &\mapsto (m_1(\theta), m_2(\theta)..., m_d(\theta)) \end{aligned}

$$

真实参数 $\theta^*$ 等于什么?

根据定义,真实参数 $\theta^*$ 满足:

$$

\psi(\theta^*) =(m_1(\theta^*), m_2(\theta^*)..., m_d(\theta^*))

$$

由于 $\psi$ 是一一对应且可逆的,所以真实参数 $\theta^*$ 为:

$$

\theta^* =\psi^{-1}(m_1(\theta^*), m_2(\theta^*)..., m_d(\theta^*))

$$

真实参数 $\theta^*$ 的矩估计量是什么?

矩估计法的核心是用样本矩代替总体矩。对每个 $k=1,2,…,d$, 用样本矩 $\frac{1}{n}\sum_i^nX_i^k$ 来估计 $m_k(\theta^*)$。所以矩估计量为:

Applying the Method of Moments to a Gaussian Statistical Model

正态分布的矩定义:

  • 一阶矩(期望): $m_1 = \mathbf E[X] = \mu$
  • 二阶矩: $m_2 = E[X^2] = \sigma^2 + \mu^2$

⠀接下来,我们要用样本来估计这两个矩:

  • $\widehat m_1 = \frac{1}{n}\sum_i^nX_i$
  • $\widehat m_2 = \frac{1}{n}\sum_i^nX_i^2$

⠀带入题中给定的四个样本进行计算:

$$

\widehat m_1 = 0.225,\quad \widehat m_2 = 2.3975

$$

再利用正态分布矩的定义求解期望和方差:

$$

\widehat \mu^{MM} = \widehat m_1 = 0.225\\ \widehat \sigma^{MM} = \sqrt{\widehat m_2 - \widehat m_1^2\\} = 1.5326

$$

Plus Minus 1 - Method of Moments

TBC

Method of Moments - Multiple Estimators

TBC

10. (Optional) Asymptotic Normality of the Method of Moments Estimator

Lectures

TBC

11. Conclusions

MLE是最好的参数估计方法:虽然三种方法都具有渐进正态性,但MLE的渐进方差是最小的。MLE具有最小的边界:Cramer-Rao Lower Bound.

Back
18.6501x

Lecture 11. Introduction to Parametric Hypothesis Testing 参数假设检验导论

#Courses/MITx/18.6501x

1. Goals of Unit 4

2. Introduction to Parametric Hypothesis Testing 参数假设检验导论

Objectives 目标

At the end of this lecture, you will be able to do the following:

  • Reformulate experimental questions in terms of a hypothesis test by specifying an appropriate null hypothesis and an alternative hypothesis .
  • Design statistical tests to decide between a null and alternative hypothesis.
  • Understand the types of error of a test
  • Compute the power function of a test
  • Design statistical tests with a specific level or asymptotic level.
  • Apply a test to a given sample to determine whether or not the null hypothesis should be rejected.
  • Compute a test from a confidence interval
  • Compute and interpret the p-value associated to a statistical test.

3. Null and alternative hypotheses 零假设与备择假设

4. Different types of hypotheses 假设的不同类型

5. Statistical modelling 统计建模

在这个实验中,我们将预期的结果”新药物效果更好“作为了备择假设。professor说这是常用的方式,即将我们期望出现的结果作为备择假设。

6. Asymmetry in the hypotheses 假设中的渐进性

7. Tests 试验

一个试验(test)是一个统计量 $\psi \in \{0,1\}$,并且不依赖其他未知参数。

这个统计量经常被写成指示函数的形式: $\psi = \mathbb I\{R\}$。其中 $R$ 是一个被叫做拒绝域的事件。

简单理解这里的 $R$ 就是令 $\psi = 1$ 的事件,可以写成 $\psi = \mathbb I\{\psi = 1\}$,这是一个同义反复。

对比statistic和statistical test

  • statistic: a function that can be computed from the data. 是一个函数,可以从数据中计算出的函数。
  • statistical test: is an statistic whose output is always either  0 or 1 , and like an estimator, does not depend explicitly on the value of true unknown parameter. 是一个输出永远为0或1的统计量。并且与估计量一样,statistical test并不显式依赖于未知参数的真实值。

8. Errors of a test 假设的错误类型

练习题

Testing the Support of a Uniform Variable: Type 1 Error of a Test

Testing the Support of a Uniform Variable: Type 2 Error of a Test

TBC

9. Level and asymptotic level 水平与渐进水平

练习题

Testing the Support of a Uniform Variable: Level and Threshold

Testing the Support of a Uniform Variable: Determine the Threshold

s

10. Building a test from a confidence interval 从置信区间构建一个试验

练习题

11. Meaning of the level of a test 试验水平的含义

alpha 代表了 实际上拒绝了H0的试验,但不应该拒绝H0的试验次数

12. P-values P值

13. The evidence scale 证据权重

Back
18.6501x

Lecture 12. The Wald Test and Likelihood Ratio Test -Wald检验与似然比检验

#Courses/MITx/18.6501x

1. The Wald Test

Objectives

At the end of this lecture, you will be able to do the following:

  • Construct one-sample and two-sample Wald tests with specified asymptotic level
  • Compute the asymptotic p-value of a Wald test
  • Construct the Wald test from an asymptotically normal maximum likelihood estimator
  • Perform the likelihood ratio test for a family of hypothesis testing questions.

Wald检验只能保证在渐进等级上应用。如果样本非常小,不满足CLT,另一个可选择的检验方式是T-test。

2. The Wald Test

构造Wald检验的关键步骤是构造估计量 $\hat \theta$,使之具有渐进正态性。

$$

\frac{\hat \theta - \theta}{\sqrt{\widehat{var}(\hat \theta)}} \xrightarrow[n\rightarrow\infty]{(d)}\mathcal N(0,1)

$$

其中, $\widehat{var}(\hat \theta)$ 是 $\hat \theta$ 的方差的估计量。

以伯努利分布为例, $var(\hat p) = p(1-p)/n$。 但这不是一个估计量,因为他依赖未知参数p。

所以我们需要估计他。估计的方式是加上\hat在他的上面: $\widehat{var}(\hat p) = \hat p(1-\hat p)/n$。

所以,我们重新写出上面的渐进正态性表达:

$$

\frac{\hat p-p}{\sqrt{\widehat{var}(\hat p)}} = \sqrt{n}*\frac{\hat p-p}{\hat p(1-\hat p)} \xrightarrow[n\rightarrow\infty]{(d)}\mathcal N(0,1)

$$

在零假设下,当真值等于假设值时,W收敛于N(0,1);但当真值不等于 $\theta_0$ 时,W的渐进分布就会偏移,不再是标准正态,而是“中心化项+偏移项”。

3. Asymptotic level of the Wald test

在推导Wald检验的渐进性时,需要注意:需要在 $\mathbf P_{\theta_0} 和W$ 中保持同一个 $\theta_0$。(注意在power function定义的时候求的是 $\mathbf P_\theta$,而不是 $\mathbf P_{\theta_0}$。

双侧检验:

在双侧检验时这个条件很好满足:我们假设,在零假设的条件下,最糟糕的情况概率就是 $\theta = \theta_0$。所以我们可以直接将 $\mathbf P_\theta$ 替换为 $\mathbf P_{\theta_0}$。

这时候直接利用定义求解.因为 $W=\frac{\hat \theta - \theta}{\sqrt{\widehat{var}(\hat \theta)}} \xrightarrow[n\rightarrow\infty]{(d)}\mathcal N(0,1)$,我们令右边的形式为Z,可以直接将W替换为Z,得到:

$$

\lim_{n\rightarrow\infty}\mathbf P_{\theta_0}[|W| > q_{\alpha/2}] = \lim_{n\rightarrow\infty}\mathbf P_{\theta_0}[|Z| > q_{\alpha/2}] = \alpha

$$

单侧检验:

单侧检验情况更复杂一些。我们希望控制犯Type 1错误的概率,也即是所有 $\theta \leq \theta_0$。

按照定义,可以进行以下变形:

$$

\lim_{n\rightarrow\infty}\mathbf P_{\theta}[W > q_{\alpha}] = \lim_{n\rightarrow\infty}\mathbf P_{\theta}[\frac{\hat \theta - \theta_0}{\sqrt{\widehat{var}(\hat\theta)}}>q_\alpha]

$$

注意到外层的概率是 $\theta$, 内层的W的表达式是 $\theta_0$。所以我们需要做一些变形将两者统一:

$$

\frac{\hat \theta - \theta_0}{\sqrt{\widehat{var}(\hat\theta)}} = \frac{\hat \theta - \theta}{\sqrt{\widehat{var}(\hat\theta)}} +\frac{\theta - \theta_0}{\sqrt{\widehat{var}(\hat\theta)}}

$$

当 $\theta \leq \theta_0$ 时,右边第二项<0。所以:

$$

\frac{\hat \theta - \theta_0}{\sqrt{\widehat{var}(\hat\theta)}} \leq \frac{\hat \theta - \theta}{\sqrt{\widehat{var}(\hat\theta)}}

$$

后续的步骤就是带入表达式,与双侧检验的做法一致。

具体的推导步骤见:

这两页PPT都是推导出了一个极限上界,即:

单侧检验时:

对所有 $\theta < \theta_0$, 极限不超过 $\alpha$。但这并不意味着在给定真值 $\theta$时,这个极限就等于 $\alpha$。具体的极限是多少,仍需带入W的具体公式进行计算。

  • 在 $\theta < \theta_0$ 时,样本均值收敛到 $\theta$,分子会变负,标准化后会趋向负无穷,拒绝概率 → 0。
  • 在 $\theta = \theta_0$ 时,标准化后的分布是 $\mathcal N(0,1)$,所以拒绝域概率就是 $\alpha$。
  • 在 $\theta > \theta_0$ 时,分子趋向正的,统计量会趋向正无穷,拒绝域的概率 → 1。

双侧检验时:

练习题:Asymptotic level of the Wald test

第一问:

第一问有两种解法。最简单的解法是假设n趋近无穷时, $\bar X_n 或 p$ 趋近于真值1/2。然后带入W统计量,有:

$$

W =\sqrt n *\frac{\hat p - p}{\sqrt{\hat p(1-\hat p)}} = \sqrt n*\frac{0.2-0.5}{\sqrt{0.2*0.8}} = -\sqrt n * C ,\ C是一个正整数。

$$

随n趋近正无穷,W趋近负无穷,永远小于 $q_\alpha$,所以概率为0。

标准的做法:

根据CLT和slutsky定理,首先定义 $Y:= \sqrt n*\frac{\bar X_n-0.2}{\sqrt{\bar X_n(1-\bar X_n)}} \rightarrow N(0,1)$

然后写出W统计量,将其变形为 $W = Y(中心化项) + 局部偏移项$。

$$

\begin{aligned} W &= \sqrt n*\frac{\bar X_n-0.5}{\sqrt{\bar X_n(1-\bar X_n)}} \\ &= \sqrt n*\frac{\bar X_n-0.2}{\sqrt{\bar X_n(1-\bar X_n)}} + \sqrt n*\frac{0.2-0.5}{\sqrt{\bar X_n(1-\bar X_n)}}\\ &= Y + \text{determinstic shift} \end{aligned}

$$

Y → N(0,1),第二项趋近负无穷,所以W > q/a的概率为0。

第二问:

第二问的解法与第一问基本一致。根据题目含义, $p$ 的真值为 $0.5 - \lambda/\sqrt n$。所以: $P_{0.5 - \lambda/\sqrt n}[\psi = 1]$ 的含义是:

在真参数值为 $0.5 - \lambda/\sqrt n$ 时,检验拒绝H0的概率。

这里的 $0.5 - \lambda/\sqrt n$ 是局部替代真值(来自局部替代理论)。

局部替代理论是想回答:当“几乎零差异”的时候,检验对这类情况有多敏感?

在局部替代下,W的极限分布不再是 $\mathcal N(0,1)$,而是:

$$

Z + \text{Shift}(\lambda)

$$

和第一问类似,将第二问的W统计量进行变形:

$$

\begin{aligned} Y &:= \sqrt n*\frac{\bar X_n-(0.5-\frac{\lambda}{\sqrt n})}{\sqrt{\bar X_n(1-\bar X_n)}} \\

W &= \sqrt n*\frac{\bar X_n-0.5}{\sqrt{\bar X_n(1-\bar X_n)}} \\ &= \sqrt n*\frac{\bar X_n-(0.5-\frac{\lambda}{\sqrt n})}{\sqrt{\bar X_n(1-\bar X_n)}} + \sqrt n*\frac{(0.5-\frac{\lambda}{\sqrt n})-0.5}{\sqrt{\bar X_n(1-\bar X_n)}} \\ &= Y + \frac{-{\lambda}}{\sqrt{\bar X_n(1-\bar X_n)}} \end{aligned}

$$

Y → N(0,1),第二项 $\sqrt{\bar X_n(1-\bar X_n)} \rightarrow 0.5$(根据局部替代理论也能看出来,随n增大, 扰动项趋近0,那么真值就趋近于0.5).

所以:

$$

\lim_{n\rightarrow\infty}\mathbf P_{0.5-\frac{\lambda}{\sqrt n}}[\psi = 1] = \mathbf P[Z > 1.645 + 2\lambda]

$$

4. P-value for the Wald test

这一节主要讲Wald test的P值计算。

  • 根据题目给出的样本数据和零假设,首先计算出 $W^{obs}$。
  • 然后,对应的P-value,本质上就是 $W$比 $W^{obs}$ 更大的概率。但实践中 $W$ 很难计算。
  • 在渐进正态性下,可以将 $W$ 近似看做 $Z$,这样就可以使用标准正态分布的分位数来求解对应的概率了。

⠀注意,在计算实际的p-value时,原分布可以是离散分布(例如伯努利);这时候计算的 $P(|W| > |W^{obs}|)$ 实际上就是计算 $P(W取值不等于观测值)$

在计算渐进p-value时,就是将W看成Z,只能是连续分布了。

5. Two-sample Wald test 双样本Wald检验

6. Other examples

练习题

Wald Test and the MLE

TBC,这道题挺复杂的。

7. Who was Abraham Wald (optional)

8. Likelihood Ratio Test: Basic Form

Basic Form of the Likelihood Ratio Test

Let $X_1,…,X_n \sim^{iid}\mathbf P_{\theta^*}$ , and consider the associated statistical model $(E,\{\mathbf P_\theta\}*{\theta\in\mathbb R^d} )$. Suppose that  $\mathbf P*\theta$ is a discrete probability distribution with pmf given by $p_\theta$ .

In its most basic form, the likelihood ratio test can be used to decide between two hypotheses of the following form:

$$

H_0: \theta^* = \theta_0\\ H_1: \theta^* = \theta_1

$$

Recall the likelihood function:

$$

L_n : \mathbb R^n \times \mathbb R^d \rightarrow \mathbb R\\ (x_1,...,x_n;\theta) \mapsto \prod_{i=1}^np_\theta(x_i)

$$

The likelihood ratio test in this set-up is of the form

$$

\psi_C = \mathbf 1\left(\frac{L_n(x_1, ..., x_n;\theta_1)}{L_n(x_1, ..., x_n;\theta_0)}>C\right)

$$

where $C$ is a threshold to be specified.

简单来说,极大似然估计就是出现概率连乘。

例如丢一枚不均匀硬币,假设 $H_0:p^* = 0.25; H_1:p^* = 0.75$。如果只丢一次, $X_1 = 1$。

那么这个时候,两个假设下的似然函数分别是:

$$

L_1(1;0.25) = 0.25; L_1(1;0.75) = 0.75

$$

计算似然比等于 $3 > C=1$。所以拒绝原假设。

如果丢16次硬币,6次为HEAD, 10次为TAIL,那么两个假设下的似然函数分别是:

$$

\begin{align}

L_{16}(\mathbf X;0.25)=(1/4)^6(3/4)^{10}\\ L_{16}(\mathbf X;0.75)=(1/4)^{10}(3/4)^6

\end{align}

$$

这时候不用直接计算两个似然函数,而是直接比较其比值是否大于C。就能知道是否拒绝原假设了。

9. Likelihood Ratio Test(这段没太听懂)

Wilks’s Theorem:

渐进服从自由度为d的卡方分布

d = 备择假设自由参数个数 - 原假设自由参数个数

Concept Check: The Constrained Maximum Likelihood Estimator

Back
18.6501x

Lecture 13. The T-test T检验

#Courses/MITx/18.6501x

1. Objectives

At the end of this lecture, you will be able to do the following:

  • Identify situations in which you cannot use the Wald test
  • Use the T-test to when sample sizes are small
  • Perform T-tests at fixed levels and compute exact p-values
  • Understand the chi-squared distribution and the Student's t distribution and how they relate to the Gaussian distribution

2. The Wald test and small sample sizes

3. A first example

4. The Chi-squared distribution

The $\chi ^2_d$  distribution with $d$ degrees of freedom is given by the distribution of

$$

Z_1^2+Z_2^2+...+Z^2_d,

$$

where $Z_1,…,Z_d \sim^{iid} \mathcal N(0,1)$.

PPT里提到的 $||Z||^2_2$,是欧几里得范数的平方。下标2代表欧几里得范数,上标2代表平方。

$$

||Z||_2 = \sqrt{Z_1^2+Z_2^2+...+Z_k^2}\\ ||Z||_2^2 = Z_1^2+Z_2^2+...+Z_k^2 = \chi^2_k

$$

卡方分布的基本性质:如果 $V\sim \chi^2_k$, 那么:

$$

\mathbb E[V] = k \\ \text{var}[V] = 2k

$$

不同自由度取值下,卡方分布的PDF:

练习题:The Chi-Squared Distribution and the Sample Second Moment

假设 $X_1,…,X_n\sim^{iid}\mathcal N(0, \sigma^2)$,令:

$$

V_n = \frac{1}{n}\sum_{i=1}^nX^2_i

$$

如果想令: $a*V_n = \chi^2_k$, 求解a和自由度k。

首先根据卡方分布的基本形式,构造一个服从标准正态分布的随机变量 $Z$。(这里本身应该从单变量 $X_1$ 开始将其变形为服从 $\chi_1^2$ 的形式,但我这里直接简写了)

由: $Z = \frac{X}{\sigma} \sim \mathcal N(0,1)$, 有: $Z^2_n = \frac{X^2}{\sigma^2} \sim \chi_n^2$

再根据 $V_n$ 的形式,可以构造 $\frac{n}{\sigma^2}*V_n = Z^2_n \sim \chi_n^2$

5. Sample Variance and Sample Mean of IID Gaussians: Cochran's Theorem

回到第三节,我们继续求解之前遗留的表达式。

这里保留了原始的板书PPT,方便看推导过程。

清晰版:

6. Student's T distribution

同样的,保留原始的板书。T分布是一个标准正态分布Z和一个卡方分布除以其自由度的比值。

$$

t_k = \frac{Z}{\sqrt{V/k}}

$$

随着自由度 $k$ 变为无穷大, $V/k = Z_1^2+Z_2^2+…+Z_k^2/k$ 根据大数法则,p/a.s收敛于 $E[Z_1^2]= 1$, t分布收敛于正态分布。

7. Student's T test

在使用T检验在小样本上是,有一个假设前提是X iid服从正态分布,期望与方差是未知的。

8. P-values for the T-test

9. Comparison between the T-test and the Wald test

10. Two-sample T-tests and the Welch-Satterthwaite Formula

保留第二张PPT的备注:

11. Who was Student? (optional)

Back
18.6501x

Lecture 14. Multiple Hypothesis Testing 多重假设检验

#Courses/MITx/18.6501x

1. Objectives

Multiple Hypothesis Testing

At the end of this lecture, you will be able to do the following:

  • Understand and avoid the pitfalls of multiple hypothesis testing
  • Use the Bonferroni method to control the Family Wise Error Rate (FWER)
  • Use the Benjamini-Hochberg method to control the False Discovery Rate (FDR)

2. The dead salmon experiment

3. The problem with multiple hypothesis testing

练习题

TBC

这道题挺有意思的

4. Errors in multiple hypothesis testing

多重检验时会出现什么问题?

即使每个试验都严格遵守了T-test,但是每个独立实验的假阳性率加总到一起也是一个巨大的数字,会导致我们做出假阳性的结果。

In the setting of multiple testing, we can control the two following metrics for false significance:

  • Family-wise error rate (FWER) : the probability of making at least one false discovery, or type I error;
  • False discovery rate (FDR) : the expected fraction of false significance results among all significance results.

Family-wise error rate (FWER)

For a series of tests in which the $i$ th test uses a null hypothesis $H_0^i$ , let the total number of each type of outcome be as follows:

Then the family-wise error rate (FWER) is the probability of making at least one false discovery, or type I error;

$$

\text{FWER} = \mathbf P(V\geq 1).

$$

where $V$ is the total number of type I errors as in the table above, i.e., $V=\sum_{i=1}^{m_0}\Psi_i$ where $\{\Psi\}$ is the set of $m_0$ tests for which $H_0$ is true.

In scenarios in which any false claims of discovery may lead to serious consequences, such as for drug approval, we want to control $\text{FWER}$.

$\text{FWER}$ with no corrections

Recall from the lecture the paired test in which treatment effects are measured on 100 variables for 1000 people, and the treatment itself is a placebo (of being given water). If we perform $m$ independent tests each at significant level $\alpha$, then the $\text{FWER}$  is

$$

\text{FWER} = \mathbf P(V\geq1) = 1- \mathbf P(V=0) = 1-(1-\alpha)^m \approx 1 \quad \text{for large}\ m.

$$

In other words, if we set the significance level of each test without taking into account the large number of tests performed, it is highly likely that the series of tests will lead to at least one false discovery. This often leads to puzzling claims such as water has treatment effect on important health parameters, or eating pizza reduces the risk of cancer.

False Discovery Rate (FDR)

Sometimes, controlling  $\text{FWER}$ (the probability of making one or more false discoveries) may be too strict for any discovery to be reported. Instead, we can then control the expected proportion of false discoveries among all discoveries made, the false discovery rate (FDR).

Recall $N_1$ is the total number of discoveries made (the total number of null hypotheses rejected), and $V$ is the number of false discoveries (the number of null hypotheses that were falsely rejected). Hence $V \leq N_1$ and $V/N_1$ is a ratio that is always between 0 and 1. If no null hypotheses were rejected, i.e. if $N_1 = 0$, we define the ratio $V/N_1$ to be zero to avoid a division by zero.

The false discovery rate (FDR) is

$$

\text{FDR} = \mathbb E\left[\frac{V}{N_1}\right]

$$

FDR versus FWER (TBC)

Compared to $\text{FWER}$, $\text{FDR}$  has higher power . Put another way, $\text{FWER}$ is stricter than $\text{FDR}$.

Let us examine this by considering the trivial scenario where all null hypotheses are true. In this case, any rejected null hypothesis must also be falsely rejected, hence . If any null hypothesis was rejected, then , or if none was rejected, then .

Recall the  is the probability that one or more null hypotheses were falsely rejected. In this scenario, this is the same as the probability that one or more null hypotheses were rejected, since any rejection is a false rejection. We can see now that if one or more null hypotheses were rejected, then , and so

Now consider the general case when some null hypotheses may be false. This time, when , we only know that . Define an indicator varible  which takes value  when . Then

5. The Bonferroni method to control FWER

有很多Lecture来不及写进来了。

6. The Benjamini Hochberg to control the FDR

Benjamini-Hochberg Correction

The Benjamini-Hochberg method guarantees $\text{FDR} < \alpha$ for a series of $m$ independent tests. The procedure is as follows:

  • Sort the  $p$-values in increasing order $p^{(1)} \leq p^{(2)} \leq ...\leq p^{(i)} \leq ... \leq p^{(m)}$. • Find the maximum $k$ such that

$$

p^{(k)} \leq \frac{k}{m}\alpha

$$

  • Reject all of $H^{(0)}_0,H^{(1)}_0, …, H^{(k)}_0$ .

For example, the table below shows the $p$-values from 5 hypothesis tests in an experiment in increasing order. We compute the adjusted p-value and compare it with significance threshold of 5%, to decide whether to reject the null hypothesis:

Back
18.6501x

Lecture 15. Goodness of Fit Test for Discrete Distributions 对离散分布的拟合优度检验

**Lecture 15. Goodness of Fit Test for Discrete Distributions** 对离散分布的拟合优度检验

#Courses/MITx/18.6501x

1. Objectives

At the end of this lecture, you will be able to do the following:

  • Understand the difference between parameter estimation, parametric hypothesis testing, and goodness of fit testing.
  • Know when and how to apply a goodness of fit test for discrete distributions.
  • Understand the categorical distribution , compute probabilities associated with it, and know how to compute likelihoods for a categorical distribution.
  • Use the maximum likelihood estimator for the categorical distribution.

⠀在本讲座结束时,您将能够做到以下几点:

  • 理解参数估计、参数假设检验和拟合优度检验之间的区别。
  • 了解何时以及如何应用离散分布的拟合优度检验。
  • 理解类别分布,计算与之相关的概率,并知道如何计算类别分布的似然函数
  • 使用类别分布的最大似然估计量

2. Introduction to Goodness of Fit Tests

Recap of Parametric Hypothesis Testing: The Uniform Statistical Model

这道题做错了,需要复习

Goodness of Fit Tests: Motivation 拟合优度检验:动机

Intuition for Goodness of Fit Tests(TBD)

In the topic goodness of fit testing, we want to decide whether our data can be modeled by a specific type of distribution (e.g., uniform, Gaussian, Poisson). In practice, a useful tool for making such a decision is to use a histogram of the data set.

A histogram for a sample data set is shown below. The -axis, which represents the sample space, is divided into the intervals  for all . The bar over the interval  represents how many data points took values in that interval.

Concept Check: Terminology(TBD)

3. The Probability Simplex of Discrete Distributions 离散分布的概率单纯形

按黑板上的板书,假设x轴是p1, y轴是p2, 那么 $\Delta k(k=2)$ 就是图中的x+y=1这条线。

更一般的表述: $\Delta_k$ 是所有可能的PMF的集合。 $\mathbb P_p$ 是某个特定PMF p的随机变量的分布。

The Probability Simplex in $K$ Dimensions (TBD):

The probability simplex in , denoted by , is the set of all vectors  (note that we are using subscripts for vector indices for simplicity) such that

where  denotes the vector . Equivalently, in more familiar notation,

4. Goodness of Fit Test - Discrete Distributions

The Goodness of Fit Hypothesis Test for Discrete Distributions(一道练习题,TBD)

The Goodness of Fit Test: Categorical Likelihoods

我们尝试写出似然函数,那么首先需要写出PMF of X。

multinomial是binomial的扩展形式。所以这里用到了一个小trick,目的是把iff X = a_j的PMF变形为一个连乘形式,所以用到了指示函数。

然后对n个样本的概率连乘,就写出了似然函数。

Multinomial Distribution (TBD,内容很多)

The Multinomial Distribution with $K$ modalities (or equivalently $K$ possible outcomes in a trial) is a generalization of the binomial distribution. It models the probability of counts of the $K$ possible outcomes of the experiment in $n'$ i.i.d. trials of the experiment.

It is parameterized by the parameters $n', p_1, p_2, …, p_K$ where

  • $n'$ is the number of i.i.d trials of the experiment;
  • $p_i$ is the probability of observing outcome $i$ in any trial, and hence the $p_i$'s satisfy  for all $p_i \ge 0$, and .

Let  and note that .

The multinomial distribution can be represented by a random vector  to represent the number of instances  of the outcome . Note that . The multinomial pmf for all  such that , , and  is given by

Categorial (Generalized Bernoulli) Distribution and its Likelihood

The multinomial distribution, when specialized to $n' = 1$  for any $K$ gives the categorical distribution . When $K=2$  and the two outcomes are 0  and 1 the categorical distribution is the Bernoulli distribution, and for any $K \ge 2$ the categorical distribution is also known as the generalized Bernoulli distribution .

The categorical distribution, therefore, models the probability of counts of the  possible outcomes of a discrete experiment in a single trial. Since the total count is equal to 1 (only one trial), we can use a random variable  to represent the outcome of the trial. This means the sample space of a categorical random variable  is

5. Maximum Likelihood Estimator for the Categorical Distribution

上一节我们已经写出了似然函数,那么现在需要求解MLE。

首先一个最容易犯的错误就是将其取log后求偏导,这时候算出来的p_j 为无穷大。

→ 为什么?因为没有考虑到一个限制条件 sum p_j = 1。所以我们要将最后一项变形为 1 - sum^K-1 p_j。

现在求解出来了偏导为0时,关于p_j的一个表达式。

我们现在有K-1个未知数,K-1个方程,但目前还不能单独对每个p_j求解,因为所有方程都依赖所有的变量。

我们将每一个偏导方程都列出来,可以很轻易发现,等式右边都是相等的。

我们令方程右边都等于gamma, 可以发现 p_j = N_j/gamma。

现在求解gamma: 因为sum p_j = 1, 意味着sum N_j/gamma = 1. 又因为sum N_j = n,所以gamma = n.

当然,如果要正式求解,可以利用拉格朗日算子,但这里的内容简单,没必要。

Concept Check: Examples of the Categorical Distribution

TBD

Maximum Likelihood Estimator for Categorical Distribution

这道题里既可以用上面PPT推导出的结论做,也可以用拉格朗日算子,但我不太清楚怎么应用的,后面复习

6. Preparation for the Chi-Squared Test

A Vector Inner Product

这道题完整理论理解需要用到线性代数知识,需要复习

A Degenerate Gaussian Random Variable

高斯分布的退化

$\sqrt n(\hat p-p^0)^T*\mathbb 1$ 代表两个向量求内积。(1是n维全1向量),结果是向量的内积之和。

等于 $\sqrt n\sum_{j=1}^K(\hat p_j-p_j^0) = 0 \xrightarrow[n\rightarrow\infty]{}0.$ (p_j的和为1)

Degrees of Freedom of a Known Test

这道题主要是定义比较复杂。

首先抓住问题中的关键假设:MLE渐进正态性,有:这是MLE渐进正态性的标准通式。

$$

\sqrt n(\hat\theta^{MLE}_n-\theta^0=*) \xrightarrow[]{d}\mathcal N(0, I(\theta^*)^{-1})

$$

在原假设H0下, $\theta^* = \theta^0$, 带入后,MLE的误差 $\hat \theta_n - \theta^0$ 服从正态分布,协方差 $\Sigma$ 是Fisher信息矩阵的逆。

接下来看构造的统计量(结合这一节的PPT与课前练习),将他转变为一个向量二次型的形式:

$$

T_n = n\sum_{i=1}^d\frac{(\theta_i^0 - \hat \theta_i)^2}{t_i} \\ = (\sqrt n(\hat \theta_n - \theta^0)^T·I(\theta^0)·(\sqrt n(\hat \theta_n - \theta^0)

$$

这是一个标准化的平方误差和,类似一个广义形式的Wald统计量。

T_n是一个均值为0、协方差为 $I^{-1}$ 的正态向量经过 $I$ 的二次型。

这么写的目的是:
1. 便于分析渐进分布:在H0下, $\sqrt n(\hat \theta - \theta^0) \sim N(0, I(\theta^0)^{-1})$
2. 将标准正态分布左乘一个矩阵再右乘其转置(标准正态的二次型),正好是卡方分布的定义。?

接下来做渐进行为分析:

设 $Z_n:= \sqrt n(\hat \theta - \theta^0) \xrightarrow{d} \mathcal N(0, I(\theta^0)^{-1})$。那么,有:

$T_n = Z_n^T \Sigma^{-1} Z_n \xrightarrow{d} \chi_d^2$, 这里的 $\Sigma = I^{-1}$。

这里用到了定义(虽然Z_n不是标准正态分布,但左右乘上了I(theta),就起到了标准化的作用。

[!IMPORTANT]
任何形如 $Z_n^T \Sigma^{-1}, \text{where }Z\sim\mathcal N(0, \Sigma), 都服从\chi_d^2$。

还有另一种思路:独立标准正态随机变量的平方和服从自由度为d的卡方分布。

那么,我们要构造出这类随机变量的平方和形式,需要将T_n进行变形。

7. The Goodness of Fit Test for Discrete Distributions: Chi-Squared Test

The Chi-Squared Test for Testing Goodness of Fit of Discrete Distributions

#Stats-ML

Back
18.6501x

Lecture 18. Introduction to Bayesian Statistics 贝叶斯统计导论

**Lecture 18. Introduction to Bayesian Statistics 贝叶斯统计导论**

#Courses/MITx/18.6501x

1. Motivation 动机

2. Objectives

Bayesian Statistics Part 1

At the end of this lecture, you will be able to do the following:

  • Describe the Bayesian approach to statistical decision making.
  • Explain the mechanisms of the Bayesian approach, particularly the prior and posterior beliefs .
  • Understand the role and significance of the prior distribution in a Bayesian set-up.
  • Identify the Beta distribution and its role in Bayesian statistics as a prior distribution on a one-dimensional parameter.

⠀The Unit 5 slides below, which are for the next 2 lectures , are also available in the resource tab at the top of this course site.

3. Introduction to the Bayesian Framework

Frequentist vs Bayesian Approaches

频率学派认为未知参数 $\theta^*$ 是一个固定的常数,而贝叶斯学派认为未知参数是一个已知分布的随机变量。

频率学派认为需要重复试验才可以得到一个置信区间,而贝叶斯学派关注实验只进行一次。

注意:在统计建模(statistical model) 中,需要先假设:

  • 参数集合 $\Theta$
  • 概率模型 $\mathbb P_{\theta}$

⠀这是基本步骤,不管是频率学派还是贝叶斯学派都需要做。

~Lecture 14. Introduction to Bayesian inference 贝叶斯统计推断导论~

4. Basic Example of the Bayesian Approach

以kiss案例为例:

频率学派视角里,我们利用MLE估计 $p$,构建关于 $p$ 的置信区间,进行假设检验,例如H0为 $p=0.5$。在分析数据之前,我们认为 $p$ 接近1/2。

而贝叶斯视角是一个工具,可以用数据来更新我们的先验信念。

首先,我们对于 $p$ 的先验信念是可以被量化的。

所以,我们可以利用关于 $p$ 的分布来刻画我们的先验信念(假设 $p$ 是一个随机变量)。

虽然在现实中,真值参数不是随机变量。但贝叶斯视角可以利用将其假设为随机变量来刻画我们对于未知参数的信念。

例如,假设 $p \sim \text{Beta}(a, b)$. 这里的beta分布就是先验分布。

在我们的统计实验中, $X_1, …, X_n$ 被视为在给定 $p$ 条件下的,关于参数 $p$ 的IID伯努利随机变量。

在进行实验后,我们可以更新关于 $p$ 的信念,基于实验数据的条件分布。

给定实验结果的条件下, $p$ 的分布为后验分布。

在这个案例中,后验分布为:

$$

\text{Beta}(a+\sum_{i=1}^nX_i, b+n-\sum_{i=1}^nX_i)

$$

**Mode of the Beta Distribution beta分布的众数**

Recall that the Beta distribution in $x$ is defined as the distribution with support [0, 1] and pdf

$$

C(\alpha, \beta)x^{\alpha-1}(1-x)^{\beta-1}

$$

where $\alpha$ and $\beta$ are parameters that satisfy $\alpha >0, \beta >0$. Here,  $C(\alpha, \beta)$ is a normalization constant that does not depend on $x$ .

The Beta distribution can take many shapes depending on the chosen parameters $\alpha$ and $\beta$. As a result, the highest point (mode) of this distribution can vary wildly. Due to the different overall shapes depending on parameter values, there isn't also a consistent formula for the mode. Compute the correct mode for each of the parameter sets. (A mode of the distribution is the value(s) of $x$ where the pmf attains its highest value in the entire support of the distribution.)

You may use the variables  $\alpha$ and $\beta$  in your answer. If there is no unique mode, enter -1. Note that it is possible for the mode to have a “probability" of infinity, which would be a mode if this happens only once.

这道题是求解beta分布的众数(mode)。

一个分布的众数的定义是PMF在自身支撑集内取得最大值时的x的取值。

首先观察分布的PDF的形式。可以看到:在 $\alpha >1$ 时, x单调递增, 小于1时单调递减;同样,在 $\beta >1$ 时,(1-x)单调递减, 小于1时单调递增。

Case 1: $\alpha < 1 \ and \ \beta <1$:

这个时候需要观察: $\alpha < 1$ 时, $x^{\alpha-1}$ 在x趋近0时无穷大; 同样的,在 $\beta <1$ 时, $(1-x)^{\beta-1}$ 在x趋近于1时无穷大。所以这种情况下有两个众数:0和1.

Case 2: $\alpha \le 1 \ and \ \beta \ge1, \ \text{but excluding } \alpha = \beta =1$

这种情况下,整个函数是单调递减的,那么众数出现在x的最小值0。

Case 3: $\alpha \ge 1 \ and \ \beta \le1, \ \text{but excluding } \alpha = \beta =1$

这种情况下,整个函数是单调递增的,那么众数出现在x的最小值1。

Case 4: $\alpha =1 \ and \ \beta=1$

此时函数变为固定值 $C(\alpha, \beta)$。在定义域内都是众数。

Case 5: $\alpha > 1 \ and \ \beta > 1$

这是最标准的形式,对原函数取Log后求导,解得:

$$

x = \frac{\alpha-1}{\alpha+\beta—2}

$$

这是标准形式下beta分布众数的通解。

**Beta Distribution Probability Example**

Suppose that you have a coin with unknown probability $p$ of landing heads; assume that coin toss outcomes are i.i.d Bernoulli random varaiables. You flip it 5 times and it lands heads thrice. Our parameter of interest is $p$. Compute the likelihood function for the first five tosses $X_1, X_2, …, X_5$.

这道题是利用beta分布来解题的案例。

首先,对应的似然函数为 $L(X_1, X_2, …, X_5; p) = p^3(1-p)^2$

这个似然函数等价于一个固定比例的beta分布。按照beta分布的形式,我们可知: $\alpha-1 = 3, 所以\alpha = 4, \beta = 3$。

接下来再次进行5次实验,正面朝上出现4次。这时候似然函数会变成 $p^7(1-p)^3$

最后,在频率学派视角里,这个似然函数的MLE等同于其众数对应的x值。 $MLE = \frac{\alpha-1}{\alpha + \beta -2} = 7/10 = 0.7$

5. The Prior Distribution

Clinical Trial Examples, Source of Priors

6. Review: Conditional Likelihood and Bayes' Rule

7. The Posterior Distribution, Bayes' Formula

Prior to Posterior

贝叶斯学派与频率学派的区别就在于似然函数再多乘一个先验概率pi(theta)。

分母在这里不重要,后验概率是一个常数的一部分,并且这个常数不依赖theta。

如果对分子也在theta上积分,右边的结果是1。

练习题

Prior Implications to Posterior: True or False

TBC

Updating Prior (Belief Propagation)

TBC

8. Warm-up / Review: Proportionality

Distributions with One Parameter

TBC

这个题看得有点云里雾里的

Distributions with Two Parameters

TBC

9. Bayes' Formula with the Beta Distribution

Application: Bernoulli Experiment with the Beta Prior

TBC

Back
18.6501x

Lecture 4. Parametric Estimation and Confidence Intervals 参数估计与置信区间

#Courses/MITx/18.6501x

1. Parametric Estimation and Confidence Intervals 参数估计与置信区间

Objectives 目标

At the end of this lecture, you will be able to

  • Distinguish between an estimator and a statistic .
  • Compute the bias , variance , and quadratic risk of an estimator.
  • Determine whether or not an estimator is consistent .
  • Construct a confidence interval for an unknown parameter.
  • Explain the frequentist interpretation of the confidence interval.

2. Statistics, Estimators, Consistency, and Asymptotic Normality 统计量、估计量、一致性与渐进正态性

这里板书的问题是: $Var(\hat \theta_n) \xrightarrow[n \rightarrow \infty]{} 0$。

因为 $Var(\hat \theta_n) = \sigma^2/n$,当n 无穷大时,方差趋近于0。

区分样本方差和渐进方差。

  • 样本方差(原始估计量视角)描述估计量在当前样本量n下的实际方差。是直接计算估计量在当前样本下的离散程度:

$$

Var(\hat \theta_n) = \frac{\sigma^2}{n}

$$

当 $n \rightarrow \infty$ 时, $Var(\hat \theta_n) = 0$。 (n越大,样本方差离散程度越小)。这里的方差指的是原始估计量的渐近方差(也常叫“方差渐近行为”)。

  • 渐进方差(AVar)通过极限理论(如中心极限定理)推导,描述估计量标准化后,在大样本( $n \rightarrow \infty$)下的极限分布的方差,与n无关。
  • 例如在渐进正态性里,渐进方差为 $\sigma^2$,是一个常数。
  • 对于大多数估计量(如MLE,样本均值等),两者满足:

$$

AVar(\hat \theta_n) = \lim_{n\rightarrow\infty} n * Var(\hat \theta_n)

$$

$\sqrt n(\hat\theta_n - \theta)$ 的分布,在n取不同值的时候。

  • 各条曲线代表不同样本量 nnn 时该量的分布。
  • 随着 $n$ 增大,曲线越来越集中(更尖、更高),说明方差随 $n$ 增大而线性增大( $∼n⋅p(1−p)$)。
  • 黑色虚线是其渐进分布 $\mathcal{N}(0, p(1-p))$,这个分布描述的是“归一化前”的极限行为。

$\sqrt n(\hat\theta_n - \theta)/\sqrt{p(1-p)}$ 的分布,n取不同值。

  • 所有样本量下的分布几乎都重合,并与标准正态 $\mathcal{N}(0, 1)$ 完美一致。
  • 这说明该标准化后的量的极限分布是固定的,不会随着 $n$ 变化而变尖或变平。

statistic is any measurable function of the sample. An estimator of $\theta$ is a statistic $\hat \theta_n = \hat \theta_n(X_1, …, X_n)$ whose expression does not depend on $\theta$ .

一致性(consistence) 一个关于 $\theta$ 的估计量 $\hat \theta_n$,如果随 $n \rightarrow \infty$,依概率收敛至 $\theta$,那么他是弱一致性的(weakly consistent); 如果随 $n \rightarrow \infty$,几乎处处收敛至 $\theta$,那么他是强一致性的(strongly consistent)。

渐进正态性(Asymptotic Normality): 指的是当样本量 *n* 趋近于无穷大时,某个估计量(或统计量)的标准化形式 依分布收敛于正态分布

$$

\sqrt n(\hat \theta_n - \theta) \xrightarrow[n \rightarrow \infty]{(d)} N(0, \sigma^2)

$$

其中:

  • $\hat \theta_n$ 是参数 $\theta$ 的估计量(如样本均值、MLE等);
  • $\sigma^2$ 是渐进方差(Asymptotic Variance)

练习题:Quantifying Consistency

解题思路:

由Xn服从伯努利分布,可以知道: $\sigma = \sqrt{(p(1-p)}$ 。

所以,由CLT,可以得到: $\frac{\sqrt(n)}{\sigma} (\bar X_n - p) \rightarrow N(0,1)$ (依分布收敛)

将这个公式变形(与题目要求的形式做一些联系,可以得到):

$$

\frac{\sigma}{n^{1/2-c}}\frac{n^{1/2}}{\sigma}(\bar X_n - p) \approx \frac{\sigma}{n^{1/2-c}}N(0,1)

$$

根据slutsky定理:

如果一个随机变量序列依分布收敛,另一个序列依概率收敛到常数,则它们的加、减、乘、除运算后的收敛性可以拆解为对极限的运算。

要想使上面的公式不依概率收敛到0,必须前一项发散。

所以 需要 $1/2-c > 0 , 有 c <1/2$。

参考deepseek给出的解释:

3. Bias of Estimators; Jensen's Inequality 估计量偏差;Jensen不等式

Bias Estimators and an application of Jensen's Inequality

bias(偏差)的定义:

$$

\text{bias}(\hat\theta_n) = \mathbb{E}(\hat\theta_n) - \theta

$$

如果bias = 0,那么估计量 $\hat\theta_n$ 是无偏的。但无偏估计量可能会有很大的方差:所以无偏估计量不一定是我们想要的。

黑板上的板书中,白色为无偏估计量的PDF,黄色为有偏估计量的PDF,很明显我们更想要有偏估计量,因为他离真实的 $\theta$ 更近。

lecture中值得注意的是最后一个估计量:

$$

\hat p_n = \sqrt{\mathbb{I}(X_1 = 1, X_2 = 1) }, \quad \mathbb{I}为指示函数。

$$

可以令 $Z = \mathbb{I}(X_1 = 1, X_2 = 1)$,Z需要X_1和X_2同时为1时才为1,所以Z本质上服从 $Z \sim Ber(p^2)$。

注意:函数的期望不等于期望的函数,因为Jensen’s inequality。

  • 如果f(*)为凸函数(convex):

$$

\mathbb{E}f(X) \ge f(\mathbb{E}(X))

$$

  • 如果f()为凹函数(concave):

$$

\mathbb{E}f(X) \le f(\mathbb{E}(X))

$$

因为f(x) = sqrt(Z)是凹函数:

$$

\mathbb{E}[\sqrt Z] \le \sqrt{\mathbb{E}[Z]} = p

$$

Jensen’s Inequality

4. Variance of Estimators 估计量的方差

同样需要注意的是最后一个。

We recall the following useful formulas for the variance. First if $X$ is a random variable, then the variance of  $X$ is defined by:

$$

\text{Var}[X] = \mathbb{E}[(X - \mathbb{E}[X])^2]

$$

The following equivalent ‘shortcut' formula is convenient when we already know the expectation of $X$:

$$

\text{Var}[X] = \mathbb{E}[X^2] - (\mathbb{E}[X]^2)

$$

Finally, in the class, we often compute the variance of averages of random variables. If $X_1, …, X_n$ are i.i.d., each with variance $\sigma^2$, then

$$

\text{Var}[\bar X_n] = \frac{\sigma^2}{n}

$$

5. Quadratic Risk of Estimators 估计量的二次风险

6. Worked Example: Bias, Variance and Quadratic Risk

7. Exercise: Strengths and Weaknesses of Estimators

这一小节是练习题。TBC

8. Confidence Intervals 置信区间

Confidence Interval for the Kiss Example

9. Conservative Bound

Confidence Interval using a Conservative Bound

Back
18.6501x

Lecture 5. Confidence Intervals and Delta Method 置信区间与delta方法

#Courses/MITx/18.6501x

1. Confidence Intervals, the Delta Method, and Hypothesis Testing

Objectives

At the end of this lecture, you will be able to:

  • Apply the Delta method to an asymptotically normal sequence of random variables.
  • Estimate the parameter and construct confidence intervals for an exponential statistical model using the Delta method.
  • Construct confidence intervals for a variety of statistical models using the Delta method and one of the conservative , solve , or plug-in methods.
  • Give a frequentist interpretation of the meaning of a (asymptotic) confidence interval of level $1-\alpha$.
  • Understand the basic principle behind hypothesis testing.

2. Confidence Intervals Concept Checks

Confidence Interval Concept Check 1

Solution:

备注:

置信区间 $\mathcal{L}=[L(X_1, ..., X_n), U(L(X_1, ..., X_n)]$ 的上下界L和U是关于样本的函数。样本X_n是随机变量,所以 $\mathcal{L}$ 也是随机变量。

Confidence Interval Concept Check 2

Recall that a realization of a random variable $X$ is the value that it takes when we observe $X$. For example, if  $X \sim Ber(1/2)$ and we observe the event $X=1$, then $x=1$ is the realization (observed value) of the random variable $X$.

Let $\mathcal{L}, \mathcal{J}$,  be some 95% and 98% asymptotic confidence intervals respectively for the unknown parameter $p$. Which of the following statements is true?

Solution:

渐近置信区间(Asymptotic Confidence Intervals)的解释

1 核心概念:
渐近置信区间是一种基于大样本理论的统计方法,适用于样本量*n*足够大的情况。当*n*→∞时,该区间以预设的概率(如95%或98%)覆盖未知参数的真值*p*。

2 构造原理

  • 利用样本统计量(如样本均值*p*^)的渐近正态性(Asymptotic Normality)。例如,对于二项分布参数*p*,当*n*很大时,*p*^近似服从 $N(p, \frac{p(1-p)}{n})$
  • 通过统计量的渐近分布确定区间边界。例如,95%渐近置信区间为:

$$

\hat p \pm 1.96 \sqrt \frac{\hat p(1-\hat p)}{n}

$$

Confidence Interval Review

3. Confidence Intervals Concept Checks Continued 置信区间概念检查(续)

Lectures

Confidence Interval Concept Check 4

Solution:

$p$ 属于一个 确定性的区间的概率,只能是0或者1。不会是其他百分比。

4. Confidence Intervals Concept Checks Continued

Back
18.6501x

Lecture 6. Measures of Distance Between Probability Distributions 测量概率分布的距离

#Courses/MITx/18.6501x

1. Motivation

2. Objective 目标

Total Variation Distance, Kullback-Leibler (KL) divergence, and the Maximum Likelihood Principle

At the end of this lecture, you will be able to do the following:

  • Describe properties of the total variation distance and Kullback-Leibler (KL) divergence .
  • Compute the total variation distance and KL divergence between two distributions.
  • Derive the maximum likelihood principle using the KL divergence.
  • Define and compute the likelihood of a discrete distribution.

⠀The Unit 3 slides below, which are for the next 5 lectures , are also available in the resource tab at the top of this course site.

3. Unit Overview

Goals of the Next 5 Lectures

4. Introduction to Total Variation Distance

Interpreting Total Variation Distance

Recall from lecture that the total variation distance between two probability measures $\mathbf P_\theta$ and $\mathbf {P}_{\theta^\prime}$ with sample space $E$ is defined by

$$

\text{TV}(\mathbf{P_\theta}, \mathbf{P_{\theta^\prime}}) = \max_{A\subset E}|\mathbf{P_\theta}(A) - \mathbf{P_{\theta^\prime}}(A)|

$$

Let  $X_1, …, X_n \sim^{iid}\mathbf P_{\theta^*}$ where $\theta^*$ is an unknown parameter. You construct a statistical model $(E,\{\mathbf P_\theta\}_{\theta\in\mathbb R})$  for your data. By analyzing your data, you are able to produce an estimator $\hat\theta$ such that the distributions $\mathbf P_{\hat\theta}$ and $\mathbf{P}_{\theta^*}$ are close in total variation distance. More precisely, you know that

$$

\text{TV}(\mathbf{P}_{\hat\theta}, \mathbf{P}_{\theta^*}) \le \epsilon

$$

where $\epsilon$ is a very small positive number.

5. Total Variation Distance for Discrete Random Variables

Total Variation Distance for Discrete Distributions (Optional video)

证明

练习题:

6. Total Variation Distance for Continuous Distributions

7. Properties of Total Variation Distance (Optional)

练习题

TBC

8. Worked Examples (Optional)

Worked Examples on Total Variation Distance

第三道题:因为是两个连续分布求TV,所以需要用到积分(注意需要把指示函数即定义域写出来):

第四题:两个分布对应着四个不同的值,所以如果按照TV的计算公式,需要分别按照0,1,a, a+1来计算。( a属于(0,1))

但这里有一个简单的算法:因为X和X+a的取值是disjoint-support的(意味着两个集合并集为空),所以最差的TV/距离就是1。

但如果两个分布的取值(集合)是部分disjoint的,就不能用这个方法来求解。

继续上一道题,如果a的取值改为[0,1], 就必须要按照定义取值。

第四道题:是求一个离散分布和一个连续分布的TV。没有公式,所以需要用定义来进行计算。

注意,虽然左边的分布是渐进正态的(N(0,1))。但按照定义,他仍然是一个离散分布。

因此,首先写出他的support set(支撑集,使f(x)不为有意义的定义域)。这是一个size为n+1的有限集合。在这个集合内,左边分布的概率为1;右边分布的概率为0(连续分布在有限集内的概率都为0)。

所以TV = 1。

TV存在的缺陷:

  • 对于disjoint support,TV恒为1,即使两个分布有可能非常接近(例如a非常接近0)
  • 离散分布和连续分布,TV恒为1,即使离散分布的极限分布与连续分布完全一致。

⠀因此,TV捕捉不到这些horizontal movements.

9. Motivation and Introduction to the Kullback-Leibler (KL) Divergence

Definition of Kullback-Leibler (KL) Divergence

离散形式

Let $\mathbf{P}$ and  $\mathbf{Q}$ be discrete probability distributions with pmfs $p$ and  $q$ respectively. Let's also assume $\mathbf{P}$ and $\mathbf{Q}$ have a common sample space $E$. Then the KL divergence (also known as relative entropy ) between  $\mathbf{P}$ and $\mathbf{Q}$  is defined by

$$

\text{KL}(\mathbf{P},\mathbf{Q})= \sum\limits_{x\in E}p(x)\ln\left(\frac{p(x)}{q(x)}\right)

$$

where the sum is only over the support of $\mathbf{P}$.

Why do we sum only over the support of P?

We use the following limit to justify the definition above. At any point $x \in E$ outside the support of $\mathbf{P}$ but where $q(x) \neq 0$:

$$

\begin{aligned} \lim\limits_{p/q \rightarrow 0^+}q\left(\frac{p}{q}\right)\ln\left(\frac{p}{q}\right) &= q\lim\limits_{p/q \rightarrow 0^+}\left(\frac{p}{q}\right)\ln\left(\frac{p}{q}\right) \\ &= q*(0) = 0. \quad (\text{by L'hopital's rule)}.

\end{aligned}

$$

连续形式

Analogously, if $\mathbf{P}$ and $\mathbf{Q}$  are continuous probability distributions with pdfs $p$ and $q$ on a common sample space $E$, then

$$

\text{KL}(\mathbf{P},\mathbf Q) = \int\limits_{x\in E}p(x)\ln\left(\frac{p(x)}{q(x)}\right)dx

$$

where the integral is again only over the support of $\mathbf{P}$ .

练习题:KL between Gaussians

Let $\mu, \theta \in \mathbb R$, and let $\sigma^2 > 0$. What is $\text{KL}(N(\mu, \sigma^2), N(\theta, \sigma^2))$?

10. Properties of the Kullback-Leibler (KL) Divergence

Why does the KL divergence take only non-negative values?

11. Estimating the Kullback-Leibler (KL) Divergence

第一行的变形(引入期望)为什么成立?需要用到以下期望的公式:

$$

\mathbb{E}[g(x)] = \sum\limits_{x\in E}p(x)g(x), \quad \text{p(x)是pmf of x}

$$

The next four problems concern the following statistical set-up.

You observe discrete random variables

where  is the true parameter. You construct an associated statistical model  with a discrete sample space .

Your goal is to find an estimator  so that the distributions  and  are close. More precisely, you want to find an estimator  so that the quantity

is as small as possible.

This approach will naturally lead to the construction of the maximum likelihood estimator .

TBC.

12. Maximum likelihood principle

练习题:Deriving the Maximum Likelihood Estimator

13. Likelihood of a Discrete Distribution

补充:bernoulli分布的PMF的几种表现形式

TBC.

14. Likelihood of a Poisson Statistical Model

Back
18.6501x

Lecture 7. Computing the Maximum Likelihood Estimator 计算极大似然估计量

#Courses/MITx/18.6501x

1. Objectives

Maximum Likelihood Estimation

At the end of this lecture, you will be able to do the following:

  • Compute the likelihood of discrete and continuous distributions.
  • Interpret the maximum likelihood estimator as the objective value of an optimization problem.
  • Define and compute the maximum likelihood estimator of an unknown parameter.
  • Maximize a strictly concave function in one dimension.

2. Review and Likelihood of a Gaussian Distribution

Concept Check: Likelihoods of a Bernoulli, a Poisson, and a Gaussian Distribution

3. Likelihood of an Exponential Distribution

注意这里的指示函数。如果指示函数依赖于未知参数(unknown parameter),需要在公式中保留指示函数(并且用一种巧妙的方法,例如if min x_i >0);但在本门课上都假设是wel-definied model, 所以不依赖未知参数的指示函数可以不用写。

练习题:Product of Indicators

TBC

4. Likelihood of a Uniform Distribution

同样的问题,注意这里的指示函数是如何变形和化简的

5. Likelihood of a Mixture of Gaussians

6. Maximum Likelihood Estimator

Definition of Maximum Likelihood Estimator and Log Likelihood

7. Interlude: Minimizing and Maximizing Functions

8. Worked examples: Concavity in 1 dimension

9. Strictly Concave Functions and Unique Maximizer

Back
18.6501x

Lecture 8. Examples of Maximum Likelihood Estimators 极大似然估计量的例子

#Courses/MITx/18.6501x

1. Examples of Maximum Likelihood Estimators

Objectives

At the end of this lecture, you will be able to compute the maximum likelihood estimator in a variety of models including: Bernoulli, Poisson, Gaussian, Uniform.

You will also learn about mixtures of Gaussians as a flexible statistical model and you will be able to apply the Expectation-Maximization (EM) algorithm to compute the maximum likelihood estimator in this model.

2. Examples of Maximum Likelihood Estimators: Bernoulli Model

Maximum Likelihood Estimator of a Bernoulli Statistical Model I

TBC

3. Examples of Maximum Likelihood Estimators: Poisson Model

Maximum Likelihood Estimator of a Poisson Statistical Model

TBC

4. Maximum Likelihood Estimator of Gaussian Statistical Model

Maximum Likelihood Estimator of Gaussian Statistical Model: the mean

Maximum Likelihood Estimator of Gaussian Statistical Model: the Variance

5. Maximum Likelihood Estimator of Uniform Statistical Model

并不是所有likelihood都可以按照取Log——求导——等于0来求极大值的。

有些函数是不可导(不可微)函数,比如均匀分布的likelihood。

这时候我们是通过画图找极值点。

练习题TBC

6. Maximum Likelihood Estimator of Mixture of Gaussians Statistical Model

TBC

7. Overview of the EM algorithm

通常情况下,log-likelihood函数是concave的,可以利用数学性质求解极值,并且极值为全局极大值。

但有时候Log-likelihood是non-concave的,例如混合分布时。

8. Complete observations

EM算法目标是对混合高斯分布的log-likelihood求极值。

这里求混合高斯模型的PDF时,利用到了和第7小节中的相似假设来简便运算。

注意这里最后一步的化简trick用到了第二排的 X = ZX(1) + (1-Z)X(2)的等式。

这样做的目的是为了将两个指数相加变为一个底数e的指数之和,这样就与第六节求似然函数时不同了:因为只有一个底数e,在求log-likelihood时,就可以直接约掉e,计算会简便很多。

在求两个混合分布的混合密度时,特别的,如果一个为离散分布,一个为连续分布,可以将其试作为两个连续/离散分布来求解。

在这个案例中,隐变量 $Z \sim Ber(1/2)$ 是一个离散分布。因此,我们在求解混合密度时,按照下列方式进行计算:

$$

f(x, z) = p(z)*f(x|z)

$$

代表的含义是,首先求观测点来自于伯努利分布的概率(marginal density or marginal PMF),再乘以对应的条件概率(条件密度函数)。

$$

p(z) = \left\{ \begin{array}{ll} \frac{1}{2} & \text{if } Z = 1 \\ \frac{1}{2} & \text{if } Z = 0\\ \end{array} \right.

$$

Mixture of Exponentials

We can easily generalize the mixture of Gaussians model to a mixture of any distributions. These generalizations are useful in cases where observations come from heteregenous populations but each sub-population does not follow a Gaussian distribution. In this exercise we consider the mixture of two exponential distributions.

The Massachussetts Registry of Motor Vehicles (RMV) mainly provides two services: issuing new driver's licenses and renewing old ones. All these services are provided by getting in line to meet with an RMV clerk who processes these requests. The time (in minutes) it takes a clerk to process a new driver's license follows an exponential distribution with unknown parameter $\lambda$  and the time it takes to renew an old driver's license follows an exponential distribution with unknown parameter $4\lambda$. On average, one quarter of all customers are new drivers, against three quarters that come to the RMV to renew their old drivers licenses.

Let $X$ denote the processing time of a random customer.

What is $\mathbb{E}[X]$?

$$

\mathbb{E}[X]=\frac{7}{16\lambda}

$$

What is the pdf of $X$ ?

$$

pdf: f(x) =\frac{1}{4}\lambda e^{-\lambda x} + \frac{3}{4}*4\lambda e^{-4\lambda x}

$$

9. Details of the EM algorithm

现在唯一的问题是需要知道 $z_i$ (即隐变量)是什么。

这是E-Step的作用。E-step并不需要知道 $z_i$是什么,而是用 $z_i$的期望来替代他。

我们希望用条件期望(在给定 $X_i$ 时 $Z_I$ 的期望)来估计 $Z_i$。这时候需要用到贝叶斯公式来计算:因为 $P(Z_i =1|X_i)$ 不好计算,但 $P(X_i|Z_i=1)$ 很好计算。

?这里的P(Z_i=1)=1/2是怎么来的?

EM: Mixture of Exponentials

TBC

Back
18.6501x

Lecture 9. Statistical Properties of the MLE 极大似然估计量的统计性质

#Courses/MITx/18.6501x

1. Statistical properties of the MLE

Objectives

At the end of this lecture, you will be able to do the following:

  • Derive the maximum likelihood estimator for the uniform statistical model and prove its consistency.
  • Recognize that the maximum likelihood estimator is consistent.
  • Compute the Fisher information of a statistical model
  • Establish asymptotic normality of a maximum likelihood estimator and compute its asymptotic variance using Fisher information

2. Consistency of Maximum Likelihood Estimator

Review: Definition of MLE

Consistency of the Maximum Likelihood Estimator

Consistency of MLE

Given i.i.d samples  and an associated statistical model  the maximum likelihood estimator  of  is a consistent estimator under mild regularity conditions (e.g. continuity in  of the pdf  almost everywhere), i.e.

TBC

Consistency of the MLE of a Uniform Model

TBC

3. Fisher Information

Note: PPT里的 第二排更正为:$\mathcal{l}(\theta) = \ln(L_1(X_1,\theta))$

A Geometric View on the Fisher Information

TBC

4. Equivalence between the two definitions of Fisher Information

The content of this video is optional but is a good practice to manipulate the quantities involved in the definition of the Fisher information.

TBC

5. Examples of Fisher Information Computation

Fisher Information of the Bernoulli Random Variable

有两种计算方式可以算Fisher信息,但教授说通常情况下计算二阶导会更简便。

通常情况下,求一阶导之后再计算方差,不像期望一样有很好的线性性质可以计算。

进一步,如果已知了fisher信息 $I(p)$, 同时 $p$ 是一个关于 $\theta$ 的函数:例如 $p = \theta^2$,那么求 $\theta$ 的fisher信息量 $I(\theta)$,就是用p的fisher信息量再乘以p对theta的一阶导的平方。

$$

I(\theta) = I(p)\left(\frac{dp}{d\theta}\right)^2

$$

右下角板书,有一些计算错误,正确的见下一个板书

Fisher Information of the Binomial Random Variable

tbc

Fisher Information of a Poisson Random Variable

tbc

6. Asymptotic normality of the maximum likelihood estimator

  • revise

⠀The asymptotic normality of the ML estimator , which will be discussed in the upcoming video, depends upon the Fisher information. For a one-parameter model (like the exponential and Bernoulli), the asymptotic normality result will say something along the lines of following: that the asymptotic variance of the ML estimator is inversely proportional to the value of Fisher information at the true parameter  of the statistical model. This means that if the value of Fisher information at  is high, then the asymptotic variance of the ML estimator for the statistical model will be low.

Asymptotic Normality of the MLE

TBC

7. An idea of the proof of asymptotic normality.

Optional

TBC

Back
18.6501x

Recitation: M-Estimation

#Courses/MITx/18.6501x

**1. M-Estimation**

Back
18.6501x

Recitation: Method of Moments 详述:矩方法

#Courses/MITx/18.6501x

1. (Review) Method of Moments

Gamma Method of Moments

我们希望的是用m1和m2的某些组合方程形式来表示α和β。即:

$$

\alpha = g_1(m_1, m_2), \quad \beta = g_2(m_1, m_2)

$$

为了找到实际的矩方法估计量,我们还需要将样本矩插入(plug-in)理论矩中。

Method of Moment estimators for α and β

Asymptotic distribution of $\alpha_{MOM} = \frac{\bar X^2}{\overline{X^2}-\bar X^2}$

没太听懂,需要复习。

Back
18.6501x

Recitation: T-test

#Courses/MITx/18.6501x

**1. Proof of Cochran's Theorem and T Test**

Back
6.86x

Lecture 1. Introduction to Machine Learning 机器学习导论

**Lecture 1. Introduction to Machine Learning 机器学习导论**

#Courses/MITx/6.86x

1. Unit 1 Overview

https://learning.edx.org/course/course-v1:MITx+6.86x+1T2025/block-v1:MITx+6.86x+1T2025+type@sequential+block@lec1_introduction/block-v1:MITx+6.86x+1T2025+type@vertical+block@lec1_introduction-tab1

2. Objectives

Introduction to Machine Learning

At the end of this lecture, you will be able to

  • understand the goal of machine learning from a movie recommender example
  • understand elements of supervised learning, and the difference between the training set and the test set
  • understand the difference of classification and regression - two representative kinds of supervised learning

3. What is Machine Learning?

Machine learning as a discipline aims to design, understand, and apply computer programs that learn from experience (i.e. data) for the purpose of modelling, prediction, and control. We will start with prediction as a core machine learning task.

There are many types of predictions that we can make. We can predict outcomes of events that occur in the future such as the market, weather tomorrow, the next word a text message user will type, or anticipate pedestrian behavior in self driving vehicles, and so on.

We can also try to predict properties that we do not yet know. For example, properties of materials such as whether a chemical is soluble in water, what the object is in an image, what an English sentence translates to in Hindi, whether a product review carries positive sentiment, and so on.

4. Introduction to Supervised Learning

Back
18.6501x

Lecture 1. What is statistics 什么是统计

**Lecture 1. What is statistics 什么是统计**

#Courses/MITx/18.6501x

1. Motivation

2. What is statistics

3. Overall goal of this course

Welcome to 18.6501x! This class offers an in-depth introduction to the theoretical foundations of statistical methods that are useful in many applications. The goal is to understand the role of mathematics in the research and development of efficient statistical methods.

At the end of this class, you will be able to

1 From a real-life situation, formulate a statistical problem in mathematical terms ;

2 Understand the role of mathematics in the design and analysis of statistical methods;

3 Select appropriate statistical methods for your problem;

4 Understand the implications and limitations of various methods .

Text book recommendation: This course does not follow a textbook, but a good reference is *All of Statistics: A Concise Course in Statistical Inference*, by Larry Wasserman.

4. Why statistics

5. Statistics, Data science, and Probability

6. Statistics and modelling

7. About this course

What this course is about

  • Understand the mathematical underpinning of statistical methods.
  • How to give quantitative statements from modeling assumptions.
  • Discover mathematical phenomena arising from statistics.
  • Develop a framework that allows to give mathematical statements about new models.

What this course is not about

  • How to set up a statistical model for complicated real world examples;
  • Implement statistical computational routines;
  • Learn a lot of different specialized methods.

8. Let's do some statistics

9. The first example: modelling assumptions

10. Population versus samples

Back
18.6501x

Lecture 2. Probability Redux 概率论复习

**Lecture 2. Probability Redux 概率论复习**

#Courses/MITx/18.6501x

1. Objectives 目标

  1. Recall the statements of the (strong/weak) law of large numbers and the central limit theorem and know to apply these for large sample sizes.
  2. (Optional:) Apply Hoeffding's inequality to the sample means of bounded i.i.d. random variables.
  3. Recall the probability density function and properties of the Gaussian distribution .
  4. Use Gaussian probability tables to obtain probabilities and quantiles .
  5. Distinguish between convergence almost surely(几乎处处收敛) , convergence in probability(依概率收敛) and convergence in distribution(依分布收敛) , understand that these notions are from strongest to weakest.
  6. Determine convergence of sums and products of sequences that converge almost surely or in probability.
  7. Apply Slutsky's theorem to the sum and product of a sequence that converges in distribution and another that converges in probability to a constant.
  8. Use the continuous mapping theorem to determine convergence of sequences of a function of random variables.

2. Two important probability tools 两个重要的概率工具

1. lectures

rule of thumb: 经验法则

TBC

==🔴Averages of random variables: Laws of Large Numbers and Central Limit Theorem==

Let $X, X_1, X_2, …, X_n$ be i.i.d. random variables, with $\mu = \mathbb{E}[X]$ and $\sigma^2 = \text{Var}[X]$ .

  • Laws (weak and strong) of large numbers (LLN):

$$

\bar X_n := \frac{1}{n}\sum\limits_{i=1}^n \xrightarrow[n\rightarrow\infty]{\text{P, a.s.}}\mu

$$

where the convergence is in probability (as denoted by $\text{P}$ on the convergence arrow) and almost surely (as denoted by $\text{a.s.}$ on the arrow) for the weak and strong laws respectively.

  • Central limit theorem (CLT):

$$

\begin{aligned}\sqrt n\frac{\bar X_n - \mu}{\sigma} &\xrightarrow[n\rightarrow\infty]{(d)} \mathcal{N}(0,1)\\ \text{or equivalently,} \quad \sqrt n(\bar X_n - \mu) &\xrightarrow[n\rightarrow\infty]{(d)} \mathcal{N}(0, \sigma^2) \end{aligned}

$$

where the convergence is in distribution, as denoted by $(d)$ on top of the convergence arrow.

We will revisit the different modes of convergence near the end of this lecture.

Note : In *6.431x: Probability–the Science of Uncertainty and Data*, we used yet another equivalent formulation of the CLT:

$$

\frac{S_n - n\mu}{\sqrt n \sigma} \xrightarrow[n\rightarrow\infty]{(d)} \mathcal{N}(0,1)

$$

where $S_n = \sum_{i=1}^nX_i$ is the sum (not the average) of $X_i$ .

3. (Optional) Hoeffding's Inequality

1. Lectures

4. Gaussian distribution

5. Properties of the Gaussian distribution

1. Lectures

6. Gaussian Probability Tables and Quantiles

7. Modes of Convergence

Back
18.6501x

Lecture 21. Linear Regression 2 线性回归2

#Courses/MITx/18.6501x

**1. Objectives** 目标

**Multivariate Linear Regression** 多元线性回归

At the end of this lecture, you will be able to

  • Write down the multivariate linear regression model .
  • Compute the distribution of the least square estimator (LSE) for linear regression with deterministic design .
  • Know that in the setting of deterministic design, the least square estimator is the maximum likelihood estimator.
  • Compute the quadratic risk and prediction error of the LSE.
  • Perform hypothesis test for linear regression models.
  • Design Bonferroni's tests for testing multiple hypotheses.

**2. Linear Independence and Rank** 线性不相关与秩

这一节主要是复习线性代数里的线性无关、向量张成和维度以及矩阵的秩 三个内容。

**Linear Independence** 线性不相关

线性相关:指对向量 $v_1, \dots, v_n$ ,有一组不全为零的标量 $c_1, \dots, c_n$,使:

$c_1v_1+\dots+c_nv_n=0$。 反之则是线性无关。

特别的,对两组非零向量 $v_1, v_2$, 当且仅当 $v_1 = cv_2$ 时,两者线性相关。简单说就是两个向量呈倍数关系。

examples:

**Span and dimension** 张成与维度

由非零向量 $\mathbf{v}_1, \dots, \mathbf{v}_n \in \mathbb{R}^m$ 组成的集合确定了 $\mathbb{R}^m$ 的一个子空间。

这个 $\mathbb{R}^m$ 的子空间,也称为向量 $\mathbf{v}_1, \dots, \mathbf{v}_n$ 的张成空间(span),是所有形如

$c_1\mathbf{v}_1 + \cdots + c_n\mathbf{v}_n$ 的向量的集合,其中 $c_1, \dots, c_n \in \mathbb{R}$。

记作

$$

\langle \mathbf{v}_1, \dots, \mathbf{v}_n \rangle

= \{ \mathbf{v} \in \mathbb{R}^m : \mathbf{v} = c_1 \mathbf{v}_1 + \cdots + c_n \mathbf{v}_n \}

$$

(即 $\mathbf{v}_1, \dots, \mathbf{v}_n$ 的 span)。

这个子空间 $\langle \mathbf{v}_1, \dots, \mathbf{v}_n \rangle$ 的维数,是由这些(非零)向量 $\mathbf{v}_1, \dots, \mathbf{v}_n$ 中能取出的最大数量的线性无关向量所决定的。

回到上一部分的例子中:

  1. 张成空间是任意一个向量。意味着任意一个向量张成为整个子空间,所以子空间维度为1;
  2. 张成空间是两个向量,子空间维度为2;
  3. 张成空间是两个向量,子空间维度为2;
  4. 在三个向量线性相关,任意两个向量张成为子空间,维度为2;
  5. 这个比较复杂。前三个向量是线性相关的,因此span维度为2;第三个向量与前三个都线性无关,所以总span 维度为2+1 = 3

**Rank** 秩

矩阵的列空间(column space)和行空间(row space)分别是由矩阵的列和行张成的子空间。

线性代数中的一个事实是:矩阵 M 的列空间的维数等于它的行空间的维数(你可以通过行化简来验证这一点)。

这个维数就是矩阵的(rank),记作 $\mathrm{rank}(\mathbf{M})$。

并且有 $\mathrm{rank}(\mathbf{M}) = \mathrm{rank}(\mathbf{M}^T)$。

这里的意思就是:矩阵的行秩 = 列秩 = 秩,而且转置不会改变秩。

一个 $m \times n$ 矩阵的秩为 $\min(m,n)$ 。

判断矩阵的秩有以下几个方法:

1. 行化简法(最常用)

  • 把矩阵通过初等行变换化为行阶梯形(row echelon form)最简行阶梯形(reduced row echelon form)
  • 非零行的个数就是矩阵的秩。
  • 适合手算,也方便在概念上理解秩 = 最大线性无关行(列)的个数。
  • ### 判断步骤
    1. 检查矩阵的每一行,从上到下。
    2. 如果整行都是 0 → 不计入 rank。
    3. 如果该行有主元(第一个非零元素),就算作一行。
    4. 统计所有有主元的行数,这个数就是 rank。

2. 线性无关法

  • 通过判断列向量(或行向量)之间的线性无关性,找到最大线性无关组的个数,这个数就是秩。
  • 可以用解线性方程组的方法来判断线性无关性。
  • 适合低维矩阵或概念推导,不太适合大矩阵手算。

3. 行列式法(方阵或子式法)

  • 对于方阵:如果 $\det(M) \neq 0$,则 rank = 矩阵的阶数。
  • 对于一般矩阵:找出矩阵中所有阶数的子式(submatrix determinant),最大非零子式的阶数就是矩阵的秩。
  • 缺点:大矩阵计算行列式会很麻烦。

4. 奇异值分解(SVD)法

  • 数值计算中常用:

$$

M = U \Sigma V^T

$$

秩 = $\Sigma$ 中非零奇异值的个数。

  • 稳定、适合用计算机做数值分析(比如浮点数误差环境)。

5. 特征值法(对称矩阵或方阵)

  • 对于对称矩阵(或厄米矩阵):

$$

\text{rank}(M) = \text{非零特征值的个数(重数计入)}

$$

  • 适合理论分析和数值计算,尤其是对称正定矩阵判断满秩时非常方便。

**The rank of a matrix** 矩阵的秩

这道题旨在回答这样一个问题:如果你把两个秩为 1 的矩阵相加,会得到一个秩为 2 的矩阵吗? 乘积的情况又是怎样的呢?更一般地说,秩为 $r_1$ 的矩阵与秩为 $r_2$ 的矩阵相加,它们的和的秩是多少?设

$$

A = \begin{pmatrix} -1 & 1 \\ -3 & 3 \end{pmatrix}, \quad

B = \begin{pmatrix} 1 & -1 \\ -1 & 1 \end{pmatrix}, \quad

C = \begin{pmatrix} 0 & 0 \\ 0 & 1 \end{pmatrix}, \quad

D = \begin{pmatrix} 1 & 1 \\ 1 & 1 \end{pmatrix}

$$

可以看到,这四个矩阵的秩都是 1。

有很多方法可以用来判断矩阵的秩。这里提供一个有用的事实:

每一个秩为 1 的矩阵都可以写成两个向量的外积。反之,每一个外积 $\mathbf{u} \mathbf{v}^T$ 都是一个秩为 1 的矩阵。

例如:

$$

A = u v^T, \quad B = v v^T, \quad C = w w^T, \quad D = x x^T

$$

其中:

$$

u = \begin{pmatrix} 1 \\ 3 \end{pmatrix}, \quad

v = \begin{pmatrix} -1 \\ 1 \end{pmatrix}, \quad

w = \begin{pmatrix} 0 \\ 1 \end{pmatrix}, \quad

x = \begin{pmatrix} 1 \\ 1 \end{pmatrix}.

$$

计算: $A+A, A+B, A+C, AB, AC, BD$ 的秩。

如果两个矩阵相加的结果可以被化简为: $ut^T$ 的形式,那么根据定义,这仍然是一个rank=1的矩阵。更进一步的,如果中间的值可以被合并为一个内积(标量),也不影响结果。

例如:

$A+B = uv^T + vv^T = (u+v)v^T$ ,rank = 1.

$AB = uv^Tvv^T = u(v^Tv)v^T$ ,中间是内积,结果是一个标量,不影响结果,rank =1。

**3. Multivariate Regression: Definitions, Modeling, and Matrix LSE** 多元回归:定义,建模与矩阵LSE

**Multivariate Regression: Setup and Definitions**

定义一个多元线性回归的方程形式为:

$$

Y_i = \mathbf X_i^T\beta^* + \epsilon_i, \quad i = 1,\dots, n

$$

注意在这节课上定义的 $\mathbf X_i$ 是p*1的列向量,每一列是一个样本,每一行是特征。这与完整的矩阵运算有一些区别。

一般矩阵形式会直接写成 $\mathbf Y = \mathbf X\theta + \text{bias}$ ,其中 $X_{m\times n}$, m个样本,n个特征;$\theta_{n\times1}$ ,n个特征的权重。写成代码的话一般是``y_pred = X @ theta``, 输出值Y是一个 $m\times 1$ 维向量。

但在神经网络里又不一样: hidden_layer_weighted_input(隐藏层加权输入):``input_to_hidden_weights @ input_values + self.biases`` , 输出值Y是一个(输出单元数,1)向量。

**LSE in Matrix Form: Setup**

接下来我们利用矩阵形式来表达LSE估计量。

$$

\mathbf Y = \mathbb X\beta^* + \epsilon

$$

$Y \in \mathbb R^n$, 是一个(n,1)维向量

$\mathbb X_{n\times p}$ 是设计矩阵,(n, p)维矩阵

$\beta$ 是特征权重,(p, 1)维向量。

当 $\mathbf X$ 是协变量向量时(即单样本情况下), $\beta^T\mathbf X$ 和 $\mathbf X\beta^T$ 是等价的,结果都是标量。但如果是X是矩阵,这个等式就不成立了。

LSE估计量 $\hat \beta$ 满足下列条件:

$$

\hat \beta = \arg\min_{\beta\in\mathbb R^p}\left\Vert \mathbf Y-\mathbb X\beta\right\Vert^2_2

$$

注意这里用到了L2范数平方。

1. 下标的 2($\| \cdot \|_2$): 表示这是 L₂ 范数(欧几里得范数),用平方和开根号来度量向量的长度。

$$

\|v\|_2 = \sqrt{v_1^2 + v_2^2 + \dots + v_n^2}

$$

2. 上标的 2($^2$),表示 把范数的结果再平方,这样根号会被消掉,得到的是平方和:

$$

\|v\|_2^2 = \left( \sqrt{v_1^2 + v_2^2 + \dots + v_n^2} \right)^2

$$

$$

\|v\|_2^2 = v_1^2 + v_2^2 + \dots + v_n^2

$$

Linear Regression as a Statistical Model 线性回归作为一个统计模型

TBD 这里主要是考察将线性回归映射维一个统计模型之后,看样本空间与参数空间的取值范围。

**4. Multivariate Linear Regression** 多元线性回归

**Review: Setup of Multivariate Linear Regression**

求L2范数平方对 $\beta$ 的梯度(这里的 $\beta$ 是一个p维向量,所以这里是求梯度,而不是偏导,即对 $\beta$ 的每一个分量都求偏导再集合到一个向量里)。

求矩阵梯度时,需要考虑 $\mathbb X$ 是放在左边还是右边。这里可以直接尝试:$\mathbb X$ 是(n,p)维矩阵,$\mathbf Y$ 是(p,1)维向量,所以X不能出现在右边(不符合矩阵乘法);如果放在左边,需要将X转置。

**5. Geometric Interpretation of Linear Regression** 线性回归的几何解释

在进行Y和beta的几何解释时,需要将其放在一个平面上(这两个向量维度不同,无法直接比较)

$X\beta^*$ 在 $X$ 的线性张成(linear span)里。 真实值 $Y$ 是距离这个超平面距离最短的(orthogonal projection,正交投影)。

数学证明:

Y的正交投影是 $\mathbf PY$, $\mathbf P$ 是一个(n,n)矩阵,并且 $\mathbf P^2 = \mathbf P$ 。

证明: $\mathbf X\hat\beta = \mathbf PY$

**6. Linear Regression with Deterministic Design** 具有确定性设计的线性回归

为了进行统计推断,我们需要对模型进行更多的假设:

  • 设计矩阵 $\mathbb X$ 是确定性的(意味着 $\mathbb X$ 不再是一个随机变量),并且rank = p;
  • 模型是同方差的,意味着噪声 $\epsilon_1, \dots, \epsilon_n$ 是iid的;
  • 噪声向量 $\epsilon \sim \mathcal N(0, \sigma^2I_n)$

这样我们可以知道 $Y \sim \mathcal N(\mathbb X\beta^*, \sigma^2I_n)$ ,并且在模型 $\mathbf Y = \mathbb X\beta + \epsilon$ 的右边,只有一个随机变量:噪声。并且 $Y$ 仍然是随机的。

Deterministic Design

根据上述假设,我们可以计算 LSE $\hat\beta$ 也是一个随机变量,并且他的期望等于:

  • $(\mathbb X^T \mathbb X)^{-1} \mathbb X^T E[Y]$
  • 进一步化简,由于 $E[Y] = \mathbb X\beta$ ,带入上面的公式化简,得到 $\beta$。

Uniform Noise

现在将噪声从正态分布变为 $\epsilon \sim Unif[-1,1]^n$ 。那么:

  • 模型仍然是同方差的,因为噪声的方差为1/3;
  • Y仍然为随机变量;
  • LSE $\hat \beta$ 服从均匀分布。
  • 因为 $\hat \beta = (\mathbb X^T \mathbb X)^{-1} \mathbb X^T Y = \beta + (\mathbb X^T \mathbb X)^{-1} \mathbb X^T\epsilon$ ,所以决定这个分布的仍然是 $\epsilon$ 的分布

**7. Deterministic Design with Gaussian Noise** 具有高斯噪声的确定性设计

Review of Multi-Dimensional Gaussians

这道题的解法就是从定义入手,需要先求解E[Y]。

$E[Y] = E[MX] = ME[X] = 0$

$\Sigma_Y = E[(Y-E[Y])(Y-E[Y])^T] = E[YY^T]$

带入 $Y=MX$, 有 $E[MX(MX)^T] = E[MXX^TM^T] = M\cdot E(XX^T)\cdot M^T$

因为 $E[XX^T] = \Sigma_X = E[(X-E[X])(X-E[X])^T]$

所以最后有: $\Sigma_Y = M\Sigma_x M^T$

**The Least Square Estimator is the MLE in Deterministic Design**

在假设噪声服从正态分布的时候, LSE = MLE

推导过程见PPT:首先写出 Y_i的PDF,然后LN,再Log,可以发现优化目标与LSE是一致的。

但当假设噪声服从其他分布(例如拉普拉斯分布时),这就不再成立。

**8. Distribution of the Least Square Estimator** 最小均方估计量的分布

$\hat\beta$ 的分布

$\hat \beta$ 也是一个正态分布

由: $\hat \beta = (X^TX)^{-1}X^TY = (X^TX)^{-1}X^T[X\beta^*+\epsilon]$ ,有:

$(X^TX)^{-1}X^T[X\beta^*+\epsilon] = (X^TX)^{-1}X^TX\beta^*+(X^TX)^{-1}X^T\epsilon$

$=\beta^* + (X^TX)^{-1}X^T\epsilon$

后者是一个正态分布,所以 $\hat \beta$ 也是一个正态分布。

我们现在讨论 $(X^TX)^{-1}X^T\epsilon$ 的性质。

他的期望为0,方差化简要用到线性变换的方差公式:

如果A是一个常数矩阵(非随机),z是一个随机向量,那么:
$Var(Az) = A\ Var(z)\ A^T$

所以方差为: $(X^TX)^{-1}X^T(\sigma^2I_n)X(X^TX)^{-1}$ (这里有一个trick: $(X^TX)^{-1}$ 的转置,逆和转置可以交换,所以等于 $((X^TX)^T)^{-1}$,又因为 $(X^TX)$ 是对称矩阵,转置等于自身。所以有了上面的形式。

再对方差化简,有 $\sigma^2(X^TX)^{-1}$。

现在考虑 $(X^TX)^{-1}$ 代表什么含义?

假设这是一个单变量模型,那么 $X^TX$ 是一个内积,衡量不同的样本点X的集中度距离。如果样本越集中(即X^TX越小,他的逆越大),那么回归方程的斜率越难以确定。反之,样本越发散,斜率就越容易确定。

**9. Example: Assessing the performance of planes**

略,一道简单的练习题

**10. Quadratic Risk and Variance** 二次风险与方差

计算 $E\left\Vert \hat \beta - \beta^*\right\Vert^2$

首先需要用到一个关于trace的技巧:

对一个向量x来说, $||x||^2 = x^Tx$ , 这是一个标量,也可以看成是一个(1,1)的矩阵。
拓展到矩阵维度, $||X||^2 = tr(X^TX) = tr(XX^T)$。 矩阵形式的L2范数就是Frobenius范数。
标准的Frobenius范数是指 $A \in \mathbb R^{m\times n}, \ ||A||_F = \sqrt{\sum_i^n\sum_j^m a^2_{ij}}$ 。在这道题里即为 $||X||^2 = \sum_{i,j}^px_{ij}^2$ ,也是一个标量。
trace的期望等于期望的trace。

所以可以开始变形:

$E\left\Vert \hat \beta - \beta^*\right\Vert^2 = E[tr(\hat \beta - \beta^*)(\hat \beta - \beta^*)^T] = tr(E[(\hat \beta - \beta^*)(\hat \beta - \beta^*)^T]$

注意到由于 $E[\hat \beta - \beta^*]=0$, 所以上面的期望等同于 $Cov(\hat\beta-\beta^*)$ 协方差矩阵,也即等于 $\sigma^2(X^TX)^{-1}$ 。

所以,有 $E\left\Vert \hat \beta - \beta^*\right\Vert^2 = \sigma^2tr((X^TX)^{-1})$ 。

The Quadratic Risk

我们考虑两种误差:

  • quadratic risk of $\hat \beta$: $\mathbb E[||\hat\beta -\beta||^2_2]$ 。 衡量估计量 $\hat\beta$ 与真实值 $\beta$ 的差异。
  • prediction error $\mathbb E[||\mathbf Y-\mathbb X\hat\beta||^2_2]$ 。 衡量预测值 $\mathbf {\hat Y} = \mathbb X\hat\beta$ 与真实值 $\mathbf Y$ 的差异。

随着 $\sigma^2$ 增大,两种误差都会上升。

**11. Prediction Error** 预测误差

**Prediction Error**

计算预测误差时用到了投影矩阵,这一段不太熟悉对应的线性代数知识

打开norm的平方,这里也用到了一个线性代数知识 $||u+v||^2 = ||u||^2+||v||^2+2*u^Tv$

Estimating the variance

求解 $\hat\sigma^2$ 。

注意套用公式的时候,n = 1000, p = 2(包含截距项)

**Properties of LSE**

注意 $\hat\sigma^2$ 的公式右边就不再有期望符号了,因为这个时候我们是带入具体的数据进行计算,但是一个确定的数,不需要再加上E[]。期望E[]只在理论推导的时候有作用。

**12. Significance Tests** 显著性检验

**Significance Tests**

令 $\gamma_j$ 是 $(\mathbb X^T\mathbb X)^{-1}$ 的第j个对角线系数(diagonal coefficient)。

如果我们知道 $\sigma^2$, 那么对 $\hat\beta_j$ 可以变形为一个标准正态分布。

但我们不知道 $\sigma^2$ ,所以必须使用无偏估计量来plug in。

这个检验统计量的分布就不再是标准正态分布,而是一个T分布了。

Building a hypothesis test

一道练习题,可以在复习一下

Statistics for the LSE

Designing the test

**13. Bonferroni's Test and Remarks**

**Bonferroni's Test**

在多元线性回归里,因为同时存在多组待估计的参数 $\hat\beta_j$ , 所以存在多重假设检验问题。

对多重假设检验(实际违阳性率过高),有两种解决的思路。

一是利用统计学通用的多重检验方法:Bonferroni’s Test, BH方法。这个在生物统计上用的比较多。

二是用计量经济学的方法: F检验。

F检验:检验所有待估计参数不全为零。即H0假设为:
$\beta_0= \beta_1 = \dots_ = \beta_j = 0$

核心区别对比

| 维度 | F检验 | Bonferroni校正 | BH方法(FDR控制) |

|:---------:|:----------------------------------------:|:-------------------------:|:------------------:|

| 检验目标 | 检验一组系数联合是否显著 | 控制多个独立检验的FWER | 控制显著结果中假阳性的比例 |

| 假设形式 | H_0:
\beta_1=\beta_2=\cdots=\beta_k=0 | 分别检验各H_0^{(j)}: \beta_j=0 | 同Bonferroni |

| 统计量 | 基于模型拟合优度比较(RSS) | 调整单次检验的p值阈值(\alpha/m) | 按p值排序动态调整阈值 |

| 错误率控制 | 控制整体拒绝H₀的犯错概率 (FWER) | 严格控制FWER(\leq \alpha) | 控制FDR(假阳性占显著结果的比例) |

| 适用场景 | 变量组、模型整体显著性 | 独立或弱相关的多重检验 | 高维探索性分析(如基因组学) |

| 功效(Power) | 较高(联合利用变量间信息) | 低(过度保守) | 中等(权衡严格性与发现能力) |

**Closing Remarks**

  • 线性回归只展示相关性,不是因果性;
  • 噪声正态:噪声服从正态分布是模型的假设,实际中不一定正确。可以使用goodness of fit test或KS/QQ-PLOT去检验噪声是否服从正态分布;
  • 确定性设计:如果 $\mathbb X$ 不是确定性的(即 $\mathbb X$ 也为一个随机矩阵),上面讨论的所有性质可以被视为:在 $\mathbb X$ 的条件下,如果噪声假设为高斯分布,condintionally on $X$.

Back
18.6501x

Lecture 3. Parametric Statistic Models 参数统计模型

**Lecture 3. Parametric Statistic Models 参数统计模型**

#Courses/MITx/18.6501x

1. Motivation 动机

2. Objectives

Parametric Statistical Models

At the end of this lecture, you will be able to do the following:

  • Construct a statistical model .
  • Give several examples of statistical models involving commonly used distributions (e.g. Gaussian, Poisson)
  • Distinguish between parametric and non-parametric statistical models.
  • Determine whether or not a parameter in a statistical model is identified .

⠀The Unit 2 slides below, which are for the next 5 lectures , are also available in the resource tab at the top of this course site.

3. The goals of statistics 统计的目标

Estimation, confidence intervals, and hypothesis testing

统计推断的三个主要内容(Trinity of Statistical Inference):

  • Estimation: 估计
  • Confidence Intervals: 置信区间
  • Hypothesis Testing: 假设检验

4. Statistical modelling 统计建模

An example of a statistical model

5. Statistical model 统计模型

Statistical model: definition 定义

statistical mode: is associated to that statistical experiment is a pair:

$$

(E, (\mathbb{P_\theta})_{\theta \in \Theta})

$$

  • $E$: 可观测样本空间(measurable sample space)
  • $(\mathbb{P_\theta})_{\theta \in \Theta}$ : 对E的概率测量族( is a family of probaility measures on $E$);
  • $\Theta$:参数集合(大写的theta) is any set, called parameter set

练习题:A Non-Example of a Statistical Model

选A。

一个合法的统计模型,必须包括一个可观测的样本空间,并且这个样本空间是固定的。

选项A的样本空间 $[0, a]$ 依赖未知参数 $a$,所以不是一个合法的统计模型定义。

6. Types of Statistical Models 统计模型的类型

Parametric, nonparametric, and semiparametric models

nuisance parameter: 冗余参数

统计模型主要有三类:

  • 参数模型(parametric model)
  • 非参数模型(nonparametric model)
  • 半参数模型(semiparametric model)

7. Examples of Parametric Models 参数模型的例子

Examples of parametric and nonparametric models

练习题:Statistical Model for a Censored Exponential

cencored version: 删失版本

这道题的解题思路是:

Y服从伯努利分布,所以Y的参数空间是p(即 成功的概率)

当X>5时,Y取值为1,所以p = P(X>5),可以由指数分布的定义得到:

$$

(P >= a) = e^{- \lambda a}

$$

也可以由定义计算:

$$

P(X>5) = 1-P(X<=5) = 1-e^{-\lambda x} = 1-(1-e^{-\lambda x})

$$

8. Mixtures of Gaussians 高斯混合

第二个分布的sigma^2变大了

9. Another representation of mixtures of Gaussians 高斯混合的另一种表征

注意这里的Z取值只有 ${0,1}$,意味着 $X$ 的取值也是 ${X_1, X_2}$。而不是取概率的意思。

这样做的好处是,减轻了计算复杂度。当编程计算混合高斯分布时,只需要随机从Ber里取 $Z$,然后将 $Z$ 的取值对应具体的某一个高斯分布即可。

练习题:Mean and Variance of a Mixture

解答:

第一问求期望比较简单,带入pi就可以计算。

关键是第二问,求 $\text{Var} (X)$。

这里需要用到求方差的定义公式进行展开:

$$

Var(X) = \mathbb{E}[X^2] - \mathbb{E}[X]^2

$$

利用全期望公式和全方差公式:

$$

\mathbb{E}[X^2]=\mathbb{E}[\mathbb{E}[X^2 | Z]]

$$

当 $Z = 1$ 时, $X = X_1$:

$$

\mathbb{E}[X^2 | Z] = \mathbb{E}[X_1^2] = Var(X_1) + \mathbb{E}[X_1]^2= 0+1 = 1

$$

当 $Z = 0$ 时, $X = X_2$:

$$

\mathbb{E}[X^2 | Z] = \mathbb{E}[X_2^2] = Var(X_2) + \mathbb{E}[X_2]^2= 1+1 = 2

$$

因此:

$$

\mathbb{E}[X^2] = \pi*\mathbb{E}[X_1^2] + (1-\pi)*\mathbb{E}[X_2^2] = 7/4

$$

所以,计算方差 $Var(X)$:

$$

Var(X) = \mathbb{E}[X^2] - \mathbb{E}[X]^2 = 7/4 - 9/16 = 19/16

$$

另一个解题方式是利用条件方差公式,直接把deepseek的解答复制过来:

官方给出的标准答案:

练习题:Moment Generating Function of a Mixture

解答:

两个解法。标准答案给的解法非常简略:

$$

\mathbb{E}[e^{Xt}] = \pi*\mathbb{E}[e^{X_1t}] + (1-\pi)*\mathbb{E}[e^{X_2t}]

$$

然后直接带入正态分布随机变量的矩母函数公式:

$$

M_X[t] = e^{ut + \frac{1}{2}\sigma^2t^2}

$$

10. Mixtures of Gaussians model 混合高斯模型

11. Examples of nonparametric models 非参数模型的样例

非参数模型的意思是pdf/cdf 无法用一个特定的模型和参数来进行表示。

实际上,所有符合概率分布的函数(非负性、归一性)都有可能成为一个非参数模型。如PPT中展示的unimodal分布。这个时候,概率分布和参数都都是其自身。

特定模型(例如高斯分布)仅仅是unimodal的一个子集。

标准定义:

parametric model: A statistical model$(E, \{P_{\theta}\}_{\theta\in\Theta})$ is parametric if all parameters $\theta \in \Theta$ can be specified by a finite number of unknowns.

Equivalently, this means that $\Theta$ is a subset of $\mathbb R^m$. In particular, if $\Theta \subset \mathbb R^m$, then $P_\theta$ is uniquely specified by the  $m$ entries of the vector $\theta$.这意味着,参数空间由有限维向量指定。

练习题:

12. Identifiability 可识别性

Back
6.86x

Lecture 8. Introduction to Feedforward Neural Networks 前馈神经网络导论

**Lecture 8. Introduction to Feedforward Neural Networks 前馈神经网络导论**

#Courses/MITx/6.86x

1. Unit 3 Overview

At the end of this unit, you will be able to

  • Implement a feedforward neural networks from scratch to perform image classification task.
  • Write down the gradient of the loss function with respect to the weight parameters using back-propagation algorithm and use SGD to train neural networks.
  • Understand that Recurrent Neural Networks (RNNs) and long short-term memory (LSTM) can be applied in modeling and generating sequences.
  • Implement a Convolutional neural networks (CNNs) with machine learning packages.

2. Objectives

Introduction to Feedforward Neural Networks

At the end of this lecture, you will be able to

  • Recognize different layers in a feedforward neural network and the number of units in each layer.
  • Write down common activation functions such as the hyperbolic tangent function , and the rectified linear function (ReLU) .
  • Compute the output of a simple neural network possibly with hidden layers given the weights and activation functions .
  • Determine whether data after transformation by some layers is linearly separable, draw decision boundaries given by the weight vectors and use them to help understand the behavior of the network.

3. Motivation

Motivation to Neural Networks

4. Neural Network Units

5. Introduction to Deep Neural Networks

一道练习题:Representation Power of Neural Networks: 2

答案:

这道题直接去推导反而比较痛苦,用德摩根定律(De Morgan's Law)来做比较方便:

德摩根定律:

  1. 第一定律: NOT(A AND B) = NOT(A) OR NOT(B)
  2. 第二定律:NOT(A OR B) = NOT(A) AND NOT(B)

德摩根定律的推导:

  1. NAND门:NAND(A,B) = NOT(A AND B)
  2. NOR门:NOR(A, B) = NOT(A OR B)

NOT(x) = NAND(x, x) = NOT(x AND x)

所以这道题里:

第一个图想表达的是:NAND(x1, x1) = NOT(x1 AND x1) = NOT(x1)

第二个图想表达的是:NAND(NAND(x1, x1) AND NAND(x2, x2)) = NAND(NOT(x1) and NOT(x2)) = NOT(NOT(x1 OR x2)) = OR(x1, x2)

妈的头都看晕了

6. Hidden Layer Models

一道练习题:

答案是:

注意也可以带入数值进行计算(算起来比较麻烦),以B为例,带入之后的计算:

D ={[-9, 7], 1}, {[-1, -1], -1}, {[-1, -1], -1}, {[7, -9], 1}

带入C得到的D的集合和B选项是对称的

这个时候会发现三个点在二维平面上是在一条直线上,即,线性不可分。但我一开始画图画错了所以选错了:(

另外答案给出了一个法则:对于原本线性不可分的问题,对特征空间做线性变换,也一样保持线性不可分。

问题2:

这里我就不再计算了,猜测所有非线性变换均可分。如果一定要计算,可以这样:

RELU(z):

tanh(z):

Back
18.6501x

MITx 18.6501x Fundamentals of Statistics | 统计学基础

**MITx 18.6501x Fundamentals of Statistics | 统计学基础**

#Courses/MITx/18.6501x #Statistics & Machine Learning#

Brief Introduction 课程简介

Instructor: Professor Philippe Rigollet ~https://math.mit.edu/~rigollet/~

Welcome to 18.6501x Fundamentals of Statistics. This mathematics course offers an introduction to the theoretical foundations of statistical methods that are useful in many applications. The goal is to understand the role of mathematics in the research and development of efficient statistical methods. At the end of this class, you will be able to do the following:

1 From a real-life situation, formulate a statistical problem in mathematical terms;

2 Understand the role of mathematics in the design and analysis of statistical methods;

3 Select appropriate statistical methods;

4 Understand the implications and limitations of various methods.

⠀You will expand your statistical knowledge to not only include a list of methods, but also the mathematical principles that link these methods together, equipping you with the tools you need to develop new ones.

This course does not follow a textbook, but a good reference *All of Statistics: A Concise Course in Statistical Inference*, by Larry Wasserman.

Syllabus 课程大纲

Unit 0. Brief Prerequisite Reviews, Homework 0, and Project 0 先修条件

Unit 1. Introduction to statistics 统计学导论

[[Lecture 1. What is statistics 什么是统计]]

[[Lecture 2. Probability Redux 概率论复习]]

Unit 2. Foundation of Inference 推断基础

[[Lecture 3. Parametric Statistic Models 参数统计模型]]

[[Lecture 4. Parametric Estimation and Confidence Intervals 参数估计与置信区间]]

[[Lecture 5. Confidence Intervals and Delta Method 置信区间与delta方法]]

Unit 3. Methods of Estimation 估计方法

[[Lecture 6. Measures of Distance Between Probability Distributions 测量概率分布的距离]]

[[Lecture 7. Computing the Maximum Likelihood Estimator 计算极大似然估计量]]

[[Lecture 8. Examples of Maximum Likelihood Estimators 极大似然估计量的例子]]

[[Lecture 9. Statistical Properties of the MLE 极大似然估计量的统计性质]]

[[Lecture 10. Other Methods of Estimation: Method of Moments and M-Estimation 其他估计方法:矩方法和M-估计]]

(Optional Ungraded Material) Extension to Multivariate Statistics

Unit 4.Parametric Hypothesis testing 参数假设检验

[[Lecture 11. Introduction to Parametric Hypothesis Testing 参数假设检验导论]]

[[Lecture 12. The Wald Test and Likelihood Ratio Test -Wald检验与似然比检验]]

[[Lecture 13. The T-test T检验]]

[[Lecture 14. Multiple Hypothesis Testing 多重假设检验]]

Unit 5 Nonparametric Hypothesis testing 非参数假设检验

[[Lecture 15. Goodness of Fit Test for Discrete Distributions 对离散分布的拟合优度检验]]

Unit 6 Bayesian statistics 贝叶斯统计

[[Lecture 18. Introduction to Bayesian Statistics 贝叶斯统计导论]]

Unit 7 Linear Regression 线性回归

[[\[Lecture 20\] Linear Regression 1 线性回归1]]

[[Lecture 21. Linear Regression 2 线性回归2]]

Unit 8 Generalized Linear Models 广义线性模型

(Optional) Unit 9 Principal component analysis (选修)主成分分析

Course Clalendar 课程日历

Back
6.431

MITx 6.431x Probability - The Science of Uncertainty and Data | 概率论

**MITx 6.431x Probability - The Science of Uncertainty and Data | 概率论**

#Courses/MITx/6.431

Brief Introduction 课程简介

Instructor:

Syllabus 课程大纲

Unit 0. Overview

Unit 1. Probability models and axioms 概率模型

~Lecture 1. Probability models and axioms~

~Mathematical background: Sets; sequences, limits, and series; \(un\)countable sets.~

Unit 2. Conditioning and independence 条件与独立

Unit 3. Counting计数法

~Lecture 4. Counting~

Unit 4.Discrete random variables 离散随机变量

~Lecture 5. Probability mass functions and expectations~

Unit 5. Continuousrandom variables 连续随机变量

~Lecture 8. Probability density functions 概率密度函数~

Unit 6. Further topics on random variables 随机变量高级主题

In this unit we discuss a number of topics on random variables:

  • Methods for calculating the distribution of a function of one or more random variables, including the special case of the sum of two independent random variables
  • The concepts of covariance and correlation between two random variables
  • An abstract perspective under which conditional expectations are viewed as random variables

[[Lecture 11. Derived distributions 导出分布]]

[[Lecture 12. Sums of independent r.v.'s; Covariance and correlation 独立随机变量和,协方差与相关性]]

[[Lecture 13. Conditional expectation and variance revisited; Sum of a random number of independent r.v.'s 条件期望与条件方差复习;随机数个独立随机变量和]]

Unit 7. Bayesian Inference 贝叶斯推断

In this unit, we focus on Bayesian inference, including both hypothesis testing and estimation problems.

a) We apply the Bayes rule to find the posterior distribution of an unknown random variable given one or multiple observations of related random variables.

b) We discuss the most common methods for coming up with a point estimate of the unknown random variable (Maximum a Posteriori probability estimate, Least Mean Squares estimate, and Linear Least Mean Squares estimate).

c) We consider the question of performance analysis, namely, the calculation of the probability of error in hypothesis testing problems or the calculation of the mean squared error in estimation problems.

d) To illustrate the methodology, we pay special attention to a few canonical problems such as linear normal models and the problem of estimating the unknown bias of a coin.

[[Lecture 14. Introduction to Bayesian inference 贝叶斯统计推断导论]]

[[Lecture 15. Linear models with normal noise 正态噪声的线性模型]]

[[Lecture 16. Least mean squares (LMS) estimation 最小均方估计]]

Unit 8.Limit theorems and classical statistics 极限理论与经典统计

In this unit, we introduce some useful inequalities and develop some limit theorems (the weak law of large numbers and the central limit theorem). We also use these tools in the context of a brief introduction to the conceptual framework and some basic methods of classical statistics.

[[\[Lecture 18\] Inequalities, convergence, and the Weak Law of Large Numbers 不等式,收敛性与弱大数定律]]

[[Lecture 19. The Central Limit Theorem (CLT) 中心极限定理]]

[[\[Lecture 20\] An introduction to classical statistics 经典统计导论]]

Unit 9. Bernoulli and Poisson processes 伯努利与泊松过程

In this unit, we introduce and study in some detail the properties of two basic random processes (Bernoulli and Poisson) that can be used to describe random arrivals over time.

Unit overview slide: ~[\[clean\]](https://courses.edx.org/asset-v1:MITx+6.431x+2T2025+type@asset+block/lectureslides_U09-overview-slide.pdf)~

Printable transcript available ~here~.

The material in this unit is covered in ~Chapter 6~ of the text.

The same material, in live lecture hall format, can be found on OCW (~Lecture 13~, ~Lecture 14~, ~Lecture 15~) and YouTube (~Lecture 13~, ~Lecture 14~, ~Lecture 15~).

Back
6.86x

MITx 6.86x Machine Learning with Python-From Linear Models to Deep Learning | Python机器学习

**MITx 6.86x Machine Learning with Python-From Linear Models to Deep Learning | Python机器学习**

#Courses/MITx/6.86x

#Statistics & Machine Learning#

Brief Introduction 课程简介

这个课程是MITx的data science MicroMaster项目的第三个课程,定位是研究生层次(graduate level)的机器学习课程,比较偏理论。

课程整体上设计和MIT的本科机器学习课程6.036(Intro to Machine Learning)基本类似,但授课内容更加简略,需要额外找很多资料查看。

6.036有网络公开版本,放在了MIT的OCW上:~Introduction to Machine Learning~ 6.036的最新版本更新为了6.390,但课程内容差不太多,主要增加了关于transformer的内容。~6.390 Intro to Machine Learning 官方网站,但没有在线资源~

一个6.036的课程笔记(by Andrew Lin): [[Andrew Lin的个人网站-MIT数学博士,写了不少课程notes]] 其他关于6.86x的学习资料:~6.86x的学习资料~

Syllabus 课程大纲

Unit 0. Brief Prerequisite Reviews, Homework 0, and Project 0 先修条件

Unit 1. Linear Classifiers and Generalizations (2 weeks) 线性分类器和泛化

[[Lecture 1. Introduction to Machine Learning 机器学习导论]] [[Lecture 2. Linear Classifier and Perceptron 线性分类器与感知机]] [[Lecture 3 Hinge loss, Margin boundaries and Regularization 合页损失, 边际约束和正则化]] [[Lecture 4. Linear Classification and Generalization 线性分类器与一般化]]

Unit 2. Nonlinear Classification, Linear regression, Collaborative Filtering (2 weeks) 非线性分类器,线性回归,协同过滤

[[Lecture 5. Linear Regression 线性回归]] [[Lecture 6. Nonlinear Classification 非线性分类]] [[Lecture 7. Recommender Systems 推荐系统]]

Unit 3. Neural networks (2.5 weeks) 神经网络

[[Lecture 8. Introduction to Feedforward Neural Networks 前馈神经网络导论]]

~Lecture 9. Feedforward Neural Networks, Back Propagation, and Stochastic Gradient Descent \(SGD\) 前馈神经网络,反向传播与随机梯度下降~ [[Lecture 10. Recurrent Neural Networks 1 循环神经网络1]] [[Lecture 11. Recurrent Neural Networks 2 循环神经网络2]] [[Lecture 12. Convolutional Neural Networks 卷积神经网络]]

~Project 3: Digit recongition \(Part 2\) 数字识别~

Unit 4. Unsupervised Learning (2 weeks) 无监督学习

~Lecture 13. Clustering 1 聚类1~

~Lecture 14. Clustering 2 聚类2~

~Lecture 15. Generative Models 生成模型~

~Lecture 16. Mixture Models, EM algorithm 混合模型,EM算法~

Unit 5. Reinforcement Learning (2 weeks) 强化学习

~Lecture 17. Reinforcement Learning 1 强化学习 1~

~Lecture 18. Reinforcement Learning 2 强化学习 2~

~Lecture 19: Applications: Natural Language Processing 应用:自然语言处理~

Course Clalendar 课程日历

Back
6.86x

Project 3: Digit recongition (Part 2) 数字识别

**Project 3: Digit recongition (Part 2) 数字识别**

#Courses/MITx/6.86x

1. 用numpy写一个两层的前馈神经网络

模型结构:

3. Activation Functions

The first step is to design the activation function for each neuron. In this problem, we will initialize the network weights to 1, use ReLU for the activation function of the hidden layers, and use an identity function for the output neuron. The hidden layer has a bias but the output layer does not. Complete the helper functions in neural_networks.py, including rectified_linear_unit and rectified_linear_unit_derivative, for you to use in the NeuralNetwork class, and implement them below.

4. Training the Network

Forward propagation is simply the summation of the previous layer's output multiplied by the weight of each wire, while back-propagation works by computing the partial derivatives of the cost function with respect to every weight or bias in the network. In back propagation, the network gets better at minimizing the error and predicting the output of the data being used for training by incrementally updating their weights and biases using stochastic gradient descent.

We are trying to estimate a continuous-valued function, thus we will use squared loss as our cost function and an identity function as the output activation function. f(x) is the activation function that is called on the input to our final layer output node, and is the predicted value, while is the actual value of the input. When you're done implementing the function train (below and in your local repository), run the script and see if the errors are decreasing. If your errors are all under 0.15 after the last training iteration then you have implemented the neural network training correctly.

$$

C =\frac{1}{2} * (y - \hat{a})^2

$$

$$

f(x) = x

$$

You'll notice that the train function inherits from NeuralNetworkBase in the codebox below; this is done for grading purposes. In your local code, you implement the function directly in your Neural Network class all in one file. The rest of the code in NeuralNetworkBase is the same as in the original NeuralNetwork class you have locally.


import numpy as np
import math

"""
 ==================================
 Problem 3: Neural Network Basics
 ==================================
    Generates a neural network with the following architecture:
        Fully connected neural network.
        Input vector takes in two features.
        One hidden layer with three neurons whose activation function is ReLU.
        One output neuron whose activation function is the identity function.
"""

## 定义ReLu函数及其导数,注意都是标量形式

def rectified_linear_unit(x):

""" Returns the ReLU of x, or the maximum between 0 and x."""

TODO

return(max(x,0))

def rectified_linear_unit_derivative(x):

""" Returns the derivative of ReLU."""

TODO

derivatives = 0

if x>0:

derivatives = 1

else:

derivatives = 0

return(derivatives)

定义输出激活函数(恒等函数)及其导数,都是标量形式。


def output_layer_activation(x):
    """ Linear function, returns input as is. """
    return x

def output_layer_activation_derivative(x):
    """ Returns the derivative of a linear function: 1. """
    return 1

class NeuralNetwork():
    """
        Contains the following functions:
            -train: tunes parameters of the neural network based on error obtained from forward propagation.
            -predict: predicts the label of a feature vector based on the class's parameters.
            -train_neural_network: trains a neural network over all the data points for the specified number of epochs during initialization of the class.
            -test_neural_network: uses the parameters specified at the time in order to test that the neural network classifies the points given in testing_points within a margin of error.
    """

    def __init__(self):

        # DO NOT CHANGE PARAMETERS (Initialized to floats instead of ints)
        self.input_to_hidden_weights = np.matrix('1. 1.; 1. 1.; 1. 1.')
        self.hidden_to_output_weights = np.matrix('1. 1. 1.')
        self.biases = np.matrix('0.; 0.; 0.')
        self.learning_rate = .001
        self.epochs_to_train = 10
        self.training_points = [((2,1), 10), ((3,3), 21), ((4,5), 32), ((6, 6), 42)]
        self.testing_points = [(1,1), (2,2), (3,3), (5,5), (10,10)]

    def train(self, x1, x2, y):

        ### Forward propagation ###
        input_values = np.matrix([[x1],[x2]]) # 2 by 1

        # Calculate the input and activation of the hidden layer
        ## 是否要添加biases? 根据题目的描述,hidden_layer有bias但output没有
        hidden_layer_weighted_input = self.input_to_hidden_weights @ input_values + self.biases # TODO (3 by 1 matrix)
        rectified_linear_unit_vec = np.vectorize(rectified_linear_unit)
        hidden_layer_activation = rectified_linear_unit_vec(hidden_layer_weighted_input)# TODO (3 by 1 matrix)

        output = self.hidden_to_output_weights @ hidden_layer_activation# TODO
        output_layer_activation_vec = np.vectorize(output_layer_activation)
        activated_output = output_layer_activation_vec(output) # TODO

        ### Backpropagation ###

        # Compute gradients
        ## output loss是平方损失函数,output_layer_error即为输出层误差
        output_layer_error = -(y - activated_output) # TODO
        ## 计算输出层激活函数的导数,虽然值恒为1,但代码要求完整写出来。
        output_derivative_vec = np.vectorize(output_layer_activation_derivative)
        output_layer_activation_derivative_vec = output_derivative_vec(output)
        out_layer_error = np.multiply(output_layer_error, output_layer_activation_derivative_vec)
        ## 隐藏层激活函数的导数
        rectified_linear_unit_derivative_vec = np.vectorize(rectified_linear_unit_derivative)
        ## 隐藏层误差是损失函数对隐藏层激活值的导数,具体计算等于hidden_to_out_weight的转置 * 输出层误差(因为这里只有一个隐藏层)⊙ 隐藏层激活函数的导数
        ## 反向传播误差 =  hidden_to_out_weight.T * 输出层误差
        ## 隐藏层误差 = 反向传播误差 ⊙ 隐藏层激活函数导数
        hidden_layer_error = np.multiply((self.hidden_to_output_weights.T @ output_layer_error),
                                         rectified_linear_unit_derivative_vec(hidden_layer_weighted_input))   # TODO (3 by 1 matrix)

        bias_gradients = hidden_layer_error # TODO
        hidden_to_output_weight_gradients = output_layer_error @ hidden_layer_activation.T # TODO
        input_to_hidden_weight_gradients = hidden_layer_error @ input_values.T# TODO

        # Use gradients to adjust weights and biases using gradient descent
        self.biases = self.biases - self.learning_rate*bias_gradients# TODO
        self.input_to_hidden_weights = self.input_to_hidden_weights - self.learning_rate*input_to_hidden_weight_gradients# TODO
        self.hidden_to_output_weights = self.hidden_to_output_weights - self.learning_rate*hidden_to_output_weight_gradients # TODO

    def predict(self, x1, x2):

        input_values = np.matrix([[x1],[x2]])

        # Compute output for a single input(should be same as the forward propagation in training)
        hidden_layer_weighted_input = self.input_to_hidden_weights @ input_values + self.biases # TODO
        relu_activation_vec = np.vectorize(rectified_linear_unit)
        hidden_layer_activation = relu_activation_vec(hidden_layer_weighted_input) # TODO
        output = self.hidden_to_output_weights @ hidden_layer_activation # TODO
        output_layer_activation_vec = np.vectorize(output_layer_activation)
        activated_output = output_layer_activation_vec(output)# TODO

        return activated_output.item()
    #
    # # Run this to train your neural network once you complete the train method
    def train_neural_network(self):

        for epoch in range(self.epochs_to_train):
            for x,y in self.training_points:
                self.train(x[0], x[1], y)
    #
    # # Run this to test your neural network implementation for correctness after it is trained
    def test_neural_network(self):

        for point in self.testing_points:
            print("Point,", point, "Prediction,", self.predict(point[0], point[1]))
            if abs(self.predict(point[0], point[1]) - 7*point[0]) < 0.1:
                print("Test Passed")
            else:
                print("Point ", point[0], point[1], " failed to be predicted correctly.")
                return

x = NeuralNetwork()

x.train_neural_network()


# UNCOMMENT THE LINE BELOW TO TEST YOUR NEURAL NETWORK
x.test_neural_network()

train()函数主要有以下两部分组成:

  1. 前向传导
  2. hidden_layer_weighted_input(隐藏层加权输入):``input_to_hidden_weights @ input_values + self.biases`` 。注意这里需要参数在前,特征在后
  3. 对隐藏层的激活函数ReLu向量化,用np.vectorize(func)实现
  4. 计算隐藏层的激活值:``hidden_layer_activation = rectified_linear_unit_vec(hidden_layer_weighted_input)``
  5. 计算``output: hidden_to_output_weights @ hidden_layer_activation`` 同样是权重参数在前,特征在后
  6. 对输出层激活函数向量化后计算输出层激活值:``activated_output = output_layer_activation_vec(output)``

总的来说前向传导是比较简单的,按部就班计算

  1. 反向传播

这部分比较复杂

  1. 计算输出层的误差error
  2. ``output_layer_error = -(y - activated_output)`。完整的写法应该是`out_layer_error = np.multiply(output_layer_error, output_layer_activation_derivative_vec)``,计算输出层对activated_output求导的结果再与输出层激活函数偏导逐元素相乘。

# Compute gradients
## output loss是平方损失函数,output_layer_error即为输出层误差
output_layer_error = -(y - activated_output) # TODO
## 计算输出层激活函数的导数,虽然值恒为1,但代码要求完整写出来。
output_derivative_vec= np.vectorize(output_layer_activation_derivative)
output_layer_activation_derivative_vec = output_derivative_vec(output)
out_layer_error = np.multiply(output_layer_error, output_layer_activation_derivative_vec)

计算隐藏层误差error: 这里是先求反向传播误差,即用hidden_to_out_weight的转置 * 输出层误差 再求隐藏层误差:反向传播误差⊙ 隐藏层激活函数的导数


## 隐藏层激活函数的导数
rectified_linear_unit_derivative_vec = np.vectorize(rectified_linear_unit_derivative)
## 隐藏层误差是损失函数对隐藏层激活值的导数,具体计算等于hidden_to_out_weight的转置 * 输出层误差(因为这里只有一个隐藏层)⊙ 隐藏层激活函数的导数hidden_layer_error = np.multiply((self.hidden_to_output_weights.T @ output_layer_error),rectified_linear_unit_derivative_vec(hidden_layer_weighted_input))

1 计算梯度

  • bias_gradients:偏置项的梯度即为隐藏项误差
  • hidden_to_output_weight_gradients:隐藏层到输出层的权重梯度为:输出层误差 @ 隐藏层的激活值转置(隐藏层的激活值为隐藏层ReLu结果)
  • input_to_hidden_weight_gradients:输入层到隐藏层的权重梯度为:**隐藏层误差 @ 输入层的激活值转置(输入层激活函数为恒等函数)

bias_gradients = hidden_layer_error # TODO
hidden_to_output_weight_gradients = output_layer_error @ hidden_layer_activation.T # TODO
input_to_hidden_weight_gradients = hidden_layer_error @ input_values.T# TODO

1 梯度更新 self.biases = self.biases - self.learning_rate* bias_gradients

⠀self.input_to_hidden_weights = self.input_to_hidden_weights - self.learning_rate* input_to_hidden_weight_gradients

self.hidden_to_output_weights = self.hidden_to_output_weights - self.learning_rate* hidden_to_output_weight_gradients

5. Predicting the Test Data



class NeuralNetwork(NeuralNetworkBase):

    def predict(self, x1, x2):

        input_values = np.matrix([[x1],[x2]])

        # Compute output for a single input(should be same as the forward propagation in training)
        hidden_layer_weighted_input = self.input_to_hidden_weights @ input_values + self.biases # TODO
        relu_activation_vec = np.vectorize(rectified_linear_unit)
        hidden_layer_activation = relu_activation_vec(hidden_layer_weighted_input) # TODO
        output = self.hidden_to_output_weights @ hidden_layer_activation # TODO
        output_layer_activation_vec = np.vectorize(output_layer_activation)
        activated_output = output_layer_activation_vec(output)# TODO

        return activated_output.item()

8. Fully-Connected Neural Networks

| model | val accuracy | test accuracy |

|:-:|:-:|:-:|

| baseline | 0.932487 | 0.9204727564102564 |

| batch size 64 | 0.940020 | 0.9314903846153846 |

| learning rate 0.01 | 0.918179 | 0.9206730769230769 |

| momentum 0.9 | 0.902072 | 0.8891225961538461 |

| LeakyReLu activation | 0.931985 | 0.9207732371794872 |

Improving Accuracy - Hidden 128

hidden representation size 10 -> 128

| model | val accuracy | test accuracy |

|:-:|:-:|:-:|

| baseline | 0.978275 | |

| batch size 64 | 0.976310 | |

| learning rate 0.01 | 0.955047 | |

| momentum 0.9 | 0.969084 | |

| LeakyReLu activation | 0.978944 | |

9. Convolutional Neural Networks

用torch搭积木


model = nn.Sequential(
              nn.Conv2d(1, 32, (3, 3)),
              nn.ReLU(),
              nn.MaxPool2d((2, 2)),
              nn.Conv2d(in_channels=32, out_channels=64, kernel_size=(3,3)),
              nn.ReLU(),
              nn.MaxPool2d((2, 2)),
              Flatten(),
              nn.Linear(1600, 128),
              nn.Dropout(0.5),
              nn.Linear(128, 10)
        )

### 10. Overlapping, multi-digit MNIST
### Fully connected network
class MLP(nn.Module):

    def __init__(self, input_dimension):
        super(MLP, self).__init__()
        self.flatten = Flatten()
        # TODO initialize model layers here
        self.hidden = nn.Linear(input_dimension, 64)
        self.out1 = nn.Linear(64, 10)
        self.out2 = nn.Linear(64, 10)

    def forward(self, x):
        xf = self.flatten(x)
        x = self.flatten(x)
        x = F.relu(self.hidden(x))
        out_first_digit = self.out1(x)
        out_second_digit = self.out2(x)
        # TODO use model layers to predict the two digits

        return out_first_digit, out_second_digit

Convolutional model


class CNN(nn.Module):

    def __init__(self, input_dimension):
        super(CNN, self).__init__()
        # TODO initialize model layers here
        self.conv_layers = nn.Sequential(
            nn.Conv2d(1, 32, (3,3)),
            nn.ReLU(),
            nn.MaxPool2d((2,2)),
            nn.Conv2d(32, 64, (3,3)))

        self.fc = Flatten()
        self.linear = nn.Linear(12672, 64)
        self.dropout = nn.Dropout(0.5)
        self.out1 = nn.Linear(64, 10)
        self.out2 = nn.Linear(64, 10)

    def forward(self, x):

        # TODO use model layers to predict the two digits
        x = self.conv_layers(x)
        x = self.fc(x)
        x = self.linear(x)
        x = self.dropout(x)
        out_first_digit = self.out1(x)
        out_second_digit = self.out2(x)

        return out_first_digit, out_second_digit
Back
18.6501x

[Lecture 20] Linear Regression 1 线性回归1

**[Lecture 20] Linear Regression 1 线性回归1**

#Stats-ML #Courses/MITx/18.6501x

**1. Motivation** 动机

**2. Objectives**

Linear Regression

At the end of this lecture, you will be able to do the following:

  • Understand the goals of regression .
  • Identify the regression function and know what property of the dependent random variable the regression function is trying to capture as a function of the explanatory variables .
  • Plot and understand box-and-whisker plots .
  • Know the linear regression function .
  • Understand the theoretical and empirical linear regression solutions.
  • Write the linear regression problem as a noisy linear model .

⠀The Unit 6 slides below, which are for the next 2 lectures , are also available in the resource tab at the top of this course site.

**3. Goals of Regression**

**4. Modeling Assumptions in Regression** 回归的模型假设

Review: Joint, Conditional, and Marginal Distributions

复习联合分布与边缘分布。

假设 $(X,Y)$ 是一对随机变量并且联合密度为 $h(x,y) = x+y$, 定义域是 $[0,1]^2$ 。

  1. 求X的边缘密度函数。

边缘密度函数就是联合密度函数对另一个变量积分,所以:

$$

h(x) = \int_0^1h(x,y)dy = \int_0^1(x+y)dy = x+\frac{1}{2}

$$

  1. 求给定 $X = x$ 时,Y的条件密度函数 $h(y|x)$ 。

条件密度函数就是联合密度函数除以另一个变量的边缘密度函数。

$$

h(y|x) = \frac{h(x,y)}{h(x)} = \frac{x+y}{x+1/2}

$$

  1. 求条件方差 $Var(Y|X=x)$

求条件方差还是需要从定义入手:先求条件期望,再求条件二阶矩,然后用方差定义。

$$

\mathbf E[Y|X=x] = \int_0^1yh(y|x)dy = \frac{3x+2}{3(2x+1)}

$$

然后求条件二阶矩:

$$

\mathbf E[Y^2|X=x] = \int_0^1y^2h(y|x)dy = \frac{4x+3}{6(2x+1)}

$$

最后条件方差就是用定义:

$$

Var(Y|X=x) = \mathbf E[Y^2|X=x] - (\mathbf E[Y|X=x])^2

$$

标准答案可以不用化简,但化简其实是最浪费时间的。

Review: Joint, Conditional, and Marginal Distributions: Discrete Example

[!IMPORTANT]
$X$ 是一个服从泊松分布的离散随机变量。给定 $X=x$, $Y$ 是一个二项随机变量 $\text{Binom}(x,p)$
  1. 给定 $X=x,\ Y$ 的上下界分别是多少?

首先翻译这这道题给出来的条件:

$X \sim \text{Poisson}(\lambda)$

$Y|X=x \sim \text{Binom}(x,p)$

由于二项分布的取值是从0到n的整数(二项分布的Y是在n次实验里成功的次数),这里n = x, 所以Y的取值范围就是最小0次,最大n=x次。

  1. $E[Y|X=x]$ 和 $x$ 的关系。

二项分布的期望是np。在这道题里,由于n = x, 所以条件分布的期望:

$E[Y|X=x] = xp$

  1. 求无条件期望 $E[Y]$ 。

需要用到迭代期望定律(laws of iterated expectation): $E[Y] = E[E[Y|X]]$ 。

由前两问,可以知道

$$

\begin{aligned}

E[Y|X=x] &= xp \\

E[Y|X] &= Xp\\

E[Y] &= E[E[Y|X]] = E[Xp] = pE[X] = p \lambda

\end{aligned}

$$

**Modeling Assumptions**

在线性回归中,我们关心的是 $h(y|x)$ ,并不关心 $h(x)$。

**5. Partial Modeling, Regression Function, and Conditional Quantiles**

如果想要精确的描述X和Y的关系是非常复杂的一个事情,因为需要对每一个X的取值都估计一个密度。因此,我们只考虑描述在X条件下的一部分Y的性质(期望、中位数、分位数等)。这被称为部分建模(Partial Modeling)。

期望

给定 $X=x$, $Y$ 的条件期望方程被称为回归方程。

$$

\begin{aligned}

x \mapsto f(x) := \mathbb E[Y|X=x] &= \int yh(y|x)dy \\

&= \sum_{\Omega_Y}y\cdot\mathbf P(Y=y|X=x)

\end{aligned}

$$

其他概率

  • 条件中位数
  • 条件分位数
  • 条件方差

Concept Check: Conditional Quantile 概念复习:条件分位数

[!IMPORTANT]
令 $(X,Y)$ 是一对随机变量并且联合密度 $f(x,y)=x+y$,定义域为 $[0,1]^2$ 。
给定x, 求分位数 $q_\alpha(x)$ 使 $P[Y\le q_\alpha(x)|X=x] = 1-\alpha$ 。这个等于是求 $Y|X=x$ 的 $(1-\alpha)$ -分位数函数。

首先得到Y|X的条件密度函数 $h(y|x) =(x+y)/(x+1/2)$ 。

然后根据定义,写出条件分位数的概率:

$F_{Y|X}(y|x) = \int_0^qh(y|x)dy = 1-\alpha$

解这个方程,可以得到一个q的二次方程,求q在[0,1]内的根,即可。

**6. Plots of Conditional Distributions and Conditional Quantiles and Box-and-Whisker Plots**

第一章PPT是一个标准的线性回归方程。

接下来三张PPT用离散分布来说明。

离散分布的概率密度

离散分布的箱型图。

箱型图包含了:25%分位数、中位数、75%分位数。所以箱型图里的总概率为50%,超过箱型图的点被认为是离群点(outliers)。

箱型图的大小可以说明条件方差的变动。

**7. Linear Regression - Basic Setup**

Linear Regression: The Function for Conditional Expectation of Y Given a value x

在线性回归中,我们都基于这样一个假设:回归方程(regression function) 是线性的。

这是一个假设,因为E[Y|X=x]有无数种形式,我们需要假设最简单的一种形式,即

$$

v(x) := \mathbb E[Y\mid X=x] = a+bx

$$

[!IMPORTANT]
最小化问题(Minimization Problem):
假设 $X$ 是一个任意的随机变量,均值和方差为 $\mu, \sigma$ 。现在我们计算一个标量 $k$ ,使方程 $f(k) = \mathbb E[(X-k)^2]$ 最小。

对f(k)进行化简,有:$f(k) = E[X^2-2kX+k^2] = E[X^2] - 2kE[X] + k^2$

由于已知均值和方差,所以有: $f(k) = \sigma^2+\mu^2 - 2k*\mu + k^2$

这是一个关于k的二次函数,求极值就是函数求导。

$k = \arg\min f(k) = E[X] = \mu$

这个结论说明:对任意随机变量,要令其距离k的欧氏距离的期望最小,那么这个k就是他自身的期望。

由此引出下一道题:

[!IMPORTANT]
估计量(Estimator)
回归方程: $v(x) := \mathbb E[Y\mid X=x] = a+bx$ ,如果令 $\hat Y = g(X)$, 那么 $\hat Y$ 取什么值,可以令:
$$
\mathbb E[(Y-\hat Y)^2\mid X =x]
$$
最小。

这道题有两个解法,一是按照上一题的结论,可以得到 $\hat Y = \arg\min \mathbb E[(Y-\hat Y)^2\mid X =x] = E[Y] = v(x) = a+bx$

另一种解法是按照定义打开期望(计算方式与上面相同)。

These two exercises verify that the Least Squares Estimator is consistent in the following sense: using the actual distribution on $(X,Y)$  , the true pair $(a,b)$ itself is a least squares estimator.

**8. Probabilistic Analysis of Theoretical Linear Regression** 理论线性回归的概率分析

Derivation of Theoretical Linear Least Squares Regression I

Derivation of Theoretical Linear Least Squares Regression II

**Optimal Theoretical Regression Line**

理论线性回归(theoretical linear regression) 是使线性回归方程与Y的平方偏差期望最小的一条线,即:

$$

(a^*, b^*) = \arg\min_{(a,b)\in\mathbb R^2}\mathbb E[(Y-a-bX)^2]

$$

接下来求解a和b。

这里有一个化简的技巧:偏导和期望符号可以任意交换。在统计的课程上这个技巧永远成立。

分别对a和b求偏导,令其等于0,有:

$$

\begin{align}

\frac{\partial}{\partial a}\mathbb E[(Y-a-bX)^2] &= E[Y]-a^*-b^*E[X]=0 \\

\frac{\partial}{\partial b}\mathbb E[(Y-a-bX)^2] &= E[XY]-a^*E[X]-b^*E[X^2] = 0 \\

\text{化简得:}\\

a^* &= E[Y]-b^*E[X] \\

b^* &= \frac{Cov(X,Y)}{Var(X)}

\end{align}

$$

观察 b的性质。b是斜率,分子是X和Y的协方差,分母是X的方差。协方差衡量了X和Y的变动方向。分母X的方差衡量尺度。

**9. Linear Regression in Practice: Linear Model Plus Noise** 线性回归实践:线性模型叠加噪声

**10. Empirical Linear Regression via The Statistical Hammer**

**Least Squares Estimator (LSE)**

在实践中,$a^*, b^*$ 需要从数据中进行估计。利用 $a^*, b^*$ 的定义,将期望改为样本均值,就可以得到具体的数值。

这就是最小二乘估计量(Least Squares Estimator, LSE)。

目标是通过计算LSE,拟合线性模型 $Y=a+bX+\epsilon$ ,最小化损失函数:

$$

\frac{1}{n}\sum_{i=1}^n(y_i - (a+bx_i))^2

$$

结果为:

$$

\hat a = \bar y - \frac{\overline{xy}-\bar x \cdot\bar y}{\overline{x^2}-\overline{y^2}}\bar x

$$

$$

\hat b= \frac{\overline{xy}-\bar x\cdot\bar y}{\overline{x^2}-\bar x^2}

$$

**Residuals** 残差

注意这里的残差是指实际观测点与拟合方程(红线)的距离,所以残差也是一个估计值 $\hat \epsilon_i$。

理论上的噪声是蓝线与红线的差值。

Back
6.431

[Lecture 18] Inequalities, convergence, and the Weak Law of Large Numbers 不等式,收敛性与弱大数定律

**[Lecture 18] Inequalities, convergence, and the Weak Law of Large Numbers 不等式,收敛性与弱大数定律**

#Statistics & Machine Learning# #Courses/MITx/6.431

1. Lecture 18 overview and slides 概览

Printable transcript available ~here~.

Lecture slides: ~[\[clean\]](https://courses.edx.org/asset-v1:MITx+6.431x+2T2025+type@asset+block/lectureslides_L18-clean-slides.pdf)~ ~[\[annotated\]](https://courses.edx.org/asset-v1:MITx+6.431x+2T2025+type@asset+block/lectureslides_L18-annotated-slides.pdf)~

The material in this lecture is covered in ~Sections 5.1-5.3~ of the text.

2. The Markov inequality 马尔可夫不等式

马尔可夫不等式试图利用有限的信息(例如只知道期望)来回答极端事件的概率。

PPT给出了连续rv下的马尔可夫不等式推导,中间利用到了(对任意x都≥a,所以整个积分应该大于将x替换为a的积分)的性质。

第二种推导方式更加简单:构造一个特殊的r.v. Y, 利用Y的期望性质来计算。(Y ≤ X, so 期望也符合这个不等式)。

接下来是两个利用马尔可夫不等式的案例。

案例1中X是一个指数分布,可以很明显看出P(X≥a)的真实值为e^(-a),而马尔可夫不等式给出的上界是1/a,要远大于真实值。

案例2中X是一个均匀分布,但注意这里因为X包含了负数,所以不能直接利用马尔可夫不等式。可以通过将X取绝对值来符合马尔可夫不等式的定义,计算出的上界是2/3。(更进一步,可以利用均匀分布的对称性,将绝对值又转化为原本的X形式,计算出上界为1/3)。

同样远大于真实值1/8。

3. Exercise: Markov inequality

[!IMPORTANT]
Let $Z$ be a nonnegative random variable that satisfies $E(Z^4) = 4$. Apply the Markov inequality to the random variable $Z^4$ to find the tightest possible (given the available information) upper bound on $P(Z≥2)$.

这道题不能通过将 $E(Z^4)=4$ 化简,因为只知道四阶矩,推导不出一阶矩。因此需要想办法将Z变形为Z^4.

$$

P(Z\ge2) = P(Z^4\ge16) \le \frac{E[Z^4]}{16} = 1/4

$$

4. The Chebyshev inequality 切比雪夫不等式

从数学上看,切比雪夫不等式是马尔可夫不等式的一个更简单的应用。

切比雪夫不等式的要求是: X是一个随机变量,有限的均值和方差。

  • 对比马尔可夫不等式,切比雪夫不等式除了使用期望,还用到了方差的信息。

⠀在证明切比雪夫不等式时,需要用到马尔可夫不等式,注意到 $E[(X-\mu)^2]= Var(X-\mu) + E[(X-\mu)]^2. 方差等于 \sigma^2, 后面的期望为0.$

以下是切比雪夫不等式应用的一个例子:

如果我们假设k = 3:意味着我们在计算距离中心三个标准差的概率,这个概率≤1/9,对任何分布都成立。

如果我们继续使用上述的指数分布的案例,假设a是一个非常大的正整数:

  • 首先我们可以推导出 $P(X-1\ge a-1) \le P(|X-1|\ge a-1)$ (单侧概率小于双侧概率)
  • 然后套用切比雪夫不等式,因为a非常大,所以 $1/(a-1)^2 \approx 1/a^2$.
  • 切比雪夫不等式给到了一个比马尔可夫不等式更小的上界。

5. Exercise: Chebyshev inequality

直接套用公式的题

6. Exercise: Chebyshev versus Markov

注意切比雪夫不等式并不一定 永远都比马尔可夫不等式提供一个更强的上界。只有当a 足够大的时候,这个结论才成立。

7. The Weak Law of Large Numbers 弱大数定律WLLN

样本均值是一个随机变量(他是 $X_i$ 随机变量的函数),而总体均值(期望是一个常数)

样本均值的期望等于总体期望;

  • $E[M_n]$ 代表了两个平均:$M_n$ 是单次长实验中(one long experiment) 所有观测值 $X_i$ 的均值;而 $E[]$ 是对所有实验结果的期望。

⠀样本均值的方差等于总体方差/n 。(这里推导时用到了 $Var(X_i) = \sigma^2$ )

再利用切比雪夫不等式,可以得到弱大数定律的形式:

当n趋近于无穷时,样本均值减去期望的绝对值大于某个固定常数 $\epsilon$ 的概率趋近于0。

解释WLLN:

  • 在一次实验中,即使每次抽样X_i的观测值都有误差,但样本均值不可能距离真实均值太远;
  • 在同一个实验的多次独立重复中:样本均值就是事件A发生的经验频率。

8. Exercise: Sample mean bounds

9. Polling 选举问题

选举问题

这是一个关于WLLN和切比雪夫不等式的应用。

假设你进行选民抽样,如果你希望让整体抽样误差足够小: $|M_n - p| \le 0.01$,这是做不到的(无法确定性的保证,因为包含了未知参数p)。

接下来,我们改成将抽样误差大于0.01的概率足够小。这时候可以使用WLLN进行计算。

假设n = 10000, 同时总体方差未知,但由于这是一个伯努利分布,我们可以求出p(1-p)的最大值是1/4。这样可以计算出抽样误差大于0.01的最大概率为25%。

如果想进一步减小抽样误差过大的概率,那么只能:

  • 增加n的数量。当n=50000时,可以解出最大误差概率为5%;
  • 增大误差。例如可以把0.01的误差扩大到0.05或更大。

10. Exercise: Polling

11. Convergence in probability 依概率收敛

这里定义的依概率收敛:指的是:

一个序列Y_n,依概率收敛于一个数a。

对比常规收敛与依概率收敛

依概率收敛的性质

如果 $X_n \rightarrow a, Y_n \rightarrow b$, 依概率收敛。

  • 如果 $g(·)$ 是连续的,那么 $g(X_n) \rightarrow g(a)$
  • $X_n + Y_n \rightarrow a+b$

⠀但需要注意:如果 $X_n \rightarrow a$,不能得出 $E[X_n] \rightarrow a$

12. Convergence in probability examples 依概率收敛的例子

案例1说明,依概率收敛于0,但期望却趋近于无穷大。

依概率收敛只依赖分布的主体部分,不care尾部分布;然而期望对尾部分布更加敏感。

第二个案例更典型:

当X服从一个均匀分布时,X并不收敛于任何常数。

但如果我们令 $Y_n = \min\{X_i, \dots,X_n\}$,这时Y_n收敛于0。

推导过程(注意在这个18.6501的伯努利分布时常用到类似的化简技巧):

$P([|Y_n - 0|\ge \epsilon) = P(Y_n \ge \epsilon)$ 等同于所有一个X_i都必须大于 $\epsilon$,等于概率连乘,所以最后等于: $(1-\epsilon)^n$

总结:当我们想展示依概率收敛时:

  • 第一步:猜测这个序列收敛于什么常数;
  • 第二步:写出 $\epsilon$ 的概率表达式,计算其概率,展示其等于0.

13. Exercise: Convergence in probability

14. Related topics 相关主题

对尾部概率更好的bound(界):

  • 马尔可夫与切比雪夫不等式
  • Chernoff bound (切诺夫界)
  • 中心极限定理CLT

不同类型的收敛:

  • 依概率收敛
  • 依概率1收敛:对一个随机变量序列 $Y_n$,对一个实验的确定性输出结果 $\omega$, 关注 $Y_n(\omega )\rightarrow_{n\rightarrow \infty} Y(\omega)$。如果 $P(\{\omega: Y_n(\omega) \rightarrow_{n\rightarrow\infty}Y(\omega)\}) = 1$,我们说Y_n依概率1收敛于Y
  • 序列CDF收敛于极限CDF

Back
6.431

[Lecture 20] An introduction to classical statistics 经典统计导论

**[Lecture 20] An introduction to classical statistics 经典统计导论**

#Stats-ML #Courses/MITx/6.431

1. Lecture 20 overview and slides 概览

This lecture provides a brief introduction to the so-called classical (non-Bayesian) statistical methods. Besides presenting the general framework, it includes a discussion of estimation based on sample means, confidence intervals, and maximum likelihood estimation.

Printable transcript available ~here~.

Lecture slides: ~[\[clean\]](https://courses.edx.org/asset-v1:MITx+6.431x+2T2025+type@asset+block/lectureslides_L20-clean-slides.pdf)~ ~[\[annotated\]](https://courses.edx.org/asset-v1:MITx+6.431x+2T2025+type@asset+block/lectureslides_L20-annotated-slides.pdf)~

The material in this lecture is covered in ~Section 9.1~ of the text.

2. Overview of the classical statistical framework 经典统计框架概览

经典统计认为未知参数 $\theta$ 是一个未知的常数(对比贝叶斯统计认为是一个随机变量)

对未知参数 $\theta$ 的估计量(estimator) $\widehat \Theta = g(X)$ 是一个随机变量 $X$ 的函数,因此也是一个随机变量。

对 $X$ 的特定取值 $x$,会有一个对应的估计 $\hat \theta = g(x)$,这是一个估计(estimate)。

3. The sample mean and some terminology 样本均值与一些术语

以样本均值为例:如果我们要估计总体均值,样本均值是一个很好的估计量。它具有以下特点:

1 无偏性(unbiased): $\mathbf E[\widehat \Theta_n] = \theta$, 对所有 $\theta$ 都成立。意味着估计量的期望等于真实值。

2 相合性(consistency): WLLN: $\widehat \Theta_n \rightarrow^p \theta$,对所有 $\theta$ 都成立。意味着随着n增大,估计量依概率收敛于真实值。

3 均方误差(mean squared error, MSE): $\mathbf E[(\widehat \Theta - \theta)^2] = Var(\widehat \Theta_n) = \sigma^2/n$。样本均值的均方误差只和n有关,和theta无关。但其他估计量不一定具有这个性质。

[!IMPORTANT]
⠀对MSE推导时用到了无偏性和方差的最原始形式: $Var(X) = \mathbf E[X-E[X]]^2$,即一个随机变量减去其期望的平方的期望就是随机变量X的方差。

4. Exercise: Estimator properties

我们假设 $\theta$ 是随机变量 $X$ 的一个未知期望(假设X的方差为正且有限)。我们构建一个样本均值 $M_n$,并且构建一个估计量: $\widehat \Theta = M_n+\frac{1}{n}$。

  1. 估计量不具有无偏性:

$E[\widehat \Theta] =E[M_n+\frac{1}{n}] = \theta + 1/n \ne \theta$

  1. 估计量具有相合性:

$\widehat \Theta =M_n+\frac{1}{n} \rightarrow^p \theta$

如果我们构建一个新的估计量 $\widehat \Theta_n = X_1$,即仅使用第一个样本来作为估计量。

  1. 估计量具有无偏性;
  2. 估计量不具有相合性:单个样本永远相等,不管n多大。

5. On the mean squared error of an estimator 估计量的均方误差

我们可以将MSE分解为两个部分:估计量的方差 + 偏差的平方。

$\mathbf E[(\widehat \Theta - \theta)^2] = Var(\widehat \Theta-\theta)+(\mathbf E[\widehat \Theta - \theta])^2 = var(\widehat \Theta) + (\text {bias})^2$

我们可以构造两个估计量:样本均值与0估计量。可以看出在没有对 $\theta$ 的先验判断时,不能直接比较两个估计量的优劣。

此时,我们引入一个新的概念:标准误差(standard error),优先选择s.e.小的估计量。

一般在报告估计量时,也会同时报告相应的标准误差。

6. Confidence intervals 置信区间

在经典统计视角下,必须注意置信区间的概念:不能说估计值在置信区间内的概率是95%。这是一个最常见的错误。首先 $\theta$ 是一个真值,置信区间的上下限也是一个真值,不能说P( $\theta$ 在一个区间内)的概率是多少。

相反,置信区间给出的上下限 $[\widehat \Theta^-, \widehat \Theta^+]$ 是两个随机变量。统计推断的本质是我们进行了多次试验,获得了关于置信区间的随机变量,而真值 $\theta$ 落在这个随机变量里的次数占比为95%。

7. Exercise: Bias and MSE

已知随机变量 $X$ 的未知均值为 $\theta$,方差为1。构造估计量:

$$

\widehat \Theta_n = 1/3·M_n

$$

求bias和MSE。

答案为-2/3*theta和1/(9*n)+4/9*theta^2。

8. Exercise: Confidence interval interpretation

9. Exercise: A simple CI

10. Confidence intervals for an unknown mean 对未知均值的置信区间

将样本均值标准正态化,然后变形为关于 $\theta$ 的区间。注意这里得到的置信区间需要知道 $\sigma$ 才能计算。

11. Exercise: CI's via the CLT

12. Confidence intervals for the mean when the variance is unknown 当方差未知时,对未知均值的置信区间

当总体方差未知时,有三种方法可以构造出置信区间:

  1. 用一个总体方差的上界(upper bound)

例如当 $X$ 是伯努利分布时,总体方差最大值为1/2,可以将1/2作为一个最保守的置信区间估计;

  1. 用一个特别的(ad hoc) 方差估计

例如当 $X$ 是伯努利分布时,方差估计量可可以用期望的函数来代替: $\hat \sigma = \sqrt{\widehat \Theta_n(1-\widehat \Theta_n)}$

  1. (最泛化的)用方差的样本均值估计

由于总体方差 $\sigma^2 = \mathbf E[(X_i-\theta)^2]$,当已经收集到n个样本的时候,我们可以将期望改为:

$\frac{1}{n}\sum_{i=1}^n(X_i-\theta)^2$。随n增大,由WLLN, 这个样本随机变量( $(X_i-\theta)^2$)的样本期望收敛于总体期望。所以他也收敛于总体方差。

由于总体期望也是未知的,所以我们可以用样本期望代替总体期望,这样就构造出了一个总体方差的估计量。

13. Other natural estimators 其他自然估计量

从样本均值出发,我们可以推导出:

  • 随机变量的函数的期望,可以用样本的函数的均值进行估计;
  • 方差:可以用样本均值代替总体期望进行估计
  • 协方差:用X和Y的样本均值代替总体均值
  • 相关系数:

⠀所有这些估计量都具有相合性.

14. Exercise: Natural estimators

15. Maximum likelihood estimation 极大似然估计

与贝叶斯统计中,求最大后验分布的情况类似,经典统计的MLE等同于贝叶斯统计中假设先验分布是flat/constant时的计算方式。但两者的哲学完全不同。

贝叶斯统计的最大后验概率(MAP):theta最可能的值是什么?

经典统计的极大似然估计(MLE):theta是什么值,会让数据有最大可能性?

16. Maximum likelihood estimation examples 极大似然估计的例子

17. Exercise: ML estimation

Back

MITx MicroMasters Program in Statistics and Data Science

**MITx MicroMasters Program in Statistics and Data Science**

#Courses/MITx #Statistics & Machine Learning/DeepLearning#

Probability 概率论

[[MITx 6.431x Probability - The Science of Uncertainty and Data \| 概率论]]

Statistics 统计学

[[MITx 18.6501x Fundamentals of Statistics \| 统计学基础]]

Machine Learning 机器学习

[[MITx 6.86x Machine Learning with Python-From Linear Models to Deep Learning \| Python机器学习]]

Statistical Models 统计模型

| Unit | Lecture |

|--------------------------------------------------------------|--------------------------------------------------------------|

| Unit 0. Overview | |

| Unit 1. Probability models and axioms | |

| | |

| Unit 2. Conditioning and independence | |

| | |

| Unit 3. Counting | |

| | |

| Unit 4. Discrete random variables 离散随机变量 | |

| Unit 5. Continuous random variables 连续随机变量 | |

| Unit 6. Further topics on random variables | |

| | |

| Unit 7. Bayesian Inference 贝叶斯推断 | |

| Unit 8. Limit theorems and classical statistics 极限理论与经典统计 | [[\[Lecture 18\] Inequalities, convergence, and the Weak Law of Large Numbers 不等式,收敛性与弱大数定律]] |

| | |

Back

About Me

千の夜をこえて
今あなたに会いに行こう
伝えなきゃならないことがある

我是HeYan,男,四川土著,帅且可爱,🌈。理性,INTP,热爱科学,并且有点宅。会弹琴,常听J-Rock, J-Pop, Folks, Original Soundtrack。喜欢 いきものがかり (生物股长),Aimyon陈致逸 。现在常住在北京。

现在在tiktok-platform responsibility部门摸鱼。在此之前,我在字节跳动-生活服务的平台治理(base成都)打工。

在重新回到字节前,就职于美团保险,并负责一个小的两核策略团队。更早一些时候,在字节跳动有过两段工作履历,负责建立了抖音支付最早期的风险管理体系以及做过一段时间的贷前信用策略,并且交到了几个很好的朋友。当时的字节跳动带给了我迄今为止的工作经历中最棒的体验。在此期间有过短暂的银行风险经理的工作。在加入字节跳动之前,在美团支付团队负责支付风险管理。最早的时候,在支付宝做支付方向的风控,那是毕业之后的第一份工作。

在工作之前,我在四川成都的西南财经大学度过了四年本科生活,我很喜欢成都这座城市,并且在成都买了一套贷款三十年的房子(虽然迄今为止入住的时间总和不超过一个月,计算ROI是一笔非常失败的投资)。现在房贷已经基本还完啦。

想读PhD拖了十年的重度拖延症患者,但我相信时间会在三十五岁之前给我一个答案。感兴趣的领域包括宏观金融、资本市场、机器学习与统计。在此之外也对编曲与作曲抱有极大的兴趣。

有一只叫做何包蛋的五岁美国短毛猫,一只叫做香蕉的六岁柴犬,以及一个男朋友,他在游戏行业从事数据分析工作。我们都希望能够环游世界。

关于专业与兴趣

MITx Micromasters Statistics and Data Science

  • 6.431x Probability - The Science of Uncertainty and Data ✅
  • 18.6501x Fundamentals of Statistics ✅
  • 6.86x Machine Learning with Python-From Linear Models to Deep Learning ✅
  • 6.419x Data Analysis: Statistical Modeling and Computation in Applications (ongoing)

Finance & Risk Management

Coursera

Udacity

迄今为止的人生路径

  • 2025-now TikTok - Platform Responsibility, Beijing
  • 2024 - 2025 字节跳动 - 本地生活-平台治理与体验,成都
  • 2021 - 2024 美团点评 - 保险平台部,北京
  • 2020 - 2021 字节跳动 - 财经业务部,北京
  • 2019 - 2020 蓝海银行 - 零售信贷风险管理部,北京(并不是很喜欢这段经历)
  • 2018 - 2019 字节跳动 - 财经业务部,北京
  • 2015 - 2018 美团点评 - 技术工程部/支付平台部,北京
  • 2014 - 2015 支付宝 - 国内风险管理部,杭州
  • 2010 - 2014 西南财经大学,成都

关于签名

第一段来自Aqua Timez千の夜をこえて, 2010年左右最喜欢的日文歌。这个乐队在2018年正式解散。