概率与数理统计自学笔记(1)

学习前的小结

昨天看了TED的一场关于数学学习的演讲——-《用计算机教孩子真正的数学》。他是从孩子教育出发来思考数学学习这个问题，而我是从我的实际工作碰到的问题和学习需要来思考这个问题。

但是得出的结论竟然是不谋而合：把数学当中的计算交给计算机去完成，我们只要学习数学是怎么样解决实际问题的就可以了。这样的话，其实中学生或者小学生都可以学会微积分。

简单一点，我觉得学到下面这二点就够了:

搞清楚某个数学概念是用来解决什么问题的，比如数，1，2，3是用来解决1个苹果，2个苹果，3个苹果，或者1部手机，2部手机，3部手机的。它是一个抽像工具，阿拉伯语的1，2，3只是它的一种表现形式。只要我愿意，我用任意符号表示它都可以。
搞清楚它是怎么解决这个问题的，比如概率第1章的事件，就是运用中学学过的集合的数学工具来解决事件之间的运算关系。

解决了什么问题

概率论与数理统计是用来解决不确定现象（随机现象）的数学工具。第1章的讲的随机事件和概率，就是把现实世界的随机现象给先量化了，量化后，后面的章节就再讲它的各种独特的算法。这和写程序是多么相像啊，程序里面的算法不就是针对变量（数）的一系列运算么？

怎样解决的？

抽象是数学中的独孤九剑，学会了抽象，数学里那些招式就简单多啦。

这本书第1章《随机事件和概率》，它就是把现实世界当中的随机现象抽象成随机事件，然后用集合去表示随机事件和随机试验，这样现实中的事件的关系就可以利用集合这个数学工具来运算了。具体怎么算，我留在书中，有需要算的时候我再来查阅
我感觉数学就是做一件事，把现实世界量化，可运算化。不知道对不对，我有限的数学知识中，似乎都是在做这件事。香农熵把信息量化，常常说，一句话信息量很大啊。那么这句话到底信息量有多大，是100，还是1000？香农熵可以解决这个问题；这章的概率，就是把现实世界的随机事件出现的可能性量化，然后就可运算化了。
它是如何量化的呢？首先引入频率的概念：一组数据中，某范围内的数据出现的次数，除以数据的总数就得到频率。这里频率又是从现实世界抽象出来的一个概念，其实叫不叫“频率”无所谓，只需要理解它是怎么抽象而来的就行。叫“频率”，只是大家约定用教科书上的这个名字，方便与其它人沟通。
频率又是怎么样变成概率的呢？通过大量的观察，实践数学家发现一个事实：当试验次数增大时，事件A发生的频率总是稳定在一个确定数p附近，而且偏差随着试验次数的在增大而越来越小。说明了刻画随机事件A发生的可能性的大小的数（概率）的客观存在性。这些都还是我们人类的经验，并不能作为一个严格的数学定义，经过三个世纪的探索，1993年，苏联数学家柯尔莫哥洛夫给出了现在广泛接受的概率公理化体系：
- 非负性：对第一个事件A,有P(A)≧0;
- 完备性:P(S)=1;
- 可列可加性：设A1,A2,…是两两互不相容的事件，则所有这些事件概率的和等于所有这些事件和的概率；
  $P(\bigcup_{i=1}^{\infty} A_{i})=\sum_{i=1}^{\infty}P(A_{i})$
  设E是随机试验，S是它的样本空间，对于E的每一个事件A赋予一个实数，记为P(A),若P(A)满足上述三个条件，则称P(A)为事件A的概率
上面的抽象过程：首先从现实世界大量的观察和实验，得到经验，再从经验抽象出数学公理。公理从字面上理解，就是公开被大家认可以道理。数学上来说，公理就是导出特定一套演绎知识的基本假设。公理不证自明，而其它所有的断言（若谈论的是数学，则为定理）则都必须借助这些基本假设才能被证明。说的直白一点，这个公理就是一个人想出来的一个假设，然后被大家一致认同。亚里斯多德曾说过，若读者怀疑公理的真实性，这门学科的内容便无法成功传递。整个这门学科都是建立在上面这个假设的基础上，如果这个假设不成立，那这门学科都是错的。我还是选择相信，不是因为它是教科书上写的，而是因为经过这么长的时间的实践检验，都没有错，就应当不会错了。
概率公理出来了，由这个公理就可以推导出概率的一些重要性质了：
- $P(\varnothing)=0$. 不可能事件的概率为0，但反之不然
- $P(A_{1}\bigcup A_{2}\bigcup\cdot\cdot\cdot A_{n})=P(A_{1})+P(A_{2})+\cdot\cdot\cdot+P(A_{n})$ ,两两互不相容的n个事件
- $P(\overline{A})=1-P(A)$ .A事件的逆事件的概率等于1减A事件的概率，用集合的概念来画图很好理解
- $P(A-B)=P(A)-P(AB)$.A事件发生，且B事件不发生的概率等于A事件发生减去AB事件同时发生的概率
- 最后二个性质我不想学了，因为这些性质，都是用来计算的工具，我已经理解了这个工具的来由，等有需要计算的时候，再来看一看，就知道怎么运算了。
我解决问题的经验，是先把复杂的问题分解成简单的小问题，把抽象的问题变成具体化的问题。这个方法在计算机系的一门课中似乎有讲过。但是我不是计算机系的，之前没有学到过这个方法，这个方法是我自己在解决各类编程问题中总结出来的。数学研究似乎也遵循同样的线路，先从简单的问题研究起。现实世界中有许多种随机现象需要研究，教科书里先从最简单的情况分想起：等可能概型
等可能概型，我的理解就是做一个随机试验，试验中每个样本点出现的可能性都是一样的。它是用来解决现实世界中那些出现结果的可能性是一样的可能性的计算问题。很容易就能把求概率的问题转化为对基本事件的计数问题。其实就是算排列组合，排列组合的这几个公式，现在不学，也不记，需要的时候，翻翻书，直接写的代码里面就行了。
几何概型和等可能概型相同的地方在于，样本空间的点都是等可能事件。不同的地方在于几何概型的样本点有无限多个，就是随机试验的结果有无限多个。运算方法也很好理解，就是求面积的比值。一个典型的例子：把一根针随意扔在桌子上，求这根针落在桌子上任一位置的可能性P. 这个太容易记住了，顺手写下，针的面积除以桌子的面积就是P. 难的是把现实的不是几何概型的问题转为几何概型来求解，我估计。
有了上面的这些基础，教科书开始讲复杂一点的工具了，条件概率。因为现实世界很多我们想要知道的结果可能性都是在之前一个结果可能性的基础上发生的，比如说，我想得到曼联队赢得曼城队的概率P，如果我能准确知道每个队员受伤的概率，每个队员射门成功的概率等等很多的条件结果发生的概率，那么这个P是不是就大致能算出来？条件概率只针对于等可能概型，也就是古典概型和几何概型。
利用条件概率这个数学定义，我们得到三个运算的公式：
- 乘法公式，全概率公式和贝叶斯公式。乘法公式是条件概率的变形，主要用来计算二个事件同时发生的概率，也可以推广到有限个事件同时发生的概率。
- 全概率公式，可以通过综合分析一事件发生的不同原因或情况及其可能性来求得改事件发生的概率。就是一个事件的发生由很多条件影响着，而所有的这件条件事件，构成一个完备事件组，那么我们就可以由这些已知的条件事件的概率来求得这个事件发生的概率。
- 贝叶斯公式，和全概率公式正好相反，它是解决一件事情已经发生，求引发改事件发生的各种原因或情况的可能性大小的方法。这个公式机器学习当中会有用到，并且贝叶斯方法在很多方面都会有用到，必须要理解并记住：
  $P(A_{i}\vert B)=\frac{P(A_{i}B)}{P(B)}=\frac{P(A_{i})P(B\vert A_{i})}{\sum_{j}P(A_{j})P(B\vert A_{j})},i=1,2,\cdot\cdot\cdot,$
  我的理解，就好像破案一样。已经知道案件的结果，求导致案件发生的各种情况的可能性有多少。书上的案例是一个医生给病人看病，在看病前先验身体指标（验血，ct，体温，等等），若病人的某些指示偏离正常值（就是B发生，生病了），问该病人得的是什么病？从数学角度看，若$P(A_{i}\vert B )$大，则病人患$A_{i}$病的可能性也较大。
事件的独立性，这个一般用经验判断，就不细看了。伯努利试验，只有二种可能的结果：事件A发生或者事件A不发生。伯努利概率模型，就是将伯努利试验在相同条件下独立地重复n次。比如某型号高炮，每发炮弹打中飞机的概率, 要么打中，要么没打中，典型的伯努利试验。如果有n门高炮，就是相同条件下独立地重复n次这个A事件了，伯努利概型。具体怎么算，留在书中吧。

结束

我看的是中国人民大学出版，吴赣昌主编的《概率与数理统计》一书。学完第一章《随机事件及其概率》花费大约1天的时间。最终我得到的可用的是一些概率模型，及其算法，这些都是可以直接用来编程的。关键是我知道了在什么情况下用这些数学工具。