Statistic

2016-08-08 Published in categories blog tagged with

layout: post title: 《白话大数据与机器学习》笔记 categories:

###统计与分布

加和值，平均值，标准差，加权均值，众数，中位数，欧氏距离，曼哈顿距离
高斯分布（miu，sigma）
泊松分布（lambda，k）描述单位时间内随机事件发生的次数。lambda：单位时间内随机事件的平均发生率在一个标准时间里，发生这件事的发生率是lambda次，哪发生k次的概率是泊松分布。
伯努利分布（p）

###信息论

###回归

倒退，倒推，由果索因，归纳：当看到大量事实所呈现的样态，推断出原因是如何的；看到大量数字对的样态，推断出他们之间蕴含的关系。

###聚类

###分类

朴素贝叶斯
决策树归纳: 通过他的行为来总结他的决策找出树根的原则是这一个点挑出来，尽可能消除不确定性。 Gain（A）= Info - Info（A）这就是这个特征为系统带来的信息。
随机森林
隐马尔可夫模型隐马尔可夫链和贝叶斯网络的模型思维方式接近，区别在于前者更简化，可以看作是后者的一种特例。隐马尔可夫模型中，不仅有一串可见状态链，还有一串隐含状态链。对于HMM来说，如果提前知道所有隐含状态之间的转换概率和所有隐含状态到所有可见状态之间的输出概率，进行模拟是相当容易的。但是应用HMM模型的时候，往往缺失一部分信息：
支持向量机
遗传算法