-
聚类
K-means原理: 首先随机从样本集中找K个点当作K个聚类簇的均值点 计算所有样本点分别与各个均值点的距离,将样本点归入距离最小的簇中 重新计算每个聚类簇的均值点位置 重复操作,直至达到指定迭代次数、或临近两次迭代均值点的Frobenius范数变动小于阈值 其中Frobenius范数也称欧几里得范数,即矩阵中每个元素的平方和再开方。在这里矩阵指的是K行n列的质心矩阵,它的每一行为一个质心,每一列为该质心在各个维度上的坐标。优点: 原理简单、实现容易、收敛速度快(时间复杂度O(...…
-
贝叶斯统计推断
贝叶斯学派的思想是用数据来更新特定假设的概率。贝叶斯公式 举例说明: 某人去进行一项疾病检查,检测结果为阳性,因为检测并不会100%准确,那么真的患此病的概率为多少?公式由贝叶斯公式给出:\[P(患病 \vert 阳性) = \frac{P(阳性 \vert 患病)P(患病)}{P(阳性)}\]已知检查结果为阳性并且真的患病的后验概率$P(患病 \vert 阳性)$依赖于患病的先验概率$P(患病)$,另一方面后验概率还依赖于检查的准确程度$P(阳性 \vert 患病)$与$P(阴性 \...…
-
本地使用Maven构建Drools项目
DROOLS (JBOSS RULES)为java语言开发的开源业务规则引擎,具有一个易于访问企业策略、易于调整以及易于管理的开源业务规则引擎,符合业内标准,速度快、效率高。业务分析师或审核人员可以利用它轻松查看业务规则,从而检验是否已编码的规则执行了所需的业务规则。下面介绍如何使用IDEA来构建一个基于Maven的Drools项目。① 首先新建一个使用maven-archetype-quickstart架构的项目,注意java版本一定要小于等于15② Name与ArtifactId为项目...…
-
辛普森悖论
辛普森悖论为英国统计学家E.H.辛普森(E.H.Simpson)于1951年提出的悖论,即在某个条件下的两组数据,分别讨论时都会满足某种性质,可是一旦合并考虑,却可能导致相反的结论。以一个经典的例子来说明:一个大学有商学院和法学院两个学院,某次招生结束后,被外界批评存在性别歧视,招收的男生录取率比女生高。下图为两个学院的汇总数据:从汇总数据来看,男生的录取率比女生高,但实际在每个学院中,女生的录取率比男生要高,如下图所示:分组讨论时得出的结论与汇总时得出的结论相悖。在该例中,女生申请商学院...…
-
假设检验
假设检验是利用样本信息去推断总体参数或分布的一种数据分析方法。假设检验的一般步骤: 提出原假设与备择假设 给定显著性水平$\alpha$,选择合适的检验统计量,并确定其分布 由$P(拒绝H_0 \mid H_0为真)=\alpha$确定$H_0$的拒绝域的形式 由样本值求得检验统计量的观察值,若观察值在拒绝域内,则拒绝原假设$H_0$,否则在显著性水平$\alpha$下不能拒绝原假设假设检验的理论依据: 小概率事件在一次试验中几乎不可能发生 假设检验是概率意义下的反证法:先假设...…
-
平均分配问题
工作中有遇到一种平均分配问题,贷后环节给催收员分案时,既要保证每个人分到的案件量近似,又要保证每个人分到的案件总金额近似,这是一个NP难问题。下面是一个近似求解的方法。算法思路为:假设总案件量为N,需要分给m个人 先将所有案件随机均分为m组,如果N不能被m整除,则给原案件列表后补0,补足长度至能被m整除为止 进入大循环,寻找当前金额总和最大的组和最小的组 进入小循环,随机交换两组中的一个元素 判断极差是否减小,如果减小,则跳出小循环回到步骤2,如果未减小,则继续小循环回到步骤3 ...…
-
平均数
算术平均\[\frac 1 n \sum_{i=1}^{n} x_i\] 几何平均\[\sqrt[n] {\prod_{i=1}^{n} x_i}\] 加权平均\[\sum_{i=1}^{n} x_i \omega_i / \sum_{i=1}^{n} \omega_i\] 调和平均 调和平均是值的倒数的算术平均的导数。易受极端值的影响,且受极小值的影响比受极大值的影响更大。\[\frac 1 {\frac 1 n \sum_{i...…
-
IRR与APR
IRR即隐含报酬率(Internal Rate of Return),APR即年化利率(Annual Percentage Rate),在讲两种利率的区别之前,要先说一说目前市场上各种还款方式都是怎么计算利息的,以帮助理解。还款方式常见贷款产品中的几种还款方式有: 随借随还 先息后本 等本等息 等额本金 等额本息随借随还客户在获得授信额度后可以随时来支取,借出后就开始计算利息,并且可以随时还款,还款后额度会进行恢复。常见于银行的大额消费贷、借呗等。\[总利息 = 贷款本金 \ti...…
-
概率论与数理统计
统计量设$X_1, …, X_n$是从总体$X$中抽样的样本,如果由此样本构造一个不依赖任何未知参数的函数$T(X_1, …, X_n)$,则称函数$T$是一个统计量。样本均值\[\bar{X} = \frac{1}{n} \sum X_i\]样本方差\[s^2 = \frac{1}{n-1} \sum (X_i - \bar{X})^2\]变异系数\[CV = \frac{s}{\bar{X}}\]样本标准差除以样本均值。当比较两组不同量纲数据的离散程度时,直接用标准差比较不合适,应该消...…
-
ABTest样本量
在数据分析过程中,一个完整的闭环是从数据中得到洞察,根据洞察得到某种假设,通过实验检验这一假设。直观上看,进行实验的样本量越大越好,因为较小的样本量容易使实验结果被新的样本点改变,造成结果的不稳定。但实际中,流量有限、试错成本大使得进行实验使用的样本量越少越好,因此如何确定合适的样本量是一个关键问题。ABTest主要涉及假设检验中的两种,一种应用于均值,一种应用于比率。均值对于业务来说,某个指标的提升只有达到一定数额之后才会被视为具有业务意义。因此对于测试组A和对照组B,我们想验证的是实验...…