数据驱动决策（Data-Driven Decision Making）

数据表格：栏、列、值

数据类型：数值型、类别型、文字型、时间型

数据属性：定性qualitative 定量quantitative

衡量尺度：

名目资料：定性，数字的大小没有意义。

顺序资料：定性，数字的大小有意义，但数字之间的差距没有意义。

区间资料：定量，数字间的差距有意义，归属有那个区间。

比例资料：定量，0等于“完全没有”。

五种常见的分析目标：

数据分析步骤：

1，数据收集：按照决策需求与产业知识决定自变量x,应变量y

2，数据预处理：常见的数据预处理有数据转换，填补数据中的缺失值（M issing Data ），删除离群值（Outlier），数据标准化（Standardization），数据正规化（Normalization）等。

3，数据分割：数据分成3部分，训练、验证、测试，如果使用交叉验证，则是把训练和验证部分的资料合并，再均分成n份，然后循环使用n等分的1份资料作为验证资料，其他作为训练资料，提升机器学习的验证效果。常见切割比例如下表：

4，模型训练：使用恰当的机器学习演算法对训练数据进行分析，这一过程也称为拟合（Fitting），最终产出为模型（Model）。

5，模型验证：将验证数据中的自变数x输入训练好的模型中，得到预测值Y，y称为拟合值。

6，模型评估：比较应变数y的值和预期值y之间的差异性。y的属性不同，则评估的方式也不同。

y是定性，常用的评估方法混浠矩阵（Confusion Matrix）、准确度（Accuracy）、ROC曲线下方面积（AUC）等

y是定量，常用的评估方法均分根误差（RMSE）、平均绝对误差（MAE）、判定系数（R2）等

7，模型未达标准。肯能的调整方式有增加训练次数、调整演算法中的超参数、更换其他演算法、重新处理数据集、扩大数据量等。当符合标准时，即可进入测试阶段。

8，模型测试。会出行两种不好的情况，拟合不足，拟合过度。

分析方法：

群聚分析

关联分析