数学建模B题

x1~x4 分别为性别、年龄、身高、体重,假设模型:

\[ y=w_{0}+w_{1}x_{1}+w_{2}x_{2}+w_{3}x_{3}+w_{4}x_{4} \]

使用多元线性回归

1.数据处理

空白值删除2001条。

异常值删除2条。

使用数据4517条。

数据预览:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
dataSet
Out[3]:
潮气量 用力肺活量 中心气道参数 ... 外周气道参数C 外周气道参数D t
0 0.87 82.310469 80.000000 ... 125.895317 88.321168 0
1 0.59 76.415094 80.000000 ... 67.161017 53.846154 0
2 1.26 81.753555 80.000000 ... 341.814596 679.464286 0
3 1.03 87.378641 80.000000 ... 100.767263 91.428571 1
4 2.21 84.325397 80.049261 ... 120.491803 99.333333 1
5 0.20 79.614325 80.063291 ... 79.895561 70.945946 0
6 1.48 74.144487 80.090498 ... 103.537736 76.923077 0
... ... ... ... ... ... ..
4511 1.12 154.589372 154.970760 ... 132.046980 176.712329 0
4512 1.17 149.407115 159.259259 ... 52.908587 53.731343 0
4513 1.72 146.113990 160.126582 ... 86.878728 81.481481 0
4514 1.18 141.552511 162.087912 ... 113.785047 78.000000 0
4515 0.98 171.428571 168.595041 ... 123.437500 117.224880 0
4516 2.53 146.197183 181.226054 ... 129.397590 74.860335 0
[4517 rows x 10 columns]

2.公式

变量:潮气量、用力肺活量、中心气道参数 ... 外周气道参数C、外周气道参数D分别为x1、x2、x3、x4、x5...x9: \[ X=\begin{pmatrix} x_{11} & x_{12} & x_{13} & x_{14}\\ x_{21} & x_{22} & x_{23} & x_{24}\\ \vdots & \vdots & \vdots & \vdots \\ x_{45171} & x_{45172} & x_{45173} & x_{45174} \end{pmatrix} \] 系数向量: \[ w=\begin{pmatrix} w_{1}\\ w_{2}\\ \vdots \\ w_{9} \end{pmatrix} \] \(w0\) 初始化为0: \[ w_{0}=\begin{pmatrix} 0\\ 0\\ \vdots \\ 0 \end{pmatrix} \] 公式: \[ f=Xw+w_{0} \]

4.误差函数

概率: \[ P(x_{1},x_{2},x_{3},x_{4})=\sigma (f)=\frac{1}{1+e^{-f}} \] 所有病例预测正确预测的概率为: \[ P=P_{1}\times P_{2}\times \cdots P_{N} \]

最大似然估计优化: \[ E=-logP \] 求上式的最小值,即Loss最小值,最终计算出w0,w1,w2,w3...w9的最优解,得到: \[ y= 2.960129 + 1.099700x_{1} + 11.472289x_{2} + -12.098226x_{3} + -13.661840x_{4}+ -14.122027x_{5}+ -14.122027x_{6}+ -12.703490x_{7}+ -0.870683x_{8}+ 0.370302x_{9} \]