新闻资讯
看你所看,想你所想

数据挖掘与预测分析(第2版)

数据挖掘与预测分析(第2版)

数据挖掘与预测分析(第2版)

《数据挖掘与预测分析(第2版)》是2017年清华大学出版社出版的图书,作者是Daniel T. Larose、Chantal D. Larose 。

基本介绍

  • 书名:数据挖掘与预测分析(第2版)
  • 作者:Daniel T. Larose,Chantal D. Larose  
  • 译者:王念滨 宋敏 裴大茗 
  • ISBN:9787302459873
  • 定价:99.80
  • 出版社:清华大学出版社 
  • 出版时间:2017.02.01
  • 装帧:简装
  • 印次:1-1
  • 印刷日期:2017.02.06

图书简介

《数据挖掘与预测分析(第2版)》提供了从数据準备到探索性数据分析、数据建模及模型评估等整个数据分析过程的内容。《数据挖掘与预测分析(第2版)》不仅提供了理解软体底层算法的“白盒”方法,而且提供了能够使读者利用现实世界数据集开展数据挖掘与预测分析的套用方法。

图书目录

第Ⅰ部分 数据準备
第1章 数据挖掘与预测分析概述 3
1.1 什幺是数据挖掘和预测分析 3
1.2 需求:数据挖掘技术人员 4
1.3 数据挖掘离不开人的参与 5
1.4 跨行业数据挖掘标準过程:
CRISP-DM 6
1.5 数据挖掘的谬误 8
1.6 数据挖掘能够完成的任务 9
1.6.1 描述 9
1.6.2 评估 10
1.6.3 预测 11
1.6.4 分类 11
1.6.5 聚类 13
1.6.6 关联 14
R语言开发园地 15
R参考文献 16
练习 16
第2章 数据预处理 17
2.1 需要预处理数据的原因 17
2.2 数据清理 18
2.3 处理缺失数据 19
2.4 识别错误分类 22
2.5 识别离群值的图形方法 22
2.6 中心和散布度量 24
2.7 数据变换 26
2.8 min-max规範化 26
2.9 Z-score标準化 27
2.10 小数定标规範化 28
2.11 变换为正态数据 28
2.12 识别离群值的数值方法 34
2.13 标誌变数 35
2.14 将分类变数转换为数值变数 35
2.15 数值变数分箱 36
2.16 对分类变数重新划分类别 37
2.17 添加索引栏位 37
2.18 删除无用变数 38
2.19 可能不应该删除的变数 38
2.20 删除重複记录 39
2.21 ID栏位简述 39
R语言开发园地 39
R参考文献 45
练习 45
第3...
第3章探索性数据分析49
3.1假设检验与探索性数据分析49
3.2了解数据集49
3.3探索分类变数52
3.4探索数值变数58
3.5探索多元关係62
3.6选择感兴趣的数据子集作进一步研究64
3.7使用EDA发现异常栏位64
3.8基于预测值分级65
3.9派生新变数:标誌变数67
3.10派生新变数:数值变数69
3.11使用EDA探测相关联的预测
变数70
3.12EDA概述73
R语言开发园地73
R参考文献80
练习80
第4章降维方法83
4.1数据挖掘中降维的必要性83
4.2主成分分析84
4.3将主成分分析套用于房屋
数据集87
4.4应提取多少个主成分91
4.4.1特徵值标準91
4.4.2解释变异的比例标準92
4.4.3最小共性标準92
4.4.4坡度图示準92
4.5主成分描述94
4.6共性96
4.7主成分验证97
4.8因子分析法98
4.9因子分析法在成年人数据集中的
套用99
4.10因子旋转101
4.11用户自定义合成104
4.12用户自定义合成的示例105
R语言开发园地106
R参考文献110
练习111
第Ⅱ部分统计分析
第5章单变数统计分析117
5.1数据知识发现中的数据挖掘
任务117
5.2用于估计和预测的统计方法117
5.3统计推理118
5.4我们对评估的确信程度如何119
5.5均值的置信区间估计120
5.6如何减少误差範围121
5.7比例的置信区间估计122
5.8均值的假设检验123
5.9拒绝零假设的证据力度的
评估125
5.10使用置信区间执行假设检验126
5.11比例的假设检验127
R语言开发园地128
R参考文献129
练习129
第6章多元统计133
6.1描述均值差异的两样例t-检验
方法133
6.2判断总体差异的两样例
Z-检验134
6.3比例均匀性的测试135
6.4多元数据拟合情况的
卡方检验137
6.5方差分析138
R语言开发园地141
R参考文献143
练习143
第7章数据建模準备145
7.1有监督学习与无监督学习145
7.2统计方法与数据挖掘方法146
7.3交叉验证146
7.4过度拟合147
7.5偏差-方差权衡148
7.6平衡训练数据集150
7.7建立基线性能151
R语言开发园地152
R参考文献153
练习153
第8章简单线性回归155
8.1简单线性回归示例155
8.2外推的危险161
8.3回归有用吗?係数的确定162
8.4估计标準误差166
8.5相关係数r167
8.6简单线性回归的方差分析表169
8.7离群点、高槓桿率点与有影响
的观察点170
8.8回归方程概括178
8.9回归假设验证179
8.10回归推理184
8.11x与y之间关係的t-检验185
8.12回归直线斜率的置信区间187
8.13相关係数ρ的置信区间188
8.14给定均值的置信区间190
8.15给定随机选择值的预测区间191
8.16获得线性特性的变换194
8.17博克斯-考克斯变换199
R语言开发园地199
R参考文献205
练习205
第9章多元回归与模型构建213
9.1多元回归示例213
9.2总体多元回归方程218
9.3多元回归推理219
9.3.1y与xi之间关係的t-检验219
9.3.2营养等级与含糖量之间关係
的t-检验220
9.3.3营养等级与纤维含量之间
关係的t-检验220
9.3.4总体回归模型显着性的
F-检验221
9.3.5营养等级与含糖量和纤维
含量之间关係的F-检验222
9.3.6特定係数βi的置信区间223
9.3.7(在给定x1,x2,…,xm的情况下)y
的均值的置信区间223
9.3.8(在给定x1,x2,…,xm的情况下)
随机选择的y值的预测区间223
9.4利用指示变数的包含範畴型预测变数的回归224
9.5调整R2:惩罚包含无用预测变数的模型230
9.6序列平方和231
9.7多重共线性233
9.8变数选择方法239
9.8.1有偏F-检验239
9.8.2前向选择过程240
9.8.3反向删除过程241
9.8.4逐步选择过程241
9.8.5最佳子集过程241
9.8.6“所有可能子集”过程242
9.9油耗数据集242
9.10变数选择方法的套用243
9.10.1套用于油耗数据集的前向
选择过程244
9.10.2套用于油耗数据集的后向
删除过程245
9.10.3套用于油耗数据集的逐步选择过程246
9.10.4套用于油耗数据集的最佳子集过程246
9.10.5Mallows’Cp统计量247
9.11将主成分作为预测变数进行
多元回归251
R语言开发园地255
R参考文献265
练习265
第Ⅲ部分分类
第10章K-最近邻算法273
10.1分类任务273
10.2k-最近邻算法274
10.3距离函式276
10.4组合函式279
10.4.1简单权重投票方式279
10.4.2加权投票279
10.5量化属性的相关性:轴伸缩280
10.6资料库方面的考虑281
10.7将k-最近邻算法用于评估和
预测281
10.8k值的选择282
10.9利用IBM/SPSS建模工具套用
k-最近邻算法283
R语言开发园地284
R参考文献286
练习286
第11章决策树289
11.1决策树是什幺289
11.2使用决策树的要求291
11.3分类与回归树291
11.4C4.5算法297
11.5决策规则302
11.6比较C5.0和CART算法套用
到实际的数据303
R语言开发园地306
R参考文献307
练习308
第12章神经元网路311
12.1输入和输出编码312
12.2神经元网路用于评估和预测313
12.3神经元网路的简单示例314
12.4sigmoid激活函式316
12.5反向传播317
12.6梯度下降法317
12.7反向传播规则318
12.8反向传播示例319
12.9终止条件320
12.10学习率321
12.11动量项322
12.12敏感性分析323
12.13神经元网路建模套用324
R语言开发园地326
R参考文献328
练习328
第13章logistic回归331
13.1logistic回归简单示例331
13.2最大似然估计333
13.3解释logistic回归的输出334
13.4推理:这些预测有显着性吗335
13.5机率比比率与相对风险337
13.6对二分logistic回归预测的
解释339
13.7对套用于多元预测变数的
logistic回归的解释342
13.8对套用于连续型预测变数的
logistic回归的解释346
13.9线性假设351
13.10零单元问题353
13.11多元logistic回归355
13.12引入高阶项处理非线性359
13.13logistic回归模型的验证366
13.14WEKA:套用logistic回归的
实践分析370
R语言开发园地374
R参考文献380
练习380
第14章朴素贝叶斯与贝叶斯网路385
14.1贝叶斯方法385
14.2最大后验(MAP)分类387
14.3后验机率比391
14.4数据平衡393
14.5朴素贝叶斯分类394
14.6解释对数后验机率比397
14.7零单元问题398
14.8朴素贝叶斯分类中的数值型
预测变数399
14.9WEKA:使用朴素贝叶斯开展
分析402
14.10贝叶斯信念网路406
14.11衣物购买示例407
14.12利用贝叶斯网路发现机率409
R语言开发园地413
R参考文献417
练习417
第15章模型评估技术421
15.1用于描述任务的模型评估
15.2用于评估和预测任务的模型
评估技术422
15.3用于分类任务的模型评估
方法423
15.4準确率和总误差率425
15.5灵敏性和特效性426
15.6假正类率和假负类率427
15.7真正类、真负类、假正类、
假负类的比例427
15.8通过误分类成本调整来反映
现实关注点429
15.9决策成本/效益分析430
15.10提升图表和增益图表431
15.11整合模型评估与模型建立434
15.12结果融合:套用一系列
模型435
R语言开发园地436
R参考文献436
练习437
第16章基于数据驱动成本的
成本-效益分析439
16.1在行调整条件下的决策
不变性439
16.2正分类标準440
16.3正分类标準的示範442
16.4构建成本矩阵444
16.5在缩放条件下的决策不变性445
16.6直接成本和机会成本446
16.7案例研究:基于数据驱动误
分类成本的成本-效益分析446
16.8再平衡作为误分类成本的
代理450
R语言开发园地452
R参考文献455
练习455
第17章三元和k元分类模型的成本-
效益分析459
17.1三元目标的分类评估变数459
17.2三元分类评估度量在贷款审批问题中的套用462
17.3三元贷款分类问题的数据驱动成本-效益分析466
17.4比较使用/不使用数据驱动误分类成本的CART模型467
17.5一般的k元目标的分类评估
度量470
17.6k元分类中评估度量和数据驱动误分类成本的示例472
R语言开发园地474
R参考文献475
练习475
第18章分类模型的图形化评估477
18.1回顾提升图表和增益图表477
18.2使用误分类成本的提升图表
和增益图表477
18.3回响图表479
18.4利润图表479
18.5投资回报(ROI)图表482
R语言开发园地482
R参考文献484
练习484
第Ⅳ部分聚类
第19章层次聚类和k-均值聚类489
19.1聚类任务489
19.2层次聚类方法491
19.3单一链聚类492
19.4完全链聚类493
19.5k-均值聚类494
19.6k-均值聚类实操示例495
19.7k-均值算法执行中MSB、MSE和伪-F的行为498
19.8SASEnterpriseMiner中k-均值算法的套用499
19.9使用簇成员关係来预测客户
流失501
R语言开发园地502
R参考文献503
练习504
第20章Kohonen网路505
20.1自组织映射505
20.2Kohonen网路507
20.3Kohonen网路学习示例508
20.4簇有效性511
20.5使用Kohonen网路进行聚类
套用511
20.6解释簇512
20.7将簇成员关係作为下游数据
挖掘模型的输入517
R语言开发园地518
R参考文献520
练习520
第21章BIRCH聚类521
21.1BIRCH聚类的理论基础521
21.2簇特徵522
21.3簇特徵树523
21.4阶段1:构建CF树523
21.5阶段2:聚类子簇525
21.6BIRCH聚类示例之阶段1:
构建CF树525
21.7BIRCH聚类示例之阶段2:
聚类子簇530
21.8候选聚类解决方案的评估530
21.9案例研究:在银行贷款数据集
上套用BIRCH聚类531
21.9.1案例研究第1课:对于
任意聚类算法避免高度
相关的输入532
21.9.2案例研究第2课:不同的
排序可能会导致不同的
簇数目535
R语言开发园地537
R参考文献538
练习538
第22章度量簇的优劣541
22.1度量簇优劣的基本原理541
22.2轮廓方法541
22.3轮廓值示例542
22.4Iris数据集的轮廓值分析544
22.5伪-F统计方法547
22.6伪-F统计示例549
22.7将伪-F统计套用于Iris
数据集550
22.8簇验证551
22.9将簇验证方法套用于贷款
数据集551
R语言开发园地554
R参考文献556
练习557
第Ⅴ部分关联规则
第23章关联规则561
23.1亲和度分析与购物篮分析561
23.2支持度、可信度、频繁项集和
先验属性564
23.3先验算法工作原理(第1部
分)——建立频繁项集565
23.4先验算法工作原理(第2部
分)——建立关联规则566
23.5从标誌数据扩展到分类数据569
23.6信息理论方法:广义规则推理
方法570
23.7关联规则不易做好571
23.8度量关联规则可用性的方法573
23.9关联规则是监督学习还是
无监督学习574
23.10局部模式与全局模型574
R语言开发园地575
R参考文献575
练习576
第Ⅵ部分增强模型性能
第24章细分模型581
24.1细分建模过程581
24.2利用EDA识别分段的细分
建模583
24.3利用聚类方法识别分段的
细分建模585
R语言开发园地589
R参考文献591
练习591
第25章集成方法:bagging和
boosting593
25.1使用集成分类模型的理由593
25.2偏差、方差与噪声594
25.3适合採用bagging的场合595
25.4bagging596
25.5boosting599
25.6使用IBM/SPSS建模器套用
bagging和boosting602
参考文献603
R语言开发园地604
R参考文献605
练习606
第26章模型投票与趋向平均609
26.1简单模型投票609
26.2其他投票方法610
26.3模型投票过程611
26.4模型投票的套用612
26.5什幺是趋向平均616
26.6趋向平均过程616
26.7趋向平均的套用618
R语言开发园地619
R参考文献621
练习622
第Ⅶ部分更多主题
第27章遗传算法627
27.1遗传算法简介627
27.2基因算法的基本框架628
27.3遗传算法的简单示例629
27.3.1第1次叠代629
27.3.2第2次叠代631
27.4改进及增强:选择631
27.5改进及增强:交叉633
27.5.1多点交叉633
27.5.2通用交叉634
27.6实值变数的遗传算法634
27.6.1单一算术交叉635
27.6.2简单算术交叉635
27.6.3完全算术交叉635
27.6.4离散交叉635
27.6.5常态分配突变635
27.7利用遗传算法训练神经元
网路636
27.8WEKA:使用遗传算法进行
分析640
R语言开发园地646
R参考文献647
练习647
第28章缺失数据的填充649
28.1缺失数据填充的必要性649
28.2缺失数据填充:连续型变数650
28.3填充的标準误差653
28.4缺失值填充:範畴型变数653
28.5缺失的处理模式654
参考文献655
R语言开发园地655
R参考文献657
练习658
第Ⅷ部分案例研究:对直邮营
销的回响预测
第29章案例研究,第1部分:业务
理解、数据预处理和探索性
数据分析661
29.1数据挖掘的跨行业标準661
29.2业务理解阶段662
29.3数据理解阶段,第一部分:
熟悉数据集663
29.4数据準备阶段667
29.4.1消费金额为负值的情况667
29.4.2实现正态性或对称性的
转换669

作者介绍

Daniel T. Larose博士,美国中康乃狄克州立大学数学科学教授,数据挖掘项目负责人。出版与数据挖掘、Web挖掘和统计理论等相关论着多本。他也是《微软》、《福布斯》杂誌以及《经济学人》杂誌等数据挖掘与统计分析领域的顾问。
Chantal D. Larose是美国康乃狄克大学的在读博士。其研究领域包括缺失数据填补以及基于模型的聚类等。她已获得美国新帕尔兹纽约州立大学商学院决策科学领域助理教授的职位。

转载请注明出处安可林文章网 » 数据挖掘与预测分析(第2版)

相关推荐

    声明:此文信息来源于网络,登载此文只为提供信息参考,并不用于任何商业目的。如有侵权,请及时联系我们:fendou3451@163.com