3、目前好用的扩展
中国精算师,北美准精算师,金融数据分析师,中级经济师,研究生毕业于中央财经大学,拥有期货、证券、银行类资格证书以及广泛的金融保险行业从业经验,同经管之家相识多年,擅长于数据分析,有长期的SAS、SPSS、EXCEL实战经验和授课经历,为人和善,始终相信能帮助和影响他人变得更好才是人生的意义所在。
统计学专业博士,加州大学伯克利分校统计学院高级访问学者,对外经济贸易大学大数据与风险管理中心成员、中国人民大学应用统计研究中心成员、具有丰富的统计学及数学教学经验,,研究方向为数据挖掘、机器学习、稳健高维降维、应用统计模型等,在国外SCI及国内核心外期刊上发表论文二十余篇并参与完成多项著作。
目前致力于大数据、超高维数据在交叉学科的前沿领域研究,主持并参与了包括国家自然科学基金项目在内的多项国家级课题及北京市自然科学基金、社会哲学规划项目等重大省部级课题,、以及参与的“大数据的统计学基础理论与分析技术创新研究”、“大数据下Leverage重要性抽样的稳健改进”等大数据项目。在学校承担多项课程,精通各种软件,正在编写《实用数据挖掘讲义》及《商务应用统计案例》。
2013年9月-2015年9月期间,在上海交通大学上海郭照蕊,高级金融学院从事金融工程博士后研究工作。在攻读博士之前,曾在广东海洋大学经济管理学院任教。
近几年,先后在包括《管理世界》、《审计研究》、《Review of Pacific Basin Financial Markets and Policies》等在内的各类国内外学术期刊上发表论文十余篇,。
1、本课程从最基础的统计理论(描述性统计、区间估计、假设检验等),到基本的统计分析(T检验、方差分析等),最后到商业常用的模型(回归、因子分析、时间序列)。以深入浅出的方法,带大家逐步了解统计
2、本课程R编程基础主要了解R语言的基本概念以及基本编程语句,编程基础主要侧重R包的管理,R的数据结构以及R基本的函数和语句和R可视化,3天R统计主要有R语言的统计应用(统计推断、线性回归、主成分分析),学员利用几个公司的实际例子来更好的理解R的统计应用。
3、本课程数据挖掘基础理论与具体操作为主要内容,讲述数据挖掘的各主要步骤、算法和应用,并通过对实际案例的分析,帮助学生更加深入地理解常用的数据挖掘模型。本课程的要求学生能够使用R语言数据挖掘平台,通过对学生在获取数据、清理数据、分析数据和知识发现等不同环节的训练,帮助学生掌握在应用场景下独立使用数据挖掘理论与方法解决现实问题的能力。
4、《R语言与数据挖掘》课程的研究对象主要是各种主流的数据挖掘模型,主要有7个方面的内容,分别是决策树模型、聚类模型、支持向量机、贝叶斯网络、关联分析、文本分析。学生通过数据挖掘方面的学习,不仅可以掌握数据挖掘的相关理论和模型,而且可以通过不同案例的实务操作,掌握运用不同模型运用的技巧,为从事数据量化分析的工作提供必要的准备。
5、本阶段是以实际案例为主,数据分析应用案例都是现在应用最广泛的、最流行的案例。 这些案例分别来自医药,电商,互联网,金融,零售等行业经典的案例,也包含现在非常流行的算法(决策树,逻辑回归,线性回归,时间序列等),应用面非常广泛,这些案例通俗易懂,逻辑性强,讲解循序渐进,非常适合各行各业没有经验或者经验较少的学员。
1、集中趋势的度量、离散程度的度量、偏态与峰态的度量、统计量的概念、几个分布的概念、正态分布导出的几个概念(卡方分布、t分布、F分布)、样本均值的分布与中心极限定理、样本比例的抽样分布、两个样本均值之差的抽样分布、样本方差的分布、参数估计的一般问题(最大似然估计)、一个总体参数的区间估计、两个总体参数的区间估计、样本量的确定、假设检验(2类错误)、一个总体参数的检验、两个总体参数的检验、分类数据分析
2、R的优点、R的对象、R读写数据、R子集、R去除缺失值、R向量运算构造(常见的基本运算函数、创建随机数、随机抽样)、R中的日期和时间、字符处理函数、分析性图标的基本原则、探索性图表、R绘图系统(基础绘图系统、Lattice绘图系统、ggplot2系统)、控制结构、函数创建和参数、循环函数、常见数据清理。
4、信用风险模型的业务理解、账龄分析、申请信用评级解释变量准备、初始信用违约预测之拒绝推断、KNN算法、决策树在变量选择的运用、变量筛选与数据清洗、连续变量分箱WOE转换、模型评估、生成评分卡、模型监测、分类模型建模流程:将所有的解释变量转化为连续变量。
5、分类变量的压缩、连续变量的压缩、水平变量编码转换、基于目标变量的转换-WOE、主成分分析、变量聚类。
6、层次聚类的思路、k-means聚类的思路和使用条件、预先处理变量、变量标准化、k-means聚类过程、轮廓系数、变量转换、用户画像的构建。
7、贝叶斯算法的优点、先验概率和后验概率、贝叶斯法则、连续变量的处理。
10、决策树建模思路、Quinlan系列决策树建模原理、CART建模原理、模型修剪、模型评估、随机森林与组合算法、信息增益计算、ID3的缺点、比较多个变量的优先级、CART决策树原理、基尼系数、决策树建树原理、决策树方法总结、剪枝、CART的决策树修剪方法。
11、信用风险模型、分类变量的相关关系、逻辑回归、模型评估、因果关系建模与取数逻辑、估计方法、列联分析的原假设与备选假设、卡方检验、优势比、Logit回归与线性回归、Logit变换、logisitic回归模型评估、模型评估原则、样本内评估、评估指标汇总、ROC曲线、Lorenz曲线、累积提升度、K-S统计量、逻辑回归估计方法、极大似然估计。
12、决策树的应用(对未知数据进行分类,可以对未知数据进行预测),决策树输出变量的类型(分类树输出的是分类或离散变量、回归树输出的是连续变量)、决策树的工作流程、决策树的优缺点、决策树常用算法(C4.5、CART)、分裂准则(信息增益、基尼系数、最小方差)、决策树的停止条件、决策树的应用基础、数据变量预处理、剪枝、调参、决策树结果结合商业背景、决策树进阶的商业应用。
14、时间序列常用模型、ARIMA模型的优点、时间序列特征、白噪声序列、自回归模型(ACF、PACF、自回归阶数)、移动平均模型(序列相关性、ACF、PACF)、AMRA模型(ACF、PACF)、三个模型的比较、ARIMA模型、预测的评价指标、Box-Jenkins建模流程。
2、熟练掌握R语言的基本语法,常用函数的用法,能运用R语言的可视化、R数据清洗、R文本处理等功能处理一些简单的数据,最后能使用R处理一些常用的统计模型(统计推断,线性回归,主成分分析)。
4、深入的了解各种算法(决策树,logistic回归,线性回归,时间序列等)在行业中的引用,掌握数据分析在行业中的应用流程,遇到问题能够及时找到问题所在,根据自己以后的工作内容和方向针对性的对案例进行更加深入的学习。