evel大纲|目标·题型·知识点(版)

CDA LEVEL III 考试大纲

CERTIFIED DATA ANALYST LEVEL III EXAMINATION OUTLINE

CDA(Certified Data Analyst),即“CDA 数据分析师”,是在数字经济大背景和人工智能时代趋势下,面向全行业的专业权威国际资格认证,旨在提升全球用户数字技能,助力企业数字化转型,推动行业数字化发展。「CDA 人才考核标准」是面向全行业数据相关岗位的一套科学化、专业化、国际化的人才技能准则,CDA 考试大纲规定并明确了数据分析师认证考试的具体范围、内容和知识点,考生可按照大纲要求进行相关知识的学习,获取技能,成为专业人才。

考试方式:一年四届 (3、6、9、12月的最后一个周六),线下统考,上机答题。

案例实操题(1题)

考试成绩:分为A、B、C、D四个层次,A、B、C为通过考试,D为不通过

考试要求:客观选择题为闭卷上机答题,请勿携带与考试无关的用品。

案例实操题考生须自行携带电脑操作(安装好带有数据挖掘功能的软件如:PYTHON、SQL、SPSS       MODELER、R、SAS、WEKA等,进行案例操作分析。案例数据将统一提供CSV文件)。

针对不同知识,掌握程度的要求分为【领会】、【熟知】、【应用】三个级别,考生应按照不同知识要求进行学习。

1.领会:考生能够了解规定的知识点,并能够了解规定知识点的内涵与外延,了解其内容要点之间的区别与联系,并能做出正确的阐述、解释和说明。

3.应用:考生须学会将知识点落地实践,并能够使用数据挖掘工具(如Python等)进行实操。能够根据具体要求,给出问题的具体实施流程和策略。

a.数据挖掘概要(2%)

b.数据挖掘方法论(2%)

c.基础数据挖掘技术(3%)

d.进阶数据挖掘技术(3%)

a.高级数据处理(3%)

b.特征工程概要(1%)

c.特征建构(2%)

d.特征选择(3%)

e.特征转换(3%)

f.特征学习(3%)

a.自然语言处理概要(占比1%)

b.分词与词性标注(占比2%)

c.文本挖掘概要(占比1%)

d.关键词提取(占比2%)

e.文本非结构数据转结构(占比4%)

a.正则化的回归模型(2%)

b.决策树(分类树及回归树)(5%)

c.支持向量机(1%)

d.集成方法(9%)

e.聚类分析(4%)

f.关联规则(3%)

g.序列模式(1%)

h.模型评估(5%)

b.类别不平衡问题(4%)

c.模型优化与调参(4%)

a.感知机(1%)

c.卷积神经网络(Convolutional Neural Networks, CNN)(2%)

d.循环神经网络(Recurrent Neural Networks, RNN)(2%)

e.优化算法(2%)

f.深度学习中的正则化(2%)

g.自编码器与表示学习(1%)

a.注意力机制与Transformer(3%)

b.大语言模型及其应用(5%)

c.微调与知识学习(3%)

数据挖掘在政府部门及互联网、金融、零售、医药等行业的应用

数据挖掘的起源、定义及目标

数据挖掘的发展历程

根据给定的数据建立一个数据挖掘的项目

数据挖掘步骤(字段选择、数据清洗、字段扩充、数据编码、数据挖掘、结果呈现)

数据挖掘技术的产业标准(CRISP-DM及SEMMA)

运用数据挖掘进行不同文件格式的数据导入,并进行初步的数据探索,探索的内容包含数值型字段的描述性统计分析、直方图(需与目标字段做连接)、缺失值分析及类别型字段的描述性统计分析、条形图(需与目标字段做连接、缺失值分析。数据探索的结果可进行初步的字段筛选。

案例为本的学习(Case-based Learning):KNN(K-Nearest Neighbor)原理

数据的准备

样本点间距离的计算(Manhattan Distance、City-Block Distance、Euclidean Distance)

运用数据挖掘中的KNN算法进行分类预测、数字预测及内容推荐。建模的过程需考虑将数据进行适当的转换以获得更优的分析结果。

数据挖掘技术的功能分类

描述型数据挖掘/无监督数据挖掘(关联规则、序列模式、聚类分析)

预测型数据挖掘/有监督数据挖掘(分类、预测)

数据过滤(理解如何通过数据过滤的方式,建立区隔化模型,以提升模型的预测效果)

内/外部数据的扩充方法

缺失值的高级填补技术,包括KNN填补、XGBoosting填补

高级数据转换技术,包括数据泛化(Generalization)、数据趋势离散化(Trend Discretization)

运用高级数据预处理技术进行数据过滤,以建立区隔化模型

运用高级数据预处理技术进行缺失值的侦测及填补

运用高级数据预处理技术进行数据泛化的处理

运用高级数据预处理技术进行数据趋势离散化的处理

评估上述不同的数据处理方法对模型效能的影响

特征工程的重要性

特征改进(数据清洗对特征的影响)

特征工程的涵盖范围

特征选择的目的

特征建构的方法

特征转换的方式

特征的自动学习

以AI促进AI

特征建构前的准备

特征的空值处理

特征的标准化

类别型特征的编码

顺序型特征的编码

数值型特征的分箱

建构多项式特征

建构交互特征

特征的归一化

运用数据挖掘对特征进行适当的建构,以作为下阶段特征选择的输入

统计为基础的特征选择(卡方检验、ANOVA检验及T检验)

模型为基础的变量选择(决策树、逻辑回归、随机森林)

递归式的特征选择

运用数据挖掘进行关键特征的选择。同时,评估不同的关键特征选择方法对模型效能的影响。

类间可分性最大化的特征转换-线性判别分析(LDA)

矩阵分解法的特征转换-非负矩阵分解法(NMF)

对稀疏矩阵进行特征转换-截断奇异值分解法(TSVD)

线性特征转换-主成分分析(PCA)

非线性的特征转换-核主成分分析(Kernel PCA)

运用数据挖掘进行特征的转换。同时,评估不同的特征转换方法对模型效能的影响。

关联规则为基础的特征学习

神经网络为基础的特征学习

深度学习为基础的特征学习

词嵌入为基础的文本特征学习

运用数据挖掘进行自动的特征学习。同时,评估不同的特征学习方法对模型效能的影响。

中文语意平台

自然语言处理的研究范畴

分词

词根还原

词性标注

同义词标订

概念标订

角色标订

词性的种类及意义

N-Gram及词

分词及词性标注的难点

法则式分词法

统计式分词法

词性标注

信息检索技术之全文扫描

信息检索技术之签名文件

信息检索技术之逐项反转

控制字汇

关键词索引

文本可视化

文本挖掘的应用

信息检索技术之向量空间模型

文本挖掘的处理流程

将多篇文件及查询转为向量格式,并计算查询与文件间的相似度。

TF、DF及IDF

词性

关键词的提取方法

对多篇文件及查询中的词,计算TF、DF、IDF及词性并提取重要的关键词。

词袋模型

PCA

矩阵分解

词嵌入模型Glove

词嵌入模型Word2Vec(Skip-Gram & CBOW)

对多篇文件进行词嵌入模型的训练及使用。

将结构化后的文件进行文本分类、情绪分析、文本聚类及文本摘要的应用。

回归模型(线性回归、逻辑回归、模型假设)

正则化的回归模型

运用数据挖掘软件建立回归模型,解读模型结果,并评估模型效能。

PRISM决策规则算法

CHAID决策树算法(CHAID的字段选择方式)

ID3决策树算法(ID3的字段选择方式、如何使用决策树来进行分类预测、决策树与决策规则间的关系、ID3算法的弊端)

C4.5决策树算法,包括C4.5的字段选择方式、C4.5的数值型字段处理方式、C4.5的空值处理方式、C4.5的剪枝方法(预剪枝法、悲观剪枝法)

CART分类树算法(分类树与回归树、CART分类树的字段选择方式、CART分类树的剪枝方法)

CART回归树算法(CART回归树的字段选择方式、如何利用模型树来提升CART回归树的效能)

运用数据挖掘软件建立分类树模型,解读模型结果,并评估模型效能。

运用数据挖掘软件建立回归树模型,解读模型结果,并评估模型效能。

支持向量机概述

线性可分

最佳的线性分割超平面

决策边界与支持向量

线性支持向量机

非线性转换

核函数(Polynomial Kernel、Gaussian Radial Basis Function、Sigmoid Kernel)

非线性支持向量机

支持向量机与神经网络间的关系

集成方法概述

抽样技术

训练数据上的抽样方法

输入变量上的抽样方法

袋装法(随机森林)

提升法(Adaboost、GBDT、xgboost、LightGBM)

运用数据挖掘软件建立组合方法模型,解读模型结果,并评估模型效能。

聚类的概念

相似性的衡量(二元变量的相似性衡量、混合类别型变量与数值型变量的相似性衡量)

样本点间距离的计算(Manhattan Distance、City-Block Distance、Euclidean Distance)

聚类算法(Exclusive vs. Non-Exclusive (Overlapping)的聚类算法、分层聚类法、划分聚类法)

分层聚类算法(单一链结法、完全链结法、平均链结法、中心法、Ward’s 法)

划分聚类算法(K-Means法、EM法、K-Medoids法、神经网络SOM法、两步法)

密度聚类算法(DBSCAN)

群数的判断(R-Squared (R2)、Semi-PARTial R-Squared、Root-Mean-Square Standard Deviation (RMSSTD)、轮廓系数(Silhouette Coefficient) )

运用数据挖掘软件建立聚类模型,解读模型结果,并提供营销建议。

关联规则的概念

关联规则的评估指标(支持度、置信度、提升度)

Apriori算法(暴力法的弊端、Apriori算法的理论基础、候选项目组合的产生、候选项目组合的删除)

支持度与置信度的问题(提升度指标)

关联规则的生成

关联规则的延伸(虚拟商品的加入、负向关联规则、相依性网络)

运用数据挖掘软件建立关联规则模型,解读模型结果,并提供营销建议。

序列模式的概念

序列模式的评估指标(支持度、置信度)

AprioriAll算法(暴力法的问题、AprioriAll算法的理论基础、候选项目组合的产生、候选项目组合的删除)

序列模式的延伸(状态移转网络)

运用数据挖掘软件建立序列模式模型,解读模型结果,并提供营销建议。

混淆矩阵(正确率(Accuracy)、查准率(Precision)、查全率(Recall)、F-指标(F-Measure))

KS图(KS Chart)

ROC图(ROC Chart)

GINI图(GINI Chart)

回应图(Response Chart)

增益图(Gain Chart)

提升图(Lift Chart)

收益图(Profit Chart)

平均平方误差(Average Squared Error)

运用数据挖掘软件比较不同模型间的优劣

Pipeline的基本概念

支持Pipeline的常见库

Pipeline自动数据预处理的方法

Pipeline自动机器学习的模型建置方法

Pipeline的调参方法

运用Pipeline技术,快速应用模型。

不平衡数据定义

不平衡数据场景

传统学习方法在不平衡数据中的局限性

类别不平衡所造成的问题

类别不平衡问题的检测方法

过采样技术(Over-sampling)

欠采样技术(Under-sampling)

模型惩罚技术

能运用类别不平衡的处理技术,提升模型的效能

模型参数优化的目的与方法

建模门槛值优化的目的与方法

网格搜索

随机参数搜索

贝叶斯搜索

运用模型参数优化建立更精准的数据挖掘模型

感知机(Perceptron)的由来

感知机(Perceptron)及感知机的极限

多层感知机(Multi-Layer Perceptron)

BP 神经网络概述(理解神经网络的由来及发展历程)

BP 神经网络的架构方式

神经元的组成:组合函数(Combination Function)与激活函数(Activation Function)

BP 神经网络如何传递信息

修正权重值及常数项

训练模型前的数据准备(分类模型的数据准备、预测模型的数据准备)

BP 神经网络与逻辑回归、线性回归及非线性回归间的关系

运用数据挖掘软件建立 BP 神经网络模型,解读模型结果,并评估模型效能。

卷积神经网络 CNN 的由来及发展历程

卷积的重要思想(稀疏交互,参数共享,等变表示)

卷积运算

池化(不变性)

运用数据挖掘软件建立卷积神经网络模型,并评估模型效能。

循环神经网络 RNN 的由来及发展历程

长短期记忆网络

循环神经网络的架构方式

双向循环神经网络

运用数据挖掘软件建立循环神经网络模型,并评估模型效能。

神经网络优化中的挑战(局部问题,梯度消失和爆炸,长期依赖)

基于梯度的优化方法(梯度下降)

随机梯度下降

二阶近似方法(牛顿法等)

自适应学习率算法(Adam等)

参数范数惩罚(L1, L2 正则)

提前终止(early stop)

Dropout

欠完备与正则自编码器

表示能力、层的大小和深度

表示学习的基本概念

无监督预训练

迁移学习和领域自适应

注意力机制的由来

残差连接

注意力与多头注意力

自注意力和位置编码

Transformer架构

大语言模型的发展历程与未来展望

常用大语言模型的架构

Base Model 与 Pretraining

Tokenization

Prompt技术

多模态

运用 AI 工具辅助进行数据挖掘。

Supervised Fine-tuning

Reinforcement Learning

大语言模型的知识学习

Fine-tuning

Prompt tuning

向量数据库

大语言模型的外挂知识库

上下文记忆

代理与链

说明:推荐学习书目中,部分书籍结合软件,考试中客观选择题部分不考查软件操作使用,案例实操部分需要考生运用相关软件进行建模分析,考生可根据自身需求选择性学习。参考书目不需全部学完,根据考纲知识点进行针对性学习即可。

[1] 周志华. 机器学习(第二版). 清华大学出版社, 2016.(必读)(西瓜书)

[2] Ian Goodfellow, Yoshua Bengio, and Aaron Courville. 深度学习 DEEP LEARNING, 人民邮电 出版社, 2017.(必读)(花书)

[3] 常国珍, 赵仁乾, 张秋剑. Python数据科学, 技术详解与商业实践. 机械工业出版社, 2018.(必读)

[4] Aston Zhang, Zachary C. Lipton, Mu Li, and Alexander J. Smola. 动手学深度学习(第二 版), 2023.(选读)

[5] 爱丽丝·郑,阿曼达·卡萨丽. 精通特征工程. 人民邮电出版社, 2019.(选读)

[6] Chris Albon. Python 机器学习手册:从数据预处理到深度学习.电子工业出版社,2019.(选读)

THE END
0.CDA认证有哪些具体的考试内容和要求?分析包括CDA LEVEL III(高级) 考试形式与试卷结构:线下考试,上机答题,提交结果分析。考试内容包括客观选择题和案例操作题,考试时间为210分钟,分为前90分钟和后120分钟两个阶段。 考试内容:包括高级数据挖掘、自然语言处理、机器学习和深度学习等方面的知识和技能。 jvzq<84jgcrujwjyu0ypj~3eqo5b1A8:29:63Ad344658A69
1.CertifiedDataAnalyst|CDA数据分析师认证考试CDA(Certified Data Analyst),亦称“CDA 数据分析师”,指在互联网、零售、金融、电信、医学、旅游等行业专门从事数据的采集、清洗、处理、分析并能制作业务报告、提供决策的新型数据分析人才。jvzquC41yy}/rnftuqtwwn3eqo4dp8hfc
2.数据分析师报名数据分析师考试CDA数据分析师数据分析师报名_ 数据分析师考试_CDA数据分析师 关键词:CDA数据分析师、数据分析师培训、数据分析师考试报名 考生注册报考信息之前,必须认真阅读以下说明: 一、数据分析师-考试信息 1、考试地点: 本次考试在北京、上海、天津、重庆、成都、深圳、广州、济南、南京、杭州jvzquC41yy}/emffcvg/exr13598;
3.cda数据分析师证书怎么考|帆软数字化转型知识库考取CDA数据分析师证书需要通过以下几个步骤:报名参加培训课程、通过各级别考试、积累实践经验、掌握数据分析工具和方法。报名参加培训课程是考取CDA数据分析师证书的第一步。CDA数据分析师证书分为三个级别:一级、二级和三级,每个级别的考试内容和难度逐级递增。考生可以选择参加线下或线上培训课程,以系统地学习数据分析jvzquC41yy}/hjstwct/exr1dnuh1jwvkerf1A:2565
4.CDA数据分析师认证报名通知CDA(Certified Data Analyst),即“CDA数据分析师”,是大数据和人工智能时代面向国际范围全行业的数据分析专业人才职业简称,具体指在互联网、金融、咨询、电信、零售、医疗、旅游等行业专门从事数据的采集、清洗、处理、分析并能制作业务报告、提供决策的新型数据分析人才。 jvzq<84liz/eqi0gf{/ew4pgkfa|mqy0gtrDkf?989B
5.CDA网校官网CDA报名CDA考试CDA培训CDA 网校是一个集CDA报名、CDA考试、CDA培训等服务为一体的综合学习平台。提供CDA教材、CDA题库、CDA学习视频与CDA会员圈子专注于 CDA 数字化人才认证培训,帮助广大考生顺利通过 CDA 数字化人才认证考试,掌握数字化时代的必备技能。 【关于 CDA 】 CDA 是一套科学化,专业jvzquC41gf{/emf0ep5
6.数据分析培训班大数据分析培训课程CDA数据分析培训注重培养学员的数据思维,让学员熟练掌握工具操作和业务逻辑,掌握业务分析全流程,课程由浅入深,循序渐进,不会编程也能快速上手,真正用得上的数据分析技能,助力高新就业。 01 数据分析师就业钱景如何? 数据分析师 数据分析师前景非常可观 01 行业需求 国家十四五计划提出加快数字化发展建设数字中国,全行业急募数字化人才jvzquC41yy}/srszwg9777hqo1ipw{xg19:8:?:0jvsm
7.2024年CDA数据分析师认证一级真题cda真题2024年CDA数据分析师认证一级真题 CDA一级认证考试 考试题型:客观选择题(单选 80 题+多选 20 题+内容相关 20 题+ 案例分析 20 题) 考试时间:120 分钟 考试成绩:分为 A、B、C、D 四个层次,A、B、C 为通过考试,D 为不通过。 1 、数据分析概述与职业操守(占比 3%)jvzquC41dnuh0lxfp0tfv8MCKPOICX~c1cxuklqg1fkucrqu13:45<6;:8
8.南京数据分析师培训学校人工智能工程师CDA数据分析师截止2019年,CDA已与国内100多所高校进行了战略合作,建立了CDA数据分析师考试中心及人才培养基地;已出版30多本CDA数据分析师系列丛书,市场发行量数万册;已进行200多期数据分析及大数据系统培训课程,培养学员50000多名;已举办11届全国数据分析师认证考试,持证人数千名;已开展了四届数据分析师行业峰会(CDASUMMIT),每届jvzq<84yyy4tqxqm0ipo88;575
9.成都数据分析培训CDA数据分析师品牌,截止2018年底,CDA已与国内多所高校进行了战略合作,搭建大数据实验室与共建专业;已出版14本CDA数据分析师系列丛书,市场发行量数万册;已进行100多期数据分析及大数据系统培训课程,培养学员超过40000多名;已举办九届全国数据分析师认证考试,持证人数千人;已开展了四届中国数据分析师行业峰会(CDA SUMMITjvzquC41ejkoimz0efg/ew4
10.CDA数据分析师CDA数据分析师 经管之家CDA数据分析研究院,致力于为社会各界数据分析爱好者提供最优质、最科学、最系统的数据分析教育。CDA与IBM大数据大学、中华采矿资料协会(CDMS)、Oracle等国际企业机构合作,吸取最先进的大数据技术,不断优化改善教学体系。CDA为华为、联通、移动、梅赛德斯奔驰、国电、工商银行、人民银行、建设银行、北jvzquC41uv{e{76850ipo8utqxoeg{4323=16@>371oofn}0jvs
11.CDA网校官网CDA报名CDA考试CDA培训【医疗】行业数据分析应用 糖尿病预测 99.00 99.00 数据分析快速提升班(必修) 4999.00 4999.00 【通信】基于通信基站定位商圈的商业数据挖掘案例 99.00 99.00 数据分析师(中级) 1999.00 1999.00 Python业务数据分析师 2999.00 2999.00 【电商】客户流失标准建模理论和实操 jvzquC41gf{/emf0ep5nc{pgvkth1;
12.CDAlevel非常开心在2023年一开始就考过了CDAlevel-1,也是今年的第一个证书,真真真是一个开门红,虽然很遗憾没有考到A,但是最起码得到B,也算过了,不算亏。下边是我本次考试的成绩。 考试注册报名与考场报名 报名考试网址:https://www.cdaglobal.com/?source=cda_gw(这是CDA官网点击后进去,按照要求进行注册即可。) jvzquC41dnuh0lxfp0tfv8Xkpirfavnpfg5bt}neng5eg}fknu524A:79692
13.CDACDA网校官网CDA报名CDA考试CDA培训数据科学 【CDA干货】互联网运营必看:私域用户质量数据分析如何做? 持证人简介:贺渲雯 ,CDA 数据分析师一级持证人,互联网行业数据分析师今天我将为大家带来一个关于用户私域用户质量数据分析的案例分享,主要围绕三部分来进行阐述。学习入口:https://edu.cda.cn/goods/show/3853?targetId=6765&preview=001 jvzquC41gf{/emf0ep5bt}neng5dc}jiqt0f|