Python数据分析师

说明:0基础入学,5大进阶之路,8大课程阶段,35+课程,1000+学时,

18大行业经典案例,两大商业项目实战!人工智能是你的目标!

课程时长:约66天,每天不低于6小时

授课方式:线下面授+翻转课堂(部分课程结合平台在线课程)

本课程系后继系列课程的前导课程,主要站在理论的高度上讲了数据分析市场、行业及岗位技能需求,及数据分析工作的思路、方法论、工作

流程与数据分析报告的写法与注意事项,让学员能从总体上对数据分析师的工作与需具备的技能与工作流程有一个大概的了解,为后继课程的学

习打下理论基础。

了解数据分析师的工作职责,并为自

己树立职业目标

重要程度

★★

难度系数

序号课程名称内容课时学完后能做什么?

数据分析师先导篇1、数据分析的概念

2、数据分析的作用

3、数据分析六部曲

4、数据分析的三大误区

5、数据分析师的发展和职业要求

6、数据分析师的职业素质

7、为自己树立职业目标

对数据分析行业有初步了解,并

明确数据分析师的工作流程及工

作职责。

0.5天

1

逻辑为先——XMIND1、xmind简介

2、xmind作用

3、xmind模板的制作和下载

4、xmind内容制作

5、导入及导出

6、学习方法课堂案例

7、滴答拼车实战演练

8、其他思维导图介绍

无论是学习中的笔记还是工作中的

会议纪要,还是改善自己的思维逻

辑性,都可以用XMIND来解决。

2

流程主导——VISI01、VISI0的基本布局和功能模块

2、流程图结构说明

3、D0&D0N0T业务流程图注意事项

4、项目实战:制作简单流程图

5、使用Visio画UML序列图

6、使用Visio画UML类图

7、使用Visio画UML用例图

8、使用Visio画UML状态图

对公司业务流程更加清晰,为后续

分析做好基础。

3

专业展现——PPT1、专业展现——PPT

2、基本简介

3、几个不得不说的真相

5、实战动画

学会做好看的ppt,是你成为

数据分析师的秘密,它会在老

板面试帮你展现你的展业水准!

4

Python数据分析师-线下班课程大纲V2.0

02

阶段二

数据预处理分析篇

本课程为数据分析的初级应用阶段,主要通过Python语言、Excel、PowerBI、MySQL、Tableau等可视化工具进行对数据的预处理,让

学员能够在拿到数据后对数据进行清洗,转换等处理,为接下来的数据建模打下基础。

针对初级数据分析师的职位发展要求

★★★★

★★★

Excel数据处理与分

析实战

1、用Excel实现数据清洗和转化

2、用Excel之PowerQuery实现数据转换和清洗

3、数据分析和建模(powerquery和power

pivot的使用)

4、数据展现之基本统计图介绍及简单制作

5、数据展现之利用Excel实现基本数据透视表

6、数据展现之利用PowerView实现透视表

7、数据展现之利用PowerMap实现bing地图

8、Excel解决某公司财务报表动态生成

学完本课程可基本完成数据分析

的工作,包括数据预处理,数据

建模,数据分析以及数据展现,

达到初级数据分析师的标准。

4天

2天

3天

5天

PowerBI上手商业

数据可视化

1、微软PowerBI简介

2、通过powerpivot报告上手powerbi

3、PowerBIDesktop界面介绍和数据导入整理

4、PowerBIDesktop建立数据分析模型

5、PowerBI0nlineService(在线版)特有功能

7、powerbi和Excel的配合

8、数据的刷新

9、仪表板的制作原则

10、常用可视化图表介绍

11、PowerBI之巧用地图

1、通过powerbidesktop可

建立数据模型

2、通过powerbidesktop可在网

页端进行数据展现

3、通过powerbidesktop可实现

数据实时更新并发表。

Tableau数据可视化应

用实战

1、Tableau概述

2、Tableau新手上路

3、Tableau连接数据并准备数据

4、Tableau设计视图

5、利用Tableau工具分析数据

7、TableauServe与Tableau0nline

8、Tableau连接MySql进行数据分析

9、Tableau地图绘制与图像

10、Tableau图表类型

11、Tableau函数、公式与数据分析

Tableau综合案例分析1:某电商行为分析

Tableau综合案例分析2:某在线教育指标评估

Tableau综合案例分析3:某零售行业进销存分析

1、能够使用Tableau进行数据的

可视化展示

2、能够利用Tableau对数据

进行数据分析

MySql数据库自动

化操作及应用

MySql、数据库数据类型、约束、Navicat介

绍、Navicat创建数据库、Navicat填充数据)

2、SQL进阶

3、多表查询及存储过程

4、商品进销存项目实战

1、可从企业中的数据库直接导出

数据进行分析

2、可在数据库中进行数据操作

3、可将数据可视化工具结合

MySQL数据库进行数据分析操作

03

阶段三

学完后胜任的工作岗位是:

数据挖掘篇

此阶段为我们整个课程的第三阶段,数据挖掘篇。侧重于数据的分析和建模。通过对基本的数理统计知识的学习,达到利用分析工具及方

法对业务分析预测的目的。

数据挖掘/分析师

数据分析—数理统

计基础

1、概率

2、样本与抽样

3、描述数据(统计量)

4、正太分布

5、统计推断

6、实验设计

7、变量之间的关系

8、回归分析

9、聚类分析

1、能够通过对理论的学习为后续

的分析打下基础

2、通过分析方法对复杂数据

1天

SPSS建模分析1、spss入门介绍

2、好的开始是成功的一半—数据录入与数据处理

3、化简为繁—描述性统计分析

4、看图说话—统计图表分析

5、真博弈1——假设检验概述与t检验

6、真博弈2——非参数检验与卡方检验

8、影响因素判断——方差分析

10、泾渭分明——分类算法

11、物以类聚——聚类算法

12、大道至简——降维方法研究

项目案例:spss人口普查数据分析实例

1、能够利用所学的spss知识解决

实际工作中遇到的复杂问题

2、为后续学习的深入学习打下基

SAS建模分析1、SAS基本介绍2、SAS的安装

3、SAS运行环境的界面介绍

4、Insight模块5、SAS编程基本语法

6、数据的导入与导出7、Analyst模块

8、SAS运算符及函数9、DATA步信息语句

10、Assist模块11、Assist模块

12、使用SAS制作统计分析报表

13、使用STAT模块进行统计分析介绍

14、SAS中的宏语言

15、EnterpriseMiner数据挖掘模块

16、使用ETS模块对面板数据进行计量分析

项目案例:商品管理系统分析案例解析

1、了解什么是SAS

2、了解SAS的工作方法

3、利用SAS进行数据建模

MATLAB数理统计1、了解Matlab2、Matlab语言基础

3、Matlab的选择结构

4、Matlab的循环结构

5、自定义函数6、复数及其作图

7、高维数组与稀疏矩阵

8、单元数组和结构数组

9、Matlab的数值运算

10、Matlab的符号运算

11、I/0操作12、图形对象接口(GUI)

13、结束篇

1、能够实现对数据进行可视

化建模

04

阶段四

Python数据分析篇

此阶段为我们整个课程的第四阶段,Python数据分析。将主要侧重Python语言及数据分析包的学习。通过对Python语言、Python数据处

理、分析包及可视化包的学习,训练学员掌握必备的基本编码能力,为后续更的内容打下坚实且必要基础。

Python数据分析师

★★★★★

Python扫盲Python语言开发要点详解

Python开发环境搭建

Python数据类型和常见算法

Python函数式编程

Python文件处理

Python类、异常处理

能够使用Python写一个简单的基

于控制台的应用

10天

Python核心编程Python中的集合,泛型,元组,字典

Python网络编程、多线程、正则表达式

MySQL数据库精讲

MongoDB数据库精讲

Python中如何操作MySQL数据库

Python中如何操作MongoDB

1、利用python类库实现更加

的数据处理

2、可以把爬虫获取到的数据存放

到数据库中

3、熟练使用Python进行数据持久

化工作

数据收集

–Python爬虫技术

Python爬虫原理与入门

利用requests及BeautifulSoup爬取数据

BeautifulSoup库的使用

利用及BeautifulSoup爬取数据

利用Scrapy框架爬取数据

爬虫综合项目实战

1、使用Python库进行豆辩电影

分析

2、能够利用Scrapy框架实时抓取

京东、天猫商城数据

Python科学计算库

-Numpy

NumPy简介、程序包、简单的Numpy程序

Ndarray的文件操作

操作多维数组ndarray、索引、索引数组、布尔

数组

改变ndarray的形状

ndarray的基本运算

numpy进阶

numpy:广播、复制与视图

1、能够利用Numpy包进行一些金

融,电商等数据的量化分析工作

2、能够利用Numpy进行数据的科

学计算

3、能够用Numpy实现“人工智能

/机器学习”各种经典算法

Python科学计算库1天

-Scipy

简单的SCIPY程序

SCIPY程序包

scipy简介

线性代数基础知识_向量

线性代数基础知识_矩阵

特征值和特征向量

解线性方程组

小二乘法

1、能够利用Scipy包完成人工智

能/机器学习应用中的一些专业数

学统计运算

2、能够利用Scipy进行人工智能/

机器学习应用中的科学计算

3、能够用Numpy+Scipy实现

“人工智能/机器学习”各种经典

算法

5

05

Python数据分析库

–Pandas

Pandas简介\PANDAS程序包安装

简单的PANDAS程序\Series类说明

Series的bool运算选择\SERIES的复杂操作

DataFrame的常用构造方式与操作

分组求和(聚合操作)\列与列之间的四则运算

删除某一列\按位置选定的行和列

深复制&浅复制

DataFrame与DataFrame之间的join操作

1、能够利用Pandas包进行人工智

能/机器学习应用的数据分析工作

2、能够利用Pandas包简化人工智

能/机器学习应用中的科学计算

3、能够利用Pandas实现“人工智

能/机器学习”各种经典算法

6

Python数据分析可视化

库–matplotlib

Matplotlib简介

matplotlib程序包安装

简单的matplotlib程序

Matplotlib主要绘图类型(上)

Matplotlib主要绘图类型(下)

Matplotlib主要绘图参数

Matplotlib主要绘图装饰函数

Matplotlib文字标注与注释

1、能够使用Python库进行豆辩

电影分析

2、能够利用对人工智能/机器学习

处理后的数据进行可视化展示

7

阶段五

大数据分析篇(必修篇)

此阶段为我们整个课程的第五阶段,不需要学员具备Java基础知识,也不需要学员了解大数据环境,只需要学员有Python及数据库基础知

识,便可以学习此部分内容。此部分内容,老师将会直接给到学员一个真实的大数据开发环境,直接在这个真实的开发环境里结合实际的四个小

案例手把手的教大家去实现一个Python+Spark(PySpark框架)的具体应用,这是目前大据分析师工作的主要内容,干货满满!

1、Python大数据分析师

2、大数据分析师

大数据分析Hadoop

及Python实现

1、大数据框架Hadoop介绍、MapReduce思想

2、使用QuickStartVM搭建环境、数据基本

存储命令

3、案例一:Python实现HadoopMapReduce

词频统计

4、案例二:Python实现HadoopMapReduce

的IBM股票价格数据分析

5、案例二:Matplotlib绘图展示分析结果

1、对大数据有了一个基本的认识

2、能够用Python根据需求写一

个MapReduce程序在Hadoop平

台中运行

大数据分析框架PySpark

基本使用

1、Spark简介、环境搭建

2、Spark核心、JupyterNotebook使用

3、词频统计:WordCount

4、使用PyCharm对航班信息数据分析

1、能够对Spark有一个基本的理解

2、能够搭建起一个PySpark开发环境

3、能够结合业务编写一个简单的

PySpark小应用

PySpark分析某航天中心1天

服务器日志

1、服务器日志读取解析

2、日志数据采样统计概览

3、基于不同需求分析日志数据

4、分析展示404响应日志数据

1、能够了解常见的日志数据的格式

与解析

2、能够结合业务利用PySpark框架

对于不同系统的离线日志进行分析

大数据Hive集成Python1天

1、大数据SQL分析框架Hive使用

2、HQL结合Python脚本影评数据分析

3、PySpark与Hive集成分析

4、基于SQL和DSL的PySpark分析

1、能够独立完成Hive与PySpark

的集成

2、会使用Hive+PySpark结合业

务做数据分析

06

阶段六

学习完成后能够胜任的工作岗位:

精英项目实战篇

此阶段为我们整个课程的第六阶段,精英项目实战篇。借助四大商业级项目实战,让学员对数据分析应用有一个的理解与认识,让学员在

工作中有机会冲击数据分析师工作岗位,从而成为这个领域的

综合项目实战01-

Python豆瓣电影分

析系统

通过一个真实项目演示一个数据分析项目全流

程,主要包括:

1、业务需求分析

2、数据收集

3、数据清洗

4、数据处理

5、数据分析

6、数据可视化分析展示

7、数据分析报告

1、了解了一个真实的数据分析项

目全流程

2、能够对之前学习过的Python爬

虫技术结合项目有更深入的理解

3、掌握numpy,pandas结合

matplotlib\PyEcharts进行可视化

数据分析与展示

综合项目实战02-豆瓣

电影可视化分析系统

通过一个真实项目演示一个数据分析项目全流程

(借助可视化分析工具),主要包括:

2、掌握可视化分析工具结合业务

的综合运用

Python商业数据科学实

战系统课程-1:CRM客

户洞察与用户画像系统

(Python篇)

1、初始客户信息获取

2、客户价值预测

3、初始信用评级与行为信用评级

4、客户细分与客户画像

可以实际参与到企业真实的数据分

析工作,利用自己所学知识内容完

成企业分析需求并制作专业数据分

析报告。

Python商业数据科学

实战系统课程-2:

CRM客户洞察与用户

画像系统

(Python+大数据篇)

1、经准营销与交叉销售

2、申请反欺诈与欺诈检测

3、知识图谱在申请欺诈中的运用

4、客户满意度与客户保留

5、客户行为偏好分析与产品

07

以下两个阶段属于课程选修阶段:赠送视频课程

阶段七

大数据分析师(选修冲击篇)

此阶段为我们整个课程的第七阶段,属选修内容,需要学员具备基本的Java语言编程能力,主要介绍了大数据平台的基本搭建及

选修

大数据开发工程师

大数据分析师

Linux系统运维管理1、Linux发展及介绍

2、Vmvare与Centos6.x的安装部署

3、Linux文件管理及用户管理

4、Linux权限管理与常用工具命令

5、Linux网络管理与系统管理

7、Linux软件管理与正则表达式

8、Shell编程应用

9、Linux定时任务Crontab

1、能够独立熟练操作Linux,完

成各种应用工具的安装部署

2、能够根据需求独立完成shell脚

本的开发与定时调度

大数据存储分析

HAD00P框架入门

1、大数据概论

2、HAD00P框架及伪分布式环境

3、HDFS分布式文件系统

4、MapReduce并行计算框架

5、YARN分布式资源管理

6、MapReduce企业开发案例

7、Hadoop分布式集群部署

8、Hadoop容灾方案:高可用

1、能够独立部署Hadoop集群,并

配置容灾方案,解决集群常见问题

2、能够根据需求使用Java熟练开

发MapReduce程序

大数据仓库工具HIVE1、Hive引入、介绍及安装

2、Hive的DDL(数据库创建及表的三种创建方式)

3、Hive外部表、分区表及加载数据和基本SQL使用

4、Hive电商案例分析

5、HiveServer2及beeline与JDBC使用

1、能够独立完成Hive的安装部署

构建数据仓库

2、能够使用SQL根据需求实现数

据的统计分析

SCALA语言基础1、SCALA环境安装搭建和IDEA初步使用

2、变量、数据类型、流程控制语句

3、函数式编程:函数定义、匿名函数、高阶函

数、可变参数函数等

3、Scala集合:可变和不可变、列表List、元

祖Tuple及Set和Map及常见高阶函数4、Scala

00P、模式匹配、隐式转换

本阶段完成可以为后续Spark和

Kafka学习查看源码打下基础,更

好的理解Spark框架的精髓,企业

中很多是基于Scala语言编写代码

分析数据的。

SparkSQL结构化2天

数据处理

1、与Hive集成分析数据

2、Dataset/DataFrame是什么

3、外部数据源接口read和write

4、基于天池大赛的口碑商家流量预测分析

使用SQL或者DSL进行海量结构

化数据分析,结合Python语言进

行企业化的数据处理和机器学习中

数据预处理操作,也能实现海量数

据交互式分析。

项目实战:基于1天

SparkStreaming+

Kafka仿某宝实时

订单销售额统计

1、通过一个电商实时系统了解天

猫双11系统架构与关健核心技术

2、掌握SparkStream+Kafka+

Redis如何结合业务使用

08

阶段八

人工智能/机器学习(选修冲顶篇)

此阶段为我们整个课程的第七阶段,属选修内容。需要学员具备比较强的算法数学能力及一定的Python编程能力,主要介绍了人工智能机器

学习的入门知识及必备算法能力,通过具体的项目演示了人工智能/机器学习在实际工作中运用,会将来更进一步的深入人工智能学习打下良好的

基础

人工智能应用开发工程师

机器学习入门机器学习扫盲

数据挖掘和机器学习概述

理解数据挖掘和机器学习

数据挖掘的六大任务

数据挖掘方法论(CRISP-DM)

预测模型的构建和应用流程

机器学习算法及分类.

数据挖掘与数据仓库和0LAP

数据挖掘和机器学习应用案例

如何成为一名的数据科学家

1、能够对人工智能与机器学习、深度学习之间

的关系有了一个深入的理解

2、能够知道开发一个人工智能的应用一些基本

的套路与实现步骤

3、对十大经典人工智能/数据挖掘算法有一个基

本的认知

机器学习十大经典算法原

理与实现(入门篇)

决策树算法原理与适用场景

随机森林算法原理与适用场景

逻辑回归算法原理与适用场景

SVM算法原理与适用场景

朴素贝叶斯算法原理与适用场景

K近邻算法原理与适用场景

K均值算法原理与适用场景

Adaboost算法原理与适用场景

神经网络算法原理与适用场景

马尔可夫算法原理与适用场景

1、了解十大经典算法是什么,为什么,以及怎

么用

2、了解十大经典算法的经典应用场景及实际解

决什么问题

3、能够知道在什么场景下我们应该用哪个算法

来解决实际问题

4、为后继具体算法在人工智能/机器学习具体业

务应用打下基础

机器学习实战案例-1:

基于FP-growth算法实

现的新闻流量点击

分析系统

1、项目背景

2、FP-growth算法的原理

3、Python代码实现

本项目就是从用户点击的历史记录中,挖掘频繁

项集,以便知道哪些新闻报道是经常关联在一起

的。从而为的新闻版面排版,新闻等提

供科学的参考。主要涉及到FP-growth、

FP-tree等算法的综合运用

机器学习实战案例

-3:、基于LVD、贝

叶斯模型算法实现的电

分析案例实战

1、LDA主题模型

2、SVD算法

3、LDA模型调优

4、贝叶斯模型

现在大家进行,在购物之前呢,肯定会看下

有不少的消费者已经不看商品详情描述页了,而

经是用户决策为核心的考量因素了。

机器学习实战案例2天

-2:、基于聚类

(Kmeans)算法实现的

客户价值分析系统

2、聚类模型算法简介

3、kmeans算法原理

4、kmeans算法Python代码实现

5、kmeans算法优化

客户价值分析其实就是一个客户分群问题。是以

客户为中心,先从客户需求出发,搞清楚客户需

要什么,他们有怎么样的一个特征,他们需要什

么样的产品,然后我们再回头设计出相应的产

品,以满足客户的需求。

备注:课程的具体课时安排,老师根据学员和班级情况适当调整。

THE END
1.数据分析中常用的9大算法原理数据分析数据算法实现原理: 决策树是一种监督学习算法,用于分类和回归任务。它模拟了人类决策过程,通过一系列规则对数据进行分类或预测。决策树的构建过程包括特征选择、树的生成和剪枝。 特征选择:选择最佳的特征进行分割,常用的方法有信息增益(ID3算法)和基尼不纯度(CART算法)。 https://blog.csdn.net/qq_30776829/article/details/137051717
2.大数据推荐算法的原理是最后,大数据推荐算法会不断学习和优化。推荐算法会根据用户的反馈和新的行为数据进行模型的更新和优化。通过不断迭代优化,推荐算法可以逐渐提高准确性和个性化程度。 大数据推荐算法的原理主要包括行为分析、兴趣挖掘和个性化推荐。它通过对大数据的分析和挖掘,发现用户的兴趣和需求,并给出符合用户兴趣的个性化推荐。这一算https://wenku.baidu.com/view/51e3f5f280d049649b6648d7c1c708a1294a0a38.html
3.ai大数据分析原理是什么帆软数字化转型知识库AI大数据分析的原理是基于大规模数据集的收集、存储和处理,通过机器学习算法和统计模型进行数据挖掘、模式识别和预测,从而实现数据驱动的决策。在这些原理中,数据收集是最基础的一步,通常包括从各种来源如传感器、日志文件、社交媒体等收集大量的原始数据。数据存储则需要高效的数据库和分布式存储系统来管理这些庞大的数据集https://www.fanruan.com/blog/article/40845/
4.大数据推送算法导读:一、什么是大数据推送算法大数据推送算法是一种基于大数据技术和机器学习算法的推送策略,它通过分析用户的行为数据和个人偏好,将合适的信息、广告或推荐内容推送给用户。这种算法可 本文目录一览 1、大数据推送算法原理 2、大数据推送算法优化 一、什么是大数据推送算法 http://chatgpt.cmpy.cn/article/4911796.html
5.大数据:分类算法深度解析大数据分类算法深度解析 在大数据时代,处理海量数据并从中提取有用信息变得至关重要。分类算法是机器学习领域的核心,它们在大数据分析、模式识别和决策支持等方面发挥着关键作用。本文将深度解析大数据分类算法,包括其基本原理、常见算法、应用场景以及未来发展方向。 http://www.360doc.com/content/24/0112/20/78411425_1110858832.shtml
6.DizzyK/ustccyber计算机原理与嵌入式系统 微机原理与嵌入式系统的等效课程 专业核心课 信号与系统B 信号与系统的低级课程 专业选修课 大数据算法 密码工程原理与实践 数据建模与分析基础 网络优化导论 机器学习及其安全应用 网络空间安全数学建模基础 2020级王小谟英才班 专业核心课 https://toscode.gitee.com/DizzyK/ustc_cyber_security
7.大数据分析常用算法及原理大数据分析常用算法及原理 大数据分析各种算法大数据分析常用算法 相对于复杂度分析,还有一个对立的分析方法,叫做事后统计法,但它有两个缺点:测试结果非常依赖测试环境测试结果受数据规模的影响很大我们需要一个不用具体的测试数据来测试,就可以粗略地估计算法的执行效率的方法。这就是我们今天要讲的时间、空间复杂度分析https://blog.51cto.com/topic/dashujufenxichangyongsuanfajiyuanli.html
8.转载10大大数据处理算法搬砖吊死【转载】10大大数据处理算法 一、Bloom filter 适用范围:可以用来实现数据字典,进行数据的判重,或者集合求交集 基本原理及要点: 对于原理来说很简单,位数组+k个独立hash函数。将 hash函数对应的值的位数组置1,查找时如果发现所有hash函数对应位都是1说明存在,很明显这个过程并不保证查找的结果是100%正确的。同时也https://www.cnblogs.com/chenweian/articles/4008780.html
9.大数据算法课件.pdf大数据算法课件.pdf 158页VIP内容提供方:浙江工程信息通 大小:7.79 MB 字数:约7.53万字 发布时间:2024-01-05发布于浙江 浏览人气:12 下载次数:仅上传者可见 收藏次数:0 需要金币:*** 金币 (10金币=人民币1元)大数据算法课件.pdf关闭预览 https://max.book118.com/html/2024/0104/6044220112010031.shtm
10.大数据算法(王宏志著)完整pdf扫描版[101MB]电子书下载前沿、实用的内容。总结了大数据算法设计与分析的新技术和新理念,梳理了当前大数据相关应用中所需要的算法设计与分析的方法。书中的部分内容代表了学术界全新的前沿技术,首次出现在国内外的教科书上。 清晰、严谨的叙述。针对大数据算法设计与分析中的主要方法,通过介绍原理、举例说明、算法分析等多个角度进行阐述,清晰地https://www.jb51.net/books/583619.html
11.生成对抗网络(GAN)算法原理简述腾讯云开发者社区生成对抗网络(GAN)算法原理简述 前言 2014年Ian Goodfellow在研究使用生成模型自动生成图片的过程中,发现传统神经网络方法效果并不理想,随后缘于一个偶然的灵感,发明了生成对抗网络(GAN),在其实验数据的图片生成上取得了非常理想的效果。从此,这种全新的技术作为训练生成模型的新框架,迅速风靡人工智能各个领域并取得不少https://cloud.tencent.com/developer/article/1698281
12.专业系近五年来,主持国家自然科学基金项目12项,发表SCI、SSCI检索论文100余篇并被SCI、SSCI论文他引700余次,其中基于视觉原理的聚类方法单篇他引90余次。2017年,学院作为主要承担单位获批大数据算法与分析技术国家工程实验室,其中统计学科作为主要力量承担实验室工作。http://math.xjtu.edu.cn/jzlm/xygk/jgsz1/zyx.htm
13.大数据算法:分类算法大数据算法:分类算法 KNN分类算法 KNN算法,即K近邻(K Nearest Neighbour)算法,是一种基本的分类算法。其主要原理是:对于一个需要分类的数据,将其和一组已经分类标注好的样本集合进行比较,得到距离最近的K个样本,K个样本最多归属的类别,就是这个需要分类数据的类别。下面我给你画了一个KNN算法的原理图。https://www.jianshu.com/p/3bd03e33d760