中国外汇网微观主体外汇违规行为监测预警研究2024年第3期

【内容摘要】党的二十大报告提出,加强和完善现代金融监管,强化金融稳定保障体系,依法将各类金融活动全部纳入监管,守住不发生系统性风险底线,这为外汇管理工作指明了方向。本文利用2018年至2021年广东省微观企业外汇数据,基于逻辑回归、随机森林、极端梯度提升树、改进的梯度提升树和支持向量机等模型,引入采样方法及集成学习技术,对外汇违规主体样本进行拟合并开展预测分析。研究发现:一是通过叠加使用采样算法和平衡装袋分类器等集成算法可有效强化预测效果。二是在多种机器学习技术中,极端梯度提升树、改进的梯度提升树、随机森林三项模型可实现较佳预测效果,整体准确率保持在80%以上。三是搭建模型可实现对外汇领域微观主体监测的稳定预警效果。基于实证结果,本文从数据、模型、监管和安全四个维度出发,提出了基于大数据及机器学习技术的“四位一体”外汇微观监管政策框架及措施。

【关键词】微观监管外汇违规机器学习大数据

一、引言

微观主体外汇违法违规行为加大了外汇领域风险,给外汇管理和跨境资金流动风险防范带来了挑战。为有效管理微观主体外汇违法违规行为带来的风险,需要健全微观主体外汇违法违规行为监测预警机制,完善微观主体行为监测框架,丰富微观主体行为监管的政策工具箱。传统的微观主体行为监测多基于外汇管理系统数据,采用统计学和计量经济学框架,监测效果受限于非现场监管人员的经验和能力,存在效率不高、前瞻性不足等问题。本文在梳理现有大数据和机器学习技术的基础上,运用微观主体大数据建立和优化微观主体行为监测预警大数据模型,对微观主体行为进行监测分析,在此基础上提出基于大数据技术的外汇领域微观主体行为监管政策框架及具体举措。

二、文献综述

近年来,大数据技术在金融领域的研究取得显著进展。翟伟丽(2014)阐述了金融体系在大数据时代的重构问题,指出由于参与者的行为得到了充分记录,信用评价和征信体系变得更加有效,大数据的预测能力也将改变风险管理和决策模式。Paolo(2018)描述了金融数据科学的概念,并提出数据科学模型可以在金融科技发展进程中发挥重要作用。阮健弘(2022)认为大数据技术应用让金融统计分析变得更实、更全、更快和更准,为分析经济金融运行、预调和微调货币政策、前瞻识别金融风险等提供了有力支撑。此外,在处理大数据过程中,机器学习得到广泛应用。机器学习方法在处理复杂数据、构建高精度模型方面具有显著优势,可以充分挖掘数据中的非线性、非平稳信息,有效提高经济分析结果的精度(蒋锋等,2022)。

目前,常用的大数据和机器学习技术主要有逻辑回归(LogisticRegression)、随机森林(RandomForest)、极端梯度提升树(XGBoost)、改进的梯度提升树(LGBM)、K近邻(KNN)、支持向量机(SVM)等(见表1),这些方法在金融领域也有广泛应用。王达和周映雪(2020)以韩国等16个国家的宏观经济数据作为训练集,以中美两国的数据作为测试集,对随机森林模型在系统性风险识别中的应用进行了探索式研究,发现随机森林模型对训练集数据学习后不仅通过了稳健性检验,而且具有优异的泛化性能,能够很好地识别中美两国的系统性风险。Suss和Treitel(2019)利用K近邻、随机森林、支持向量机、提升学习(Boosting)等机器学习技术对银行风险进行评估,建立了英国银行危机预警系统,并与逻辑回归等传统统计技术进行比较,发现机器学习技术明显优于传统统计技术,其中随机森林在银行危机预警方面的表现尤其出色。Samitas等(2020)运用决策树、判别分析、支持向量机、K近邻、集成分类器等机器学习模型选取股票指数、主权债券和信用违约互换等数据,对系统性风险进行预警分析,发现支持向量机的预测效果最好,正确率达到了98.8%。

尽管大数据和机器学习技术取得了快速发展,但从现有文献看,其在外汇领域的应用特别是在外汇领域微观主体行为监管方面的应用还较少。对此,本文运用大数据和机器学习技术充分挖掘外汇系统数据,完善外汇领域微观主体行为监测预警,增强外汇微观监管能力,提升外汇管理效能。

三、实证思路、指标及数据

(一)实证思路

第一步,基于现有外汇系统数据及外部数据,构建外汇领域微观主体行为指标体系。第二步,构建基础模型库,加入逻辑回归、随机森林、极端梯度提升树、改进的梯度提升树、支持向量机等模型,利用模型库对数据进行拟合分析。第三步,为解决样本不平衡问题,引入过采样(SMOTE)1、随机过采样等采样算法以及平衡装袋分类器等集成算法,提升模型的预测效果。第四步,使用K折交叉验证(K-Fold)和样本外检验等方法开展稳健性检验。第五步,输出监测预警结果,为外汇微观监管实践提供参考。

(二)指标体系

四、实证分析

本文基于逻辑回归、随机森林、极端梯度提升树、改进的梯度提升树、支持向量机等模型,将2018—2020年数据样本按照70%和30%的比例进行随机切割,其中70%为训练样本,30%为测试样本,并将2021年数据预留用于样本外检验。针对训练模型,参考混淆矩阵(见表2),选用准确率、召回率、真阳性率、假阳性率和AUC2作为评价指标。

其中,准确率(AccuracyRate)是指模型正确分类的样本数与样本总数之比,该比率主要说明训练所得模型运用于测试数据时,整体正确识别的概率。公式为:

准确率=(TP+TN)/(TP+FP+TN+FN)

召回率(RecallRate)是指模型正确分类数与实际该类分类数之比,主要说明训练所得模型运用于测试数据时,该类数据中有多少可被模型正确预测。其中,负面样本召回率是指负面样本出现时,模型可以正确预测的概率;正面样本召回率即真阳性率(TruePositiveRate,以下简称TPR),是指正面样本出现时,模型可以正确预测的概率,TPR越大,代表越多正面样本被模型正确预测。公式为:

负面样本召回率=TN/(TN+FP)

正面样本召回率=TPR=TP/(TP+FN)

假阳性率(FalsePositiveRate,以下简称FPR)是指负面样本出现时,模型将其误判为正面样本的概率,FPR越大,代表越多负面样本被误判。公式为:

FPR=FP/(FP+TN)

最理想的状态下,TPR应为1,FPR应为0,代表正面样本均被正确预测,且无负面样本被错误预测。但大多数情况下,TPR与FPR相互制约,随着越多样本被判断为正面,样本被误判为正面的概率亦同步上升。

(一)全样本分析

(二)采样算法

为解决这一问题,本文引入采样算法4,运用过采样和欠采样等技术手段进行数据处理,并运用处理后的样本重新进行预测分析。

1.过采样分析

使用过采样方法,按照1000:1比例,以正面数量为基准,针对负面样本进行过采样计算,人工合成负面样本数据,以解决样本不平衡问题。

经重新组合训练样本并进行训练后,得到结果如表3所示。一是模型整体AUC有一定提高,平均AUC自0.60提升至0.68,提升幅度超13%。二是随机森林、极端梯度提升树、改进的梯度提升树、支持向量机模型在准确率和正面样本召回率未出现明显下滑的情况下,负面样本召回率有所提高,平均AUC呈现上升,说明更多负面样本可被预测识别出,同时假阳性率有所下降,说明被错误归类为正面样本的负面样本数减少。

具体就每个模型而言:一是逻辑回归模型负面样本成功召回66.13%,假阳性率为33.87%,整体模型准确率为57.97%,说明虽然负面样本能召回较多,但以牺牲了较大准确率为代价,模型性能整体不够均衡。二是随机森林、极端梯度提升树、改进的梯度提升树模型在对总体样本预测准确率未下滑的情况下,真阳性率保持不变,而假阳性率下降,模型AUC值有所提升,对违规样本预测的准确性有一定优化。其中,随机森林模型在全样本下预测准确率为99.96%,AUC为0.61;而在过采样下预测准确率为99.96%,AUC为0.68。极端梯度提升树模型在全样本下预测准确率为99.96%,AUC为0.81;而在过采样下预测准确率为99.96%,AUC保持0.81。改进的梯度提升树模型在全样本下预测准确率为99.49%,AUC为0.46;而在过采样下预测准确率为99.83%,AUC为0.63。三是支持向量机模型准确率稳定在99.96%,负面样本召回率仍为0,正面样本召回率和假阳率仍为100%,模型整体准确率未见提升。

2.欠采样分析

本文使用随机欠采样方法(RandomunderSampler)5,按照1:5比例,以负面样本数量为基准,针对正面样本进行随机抽取,重新组合训练样本,预测结果如表4所示:一是模型整体AUC较过采样有明显提高,平均AUC由过采样的0.68提升至0.81,提升幅度近20%,拟合性能进一步优化。二是准确率和正面样本召回率出现小幅下滑,但负面样本召回率明显提升,平均达到60%,假阳性则基本降至40%以下,说明更多负面样本可被预测识别出,更少负面样本被错误归类。

总体而言,全采样、过采样、欠采样三种模式对比之下,欠采样模式下整体AUC水平最高,虽然准确率相较另外两种模式有小幅度下降,但针对负面样本的重要指标——负面样本召回率和假阳性率得到平衡。其中,极端梯度提升树模型表现最佳,整体准确率保持近90%的水平,AUC达到各模型中最高,为0.85,且负面样本召回率均接近64%,假阳性率仅35%。随机森林和改进的梯度提升树紧随其后,整体准确率和AUC与极端梯度提升树模型不相上下,但负面样本召回率较极端梯度提升树模型偏低。

(三)集成方法学习

为进一步提高模型整体性能,优化负面样本召回预测水平,在采样方法以外,本文引入集成算法(EnsembleMethods)6。为避免数据过度拟合以及解决样本不平衡问题,选取平衡装袋分类器(BalancedBaggingClassifier),允许在训练每个分类器之前对数据集的每个子集进行重新采样,从而实现数据子集的平衡。

在平衡装袋分类器技术下,基于全样本数据进行训练,所有模型预测准确率的均值为67.22%,劣于仅采用两种采样方法下模型预测效果;但是负面样本召回率达75.81%,优于仅采用采样方法的预测结果;各模型AUC均值达0.804,接近欠采样水平。相较于采样,装袋算法这一集成算法负面样本召回能力更强,但整体准确率不佳。为充分发挥二者优势,本文将两种方式进行结合。

1.过采样下的平衡装袋分类器

本文将过采样算法和平衡装袋分类器进行结合,按照1000:1比例进行过采样,同时对逻辑回归等5种算法进行平衡分袋集成训练。结果如表5所示:一是模型整体AUC较过采样有明显提高,平均AUC从普通过采样下的0.68提升至0.81,提升幅度近20%,拟合性能进一步优化。二是准确率小幅下滑,从91.54%下降至85.74%,但负面样本召回率从15.49%提升至60.32%,假阳率从84.51%下降至39.68%,提升幅度非常明显,说明更多负面样本可被预测识别出,更少负面样本被错误归类。

具体就每个模型而言:一是极端梯度提升树模型表现出色,总体样本准确率为82.45%,负面样本召回率为70.97%,AUC为0.86,模型综合性能表现为各模型最佳,较普通过采样模式召回率更佳。二是随机森林模型和改进的梯度提升树模型对总体样本预测准确率保持在88%以上,负面样本召回率提升至60%左右,模型AUC分别为0.84和0.86,表现较佳。三是逻辑回归和支持向量机模型的总体样本预测准确率位于84%,而负面样本召回率位于55%±1%,表现良好。

2.欠采样下的平衡装袋分类器

本文将欠采样算法和平衡装袋分类器进行结合,对样本使用随机欠采样方法,按照1:5比例,以负面样本数量为基准针对正面样本进行随机抽取,同时对逻辑回归等5种算法进行平衡分袋集成训练,得到结果如表6所示:一是模型整体AUC的0.82与普通欠采样模式的0.81对比,提升幅度相差不大。二是模型准确率和负面样本召回率各有优劣。欠采样下的平衡装袋分类器总体样本准确率为74.77%,负面样本召回率为73.23%,而普通欠采样模式下准确率为82.20%,负面样本召回率为60.65%,总体样本准确率更高但负面样本召回能力不如前者。

具体就每个模型而言:一是随机森林、极端梯度提升树、改进的梯度提升树模型准确率有明显下降,较普通欠采样模型的90%区间下降至78%—80%,但负面样本召回能力较强,分别为79.03%、77.42%、82.26%,负面样本预测召回能力较普通欠采样模型进一步改善。同时,AUC方面,改进的梯度提升树模型达0.88,极端梯度提升树模型达0.87,随机森林达0.86,为各模式下的最佳水平。二是逻辑回归和支持向量机模型较普通欠采样模式未见明显提升。其中,逻辑回归模型总体预测准确率为60.59%,负面样本召回率为66.13%,而支持向量机模型准确率为75.18%,负面样本召回率为61.29%。二者的重点评价指标相较普通欠采样模式差别均在1%以内。

总体来说,基于全样本分析模式对比,平衡装袋分类器对模型训练效果有大幅提升。进一步,在将采样方法和平衡装袋分类器相结合的情况下,模型结果较仅采用采样方法或平衡装袋分类器更为高效和平衡——欠采样下平衡装袋分类器和过采样下平衡装袋分类器平均AUC均高于0.80,整体表现较佳,前者倾向于拥有更高负面召回率,后者倾向拥有更高的总体样本准确率。两种模式的平衡装袋分类器下,极端梯度提升树、改进的梯度提升树、随机森林表现均位属前列。

(四)样本外检验

为评估模型效果,进一步对2021年微观主体数据进行预测。结果显示,过采样下平衡装袋分类器的平均总体预测准确率为84.51%,负面样本召回率为56.84%;欠采样下平衡装袋分类器的平均总体预测准确率为81.91%,负面样本召回率为55.09%。二者预测准确率均高于80%,对负面样本的预测召回比例均超过55%,相比较之下,过采样下平衡装袋分类器对于实际样本外数据预测结果表现更佳。其中,极端梯度提升树模型在两种模式下均较其他模型预测效果更佳,对整体样本预测准确率高达85%,对负面样本预测召回率分别为68.42%及71.93%。上述探索反映了过采样、欠采样等采样方法和平衡装袋分类器等集成学习方法可在一定程度上解决全样本不平衡问题,实现对负面主体相对稳定的预测,对外汇监管实务工作具有参考意义。

五、基于大数据和机器学习技术的外汇微观监管框架

(一)外汇微观监管的目标与原则

1.监管目标

在外汇市场“宏观审慎+微观监管”两位一体管理框架下,顺应金融科技发展和贸易投资便利化趋势,充分利用数字技术和监管科技成果,强化数据赋能、科技赋能,探索构建“四位一体”的外汇微观监管框架,提升外汇监管有效性,维护外汇市场秩序。

2.监管原则

(二)“四位一体”外汇微观监管框架

1.数据层

2.模型层

3.监管层

4.安全层

六、结论与政策建议

本文研究发现:一是通过叠加使用SMOTE等采样算法和平衡装袋分类器等集成算法可有效强化模型预测效果,平均AUC值稳定在0.81以上,较不使用上述算法或采用单一算法预测效果有明显提升。二是在多种机器学习技术中,极端梯度提升树、改进的梯度提升树、随机森林三项模型可实现较佳预测效果,整体准确率保持在80%以上。三是搭建模型可实现对外汇领域微观主体监测的稳定预警效果。通过样本外检验发现,模型样本外预测的准确率最高可达85%,70%以上负面样本可以被成功预测挖掘。基于此,本文有如下政策建议:

一是依托各数据研判中心,进一步完善微观主体信息库建设并强化利用,为全方位描绘负面主体特征提供基础,助力提高模型预测的精准度。二是完善监管数据指标体系建设,推进外汇、商务、税务、海关等业务数据信息的综合利用,支持开展多维数据分析;积极探索与其他监管机构共享负面主体信息的长效机制,消除部门间“信息孤岛”;加强涉汇信息及线索共享研判,提高跨部门联合监管能力。三是加强利用基于大数据和机器学习技术的监管平台和工具,充分挖掘数据资源价值,完善分析模型和指标体系,持续提升对外汇违法违规行为的筛查能力。持续加强监管平台人机交互水平建设,设计自动化、可视化的交互界面,提高外汇监管平台和工具的易用性。同时,提高模型筛查线索能力,促进系统自主迭代升级,实现违规行为精准识别或预警。

参考文献

[1]翟伟丽.大数据时代的金融体系重构与资本市场变革[J].证券市场导报,2014(02):47-50.

[2]阮健弘.大数据技术提升金融统计分析能力[J].中国金融,2022(02):14-16.

[3]蒋锋,张文雅.机器学习方法在经济研究中的应用[J].统计与决策,2022,38(04):43-49.

[4]王达,周映雪.随机森林模型在宏观审慎监管中的应用——基于18个国家数据的实证研究[J].国际金融研究,2020(11):45-54.

[5]王克达.金融危机预警模型与先导指标选择[J].金融监管研究,2019(08):84-100.

[6]SussJ,TreitelH.PredictingBankDistressintheUKwithMachineLearning[R].BankofEnglandStaffWorkingPaper,2019,No.831.

[7]SamitasA,KampourisbE,KenourgiosD.MachineLearningasanEarlyWarningSystemtoPredictFinancialCrisis[J].InternationalReviewofFinancialAnalysis,2020,71.

1过采样(SMOTE)方法由NiteshV.Chawla等人于2002年首次提出,是一种基于原数据间关系生成新样本、补充原样本集的方法。该方法以负面样本点的若干个最近邻样本点为依据,随机选择N个邻近点进行差值乘上一个[0,1]范围的阈值,从而达到合成数据的目的。

2AUC即ROC曲线(ReceiverOperatingCharacteristicCurve)下的面积,反映模型分类器阈值不断调整的情况下的整体性能表现,提供分类算法效果的可视化结果。一般而言,AUC等于1,表明分类器效果完美;AUC处于[0.5,1]区间,表明优于随机分类器,且数值越大,分类器效果越好。

3通常而言,正面样本与负面样本比例明显大于1:1则可被称为样本不平衡。

4采样算法通过随机抽样放大和缩小样本数据量使样本数据分布趋于平衡,是当前机器学习研究领域中解决全样本数据不平衡问题的主流方法之一。采样主要分为欠采样和过采样,其中欠采样指压缩占比大的类别样本数据量,过采样指扩大占比小的类别样本数据量,二者目的均为使样本比例更为均衡。

5随机欠采样是一种非启发式采样方法,主要目的是通过随机抽选,降低多数类样本集数据数量,实现对整体样本集的数据平衡。

6集成算法通过组合多个弱监督模型强化训练,从而获得一个更全面的强监督模型。

课题主持人:郭云喜;课题组成员:张志东、徐宏练、李继伟、陈树生、翟宗辉、蒋涛、叶维皓、周碧莹、徐亮、江丽媛

本文不代表作者所在单位观点,也不反映《中国外汇》杂志编辑部观点。

THE END
1.大数据分析数学公式大全mob64ca12dd455e的技术博客大数据分析中的数学公式与应用 在当今数字化的时代,大数据分析已成为各行各业不可或缺的一部分。从金融、医疗到社交媒体,数据的海洋为我们提供了丰富的洞见。本文将探讨一些大数据分析的基础数学公式,并通过代码示例来进行具体演示。 1. 大数据分析的基本数学公式 https://blog.51cto.com/u_16213352/11912375
2.大数据分析计算法公式是什么帆软数字化转型知识库大数据分析计算法公式涉及多种技术和方法,包括数据预处理、数据挖掘、机器学习和统计分析等。常用的大数据分析计算法公式包括:均值公式、方差公式、回归分析公式、聚类算法、分类算法。例如,均值公式是大数据分析中最基本的统计量之一,通过计算数据集中的所有值的平均值来概括数据的中心趋势。均值的计算公式为:(\bar{x}https://www.fanruan.com/blog/article/72545/
3.大数据大数据算法大数据算法的技术涵盖了多个领域,包括分布式存储与处理、数据挖掘、机器学习、图计算、文本挖掘与自然语言处理、推荐系统、关联规则挖掘、时间序列分析、异常检测、数据压缩与降维、网络分析、模式识别等。这些算法的选择取决于具体的应用场景和问题要求,通常需要综合倾斜考虑算法的效率、准确性、可扩展性等因素。 https://blog.csdn.net/xiaoyingxixi1989/article/details/141688931
4.数据分析的计算公式是什么?万象方舟以上列举的是数据分析中常用的计算公式,数据分析的具体方法和计算公式还取决于具体的数据分析任务和研究问题。需要根据不同的情况选择适当的方法和公式进行数据处理和分析。 赞同 3个月前 0条评论 小数 在数据分析中,常用的计算公式包括统计学中的各种指标计算、数据处理中的转换函数、机器学习中的模型算法等。以下将https://www.vientianeark.cn/qa/350851.html
5.综述掌握GIS分析的6个先进技术和技巧开源地理空间基金会中文分网络分析是地理信息系统 (GIS) 中一项复杂且不可或缺的空间分析技术,主要围绕理解和优化交通网络。从寻找最短路线到计算出行时间和优化物流,先进的网络分析技术使分析师能够应对运输规划、供应链管理和应急响应中复杂的空间挑战。接下来将探讨网络分析的复杂性,包括将 GIS 提升到新高度的高级算法和优化方法。 https://www.osgeo.cn/post/10ca2
6.大数据分析技术方案腾讯云开发者社区大数据分析可以有效地促进营销,个性化医疗治病,帮助学生提高成绩,利于老师提高教学水平,还可以用于教学,许多产品可以用到大数据技术,如量化分析金融产品等。必须加强大数据技术的研究并实际应用.这里对目前最流行和最实用的用户画像技术进行讲解,并分析大数据分析的常用算法。https://cloud.tencent.com/developer/article/2112929
7.全栈金融工程师算法技术解构算法技术解构 1、Python基础知识 (1)IPython IPython的开发者吸收了标准解释器的基本概念,在此基础上进行了大量的改进,创造出一个令人惊奇的工具。在它的主页上是这么说的:“这是一个增强的交互式Python shell。”具有tab补全,对象自省,强大的历史机制,内嵌的源代码编辑,集成Python调试器,%run机制,宏,创建多个环境https://www.jianshu.com/p/6c3888c2e846
8.大数据基本概念浅析及技术简介机器学习的算法纷繁复杂,最常用的主要有回归分析、关联规则、分类、聚类、神经网络、决策树等。 二、大数据和大数据分析 大数据首先是数据,其次,它是具备了某些特征的数据。目前公认的特征有四个:Volumne,Velocity,Variety,和Value,简称4V. 1.Volume:大量。就目前技术而言,至少TB级别以下不能成大数据。 https://www.cda.cn/view/24202.html
9.周翔:作为法学研究方法的大数据技术某些研究虽然其方法有一定的创新,比如采用决策树的方法,33但又和机器学习的决策树算法相去较远。另一个问题在于分析软件,小样本时代没有使用分析软件的明显障碍,但在大样本时代则要考虑借助的分析工具是否恰当,能否高效运行。上述两个方面,大数据技术都可能给其带来变革。https://www.legal-theory.org/?mod=info&act=view&id=26229
10.个人网络信息安全论文(精选10篇)大量的学者认为,大数据主要指在较短的时间内能够将大量的信息数据进行分析、整理、保存以及管理,其中大量的信息来源主要是从各大企业中搜集而来,且信息资源之间具有一定的联系性。信息技术的人员能够通过网络对企业信息进行大数据分析,因此在网络信息的安全管理上看,拥有大量的信息资源,难以有效的进行网络信息安全管理。https://biyelunwen.yjbys.com/fanwen/xinxianquan/727543.html
11.架构大数据——大数据技术及算法解析中文pdf扫描版[194MB]电子书下不仅对大数据相关技术及算法做了系统性的分析和描述,梳理了大数据的技术分类,如基础架构支持、大数据采集、大数据存储、大数据处理、大数据展示及交互,还融合了大数据行业的最新技术进展和大型互联网公司的大数据架构实践,努力为读者提供一个大数据的全景画卷。 目录https://www.jb51.net/books/638722.html
12.国开电大《大数据分析与挖掘技术》形考任务3参考答案.pdf国开电大《大数据分析与挖掘技术》形考任务 3 答案 参考答案在文末 题目 1.聚类分析的原则不可能是:( ) A. 个体与个体之间的距离越近越有可能是一类 B. 同一类的个体的相似性可能也越大 C. 不同类的个体之间的距离越远 D. 不同类的个体之间的相似性更高 题目 2.下面关于 DBSCAN 聚类说法错误的是:( )https://max.book118.com/html/2022/1024/5224121231010010.shtm
13.大数据挖掘主要涉及哪些技术?大数据挖掘主要涉及的技术有以下几种:1、决策树学习技术;2、分类技术;3、聚类分析技术;4、粗糙集技术;5、回归分析技术;6、关联规则技术;7、特征分析技术;8、神经网络技术;9、遗传算法技术。 1、决策树学习技术 决策树学习是一种通过逼近离散值目标函数的方法,通过把实例从根节点排列到某个叶子节点来分类实例,叶子https://www.linkflowtech.com/news/1988
14.国家开放大学高起专真题《大数据技术概论》大数据技术概论 一、单选题 1、以下哪个步骤不属于数据的采集与预处理: A.对分析结果进行可视化呈现,帮助人们更好地理解数据、分析数据 B.利用网页爬虫程序到互联网网站中爬取数据 C.利用ETL工具将分布的、异构数据源中的数据,抽取到临时中间层后进行清 http://m.sdlcjyjt.com/h-nd-6069.html