12个案例玩转数据挖掘实务与SPSSModeler应用(高级班)
第1讲
第2讲
第3讲
第4讲
第5讲
第6讲
第7讲
第8讲
第9讲
第10讲
第11讲
第12讲
第13讲
第14讲
12个案例玩转数据挖掘
SPSSModeler数据挖掘实务认证培训
讲师介绍:
李御玺(Yue-ShiLee),国立台湾大学计算机工程博士,铭传大学计算机工程学系教授兼系主任暨所长,铭传大学数据挖掘中心主任,厦门大学数据挖掘中心顾问,中国人民大学数据挖掘中心顾问。其研究领域专注于数据仓库、数据挖掘、与文本挖掘。
数据挖掘简介:
课程大纲:
案例1:DrugTreatments:Inthiscase,imaginethatyouareamedicalresearchercompilingdataforastudy.Youhavecollecteddataaboutasetofpatients,allofwhomsufferedfromthesameillness.Duringtheircourseoftreatment,eachpatientrespondedtooneoffivemedications.Partofyourjobistousedataminingtofindoutwhichdrugmightbeappropriateforafuturepatientwiththesameillness.
药物治疗(医疗业):在这个案例中,想象你是一个医学研究人员,并收集许多患有相同疾病的病患资料。在他们的治疗过程中,每一个病人会被记录对哪一种药物有疗效(总共有五种针对此疾病的药物)。此案例的目的是想利用数据挖掘(分类模型-多目标决策树(DecisionTree))找出,哪种药物适用于哪一种类型的病人。
案例2:ModelingCustomerResponse:Thiscaseisbasedonacompanythatwantstoachievemoreprofitableresultsinfuturemarketingcampaignsbymatchingtherightoffertoeachcustomer.Specifically,thiscaseidentifiesthecharacteristicsofcustomerswhoaremostlikelytorespond,basedonpreviouspromotions,andgeneratesamailinglistbasedontheresults.
对客户响应建模(零售业):本案例是某公司希望通过提供客户对的营销活动,在未来实现更多的获利。此案例的目的是想根据以往的促销活动,利用数据挖掘(分类模型-决策列表(DecisionList))找出会对营销活动有响应的客户特征,并根据建模的结果产生要邮寄的促销客户名单。
案例3:ClassifyingTelecommunicationsCustomers:Supposeatelecommunicationsproviderhassegmenteditscustomerbasebyserviceusagepatterns,categorizingthecustomersintofourgroups.Ifdemographicdatacanbeusedtopredictgroupmembership,youcancustomizeoffersforindividualprospectivecustomers.
:电信客户分类(电信业):假设某电信服务提供商通过客户使用服务的方式,将客户分为四类人。此案例的目的是想根据人口统计数据(分类模型-多目标罗吉斯回归(MultinomialLogisticRegression)),利用数据挖掘找出这四类人的特征,并发掘这四类人的潜在新客户。
案例4:TelecommunicationsChurn:Supposeatelecommunicationsproviderisconcernedaboutthenumberofcustomersitislosingtocompetitors.Ifserviceusagedatacanbeusedtopredictwhichcustomersareliabletotransfertoanotherprovider,offerscanbecustomizedtoretainasmanycustomersaspossible.Thisexamplefocusesonusingusagedatatopredictcustomerloss(churn).
案例5:ForecastingBandwidthUtilization:Ananalystforanationalbroadbandproviderisrequiredtoproduceforecastsofusersubscriptionsinordertopredictutilizationofbandwidth.Forecastsareneededforeachofthelocalmarketsthatmakeupthenationalsubscriberbase.Thisexamplewillusetimeseriesmodelingtoproduceforecastsforthenextthreemonthsforanumberoflocalmarkets.
案例6:ForecastingCatalogSales:Acatalogcompanyisinterestedinforecastingmonthlysalesofitsmen’sclothingline,basedontheirsalesdataforthelast10years.Thisexampletakesacloserlookatthetwomethodsthatareavailablewhenchoosingamodelyourself—exponentialsmoothingandARIMA.
案例7:MakingOfferstoCustomers:Thisexampleteachesyouhowtopredictwhichoffersaremostappropriateforcustomersandtheprobabilityoftheoffersbeingaccepted.Thesesortsofmodelsaremostbeneficialincustomerrelationshipmanagement,suchasmarketingapplicationsorcallcenters.
提供对的产品给对的客户(银行业):此案例的目的是想利用数据挖掘(分类模型-自学响应模型(Self-LearningResponseModel))来预测客户对不同产品报价的接受程度,以便预测哪些产品适合提供给哪些客户。此类模型适合运用在顾客关系管理中的目标市场营销及客服中心。
案例8:PredictingLoanDefaulters:Supposeabankisconcernedaboutthepotentialforloansnottoberepaid.Ifpreviousloandefaultdatacanbeusedtopredictwhichpotentialcustomersareliabletohaveproblemsrepayingloans,these“badrisk”customerscaneitherbedeclinedaloanorofferedalternativeproducts.
预测贷款逾期者(银行业):某银行希望根据客户过去的贷款数据,利用数据挖掘(分类模型-贝式网络(BayesianNetwork))来预测新的贷款者,核贷后会逾期的机率,以做为银行是否核贷的依据,或提供给客户其他类型的贷款产品。
案例9:RetailSalesPromotion:Thisexampledealswithdatathatdescribesretailproductlinesandtheeffectsofpromotiononsales.Thegoalofthisexampleistopredicttheeffectsoffuturesalespromotions.
零售业销售促销(零售业):此案例的目的是想根据零售产品过去的促销记录,利用数据挖掘(预测模型-神经网络及回归树(NeuralNetwork&RegressionTree))来预测未来的销售成效。
案例10:ConditionMonitoring:Thisexampleconcernsmonitoringstatusinformationfromamachineandtheproblemofrecognizingandpredictingfaultstates.Thedataconsistsofanumberofconcatenatedseriesmeasuredovertime.Eachrecordisasnapshotreportonthemachine.
案例11:ClassifyingCellSamples:Amedicalresearcherhasobtainedadatasetcontainingcharacteristicsofanumberofhumancellsamplesextractedfrompatientswhowerebelievedtobeatriskofdevelopingcancer.Analysisoftheoriginaldatashowedthatmanyofthecharacteristicsdifferedsignificantlybetweenbenignandmalignantsamples.Theresearcherwantstodevelopamodeltogiveanearlyindicationofwhethertheirsamplesmightbebenignormalignant.
细胞样本分类(医疗业):某医学研究中心收集癌症病患的细胞样本特征数据,以便进行研究。原始的数据显示良性样本与恶性样本间的许多特征有显著的差异。此案例的目的是想根据此数据,利用数据挖掘(分类模型-支持向量机(SupportVectorMachine))来提早发现某样本是良性还是恶性的样本。
案例12:MarketBasketAnalysis:Thisexampledealswithdatadescribingthecontentsofsupermarketbaskets(thatis,collectionsofitemsboughttogether)plustheassociatedpersonaldataofthepurchaser,whichmightbeacquiredthroughaloyaltycardscheme.Thegoalistodiscovergroupsofcustomerswhobuysimilarproductsandcanbecharacterizeddemographically,suchasbyage,income,andsoon.:
购物篮分析(零售业):此案例的目的是想根据会员卡所记录的客户的个人信息及每次购买商品的数据,利用数据挖掘(关联模型-Apriori&决策树(DecisionTree))来发掘购买类似商品的客群,以及客群的特征(例如,年龄、收入、等)。