《Python数据分析与挖掘实战》第四章案例代码总结与修改分析BabyGo000

每个案例代码全部为书中源代码,出现错误按照每个案例下面给出的代码错误,原因,及怎样修改进行修改即可解决每个案例错误

#拉格朗日插值代码importpandasaspd#导入数据分析库Pandasfromscipy.interpolateimportlagrange#导入拉格朗日插值函数inputfile='F:/大二下合集/Python数据分析与挖掘/catering_sale.xls'#销量数据路径outputfile='F:/大二下合集/Python数据分析与挖掘/sales.xls'#输出数据路径data=pd.read_excel(inputfile)#读入数据data[u'销量'][(data[u'销量']<400)|(data[u'销量']>5000)]=None#过滤异常值,将其变为空值#自定义列向量插值函数#s为列向量,n为被插值的位置,k为取前后的数据个数,默认为5defployinterp_column(s,n,k=5):y=s[list(range(n-k,n))+list(range(n+1,n+1+k))]#取数y=y[y.notnull()]#剔除空值returnlagrange(y.index,list(y))(n)#插值并返回插值结果#逐个元素判断是否需要插值foriindata.columns:forjinrange(len(data)):if(data[i].isnull())[j]:#如果为空即插值。data[i][j]=ployinterp_column(data[i],j)data.to_excel(outputfile)#输出结果,写入文件代码错误:

第一个错误原因:

data[u'销量'][(data[u'销量']<400)|(data[u'销量']>5000)]=None#过滤异常值,将其变为空值修改为:row_indexs=(data[u'销量']<400)|(data[u'销量']>5000)data.loc[row_indexs,u'销量']=None#过滤异常值,将其变为空值第二个错误原因:(需要改两个地方代码)

第①处

y=s[list(range(n-k,n))+list(range(n+1,n+1+k))]#取数修改为:

y=s.reindex(list(range(n-k,n))+list(range(n+1,n+1+k)))#取数第②处

data[i][j]=ployinterp_column(data[i],j)修改为:

data[i,j]=ployinterp_column(data[i],j)4-2#-*-coding:utf-8-*-#数据规范化importpandasaspdimportnumpyasnpdatafile='F:/大二下合集/Python数据分析与挖掘/normalization_data.xls'#参数初始化data=pd.read_excel(datafile,header=None)#读取数据(data-data.min())/(data.max()-data.min())#最小-最大规范化(data-data.mean())/data.std()#零-均值规范化data/10**np.ceil(np.log10(data.abs().max()))#小数定标规范化代码错误:

没有报错,但是在idea中运行没有结果原因:

(data-data.min())/(data.max()-data.min())#最小-最大规范化(data-data.mean())/data.std()#零-均值规范化data/10**np.ceil(np.log10(data.abs().max()))#小数定标规范化修改为:

错误原因:(需要改两个地方代码)

第①个地方

kmodel.fit(data.reshape((len(data),1)))修改为:

kmodel.fit(data.values.reshape((len(data),1)))第②个地方

c=pd.DataFrame(kmodel.cluster_centers_).sort(0)修改为:

c=pd.DataFrame(kmodel.cluster_centers_).sort_values(0)解决完第一个错误再次运行发现错误2:

原因:

w=pd.rolling_mean(c,2).iloc[1:]修改为:

w=c.rolling(2).mean().iloc[1:]4-4#线损率属性构造importpandasaspdinputfile='F:/大二下合集/Python数据分析与挖掘/electricity_data.xls'#供入供出电量数据outputfile='F:/大二下合集/Python数据分析与挖掘/electricity_data.xls'#属性构造后数据文件data=pd.read_excel(inputfile)#读入数据data[u'线损率']=(data[u'供入电量']-data[u'供出电量'])/data[u'供入电量']data.to_excel(outputfile,index=False)#保存结果这个案例代码没问题

#-*-coding:utf-8-*-#利用小波分析进行特征分析#参数初始化inputfile='F:/大二下合集/Python数据分析与挖掘/leleccum.mat'#提取自Matlab的信号文件fromscipy.ioimportloadmat#mat是MATLAB专用格式,需要用loadmat读取它mat=loadmat(inputfile)signal=mat['leleccum'][0]importpywt#导入PyWaveletscoeffs=pywt.wavedec(signal,'bior3.7',level=5)#返回结果为level+1个数字,第一个数组为逼近系数数组,后面的依次是细节系数数组代码整体没有错误,但是运行没有结果需要在代码最后加一行

print(coeffs)4-6importpandasaspdinputfile='F:/大二下合集/Python数据分析与挖掘/principal_component.xls'outputfile='F:/大二下合集/Python数据分析与挖掘/1.xls'data=pd.read_excel(inputfile,header=None)fromsklearn.decompositionimportPCApca=PCA()pca.fit(data)pca.components_pca.explained_variance_ratio_print("-----------4-6.2-----------------")pca=PCA(3)pca.fit(data)low_d=pca.transform(data)pd.DataFrame(low_d).to_excel(outputfile)low_dpca.inverse_transform(low_d)代码错误:没有报错,但是在idea中运行没有结果,而且最后两行标红

①将:

pca.components_pca.explained_variance_ratio_修改为:(即添加print)

print(pca.components_)print(pca.explained_variance_ratio_)②将:

low_dpca.inverse_transform(low_d)修改为:(即添加print)

print(low_d)print(pca.inverse_transform(low_d))4-7(即预处理函数的两个实例)importnumpyasnpimportpandasaspdprint("-----------------unique---------------------")D=pd.Series([1,1,2,3,5])D.unique()np.unique(D)print("---------------isnull/notnull---------------------")fromsklearn.decompositionimportPCAD=np.random.rand(10,4)pca=PCA()pca.fit(D)pca.components_#返回模型的各个特征向量pca.explained_variance_ratio_代码错误:没有报错,但是在idea中运行没有结果,而且最后两行标红

D.unique()np.unique(D)修改为:(即添加print)

print(D.unique())print(np.unique(D))②将:

pca.fit(D)pca.components_#返回模型的各个特征向量pca.explained_variance_ratio_

THE END
1.python数据分析——数据分析的数据模型数据分析的数据模型是决策支持系统的重要组成部分,它通过对大量数据的收集、整理、分析和挖掘,为企业提供有价值的信息,以支持企业的战略规划和日常运营。数据模型的选择和应用,直接关系到数据分析的准确性和有效性,进而影响企业的决策质量和市场竞争力。 在构建数据模型时,首先要明确分析的目标和需求。不同的业务场景需https://open.alipay.com/portal/forum/post/156501040
2.超详细!80个Python入门实例,代码清晰拿来即用,学习提升必备今天给大家分享80个Python入门实例,都是基础实例,经典实用,代码清晰可拿来即用,很适合学习提升使用,适用性广,实用性强。话不多说,一起来看看吧! Python 数字求和 #-*-coding:UTF-8-*-# Filename:test.py # author by:www.runoob.com # 用户输入数字 https://www.bilibili.com/opus/1003657402377043970
3.python数据分析简单案例,python数据分析5个案例大家好,小编来为大家解答以下问题,python数据分析简单案例,python数据分析5个案例,现在让我们一起来看看吧! 公众号:尤而小屋作者:Peter编辑:Peter 大家好,我是Peter~ 最近小编认真整理了20+个基于python的实战案例,主要包含:数据分析、可视化、机器学习/深度学习、时序预测等,案例的主要特点: https://blog.csdn.net/2401_85422614/article/details/139722526
4.深入浅出Pandas:利用Python进行数据处理与分析数据集清华教育在线系列软件http://netteaching.cqpc.edu.cn/meol/common/script/preview/download_preview.jsp?fileid=78135&resid=27732&lid=12950&preview=preview
5.Python数据可视化:16个实用案例解析本文将带领读者领略16个令人惊叹的Python数据可视化案例,从简单的柱状图到复杂的交互式图表,涵盖了数据可视化的各个方面。通过这些案例,读者将掌握Python数据可视化的基本技巧和方法,并了解如何在实际应用中运用这些技术。https://developer.baidu.com/article/details/2789117
6.pandas数据分析案例:利用python进行汽车数据分析可视化实例–帆软我们只要把这些信息写个爬虫爬下来就可以了。这个简单。按照我们之前写过的爬虫,5分钟,总共不超过20行代码,就把这些数据拿下了。没办法,python爬虫就是这么强大!特别是对于这种第三方机构的网页,基本上没有什么反爬虫措施。爬取后的数据如下,大概10000条: https://www.fanruan.com/bw/panks
7.利用python进行财务分析的心得体会python财务分析案例数据分析是现代社会中一项重要的技能,Python作为一种强大的编程语言,被广泛应用于数据分析领域。本文将通过解析三个实际案例,展示Python在数据处理和数据可视化方面的能力。 案例一:销售数据分析 数据收集 首先,我们需要收集销售数据。通常,这些数据以Excel或CSV文件的形式存储。我们可以使用Python的pandas库来读取这些文件,https://blog.51cto.com/u_16099268/11708238
8.五个Pandas实战案例带你分析操作数据python五个Pandas 实战案例带你分析操作数据 pandas是基于NumPy的一种工具,该工具是为了解决数据分析任务而创建的。Pandas纳入了大量库和一些标准的数据模型,提供了高效操作大型数据集的工具。pandas提供大量快速便捷地处理数据的函数和方法。你很快就会发现,它是使Python强大而高效的数据分析环境的重要因素之一https://m.jb51.net/article/235878.htm
9.Python数据可视化的10种技能腾讯云开发者社区如果你想要用Python进行数据分析,就需要在项目初期开始进行探索性的数据分析,这样方便你对数据有一定的了解。其中最直观的就是采用数据可视化技术,这样,数据不仅一目了然,而且更容易被解读。同样在数据分析得到结果之后,我们还需要用到可视化技术,把最终的结果呈现出来。 https://cloud.tencent.com/developer/article/1435796