郝祥军等|AI重塑知识观:数据科学影响下的知识创造与教育发展方法论认识论科学方法

【刊载信息】郝祥军,&顾小清(2023).AI重塑知识观:数据科学影响下的知识创造与教育发展.中国远程教育(05),13-23.

【摘要】在数据定义万物、数据量化万物、数据联接万物的人工智能时代,数据科学在大数据的推动下取得快速发展,将目标直接指向了如何从数据中提取和建构知识。数据科学指向的数据挖掘与知识创造过程系统描绘出从数据到知识发现的完整流程。本研究试图从数据科学的视角探寻以数据为核心的新知识观形成,从数据与智能技术带来的知识生产方式与知识生产要素的变化中尝试刻画出重塑的知识观轮廓,并对“教什么知识”“知识如何教”“如何化知识为素养”三个问题进行探讨并做出回答,以寻求教育迎接知识创新人才挑战的发展路径。

【关键词】数据科学;人工智能;知识观;数据挖掘;知识创造;知识生产;知识教学;教育发展

一、

引言

二、

数据科学的由来与内涵

综上所述,数据科学作为大数据技术推动下的产物,其出现有其必然性和必要性。尤其当前处在数据驱动的智能时代,数据已经上升为生产资料,数据科学则可以为发掘数据效能提供理论方法与技术支撑,从而增强大数据的能力,并将其转化为实际生产力。因此,从知识创造与生产的角度来看,数据科学为数据到知识的转变提供了理论指导和技术路径。恰如徐(Xu)等总结的“三个转变、一个实现”,即数据科学的目标是实现对现实世界的认识和控制,数据科学的科学任务是完成数据空间中从数据到信息、从信息到知识、从知识到决策的转变(Xuetal.,2021)。因此,数据科学就是探索如何从数据到知识转变过程的理论、技术和应用的一套体系,直接以数据增值过程指向知识创造,进而实现对以往知识生产流程的再造。

三、

数据科学指向的知识创造

(一)数据挖掘过程:数据驱动的知识发现

图1CRISP-DM过程模型

业务理解:这是数据挖掘的第一步,因为最初的数据挖掘服务于商业应用,故此阶段侧重于从业务角度理解业务(知识发现)的目标和要求,从而定义数据挖掘问题、制定挖掘目标;在目标导向下为整个流程初步拟定计划,筛选挖掘技术和工具。

数据理解:该阶段从最初的数据收集开始,然后进行一些数据获取与检测活动。重点是数据收集、数据检测和质量验证,以熟悉数据、识别数据质量问题、形成对数据的初步见解或检测感兴趣的子集,进而在洞察数据的基础上生成隐藏信息的假设。

数据准备:该阶段包括从初始数据构建最终数据集所需的所有活动,重点是选择和准备最终的数据集。这个阶段可能包括许多任务记录、表和属性选择以及数据的清理和转换。数据准备工作也可能会重复执行,因为需要对原始数据进行反复清洗、过滤、组织和重构等以达到“建模”阶段的要求,并且要能够匹配最初的业务目标与挖掘目标。

建模:在该阶段,选择和应用各种建模技术,设置不同的参数,建立不同的模型,并将参数校准到最优值。针对同一数据挖掘问题类型可能有多种技术方案,有些技术对数据的形式有特定的要求。因此,该阶段通常需要返回到数据准备阶段,为适应建模要求而重新调整数据形式。

评估:重点是对得到的模型进行评估,并决定如何使用挖掘结果。从数据分析的角度来看,该阶段似乎已经建立了高质量的模型。在继续进行最终的模型部署之前,应更彻底地评估模型并检查构建模型所采取的步骤,以确保它正确地实现了知识发现目标,并就未能考虑到的内容进行再补充和深化。

部署:重点是确定获取知识和结果的使用。这个阶段还着重于以用户可以使用的方式对所获得的知识进行组织、报告和呈现。

各阶段的详细任务如表1所示。由于技术“黑箱”的缘故,其实并非所有人都清楚数据是如何从生成到被检测、清洗和建模,再到被解释或赋予意义的。该模型清晰地诠释了以目标为导向的数据增值的重要环节及其相互关系,交代了从数据到信息的转化、再到最终被应用于知识产品的流程。这个过程有迭代优化的周期:在数据理解阶段之后,数据分析人员往往需要回到业务理解中重新考虑最初的知识发现目标;在数据建模阶段之后,需要新的数据预处理来改进衍生数据模型,甚至开发其他数据模型;评估阶段的调查结果还可能需要从第一个阶段开始,即业务理解,以防模型不支持事先确定的知识发现目标。以此来看,数据挖掘是一个从相对明确的业务目标和数据开始的过程,这些目标和数据已经收集并可用于进一步计算处理,这种过程类似于在确定矿物或金属存在的特定地理位置开采有价值的矿物或金属:数据是矿石,在矿石中发掘有价值的知识(Martínez-Plumedetal.,2019)。

表1数据挖掘各阶段的任务内容

(二)知识创造过程:人的智慧与数据协同

数据挖掘虽然实现了从数据中提取有效信息乃至形成知识认知,但其本质上还不是真正意义上的知识创造,因为真正的知识创造需要有人的智慧性参与。正如知识创造理论之父野中郁次郎(Nonaka,1994)提出的知识创造动态模型,强调知识的社会化、外在化、组合化和内隐化,尤其强调社会互动有助于扩大和发展新知识,以及知识是通过默会(隐性)和明确(显性)知识之间的持续对话而创造的。这凸显人的智慧性在知识创造过程中的重要性。基于此,Nonaka(1994)开发了组织知识创造过程模型(OrganizationalKnowledgeCreationProcess,OKCP)(如图2所示)。这里的“组织”是指具有共同业务目标的机构或群体。该模型充实了个体与群体之间知识的传播路径,强调了扩大个体知识、为共享知识寻找共同概念(概念化)、将共享知识具体化为具体产品或系统(结晶化)、评估所使用的产品和知识(论证)以及通过组织传播概念(知识网络化)的重要性。

图2组织知识创造过程模型

该模型揭示了从人的经验知识出发经过社会化反思与论证而产生新知识的过程。但大数据时代海量数据成为知识发现与创造的新源泉,新的知识创造方式应融合数据挖掘的理念与方法,并将人的智慧性与技术的智能化进行融合。为此,海科等人(Haikoetal.,2021)从数据科学的视角整合了CRISP-DM框架与OKCP框架,构建了数据科学指向的知识创造过程模型,即数据智能和分析的知识创造模型(如图3所示)。他们认为CRISP-DM框架与OKCP框架刚好形成相辅相成的关系,能将“利用个人默会知识创建组织知识”和“专注于数据挖掘模型的构建”的优势结合,能为数据分析师和领域专业人员之间的知识协同作用创造空间。

图3数据智能和分析的知识创造模型

根据其内容介绍,本研究将该过程划分为三个阶段:

通过以上数据科学指向的数据挖掘与知识创造过程,我们可以知道新的知识创造方式已经形成,数据也已成为新的知识生产要素。从数据到信息,再到知识,这一数据增值链条阐释了数据科学指向的知识创造是对大规模、多样性的数据进行聚集、清洗、挖掘和再生产,从而形成一种基于数据集与算法逻辑规则的知识发现、理解和应用。这种以数据为主要原料的知识生产过程以及智能化算法与技术的加持,或许已经在颠覆我们以往对知识的认识,促使人们形成新的知识观。比如在知识主体上,吴飞等(2020)指出“人类的知识生产经历了从传统的个体思考、专业组织到算法引导和人机协同的新阶段”,人机协同的新阶段则生动诠释了人工智能参与知识生产的形态——人的智慧性与技术的智能化融合。而且在知识的含义、知识的类型、知识的获取方式、知识的意义等众多方面对知识哲学产生了深刻影响(肖峰,2020a)。

四、

数据科学下新知识观的形成

(一)知识生产方式的变化

(二)知识生产要素的变化

以数据为关键原料的知识生产范式的出现与知识形态的演变,意味着新的认识论或知识观正在悄然形成。例如,董春雨等(2019)就在大数据、机器学习科学应用背景下讨论了机器认识论的可能性,总结出以数据为基础的认识论正在从人类中心走向非人类中心。今天处在知识经济时代的重要发展阶段,生产要素的形态随着经济发展不断变迁。2020年3月30日中共中央、国务院发布《关于构建更加完善的要素市场化配置体制机制的意见》,首次将数据增列为生产要素,数据成为新的生产力。众所周知,生产力包括劳动者、劳动对象、劳动工具,三者的结合构成生产方式。那么,“科学始于数据”的知识生产方式的形成代表着知识生产要素,即“知识生产主体”“知识生产对象”“知识生产技术与工具”发生了重大变化。

五、

新知识观下的教育发展

知识生产方式与要素的变化暗示着以数据为内容的新知识观的形成(顾小清&郝祥军,2022)。这是处在知识经济时代无法回避的趋势,数据发展成为生产要素与生产力,已经在各类知识生产过程中“诱导”着知识观的重塑。这推动着人才培养的协同升级,因为知识生产与人才培养具有场景一致性、主体一致性和目标重叠性(马廷奇等,2019)。本研究认为在新知识观下,培养面向未来的人才,迎接知识创新挑战,有三个问题需要在新的时代背景下探讨并回答。

六、

结语

数据已经成为新的生产要素,是国际知识创新竞争必须紧紧把握的生产力,以数据为原料的知识生产是知识经济时代的关键特征。当前,社会各界正在享受大数据的红利,数据科学也再次迎来了春天,人工智能也在基于数据的机器学习下成功迎来新的浪潮,推动着关于知识的科学(知识的表示、知识的获取和知识的应用)加速转变,为数据转化为信息、信息转化为知识、知识转化为决策的机制和方法提供了新的理论与技术支撑。但技术的成熟应用是一个不断发展的过程,镜像数据世界的打造还需要克服很多现实世界的问题,比如数据安全、算法偏见等,更多利弊需要人类自身来权衡和选择。尤其在教育的育人实践上人类更需要遵循以人为本的理念,探索符合人的全面发展和生命成长的技术融合教学的方式。所以,以数据为核心的新知识观虽已在悄然萌芽,但未来还需要更多的讨论和实践,以求更加清晰地刻画出重塑的知识观轮廓,同时为教育的人才培养方式调整提供新的方向。

参考文献

曹新明,&咸晨旭.(2020).人工智能作为知识产权主体的伦理探讨.西北大学学报(哲学社会科学版),50(1),94-106.

朝乐门.(2019).大力推进数据科学的理论研究.计算机科学,46(2),1.

陈丽,逯行,&郑勤华.(2019).“互联网+教育”的知识观:知识回归与知识进化.中国远程教育(7),10-18.

程学旗,梅宏,赵伟,华云生,沈华伟,&李国杰.(2020).数据科学与计算智能:内涵、范式与机遇.中国科学院院刊,35(12),1470-1481.

董春雨,&薛永红.(2018).大数据时代个性化知识的认识论价值.哲学动态(1),95-101.

董春雨,&薛永红.(2019).机器认识论何以可能.自然辩证法研究,35(8),3-10.

范佳荣,&钟绍春.(2022).学科知识图谱研究:由知识学习走向思维发展.电化教育研究,43(1),32-38.

范文翔,&赵瑞斌.(2020).具身认知的知识观、学习观与教学观.电化教育研究,41(7),21-27.

顾小清.(2021).当现实逼近想象:人工智能时代预见未来教育研究.开放教育研究,27(1),4-12.

顾小清,&郝祥军.(2022).从人工智能重塑的知识观看未来教育.教育研究,43(9),138-149.

韩震.(2021).知识形态演进的历史逻辑.中国社会科学(6),168-185.

郝祥军,&贺雪.(2022).AI与人类智能在知识生产中的博弈与融合及其对教育的启示.华东师范大学学报(教育科学版),40(9),78-89.

黄欣荣.(2014).大数据对科学认识论的发展.自然辩证法研究,30(9),83-88.

季苹.(2009).教什么知识:对教学的知识论基础的认识(第1版).教育科学出版社.

李松林,&贺慧.(2020).整合性:核心素养的知识特性与生成路径.教育科学研究(6),13-17.

林夏水.(1989).毕达哥拉斯学派的数本说.自然辩证法研究(6),48-58.

马廷奇,&李蓉芳.(2019).知识生产模式转型与人才培养模式创新.高教发展与评估,35(5),8-16.

聂淑媛.(2019).数据科学的发展与人才培养研究.统计与信息论坛,34(1),117-122.

潘洪建.(2004).教学知识论(第1版).甘肃教育出版社.

邱仁宗.(2006).科学方法与科学动力学(第2版).高等教育出版社.

王竹立.(2019).新知识观:重塑面向智能时代的教与学.华东师范大学学报(教育科学版),37(5),38-55.

维克托·舍恩伯格,&肯尼思·库克耶.(2013).大数据时代(盛杨燕,周涛译).浙江人民出版社.

吴飞,&段竺辰.(2020).从独思到人机协作——知识创新模式进阶论.浙江学刊(5),94-104.

肖峰.(2020a).人工智能的知识哲学审思.求索(1):87-94.

肖峰.(2020b).人工智能与认识论新问题.西北师大学报(社会科学版),57(5),37-45.

徐宗本.(2019).数字化网络化智能化把握新一代信息技术的聚焦点.网信军民融合(3),25-27.

叶波.(2021).化知识为素养:现实困境、理论阐释与教学实现.中国教育学刊(8),45-49.

张康之.(2021).重建相似性思维:风险社会中的知识生产.探索与争鸣(7),121-132,179.

张良.(2019).核心素养的生成:以知识观重建为路径.教育研究,40(9),65-70.

Das,M.,Cui,R.,Campbell,D.R.,Agrawal,G.,&Ramnath,R.(2015).Towardsmethodsforsystematicresearchonbigdata.IEEEInternationalConferenceonBigData.IEEE,2072-2081.

Fayyad,U.,Piatetsky-Shapiro,G.,&Smyth,P.(1996).TheKDDprocessforextractingusefulknowledgefromvolumesofdata.CommunicationsoftheACM,39(11),27-34.

Haiko,V.,&BulderEn,S.V.,Cunningham,S.,&Janssen,M.(2021).Datascienceasknowledgecreationaframeworkforsynergiesbetweendataanalystsanddomainprofessionals.TechnologicalForecastingandSocialChange,173(4),1-10.

Li,G.,&Cheng,X.(2012).Researchstatusandscientificthinkingofbigdata.BulletinofChineseAcademyofSciences,27(6),647-657.

Martinez,I.,Viles,E.,&Olaizola,I.G.(2021).Datasciencemethodologies:Currentchallengesandfutureapproaches.BigDataResearch,24(3),1-18.

Martínez-Plumed,F.,Contreras-Ochando,L.,Ferri,C.,Hernández-Orallo,J.,Kull,M.,Lachiche,N.,...&Flach,P.(2019).CRISP-DMtwentyyearslater:Fromdataminingprocessestodatasciencetrajectories.IEEETransactionsonKnowledgeandDataEngineering,33(8),3048-3061.

Nonaka,I.(1994).Adynamictheoryoforganizationalknowledgecreation.OrganizationScience,5(1),14-37.

Provost,F.,&Fawcett,T.(2013).Datascienceanditsrelationshiptobigdataanddata-drivendecisionmaking.BigData,1(1),51-59.

Rowley,J.(2007).Thewisdomhierarchy:representationsoftheDIKWhierarchy.JournalofInformationScience,33(2),163-180.

Shafique,U.,&Qaiser,H.(2014).Acomparativestudyofdataminingprocessmodels(KDD,CRISP-DMandSEMMA).InternationalJournalofInnovationandScientificResearch,12(1),217-222.

Tolle,K.M.,Tansley,D.S.W.,&Hey,A.J.(2011).Thefourthparadigm:Data-Intensivescientificdiscovery.ProceedingsoftheIEEE,99(8),1334-1337.

Xu,Z.(2021).Fourmajortasksofdatascience.DataScienceandManagement,(3),1-2.

Xu,Z.,Tang,N.,Xu,C.,&Cheng,X.(2021).Datascience:Connotation,methods,technology,anddevelopment.JournalofInformationTechnologyandDataManagement,1(1),32-37.

AIReshapestheViewofKnowledge:KnowledgeCreationandEducationDevelopmentundertheInfluenceofDataScience

XiangjunHaoandXiaoqingGu

Abstract:Intheeraofartificialintelligence(AI)datadefines,quantifiesandconnectseverything.Datasciencehasachievedrapiddevelopmentdrivenbybigdataanddirectedthegoalthathowtoextractandconstructknowledgefromdata.Theprocessofdataminingandknowledgecreationsystematicallydepictsthecompleteprocessfromdatatoknowledgediscovery.Thestudyattemptstoexploretheformationofanewviewofknowledgecenteredondatafromtheperspectiveofdatascience,andtriestoportraytheoutlineofareshapedviewofknowledgefromthechangesinknowledgeproductionmethodsandknowledgeproductionfactorsbroughtaboutbydataandintelligenttechnology.Finally,thestudyprovidesanswerstothethreequestionsof“whatknowledgetoteach”,“howtoteachknowledge”,and“howtoturnknowledgeintoliteracy”inordertoseekadevelopmentpathforeducationtomeetthechallengesofknowledgeinnovativetalents.

Keywords:datascience;artificialintelligence;viewofknowledge;datamining;knowledgecreation;knowledgeproduction;knowledgeteaching;educationaldevelopment

作者简介

郝祥军,华东师范大学教育信息技术学系博士研究生。

顾小清,华东师范大学教育信息技术学系教授(通讯作者:xqgu@ses.ecnu.edu.cn)。

基金项目:本文系2019年度国家社会科学基金重大项目“人工智能促进未来教育发展研究”(项目编号:19ZDA364)的研究成果。

THE END
1.挖掘模型(AnalysisServices处理模型。 Analysis Services 提供下列可帮助您管理挖掘模型的工具: 数据挖掘向导可帮助您创建结构和相关挖掘模型。这是最简单的使用方法。该向导自动创建所需的挖掘结构,并帮助您配置重要设置。 DMX CREATE MODEL 语句可用于定义模型。所需结构将作为过程的一部分自动创建;因此,不能利用该方法重用现有结构。如果您已https://technet.microsoft.com/zh-cn/office/cc645779(v=sql.100)
2.数据挖掘的基本步骤和流程解析请阐述数据挖掘的基本过程和步骤5. 结果验证与优化:对挖掘结果进行验证,优化模型参数,提高挖掘效果。 6. 知识应用与反馈:将挖掘结果应用于实际业务,收集反馈,为后续挖掘提供依据。 总之,数据挖掘的基本步骤和流程是相互关联、循环往复的。 在实际操作过程中,需根据业务需求和数据特点灵活调整,以达到最佳的挖掘效果。 https://blog.csdn.net/m0_67484548/article/details/142665300
3.数据挖掘的挖掘模型有哪些帆软数字化转型知识库数据挖掘的挖掘模型有分类模型、回归模型、聚类模型、关联规则模型、序列模式模型、神经网络模型。分类模型用于将数据分成不同的类别,回归模型用于预测连续的数值型数据,聚类模型用于将数据分成不同的组,关联规则模型用于发现数据之间的关联,序列模式模型用于挖掘数据的时间序列模式,神经网络模型用于处理复杂的数据模式。分类https://www.fanruan.com/blog/article/593352/
4.数据仓库与数据挖掘技术—数据挖掘分类及过程模型数据挖掘:首先根据对问题的定义明确挖掘的任务或目的,如分类、聚类、关联规则发现或序列模式发现等。然后选择算法 结果解释与评估:对发现的模式进行可视化,或者把结果转换为用户容易理解的其他表示形式 Fayyad过程模型从某种意义上来说是面向理论,偏向技术的模型,而不是面向工程、面向应用的模型。虽然有模型的评估,但侧重https://www.jianshu.com/p/da25173289b9
5.数据挖掘的步骤包括什么在数据预处理后,可以通过可视化、统计等方法对数据进行探索性分析,以初步了解数据的分布和特征。这有助于确定后续分析的方向和重点。 4、特征工程 根据数据探索的结果,选择与待挖掘主题密切相关的特征,并构造新的特征以更有效地表示数据。特征工程是数据挖掘过程中非常关键的一步,直接影响模型的性能和效果。 https://www.pxwy.cn/news-id-81213.html
6.大讲堂点过程模型在序列数据挖掘中的应用雷峰网雷锋网AI研习社讯:目前,大量数据是以事件序列的形成产生,比如电商用户的购买行为序列,社交网络用户的转发、点赞行为序列,病人的电子病历等,都属于序列数据。点过程模型是对此序列数据进行建模分析的有效工具。本次公开课中,讲者将介绍如何使用点过程模型对此类序列数据进行建模分析。 https://www.leiphone.com/news/201810/gvvefJKbtO2CPTzt.html
7.《速通机器学习》第五章经典分类模型通过前面的学习我们知道,逻辑回归其实就是在平面上通过画直线进行二分类,其学习过程就是通过梯度下降法在训练数据中寻找分类线。当训练数据线性可分时,能够正确进行分类的分类线有无数条,不同的分类线对应于不同的 w 和 w_0 及不同的 Loss,如图5-1所示。 https://zhuanlan.zhihu.com/p/582224935
8.python数据挖掘算法的过程详解python这篇文章主要介绍了python 数据挖掘算法,首先给大家介绍了数据挖掘的过程,基于sklearn主要的算法模型讲解,给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友可以参考下+ 目录 1、首先简述数据挖掘的过程 第一步:数据选择 可以通过业务原始数据、公开的数据集、也可通过爬虫的方式获取。 第二https://www.jb51.net/article/238548.htm
9.数据挖掘的流程包含哪些步骤?数据挖掘是从大量数据中挖掘出有用的信息和模式的过程。它涉及多个步骤,从数据收集到模型评估。以下是数据挖掘的常见流程步骤: 理解业务目标:在进行数据挖掘之前,需要明确业务目标和问题。确定要解决的问题以及所需的结果有助于指导整个流程。 数据收集:在这一阶段,需要收集与业务目标相关的数据。数据可以来自各种来源,https://www.cda.cn/view/202981.html
10.数据挖掘——模型挖掘之分类模型评价模型评价的目的之一,就是从上一步的模型中自动找出一个最好模型,另外就是根据业务对模型进行解释和应用3. 常见的数据挖掘建模工具 SAS SPSS SQL PYTHON分类与预测、聚类分析、关联规则、时序模式、偏差检验、智能推荐等方法,帮助企业提取数据中蕴含的商业价值,提高企业的竞争力。 2.数据挖掘建模过程目标https://www.pianshen.com/article/15621624011/
11.基于特征的图像数据挖掘模型的研究数据挖掘是知识发现中的核心工作,主要研究发现知识的各种方法和技术。Web挖掘是从Web资源上抽取信息或知识的过程,它是将传统的数据挖掘的思想和方法应用与Web,从Web中抽取感兴趣的、潜在的、有用的模式和隐藏信息。 2.图像特征库的建立是进行图像数据挖掘的前提。本文讨论了特征库的数据模型和数据类型,详细介绍了颜色https://cdmd.cnki.com.cn/Article/CDMD-10445-2006095152.htm
12.数据挖掘如何入门在实施数据挖掘之前,先制定采取什么样的步骤,每一步都做什么,达到什么样的目标是必要的,有了好的计划才能保证数据挖掘有条不紊地实施并取得成功。数据挖掘过程模型步骤主要包括定义问题、建立数据挖掘库、分析数据、准备数据、建立模型、评价模型和实施。 https://www.linkflowtech.com/news/228
13.终于有人把数据挖掘讲明白了数据挖掘的具体过程如图1所示。 图1 数据挖掘过程 2数据挖掘的内容 2.1 关联规则挖掘 从大规模数据中挖掘对象之间的隐含关系称为关联分析(Associate Analysis)或者关联规则挖掘(Associate Rule Mining),它可以揭示数据中隐藏的关联模式,帮助人们进行市场运作、决策支持等。 https://www.51cto.com/article/698009.html
14.商业环境中的数据科学:课程开发的技能分析虽然最广泛使用的分析方法是CRISP-DM,即数据挖掘的跨行业标准流程,但数据科学还没有一个既定的流程模型。由于数据挖掘过程将从数据中发现模式的总体任务分解为一组定义良好的子任务,因此它也有助于构建关于数据科学的讨论。图2显示了基于与SFIA相关技能相关的活动和任务的适用于数据科学的过程模型。模型的核心是数据管https://maimai.cn/article/detail?fid=1765949956&efid=xiMUYryvYPolD-afmus_4g