【刊载信息】郝祥军,&顾小清(2023).AI重塑知识观:数据科学影响下的知识创造与教育发展.中国远程教育(05),13-23.
【摘要】在数据定义万物、数据量化万物、数据联接万物的人工智能时代,数据科学在大数据的推动下取得快速发展,将目标直接指向了如何从数据中提取和建构知识。数据科学指向的数据挖掘与知识创造过程系统描绘出从数据到知识发现的完整流程。本研究试图从数据科学的视角探寻以数据为核心的新知识观形成,从数据与智能技术带来的知识生产方式与知识生产要素的变化中尝试刻画出重塑的知识观轮廓,并对“教什么知识”“知识如何教”“如何化知识为素养”三个问题进行探讨并做出回答,以寻求教育迎接知识创新人才挑战的发展路径。
【关键词】数据科学;人工智能;知识观;数据挖掘;知识创造;知识生产;知识教学;教育发展
一、
引言
二、
数据科学的由来与内涵
综上所述,数据科学作为大数据技术推动下的产物,其出现有其必然性和必要性。尤其当前处在数据驱动的智能时代,数据已经上升为生产资料,数据科学则可以为发掘数据效能提供理论方法与技术支撑,从而增强大数据的能力,并将其转化为实际生产力。因此,从知识创造与生产的角度来看,数据科学为数据到知识的转变提供了理论指导和技术路径。恰如徐(Xu)等总结的“三个转变、一个实现”,即数据科学的目标是实现对现实世界的认识和控制,数据科学的科学任务是完成数据空间中从数据到信息、从信息到知识、从知识到决策的转变(Xuetal.,2021)。因此,数据科学就是探索如何从数据到知识转变过程的理论、技术和应用的一套体系,直接以数据增值过程指向知识创造,进而实现对以往知识生产流程的再造。
三、
数据科学指向的知识创造
(一)数据挖掘过程:数据驱动的知识发现
图1CRISP-DM过程模型
业务理解:这是数据挖掘的第一步,因为最初的数据挖掘服务于商业应用,故此阶段侧重于从业务角度理解业务(知识发现)的目标和要求,从而定义数据挖掘问题、制定挖掘目标;在目标导向下为整个流程初步拟定计划,筛选挖掘技术和工具。
数据理解:该阶段从最初的数据收集开始,然后进行一些数据获取与检测活动。重点是数据收集、数据检测和质量验证,以熟悉数据、识别数据质量问题、形成对数据的初步见解或检测感兴趣的子集,进而在洞察数据的基础上生成隐藏信息的假设。
数据准备:该阶段包括从初始数据构建最终数据集所需的所有活动,重点是选择和准备最终的数据集。这个阶段可能包括许多任务记录、表和属性选择以及数据的清理和转换。数据准备工作也可能会重复执行,因为需要对原始数据进行反复清洗、过滤、组织和重构等以达到“建模”阶段的要求,并且要能够匹配最初的业务目标与挖掘目标。
建模:在该阶段,选择和应用各种建模技术,设置不同的参数,建立不同的模型,并将参数校准到最优值。针对同一数据挖掘问题类型可能有多种技术方案,有些技术对数据的形式有特定的要求。因此,该阶段通常需要返回到数据准备阶段,为适应建模要求而重新调整数据形式。
评估:重点是对得到的模型进行评估,并决定如何使用挖掘结果。从数据分析的角度来看,该阶段似乎已经建立了高质量的模型。在继续进行最终的模型部署之前,应更彻底地评估模型并检查构建模型所采取的步骤,以确保它正确地实现了知识发现目标,并就未能考虑到的内容进行再补充和深化。
部署:重点是确定获取知识和结果的使用。这个阶段还着重于以用户可以使用的方式对所获得的知识进行组织、报告和呈现。
各阶段的详细任务如表1所示。由于技术“黑箱”的缘故,其实并非所有人都清楚数据是如何从生成到被检测、清洗和建模,再到被解释或赋予意义的。该模型清晰地诠释了以目标为导向的数据增值的重要环节及其相互关系,交代了从数据到信息的转化、再到最终被应用于知识产品的流程。这个过程有迭代优化的周期:在数据理解阶段之后,数据分析人员往往需要回到业务理解中重新考虑最初的知识发现目标;在数据建模阶段之后,需要新的数据预处理来改进衍生数据模型,甚至开发其他数据模型;评估阶段的调查结果还可能需要从第一个阶段开始,即业务理解,以防模型不支持事先确定的知识发现目标。以此来看,数据挖掘是一个从相对明确的业务目标和数据开始的过程,这些目标和数据已经收集并可用于进一步计算处理,这种过程类似于在确定矿物或金属存在的特定地理位置开采有价值的矿物或金属:数据是矿石,在矿石中发掘有价值的知识(Martínez-Plumedetal.,2019)。
表1数据挖掘各阶段的任务内容
(二)知识创造过程:人的智慧与数据协同
数据挖掘虽然实现了从数据中提取有效信息乃至形成知识认知,但其本质上还不是真正意义上的知识创造,因为真正的知识创造需要有人的智慧性参与。正如知识创造理论之父野中郁次郎(Nonaka,1994)提出的知识创造动态模型,强调知识的社会化、外在化、组合化和内隐化,尤其强调社会互动有助于扩大和发展新知识,以及知识是通过默会(隐性)和明确(显性)知识之间的持续对话而创造的。这凸显人的智慧性在知识创造过程中的重要性。基于此,Nonaka(1994)开发了组织知识创造过程模型(OrganizationalKnowledgeCreationProcess,OKCP)(如图2所示)。这里的“组织”是指具有共同业务目标的机构或群体。该模型充实了个体与群体之间知识的传播路径,强调了扩大个体知识、为共享知识寻找共同概念(概念化)、将共享知识具体化为具体产品或系统(结晶化)、评估所使用的产品和知识(论证)以及通过组织传播概念(知识网络化)的重要性。
图2组织知识创造过程模型
该模型揭示了从人的经验知识出发经过社会化反思与论证而产生新知识的过程。但大数据时代海量数据成为知识发现与创造的新源泉,新的知识创造方式应融合数据挖掘的理念与方法,并将人的智慧性与技术的智能化进行融合。为此,海科等人(Haikoetal.,2021)从数据科学的视角整合了CRISP-DM框架与OKCP框架,构建了数据科学指向的知识创造过程模型,即数据智能和分析的知识创造模型(如图3所示)。他们认为CRISP-DM框架与OKCP框架刚好形成相辅相成的关系,能将“利用个人默会知识创建组织知识”和“专注于数据挖掘模型的构建”的优势结合,能为数据分析师和领域专业人员之间的知识协同作用创造空间。
图3数据智能和分析的知识创造模型
根据其内容介绍,本研究将该过程划分为三个阶段:
通过以上数据科学指向的数据挖掘与知识创造过程,我们可以知道新的知识创造方式已经形成,数据也已成为新的知识生产要素。从数据到信息,再到知识,这一数据增值链条阐释了数据科学指向的知识创造是对大规模、多样性的数据进行聚集、清洗、挖掘和再生产,从而形成一种基于数据集与算法逻辑规则的知识发现、理解和应用。这种以数据为主要原料的知识生产过程以及智能化算法与技术的加持,或许已经在颠覆我们以往对知识的认识,促使人们形成新的知识观。比如在知识主体上,吴飞等(2020)指出“人类的知识生产经历了从传统的个体思考、专业组织到算法引导和人机协同的新阶段”,人机协同的新阶段则生动诠释了人工智能参与知识生产的形态——人的智慧性与技术的智能化融合。而且在知识的含义、知识的类型、知识的获取方式、知识的意义等众多方面对知识哲学产生了深刻影响(肖峰,2020a)。
四、
数据科学下新知识观的形成
(一)知识生产方式的变化
(二)知识生产要素的变化
以数据为关键原料的知识生产范式的出现与知识形态的演变,意味着新的认识论或知识观正在悄然形成。例如,董春雨等(2019)就在大数据、机器学习科学应用背景下讨论了机器认识论的可能性,总结出以数据为基础的认识论正在从人类中心走向非人类中心。今天处在知识经济时代的重要发展阶段,生产要素的形态随着经济发展不断变迁。2020年3月30日中共中央、国务院发布《关于构建更加完善的要素市场化配置体制机制的意见》,首次将数据增列为生产要素,数据成为新的生产力。众所周知,生产力包括劳动者、劳动对象、劳动工具,三者的结合构成生产方式。那么,“科学始于数据”的知识生产方式的形成代表着知识生产要素,即“知识生产主体”“知识生产对象”“知识生产技术与工具”发生了重大变化。
五、
新知识观下的教育发展
知识生产方式与要素的变化暗示着以数据为内容的新知识观的形成(顾小清&郝祥军,2022)。这是处在知识经济时代无法回避的趋势,数据发展成为生产要素与生产力,已经在各类知识生产过程中“诱导”着知识观的重塑。这推动着人才培养的协同升级,因为知识生产与人才培养具有场景一致性、主体一致性和目标重叠性(马廷奇等,2019)。本研究认为在新知识观下,培养面向未来的人才,迎接知识创新挑战,有三个问题需要在新的时代背景下探讨并回答。
六、
结语
数据已经成为新的生产要素,是国际知识创新竞争必须紧紧把握的生产力,以数据为原料的知识生产是知识经济时代的关键特征。当前,社会各界正在享受大数据的红利,数据科学也再次迎来了春天,人工智能也在基于数据的机器学习下成功迎来新的浪潮,推动着关于知识的科学(知识的表示、知识的获取和知识的应用)加速转变,为数据转化为信息、信息转化为知识、知识转化为决策的机制和方法提供了新的理论与技术支撑。但技术的成熟应用是一个不断发展的过程,镜像数据世界的打造还需要克服很多现实世界的问题,比如数据安全、算法偏见等,更多利弊需要人类自身来权衡和选择。尤其在教育的育人实践上人类更需要遵循以人为本的理念,探索符合人的全面发展和生命成长的技术融合教学的方式。所以,以数据为核心的新知识观虽已在悄然萌芽,但未来还需要更多的讨论和实践,以求更加清晰地刻画出重塑的知识观轮廓,同时为教育的人才培养方式调整提供新的方向。
参考文献
曹新明,&咸晨旭.(2020).人工智能作为知识产权主体的伦理探讨.西北大学学报(哲学社会科学版),50(1),94-106.
朝乐门.(2019).大力推进数据科学的理论研究.计算机科学,46(2),1.
陈丽,逯行,&郑勤华.(2019).“互联网+教育”的知识观:知识回归与知识进化.中国远程教育(7),10-18.
程学旗,梅宏,赵伟,华云生,沈华伟,&李国杰.(2020).数据科学与计算智能:内涵、范式与机遇.中国科学院院刊,35(12),1470-1481.
董春雨,&薛永红.(2018).大数据时代个性化知识的认识论价值.哲学动态(1),95-101.
董春雨,&薛永红.(2019).机器认识论何以可能.自然辩证法研究,35(8),3-10.
范佳荣,&钟绍春.(2022).学科知识图谱研究:由知识学习走向思维发展.电化教育研究,43(1),32-38.
范文翔,&赵瑞斌.(2020).具身认知的知识观、学习观与教学观.电化教育研究,41(7),21-27.
顾小清.(2021).当现实逼近想象:人工智能时代预见未来教育研究.开放教育研究,27(1),4-12.
顾小清,&郝祥军.(2022).从人工智能重塑的知识观看未来教育.教育研究,43(9),138-149.
韩震.(2021).知识形态演进的历史逻辑.中国社会科学(6),168-185.
郝祥军,&贺雪.(2022).AI与人类智能在知识生产中的博弈与融合及其对教育的启示.华东师范大学学报(教育科学版),40(9),78-89.
黄欣荣.(2014).大数据对科学认识论的发展.自然辩证法研究,30(9),83-88.
季苹.(2009).教什么知识:对教学的知识论基础的认识(第1版).教育科学出版社.
李松林,&贺慧.(2020).整合性:核心素养的知识特性与生成路径.教育科学研究(6),13-17.
林夏水.(1989).毕达哥拉斯学派的数本说.自然辩证法研究(6),48-58.
马廷奇,&李蓉芳.(2019).知识生产模式转型与人才培养模式创新.高教发展与评估,35(5),8-16.
聂淑媛.(2019).数据科学的发展与人才培养研究.统计与信息论坛,34(1),117-122.
潘洪建.(2004).教学知识论(第1版).甘肃教育出版社.
邱仁宗.(2006).科学方法与科学动力学(第2版).高等教育出版社.
王竹立.(2019).新知识观:重塑面向智能时代的教与学.华东师范大学学报(教育科学版),37(5),38-55.
维克托·舍恩伯格,&肯尼思·库克耶.(2013).大数据时代(盛杨燕,周涛译).浙江人民出版社.
吴飞,&段竺辰.(2020).从独思到人机协作——知识创新模式进阶论.浙江学刊(5),94-104.
肖峰.(2020a).人工智能的知识哲学审思.求索(1):87-94.
肖峰.(2020b).人工智能与认识论新问题.西北师大学报(社会科学版),57(5),37-45.
徐宗本.(2019).数字化网络化智能化把握新一代信息技术的聚焦点.网信军民融合(3),25-27.
叶波.(2021).化知识为素养:现实困境、理论阐释与教学实现.中国教育学刊(8),45-49.
张康之.(2021).重建相似性思维:风险社会中的知识生产.探索与争鸣(7),121-132,179.
张良.(2019).核心素养的生成:以知识观重建为路径.教育研究,40(9),65-70.
Das,M.,Cui,R.,Campbell,D.R.,Agrawal,G.,&Ramnath,R.(2015).Towardsmethodsforsystematicresearchonbigdata.IEEEInternationalConferenceonBigData.IEEE,2072-2081.
Fayyad,U.,Piatetsky-Shapiro,G.,&Smyth,P.(1996).TheKDDprocessforextractingusefulknowledgefromvolumesofdata.CommunicationsoftheACM,39(11),27-34.
Haiko,V.,&BulderEn,S.V.,Cunningham,S.,&Janssen,M.(2021).Datascienceasknowledgecreationaframeworkforsynergiesbetweendataanalystsanddomainprofessionals.TechnologicalForecastingandSocialChange,173(4),1-10.
Li,G.,&Cheng,X.(2012).Researchstatusandscientificthinkingofbigdata.BulletinofChineseAcademyofSciences,27(6),647-657.
Martinez,I.,Viles,E.,&Olaizola,I.G.(2021).Datasciencemethodologies:Currentchallengesandfutureapproaches.BigDataResearch,24(3),1-18.
Martínez-Plumed,F.,Contreras-Ochando,L.,Ferri,C.,Hernández-Orallo,J.,Kull,M.,Lachiche,N.,...&Flach,P.(2019).CRISP-DMtwentyyearslater:Fromdataminingprocessestodatasciencetrajectories.IEEETransactionsonKnowledgeandDataEngineering,33(8),3048-3061.
Nonaka,I.(1994).Adynamictheoryoforganizationalknowledgecreation.OrganizationScience,5(1),14-37.
Provost,F.,&Fawcett,T.(2013).Datascienceanditsrelationshiptobigdataanddata-drivendecisionmaking.BigData,1(1),51-59.
Rowley,J.(2007).Thewisdomhierarchy:representationsoftheDIKWhierarchy.JournalofInformationScience,33(2),163-180.
Shafique,U.,&Qaiser,H.(2014).Acomparativestudyofdataminingprocessmodels(KDD,CRISP-DMandSEMMA).InternationalJournalofInnovationandScientificResearch,12(1),217-222.
Tolle,K.M.,Tansley,D.S.W.,&Hey,A.J.(2011).Thefourthparadigm:Data-Intensivescientificdiscovery.ProceedingsoftheIEEE,99(8),1334-1337.
Xu,Z.(2021).Fourmajortasksofdatascience.DataScienceandManagement,(3),1-2.
Xu,Z.,Tang,N.,Xu,C.,&Cheng,X.(2021).Datascience:Connotation,methods,technology,anddevelopment.JournalofInformationTechnologyandDataManagement,1(1),32-37.
AIReshapestheViewofKnowledge:KnowledgeCreationandEducationDevelopmentundertheInfluenceofDataScience
XiangjunHaoandXiaoqingGu
Abstract:Intheeraofartificialintelligence(AI)datadefines,quantifiesandconnectseverything.Datasciencehasachievedrapiddevelopmentdrivenbybigdataanddirectedthegoalthathowtoextractandconstructknowledgefromdata.Theprocessofdataminingandknowledgecreationsystematicallydepictsthecompleteprocessfromdatatoknowledgediscovery.Thestudyattemptstoexploretheformationofanewviewofknowledgecenteredondatafromtheperspectiveofdatascience,andtriestoportraytheoutlineofareshapedviewofknowledgefromthechangesinknowledgeproductionmethodsandknowledgeproductionfactorsbroughtaboutbydataandintelligenttechnology.Finally,thestudyprovidesanswerstothethreequestionsof“whatknowledgetoteach”,“howtoteachknowledge”,and“howtoturnknowledgeintoliteracy”inordertoseekadevelopmentpathforeducationtomeetthechallengesofknowledgeinnovativetalents.
Keywords:datascience;artificialintelligence;viewofknowledge;datamining;knowledgecreation;knowledgeproduction;knowledgeteaching;educationaldevelopment
作者简介
郝祥军,华东师范大学教育信息技术学系博士研究生。
顾小清,华东师范大学教育信息技术学系教授(通讯作者:xqgu@ses.ecnu.edu.cn)。
基金项目:本文系2019年度国家社会科学基金重大项目“人工智能促进未来教育发展研究”(项目编号:19ZDA364)的研究成果。