主要内容:我们通过介绍机器学习的基本思想引入概率图模型。首先描述为何概率图模型适于表示机器学习问题,以及概率图模型的表示能力,包括有向图Bayes网和无向图Markov网。接下来我们转入如何利用概率图模型进行推断。报告将深入浅出地介绍概率图模型常用推断算法,包括著名的beliefpropagation算法,马尔科夫链蒙特卡罗(MCMC)方法等。同时,我们还将简要指出概率图模型推断的本质困难性以及近似的必要性。最后,我们介绍如何从数据中学习概率图模型,重点是图结构学习的常用算法。包括基于约束的算法和基于模型得分的算法等,并讨论它们各自的优点与不足。
王立威北京大学信息学院智能科学系教授。分别于1999年、2002年于清华大学电子工程系获本科和硕士学位。2005年于北京大学数学学院获博士学位。自2005年起在北京大学信息学院任教。他的主要研究兴趣为机器学习理论与算法,对boosting、主动学习等开展了深入研究。在机器学习顶级会议NIPS,COLT,ICML和顶级期刊JMLR,IEEETrans.PAMI发表论文多篇。2010年入选AI’s10toWatch。
主讲人:张民,新加坡信息通信研究所(I2R)研究员
Dr.MinZHANGisaresearchscientistattheInstituteforInfocommResearch,SingaporeandtheProgramInvestigatorofstatisticalmachinetranslationteamattheinstitute.HisresearchinterestsincludeMachineTranslation,InformationExtraction,InformationRetrievalandMachineLearningforNaturalLanguageProcessing.Hehasauthoredmorethan120papersinleadingjournalsandconferences.HeisthevicepresidentofCOLIPS,asteeringcommitteememberofPACLICandamemberofAFNLPandACL.HesupervisesPh.DstudentsattheNationalUniversityofSingaporeandHarbinInstituteofTechnology.Dr.MinZHANGjoinedtheInstituteinDec.2003.HereceivedhisPh.D.degreefromHarbinInstituteofTechnologyin1997.FromDec.1997toAug.1999,heworkedasapostdoctoralresearchfellowinKoreanAdvancedInstituteofScienceandTechnologyinKorea.HebeganhisacademicandindustrialcareerasaresearcheratLernout&HauspieAsiaPacific(nowNuance)inSep.1999.HejoinedInfotalkTechnology(Singapore)asaresearcherinJan2001andbecameaseniorresearchmanagerin2002.
第三讲:互联网创新
主讲人:周明、刘晓华、韦福如,微软亚洲研究院研究员
周明微软亚洲研究院自然语言组主任,高级研究员。1991年哈工大博士毕业,1991-1993年在清华任博士后,随后任副教授至1999年,其间1996-1999年在日本高电社领导中-日机器翻译的研发。1999年加入微软研究院任研究员。2001年起任自然语言组主任并曾于2004年短期兼任语音组主任。
主讲人:王欣靖,微软亚洲研究院副研究员
主要内容:一图胜过千言万语。将文本可视化,即为一个词赋予一幅图像可以让词的意思一目了然,从而提升用户体验。本工作首先展示如何为单个词找出代表性的图像,并由此推广到大规模可视化互联网上的本体词汇(identity)。
王欣靖于2005年取得清华大学博士学位,目前为微软亚洲研究院互联网搜索与挖掘组的研究员,从事大规模网络图像理解方面的研究。
主讲人:宋阳秋,微软亚洲研究院副研究员
宋阳秋于2003年和2009年分别获得清华大学自动化系本科和博士学位,并于2010年加入微软。研究方向为机器学习、数据挖掘、信息检索和可视化。
主讲人:聂再清,微软亚洲研究院研究员
主要内容:互联网中蕴含着大量的关于现实世界对象(例如人物、机构、和地点)的结构化信息。我们在探索一种全新的搜索体验:抽取和集成网页上各式各样的对象信息,让用户能够进行对象级别的信息搜索和浏览。对象级别搜索的一个显著优点是可以利用对象的语义信息,采用直接或者聚合的结果来响应复杂查询。在本次讲座中,我将以人立方和微软学术搜索为例介绍互联网对象级别搜索的用户体验及其关键技术。
聂再清于2004年4月加入微软亚洲研究院互联网搜索与挖掘组,负责对象级别互联网搜索引擎的研发工作包括数据抽取,集成和检索。人立方关系搜索和微软学术搜索是对象级别搜索技术的两个成功应用实例。聂再清于1996和1998年在清华大学计算机系获学士和硕士学位,2004获美国亚利桑那州立大学计算机科学专业博士学位。
主讲人:兰东俊,微软亚洲互联网工程院项目经理
主讲人:马歆、严峻、段楠,微软亚洲研究院
段楠2011年博士毕业,系天津大学和微软亚洲研究院联合培养的第一名博士。博士期间在微软亚洲研究院从事统计机器翻译的研究。现为微软亚洲研究院自然语言计算组博士后研究员,从事自动问答和搜索的研究。在ACL、EMNLP、COLING等自然语言处理会议中发表10余篇学术论文。
主讲人:赵军,中国科学院自动化研究所研究员
主要内容:问答系统被认为是下一代搜索引擎的重要形态,而信息抽取是支撑问答系统等互联网应用的关键技术之一。本课程将围绕信息抽取和问答系统两个研究方向,系统介绍其中的基本概念、主要方法、最新研究进展、需要解决的问题和发展趋势,使听者能够对信息抽取和问答系统研究领域的重点问题和主要方法有较为系统的了解。
主讲人:翟成祥,美国伊利诺伊大学副教授
Abstract:StatisticalTopicModels(alsoknownasprobabilistictopicmodels,orjusttopicmodels)haverecentlybeensuccessfullyappliedtomanytextminingproblems.Theycanbeusedtonaturallymodelthetopicsinunstructured/semistructuredtextcollections,andextractvarioustypesoftopicalpatternsfromtext.Agreatdealofrecentworkhaveshownthattopicmodelsnotonlyhaveasolidtheoreticalfoundation,butalsooffersolutionstomanypracticaltextminingtasks.Thislecturewillsystematicallyreviewtherecentprogressinapplyingstatisticaltopicmodelstotextmining.Wewillfirstintroducethebasicprobabilistictopicmodels,andthendiscussanumberofextensionsofthebasicmodelsandtheirapplicationsintextmining.Inparticular,wewilldiscussindepthhowtousetopicmodelsforcontextualtextminingwherecontextvariablessuchastime,location,authors,andsourcesareconsideredwhenanalyzingtopicsintext.Sampleresultsonawiderangeofapplicationssuchasspatiotemporaltopictrendanalysis,opinionintegrationandsummarization,andeventimpactanalysiswillbepresented.