在20世纪50年代之前,自然语言处理的研究主要处于基础阶段。这个时期,人们开始探索如何使用计算机来处理和理解人类语言。1949年,美国人威弗提出了机器翻译的设计方案,成为自然语言处理领域的早期研究之一。由于当时对自然语言的复杂性认识不足,技术手段有限,这个时期的研究进展相对较慢。
1956年,人工智能的概念被正式提出,自然语言处理作为人工智能的一个重要分支,开始得到快速发展。这个时期,基于规则和基于概率的两种不同方法在自然语言处理领域形成了两大阵营。符号派(symbolic)主要采用基于规则的方法,而随机派(stochastic)则采用基于概率的统计学方法。这个时期的重要研究成果包括形式语言理论和生成句法的研究,以及形式逻辑系统的研究。
在20世纪70年代到90年代初,自然语言处理的发展进入了一个相对低谷的时期。这个时期,由于计算机技术的限制和对自然语言理解的困难,研究进展相对较慢。这个时期也为后来的技术发展奠定了基础,包括大规模真实语料库的研制和大规模、信息丰富的词典的编制工作。
从20世纪90年代中期开始,自然语言处理领域逐渐复苏,并进入了一个融合发展的新阶段。这个时期的主要特点是大规模真实文本的处理和信息抽取技术的发展。随着计算机技术的进步和互联网的兴起,大规模的语料库和计算资源变得越来越容易获得,为自然语言处理的研究提供了新的机遇。同时,机器学习和深度学习等新技术的应用,也为自然语言处理带来了新的突破。
自然语言处理的发展历程是一个不断探索和创新的过程,从早期的规则驱动方法到后来的统计学习和深度学习方法,研究者们一直在努力寻找更有效的方法来处理和理解人类语言。随着技术的不断进步,自然语言处理在各个领域的应用也越来越广泛,为人们的生活和工作带来了巨大的便利。
1.萌芽期(1956年以前)
在1956年以前,自然语言处理(NLP)处于其基础研究阶段,这个时期可以被称为NLP的萌芽期。这个阶段的研究主要依赖于数学、语言学和物理学等学科的知识积累。
电子计算机的诞生为机器翻译和自然语言处理提供了物质基础。1946年,电子计算机的出现使得处理和分析大量语言数据成为可能。
一些关键的理论和技术在这个时期得到了发展。1948年,Shannon将离散马尔可夫过程的概率模型应用于描述语言的自动机,并将热力学中的“熵”概念引入到语言处理的概率算法中。在20世纪50年代初,Kleene研究了有限自动机和正则表达式。1956年,Chomsky提出了上下文无关语法,并将其应用于自然语言处理。这些工作直接导致了基于规则和基于概率的两种不同的自然语言处理技术的产生,这两种方法在后来的几十年里引发了关于其优劣的争论。
这个时期还出现了一些重要的研究成果。1959年,宾夕法尼亚大学研制成功了TDAP系统,这是早期的机器翻译系统之一。同时,布朗美国英语语料库的建立也为自然语言处理的研究提供了宝贵的资源。1967年,美国心理学家Neisser提出了认知心理学的概念,将自然语言处理与人类的认知直接联系起来。
2.快速发展期)
自然语言处理在这一时期迅速融入了人工智能的研究领域。由于基于规则和基于概率这两种不同方法的存在,自然语言处理的研究分为了两大阵营:一个是基于规则方法的符号派(symbolic),另一个是采用概率方法的随机派(stochastic)。
从20世纪50年代中期到60年代中期,以Chomsky为代表的符号派学者开始了形式语言理论和生成句法的研究。他们试图通过形式化的语言规则来描述和解析自然语言。这些研究为后来的语法分析、语义分析和机器翻译等任务奠定了基础。
随机派学者则采用基于概率的方法来处理自然语言。他们使用统计模型来分析语言数据,并基于概率来推断语言结构和意义。这一时期,随机派学者在语音识别、语言模型构建等方面取得了重要进展。
1957年,IBM的研究者开发了第一个基于规则的机器翻译系统。
1964年,美国国防部高级研究计划局(DARPA)启动了ALPAC项目,旨在评估机器翻译的研究进展。
1966年,L.R.Baker发表了关于语言形式化和语义表示的重要论文。
1969年,美国国家标准局(NBS)组织了一次机器翻译评测,推动了自然语言处理技术的发展和标准化。
这些研究成果不仅丰富了自然语言处理的技术手段,也拓宽了其在社会中的应用范围。这一时期的研究也暴露出一些问题,如基于规则的方法过于依赖人工设计,而基于概率的方法则受限于当时的计算能力。这些问题将在随后的阶段中得到进一步的研究和解决。