
1.1 基本概念
1.1.1 语言学与语音学
1.语言学
作为人与人之间信息传递与交流的载体,使用语言是人类进化中演化出的重要的技能,是人类文明的重要标志,是人类社会中不可或缺的工具。通过语言我们可以把抽象的想法具体化,把复杂的过程条理化。语言可以比作一座搭建在人类与人类、人类与世界之间的认知桥梁。与其说语言的诞生加速了人类的发展,不如认为各种语言的使用让人类各行业、各领域的高度发展变得更加规范。
作为社会生活的最重要的工具,由语音、词汇和语法构成的语言研究涉及方方面面,语言学(linguistics)因其研究的方向不同而产生了许多分支,包括历时语言学(diachronic linguistics)[或称历史语言学(historical linguistics)]、共时语言学(synchronic linguistics)、一般语言学(general linguistics)、理论语言学(theoretical linguistics)、描述语言学(descriptive linguistics)、对比语言学(contrastive linguistics)、类型语言学(typological linguistics)、结构语言学(structural linguistics)等。
2.历时语言学与共时语言学
历时语言学(diachronic linguistics)也被称为演化语言学或历史语言学,它以长时间、宽广度、阶段性的视角来看待和研究一门语言的演化过程。
在语言的不断发展中,曾经被经常使用的词汇和流行语如今鲜为人知,替换成了更具时代风格的词语。以网络流行词为例,“996”“内卷”等刻画了一定的社会、时代、人物心理特征。这种旧词摒弃和新词创建的过程及其背后的原因是历时语言学考察的主要任务。
在社会发展阶段变化时,同种词汇也会因需而被赋予与之前不一样的表达意思,其语义得到了扩大、延伸并得到了社会和网络上的默认,词义的这种变化体现了明显的历时性。网络上典型的例子是“菜”。原本“菜”指的是可以吃的草本植物,或者这类植物做成的菜肴。而如今,“菜”在网络用语中,是菜鸟的意思,指游戏水平差,如同新手一般。关于它的由来网络上也众说纷纭,有人说,英文trainee(见习生)在闽南语中,读出来就很像“菜鸟”。也有人说,一些人在描述笨鸟的时候,把“笨”和“菜”看混了,所以才慢慢有这个叫法。无论怎么说,“菜”这个词的语义变化得到了社会和网络的认可。与此同时,同词的语义也会因为人们无意识地定向使用而缩窄、转移其原本的适用范围和对象。比方说一些有着明显的感情色彩的词语,在不同时代下也有着不同的含义。如“偶像”以前是供迷信人敬奉的木或泥做的人偶,是盲目崇拜的对象。而现代“偶像”一词以褒义的形式存在,人们称某某明星是自己的“偶像”,某某科学家是自己的“偶像”等。
旧词摒弃,新词创建,语义的扩充、缩窄、转移,词汇感情色彩的变化,这些都随着时间的推移而不停改变以适应时代的需求,而语言的历时性也由此充分地体现出来。
共时语言学(synchronic linguistics)是与历时语言学对立的一个分支。共时语言学强调当前状态,由于当前状态相对静止,共时语言学又被称为静态语言学。以提出这两种语言学区分观点的作者索绪尔的巧妙比喻来看,语言学本身是一个“树干”,共时和历时可看作是对树干的横纵不同方向的切割图纹。共时是静态的研究,历时是演变的研究。共时语言学的主要任务是找出同种语言中或不同语言间的语法、语音的共同与差异。以英语和汉语为例,语法的结构大框架都大同小异,有“主谓宾定状补”的成分,区别之一是英语多了许多的时态,如过去进行时、现在完成时、过去完成时等,虽然在汉语中我们很少提及这些时态,但是也都可以在汉语中找出英语对应的时态影子,这是共时语言学同一性的一种体现。另外,同义词、多义词、语境词等都是共时语言学考察的对象。
共时语言学与历时语言学共同为语言学的发展做出了重要的贡献,在研究文本时我们应该搞清楚是用“共时”还是“历时”的观点来看待,从不同的截面,看到不同的纹理。
3.语音学
语音学(phonetics)顾名思义是研究语言发音的一门学科。语音学的研究范畴包括三类:发音语音学(articulatory phonetics)、声学语音学(acoustic phonetics)、听觉语音学(auditory phonetics)。在寻求最大化人机交互的前提下,语音学的研究主要在各种语言的基础上来对语音进行研究。研究学者默认语音学包含在语言学的范畴之内。而作为语言学的独特分支,语音学的研究和其他的文字研究又有本质的不同。狭义的语音学研究主要研究人类说话交流中用的各国语言和方言。为了标准化语音记录符号,在1886年,国际语音协会(International Phonetic Association)制定了一套《国际音标》。这套音标的出版解决了许多发音难以标注的问题,被世界各地的语言学家采用。出版的音标和一些附加符号大体上满足了世界各语言中语音的描写要求,为语音可书写化做出了巨大贡献。汉语中的拼音和英语中的音标都是该种语音成熟的表现。中国地大物博,民族众多,在中国社会科学院编写的《中国的语言》中,统计指出中国共有129种语言,除汉语外的语音识别系统的完善仍有许多进步的空间。
1.1.2 自然语言
尽管现代自然语言处理往往被认为是人工智能和计算机科学的分支学科,但它的研究仍聚焦于自然语言本身。相关的研究会涉及形态学、语法学、语义学和语用学、逻辑学等几个层次的自然语言知识。
1.形态学
形态学(morphology)又称“词汇形态学”或“词法”,是语言学的一个重要分支,主要研究词的内部结构,包括屈折变化和构词法两个部分。由于词具有语音特征、句法特征和语义特征,形态学处于音位学、句法学和语义学的结合部位,所以形态学是语言学家重点关注的一门学科。
2.语法学、语义学和语用学
语法学(syntax)主要研究句子结构成分之间的相互关系和组成句子序列的规则。语义学(semantics)是一门研究意义,尤其是语言意义的学科。语义学的研究对象是语言的各级单位(词素、词、词组、句子、句子群、整段整篇的话语和文章,乃至整部著作)的意义,以及语义与语音、语法、修辞、文字、语境、哲学思想、社会环境、个人修养的关系等。
在现代语言学中,语用学(pragmatics)指的是从使用者的角度研究语言,重点探索使用者所做的选择、在社会互动中所受的制约、所用语言对信息传递活动中其他参与者的影响等。
在实际问题的研究中,语义学和语用学的问题往往是相互交织在一起的。语法结构的研究离不开对词汇形态的分析,句子语义的分析也离不开对词汇语义、语法结构和语用的分析,它们之间往往互为前提。
3.逻辑学
逻辑学是一个哲学分支学科,旨在对思维规律进行研究。逻辑和逻辑学的发展,经过了具象逻辑—抽象逻辑—对称逻辑(具象逻辑与抽象逻辑相统一)三大阶段。所有思维都有内容和形式两个方面。思维内容是指思维所反映的对象及其属性;思维形式是指用以反映对象及其属性的不同方式,即表达思维内容的不同方式。从逻辑学角度看,抽象思维的三种基本形式是概念、命题和推理。
1.1.3 自然语言处理
自然语言是指随着人类文明的不断发展而相应衍生出来的语言,人们用以交流沟通和搭建社会关系。自然语言有完备的语法、句型结构和丰富的词汇,是可以满足日常生活工作所有对话要求的成熟语言。中文、英文、法文、日文等都是自然语言。人们为了独特艺术目的而单独创造的语言不能被称作自然语言,比如《指环王》中精灵们说的昆雅语和辛达林语。与自然语言相对应的就是“人造”语言,一般指计算机语言,如C、Python等逻辑语言。
由于计算机难以理解人类的自然语言,人们只能通过人造的逻辑语言与计算机进行对话和下达指令。如何将自然语言通过处理和转化使得程序拥有像人类一样理解自然语言的能力是自然语言处理的主要任务。
自然语言处理是在众多领域不断地结合中诞生和发展的,是一个跨学科领域,可分为自然语言理解和自然语言生成。自然语言处理需要符合语言学的文本作为处理对象,需要使用计算科学和认知科学作为处理工具,处理好的自然语言可应用到人工智能领域来达到处理目的。
在生活中人们也时刻得益于自然语言处理的发展,像手机中的虚拟助手,如苹果的Siri、华为的Yoyo、小米的小爱同学。当询问虚拟助手“最近的停车场在哪里?”时,自然语言处理系统会根据语音先将其转换成文本,再通过文本识别出请求语气,然后再提取“最近”“停车场”,这样虚拟助手就能明白用户是在找最近的停车场。通过搜索附近的地图信息,虚拟助手可以找到目标停车场并提供最短路程导航,甚至可以提供该停车场收费信息和车主们的评价。
自然语言处理在搜索引擎、智能推荐系统、机器翻译、聊天机器人、知识图谱中都有很重要的应用,并依赖数据、算法、人机交互等环节的相互配合。就目前的技术而言,语义分析和语境的识别还有待完善。