美国国防语言能力人工智能建设
来源 I 君语君话 2021-08-25 00:09:54
101 0 0


摘要:人工智能已成为当今世界军事建设的重头戏。为了加强国防语言能力建设,美国国防部很早就开始强力推进人工智能的研究和应用。半个多世纪以来,美国国防高级研究计划局和情报高级研究计划局牵头规划了大量项目,对美国国防语言能力建设起到了重要的推动作用。美国军方在推进国防语言能力人工智能建设方面有十大特征:理念上高度重视;时间上贯穿发展全程;内容上凸显技术深化、复杂化、实战化和高水平化;形式上更加复合系统化;技术上以自然语言处理为核心;生态上与其他项目共同交织、互为补充、相互伴随、相互嵌套、相互融合;效果上成效显著、引人注目;驱动上以创新作为项目发展的重要源泉;管理上形成了有效引导模式;路径上形成了高级科研指导部门牵头、其他有能力有实力单位负责承担完成的机制。美国国防语言能力建设在建设理念、领导机关、建设机制、创新驱动、军民融合、体系结构与发展轨迹等方面对我国具有重要的启示意义。关键词:人工智能;国防语言;语言能力建设;自然语言处理;语言智能


随着计算机科学技术的发展,特别是算法的改变、芯片性能的快速提升、计算机运算速度的显著提高以及大规模数据的快捷运算和处理能力的具备,当下人工智能的研究进入了一个异常快速发展的阶段。世界各国都纷纷制定人工智能的发展战略,抢占人工智能研究和产业高地。美国作为人工智能研究和投入的领衔国家,在这个领域有着许多突出的成绩。在技术上,从基于规则的模拟发展到概率统计再到联结主义、神经网络和深度学习;在处理能力上,从简单模式识别到语音识别再到深度情感分析;在人机能力比拼上,从深蓝计算机打败卡斯帕罗夫到Alpha Go打败李世石、柯洁;在智能研究产品上,从波士顿一代行走狗到二代跳跃翻滚狗;在实战化装备上,从单机版的无人机完成远程任务到数以百计的蜂群无人机同时参与演练等等。人工智能时代已经悄悄来临,而且有愈演愈烈的势头。尽管还存在一些短板和瓶颈问题,但美国人工智能的发展已渗透进科技、教育、工业制造等各行各业,在军事、政治、经济和社会生活各领域都孕育着新挑战,特别是为科技创新发展带来了新的天地。由于人工智能研究的发展,美国军事领域受益匪浅,其国防语言能力的建设也获得新赋能、有了新模式、进入新境界。本文将结合美国主要国防机构在国防语言能力人工智能领域的项目开发及能力建设,来探讨美国人工智能的发展对国防语言能力建设的影响,以期对我国有所启发和借鉴。

一、 美国人工智能战略美国一直高度重视人工智能的投入和发展,自1998年以来,人工智能就被置于战略发展地位,2013年以来更是发布了多项人工智能的战略级计划。[1]为了进一步确保在人工智能领域的领导地位,2016年美国又连续颁布了《为人工智能的未来做好准备》和《国家人工智能研发战略计划》。特朗普更是高度重视人工智能的地位,2018年1月颁布的《国防战略》报告,专门强调了与人工智能中多个领域对国家安全的重要性——先进计算、大数据分析、自主性和机器人等。2018年3月,美国国际战略研究中心发布《美国机器智能战略研究报告》,同年,美国新安全中心和国际战略研究中心分别发布《国际安全与人工智能》和《人工智能与国家安全:AI生态系统的重要性》。2019年2月,美国特朗普总统签署《美国人工智能倡议》,同年6月,美国白宫又颁布新版《国家人工智能研究和发展战略计划》。[2]一系列的重要战略和举措,使得人工智能成为当下最为引人注目的新科技、新领域、新方向。美国军方对人工智能的重视程度也超乎寻常,同样发布了相应的战略规划,以更好地发挥人工智能在军事上的重要推进器作用。仅从2016年有关数据来看,美军运用人工智能提升军事装备能力的项目就多达16项,覆盖了士兵头盔和战场信息呈现装备、雷达跟踪与对抗、无人机蜂群战术、反无人机、小型定向航天器、持枪机器人、人机协同、士兵自发电装置、无线电自适应装置等;同年,美国陆军部还公布了到2045年影响世界的科技前沿技术,排名前10项的都是与人工智能紧密相关的领域:物联网、机器人与自动化系统、智能手机与云端计算技术、智能城市、量子计算、混合现实、数据分析、人类增强、网络安全、社交网络。2019年2月12日,也就是特朗普签署行政命令启动“美国人工智能计划”一天后,美国国防部网站公布《2018年国防部人工智能战略摘要——利用人工智能促进安全与繁荣》,文中特别勾画了人工智能在国防领域面临的战略形势,指明了国防部加速推进人工智能能力提升和应用的途径和方法。[3]同年9月,美国空军发布2019年人工智能战略,强调美国“空军负责为国家提供空中和太空优势、全球打击、快速全球机动能力、情报、监视和侦察以及指挥控制”。这也成为迄今为止首份较为详尽的美国军种人工智能发展战略。[4]二、 美国国防人工智能的语言相关项目美军推进人工智能为军队发挥作用的最为重要的机构是国防高级研究计划局(DARPA),其次就是国防部另一个下属机构:国防部情报高级研究计划局(IARPA),新近成立的联合人工智能中心(Joint Artificial Intelligence Center, JAIC)、国防创新小组(Defense Innovation Unit, DIU)等也开始发挥作用。自20世纪60年代起,以前两个机构为主的美国军方就持续不断地设立专门的项目,牵引人工智能的研究力量,为军队解决关键技术和核心技术。许多技术都是军队发展中极具创新的项目,为军队多方面的能力提升发挥了重要作用。为了更为直观地展示这两家机构设立的项目及其特点和发展变化,下面我们以表格的形式,列举了自人工智能研究开始以来,美国国防部高级研究计划局和情报高级研究计划局为国防语言能力领域规划的涉及语言智能的重要项目,也列举了其他个别部门设立的涉及语言智能的重要项目。表1 美国国防部高级研究计划局设置的涉及语言智能的项目
项目名称项目涉及的语言能力内容涉及领域与机构
语音理解项目(Speech Understanding Research,SUR)[5]始于20世纪70年代初,主要用于支持多个研究机构采用不同的方法进行语音识别研究,主要参与者是卡耐基梅隆大学(CMU)以及雷神(Raytheon Company)下属的贝氏网络(BBN)公司等。他们各自推出Hearsay-Ⅱ技术和HWIM(Hear What I Mean)技术。其中Hearsay-II采用并行异步过程,将人讲话内容进行零碎化处理,具有前瞻性;HWIM通过庞大的词汇解码处理复杂的语音逻辑规则来提高词汇识别的准确率。到了80年代,开始采用统计学的方法,开发了Sphinx、BYBLOS、DECIPHER等一系列语音识别系统,实现整句连续的语音识别。语音识别与理解
战略计算项目(Strategic Computing )[6]始于1983年,主要用于提高美军所有计算和信息处理领域的优势。4个领域中有两个领域涉及语言能力:(1)语音识别项目,该项目可支撑导航辅助和作战管理;(2)自然语言开发,该技术为作战管理提供基础。战略规划;语音识别和自然语言开发
朗读语音语料库(Texas Instruments and Massachusetts Institute of Technology,TIMIT)[7]始于1986年,TIMIT 语料包括来自美国8个主要方言区630名不同性别人员的录音。录音有5600多个语句,由每位参与者朗读相应数量、语音特征丰富的语句。转录语句与录音时间对应,书写正确,此外还针对每一段对话建立了16bit、16kHz 的语音波形文件。TIMIT 语料库已通过人工核准,语音和方言有着较好的代表性,也拥有相应的测试集和训练集。方言语音和文本语料库
大词汇连续语音识别项目(Large Vocabulary Continuous Speech Recognition,LVCSR)[8]始于1989年,主要用于启动和举办大词汇连续语音识别竞赛项目,邀请全球范围内的教育机构、研究机构和人员,为实际生活中有较高难度的语言活动的理解展开研究,通过竞赛形式,寻找最有实力和创意的解决方案。实际生活中的语言听力素材由简单的听写发展到新闻广播和电话录音,后期还将文本的理解提升到听力转写文本的对齐上。语音识别与理解
话题检测和跟踪(Topic Detection and Tracking,TDT)[9]始于1991 年,当时为TIPSTER 项目,旨在促进信息检索、信息抽取以及自动文摘等领域研究。1996 年,该项目正式启动。通过对新闻媒体信息进行新话题的自动识别和已知话题的持续跟踪,帮助用户应对日益严重的网络信息过载问题。新闻媒体话语的话题追踪
跨语言信息检测、抽取和摘要(Translingual Information Detection,Extraction,and Summarization,TIDES)[10]始于1999 年,旨在开发高级的语言处理技术以自动处理和理解多样化的人类语言数据,尤其是使英语使用者不受语种和媒介的限制快速获取和理解非英语信息中的关键内容,重点语种为阿拉伯语和汉语。跨语言信息检索
人机交互项目(Human-Computer Interaction,HCI)[11]始于2000年,主要用于研究人机交互语言信息交流的系统,同时通过人机交互过程的学习,掌握人机交互的经验。人机语言交流
高效低耗多用途语音文字转录项目 (Effective Affordable Reusable Speech-to-Text ,EARS)[12]始于2002年,主要用于通过识别将语音流转换成包括与语音对应的文字、标点、停顿以及说话人等丰富信息的文本。以英语、阿拉伯语和汉语为语言界面,在以下4个方面取得了突破:传统的语音识别;说话人分割;语句边界检测;语句焦点识别。语音识别、翻译与转录
全球自动化语言情报利用项目(Global Autonomous Language Exploitation,GALE)[13]始于2005年,开发该项目主要用于寻求能够对标准阿拉伯语和汉语的印刷品、网页、新闻及电视广播进行实时翻译的技术,目标是使得95%的文本文档翻译和90%的语音文件翻译均能达到95%的正确率。多语种文本和语音自动翻译
战术用口语交流与翻译系统(Spoken Language Communication and Translation System for Tactical Use,TRANSTAC)[14] 始于2006年,主要用于解决前线从事军事行动的人员能够用外语同对方国家人员交流。主要面向阿富汗和伊拉克的美军驻军人员碰到的语言问题,基本技术为语音识别和语句分析。口语交流与翻译系统,主要研制方为IBM等公司
机器阅读项目(Machine Reading)[15]始于2008 年11月,主要用于开展机器对文本的自主理解,旨在实现人工智能在发展学习系统的过程中对自然文本进行知识插入。机器自主阅读理解文本
语音识别与机器翻译项目 (Speech and language and language Translation,SALT)[16]始于2009年,主要用于解决美国空军在面对全球地区和国家的反恐、人道主义救援、联军联合行动、海外内部防务行动中,语言专家与翻译人员不够、分析和理解能力不足等问题,而在这些行动中,美国军方需要监控和理解持续的情景、预见新的需要响应的情景以及影响产生的结果,项目将综合运用自动语音识别、机器翻译、自然语言处理、语音合成以及其他语言技术,帮助军方实现对相应情景的理解和预期,其最终表现为文本和语音的自动识别和翻译。语音识别与机器翻译综合
洞察力(Insight)[17]始于2010年, 该项目提供自动化的行为学习和预测算法,使分析师利用海量情报信息发现和识别威胁,同时提出并确认关于其潜在行为的假设,旨在开发一个集情报、监视和侦察(ISR)于一体的系统,为决策提供支持。视频、图像、文字信息综合分析,为决策提供支持,大数据分析
多语言自动文件分类、分析和翻译项目(Multilingual Automatic Document Classification, Analysis and Translation ,MADCAT)[18]始于2010年,主要用于多语言文件自动分类、分析和翻译,目标是创建一个原型系统,为军事指挥人员快速准确提取相关可操作的信息。它能够将外国语言文字图像如道路标志、传单、照片以及手写笔记,自动转换成英文信息,省去语言学家翻译和分析的工作与麻烦。多语种文本分析与翻译
广泛业务语言翻译项目(Broad Operational Language Translation,BOLT)[19]始于2011 年10 月,旨在为国防和国家安全提供更广泛的语言翻译支持,从一般的短语翻译拓展到大型语音、视频和打印数据的扫描及翻译等,对来源于各种媒体类型的汉语普通话和多种阿拉伯方言的非正式语音对话、电子邮件、短消息等实现自动翻译与语言学分析,为非正式场合下的网上交际或人际交际提供支持,实现不受领域和文体限制的中英、阿英(包括多种阿拉伯语方言)的自动、自然互译。多语种自动翻译
心灵之眼(Mind’s Eye)[20]始于2011年,主要用于视频监控,智能读取视频和信息,对动态视频、图像以及文字视觉数据做出识别、分析和判断。视频、图像、文字处理与理解
战略沟通社交媒体项目(Social Media in Strategic Communication,SMISC)[21]始于2011年,主要用于研究在广告和公共关系中运用社交媒体开展战略性传播的策略和具体做法。研究中,社交媒体的传播被看作整体传播的一部分。社交媒体语言传播
视觉媒体推理项目(Visual Media Reasoning,VMR)[22]始于2011年,努力实现照片内容识别,如“车辆的厂商和型号”或“建筑物地址”。通过提取人类分析师的相关信息并提醒他们值得重视的相关情况,VMR技术有望成为智能技术的倍增器。智能媒体视觉项目
多尺度异常检测项目(Anomaly Detection at Multiple Scales,ADAMS)[23]始于2011年,又称为迷雾计算,虚假信息计算,主要用于针对其他国家盗取类似维基解密信息的举动实施监控和释放干扰信息、欺骗信息的研究,涉及视频、图像、语音和文本等领域。认知深度伪造项目
语言自动可靠转录项目(Robust Automatic Transcription of Speech,RATS)[24]始于2011年,该项目主要面向口语环境,旨在利用人类语言技术开发出可对包含大量噪音或高失真语音信号进行自动处理和分析的软件系统,并力图实现99% 的背景噪音辨析率。主要任务包括:噪声环境下的语音活动检测;语种识别;说话者识别;关键词定位。语音识别、翻译与转录
文本深度发掘和过滤项目 (Deep Exploration and Filtering of Text,DEFT)[25]始于2012年,主要用于文本深度挖掘和过滤。利用深度学习技术挖掘大量结构化文本中隐含的、有实际价值的特征信息,同时还要具备可将处理后的信息进行进一步整合的能力,在此基础上,将这些技术用于作战评估、规划、预测的辅助决策支持中。大致涉及了以下三个领域:生成含有关键信息的摘要预报告;实现信息的深度语义理解;提供新动向通报并生成摘要报告。文本信息深度挖掘与信息提取和摘要生成
大机制项目(Big Mechanism)[26]始于2014年,主要用于开发协助计算机阅读科学和技术文章的技术,将知识片段综合成更完整的模型,并提出实现特定目标的干预措施。机器阅读与分析
面向突发事件的低资源语言项目 (Low Resource Languages for Emergent Incidents,LORELEI)[27]始于2014 年10 月,旨在改变传统的依赖大规模人工标注、人工翻译、人工转录的训练语料库来开发人类语言技术的模式,转而探寻一种从相关语种资源出发、利用语种通用资源和已有的特定语种资源以快速、低成本开发“低资源”语言技术的模式。对于那些频繁使用一种或多种“低资源”语言的地区进行信息获取的紧急需求时,该技术便可以在资源十分有限的情况下快速生成用于态势感知的语言技术系统,并生成日报告、周报告和月报告分析产品。跨语言信息检索分析翻译和报告生成
网络深度信息检索项目(Memex)[28]始于2014 年,旨在解决当前索引对网络深度分析能力的不足,实现记忆并能够交叉索引用户的所有预定、记录和其他信息的关联,主要能力指标有:开发基于领域内容发现、组织与表征发生革命转变的新一代搜索技术;提出新的特定领域搜索范式,用于发现相关内容并能够应用于特定任务;拓展搜索能力至深度web 信息和非传统内容;提供军地共享的界面。深度信息检索
对不同方案的主动解释项目(Active Interpretation of Disparate Alternatives,AIDA)[29]始于2017年,AIDA的目标是开发一种多重假设“语义引擎”,使其基于广阔渠道获得的数据生成真实世界事件、现状和趋势的备选解释或者意义。该项目旨在创造一种新技术:能够自动地聚集和扫描采自多个媒体的碎片信息,并将这些信息转化为常用表述或故事情节,然后生成和探究各种关于事件、现状和趋势的事实真相和言外之意的假设。深度语义分析,宾夕法尼亚大学语言数据联盟(LDC)参与
人工智能下一代项目(AI NEXT)[30]始于2018年9月,旨在为美军人工智能生成革命性的发展,致力于用独立验证的方法来推进人工智能在美军中的进步,同时降低风险,主要涉及以下5个方面的能力:新能力AI;鲁棒性AI;抗对手性AI;高性能AI;下一代AI。其中,第一个方面的新能力AI包括了人类语言技术、多模态自动目标识别技术和图像伪造识别技术。多维度语言智能技术,多模态语言与文本识别技术
知识导向的人工智能推理图式 (Knowledge-directed Artificial Intelligence Reasoning Over Schemas,KAIROS)[31] 始于2018年,旨在从大量的多媒体信息中所存在的静态元素来发现其中的相互关系,并由此构筑关联信息的时间过程和事件模式,通过借助认知科学家Jean Piaget 的图式理论,通过孤立事件在图式中的联系,来构筑整体事件图式。基于这样的理解,该项目通过语言信息,建立语言推理和常识推理检测、分类和集中子事件,从大数据中创建多媒体信息中的图式。整个过程分为两个阶段:第一阶段侧重通过对大量分离的语言和事件事实完成语言推理和常识推理,并由此创建图式库;第二阶段将该图式应用于新信息,发现和提取复杂事件和关系,并构建和扩展知识库。知识领域构建,宾夕法尼亚大学语言数据联盟参与
下一代非侵入性神经技术(Next-Generation Nonsurgical Neurotechnology,简称N3)[32]开发高分辨率的便携式神经接口,能够同时读取和写入人脑的多个位置,在非手术的情况下实现大脑和系统间的高水平通信,从而把先进神经技术应用于健康士兵,支持美国国防部在未来改善人机交互。N3具有无需手术、分辨率高、精确度高、延迟时间短、人脑信号同时和多位置读写等优点,将成为提高超级士兵的认知和决策能力、士兵和武器装备信息交互以及士兵意念控制武器等的重要手段。根据目前的DARPA神经科学项目,神经科学与脑机接口是DARPA研究的重点领域,也是近年进展最快的领域之一。该领域覆盖了感觉、知觉、运动神经、外周神经、中枢神经等不同接口技术,旨在增强士兵的认知和决策等能力,大幅提升脑机交互和脑控技术。脑控与人机交互、人脑认知与机器交互
表2 美国国防部情报高级研究计划局等机构设置的涉及语言智能项目[33]
项目名称项目涉及的语言能力内容涉及领域和机构
雷纳虚拟世界表征项目(Reynard)始于2009年,主要借助一系列学科知识与理论,综合考虑社交媒体、网络游戏、虚拟世界、社会文化以及语言学等因素,依据人们在真实世界的诸多行为信息,构建人们在虚拟世界的行为指标,为虚拟世界的构建提供参考。真实世界中考虑的因素可以包括性别、年龄、经济背景、教育水平、职业、意识形态或世界观、本族语、文化、数字原住民与数字移民、大致的物理地理位置等。多学科领域认知计算
多语言大数据社会文化发现(Socio-cultural Content in Language,SCIL)始于2009年,综合运用自然语言处理、群体社会学、社会语言学、群体行为学、社交群体、社会角色以及网络在线知识与理论,探索和构建在某一社交目标下语言使用相一致的某一社会群体成员社会文化的新设计、新算法、新方法、新技巧和新技术。多学科认知语义计算
科技预测项目(Forecasting of Science and Technology,ForeST)始于2010年, 运用机器学习、文本分析、大数据以及自然语言处理的方法,借助专家的知识,预判未来科技的发展。知识发现,认知语义计算
科技说明预报与理解项目(Forecasting and Understanding of Science Exposition,FUSE)始于2010年,运用机器学习、文本分析、大数据以及自然语言处理的方法,借助专家的知识,以文献为基础,预判未来科技的发展。知识发现,认知语义计算
意义构建理解的统一认知—神经科学架构项目(Integrated Cognitive-Neuroscience Architectures for Understanding Sensemaking,ICArUS)始于2010年,运用脑科学、神经科学、人工智能、行为科学、认知倾向、知识发现等学科,来共同解决基于认知神经科学的人类行为、知识表征、意义构建和决策等问题的多学科研究,核心在于解决人类在认知神经科学基础上的意义构建认知模式,借此来揭示人脑的工作功能机制。语言、认知、神经和大脑接口
知识发现与传播项目(Knowledge Discovery and Dissemination,KDD) 始于2010年,运用机器学习、自然语言处理、信息抽取和类连接的理论与方法,通过对社交网络文本的分析,构建本体知识模型及其传播模式。重点是通过对分散、松散的文本大规模联系以寻找其中词语的聚类和类连接,构建词语的聚类模型和分析数据模型,为真实语境数据提供算法和原型。知识发现与传播,认知语义计算
隐喻项目(Metaphor Program)始于2011,该项目以认知语言学概念隐喻理论为基础,综合认知科学、神经科学来研究英语、波斯语、俄语和西班牙语中的隐喻使用,以期洞悉语言所隐含的意识形态和文化观念,并开发隐喻自动分析软件“隐喻机器”,以协助未来的情报分析工作。认知科学与多语言、文化研究
巴别塔语音识别项目(Babel)始于2012年,利用自然语言处理技术,为情报处理提供海量数据并从中提取情报,具有任意语言的鲁棒灵巧识别性能。语音识别
神经系统的知识表征(Knowledge Representation in Neural Systems,KRNS)始于2013年,运用脑科学、神经科学、行为科学、语言学、心理学、文化、意义构建等领域的知识与理论,研究人们大脑概念体系与概念结构的表征模式,构建算法和理论,揭示人类的概念是如何解读的。语言、认知与神经,语义与脑认知(IARPA)
英文检索任何语言信息的机器翻译(Machine Translation for English Retrieval of Information in Any Language,MATERIAL)始于2017年,覆盖多款语言处理软件,使用户能迅速开发和部署全自动系统,让只会英文的人能准确有效地在社交媒体、通讯社、广播等媒体上识别感兴趣的外语文件,使得针对多语言的情报收集和分析可以实现,该项目旨在研究如何更高效地开发整合现有的语言处理技术,应对多语言语音和文本数据提出的具体信息需要。多语言机器翻译,翻译综合系统
贝特语言项目(BETTER)始于2018年,主要研究从语言信息中提取出更为精细的语言信息,实现多语言和多域的抽取,构建事件的语义信息,事件信息结构为who-did-what-to-whom-when-where。语言信息抽取与检索,语义认知计算
其他机构
人类社会文化行为建模(Human Social Culture Behavior Modeling Program)始于2006年, 经过前期研究,到2008年,项目正式启动,调动多学科力量,运用成熟的数据、模型、工具,旨在为美国国防部和军队提供足够的能力去理解、表征、预见和影响当地的社会文化行为。跨学科、多学科认知计算(国防部长办公室Office of Secretary of Defense,OSD)
自动内容抽取项目(Automatic Content Extraction,ACE)1999年先期研究开始,2004 获得再评估。该项目旨在自动提取自然语言中的名称实体、实体关系以及事件,主要以阿拉伯语、汉语和英语为对象。项目依托自建的语料库开展研究,三个关键部分分别为:实体发现与跟踪(entity detection and tracing/EDT)、关系发现与特征化(Relation Detection and Characterization /RDC)、 事件发现与特征化(Event Detection and Characterization /EDC)多语言信息提取与语义计算,认知语义计算(美国国家标准与技术研究所National Institute of Standards and Technology,NIST)
三、 分析与评价表1、表2列举了美国国防部下属机构国防高级研究计划局和情报高级研究计划局等机构牵头推进的与国防语言能力相关的人工智能项目。从项目数量和建设内容来看,这两家机构显然为美国国防语言能力人工智能领域的建设发挥了重要作用。项目建设大体经过了50多年的发展,其内容不断丰富、深化和复杂化。概而言之,各类项目建设内容大体经过了以下路径:语言语料库的资源建设语音识别与理解 → 语言信息的抽取、分析及摘要生 → 跨语言信息检索 → 人机交互与交流 → 多语言文本与语音的翻译 → 有限语种口语交流与翻译系统机器阅读与文本理解 → 海量信息语音识别与机器翻译 → 大数据驱动下的多语言文件自动分析与翻译 → 多模态文本信息处理与理解 → 社交媒体话语理解与分析 → 智能媒体技术认知深度伪造技术(图像、视频语音文本等) → 基于大数据深度信息检索 → 多维度、多模态智能信息处理 → 知识表征与大脑认知(认知语义计算) → 多学科、多维度、多领域的信息计算(认知语义计算) → 社会文化、心理行为建模与计算(复杂社会计算/认知语义计算)→ 多学科结合与融合的情景分析与预判(多学科复杂融合大数据智能建模计算)以上这个过程是一个从低级到高级、简单到复杂、单一到多重的过程,是一个能力不断增强、能力不断迭代的过程,是一个不断提高、走向融合、形成体系化的过程,是一个由一般性机器识别与翻译到复杂语境、社会环境下的智能翻译与信息处理、获取关键信息并做出复杂判断、决定的一个不断升级的过程,也是一个由初级语音识别到高级认知计算模拟大脑认知思考解决问题能力不断提升的过程。从两家机构主导的国防语言人工智能项目可以看出,国防高级研究计划局既重视多语种的资源和翻译建设,也重视语言在多种模态和语境下的分析和判断;而情报高级研究计划局更看重将语言置于认知计算和开展多学科研究,尤其关注多学科、多领域的大数据和复杂计算。国防高级研究计划局更看重开发应用于军事训练和指挥类的语言文化等方面的基础性、服务性项目,此方面的项目数量该局牵头的项目明显较多;情报高级研究计划局的项目更注重对情报的获取、分析和决策能力,注重为情报的生成能力提供支持,特别关注集语言文化、行为心理等多领域诸多社会因素综合在一起的情报分析能力的提升。纵览以上这些项目我们不难发现,美国整个军方国防语言能力的人工智能建设具有以下一些重要特点:第一,从理念方面看,美军方高度重视人工智能在国防语言能力建设方面的特殊作用。美军在国防部高级研究项目计划局和情报高级研究计划局等领衔单位的规划下,从20世纪70年代就开始探索将人工智能的理念、技术、装备引入国防语言能力建设领域中。尽管期间美国人工智能有起有落,但是美军一直没有弱化人工智能在国防语言能力建设领域的研究。相反,自从引入人工智能以来,美国军方是越来越重视人工智能的项目设置,也越来越知晓人工智能对美国国防语言能力的支撑作用,走出了与国防语言能力人才队伍建设比翼齐飞的另一条智能化国防语言能力建设的路子。第二,从时间方面看,项目建设贯穿人工智能发展全过程。美国国防语言能力的人工智能建设从20世界70年代始,几乎贯穿了美国人工智能建设的全过程。在过去的50年中,美国人工智能经历了基于规则、基于概率统计和基于深度学习的自适应学习三个阶段。由于人工智能的特殊性,语言研究本身既是其中的基础项目,也是其中的长远项目。语言智能问题是许多项目都共同面临的基础问题与共性问题,因此,我们很容易注意到,在发展的所有阶段中美国人工智能研究都与国防语言能力研究相结合。半个世纪的发展中,国防语言能力与人工智能的结合始终是人工智能着手解决的关键问题,各时期都有持续投入,而且投入有不断增加的趋势。第三,从内容方面看,国防语言人工智能不断凸显技术深化、复杂化、实战化和高水平化。美国国防语言能力建设走过了一条由简单到复杂、由单语种到多语种、由单一功能到多维用途、由保障军队获取情报、支持军方早期形势研判、参与现场军事行动应对和作战、研制拥有可靠性能的装备到提升部队生存能力、战斗力和影响力,为美军在情报搜集、获取与分析、战场态势感知与处理、军事行动与作战指挥、海外复杂语情、社情、民情、政情、文化形态多种环境下生存、应对与处理复杂事端提供了有力支持,成为美军新质战斗力的重要组成部分。第四,从形式方面看,从单一简单项目向复合系统性项目发展。美军国防语言能力人工智能建设,经过半个世纪的探索和实践,已经走上了成熟的道路。项目建设一般经过一段时间的预研,然后经过项目的评估,接着才是项目的正式研究下达。项目完成后,如果在军队运行效果较好且又产生新的能力需求,美军还会以第二阶段、第三阶段的形式追加经费。项目实行更为灵活的竞争机制,邀请一批科研机构和商业公司参与解决某个领域的现实问题的对抗性竞赛,以挑选合适的人员和单位承担有关项目的研制。从研制的单位来说,一批一流的大学、商业公司和其他科研机构(不乏一批美国顶尖大学和公司,甚至包括国外公司和机构)成了项目的合作方,如哈佛大学、斯坦福大学、马里兰大学、宾夕法尼亚大学、谷歌公司(Google)、雷神公司(Raytheon Company)等。第五,从技术方面看,自然语言处理是人工智能的核心支撑学科。无论是初期较为单一简单的项目,还是后期更为复杂复合的项目,大都需要自然语言处理作为核心支撑。初期主要集中在语料库建设、语音识别、语音与文本转写、主题词追踪、词语和文本聚类、本体构建、摘要生成、语义分析、情感分析、自动翻译等方面;后期越来越与其他技术相结合,特别是大数据分析、深度学习、多领域数据挖掘、多语言多模态资源分析、视频数据综合分析、社会文化建模、多因素综合分析与决策等技术。自然语言处理中的多项技术综合应用成为国防语言人工智能建设的重要支撑。在后期建设中,自然语言处理的理论和技术也与其他领域的技术融合,为国防语言能力建设走向复合型提供了支撑。第六,从生态方面看,语言项目与其他项目共同交织、互为补充、互相伴随、相互嵌套发展。美军国防语言能力人工智能研究项目,是整个美军人工智能项目的重要内容,更是美军人工智能研究的重要基础。国防语言能力人工智能项目既是单纯的语言能力建设的重要尝试,也是其他项目的重要基础。正是因为国防语言能力人工智能的创新研究,使得美军许多其他项目得以有效开展,而其他项目的发展又推进了国防语言能力建设的发展。美军国防语言能力人工智能领域的发展,并不仅仅是国防语言能力的发展,更是人工智能整体能力和水平的发展。也就是说,美国国防语言能力从单纯的本领域研究走向了复合型、嵌入型、伴随型、共生型、复杂型的人工智能生态。第七,从效果方面看,建设成效引人注目。美军国防语言能力建设的人工智能举措从20世纪70年代就已开始,走过了近50年的历程。既有一次性投入的单个项目,更有一些领域得到持续性投入的项目,如多语言、跨语言翻译和信息处理领域。半个多世纪以来的建设与发展,使得美军在国防语言能力人工智能领域有了良好的基础和成功的经验,一些领域甚至取得了关键性突破,其中,多语种领域的自动翻译及语言文化心理行为建模较为突出,基于认知的人机互动也有明显的进展。总体来说,美军国防语言能力人工智能建设成绩斐然,引领全球,令世界瞩目。第八,从动力方面看,人工智能与国防语言能力建设成为相互创新的源泉。一方面,美军人工智能建设,成为国防语言能力建设的重要创新源头,为美军解决语言专家不足、语言支持服务人手不够、军事行动前方语言保障无法做到语言人力到场、综合语言情报分析水平不高、大规模语言文化信息处理能力严重不足等问题提供了良好的解决办法。另一方面,国防语言能力的人工智能项目研究,也是美军整个人工智能领域创新的重要源泉,一系列的创新为美军人工智能的创新打下了坚实的基础。第九,从管理方面看,形成了国防语言能力人工智能建设有效引导模式。众多项目的牵引单位是美国国防部下属的国防高级研究计划局和情报高级研究计划局,而这两家本身就是长期从事战略性、前瞻性、全局性和关键性技术项目研发的筹划、设置、发布和管理单位,它们既了解美军全军的重大需求,又知道技术研发面临的瓶颈问题和应该发展的方向,对于各类项目推进的全过程也非常熟悉,因而使得各类项目能够得到有效的管理,从总体上避免了项目主管单位过多、项目管理各自为政出现内耗、管理不力、项目推进困难、研发出现偏差、项目建设重复雷同、战略服务方向偏离、理论方向与应用方向脱离等局面的产生。第十,从路径方面看,形成了一种高级科研指导部门牵头、其他有能力有实力单位承担完成的特殊机制,体现为由少数高级科研指导机构牵头提出关键问题、科研单位负责完成任务的项目驱动式建设与发展机制。美国国防部成为美国军方国防语言能力人工智能建设推进的最为重要的顶层设计师和高级推手,根据美军在日常生活、军事训练、多国联合演练、军事侦察、军事战斗、反恐行动、人道主义救援、战后重建中所产生的对语言能力的重大需求,形成研究问题并转化成研究项目,然后向军地机构公布,通过能力评估挑选合适单位(一个项目往往涉及多家单位的参与,很多是军地单位的共同参与)实施研究直至结项。美国有大批高水平的商业公司、高校以及其他科研单位,因此,一个项目经常由一批大学和公司共同参与、共同完成,而国防部的下属机构所扮演的角色主要是对项目建设指引方向、指导推进、实施评估、资助与再资助。由此,美国建成一支强有力的军民融合的国防语言能力人工智能建设大军,由此带动了军队和地方科研院所、商业公司的飞速发展,也培养了一批有能力、有发展潜力也有影响力和创新力的人才队伍和科研基地。四、重要启示前文我们介绍了美军在国防部下属的国防高级研究计划局和情报高级研究计划局牵头推进的国防语言能力人工智能项目的基本情况,并对其主要做法做了归纳和总结。从美军的主要做法中,我们可以得到一些重要的启示。第一,要高度重视国防语言人工智能建设。从美军来看,经过长期持续不断的建设,美军国防语言能力人工智能领域已经取得长足的进步,在语音识别、多语种翻译、文本分析和理解、大数据检索、多模态文本理解、基于大数据的智能媒体监控与传播、语言文化心理与行为建模、人类认知与大脑思维模拟等领域都取得了重大进展,既有效地推进了美国人工智能的发展,也促进了国防语言能力的自身发展,促进了美国军方在国防语言能力及其相关领域形成了强大的技术能力、装备能力、学科能力、体系能力、综合能力。第二,要成立专门机构来指导和推进国防语言向人工智能领域进军。美军在国防部的领导下,主要由国防高级研究计划局和情报高级研究计划局来负责推进和落实,避免了专项工作没有相关部门负责和管理、项目出现无序发展、科研空转或者重复立项、不成体系、无法配套等问题的产生。美军在建设中非常注重利用国防部这两家重要机构的指导和牵引作用,努力保证国防语言能力人工智能建设能够在军队长期坚持下去,并且根据军队的需要有步调、有衔接、有接口、成体系地发展下去。再就是由于领导机构固定,在项目建设中统一标准,使得项目与项目之间的数据接口能够通用,哪怕项目建设完成多年以后,其数据、系统和装备依旧可以与后面的项目形成模块化即插即用。第三,要建立一套推进人工智能走进国防语言并向多领域纵深发展的项目驱动机制。美国很早就注意到人工智能对国防语言能力的重大支撑作用,而人工智能很多领域又以语言智能的发展为基础。在这种双面夹心饼干效应的作用下,美国设立以项目驱动为主要机制的多样化国防语言能力人工智能建设的办法。对于大部分项目,设有一个预先研究的时间段,在研究评估过后,再进行正式资助,展开大规模研究;对于项目进展较好、有良好需求和效益、未来发展有很大潜力的,则进行持续不断地资助。随着研究的推进,项目不断深化和拓展,并与其他领域产生联合、融合效应,既促进了国防语言能力建设,也有利于以国防语言能力为基础的技术延伸和项目融合,从而促进项目群向高精尖及纵深发展。第四,要以创新的思维来鼓励和引导国防语言人工智能领域的快速发展。人工智能在国防语言领域的研究项目多数都是基础性探索性项目,正因为如此,项目往往创新性极强。这种求新求变的思维和举动,对美国国防语言能力的建设提供了创新的发展动力,极大地缓解了美军语言人才不够,语言能力存在短板,语言分析能力不足,大规模语言文化信息处理能力偏弱,海量的多模态军事情报信息获取与分析应对乏力,发展迅速的社交媒体不断产生大数据分析和智能分析的巨量压力。这种创新,使得美国国防语言能力建设形成了一条区别于国防语言能力语种人力队伍建设的另外一条道路:高技术条件下的国防语言能力人工智能道路,这条道路应该是有效地促进了美军国防语言能力的技术建设,也减轻了人力队伍建设高投入、见效慢、难持续、难以随时保障的压力。第五,要积极探索国防语言能力人工智能建设的军民融合之路。美国人工智能研究领先全世界,是一条集合军队和地方各类机构和技术的军民融合之路。除了军方部门和军兵种参与之外,美国的高校,如麻省理工、卡耐基梅隆大学、斯坦福大学、哈佛大学、马里兰大学、加州大学伯克利分校、宾夕法尼亚大学等一直都是军方人工智能研究的重要基地。同时,语言领域的人工智能产业也是实力雄厚。在2019年公布的全美排名前50家人工智能公司[34]中,与语言领域相关的公司超过10家;一些商业巨头公司,比如谷歌(Google)、苹果(Apple)、微软(Microsoft)、雷神(Raytheon Company)等都为美军国防语言人工智能能力的建设贡献了不可多得的力量。一些大学的研究团队也得到了长足的发展,由此在相关的研究领域也独占鳌头,比如斯坦福大学的自然语言处理方向,宾夕法尼亚大学的语言数据联盟(Linguistic Data Consortium)等。美军国防语言能力建设军民融合道路的发展,极大地发挥了民间人力和技术优势,也有效地提升了美军国防语言能力的科技实力。第六,要科学借鉴美军国防语言能力人工智能发展的体系结构与发展轨迹。美军从人工智能研究出现后不久,就开始将人工智能引入到军队中,让人工智能为军队战斗力发挥作用。到现在为止,经过半个多世纪的发展,美军人工智能的研究和开发应用已经成为值得全世界各国学习借鉴的领先者,在国防语言人工智能领域也自不待言。美军为国防语言能力的人工智能建设形成了一套相对完备的体系,涉及多语种多模态资源建设、多语种语音和文本分析、多语种文本语义分析、多语种文本自动翻译、多语种知识挖掘与构建、多语种多文化大数据的分析、社交媒体语言与传播智能分析、多语种多文化的语言文化心理行为分析、人类语言与大脑概念结构、人类语言思维与脑机接口的跨学科认知研究等等。研究经历了浅层次的语言资源获取和标注研究一直到复杂的多因素的人文计算社会计算以及神经认知计算。这个轨迹是语言人工智能独立作为人工智能的基础并逐渐成熟丰满并与其它领域相结合相融合形成一体的过程,也是一个不断提高和升级的过程。语言资源的建设与深层分析是基础,自然语言处理是其中最为核心的技术,实现多语言多资源多维度多媒介多模态信息的自动分析自动翻译和自动处理自动应对是较为重要的归属,最终目标是实现人工智能真正像人一样的思考和完成任务。由于人工智能发展需要多投入长投入持续投入合理投入,美军的体系建设与发展轨迹值得下一步在国防语言人工智能领域进行建设的国家的学习和借鉴。五、结语以上我们简要介绍了美国人工智能的战略与概况之后,详细列举了美军在国防部高级研究计划局和情报高级研究计划局两家单位负责牵头推行的与国防语言领域相关的人工智能项目,也介绍了各项目的主要研究内容,并从10个方面对项目的总体发展路径和特点进行了分析和总结。研究发现,美军国防语言领域的人工智能研究项目对美军国防语言能力提升发挥了重要作用,也为美国人工智能奠定了基础,走出了美军国防语言能力建设的智能化道路:在理念上,其地位特殊;在时间上,贯穿美国人工智能研究的全部过程;在内容上,能力和水平不断提升;在内容上,不断丰富深化实战化和复杂化;在形式上,由单一单纯简单语言项目走向复合复杂和系统性;在技术上,推进项目发展的核心是自然语言处理理论与技术;在生态上,形成与其它项目相互交织相互结合相互融合的态势;在效果上,研究成绩斐然、令人瞩目;在动力上,创新成为建设的源泉;在管理上,形成了技术性、需求型、问题式的引导模式;在路径上,形成了成熟的国防语言人工智能能力建设的机制。最后,研究从重要性、领导机构建设、驱动机制、创新思维、军民融合的机制和发展的体系结构与发展路径等方面,总结了美军的经验,指出了对我国和我军的相关启示与建议。
参考文献:[1]汪雅君、何晓萍: 《2018<美国机器智能国家战略>的学习与启示》,《中国教育信息化》 2019第3期;伍尚慧、路静:《美国人工智能的发展现状》,https://www.sohu.com/a/121060448_465915,2020年3月3日访问。[2]信息化协同创新专委会:《2019年美国国家人工智能战略报告》(中文翻译版), https://www.sohu.com/a/335572230_781358,2020年3月3日访问;刘伟: 《“美国人工智能倡议”:提出五大“发力点”》,http://military.people.com.cn/n1/2019/0219/c1011-30805165.html,2020年3月3日访问。[3]《美国制定<国防部人工智能战略>》,中国科技网,https://baijiahao.baidu.com/s?id=1625433060220537898&wfr=spider&for=pc,2020年3月3日访问。[4]《美媒:美国空军发布2019人工智能战略》,《参考消息》,https://baijiahao.baidu.com/s?id=1644617940936536408&wfr=spider&for=pc,2020年3月3日访问。[5]高端装备发展研究中心:《DARPA人工智能技术研究情况一览》,https://www.sohu.com/a/304105330_358040,2020年4月19日访问。[6] Alex Roland & Philip Shiman, Strategic Computing, Department of Defense, 1983.[7] 曹蓉,易绵竹,黄金柱:.《信息检索—DARPA人类语言技术研究的最终指向》, 《山东大学学报(理学版)》2016年第9期。[8] 徐波:《语音识别发展现状及展望》,https://wenku.baidu.com/view/09bf8c373968011ca3009191.html,2020年4月19日访问。[9] 曹蓉,易绵竹,黄金柱:.《信息检索—DARPA人类语言技术研究的最终指向》。[10] 曹蓉,易绵竹,黄金柱:.《信息检索—DARPA人类语言技术研究的最终指向》。[11] 高端装备发展研究中心:《DARPA人工智能技术研究情况一览》。[12] 曹蓉,易绵竹,黄金柱:.《信息检索—DARPA人类语言技术研究的最终指向》。[13] 高端装备发展研究中心:《DARPA人工智能技术研究情况一览》。[14] 徐波:《语音识别发展现状及展望》。[15] 高端装备发展研究中心:《DARPA人工智能技术研究情况一览》。[16] K. M. Young, et. al., “Speech and Language and Language Translation (SALT)”, https://apps.dtic.mil/dtic/tr/fulltext/u2/a587920.pdf, 2020年4月20日访问。[17] 洞察项目词条(Insight Program), “Insight Program - DARPA’s Ubiquitous Intelligence”, https://www.bibliotecapleyades.net/sociopolitica/ sociopol_DARPA03.htm, 2020年3月6日访问。[18] DARPA, “DARPA. AAAI Honors DARPA PM Bonnie Dorr for ‘Significant Contributions’”, https://www.darpa.mil/news-events/2013-09-19, 2020年4月19日访问。[19] 曹蓉,易绵竹,黄金柱:.《信息检索—DARPA人类语言技术研究的最终指向》。[20] 高端装备发展研究中心:《DARPA人工智能技术研究情况一览》。[21] DARPA, DARPA Demo Day 2014 Highlights Innovative Approaches to Preserving and Expanding U.S. Technological Superiority, https://www.darpa.mil/news-events/2014-05-21, 2020年4月19日访问。 [22] DARPA, DARPA Demo Day 2014 Highlights Innovative Approaches to Preserving and Expanding U.S. Technological Superiority.[23] 张海粟:《美国国防部大数据研发核心项目XDATA分析》,载中国指挥与控制学会:《第三届中国指挥控制大会论文集》(上册),国防工业出版社2015年版,第11—15页。[24] 曹蓉,易绵竹,黄金柱:.《信息检索—DARPA人类语言技术研究的最终指向》。[25] 曹蓉,易绵竹,黄金柱:.《信息检索—DARPA人类语言技术研究的最终指向》。[26] 高端装备发展研究中心:《DARPA人工智能技术研究情况一览》。[27] 曹蓉,易绵竹,黄金柱:.《信息检索—DARPA人类语言技术研究的最终指向》。[28] 曹蓉,易绵竹,黄金柱:.《信息检索—DARPA人类语言技术研究的最终指向》。[29] DARPA, DARPA Wades into Murky Multimedia Information Streams to Catch Big Meanin, https://www.darpa.mil/news-events/2017-04-06, 2020年4月20日访问。[30] 高端装备发展研究中心:《DARPA人工智能技术研究情况一览》。[31] DARPA, Knowledge-directed Artificial Intelligence Reasoning Over Schemas (KAIROS) Proposers Day (Archived), https://www.darpa.mil/news-events/knowlege-directed-artificial-intelligence-reasoning-over-schemas-proposers-day, 2020年4月20日访问。[32] DARPA, N3 Proposers Day (Archived), https://www.darpa.mil/news-events/n3-proposers-day, 2020年4月19日。[33] 表2中的所有项目细节参见美国情报高级研究计划局:《语言类人工智能系列项目列表》,https://www.iarpa.gov/index.php/ research- programs,2020年4月15日访问。

[34]《一图看清美国最具前景的50家人工智能公司》,《大数据周刊》,https://blog.csdn.net/r6Auo52bK/article/details/102713760,2020年4月20日访问。

(本文为国家社科基金重大项目“国防和军队改革视野下的国防语言能力建设研究”阶段性成果,原载于《上海师范大学学报(哲学社会科学报)》2021年第2期。)


0人打赏
发表评论
请先 注册 / 登录 后参与评论
评论
推荐阅读
"华为实验室起火"?官方回应
东莞市委宣传部回应第一财经记者表示:今天下午,一个在建的项目着火,没有人员伤亡。该建筑与实验室并无关系,正在装修和建设之中,没有投入使用。9月25日下午消息,网友爆料称华为位于东莞的松山湖实验室突然起火,火势不小,现场浓烟滚滚。据报道,松山湖消防救援站已经赶往救援。从网友发布的视频来看,着火的是一栋大楼,现场烟雾强烈,整个视频画面中都是黑色的烟雾,看起来火势不小。据了解,华为松山湖基地是华为终端公
2020-09-26 00:47
《关于改革社会组织管理制度促进社会组织健康有序发展的意见》
中共中央办公厅 国务院办公厅印发《关于改革社会组织管理制度促进社会组织健康有序发展的意见》近日,中共中央办公厅、国务院办公厅印发了《关于改革社会组织管理制度促进社会组织健康有序发展的意见》,并发出通知,要求各地区各部门结合实际认真贯彻执行。《关于改革社会组织管理制度促进社会组织健康有序发展的意见》主要内容如下。为深入贯彻党的十八大和十八届二中、三中、四中、五中全会精神,进一步加强社会组织建设,激发
昨天 21:55
君语君话
3000块一桌,就吃这?一群百万大V傻眼
为什么我们既需要袁隆平,也需要李子柒
华为“断供”十日:“绝版”产品被热炒
一家四口同日死亡?连云港警方通报

推荐阅读

谁在定义“被害人有罪论”?
“甩锅秀”秀出美政客政治操守无底线
"华为实验室起火"?官方回应
《关于改革社会组织管理制度促进社会组织健康有序发展的意见》

推荐作者

纸上建筑
算法的牢笼甚于差评的阴影
麟剑28
【世界民族文明史系列】坎纳拉人与印度遮娄其王朝
杨昇说说
骑手不只是困在系统里,更是活在系统里