美国人工智能研究机构开发的AI解答程序ChatGPT自去年11月横空出世后,其貌似对任何问题来者不拒的强大表现在全球爆红,也引发中国用户关注。百度公司最近宣布,将推出类似ChatGPT的中文工具。分析认为,百度虽具技术实力,但中文版的同类工具质量能否与美版媲美还有待观察,其AI工具代入政治审查也将是必然。
ChatGPT:AI的核心技术突破
基于人工智能(AI)技术的对话式聊天工具已经出现多年,常常用于虚拟客服、企业培训等领域。不同于这些传统的对话软件,由美国OpenAI研究实验室开发的ChatGPT可以进行的对话更为复杂,凭借其海量数据储备,对任何提问来者不拒,甚至可以说笑话、起名字、吟诗作对——这些语言功能以前被认为是机器人无法掌握的创意工作。
同时,ChatGPT还具备编写和调试计算机程序的能力。美国宾夕法尼亚大学沃顿商学院教授克里斯蒂安·特尔维什(Christian Terwiesch)今年1月发表文章透露,ChatGPT通过了他主持的一次工商管理硕士(MBA)考试;最近,ChatGPT还通过了明尼苏达大学法学院教授给出的四项学生测试。
业界认为,ChatGPT标志着机器学习和人工智能的核心技术突破。
台湾AI实验室创始人、曾任微软公司AI部门亚太区研究总监的杜奕瑾最近在接受美国之音采访时说:“它(ChatGPT)利用庞大的资料、庞大的深入学习网路,透过非常高阶的高级电脑运算,透过这种运算出来的结果……透过理解完整的文件,去回答相对复杂的问题。”
杜奕瑾说:“要能回答的好,不管是文本的数量级、模型的复杂度、超级电脑的运算能力,都是有很大的突破才有办法做到这个结果。
ChatGPT界面简单,使用流畅,背后支撑的是美国科技公司的雄厚财力和技术实力,以及AI技术人才。
ChatGPT的技术依托于OpenAI实验室的“生成型预训练变换模型3”(简称GPT-3)。GPT-3这一大型语言模型出身谷歌公司2017年开发出的“Transformer”开放架构,可以写出与人类语言难以区分的文章。
乔治·华盛顿大学助理教授、研究AI相关政策问题的专家杰弗里·丁(Jeffrey Ding)对美国之音说:“早期的GPT-3模型基本上是在大量互联网文本上训练的,这方面的数据来自学术期刊文章,是在Reddit(网络论坛)、维基百科等语料库(corpus)上训练的。”
他说:“因此,这需要大量的数据、大量的计算能力,以及大量优秀的研究人员和工程师来确保训练以高效的方式进行……对于这些大型语言模型来说,入行门槛非常高。”
微软公司给予OpenAI重要的资金支持,于2019年7月投资10亿美元,并在不久之后取得了GPT-3的独家授权。ChatGPT诞生后,今年1月23日,微软宣布再向OpenAI提供数年的投资。据美国新闻网站Semafor此前报道,微软这轮总注资金额可能高达100亿美元。
在美国旧金山湾区一家知名科技公司AI项目任职的华裔科研人士对美国之音说,OpenAI去年招募大量人力来“训练”(tutor)基于海量数据的人工智能模型,诞生的ChatGPT因此比GPT-3架构有了质的飞跃。
这名要求匿名的科研人员对美国之音说:“在ChatGPT之前……2020年、2021年版本的GPT-3是没有人类(参与)的数据,它是通过大量因特网上的文本进行训练。直到去年,它们开始把人加进去,雇了很多很多人来做标注,来把模型训练得很好,比网上许多那些开源的模型、开源的large language model(大型语言模型),ChatGPT要比他们的质量好得非常多。一大半的功劳是归功于这些人做的这些标注。”
这名科研人员估计,让ChatGPT保持运作,至少需要上千、乃至上万台GPU(图形处理器)。
“这一块只有最大的big tech(科技巨头),比如微软、Google、英伟达,这样的公司内部可以有这样的机群,这样大的计算力。”他说。
百度跃跃欲试 文本质量有待观察
彭博社1月29日报道说,中国搜索网站巨头百度也将推出类似ChatGPT的工具,技术基础将根植于百度的大规模机器学习模型ERNIE 3.0系统。
以搜索服务起家的百度已经在人工智能研究上花费了数十亿美元,多年来一直试图从网络营销过渡到下一代新兴技术,例如云服务、芯片、汽车自动驾驶等。
ChatGPT走红后,中文用户对此兴趣浓厚。虽然美国的ChatGPT工具支持中文问答,但包括ChatGPT在内的OpenAI实验室的服务不对中国境内用户开放。此前曾有程序开发者将ChatGPT以微信小程序的形式接入微信平台,让中国国内用户参与使用,但自12月中旬以来,这一小程序因“违规”被微信暂停了服务。
据报道,百度计划在今年3月推出中国版本的ChatGPT,最初版本将嵌入其搜索服务中,让用户获得对话式的搜索结果。有中国媒体报道,百度首席执行官李彦宏表示,相关技术已经达到临界点,百度在其中有较大的机会。
旧金山湾区的那名科研人员认为,百度是最早投身大规模语言模型的公司之一,有技术实力发展出自己的“ChatGPT”。他说:“他们(百度)的研发搞了很久了。而且百度的财力和人力是有的,数据是有的,它那么多的搜索、网页,百度云存了很多的网页,所以不缺数据。”
“国内人工费也便宜,所以标注数据可能比OpenAI还便宜,成本不高。”
美国科技网站TechMonitor.ai指出,百度研究人员与中国鹏城实验室合作发布的“鹏城-百度·文心”(ERNIE 3.0 Titan)预训练语言模型具有2600亿个参数,超过ChatCPT的技术根基(GPT-3.5模型)1750亿的参数数量。
不过,有研究人员说,中国互联网的文本质量,可能将制约百度版本的ChatGPT服务质量。
乔治·华盛顿大学的杰弗里·丁说:“就质量而言,百度在制作自己版本的ChatGPT时将面临的挑战之一是,互联网上没有那么多高质量的中文文本,因为高质量中文文本的语料库(corpus)比高质量英文文本的语料库要小。许多在这一领域工作的中国研究人员都指出过这个关键的区别。”
“以顶尖的学术论文为例,高质量的英语文章比比皆是,而中文的却没有那么多。”丁对美国之音说。
他还表示:“百度的资金和算力限制也比OpenAI更大。因此,这两个因素可能会降低百度版本ChatGPT的潜在质量。”
百度版ChatGPT是否会“一本正经地胡说八道”?
目前ChatGPT一个突出问题是,这一聊天工具常常以看似严肃的方式,在一些问题上信口开河,以貌似客观权威的文风给出具有误导性的答案,甚至是严重的不实信息。人工智能专家将这一问题形容为“一本正经的胡说八道”。
在ChatGPT推出的早期阶段,即使面对难以回答、或者具有荒谬假设前提的问题,聊天机器人还是会自信满满地给出长篇大论的“答案”。比较有名的例子是,曾有用户提问“为什么氰化钾炒菜特别香”,ChatGPT竟然将这一剧毒物质形容为一种美味的调料,称“尤其适合加入印度咖喱”。
与此同时,有用户指出,ChatGPT在一些政治议题上似乎进行自我审查,包括在敏感话题上避免提出批评中国政府的意见。分析认为,百度开发的中国版ChatGPT,在处理问题时的“政治审查”将更为深入。
美国独立学者金培力(Philip J. Cunningham)是ChatGPT的先行使用者。他在对这一“机器人”的英语表达能力感到赞叹的同时,也感到其“写作”有时空洞无物。
“它制造了一个客观的语气,但它并不客观,但它发出一个非常令人信服的声音,因为在某种程度上,它非常确信自己。”金培力对美国之音说。
“不仅仅是句式完美,而且它是有组织的。它引入一个主题,代入主要部分,然后总结,很好地成篇连贯在一起。所以这是一篇文章。……但如果你仔细看,它实际上几乎什么都没说。”
金培力是记录1989年学生运动的《天安门之月》(Tiananmen Moon)一书的作者。他发现,ChatGPT对“六四”话题似乎不愿多谈。当被问到1989年天安门事件时,ChatGPT强调,“中国政府没有发布相关信息,所以我们不能切实了解情况”。
“我认为它非常适合《中国日报》之类的东西,如果你想写一些不会冒犯任何人的东西的话。”金培力说。
观察人士认为,百度版的ChatGPT也将不可避免地代入内容政治审查。百度去年8月推出的文本生成图像AI模型ERNIE-ViLG就拒绝为“天安门广场”等政治敏感话题和政治领导人的描述生成图像。
“在中国,为广泛消费者使用而推出的任何人工智能技术都将面临遵守国家审查准则的压力,而且这些人工智能技术很可能是通过大量官方媒体文章培训出来的,这些文章在广泛的问题上都要坚持北京的官方立场。”福坦莫大学法学教授、美国外交关系协会高级研究员明克胜(Carl Minzner)通过电子邮件对美国之音说。
“在美国,人们说,不要说任何种族主义的话,然后就训练机器不要带有种族主义;在中国,人们训练机器不要批评习近平,不要批评共产党。这很容易。” 金培力表示。
他说:“(在美国)更多的是对‘政治正确’的担忧;在中国,担心更多的是对当权者的批评。”
中国出台法规对付AI“深度伪造”
不过,也有分析人士指出,近年来以文字转图像生成软件和ChatGPT智能聊天软件为代表的“生成式人工智能”(Generative AI)将为所有国家的政府和社会提出如何监管和如何甄别虚假信息的挑战。
新美国基金会(New America)数字经济研究员、斯坦福大学网络政策中心“数字中国”(DigiChina)项目主编魏光明(Graham Webster)说:“依靠这些黑箱算法传递信息的风险在于,没有人在这一过程中检查信息到底是不是好的。”
他对美国之音说:“人们可能会相信某些东西是真的,因为输出(的信息)听起来令人信服,但可能不是真的。这不仅仅是在中国,世界各地的人们、政府、公司、用户都必须面对这个问题。”
中国今年1月10日开始正式实施针对“深度伪造”(deep fake)的《互联网信息服务深度合成管理规定》,要求服务提供商对那些“可能导致公众混淆或者误认的”AI生成内容进行“显著标识”。
不过,即使中国能够要求科技平台对“深伪”的图像内容进行类似于水印的标注,如何对容易复制和流传的文字进行“显著标识”,将为执政者带来技术难题。
评论区