近日,由国家广播电视总局主管的《广播电视信息》杂志刊登了阿基米德传媒高级软件开发专家胡蓓蓓的文章:《虚拟主播在音频生产和传播中的应用》。文章从阿基米德人工智能技术和自身业务场景出发,分享了音频生产和编播如何实现降本增效的系统性技术解决方案和融合提升路径。
引 言
互联网信息技术的发展极大促进了音频内容的传播和消费。虚拟主播作为一种人工智能技术,通过语音合成、视频生成等方式制作出与接近真人的虚拟形象。虚拟主播技术在广播、电视、互联网等多个领域有着广泛的应用,能够帮助企业实现品牌宣传、产品推广等多项业务目标。
阿基米德传媒智能音频团队,围绕互联网音频和传媒场景,综合运用语音合成、自然语言处理和音频编播技术,构建了“纯听觉”环境中的虚拟主播系统。目前,该系统通过高表现力的语音播报和内容理解技术,将文字转换为不同风格的语音,实现了7x24小时实时新闻播报、政务宣传、有声书制作、知识分享等多场景下的应用。
阿基米德虚拟主播系统
2.1 实际需求
随着深度学习技术飞速发展,虚拟主播在播音效果、成本、安全可控方面都取得了极大进步。社会对虚拟主播的需求和应用意愿显著增强。
在广电领域,真人主播难以满足全天候新闻实时播报,而虚拟主播可以不间断服务、多平台演播、不受时空限制。
在互联网音频领域,真人配音/演播是音频生产效率的瓶颈,无法满足互联网对海量音频的生产需求。多种不同演播风格的虚拟主播可以为不同题材的海量文字合成音频。
在社会服务领域,政策宣传、社区信息、科普、公共卫生等多种信息需要音频配合进行传播,虚拟主播可以很好地满足上述需求,降低音频内容制作成本。
2.2 技术方案
由于工作在“纯听觉”场景下,目前阿基米德虚拟主播没有构建人物形象,而是通过自然拟人的语音播报和内容理解技术,服务于音频生产和传播。虚拟主播技术方案如图1所示。
图1 阿基米德虚拟主播技术方案
从广播和音频内容制作单位的实际需求出发,阿基米德虚拟主播具备如下5个特性:(1)提供一系列不同风格的虚拟主播,支持多种文本内容的语音合成。(2)发音准确,高自然度,高表现力。(3)支持声音定制,少量语料即可生成用户指定声音。(4)连接新闻稿库和短音频内容库,素材丰富。(5)基于对合成文本的内容理解,支持内容编排播出。
阿基米德虚拟主播系统在运行时支持自动运行和用户交互2种模式。自动运行模式下,用户指定文本信源和播讲主播,系统自动抓取信源文本,进行语音合成,并将语音实时推送到24小时直播音频流。自动模式不需要用户操作,适用新闻,热电台生成等场景。用户交互模式下,用户可根据需求控制虚拟主播系统进行语音合成、音频审核和音频编辑,系统提供便捷的内容审核/编辑操作组件,满足用户制作安全高质量音频内容的需求。
2.3 语音合成系统
语音合成系统跟进一系列最新算法,专注于提升发音准确率、自然度和表现力,支持中英混合发音,支持说话人风格迁移,支持声音定制。语音合成系统包括3个部分:(1)多任务文本前端,完成文本正则化、多音字发音预测、韵律层级预测、分词和词性标注。(2)非自回归端到端声学模型,对多说话人、多级风格进行声学特征建模。(3)高分辨率声码器,可生成高采样率音频。
为实现高表现力语音合成的需求,我们在文本前端、声学模型和声码器的构建上进行了模型改进。文本前端提出了基于BERT的多任务文本前端模型,以最大化数据驱动学习的方式,提升多音字消歧、韵律预测和文本正则化的准确性。声学模型增加多说话人、多级风格、中英混合建模,提升发音的自然度和相似度。声码器支持44KHz或48KHz的音频生成,提升合成语音音质。
语音合成系统的功能可概括为语音合成、语音审核、音频编辑、音频发布4大类。其中,语音合成将文本转换为语音;语音审核辅助用户试听审查生成语音;音频编辑提供语音和音频编辑功能;音频发布是指用户可将富文本和音频内容一键发布至阿基米德FM社区。具体功能描述如表1所示。
2.4 媒资内容理解系统
在音频内容制作过程中,仅合成语音不能满足用户制作一期高质量音频内容的需求。阿基米德基于自身在媒体和广播音频上的优势,将新闻稿库、短音频内容库接入虚拟主播系统,方便制作人员快速找到所需素材,补充和丰富音频内容,提高音频制作效率和内容质量。
媒资内容理解系统使阿基米德虚拟主播对合成文本具备一定的理解能力。为了更好地进行文本内容理解,系统基于BERT等一系列文本预训练模型,加上海量媒资文本进行调优训练。文本内容理解包括文本多级分类、标签、关键词、摘要、情感分析、标题生成等。
基于合成文本的内容理解信息,结合素材库中的结构化信息,虚拟主播系统可实现音频片段的自动排序、形成内容版块、转场播报、编排输出,从而生成一期高质量音频内容。
2.5 安全稳定性设计
传媒领域对内容安全和稳定播出有极高要求,阿基米德虚拟主播从内容安全、信息安全和服务稳定3个方面,保障播出安全。
(1)内容安全上,虚拟主播的合成语音发音准确可控;系统连接的新闻稿库、短音频内容库均符合媒体内容安全要求;系统提供完善的辅助审核功能,用户可对音频内容进行编辑、发布或下线操作。
(2)信息安全上,虚拟主播系统具有完备的后台管理和用户鉴权机制,不仅能进行等保备案,也可进行私有化部署。
3. 服务稳定性上,虚拟主播系统具备资源分配和流量调度方案、服务用量和响应监控、服务器状态监控与报警、算力弹性扩展等机制,保证不同优先级的服务请求得到及时处理。
功能创新和技术效果
3.1 功能创新
(1)连接语音合成和媒资内容库,实现文本音频化、短音频自动编排的效果。单一语音合成或媒体内容库检索,不能实现对多种类型的音频内容一站式生成、编辑和播出,而虚拟主播系统打通了烦琐的制播流程。
(2)产品设计以用户为核心,在用户交互上按照“全自动、可干预”的思想进行设计,最大程度减少用户的烦琐处理流程。同时,又提供安全便捷的审核、编辑、控制手段,提升用户音频生产、审核、编辑、发布的效率。
(3)结合音视频直播技术,实现从信源到音频生成,再到编排、最后到直播推流的全流程自动化,助力智能热电台的批量生产。
3.2 技术效果
阿基米德虚拟主播的语音合成评估既包含了语音合成算法的MOS评估标准,还引入了专业播音主持评估,从专业角度评价虚拟主播演播效果。通过从技术和业务2个角度的优化,虚拟主播在准确度、拟人度和相似度上达到了接近真人的发音效果。
在演播风格上,系统覆盖不同风格类型的多位主播,提供通用、新闻、故事、散文、情感播讲等多类型语音合成,满足多种场景下的声音需求。
虚拟主播系统只需要简单的终端操作或配置即可持续工作,不受时空限制,全天候在岗,提升音频制作效率。
应用案例与效益
4.1 应用案例
(1)新闻热电台。阿基米德音频平台通过虚拟主播和多媒体内容库,实现了24小时对热点新闻进行更新和实时报道。更进一步地说,虚拟主播基于内容理解能力,自动化产出多种热点频道,如“海上财经”、“全国两会”等。
(2)故事会电台。阿基米德传媒和故事会杂志合作,由故事演绎风格的多位虚拟主播先后合成了《中国好故事》《中国好家风》《扶危济困:感天动地的扶贫故事》《人猿泰山》等多部有声书,创造了累计千万+的收听记录。
(3)街镇电台/上海街镇日记。阿基米德传媒与上海200多个街镇合作,基于虚拟主播生成街镇家园电台,自动对街镇宣传内容进行有声化和智能编排,在社区中传播党的声音。其中《上海街镇日记》系列,已在学习强国APP进行了2年多的每日播报。
(4)《长三角公共卫生播报》。以长三角公共卫生领域资讯为主,由专人编辑、撰稿形成播报内容,由阿基米德虚拟主播的语音合成技术支撑,形成2期/周,每期5-10分钟公共卫生音频。该项目获评上海市疫情防控健康科普“示范案例”。
(5)《财经早点》互动直播。阿基米德传媒和第一财经广播共同探索主持人和虚拟主播在节目播音的新形式。虚拟主播配合主持人,直播形式和内容新颖,获得听众喜爱。
阿基米德平台上虚拟主播的部分应用案例如图2所示。
图2 阿基米德虚拟主播应用成果
4.2 经济与社会效益
在社会服务层面,阿基米德虚拟主播以社区家园电台为抓手,助力基层党组织在社区弘扬正能量,使党的声音深入人心;在有声内容制作上,通过合成音频,创造海量有声内容,提升用户收听体验;在业务实践中,阿基米德虚拟主播系统显著降低了音频内容的制播成本,提升声音内容的传播速度,促进了媒体融合和智能电台的发展。
结 语
在媒体深度融合进程中,虚拟主播在降低节目成本、全天候服务和海量内容生产等方面发挥了突出作用。尽管虚拟主播在拟人化方面已经取得了显著进展,但其个性化和智能化水平仍需要进一步提升。随着元宇宙和人工智能技术的不断发展,虚拟主播的智能化水平也将得到不断提升,并在更多场景中进行应用、发挥作用。