建材口碑网 > 热点 >

AI推动数字人“飞入寻常百姓家”

时间:2025-05-15 22:51:58 来源:千龙网 阅读量:8277

2025年日本大阪世博会中国馆自4月开馆以来,吸引众多游客打卡。游客走进中国馆,远远就能听到一声俺老孙来也。这声音来自科大讯飞股份有限公司为中国馆打造的精通中、...

2025年日本大阪世博会中国馆自4月开馆以来,吸引众多游客打卡。游客走进中国馆,远远就能听到一声俺老孙来也。这声音来自科大讯飞股份有限公司为中国馆打造的精通中、日、英三种语言的AI孙悟空,其外形、音色均复刻了经典动画电影《大闹天宫》中的孙悟空。

AI孙悟空背后,是近年来迅速发展的数字人技术。作为AI、元宇宙等新兴产业的关键连接点,数字人在数字经济发展中的角色愈发重要。随着大模型技术在该领域的深入应用,数字人正逐步从可用走向好用,推动相关产业进入新的发展阶段。

形成三大类应用场景

数字人是指通过建模等多种数字智能技术创建的数字智能体。它拥有人类外观形象、声音语言,能够模拟肢体动作,具备思维能力,并能在大模型支撑下实现学习、生成、互动等功能。

在技术和需求双轮驱动下,我国数字人产业生态日益完善,应用规模不断扩大,且产业链上下游的生产、运营、服务能力逐渐提升。天眼查数据显示,截至2024年,我国与数字人相关的企业已达114.4万家,仅2024年前5个月就新增注册企业17.4万余家,显示出数字人产业的市场潜力与活力。

在中国互联网协会专家咨询委员会委员武锁宁看来,要避免数字人技术流于形式,造成资源浪费,必须要找到应用出口,以点带面推进数字人应用落地。

以应用为牵引,数字人产业正加速构建技术mdash;场景mdash;商业闭环生态。

中国互联网协会发布的《中国数字人发展报告》(以下简称《报告》)分析,数字人应用场景目前初步形成媒介数字人、服务数字人、行业数字人三大类别。其中,媒介数字人是当下较为成熟的数字人应用形式。围绕媒介数字人产生的场景数量占比可达50%,其逼真的形象和流畅的语言表达,极大提升了信息传播的互动性与趣味性。

例如,在去年中央广播电视总台首次推出的跨年科技秀mdash;mdash;《中国科技创新盛典》上,出现了主持人张腾岳与AI分身同台主持的场景。这位基于科大讯飞旗下讯飞智作平台打造的AI主持人,不仅拥有和真实主持人一样的声音、表情、动作,还可以神态自若地与主持人交流,准确理解对方话语并迅速作出恰当回应,交互流畅程度让观众真假难辨。

《报告》显示,除媒介数字人外,服务数字人也实现了全面升级,具备更强的交互能力,场景数量占比达30%,广泛应用于政务、电商、金融等领域;行业数字人则开始萌芽,场景数量占比达20%,逐步在医疗、教育和企业管理中发挥作用。

有望成为AI创新入口

数字人大致经历了从真人驱动到程序驱动,再到如今AI驱动的三个阶段。

早期由真人驱动的数字人虽然也能呈现出虚拟数字形象,但主要借助计算机图形学建模和动作捕捉等技术,背后仍需真人提供大量语言、动作等数据进行支撑。由程序驱动的数字人可以不再由真人提供语言、动作等数据,但它基于固定计算机程序,更接近于数字机器人,无法实现高逼真度的拟人化效果。近年来,由AI驱动的数字人不仅在语音播报、动作表情等细节呈现上愈加逼真,还逐步拥有了更加强大的交互和思维能力。

几年前,数字人可能会有唇形、表情不匹配,动作僵硬等问题。这是因为数字人本身对文本语义理解不到位,且表情和动作大多依赖有限的预设资源,无法与文本内容进行精准匹配。科大讯飞数字人业务负责人郜静文说,随着大模型技术在数字人领域的深入应用,数字人产品性能已迈上新台阶。

简而言之,大模型技术既能让数字人真正理解语义,也能让它根据对文本的理解快速生成相应的动作、表情,从而做到惟妙惟肖。郜静文说。

中国互联网协会理事长尚冰认为,数字人正成为AI活跃的应用落地入口,与大数据、智能终端、具身智能等产业的链接度、嵌入度、融合度较强,或将成为下一代互联网活跃的交互界面之一。要关注创新应用的落地实践,积极探索数字人等新兴业态,加速形成规模化应用优势。

武锁宁也认为,数字人是AI应用突破口、AI创新入口。AI驱动的数字人,有望为各行各业带来更加丰富多彩的应用,而这些应用恰恰可以引导AI走向务实发展的道路。

打造个性化数字分身

随着数字人的广泛应用,诸多场景对数字人提出了更高要求。

比如电商直播、客服问答等场景,对数字人的实时交互能力提出了极高要求。数字人既要能与用户实时对话,还要根据对话内容生成相应的动作、表情,否则就会影响业务处理效率,直接影响用户体验。郜静文介绍,为提升数字人视频生成模型效率,公司团队研发了动作表征抽取技术,将语音和文本输入转化为紧凑的中间表征,有效压缩了视频维度。借助这项技术,系统可以像速记员一样,从输入的文字、语音中快速提取出关键信息,减少无关信息数据量,并据此进行视频生成,大大提升视频生成效率,保障数字人与用户互动的实时性。

还要看到的是,虽然数字人产业发展势头迅猛,但当下仍处于快速成长期。郜静文认为,目前数字人产品出现了同质化现象,个性化、定制化将成为未来数字人产业的重要发展方向。随着生成式AI技术的发展,数字人的制作门槛和成本迅速降低,制作效率和内容多样性显著提升,用户根据自身特点打造更具个性化的数字人产品已成为现实。现在,仅凭一张照片、一句话录音等素材就能生成个性化的超拟人数字人,极大简化了数字人定制对于预设素材的要求,优化了用户的操作路径。

郜静文也坦言,虽然大模型技术正在推动数字人飞入寻常百姓家,但要实现更精细化的效果,仍需进行大量数据喂养和交互训练。此外,随之而来的隐私泄露、数据安全等问题不容忽视。

可能未来我们每个人都会有一个lsquo;数字分身rsquo;,它可以协助我们处理工作,解答生活中的疑惑,成为我们的陪伴。郜静文说。

2025年日本大阪世博会中国馆自4月开馆以来,吸引众多游客打卡。游客走进中国馆,远远就能听到一声俺老孙来也。这声音来自科大讯飞股份有限公司为中国馆打造的精通中、日、英三种语言的AI孙悟空,其外形、音色均复刻了经典动画电影《大闹天宫》中的孙悟空。

AI孙悟空背后,是近年来迅速发展的数字人技术。作为AI、元宇宙等新兴产业的关键连接点,数字人在数字经济发展中的角色愈发重要。随着大模型技术在该领域的深入应用,数字人正逐步从可用走向好用,推动相关产业进入新的发展阶段。

形成三大类应用场景

数字人是指通过建模等多种数字智能技术创建的数字智能体。它拥有人类外观形象、声音语言,能够模拟肢体动作,具备思维能力,并能在大模型支撑下实现学习、生成、互动等功能。

在技术和需求双轮驱动下,我国数字人产业生态日益完善,应用规模不断扩大,且产业链上下游的生产、运营、服务能力逐渐提升。天眼查数据显示,截至2024年,我国与数字人相关的企业已达114.4万家,仅2024年前5个月就新增注册企业17.4万余家,显示出数字人产业的市场潜力与活力。

在中国互联网协会专家咨询委员会委员武锁宁看来,要避免数字人技术流于形式,造成资源浪费,必须要找到应用出口,以点带面推进数字人应用落地。

以应用为牵引,数字人产业正加速构建技术mdash;场景mdash;商业闭环生态。

中国互联网协会发布的《中国数字人发展报告》(以下简称《报告》)分析,数字人应用场景目前初步形成媒介数字人、服务数字人、行业数字人三大类别。其中,媒介数字人是当下较为成熟的数字人应用形式。围绕媒介数字人产生的场景数量占比可达50%,其逼真的形象和流畅的语言表达,极大提升了信息传播的互动性与趣味性。

例如,在去年中央广播电视总台首次推出的跨年科技秀mdash;mdash;《中国科技创新盛典》上,出现了主持人张腾岳与AI分身同台主持的场景。这位基于科大讯飞旗下讯飞智作平台打造的AI主持人,不仅拥有和真实主持人一样的声音、表情、动作,还可以神态自若地与主持人交流,准确理解对方话语并迅速作出恰当回应,交互流畅程度让观众真假难辨。

《报告》显示,除媒介数字人外,服务数字人也实现了全面升级,具备更强的交互能力,场景数量占比达30%,广泛应用于政务、电商、金融等领域;行业数字人则开始萌芽,场景数量占比达20%,逐步在医疗、教育和企业管理中发挥作用。

有望成为AI创新入口

数字人大致经历了从真人驱动到程序驱动,再到如今AI驱动的三个阶段。

早期由真人驱动的数字人虽然也能呈现出虚拟数字形象,但主要借助计算机图形学建模和动作捕捉等技术,背后仍需真人提供大量语言、动作等数据进行支撑。由程序驱动的数字人可以不再由真人提供语言、动作等数据,但它基于固定计算机程序,更接近于数字机器人,无法实现高逼真度的拟人化效果。近年来,由AI驱动的数字人不仅在语音播报、动作表情等细节呈现上愈加逼真,还逐步拥有了更加强大的交互和思维能力。

几年前,数字人可能会有唇形、表情不匹配,动作僵硬等问题。这是因为数字人本身对文本语义理解不到位,且表情和动作大多依赖有限的预设资源,无法与文本内容进行精准匹配。科大讯飞数字人业务负责人郜静文说,随着大模型技术在数字人领域的深入应用,数字人产品性能已迈上新台阶。

简而言之,大模型技术既能让数字人真正理解语义,也能让它根据对文本的理解快速生成相应的动作、表情,从而做到惟妙惟肖。郜静文说。

中国互联网协会理事长尚冰认为,数字人正成为AI活跃的应用落地入口,与大数据、智能终端、具身智能等产业的链接度、嵌入度、融合度较强,或将成为下一代互联网活跃的交互界面之一。要关注创新应用的落地实践,积极探索数字人等新兴业态,加速形成规模化应用优势。

武锁宁也认为,数字人是AI应用突破口、AI创新入口。AI驱动的数字人,有望为各行各业带来更加丰富多彩的应用,而这些应用恰恰可以引导AI走向务实发展的道路。

打造个性化数字分身

随着数字人的广泛应用,诸多场景对数字人提出了更高要求。

比如电商直播、客服问答等场景,对数字人的实时交互能力提出了极高要求。数字人既要能与用户实时对话,还要根据对话内容生成相应的动作、表情,否则就会影响业务处理效率,直接影响用户体验。郜静文介绍,为提升数字人视频生成模型效率,公司团队研发了动作表征抽取技术,将语音和文本输入转化为紧凑的中间表征,有效压缩了视频维度。借助这项技术,系统可以像速记员一样,从输入的文字、语音中快速提取出关键信息,减少无关信息数据量,并据此进行视频生成,大大提升视频生成效率,保障数字人与用户互动的实时性。

还要看到的是,虽然数字人产业发展势头迅猛,但当下仍处于快速成长期。郜静文认为,目前数字人产品出现了同质化现象,个性化、定制化将成为未来数字人产业的重要发展方向。随着生成式AI技术的发展,数字人的制作门槛和成本迅速降低,制作效率和内容多样性显著提升,用户根据自身特点打造更具个性化的数字人产品已成为现实。现在,仅凭一张照片、一句话录音等素材就能生成个性化的超拟人数字人,极大简化了数字人定制对于预设素材的要求,优化了用户的操作路径。

郜静文也坦言,虽然大模型技术正在推动数字人飞入寻常百姓家,但要实现更精细化的效果,仍需进行大量数据喂养和交互训练。此外,随之而来的隐私泄露、数据安全等问题不容忽视。

可能未来我们每个人都会有一个lsquo;数字分身rsquo;,它可以协助我们处理工作,解答生活中的疑惑,成为我们的陪伴。郜静文说。

声明:以上内容为本网站转自其它媒体,相关信息仅为传递更多企业信息之目的,不代表本网观点,亦不代表本网站赞同其观点或证实其内容的真实性。投资有风险,需谨慎。

友情链接

建材口碑网| 版权声明| 加入我们 | 广告服务| 热门标签| 网站地图| RSS订阅

Copyright @2010- jc.kbdb.cn. All Rights Reserved 建材口碑网 版权所有  备案号:皖ICP备2023005497号

本站所有资源来源于互联网网友交流,只供网交流所用、所有权归原权利人,如有关侵犯了你的权益,请联系告之,我们将于第一时间删除!邮箱:bgm1231@sina.com