百度吴甜首度解读“AI新基建” 剧透深度学习开发者峰会五月再临!
|
真实在场景当中应用的时候,往往还需要端到端配套的开发套件,让整个开发过程更加便捷、便利,并且能够复用以前做好的各种各样的积累。飞桨在语义理解、目标检测、图像分割、点击率预估四大场景都有配套的套件,可以非常便捷的使用。 在深度学习各个方向上,飞桨平台上也提供了相应的工具组件,从平台层使用的时候提供了服务平台。这样一个全方位的、全功能的平台,其实是针对在众多应用过程当中不断发现的应用难题和挑战建设起来的。飞桨平台在开发的过程中,提供了便捷的框架,在训练过程当中提供了超大规模深度学习模型训练技术,在部署上也是针对多端、多平台全面部署的高性能的推理引擎,还有开源模型库,综合提供出来供产业使用。 介绍了算力、开发框架和平台,再看几大AI算法方向上目前为止最新的进展。 首先看一看语音识别方向,语音识别在AI算法当中是发展历史比较悠久,目前也是可用性非常高的技术,当然它也还持续有技术上的突破。百度上线了首个基于流式注意力的语音识别线上服务,这也是在国际上首次实现在线语音识别中大规模使用注意力模型。这个技术使用以后,在语音输入法场景下相对准确率有50%的提升,在音箱这类产品准确率提升到20%。随着端侧智能设备不断广泛使用,离线语音识别在无网、弱网状态有越来越多的需求,百度语音技术团队通过系统性优化,解决了语言模型裁减性能损失问题,使离线模型有非常高的识别率。
语音合成方面,如果合成出来的声音偏重于机械感,缺少情感,听者在长时间听的情况下会产生疲惫,所以音色模拟、情感模拟等,都会是语音合成技术需要突破的挑战。百度推出的语音合成技术,可以用20句话制作专属的定制语音,将声音当中的音色、风格、情感等要素映射到不同的子空间,使用的时候不同要素进行任意的组合。在百度地图上已经推出了全球首个地图语音定制功能,只需要录制20句话就可以做成一个个人专属的语音包。 视觉理解方面,这些年在OCR物体检测、视频理解、目标跟踪等业界领先的图像视频技术,百度多次在国内外顶级赛事中取得佳绩,并且在机械制造、金融、医疗、教育等领域得到非常广泛的使用。 虚拟形象合成方面,在对大量语音、视觉以及文本的理解能力达到了非常好的水平之后,AI算法也在推进做虚拟形象合成,尽可能形成更加自然、更像真人、更加具有丰富情感的虚拟形象。百度虚拟形象合成技术其实结合了多模态识别和理解,语音识别、视频理解等等,再加上面部、肢体、嘴形的生成能力,还有语音合成TTS的技术,实现了业界首个可以进行量产视频的真人形象的虚拟主播,在多个场景当中应用,央视和百度合作打造过AI虚拟主持人小灵,在央视去年的五四晚会亮相;澎湃新闻和百度打造了第一个虚拟真人形象的主播,用在早晚新闻栏目上;浦发****和百度合作打造了业界首个金融数字人,有情感有专业的****知识,能够提升****的客服体验。 (编辑:PHP编程网 - 湛江站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |


