当你在直播平台上与主播互动、在视频会议中侃侃而谈,亦或是在线K歌与友人对唱时,实时互动(RTE)云服务就在不知不觉中入侵了你的生活。
近日,声网发布的首个RTE赛道的全景报告—《实时互动场景创新生态报告》,报告显示:实时互动作为一种未来数字生活的基础设施,其赛道潜力不亚于人工智能、大数据、区块链等专业技术赛道,预计2025年,RTE行业将是千亿规模市场,5年内复合增长率将达40%以上。
实时互动在为参与者提供便捷的远程服务的同时,亦为行业注入了新的发展机遇。
根据声网对国内几大应用商店在教育、泛娱乐、购物、金融、医疗、企业通讯等行业的近万个应用进行统计,2021年实时音视频渗透率已突破30%。
技术驱动实时音视频爆发
“卖话筒的都开始拓展音视频业务了。”一位知乎网友吐槽道。
毋庸置疑,实时音视频市场正处于一个时代的风口之上。但其实早在2013年,以声网为代表的玩家就开始探索实时音视频技术。只是在此之前,由于网络技术、通讯技术的不成熟,实时音视频技术还“不尽人意”,以至于不被大众所接受。
之后,在2015-2018年期间,PaaS、SaaS公司如雨后春笋般涌出,出现一波创业热潮。这种商业模式的出现一定程度上让创业者们发现了一些类似实时音视频这样的“利基市场”。尤其在2015年左右,行业投融资金额和数量达到局部高点。其中即购、网易云信、保利威等近40家企业在这期间入局实时音视频赛道并先后完成融资。
真正的行业爆发得益于市场环境和技术发展的双重加持。一方面在疫情的影响下,大众对云办公、云教育的需求大幅度上涨,短视频、网络直播更是成为全民娱乐方式。另一方面5G、AI、音视频编解码、IoT等技术得到了突飞猛进的发展,让实时互动在社交、办公、娱乐、教育、工业等各行各业中快速落地,更多的创新场景被解锁。
在实时互动这样一个全新的赛道,声网Agora成为了领域内首家且唯一一家上市企业。根据第三方国际分析机构 IDC 最新出炉的《中国视频云市场跟踪(2021 上半年)》报告,详细调查了在中国音视频RTC 技术领域的厂商份额,最终的结果是:声网 Agora 以 43.4% 的占比蝉联市场份额第一,2021 年上半年份额甚至大于 2-8 位厂商的总和!
实时互动赋能行业场景创新
2021年9月,声网推出了在线K歌房场景化解决方案,开发者与企业可一站式接入海量正版曲库与K歌组件、场景功能,快速构建在线K歌房。
声网通过对音频在采集端/播放端以及编解码等环节的延时优化,最终实现了低至 64ms 端到端延时的多人实时合唱体验。作为对比,即构为多人合唱提供的方案,端到端延迟是76ms。
最有想象力的还是其场景化设置,声网通过提供九大场景化功能丰富了K歌的形式,继而在当前的社交趋势下延伸出对桌游、语音直播嵌入歌房甚至相亲等形式的良好支持,探索了社交的新可能,打破商业模式单一的尴尬。
但如果你以为实时互动的运用场景只限于此,那就大错特错了,实时互动的大手早已伸向各个行业。
在2021年的RTE大会上,声网总结和梳理了 20多个行业赛道以及超过 200 个行业场景,并重磅推出“RTE 万象图谱”。其中在社交、直播、教育、会议等领域已初步形成成熟场景,并且未来将长期存在。此外,也有大量远超成熟场景的新萌芽场景,例如线上展会、云演唱会、在线自习室、视频办医保、互动播客等等。从图谱中可以观察到,泛娱乐行业50+场景、教育行业30+场景、IoT行业20+场景,分别成为图谱中场景数量最多的前三大行业。
作为RTE万象图谱中场景数量占比最高的泛娱乐行业,“社交+”场景正不断拓展,依靠RTE连接原本单一的场景,消费者在虚拟与现实两大层面都能获得真切的体验。比如在游戏中举办虚拟演唱会,连接音乐受众;虚拟KTV,社交、音乐、XR融的跨界融合;线上演艺的发展等等等等,在生活当中仍有诸多实时互动创新场景可以挖掘。
实时音视频亟待解决的痛点
在产品与应用之下,实时音视频的底层技术主要涉及音频、视频与网络传输等。想要提供优异的实时音视频互动能力,技术厂商就必须要在这些底层技术上做出改进和创新,站在音视频技术发展的前沿,甚至引领音视频技术的发展。
但对于正处于高速发展的音视频赛道而言,发展过程中也面临诸多困境。
首先是低延迟,如果要实现比较流畅的实时互动,那么单向的端到端的迟延大概要在400毫秒以下才能保证流畅沟通。但事实上多个阶段的数据处理、传输的过程中都会产生延迟,这个数值很难达到。
在实际环境中,还要考虑边缘节点的部署、主干网络拥塞、弱网环境、设备性能、系统性能等问题,所以实际的延时会更大。所以在网络条件限制下,“低延时”以目前的技术很难达到最大化。
另外是回声消除的问题,回声的产生是扬声器播放的声音经过环境反射被麦克风重新采集并传输给对方,这样对方就会一直听到自己的回声,整个互动体验会很差。
设备也会极大的影响回声消除,比如国内某手机厂商,从麦克风采集音频数据到提交中间有将近一百毫秒的延迟,这时回声消除算法如何适应这么长回声延迟的手机就很关键。再比如很多用户在直播中都会用外置声卡,甚至是模拟器,这无形中也会带来回声的延迟。
除了设备,场地同样存在很大的相关性,对于普通会议室,设置 40米的回声延迟可能已经足够了,但一些大会场这种回声延迟能达到将近上百米,这也是一种挑战。
除此之外,音视频赛道目前在流畅性、海量并发等诸多方面仍存在技术痛点,亟待解决。
|