RTC 将成 AGI 远程实时互动的必备能力

2024/05/30

OpenAI 在春季发布会上发布的最新旗舰大模型 GPT-4o,在前代 GPT-4 只能理解和输出文本信息的基础上,GPT-4o 能支持低延迟的实时对话,“o”是Omni的缩写,也就是“全能”的意思,接受文本、音频和图像的任意组合作为输入,实时处理和输出音频、视觉等多模态信息。

不难看出,Open AI 为实时互动场景做了针对性优化。它可以在短至232毫秒、平均320毫秒的时间内响应音频输入,接近于人类在对话中的反应速度。https://thefastest.ai/ 评测数据显示,用户的等待时间(TTFT:Time To First Token)减少,也就是说用户得到了更快的反馈,更接近于人对话互动的体验。

事实上,人类对于“人与 AGI 远程实时互动”的畅想,是能够像人与人之间的互动一样自然,即多模态、实时。AGI 通过摄像头、麦克风、扬声器感知、反馈真实世界的信息,通过多模态大模型处理信息;正如人类通过眼睛、耳朵等等器官获取信息,通过大脑处理和反馈信息。

比如,在钢铁侠系列电影中,钢铁侠有时需要远程呼叫 J.A.R.V.I.S 辅助处理部分任务。尽管电影中“钢铁侠远程呼叫 J.A.R.V.I.S 的场景”还没那么快到来,但此次GPT-4o 的优化,让人类距离最终畅想的场景又近了一步。

RTC 将成 AGI 远程实时互动的必备能力

作为“大脑”,大模型在云端的算力中心上飞速运转,而作为“感观器官”的摄像头、麦克风等设备,则可能分布在全球每个角落。要实现与 AGI 的远程实时互动,就需要将感观信息实时、高保真地传递给“大脑”,并把处理后的信息反馈回来。

为了实现这一目标,OpenAI 首先优化了模型的能力,GPT-4o 原生支持跨文本、音频和视觉推理,而不需要 ASR、TTS 等组件的前置转换,并在 GPT-4o 的应用中首次接入了 RTC 实时网络。

在效果上,GPT-4 的 Voice Mode 即依赖前者实现,音频的平均响应时间约 5.4s,这种时延几乎不可能满足人类对于实时互动的时延要求。而基于 GPT-4o 的音频互动模式平均响应时间为 320ms,使得远程实时互动成为了可能。

可以说,GPT-4o 将 AGI 带入实时互动新阶段——新一代大模型与 RTC 实时网络融合,使人机远程互动体验更加自然丝滑。

即构 RTC 能无缝融合多模态大模型实现AGI远程实时互动

作为 RTC 领域 TOP 厂商,即构也一直在探索、落地结合 AGI 的远程实时互动。即构 RTC 在实时音视频、高频数据传输能力上的独特优势,能无缝融合新一代多模态大模型技术,为用户带来更自然的实时互动体验。

  1. 极低延迟:大模型自身需要消耗 200+ ms 的时间处理信息,即构 RTC 最低 60ms、平均 200ms 的端到端时延,满足依赖大模型的 AGI 远程实时互动匹配人类对实时的感官要求;
  2. 抗弱网:随时随地的 AGI 远程互动中弱网环境下保持稳定传输是关键,即构 RTC 在音频 80%、视频 70% 丢包下依旧能保证流畅的互动体验;
  3. 高保真传输:更高保真的信息有利于大模型做出更正确的理解和决策,即构 RTC 自研视频编码器、视频画质增强算法、48kHz 全频带音频采样等能力保证用户音视频数据高保真传输;
  4. 弹性部署优化:更靠近大模型的算力中心的传输节点可以进一步压缩传输时延,即构 RTC 500+ 多云动态伸缩节点,可根据算力中心针对性部署,打造更可靠、低延时的互动体验。

RTC + AI 即构探索实时互动新场景落地

基于以上的技术优势,即构在 RTC 行业内率先探索 AGI 远程实时互动方向,并在多个行业场景里实现了落地。

  • AI 模拟面试:即构“就业星”产品,通过 AIGC 技术生成数字人面试官,结合即构 RTC 实时互动优势,模拟真实就业面试场景,能够帮助学生在无压力的环境中提升面试技巧,细分场景包括:高校面试指导、考公面试陪练等等。目前,即构就业星产品已经在浙江工业大学之江学院、深圳大学应用,帮助6万+大学生提升面试能力。
  • 智能客服:在金融、政企等行业,即构实时互动数智人可以通过接入大模型或者对应知识库进行精准回复,服务质量甚至高于真人,并且帮助客户减少人工回复的劳动力成本,7×24小时工作,让沟通更顺畅,显著提升线上咨询/业务办理的效率和体验。

此外,在情感陪伴、游戏主播等泛娱乐社交场景,以及在线教育、远程医疗等行业场景,RTC + AI 的实时互动也正在展现更多新效益。

GPT-4o 革新了人与大模型远程互动的方式和体验,同时也对 RTC 提出了更进一步的低时延、高保真的数据传输要求。未来,即构将持续深耕实时互动行业,探索 RTC + AI 的新场景和新效益,为用户带来更高质量的实时互动体验。

即构RTC+AI相关产品欢迎扫码咨询👇

最新文章
实时通信中的“吞吐量与延迟”的区别及优化策略
2024/12/03
直播最佳视频文件格式指南(视频直播采用的文件格式)
2024/12/02
WebRTC 与 WebSocket:实时通信的理想协议
2024/11/27
什么是SGAI(服务器引导广告插入)?SGAI、SSAI 与 CSAI 有什么区别
2024/11/26
什么是视频通信?视频通信的类型、历史及未来展望
2024/11/25
扫一扫,获取更多服务与支持
关注我们
获得更多服务与支持了解价格与优惠 扫码关注我们
关注我们
获得更多服务与支持了解价格与优惠 扫码关注我们