AI正在撬动用户对AR眼镜的需求

AR眼镜被行业认为是取代手机的下一代移动终端。随着AI风口到来,AI+AR成为智能眼镜绕不开的议题。哪些功能是用户的实际需求,哪一些则是伪命题?本文希望探讨AI如何给予AR眼镜超越传统手机的“魔法”。

 

Meta眼镜看消费者关注什么

全球知名科技大厂十年前就开始思考智能手机后的下一代个人移动终端是什么,AR眼镜被主流认为最有可能取代手机。如今随着AI风口到来,社会更关注的议题已经变成“未来眼镜形态的智能终端能否成为AI的绝佳载体?”。meta和雷朋二代AI眼镜在销量上的大成功,使得AI+AR成大厂重点跟踪和预研的方向。

 

Meta与雷朋联名的初代智能眼镜“Ray-Ban Stories”早在2021年就发布,直到 2023 年 2 月,该设备月活只有 2.7 万,不到售出总量的 10%。但去年 9 月发布的第二代联名产品 Ray-Ban Meta 却迎来大爆,光是 23 年 Q4 的出货量就超过 30 万副,几乎赶上了第一代的全周期销量。

我们关注第二代相比第一代做对了哪些事。首先它在作为一副时尚眼镜容易佩戴出街,改进了原先尚算鸡肋的拍摄功能。

另一项重要的差异点在于meta AI的加入。Meta AI由Llama 2大模型驱动,并与微软Bing搜索引擎合作。

集成在Ray-Ban Meta上的AI还无法承担复杂工作,现阶段的作用主要体现在可以通过语音命令拍摄,通过语音将图片视频分享到支持的社交平台,同时结合眼镜本身的摄像头,基于眼前的事物来询问 AI,AI语音助手可以与用户交流并给出简单的建议反馈等。

当前眼镜内的AI虽然还不是很精准但是新奇有趣的体验对消费者来说拥有可观的性价比。其与普通时尚眼镜价格持平的情况下拥有了可观的性价比。

简而言之,智能眼镜首先是一台眼镜,再去考虑它的智慧功能。

 

事实上,无论是融合了AI的智能手机,还是融合了AI的AR眼镜,如果产品只注重AI的噱头,不注重AI方面的实用性,那么产品或仍不为消费者认可。当前雷鸟、XREAL等先驱AR品牌已经在AR+AI领域进行如下尝试:

从市面上的AR+AI眼镜产品的功能来看,现阶段二者结合的尝试中几乎都包含AI语音助手。这一方面是语音AI相关技术对成熟,另一方面也能看出AR眼镜商业化道路上亟待解决的一个问题便是没有实体屏幕时如何操控界面,语音指令是兼顾性价比和智慧效果的最佳选择。手势识别交互功能更多得出现也与此相关。

当移动个人终端从手机变为眼镜,用手操纵物理屏幕不再可行。

vision pro建构了当下理想状态下用户不借助指环等额外控制器与设备的交互,”你只需要眼睛,手和声音“。而AI正能帮助AR眼镜提升这几个交互方式。

 

裸手识别+眼动追踪

在空间环境中,用户在远距离情形下通过非直接接触的手势来对当前获得焦点的对象产生互动。

获取焦点的方式有很多种,常见的是通过眼睛注视、手部射线来锁定空间中的某一个对象或组件来获取焦点。用户聚焦到某个对象或控件后,可以用一个或多个手指动作快速操作对象。

AVP也给市场指出了手眼协作成为XR交互的核心模式的未来。

如何精准操控成为难点,而AI神经网络有助于进行更精确手势识别。

当前裸手识别产品存在部分bug,比如摄像头捕捉到旁人的手势时进行交互反馈,比如用户的手在现实生活中处理社会任务时存在错误识别(吃薯片时捏着薯片的手会被识别出捏合手势)

微软指出,模型可以利用对接收的数据帧序列的分析来生成手势交互的可能性,然后可将其用作手势交互识别机器的输入,以允许系统更准确地识别具有更宽松约束的更广泛手势。

如果用户与AR UI进行手势交互的可能性很高,则对用户意图的准确预测允许放松手势要求,如果用户与AR UI进行交互的可能性较低,则可以应用更严格的手势要求。这种方法可以产生更准确的手势识别并减少误报。

另外,如果表明用户不打算操作UI,则可以使用神经网络的输出来完全禁用手势输入。可以推断一个用手执行现实世界任务的用户,例如吃饭、洗手、打字,然后禁用UI以防止误报输入。这种方法可以实现预测,例如提前预测用户可能会做什么,并相应地设置手势交互识别参数。

眼动追踪测量眼球运动、眼球位置和注视点,以识别和监控个人对位置、物体和持续时间的视觉注意力。

AI对眼动追踪的加持除了提升交互识别反馈的精准度,也可以辅助理解分析人的情绪、生理心理健康状态和行为模式,为更广阔的应用场景打下基础。

以上的功能设想需要更强的算力和更多的传感器,但碍于消费级AR眼镜对重量外观轻型化的要求高,还没有那么快把手势识别和眼动追踪功能卷到这个程度。

 

AI语音

语音交互指令对于解放双手有革命性意义。AI语音已经在AI智能音响、手机语音助手、车载精灵等日常生活中给予帮助。但就像我们前文所说,当前大规模使用的AI语音还是比较”笨”,更多处理程式化的问题。

AR眼镜的未来需要处理更多更复杂的问题。meta在2022年发布的文章称,ARVR需要构建自然对话语音助手。如今的人工智能助手总是机器味道十足,当你发出“在今天剩下的时间里静音所有通知,除非是我妈妈”等常见的请求时,它们往往无法予以正确的回应,更不用说像“我能为私人聚会租用当地社区中心吗?”或者像“为7月4日的周末规划一个价格合理的家庭海滩度假”等复杂任务。

source:META

上述示例对话框展示了Meta希望助手具备的关键技能:不仅提供准确的、最新的真实世界知识,而且可以跨多模式工作(在本例中是跨视觉和语音),跨领域工作(发送消息并估计到达时间),让你推动对话,不需要遵循僵化的对话模板。

国内厂家也有已经开始对外公布的项目,雷鸟自研大模型语音助手Rayneo AI在传统语音助手功能的基础上,进一步加入了多轮自然语言对话、行程规划、便捷百科问答、头脑风暴等多项能力。未来还将加入视觉理解能力。

除交互操作之外,还有一些实际的解决问题相关的应用,他们部分有些也存在手机应用中,但在AR眼镜上会得到颠覆性的体验:

 

文本识别与翻译

文本识别和翻译将 AI 光学字符识别 (OCR) 技术与 DeepL 等文本到文本翻译引擎相结合。视觉跟踪器会跟踪单词并允许翻译覆盖 AR 环境。Google翻译等手机app可以提供此功能。

手机上的文本识别翻译需要用户“刻意”地将手机举到合适的位置对焦选定,但若实践在AR眼镜上,这个流程将会无感沉浸得多。

 

面对面实时翻译

通过利用AR技术在镜片上投射出文字,让使用者戴着它与人面对面交流时,即便听不懂对方所说的语言,也能通过翻译出来的文字,理解对方所说的话。

手机中也有一些语音实时翻译并转文字的软件,但用户的视角需要时刻在屏幕与对话人之间切换,显得手忙脚乱。

上图是Google的示例,AR字幕甚至跟跟随说话者的位置。

这个应用还有一部分潜在消费人群。AR眼镜能将声音视觉化,因此其对听障人士非常友好,眼前看到的文字就是听到的话。

许多大公司都在尝试开发语言翻译和转录AI模型,包括亚马逊、微软和 OpenAI。

Meta 去年发布了名为SeamlessM4T的 AI 模型,可以转录和翻译近 100 种语言的文本和语音。SeamlessM4T 是 Meta 的 No Language Left Behind 的继承者,后者是一种支持 200 种语言的文本到文本机器翻译模型。它还以 Massively Multilingual Speech 为基础,这是 Meta 的框架,提供语音识别、语音合成技术和语言识别,支持 1,100 多种语言。Meta 还声称,在内部基准测试中,与目前最先进的转录模型相比,SeamlessM4T 在语音转文本任务中应对“说话人变化”和背景噪音方面表现得更好。

谷歌还在创建一个通用语音模型,旨在建立一个可以处理世界上 1000 种最常用语言的模型,工程量更大。此外,Mozilla 牵头开展了名为 Common Voice 的项目,这是最大的多语言语音集合之一,可用于训练自动语音识别算法。

 

自动语音识别

自动语音识别 (ASR)使用神经网络视听语音识别(一种依靠图像处理来提取文本的算法)。特定单词会触发库中标记为符合单词描述的图像,并将图像投影到 AR 空间中。

AR 眼镜中的生成式 AI 将有助于更快地构建 3D 模型,从而释放 AR 的全部潜力。这种覆盖物理世界的数字世界的创建将更快、更完整、更身临其境,而不需要密集的体力劳动。

生成式人工智能还将改变用户体验以及我们与物理空间的交互方式。借助支持生成式人工智能的 AR 眼镜,佩戴者可以将他们的想象力真正转移到现实世界中。无需编码,佩戴者就可以使用语音识别功能,通过 AR 眼镜按照自己的意愿“说出”图像和 3D 对象。他们可以说:“想象有一只海豚在房间里游过”——它就会出现在他们面前。这种沉浸式体验对于娱乐、工作及其他方面来说几乎是无限的。

 

全景导航

人们已然完全习惯手机导航,部分导航app也尝试推出过结合手机摄像头读取环境信息的全景导航。导航指示图标如果能精准贴合实景地面,再不会看导航的人也能看懂。

无论是手机的全景导航还是车载ar HUD,都不算真正的全景AR导航,他们充其量是FOV很受限的AR导航。

AR眼镜的全景导航成熟后,能够做到彻底解放双手,不限制人眼的位置角度,从而提供比手机AR更加沉浸的体验

 

物体标记

对象标记利用机器学习分类模型。当相机帧通过模型时,它会将图像与用户分类库中的预定义标签进行匹配,然后标签会覆盖 AR 环境中的物理对象。

该方面相关的应用在2B端已经用平板显示中铺开,车企应用AR技术援助 ( MARTA ) 标记车辆零件,并提供有关现有问题的信息以及如何修复这些问题的说明。

从平板到眼镜载体的变化,对于维修人员来说正好可以利于解放双手去进行更多操作,因此工业级AR在早先常被认为会先于消费级得到量产普及。

 

物体检测与识别

物体检测和识别利用卷积神经网络 (CNN) 算法来估计场景中物体的位置和范围。检测到物体后,AR 软件可以渲染数字物体以覆盖物理物体并调解两者之间的交互。

在手机这种平板显示端,宜家Place ARKit 应用程序扫描周围环境,测量垂直和水平平面,估计深度,然后推荐适合特定空间的产品。

如果结合眼动追踪技术,让AR眼镜能够以用户的视角感知世界,那么 AR 眼镜能够为用户提供的个性化服务将更加广阔。

比如AR眼镜识图购物。你的目光注视在某个特定物品上,眼动追踪识别出你对这个物品感兴趣产生购买欲,那么就能进行图像信息的 AI 搜索,下单购买,虹膜身份识别确认支付。

比如,用户可以行走在任何城市的街道上,并在观看时实时了解任何地标。AR 眼镜可以通过佩戴者的镜框识别、标记和提供有关城市及其地标的信息。AR眼镜也可以图像识别出眼前的餐厅,提供餐厅评价,推荐菜品等信息给用户。

在更久的未来,随着物体识别技术的进步,AR眼镜甚至可以用于分析更多在当下看来还比较科幻的事情。

苹果就曾获得用于食品检测的红外传感技术。该系统可以使用红外传感器来收集目标物体的光谱,通过单独或者组合使用红外光谱、可见光相机图像、或来自其他传感器的数据来分析物体信息。

该技术专利的潜在用途就是在AR设备中,例如,用户可以使用具有该系统的AR设备进行食品的图像识别,通过AR识别,可分析食物的信息,包括某些食物的新鲜度、脂肪含量、食物类型、甜度等,从而可以评估食品的成熟度和卡路里含量等等。

当然,该技术的应用范围也不会仅限于食物,一般来说,任何类型的物体,包括植物、动物、食物、油漆、房屋建筑、汽车、电子设备、家具等,都可以使用光学传感器进行分析。此外,该系统还可用来监测用户的某些身体指标,比如呼吸状况等。

除了纯粹的物体检测之外,面部识别软件也变得司空见惯。人 检测。随着越来越多的航班使用该技术来确认乘客的身份,面部识别技术已经在航空业兴起——增加了额外的安全层并加快了登机过程。当面部识别应用在 AR 眼镜中时,可以为世界各地的佩戴者提供识别能力。例如,在不久的将来,借助 AR 眼镜,您也许能够在社交媒体上与其他人见面并立即接收他们的背景信息,然后再决定是否要与他们“交友”或联系。

 

总结

AI在视觉、音频方面的技术积累,再加上AR眼镜通过摄像头和麦克风自然感知人们所听、所见的一切的能力,因此拥有了AI能力的AR眼镜将会成为人的“外脑”,增强人们对视觉信息、音频信息的处理能力。

AR 与 AI 之间的协同作用在于 AI 能够处理数据、做出预测并实时适应,从而大大增强 AR 体验。总的来说, AI 与 AR结合的主要作用在以下四个方向:

 

○ 物体识别AI 可以识别和追踪现实世界中的物体,使 AR 应用能够与物理对象无缝交互。

○ 用户追踪AI算法可以追踪用户的动作和手势,从而实现与AR内容更直观、更身临其境的互动。

○ 个性化AI 分析用户数据,根据个人偏好和行为提供定制的 AR 体验。

○ 实时信息AI 可以使用实时数据(例如天气信息、实时比分或上下文推荐)持续更新 AR 覆盖。

 

理论上来说,以上四中AI+AR的应用方向随意排列组合可以满足尽可能多的应用。

过去,AR眼镜受限于软硬件技术发展不足,主要应用于大屏投屏,简单的信息提醒。对普通消费者来说这相当于一块架在鼻梁上的拓展屏,并没有展现出更实用的应用,这个阶段是AR生态的1.0阶段。而“AR+AI”2.0阶段的目标是更贴近生活以至于直接取代手机作为日常使用的移动终端。

 

 

关注我们的公众号
浙ICP备2023012658号-1