字节发首款混合现实设备;智元机器人要做开源平台…|本周模型与应用
来源:撲克王二维码下载 发布时间:2024-11-21 18:30:008月20日,字节跳动旗下虚拟现实硬件公司PICO举行新品发布会,推出首款消费级混合现实(MR)头显PICO 4 Ultra、动作捕捉配件PICO体感追踪器以及企业级产品PICO 4 Ultra Enterprise。
PICO 4 Ultra是PICO这次的主力新产品,售价4299元。PICO 4 Ultra搭载了高通骁龙XR2 Gen 2计算平台,芯片的GPU性能提升了2.5倍,可以支撑更好的游戏画质。新头显的混合现实视觉方案由机身上的7枚视觉传感器组成,机体四周的4颗环境追踪摄像头用于 SLAM 空间定位,还有双目3200万像的彩色摄像头和1颗iToF深度感知摄像头用于环境感知。此外,PICO自研了环境感知算法,能轻松实现实时创建3D地图、环境语义理解(识别家居环境中的家具)、空间描点(把虚拟物体定位在真实场景的物体上)等功能。
PICO 4 Ultra还引入了全景屏工作台,用户都能够在现实空间中同时打开和排布多个虚拟大屏,同时打开多个PICO OS兼容的安卓与Web应用。此外,用户都能够观看空间视频,也可以在系统导航栏切换沉浸和透视模式。PICO 4 Ultra兼容iPhone或者Vision Pro拍摄的空间视频与照片。但是,相比PICO 4 Pro,新头显PICO 4 Ultra取消了眼动和面部追踪功能,根本原因是这些功能使用频率较低。
这是PICO 4系列的最新款产品,也是最贵的一款产品。同系列的早期型号PICO 4推出于2022年9月,售价2499元起,2023年4月推出的PICO 4 Pro定价3799元起。
PICO业务于2023年收缩。去年2月,PICO将2023年全年销量目标定为50万台左右,相比2022年制定的销售量目标缩水约50%。其中,中国消费者产品销量目标35万台,企业端市场15万台。根据IDC公布的数据,2023年中国VR头显出货量46.3万台,PICO的市场占有率约56.6%,折合约26万台。
但是字节跳动没放弃PICO在新方向上的探索。张一鸣曾经询问PICO创始人周宏伟,是否能在两年内开发出类似苹果Vision Pro的产品,周宏伟当时答应了。同时期,PICO的业务重心「从追求市场规模转向专注研发,以实现更有意义的技术突破」。
8月18日,人形机器人独角兽「智元机器人」举办2024年度新品发布会,发布了「远征」与「灵犀」两大家族、共5款人形机器人,分别为远征A2、远征A2-W、远征A2-Max、灵犀X1与灵犀X1-W。其中:
·远征A2-W为柔性智造机器人,在发布会开头的情景剧中完成了制作「萄气可乐」所需的理解人类意图、辨别不同物品与精准抓取等动作流程;
·远征A2-Max为重载特种机器人,在情景剧中搬起了40kg重的航空箱;
·灵犀X1与灵犀X1-W分别为全栈开源机器人与专业数采机器人,这两款模块化机器人产品由不到10人的团队在两个多月的时间内开发完成。
智元机器人将机器人系统分为动力域、感知域、通信域、控制域等四大领域,相较于一年前发布的远征A1,新发布的远征A2在这4个方面均取得了技术突破。
·动力层面,智元对去年发布的PowerFlow关节模组的可靠性与稳定性进行了大量优化与测试,今年该关节模组将实现商用量产;灵巧手的自由度数从11个跃升至19个,主动自由度翻倍至12个,并搭载基于MEMS原理的触觉感知和视触觉感知技术,可使用电动螺丝刀、拆快递、纽扣穿针,完成功能性抓取、双手协同作业、基于视触觉的目标识别等任务。
·感知层面,引入自动驾驶领域的Occupancy等感知方案,通过SLAM算法提升环境理解能力,使得机器人能够在办公区、4S店等较为嘈杂的公共环境中实现精准避障。
·通信层面,智元自研了具身原生、轻量化、高性能的智能机器人通信框架AimRT,并宣布将在9月底开源。AimRT在提升性能、稳定性、系统部署的效率和灵活性的同时,能够兼容ROS/ROS2已有生态。
·控制层面,智元机器人结合Model-based与Learning-based两种算法路线,并预研基于自然语言指令集驱动的AgentOS,实现对机器人运动控制的精准编排。
而灵犀X1由今年6月刚刚成立的智元X-Lab研发,融入了模块化设计理念,能够最终靠简单抱箍形式轻松拆装。智元将开源该机器人的大部分设计资料和代码,通过降低人形机器人软硬件开发门槛,实现「人形机器人人人造」。也因为开源,灵犀X1的售价为0元,仅出售核心零部件。
智元将具身智能技术演进路线阶段数据驱动端到端的目标,在面向数据的大量基建工作中,智元提出了一套名为「具身智能数据系统AIDEA(Agibot Integrated Data-system for Embodied AI)」的具身数据方案,通过提供数采本体、遥操设备、数据平台三个方面解决具身数据采集问题。
此次发布会上,智元联合发起人彭志辉宣布,将在今年第四季度开源业界首个百万条真机、千万条仿真数据的具身数据集,以支持具身产业的发展创新。
8月22日,Appfigures发布的最新多个方面数据显示,历时16周,Anthropic的AI应用Claude在移动端的总收入超过100万美元。发布第一周,Claude的全球下载量仅15.7万,而其主要竞争对手ChatGPT仅在美国App Store上线万次下载。Claude达到百万美元收入的速度也远落后于ChatGPT的3周,但领先于Perplexity和微软的Copilot,后者分别耗时22周和19周。
Anthropic成立于2021年,早期小组成员全部来自OpenAI,它于今年3月4日发布的Claude 3系列模型的Opus版本,被部分数据集评分认为能力超过GPT-4,Anthropic也被称为最大有可能与OpenAI竞争的公司。
8月22日,微软宣布,在所有 Copilot+ PC中上线月面向Windows Insider Program社区用户开放测试AI搜索功能「Recall」,届时还将发布一篇包含更多详情信息的博客文章。今年5月,微软发布了AI PC功能Recall,可以实时截取用户屏幕,以便用户询问之前看过的信息。但Recall会每隔几秒钟自动截取一次包含活动窗口的屏幕,默认记录用户在Windows上的所有操作,被认为对用户隐私造成威胁。微软于6月回应称Recall将设置为「默认关闭」,并承诺将增强这一功能的安全性。
ElevenLabs旗下文本转语音应用Reader全球上线日,ElevenLabs旗下文本转语音产品Reader全球上线月在美国、英国、加拿大发布,支持用户上传PDF文档、电子书等文本转语音进行收听,目前支持日语、韩语、西班牙语、葡萄牙语等32门语言。此外,ElevenLabs表示,其语音库中已经添加了数百种新声音,公司也为Reader拿到了部分艺人的声音的授权,未来还将增添离线支持与共享音频片段等功能。Reader是ElevenLabs的第一款C端产品,此前,ElevenLabs为AI搜索引擎Perplexity与音频平台PocketFM和KukuFM提供文本转语音服务。