【新进展】
英伟达Q2营收467亿美元创纪录,股价盘后还跌了5%
https://mp.weixin.qq.com/s/2Fti23L-90oMhDO9TirZCQ
小扎高薪挖来的人又跳回OpenAI了,首席科学家赵晟佳也要回去
https://mp.weixin.qq.com/s/3LmXtusMK9ALEIs9QOnSAQ
群核科技发布空间大模型,直指空间智能卡脖子难题「空间一致性」
https://mp.weixin.qq.com/s/tsD_FV7OjyhkBU6kO8AlWQ
Claude for Chrome来了,可作为浏览器扩展程序直接使用
https://mp.weixin.qq.com/s/_2xyfpJU60rx6-FhdXNCQA
时序大模型+Agent掌握工厂生产管控技术,比人类更懂工况
https://mp.weixin.qq.com/s/0yBKd1vb0nuJGwQHReySMw
英伟达将FP4精度推向预训练,更快、更便宜
https://mp.weixin.qq.com/s/Y27cPR4esObEdEQ4qEXphQ
PixVerse V5模型上线,拍我AI全球用户规模突破1亿
https://mp.weixin.qq.com/s/HmT0FiG9IcTfCzzrKK3VSw
【新应用】
OmniHuman-1.5(视频生成-字节跳动)
-能够准确地解读音频、图像和文本的联合语义,从而生成与角色、场景和语言内容高度一致的动作,在口型同步准确度、视频质量、动作自然度以及与文本提示的语义一致性上表现出色
项目主页:https://omnihuman-lab.github.io/v1_5/
VoxHammer(3D编辑-北京航空航天大学、中国人民大学等)
-对特定区域的3D局部编辑,可在3D潜在空间中执行精确且连贯的编辑,在保留区域的3D一致性和整体质量方面均显著优于现有方法
项目主页:https://huanngzh.github.io/VoxHammer-Page/
【新模型】
MiniCPM-V 4.5(视觉语言模型-OpenBMB)
-在视觉语言能力评估基准OpenCompass上表现超越GPT-4o-latest、Gemini-2.0 Pro等模型,在Video-MME、LVBench等平台上实现最先进的高刷新率(高达10FPS)视频理解和长视频理解能力
开源地址:https://huggingface.co/openbmb/MiniCPM-V-4_5
Wan2.2-S2V-14B(音生视频模型-通义万相)
-仅需一张图片和一段音频,即可生成面部表情自然、口型一致、肢体动作丝滑的电影级数字人视频,单次生成时长可达分钟级,且具有稳定性和一致性
开源地址:https://huggingface.co/Wan-AI/Wan2.2-S2V-14B
【新研究】
VibeVoice技术报告(微软)
论文地址:https://arxiv.org/abs/2508.19205