2025年08月28日人工智能前沿资讯

资讯9个月前发布 power

117 0 0

【新进展】
英伟达Q2营收467亿美元创纪录，股价盘后还跌了5%
https://mp.weixin.qq.com/s/2Fti23L-90oMhDO9TirZCQ

小扎高薪挖来的人又跳回OpenAI了，首席科学家赵晟佳也要回去
https://mp.weixin.qq.com/s/3LmXtusMK9ALEIs9QOnSAQ

群核科技发布空间大模型，直指空间智能卡脖子难题「空间一致性」
https://mp.weixin.qq.com/s/tsD_FV7OjyhkBU6kO8AlWQ

Claude for Chrome来了，可作为浏览器扩展程序直接使用
https://mp.weixin.qq.com/s/_2xyfpJU60rx6-FhdXNCQA

时序大模型+Agent掌握工厂生产管控技术，比人类更懂工况
https://mp.weixin.qq.com/s/0yBKd1vb0nuJGwQHReySMw

英伟达将FP4精度推向预训练，更快、更便宜
https://mp.weixin.qq.com/s/Y27cPR4esObEdEQ4qEXphQ

PixVerse V5模型上线，拍我AI全球用户规模突破1亿
https://mp.weixin.qq.com/s/HmT0FiG9IcTfCzzrKK3VSw

【新应用】
OmniHuman-1.5（视频生成-字节跳动）
-能够准确地解读音频、图像和文本的联合语义，从而生成与角色、场景和语言内容高度一致的动作，在口型同步准确度、视频质量、动作自然度以及与文本提示的语义一致性上表现出色
项目主页：https://omnihuman-lab.github.io/v1_5/

VoxHammer（3D编辑-北京航空航天大学、中国人民大学等）
-对特定区域的3D局部编辑，可在3D潜在空间中执行精确且连贯的编辑，在保留区域的3D一致性和整体质量方面均显著优于现有方法
项目主页：https://huanngzh.github.io/VoxHammer-Page/

【新模型】
MiniCPM-V 4.5（视觉语言模型-OpenBMB）
-在视觉语言能力评估基准OpenCompass上表现超越GPT-4o-latest、Gemini-2.0 Pro等模型，在Video-MME、LVBench等平台上实现最先进的高刷新率（高达10FPS）视频理解和长视频理解能力
开源地址：https://huggingface.co/openbmb/MiniCPM-V-4_5

Wan2.2-S2V-14B（音生视频模型-通义万相）
-仅需一张图片和一段音频，即可生成面部表情自然、口型一致、肢体动作丝滑的电影级数字人视频，单次生成时长可达分钟级，且具有稳定性和一致性
开源地址：https://huggingface.co/Wan-AI/Wan2.2-S2V-14B

【新研究】
VibeVoice技术报告（微软）
论文地址：https://arxiv.org/abs/2508.19205