2025年4月28日人工智能前沿资讯

资讯1年前更新 ai_world

225 0 0

【新进展】
o3猜照片位置深度思考6分48秒全程高能，范围精确到“这么近那么美”
https://mp.weixin.qq.com/s/GykChaQeUjHob_Z1PfunvA

1450亿，马斯克xAI与X合并后再寻资金，将成史上第二大初创企业单轮融资
https://mp.weixin.qq.com/s/BSwl31nWORLqXI0rG3PP1Q

格灵深瞳开源RealSyn数据集，CLIP多任务性能刷新SOTA
https://mp.weixin.qq.com/s/CnuVZMSkYHpFwnfaLZ-3qA

夸克AI超级框，发布全新AI相机
https://mp.weixin.qq.com/s/8X43dJdLhs5a66Ymqx6jJg

阶跃星辰开源图像编辑模型 Step1X-Edit：人人都能用的“改图大师”
https://mp.weixin.qq.com/s/2gGraRc5zpCa5bTms7kVxw

清华系智谱×生数达成战略合作，专注大模型联合创新
https://mp.weixin.qq.com/s/r0ra519SdASJKqYqgltVrw

Meta提出Token-Shuffle，多模态Token压缩框架，高效自回归文生图支持2K分辨率
https://mp.weixin.qq.com/s/idGmfXkEuI6PzNY52gQDnA

【新应用】
BookWorld（社交模拟-复旦大学）
-用于构建和模拟基于书籍的多智能体社会，能够生成富有创意的高质量故事，支持故事生成、互动游戏和社会模拟等多种应用
项目主页：https://bookworld2025.github.io

3DV-TON（虚拟试穿-阿里巴巴达摩院、湖畔实验室等）
-采用生成的可动画的纹理3D网格作为显式帧级引导，可生成高保真度且时间一致的视频试穿结果
项目主页：https://2y7c3.github.io/3DV-TON/

【新模型】
LiveCC-7B-Instruct（视频问答模型-新加坡国立大学Show Lab、字节跳动）
-第一个能够实时评论的视频LLM，采用新颖的视频ASR流方法进行训练，在流媒体和离线基准测试中均达到SOTA
开源地址：https://huggingface.co/chenjoya/LiveCC-7B-Instruct

OpenMath-Nemotron-1.5B（大语言模型-英伟达）
-基于Qwen2.5-Math-1.5B进行微调，在常用的数学基准测试中取得了最佳结果
开源地址：https://huggingface.co/nvidia/OpenMath-Nemotron-1.5B

【新研究】
打破模态障碍：利用多模态LLM进行通用嵌入学习
（悉尼大学、格灵深瞳、阿里巴巴通义实验室、伦敦帝国理工学院）
论文地址：https://arxiv.org/abs/2504.17432

【其他】
数学家们仍在追赶天才拉马努金
https://mp.weixin.qq.com/s/7YlaJkSEt19nJ9soexoWQQ