2025年4月28日 人工智能前沿资讯

资讯1天前更新 ai_world
83 0 0

【新进展】
o3猜照片位置深度思考6分48秒全程高能,范围精确到“这么近那么美”
https://mp.weixin.qq.com/s/GykChaQeUjHob_Z1PfunvA

1450亿,马斯克xAI与X合并后再寻资金,将成史上第二大初创企业单轮融资
https://mp.weixin.qq.com/s/BSwl31nWORLqXI0rG3PP1Q

格灵深瞳开源RealSyn数据集,CLIP多任务性能刷新SOTA
https://mp.weixin.qq.com/s/CnuVZMSkYHpFwnfaLZ-3qA

夸克AI超级框,发布全新AI相机
https://mp.weixin.qq.com/s/8X43dJdLhs5a66Ymqx6jJg

阶跃星辰开源图像编辑模型 Step1X-Edit:人人都能用的“改图大师”
https://mp.weixin.qq.com/s/2gGraRc5zpCa5bTms7kVxw

清华系智谱×生数达成战略合作,专注大模型联合创新
https://mp.weixin.qq.com/s/r0ra519SdASJKqYqgltVrw

Meta提出Token-Shuffle,多模态Token压缩框架,高效自回归文生图支持2K分辨率
https://mp.weixin.qq.com/s/idGmfXkEuI6PzNY52gQDnA

【新应用】
BookWorld(社交模拟-复旦大学)
-用于构建和模拟基于书籍的多智能体社会,能够生成富有创意的高质量故事,支持故事生成、互动游戏和社会模拟等多种应用
项目主页:https://bookworld2025.github.io

3DV-TON(虚拟试穿-阿里巴巴达摩院、湖畔实验室等)
-采用生成的可动画的纹理3D网格作为显式帧级引导,可生成高保真度且时间一致的视频试穿结果
项目主页:https://2y7c3.github.io/3DV-TON/

【新模型】
LiveCC-7B-Instruct(视频问答模型-新加坡国立大学Show Lab、字节跳动)
-第一个能够实时评论的视频LLM,采用新颖的视频ASR流方法进行训练,在流媒体和离线基准测试中均达到SOTA
开源地址:https://huggingface.co/chenjoya/LiveCC-7B-Instruct

OpenMath-Nemotron-1.5B(大语言模型-英伟达)
-基于Qwen2.5-Math-1.5B进行微调,在常用的数学基准测试中取得了最佳结果
开源地址:https://huggingface.co/nvidia/OpenMath-Nemotron-1.5B

【新研究】
打破模态障碍:利用多模态LLM进行通用嵌入学习
(悉尼大学、格灵深瞳、阿里巴巴通义实验室、伦敦帝国理工学院)
论文地址:https://arxiv.org/abs/2504.17432

【其他】
数学家们仍在追赶天才拉马努金
https://mp.weixin.qq.com/s/7YlaJkSEt19nJ9soexoWQQ

© 版权声明

相关文章

暂无评论

您必须登录才能参与评论!
立即登录
none
暂无评论...