🚀
【新进展】
扣子空间一手实测,“字节版Manus”表现惊艳
https://mp.weixin.qq.com/s/h8aCHkE0BZ3q07AWSyr6mg
中杯o3成OpenAI“性价比之王”,ARC-AGI测试结果出炉:得分翻倍、成本仅1/20
https://mp.weixin.qq.com/s/jbeuyGcuyw-ie-Y_VEipHA
两本科生自学3个月复刻谷歌NotebookLM,开源AI语音新标杆一天揽获5000星标
https://mp.weixin.qq.com/s/Q2LzPKimG0F_J5_6uciVGA
华人横扫ICLR 2025杰出论文奖,三篇均为华人一作
https://mp.weixin.qq.com/s/9s-DDivhVIOwc_a0NIR8yw
OpenAI发布GPT-image-1模型,更强吉卜力版本来了
https://mp.weixin.qq.com/s/m64PRJMgrZVfhGlDMuawfQ
腾讯混元3D模型升级至v2.5版本:建模更精、贴图更真
https://mp.weixin.qq.com/s/v6BJ2ZyvInnj_zopaC2z5Q
业内首次全面复现DeepSeek-R1-Zero数学代码能力,训练步数仅需其1/10
https://mp.weixin.qq.com/s/q7TkEe76WH6mBDDfiRdFUg
【新应用】
Describe Anything(视频字幕生成-英伟达、加州大学伯克利分校等)
-为图像和视频中的特定区域生成详细而准确的描述,同时保留局部细节和全局上下文
项目主页:https://describe-anything.github.io
Uni3C(视频生成-阿里巴巴达摩院、复旦大学等)
-统一的3D增强框架,用于在视频生成中控制摄像机和人体运动,在相机可控性和人体运动质量方面表现优越
项目主页:https://ewrfcas.github.io/Uni3C/
【新模型】
Eagle 2.5(视觉语言模型-英伟达)
-着眼于长视频理解和高分辨率图像理解,在部分长上下文多模态基准测试中可与GPT-4o等顶级商业模型媲美
开源地址:https://github.com/NVlabs/EAGLE
ChatTS-14B(大语言模型-字节跳动)
-通过合成数据将时间序列与LLM对齐,以增强理解和推理,类似于视觉/视频/音频MLLM的功能
开源地址:https://huggingface.co/bytedance-research/ChatTS-14B
【新研究】
学习在非策略指导下进行推理
(上海AI Lab、西湖大学、南京大学、香港中文大学)
论文地址:https://arxiv.org/abs/2504.14945
【其他资讯】
具身智能公司Physical Intelligence推出π0.5,AI搞定所有家务
https://mp.weixin.qq.com/s/T3sufjvlfjW5oFtWhCf9-g