2025年4月24日人工智能前沿资讯

🚀

【新进展】
扣子空间一手实测，“字节版Manus”表现惊艳
https://mp.weixin.qq.com/s/h8aCHkE0BZ3q07AWSyr6mg

中杯o3成OpenAI“性价比之王”，ARC-AGI测试结果出炉：得分翻倍、成本仅1/20
https://mp.weixin.qq.com/s/jbeuyGcuyw-ie-Y_VEipHA

两本科生自学3个月复刻谷歌NotebookLM，开源AI语音新标杆一天揽获5000星标
https://mp.weixin.qq.com/s/Q2LzPKimG0F_J5_6uciVGA

华人横扫ICLR 2025杰出论文奖，三篇均为华人一作
https://mp.weixin.qq.com/s/9s-DDivhVIOwc_a0NIR8yw

OpenAI发布GPT-image-1模型，更强吉卜力版本来了
https://mp.weixin.qq.com/s/m64PRJMgrZVfhGlDMuawfQ

腾讯混元3D模型升级至v2.5版本：建模更精、贴图更真
https://mp.weixin.qq.com/s/v6BJ2ZyvInnj_zopaC2z5Q

业内首次全面复现DeepSeek-R1-Zero数学代码能力，训练步数仅需其1/10
https://mp.weixin.qq.com/s/q7TkEe76WH6mBDDfiRdFUg

【新应用】
Describe Anything（视频字幕生成-英伟达、加州大学伯克利分校等）
-为图像和视频中的特定区域生成详细而准确的描述，同时保留局部细节和全局上下文
项目主页：https://describe-anything.github.io

Uni3C（视频生成-阿里巴巴达摩院、复旦大学等）
-统一的3D增强框架，用于在视频生成中控制摄像机和人体运动，在相机可控性和人体运动质量方面表现优越
项目主页：https://ewrfcas.github.io/Uni3C/

【新模型】
Eagle 2.5（视觉语言模型-英伟达）
-着眼于长视频理解和高分辨率图像理解，在部分长上下文多模态基准测试中可与GPT-4o等顶级商业模型媲美
开源地址：https://github.com/NVlabs/EAGLE

ChatTS-14B（大语言模型-字节跳动）
-通过合成数据将时间序列与LLM对齐，以增强理解和推理，类似于视觉/视频/音频MLLM的功能
开源地址：https://huggingface.co/bytedance-research/ChatTS-14B

【新研究】
学习在非策略指导下进行推理
（上海AI Lab、西湖大学、南京大学、香港中文大学）
论文地址：https://arxiv.org/abs/2504.14945

【其他资讯】
具身智能公司Physical Intelligence推出π0.5，AI搞定所有家务
https://mp.weixin.qq.com/s/T3sufjvlfjW5oFtWhCf9-g

文章版权归作者所有，未经允许请勿转载。

7个月前

0340

9个月前

0530

6个月前

02000

8个月前

01580

暂无评论

您必须登录才能参与评论！

立即登录

暂无评论...