2025年3月28日人工智能前沿资讯

🔍

【新进展】
Manus欲以37亿估值硅谷寻融资
https://mp.weixin.qq.com/s/4VCfE9QKxJhe4bbw7gYzEQ

7B模型搞定AI视频通话，阿里最新开源炸场，看听说写全模态打通，开发者企业免费商用
https://mp.weixin.qq.com/s/VkJP89bpgZaxaKz-1wav9A

蚂蚁国产GPU训练大模型细节曝光，Ling模型研发负责人回应：关于我们抠FLOPS的一些点滴
https://mp.weixin.qq.com/s/pX7o-vSIPhLV1BnZ3UFikQ

豆包新版深度思考上线
https://mp.weixin.qq.com/s/FBxz1HAs5WG3VwJqr61pEA

GPT-4o再度更新，评测超GPT4.5
https://mp.weixin.qq.com/s/tDnFuDD-JLmPWZPg7xrhVQ

vivo官宣进军家庭机器人
https://mp.weixin.qq.com/s/HiMiSwHsi0blZ3dObU5Dag

【新应用】
BizGen（图像生成-清华大学、布朗大学等）
-基于用户提供的文章级描述性提示和超密集布局生成高质量的业务内容，包括信息图表和幻灯片
项目主页：https://bizgen-msra.github.io

AccVideo（视频生成-北京航空航天大学、上海AI Lab等）
-与之前的加速方法相比，在保持同等性能的情况下生成速度提高了8.5倍，能生成更高质量和更高分辨率的视频（5秒、720×1280、24fp）
项目主页：https://aejion.github.io/accvideo/

【新模型】
Qwen2.5-Omni（多模态模型-阿里通义千问）
-端到端多模态模型，可感知文本、图像、音频和视频多种模态，同时以流式方式生成文本和自然语音响应，支持实时语音和视频聊天
开源地址：https://huggingface.co/Qwen/Qwen2.5-Omni-7B

Gemma3-R1984-27B（视觉语言模型-VIDraft）
-基于Gemma-3-27B模型构建的Agentic AI平台，将网络搜索深度研究与多模态文件处理（图像、视频和文档）相结合，可处理8k长上下文

【新研究】
Dita：用于通用视觉-语言-行动策略的缩放扩散变换器
（上海AI Lab、浙江大学、香港中文大学、北京大学、商汤、清华大学等）
论文地址：https://arxiv.org/abs/2503.19757

【其他资讯】
2025苹果AI学者名单公布，12位年轻华人入选
https://mp.weixin.qq.com/s/rNeJlwU2AXj9Kj5-DfzVeg

文章版权归作者所有，未经允许请勿转载。

1年前

02930

7个月前

0320

1年前

08570

6个月前

01730

暂无评论

您必须登录才能参与评论！

立即登录

暂无评论...