2025年4月07日人工智能前沿资讯

✨
【新进展】
LIama 4发布重夺开源第一，DeepSeek同等代码能力但参数减一半，一张H100就能跑，还有两万亿参数超大杯
https://mp.weixin.qq.com/s/-HIy0HLBAobSdNLpsuXZwg

DeepSeek前脚发新论文，奥特曼立马跟上：GPT-5就在几个月后
https://mp.weixin.qq.com/s/NpiwXTQF1T2ZFbHM-vrc4w

谷歌部署Gemini+MCP
https://mp.weixin.qq.com/s/B8Yb7zMOxvqMlDII_uc2Ig

Midjourney重磅更新，又一个「言出法随」的AI生图神器
https://mp.weixin.qq.com/s/XpMjklOD551X1a6V8AW9XA

【新应用】
JavisDiT（音频视频生成-浙江大学、新加坡国立大学等）
-能够根据开放式用户提示同时生成高质量的音频和视频内容，同时确保最佳同步
项目主页：https://javisdit.github.io

ACTalker（视频生成-香港科技大学、腾讯、清华大学）
-端到端视频扩散框架，支持多信号控制和单信号控制来生成自然的说话头部视频
项目主页：https://harlanhong.github.io/publications/actalker/index.html

【新模型】
Llama-4-Scout-17B-16E-Instruct（视觉语言模型-Meta）
-自回归语言模型，使用混合专家 (MoE) 架构并结合早期融合以实现原生多模态，拥有16位专家，170亿参数，在文本和图像理解方面的性能业界领先
开源地址：https://huggingface.co/meta-llama/Llama-4-Scout-17B-16E-Instruct

RolmOCR（视觉语言模型-Reducto）
-基于Qwen2-VL-7B在olmOCR-mix-0225数据集上微调，相比olmOCR速度更快、占用内存更少，并且在各种文档类型OCR上表现良好
开源地址：https://huggingface.co/reducto/RolmOCR

【新研究】
基础智能体的进步与挑战：从类脑智能到进化、协作和安全系统
(MetaGPT、蒙特利尔大学、蒙特利尔-魁北克人工智能研究所、南洋理工大学、阿贡国家实验室等)
论文地址：https://arxiv.org/abs/2504.01990

【其他资讯】
超九成年轻人工作学习离不开AI，人均还有1.8个AI朋友丨Soul《2025 Z世代AI使用报告》https://mp.weixin.qq.com/s/hxllYYV2HSIisgcLozfp8Q