✨
【新进展】
LIama 4发布重夺开源第一,DeepSeek同等代码能力但参数减一半,一张H100就能跑,还有两万亿参数超大杯
https://mp.weixin.qq.com/s/-HIy0HLBAobSdNLpsuXZwg
DeepSeek前脚发新论文,奥特曼立马跟上:GPT-5就在几个月后
https://mp.weixin.qq.com/s/NpiwXTQF1T2ZFbHM-vrc4w
谷歌部署Gemini+MCP
https://mp.weixin.qq.com/s/B8Yb7zMOxvqMlDII_uc2Ig
Midjourney重磅更新,又一个「言出法随」的AI生图神器
https://mp.weixin.qq.com/s/XpMjklOD551X1a6V8AW9XA
【新应用】
JavisDiT(音频视频生成-浙江大学、新加坡国立大学等)
-能够根据开放式用户提示同时生成高质量的音频和视频内容,同时确保最佳同步
项目主页:https://javisdit.github.io
ACTalker(视频生成-香港科技大学、腾讯、清华大学)
-端到端视频扩散框架,支持多信号控制和单信号控制来生成自然的说话头部视频
项目主页:https://harlanhong.github.io/publications/actalker/index.html
【新模型】
Llama-4-Scout-17B-16E-Instruct(视觉语言模型-Meta)
-自回归语言模型,使用混合专家 (MoE) 架构并结合早期融合以实现原生多模态,拥有16位专家,170亿参数,在文本和图像理解方面的性能业界领先
开源地址:https://huggingface.co/meta-llama/Llama-4-Scout-17B-16E-Instruct
RolmOCR(视觉语言模型-Reducto)
-基于Qwen2-VL-7B在olmOCR-mix-0225数据集上微调,相比olmOCR速度更快、占用内存更少,并且在各种文档类型OCR上表现良好
开源地址:https://huggingface.co/reducto/RolmOCR
【新研究】
基础智能体的进步与挑战:从类脑智能到进化、协作和安全系统
(MetaGPT、蒙特利尔大学、蒙特利尔-魁北克人工智能研究所、南洋理工大学、阿贡国家实验室等)
论文地址:https://arxiv.org/abs/2504.01990
【其他资讯】
超九成年轻人工作学习离不开AI,人均还有1.8个AI朋友丨Soul《2025 Z世代AI使用报告》https://mp.weixin.qq.com/s/hxllYYV2HSIisgcLozfp8Q