2025年06月07日人工智能前沿资讯

【新进展】
Gemini新版蝉联竞技场榜一，但刚发布就被越狱了
https://mp.weixin.qq.com/s/8dMQKl7HrjPVCXVZY7dtrg

Qwen3深夜开源新系列：文本表征模型，3种尺寸可选，超越商业API拿下SOTA
https://mp.weixin.qq.com/s/kw7C7cppQZIWaUcCXpuiNg

大神Karpathy炮轰复杂UI应用没有未来，Adobe首当其冲
https://mp.weixin.qq.com/s/2YtlIW3DRoT_hdDFo6fhaQ

风投公司发布人才趋势报告：Anthropic人才吸引力是OpenAI的8倍，留存率达80%
https://mp.weixin.qq.com/s/pjsD57pAsF3qXdDzHVmSag

抽象小视频秒变特效大片：原视频精髓不变角色环境任意换，Luma出品
https://mp.weixin.qq.com/s/UPnXhAz2ls-p8jNSZdHLSw

Cursor 1.0首个大版本来袭：自动捉bug，秒改屎山代码
https://mp.weixin.qq.com/s/4zurzWK9f5xx48GJSDvjDA

【新应用】
LayerFlow（视频生成-香港大学、阿里巴巴达摩院等）
-可以根据给定的图层提示，生成透明前景、清晰背景和混合场景的视频，还支持多种变体，如分解混合视频或为给定的前景生成背景
项目主页：https://sihuiji.github.io/LayerFlow-Page/

IEAP（图像编辑-新加坡国立大学）
-基于扩散变换器（DiT）架构构建的统一图像编辑框架，展现了卓越的准确性和语义保真度，尤其适用于复杂的多步骤指令
项目主页：https://yujiahu1109.github.io/IEAP/

【新模型】
Llama-Nemotron-Nano-VL-8B-V1（视觉语言模型-英伟达）
-领先的文档智能视觉语言模型，能够查询和汇总来自物理或虚拟世界的图像和视频，支持单图像和单视频推理
开源地址：https://huggingface.co/nvidia/Llama-3.1-Nemotron-Nano-VL-8B-V1

OpenAudio S1（文生语音模型-Fish Audio）
-领先的TTS模型，经过超过200万小时的多种语言音频数据训练，支持多种情感、语调和特殊标记来增强语音合成
开源地址：https://huggingface.co/fishaudio/openaudio-s1-mini

【新研究】
MiMo-VL技术报告（小米）
论文地址：https://arxiv.org/abs/2506.03569

【其他资讯】
大模型架构创新研究报告｜量子位智库
https://mp.weixin.qq.com/s/Gd6lrCYau3JpR1oNI1ZZcQ

新一届ACM博士论文奖正式公布
https://mp.weixin.qq.com/s/rzt4vQibUCjZD_tg3EGbVQ