2025年06月07日 人工智能前沿资讯

资讯1天前更新 power
1 0 0

 

【新进展】
Gemini新版蝉联竞技场榜一,但刚发布就被越狱了
https://mp.weixin.qq.com/s/8dMQKl7HrjPVCXVZY7dtrg

Qwen3深夜开源新系列:文本表征模型,3种尺寸可选,超越商业API拿下SOTA
https://mp.weixin.qq.com/s/kw7C7cppQZIWaUcCXpuiNg

大神Karpathy炮轰复杂UI应用没有未来,Adobe首当其冲
https://mp.weixin.qq.com/s/2YtlIW3DRoT_hdDFo6fhaQ

风投公司发布人才趋势报告:Anthropic人才吸引力是OpenAI的8倍,留存率达80%
https://mp.weixin.qq.com/s/pjsD57pAsF3qXdDzHVmSag

抽象小视频秒变特效大片:原视频精髓不变角色环境任意换,Luma出品
https://mp.weixin.qq.com/s/UPnXhAz2ls-p8jNSZdHLSw

Cursor 1.0首个大版本来袭:自动捉bug,秒改屎山代码
https://mp.weixin.qq.com/s/4zurzWK9f5xx48GJSDvjDA

【新应用】
LayerFlow(视频生成-香港大学、阿里巴巴达摩院等)
-可以根据给定的图层提示,生成透明前景、清晰背景和混合场景的视频,还支持多种变体,如分解混合视频或为给定的前景生成背景
项目主页:https://sihuiji.github.io/LayerFlow-Page/

IEAP(图像编辑-新加坡国立大学)
-基于扩散变换器(DiT)架构构建的统一图像编辑框架,展现了卓越的准确性和语义保真度,尤其适用于复杂的多步骤指令
项目主页:https://yujiahu1109.github.io/IEAP/

【新模型】
Llama-Nemotron-Nano-VL-8B-V1(视觉语言模型-英伟达)
-领先的文档智能视觉语言模型,能够查询和汇总来自物理或虚拟世界的图像和视频,支持单图像和单视频推理
开源地址:https://huggingface.co/nvidia/Llama-3.1-Nemotron-Nano-VL-8B-V1

OpenAudio S1(文生语音模型-Fish Audio)
-领先的TTS模型,经过超过200万小时的多种语言音频数据训练,支持多种情感、语调和特殊标记来增强语音合成
开源地址:https://huggingface.co/fishaudio/openaudio-s1-mini

【新研究】
MiMo-VL技术报告(小米)
论文地址:https://arxiv.org/abs/2506.03569

【其他资讯】
大模型架构创新研究报告|量子位智库
https://mp.weixin.qq.com/s/Gd6lrCYau3JpR1oNI1ZZcQ

新一届ACM博士论文奖正式公布
https://mp.weixin.qq.com/s/rzt4vQibUCjZD_tg3EGbVQ

 

© 版权声明

相关文章

暂无评论

您必须登录才能参与评论!
立即登录
none
暂无评论...