2025年09月10日 人工智能前沿资讯

资讯2天前发布 power
0 0 0

【新进展】
库克挤爆牙膏:5999元iPhone17上高刷,新款耳机能测心率+同传
https://mp.weixin.qq.com/s/7qDcJ0ZbhHvcWcJkD720Qw

文心大模型X1.1上线,事实性、指令遵循、智能体能力上显著提升
https://mp.weixin.qq.com/s/jBjb04y8XY03huEMNbu5tw

18岁女孩做养老机器人,上线2天卖爆了
https://mp.weixin.qq.com/s/g9qWUnbvlNd4t0-jgJ99bw

Claude用户退订潮,被指高峰期偷换缩水模型,工程师列9大罪状呼吁全网退订
https://mp.weixin.qq.com/s/Xy5xZvasCUy_LEsSTYYdrQ

一致性对标Nano Banana,国产Vidu Q1同时支持7张参考
https://mp.weixin.qq.com/s/IcIxFCFb8VSpCUEd0jnjcQ

Seedream 4.0 图像创作模型正式发布
https://mp.weixin.qq.com/s/lJgwXV3iStUvddAIwcFW8g

腾讯开源混元Image 2.1:2K高清+完美文字嵌入
https://mp.weixin.qq.com/s/ktQOuxHYgekUpBDcvc6aww

阿里发布语音识别模型Qwen3-ASR-Flash,识别准确率达到最优
https://mp.weixin.qq.com/s/SPL5Aiu6afEXK3-nEwy6_Q

Claude发布更新,可直接生成Excel和PPT
https://mp.weixin.qq.com/s/D4crDBYWl27D0SwHO9sHnw

【新应用】
UniVerse-1(音视频生成-阶跃星辰、香港科技大学(广州)等)
-类似Veo-3,可同时生成协调的音频和视频,经测试能够生成音视频协调良好的环境声音生成结果和高度对齐的语音生成结果
项目主页:https://dorniwang.github.io/UniVerse-1/

IRG(图像生成-华东师范大学、香港中文大学、小红书等)
-通过交错推理生成方法,在多个图像生成测试集上获得了5-10分的提升,同时视觉质量和细粒度保真度也得到显著提升
项目主页:https://github.com/Osilly/Interleaving-Reasoning-Generation

【新模型】
HunyuanImage-2.1(文生图模型-腾讯混元)
-能够生成2K分辨率的图像,显著提升了文本-图像对齐能力,增强了对场景细节、人物姿势和表情的控制,并能够生成具有不同描述的多个对象
开源地址:https://huggingface.co/tencent/HunyuanImage-2.1

IndexTTS2(文生语音模型-Index Team)
-支持明确指定生成的Token数量以精确控制语音时长,或以自回归方式自由生成语音;实现了情感表达与说话人身份之间的分离,从而能够独立控制音色和情感
开源地址:https://huggingface.co/IndexTeam/IndexTTS-2

【新研究】
开放式生成的逆向工程推理
(字节跳动Seed、香港科技大学、北京大学、M-A-P、清华大学等)
论文地址:https://arxiv.org/abs/2509.06160

【其他】
奥特曼点名表扬两个波兰人:OpenAI还没遇到过他们解决不了的问题
https://mp.weixin.qq.com/s/4fundQXSHW1IeA_Is2J2CQ

Transformer作者:DeepSeek才有搞头,OpenAI指望不上
https://mp.weixin.qq.com/s/kei6FlBMNuClxMS1sbmw0A

© 版权声明

相关文章

暂无评论

您必须登录才能参与评论!
立即登录
none
暂无评论...