【新进展】
ChatGPT普通会员能用编程神器Codex了,支持联网
https://mp.weixin.qq.com/s/T2Xxw7mNdDH5O0yx5_Ewjw
李飞飞空间智能独角兽开源底层技术:AI生成3D世界在所有设备流畅运行
https://mp.weixin.qq.com/s/rUtF0BIGxUZxR65h5ZzAGQ
Manus新功能一手实测,10分钟8页PPT
https://mp.weixin.qq.com/s/Zz3IwC-bLwKMTP16pyUCag
华为构建优化方案,训练MoE提速70%
https://mp.weixin.qq.com/s/kOLEdpPDALM4IDu-sPXrVg
Character.ai上线视频生成:图片人物能说话唱歌,多轮对话场景依然稳定
https://mp.weixin.qq.com/s/6P3EzmsBRZ4CtJrn9YtCCg
智源研究院开源轻量级超长视频理解模型Video-XL-2
https://mp.weixin.qq.com/s/SZ69BkDzby8JLy2wt5jGQQ
Fellou浏览器2.0发布:速度提升、支持多任务并行、任务成功率提升至80%
https://mp.weixin.qq.com/s/jrAbj3Ut0Obqp_CpB4wjaA
【新应用】
TIC-FT(视频生成-KAIST)
-将预训练的视频扩散模型适应于各种条件生成任务,在条件保真度和视觉质量方面均优于现有基线模型,同时在训练和推理方面均保持高效
项目主页:https://kinam0252.github.io/TIC-FT/
PlayDiffusion(语音编辑-PlayAI)
-通过使用非自回归扩散模型,更好地在编辑边界处保持语境,从而实现高质量、连贯的音频编辑
体验地址:https://huggingface.co/spaces/PlayHT/PlayDiffusion
【新模型】
ShapeLLM-Omni(3D大模型-清华大学、北京大学、生数科技)
-能够理解和生成任意序列的3D素材和文本的原生3D大语言模型,为扩展具有基本3D功能的多模态模型提供有效尝试
开源地址:https://github.com/JAMESYJL/ShapeLLM-Omni
Arctic-Text2SQL-R1-7B(大语言模型-Snowflake)
-70亿参数的文本转SQL模型,使用组相对策略优化和简单的基于执行的奖励信号进行微调,将自然语言问题转换为可执行的SQL查询
开源地址:https://huggingface.co/Snowflake/Arctic-Text2SQL-R1-7B
【新研究】
超越二八定律:高熵少数Token推动LLM推理的有效强化学习
(阿里巴巴、清华大学)
论文地址:https://arxiv.org/abs/2506.01939
【其他资讯】
卡帕西发布ChatGPT模型使用指南:日常4o快又稳,烧脑切o3做后盾,o4只当备胎用
https://mp.weixin.qq.com/s/IllnEQZSztf-qJdHwnxVIg
最新AI眼镜格局报告:百镜大战拉开序幕,阿里DeepSeek高通成幕后赢家
https://mp.weixin.qq.com/s/vb1PoQ-Yce-prLuQGXYTZw