文章快讯 - 环球智购（凤灵阁）

环球智购（凤灵阁）博客

Gemini 3深夜突袭！力压GPT-5.1，谷歌的AI王座终于坐稳了

谷歌于凌晨三点悄然上线Gemini 3 Pro大模型，未举行发布会。该模型在LMArena以1501分Elo登顶，人类最后考试（HLE）获45.8%、MMMU-Pro达81%、Video-MMMU达87.6%，性能超越GPT-5.1。其100万token上下文窗口支持长内容处理，深度思考能力在ARC-AGI-2测试中创45.1%新高，并推出Google Antigravity智能体平台。用户可通过Gemini应用或Google AI Studio体验。

谷歌Gemini 3.0：突破性的网页版操作系统生成

谷歌Gemini 3.0 Pro凭借强大生成能力，可基于简单提示词在单一HTML文件中生成功能完整的网页版macOS、Windows及Linux操作系统界面，实现流畅交互体验。尽管其在界面复刻与功能仿真上表现卓越，超越Claude 4.5 Sonnet等模型，但仍局限于前端仿真，缺乏底层系统逻辑。

Learn More →

Grok 4：马斯克20万GPU打造的”最聪明”AI模型

马斯克在7月10日推出xAI最新AI模型Grok 4，采用20万张H100/A100 GPU训练，在HLE测试中突破50%准确率。该模型在多项基准测试中表现优异，尤其适用于复杂推理任务。商业化版本SuperGrok定价30至300美元/月，主要面向高端专业用户。Grok 4将整合至特斯拉与Optimus机器人等生态产品中。

Learn More →

Hunyuan3D-PolyGen：腾讯推出的美术级3D生成新突破

腾讯混元团队推出业界首个达到美术级标准的3D生成大模型Hunyuan3D-PolyGen，能够生成可用于游戏开发和影视制作的专业3D模型，显著提升美术师工作效率。该模型在复杂几何体建模能力与生成稳定性方面有重大技术突破，支持多种输入方式，并通过BPT压缩技术和强化学习优化策略，大幅减少Token数量并提高建模质量。目前可通过腾讯混元3D平台免费体验。

Learn More →

AI驱动的表格革命：Shortcut重新定义Excel工作方式

Excel表格处理常因复杂操作令人困扰，新兴AI工具Shortcut通过自然语言交互简化流程。其在模拟Excel赛事中10分钟内完成复杂任务，80%以上准确率，支持数据处理到金融建模的广泛应用。自然语言输入替代函数语法，便利性显著，但对极复杂数据处理及格式化仍有局限。目前内测中，Google邮箱用户可免费体验3次。

Learn More →

PosterCraft：AI赋能海报设计的革命性突破

香港科技大学与美团联合研发的AI海报生成框架PosterCraft，以统一生成流程和四阶段级联优化架构，实现了从描述性文本一步生成包含背景、布局和排版的完整海报。其采用区域感知校准策略和美学-文本强化学习技术，全面超越现有开源方案，并在文本准确率上接近顶尖商业模型。PosterCraft开源完整的代码和模型，支持多版本选择与在线体验，展示了AI在垂直领域挑战顶级模型的潜力，为设计师提供强大创作工具，也为AI发展指明新方向。

Learn More →

字节跳动XVerse：革命性多主体图像生成技术深度解析

字节跳动智能创作团队推出XVerse模型，该模型基于DiT架构，实现了复杂场景中多主体的独立精确控制，包括姿态、风格、光影和身份等维度。其在多主体控制、美学质量和身份相似度方面表现优异，构建的XVerseBench测试体系显示性能明显优于竞品。XVerse未来或将支持动态生成、交互编辑与复杂场景扩展，有望推动AIGC产业应用发展。

Learn More →

OmniAvatar：让静态照片活起来的AI数字人技术突破

OmniAvatar是浙江大学和阿里巴巴集团联合开发的音频驱动数字人系统，能够根据静态照片、音频及文本提示生成自然流畅的全身动态视频。相比传统“说话头像”技术，该系统在身体动作协调、高精度音视频同步和文本控制方面实现突破。经测试，其在图像质量、视频流畅度及嘴型同步等指标上均领先，是目前唯一能同步生成面部与全身动画的模型。项目已开源，论文发布于arXiv。

Learn More →

百度MuseSteamer深度解析：国产AI视频生成的新里程碑

百度商业研发团队推出的多模态生成大模型MuseSteamer，在VBench图生视频评测中取得全球第一，在中文音视频同步生成、精细化描述体系及风格控制等方面实现重要突破，展现优越语义理解能力。尽管存在镜头调度能力不足及生成速度较慢等问题，MuseSteamer仍是国产AI视频技术发展的重要里程碑，Turbo版已免费开放体验。

Learn More →