环球智购(凤灵阁)博客

Gemini 3深夜突袭!力压GPT-5.1,谷歌的AI王座终于坐稳了

谷歌于凌晨三点悄然上线Gemini 3 Pro大模型,未举行发布会。该模型在LMArena以1501分Elo登顶,人类最后考试(HLE)获45.8%、MMMU-Pro达81%、Video-MMMU达87.6%,性能超越GPT-5.1。其100万token上下文窗口支持长内容处理,深度思考能力在ARC-AGI-2测试中创45.1%新高,并推出Google Antigravity智能体平台。用户可通过Gemini应用或Google AI Studio体验。

Read More

谷歌Gemini 3.0:突破性的网页版操作系统生成

谷歌Gemini 3.0 Pro凭借强大生成能力,可基于简单提示词在单一HTML文件中生成功能完整的网页版macOS、Windows及Linux操作系统界面,实现流畅交互体验。尽管其在界面复刻与功能仿真上表现卓越,超越Claude 4.5 Sonnet等模型,但仍局限于前端仿真,缺乏底层系统逻辑。

Learn More →

Grok 4:马斯克20万GPU打造的”最聪明”AI模型

马斯克在7月10日推出xAI最新AI模型Grok 4,采用20万张H100/A100 GPU训练,在HLE测试中突破50%准确率。该模型在多项基准测试中表现优异,尤其适用于复杂推理任务。商业化版本SuperGrok定价30至300美元/月,主要面向高端专业用户。Grok 4将整合至特斯拉与Optimus机器人等生态产品中。

Learn More →

Hunyuan3D-PolyGen:腾讯推出的美术级3D生成新突破

腾讯混元团队推出业界首个达到美术级标准的3D生成大模型Hunyuan3D-PolyGen,能够生成可用于游戏开发和影视制作的专业3D模型,显著提升美术师工作效率。该模型在复杂几何体建模能力与生成稳定性方面有重大技术突破,支持多种输入方式,并通过BPT压缩技术和强化学习优化策略,大幅减少Token数量并提高建模质量。目前可通过腾讯混元3D平台免费体验。

Learn More →

AI驱动的表格革命:Shortcut重新定义Excel工作方式

Excel表格处理常因复杂操作令人困扰,新兴AI工具Shortcut通过自然语言交互简化流程。其在模拟Excel赛事中10分钟内完成复杂任务,80%以上准确率,支持数据处理到金融建模的广泛应用。自然语言输入替代函数语法,便利性显著,但对极复杂数据处理及格式化仍有局限。目前内测中,Google邮箱用户可免费体验3次。

Learn More →

PosterCraft:AI赋能海报设计的革命性突破

香港科技大学与美团联合研发的AI海报生成框架PosterCraft,以统一生成流程和四阶段级联优化架构,实现了从描述性文本一步生成包含背景、布局和排版的完整海报。其采用区域感知校准策略和美学-文本强化学习技术,全面超越现有开源方案,并在文本准确率上接近顶尖商业模型。PosterCraft开源完整的代码和模型,支持多版本选择与在线体验,展示了AI在垂直领域挑战顶级模型的潜力,为设计师提供强大创作工具,也为AI发展指明新方向。

Learn More →

字节跳动XVerse:革命性多主体图像生成技术深度解析

字节跳动智能创作团队推出XVerse模型,该模型基于DiT架构,实现了复杂场景中多主体的独立精确控制,包括姿态、风格、光影和身份等维度。其在多主体控制、美学质量和身份相似度方面表现优异,构建的XVerseBench测试体系显示性能明显优于竞品。XVerse未来或将支持动态生成、交互编辑与复杂场景扩展,有望推动AIGC产业应用发展。

Learn More →

OmniAvatar:让静态照片活起来的AI数字人技术突破

OmniAvatar是浙江大学和阿里巴巴集团联合开发的音频驱动数字人系统,能够根据静态照片、音频及文本提示生成自然流畅的全身动态视频。相比传统“说话头像”技术,该系统在身体动作协调、高精度音视频同步和文本控制方面实现突破。经测试,其在图像质量、视频流畅度及嘴型同步等指标上均领先,是目前唯一能同步生成面部与全身动画的模型。项目已开源,论文发布于arXiv。

Learn More →

百度MuseSteamer深度解析:国产AI视频生成的新里程碑

百度商业研发团队推出的多模态生成大模型MuseSteamer,在VBench图生视频评测中取得全球第一,在中文音视频同步生成、精细化描述体系及风格控制等方面实现重要突破,展现优越语义理解能力。尽管存在镜头调度能力不足及生成速度较慢等问题,MuseSteamer仍是国产AI视频技术发展的重要里程碑,Turbo版已免费开放体验。

Learn More →

推动全球卓越服务