QQ个性网:专注于分享免费的QQ个性内容

关于我们| 网站公告| 广告服务| 联系我们| 网站地图

搜索
AI 盘古大模型 智谱AI SenseNova 混元大模型 chatgpt 星火大模型 deepseek 安第斯大模型 文心一言 豆包 huggingface 通义千问 cursor MiLM claude 大模型 PaddlePaddle 360智脑

腾讯推免费AI视频生成器“混元”,挑战 OpenAI 的 Sora

日期:2025/04/04 08:17来源:未知 人气:51

导读:在 OpenAI 的 Sora 视频生成工具延迟数月后,腾讯悄然推出了自己的 AI 视频生成器——“混元视频”(Hunyuan Video),并在性能上展现了与现有顶级视频生成器相当的结果。腾讯选择在 OpenAI 为期 12 天的公告活动期间发布这一工具,该活动预计包括备受期待的 Sora 首次亮相。功能亮点与优势腾讯表示,“混元视频”是一款新颖的开源视频基础模型,其视频生成......

在 OpenAI 的 Sora 视频生成工具延迟数月后,腾讯悄然推出了自己的 AI 视频生成器——“混元视频”(Hunyuan Video),并在性能上展现了与现有顶级视频生成器相当的结果。腾讯选择在 OpenAI 为期 12 天的公告活动期间发布这一工具,该活动预计包括备受期待的 Sora 首次亮相。

功能亮点与优势

腾讯表示,“混元视频”是一款新颖的开源视频基础模型,其视频生成性能不仅可与领先的闭源模型媲美,甚至可能超越它们。根据专业的人类评估结果,这款模型优于 Runway Gen-3、Luma 1.6 以及三个顶尖的中国视频生成工具。

“混元视频”的核心创新在于使用了仅解码器的多模态大语言模型作为文本编码器,而非其他 AI 视频工具和图像生成器常用的 CLIP 和 T5-XXL 组合。腾讯称,这种设计使得模型能够更好地遵循指令,更精确地掌握图像细节,并且无需额外训练即可即时学习新任务。此外,其因果注意力机制通过特殊标记细化器得到了增强,有助于更彻底地理解提示信息。

用户体验与优化

为了提高生成内容的质量,“混元源视频”还具备重写提示的功能,使提示更加丰富。例如,简单的“一个男人遛狗”可以被扩展为包含更多细节、场景设置、光线条件、质量工件等元素的复杂描述,从而生成更高质量的视频。

免费与开源

与 Meta 的 LLaMA 3 类似,“混元视频”是完全免费使用的,直到用户数量达到 1 亿——这是大多数开发者短期内无需担心的门槛。不过,要在本地运行这个拥有 130 亿个参数的模型,您需要一台配备至少 60GB GPU 内存的强大计算机,如 Nvidia H800 或 H20 卡。对于没有超级计算机的用户,云服务提供商已经开始支持“混源视频”,例如 FAL.ai 每个视频收费 0.5 美元,官方服务器则以 10 美元提供 150 个积分,每个视频生成至少需要 15 个积分。

性能与改进

早期测试显示,“混元视频”在生成质量和速度上表现优异,大约 15 分钟内即可生成逼真的视频序列,具有自然的人类和动物动作。尽管如此,测试也揭示了一个当前的弱点:模型对英语提示的理解可能不如竞争对手。然而,由于它是开源的,开发人员可以对其进行调整和改进。

根据内部测试,腾讯的文本编码器实现了高达 68.5% 的对齐率,即输出与用户需求的匹配程度,同时保持了 96.4% 的视觉质量分数。完整的源代码和预训练权重可以在 GitHub 和 Hugging Face 平台上下载。

00:05

关于我们|网站公告|广告服务|联系我们| 网站地图

Copyright © 2002-2023 某某QQ个性网 版权所有 | 备案号:粤ICP备xxxxxxxx号

声明: 本站非腾讯QQ官方网站 所有软件和文章来自互联网 如有异议 请与本站联系 本站为非赢利性网站 不接受任何赞助和广告