腾讯(00700.HK) -10.500 (-1.930%) 沽空 $29.29亿; 比率 11.734% (TCEHY.US) 旗下腾讯混元发布图生视频模型并对外开源,同时上线对口型与动作驱动等玩法,并支援生成背景音效及2K高质量视频。目前用户通过混AI视频官网即可体验,企业和开发者可在腾讯云申请使用API接口使用。
基於图生视频的能力,用户只需上传一张图片,并简短描述希望画面如何运动及镜头如何调度等,混元即可按要求让图片动起来,变成5秒的短视频,还能自动配上背景音效。此外,上传一张人物图片,并输入希望「对口型」的文字或音频,图片中的人物即可「说话」或「唱歌」;使用「动作驱动」能力,还能一键生成同款跳舞视频。
相关内容《大行》大摩列出亚股(只列港股)最新分析员首选名单(表)
此次开源的图生视频模型,是混元文生视频模型开源工作的延续,模型总参数量保持130亿,模型适用於多种类型的角色和场景,包括写实视频制作、动漫角色甚至CGI角色制作的生成。
混元开源技术报告披露,混元视频生成模型具备灵活的扩展性,图生视频和文生视频在相同的数据集上开展预训练工作。在保持超写实画质、流畅演绎大幅度动作及原生镜头切换等特性的基础上,让模型能够捕捉到丰富的视觉和语义信息,并结合图像、文本、音频和姿态等多种输入条件,实现对生成视频的多维度控制。(ta/j)(港股报价延迟最少十五分钟。沽空资料截至 2025-03-07 16:25。) (美股为即时串流报价; OTC市场股票除外,资料延迟最少15分钟。)
AASTOCKS新闻