AI 工具动态:Google turns Gemini Omni…
Google 推出 Gemini Omni Flash,这是一个多模态视频模型,可接受文本、图像、音频和视频输入,并通过对话方式生成和编辑视频。该模型已集成到 Gemini 应用、Google Flow、YouTube Shorts 和 YouTube Create 中,使创作者无需专业编辑软件即可通过自然语言调整场景、保持角色一致性、改变镜头语言。对于企业而言,产品演示、社交广告、培训视频等可从杂乱素材开始,通过对话式编辑快速迭代,降低早期草稿成本。
Udio 推出 Starstruck 音乐应用
Udio 即将推出名为 Starstruck 的授权 AI 音乐应用,面向普通粉丝而非专业艺术家。该应用提供 Cover、Reimagine、Remix 和 Create 四种模式,用户必须选择特定艺术家和歌曲进行创作,无法生成通用 AI 音乐。生成内容归版权方所有,且无法导出到其他平台。应用采用订阅制,分 Standard 和 Pro 两档,每月创作次数有限。Udio 已与环球音乐、华纳音乐、Merlin、Kobalt 等达成授权协议,索尼音乐尚未加入。
AI 工具动态:Udio unveils Starstruck l…
Udio 的授权 AI 音乐应用 Starstruck 被描述为移动优先、面向消费者的“围墙花园”,禁止通用 AI 输出和下载到流媒体服务。它提供 Cover、Reimagine、Remix 和 Create 四种模式,让粉丝在限定条件下生成已授权艺术家歌曲的新版本。生成录音归版权方所有,Kobalt 高管表示该协议结构使词曲作者获得比传统流媒体更高的报酬。服务采用订阅制,分 Standard 和 Pro 两档,每月创作次数不同。
Runway 发布 Aleph 2.0 视频编辑工具
Runway 发布了视频编辑 AI Aleph 2.0 和编辑工具 Edit Studio。Aleph 2.0 可编辑 1080p 30 秒视频,允许用户精确修改特定部分,并通过输入单帧编辑图像将编辑应用到整个视频。Edit Studio 可借助 Google Nano Banana Pro 或 OpenAI GPT Image 2 等图像编辑 AI 准备编辑帧,结合自然语言指令实现高精度编辑。 正文还显示,这一动态与视频制作与内容生成工作流直接相关,值得关注的不只是产品名称,而是它能否降低内容生产、素材迭代、视频制作或开发协作中的实际成本。对小团队而言,后续应重点观察它是否能缩短从创意到可…
AI 工具动态:StepFun Releases StepAudi…
上海 AI 实验室 StepFun 发布 StepAudio 2.5 Realtime,这是一个端到端实时语音大模型,支持中英文,通过 WebSocket API 连接。模型具备可定制角色能力,通过算法扩展构建百万级角色特征矩阵,并针对角色扮演场景进行 RLHF 优化以防止角色偏离。它还具备副语言感知能力,可识别语气、语速、停顿等非语言信息,从而感知用户情绪和意图。在副语言理解基准测试中得分 82.18。
Gemini Omni Flash 视频模型发布
Google 发布 Gemini Omni Flash,这是 Gemini Omni 多模态模型家族的首个模型,可基于图像、音频、视频和文本输入生成和编辑视频。它支持多轮对话式编辑,保持角色和场景一致性,并包含不可见数字水印和验证工具。该模型已集成到 Gemini 应用、Google Flow 和 YouTube Shorts 中。The Verge 评测认为简单场景输出逼真且省力,但复杂运动场景存在伪影和连贯性问题。
AI 工具动态:CapCut and Gemini App Par…
CapCut 宣布与 Gemini 合作,将高级图像和视频编辑工具直接集成到 Gemini 应用中。用户将能够通过自然语言对话在 Gemini 内直接编辑图像和视频,无需切换应用。CapCut 是短视频创作者广泛使用的移动编辑平台,此次合作旨在将创意工作流转变为智能对话,简化内容生产流程。具体上线日期尚未公布。
AI 工具动态:VEED Launches Subtitle AP…
VEED 推出字幕 API,这是市场上唯一提供端到端高质量专业风格烧录字幕的 API。它通过单一异步工作流自动完成转录、样式设计和渲染,支持自动单词高亮和 100+ 种语言本地化。该 API 面向构建自动化视频管道的团队,无需手动编辑。已有 Figma Weave、Creative Fabrica、Arcads 等七个平台获得早期访问权限,API 即将在 Fal 市场上公开发布。
AI 视频模型对比
文章对比了 Kling、Veo、Runway、Hailuo 等 AI 视频模型对短视频创作者的适用性。Kling 以逼真运动和电影级画质著称,但渲染较慢;Veo 提示遵循能力强,可生成长序列,但访问受限;Runway 是知名平台,提供多种编辑功能。文章指出,对于每日发布多条视频的创作者,工作流效率比画质更重要,多模型平台如 AIReel 正通过整合多种工具来简化创作流程。
最佳 NSFW AI 视频生成器
PCMag 测试了多款 NSFW AI 视频生成器,推荐 FramePack 和 Kindroid。FramePack 是免费本地工具,设置相对简单,适合预算有限且有强大硬件的用户。Kindroid 擅长保持角色一致性,支持角色扮演场景。Grok 是唯一支持 NSFW 视频生成的主流 AI 聊天机器人,生成速度最快,但需订阅。SoulGen 提供从图像或文本生成视频、创建 AI 角色等功能。
谷歌Gemini Omni Flash:对话式视频编辑
谷歌在I/O 2026发布Gemini Omni Flash,这是首个Omni架构模型,支持通过自然语言对话编辑视频。用户可输入文本、图片、音频或现有视频,通过连续指令修改场景、更换背景、调整角色服装等,并保持角色、光照和物体一致性。模型能更好理解重力、运动等物理规律,输出更自然的画面。目前支持最长10秒视频,音频仅限语音旁白,所有输出带SynthID水印。亮点是个人数字分身功能:用户用自己的声音和形象创建AI分身,生成以该分身为主角的视频内容。该工具通过Gemini应用、Google Flow和YouTube Shorts分发,面向内容创作者和教育工作者。
TikTok Symphony新增三项AI视频工具
TikTok在其Symphony广告创作套件中新增三项AI视频生成工具:Image to Video(上传静态产品图生成5秒动态视频,含背景移动和特效,某时尚平台测试显示加购成本降低15%)、Text to Video(纯文本提示生成视频,用于创意快速迭代)、Showcase Products(数字分身展示产品,American Eagle测试显示广告支出回报率提升60%)。所有内容自动标注AI生成标签,不用于模型训练。工具已集成至Adobe Express和WPP Open平台,方便品牌和代理机构规模化生产平台原生广告内容。
YouTube Shorts推出AI数字分身功能
YouTube面向全球18岁以上创作者(欧洲除外)推出Shorts AI数字分身工具。创作者需录制一段多角度自拍视频并朗读提示文本,系统基于Google Veo模型生成逼真个人分身。该分身可根据文字提示自动匹配唇形、表情和手势,生成最长8秒的AI视频片段,多个片段可拼接成更长的Shorts内容。分身还可通过“Add me to this scene”选项插入现有Shorts中。所有AI内容带有SynthID和C2PA可见标签。删除分身将同时删除原始自拍和语音数据,但已发布的视频需手动删除。该工具旨在帮助创作者无需重新拍摄即可持续产出视频内容。
TechVideoBlog推出AI视频工具目录
TechVideoBlog上线AI视频工具目录与软件对比平台,帮助创作者、自由职业者、代理机构和商家按工作流、定价、用例评估AI视频工具。平台按实际使用场景分类,如播客转Shorts、AI字幕生成、视频再利用、无脸YouTube频道搭建、TikTok/Instagram Reels编辑、数字分身培训视频制作等。涵盖Submagic、Opus Clip、Runway、VEED、CapCut、Synthesia、Descript、HeyGen、Pika、Luma、InVideo等主流工具,评估维度包括定价、免费计划限制、导出质量、工作流适配性、商业使用许可等。旨在解决创作者面对众多AI视频工具时…
Navos集成Seedance 2.0实现1080P广告视频生成
绩效营销AI平台Navos集成字节跳动Dreamina开发的Seedance 2.0模型,在其Creative Agent模块中实现端到端1080P高清视频广告制作。Seedance 2.0在Artificial Analysis Video Arena排行榜以1269 Elo分位居第一,超越Google Veo 3、OpenAI Sora 2和Runway Gen-4.5。关键能力包括:1080P至2K分辨率输出、多镜头角色与场景一致性、原生音画同步(单次前向传播生成)、强提示遵循能力。Navos用户可将创意制作周期从数周压缩至数分钟,已帮助部分客户每月生成150+高质量创意资产,制作成本…
谷歌AI视频从片段生成转向全流程制作
谷歌在I/O 2026推出Gemini Omni Flash,标志AI视频从简单文本生成向全流程制作转变。Omni Flash可接受文本、图片、视频和音频作为输入,通过对话式交互编辑视频,而非一次性生成。它不同于Veo(专注高保真视频生成)和Flow(AI电影制作工作区),而是作为多模态创作助手,利用Gemini的世界知识理解上下文。谷歌已构建覆盖消费者、创作者、企业和开发者的完整AI视频工具栈:Veo 3.1支持4K输出,Veo 3.1 Lite面向开发者,Flow用于电影制作,Vids用于商务视频,Gemini提供消费级入口。所有AI视频输出均带SynthID水印。
Orchestria:可逐轨控制的AI音乐引擎
Orchestria是一款AI音乐生成引擎,与Suno、Udio等一次性输出完整音频的工具不同,它生成独立的音频分轨(鼓、贝斯、旋律),均为24-bit/44.1kHz工作室级质量。用户可通过自然语言指令单独修改某个分轨,例如“更弹性的贝斯线”或“将旋律主音换成复古合成器”,AI会自动调整MIDI和VST乐器,同时保持整体曲目不变。这种“Agentic Flip”机制让音乐制作人和创作者获得精细控制权,而非仅靠文本提示生成不可编辑的成品。适合需要迭代和定制音乐内容的独立创作者和小型工作室。
Neural4D推出文生图与文生视频,完善AI创作管线
Neural4D新增Text to Image和Text to Video功能,基于GPT Image 2、Nano Banana Pro和Seedance 2.0模型,用户可直接在平台内从文本生成高质量2D概念图和短视频。生成的2D图像可无缝输入已有的Image to 3D管线,快速转化为引擎就绪的3D资产。例如独立游戏开发者可先通过文本生成角色概念图,再一键转为完整绑定的3D模型,无需外部概念艺术家或多个软件订阅。平台支持从文生图、文生视频到文生3D、图生3D的全流程创作,面向游戏、电商、AR/VR和数字设计领域。
Stability Audio 3.0:更长更结构化的AI音乐
Stability Audio 3.0发布,支持生成更长、结构更完整的AI音乐作品。与早期版本相比,新模型在音乐结构上有所改进,能够生成具有更清晰段落划分和更丰富编曲的曲目。该工具面向音乐制作人和内容创作者,提供更精细的创作控制。具体技术细节和可用性信息需进一步查阅官方发布。
黑客利用Claude Code源码泄露传播恶意软件
Anthropic的Claude Code(终端AI编程助手)因npm打包错误意外泄露59.8MB源码,包含51.3万行TypeScript,暴露内部编排逻辑、权限层和执行系统。黑客在数小时内创建虚假GitHub仓库,以“解锁企业功能”为诱饵传播窃取凭证的恶意软件(Vidar和GhostSocks)。Zscaler发现恶意仓库“Leaked Claude Code”曾出现在谷歌搜索结果前列。攻击者还通过typosquatting npm包名实施依赖混淆攻击。3月31日UTC 00:21-03:29期间安装或更新Claude Code的用户面临额外风险,需立即降级并轮换所有凭证。
AI视频生成成为内容团队实用工具
AI视频生成正从概念走向实用,帮助营销经理、创始人、电商团队和创作者快速将产品图片或创意转化为短视频草稿,用于TikTok、Instagram Reels、广告和产品页面。传统视频制作周期长,而AI工具通过文本或图片输入生成运动素材,降低试错成本,让团队在几秒内评估视觉方向。对于小团队,AI视频生成消除了制作瓶颈,使日常内容产出更频繁、更灵活。
2026年最佳AI音乐视频App评测
评测以一首虚构合成流行单曲为基准,测试多款AI音乐视频App。Freebeat因能理解歌曲结构、保持视觉连贯性、快速导出适用于TikTok/Reels/YouTube Shorts/Spotify Canvas的素材而胜出。Kaiber擅长营造艺术氛围但结构感弱,Neural Frames适合实验风格但不够实用。对于独立音乐人,Freebeat提供了从歌曲到视频的完整工作流。 正文还显示,这一动态与直播与短视频工作流直接相关,值得关注的不只是产品名称,而是它能否降低内容生产、素材迭代、视频制作或开发协作中的实际成本。对小团队而言,后续应重点观察它是否能缩短从创意到可发布内容的链路。
Rich Homie Quan AI视频引发争议
已故说唱歌手Rich Homie Quan的遗作《Still Dead》音乐视频完全由AI生成,展示AI版歌手在墓地、与孩子相处、录音室等场景。粉丝反应两极:部分人认为AI复现令人不安,应让逝者安息;也有人支持,认为只要家属授权且获得收益即可。事件引发关于AI在死后艺人形象使用边界的讨论。
Spotify AI混音工具引发质疑
Spotify与环球音乐集团达成授权协议,将推出付费AI混音工具,允许用户基于UMG曲库生成翻唱和混音,作为Premium附加服务。作者批评该工具可能助长用户自恋,而非真正加深与艺术家的联系。AI生成的音乐缺乏人性化创意,用户只是让机器代劳,而非学习或创作。 正文还显示,这一动态与直播与短视频工作流直接相关,值得关注的不只是产品名称,而是它能否降低内容生产、素材迭代、视频制作或开发协作中的实际成本。对小团队而言,后续应重点观察它是否能缩短从创意到可发布内容的链路。
Spotify与UMG推出付费AI混音工具
Spotify与环球音乐集团宣布推出付费AI混音工具,作为Premium附加服务,用户可对参与歌曲进行翻唱和混音。工具基于授权模式,艺术家和词曲作者将获得收入分成。此外,Spotify还推出个人播客生成、粉丝优先购票等新功能,强化付费订阅价值。 正文还显示,这一动态与语音与音乐内容工作流直接相关,值得关注的不只是产品名称,而是它能否降低内容生产、素材迭代、视频制作或开发协作中的实际成本。对小团队而言,后续应重点观察它是否能缩短从创意到可发布内容的链路。
Spotify通过大厂合作推出AI音乐工具
Spotify与环球音乐集团达成授权协议,将推出AI音乐工具,允许用户生成现有歌曲的AI版本。艺术家可控制是否参与,并获收入分成。工具作为Premium附加服务,定价和发布日期未定。Spotify还与索尼、华纳合作,确保合规。同时推出有声书生成、播客辅助和粉丝购票功能。 正文还显示,这一动态与直播与短视频工作流直接相关,值得关注的不只是产品名称,而是它能否降低内容生产、素材迭代、视频制作或开发协作中的实际成本。对小团队而言,后续应重点观察它是否能缩短从创意到可发布内容的链路。
Suno AI音乐在TikTok上病毒式传播
一首由Suno AI生成的波多黎各主题歌曲在TikTok获得超250万次观看和20万点赞。歌曲时长50-70秒,采用80年代合成器风格,由用户@saxboybilly18创作,演员Jeff Goldblum的参与助推传播。创作者公开标注使用AI,引发关于音乐制作工具可及性的讨论。 正文还显示,这一动态与直播与短视频工作流直接相关,值得关注的不只是产品名称,而是它能否降低内容生产、素材迭代、视频制作或开发协作中的实际成本。对小团队而言,后续应重点观察它是否能缩短从创意到可发布内容的链路。
字节跳动限制新AI视频工具Seedance 2.0
字节跳动旗下AI视频模型Seedance 2.0上线三天后,因创作者展示其仅凭一张照片即可复现声音、办公室环境甚至身体背面,引发深度伪造担忧。公司随即限制真人素材上传,禁止直接上传名人面孔,用户需验证身份才能生成自身内容。该工具被《黑神话:悟空》制作人称为“最强视频生成模型”,可将一分钟视频制作时间从三四天缩短至半天。
Udio披露授权AI音乐应用Starstruck细节
AI音乐公司Udio披露其授权音乐应用Starstruck的细节,提供四种模式:Cover(如Charli XCX风格翻唱Taylor Swift歌曲)、Reimagine(保留歌词重写音乐)、Remix(改变风格)、Create(用户写词搭配选定歌手声音)。生成录音版权归原始权利人,词曲作者分成高于传统流媒体。应用为“围墙花园”,结果不可下载至流媒体服务。 正文还显示,这一动态与语音与音乐内容工作流直接相关,值得关注的不只是产品名称,而是它能否降低内容生产、素材迭代、视频制作或开发协作中的实际成本。对小团队而言,后续应重点观察它是否能缩短从创意到可发布内容的链路。
AI录音机重新定义2026年工作效率
AI录音机如Plaud Note Pro正取代传统笔记方式,自动将电话、会议、视频会话转为文字稿、摘要和待办事项。在销售、法律、医疗、高管会议、学术等场景中,AI录音机可自动生成结构化跟进摘要、标记法律风险、转录医学术语、提炼执行摘要和思维导图,帮助专业人士专注决策和创意工作。