
【記者蔡富丞/柯妮妮 綜合報導】影音AI發展正出現一項關鍵變化:從分散工具走向「統一控制系統」。最新研究提出Tele-Omni框架,主打將文字、圖片與影片等多種輸入整合於單一模型中,讓AI能同時理解並執行多模態指令。
過去影音AI系統通常針對單一任務設計,例如文字生成影片或圖片轉影片,不同功能往往需要不同模型與流程,導致操作複雜且難以擴展。Tele-Omni的核心突破,在於將這些任務統一於同一架構,透過多模態語言模型解析指令,再交由生成模型執行,形成完整的處理流程。
這種設計讓影音AI具備更高的彈性。使用者可以同時提供多種輸入,例如參考影片搭配文字說明,系統即可生成符合需求的內容,甚至支援跨任務操作,例如在生成過程中同步進行編輯與調整。
這項發展也顯示,影音平台競爭正從單點功能轉向「整合能力」。當AI能統一處理多種輸入與任務,創作流程將更加流暢,並大幅降低工具切換成本,進一步推動影音內容生產效率提升。
整體來看,影音AI正在從工具集合進化為「可理解複雜指令的系統平台」,未來誰能提供更完整的多模態整合能力,將更有機會主導新一代影視創作生態。




