精品精品国产手机自在线观|九九热思思精品视频|中文字幕aⅴ专区|黄国产成年人精品

    當前位置:區(qū)塊鏈 >區(qū)塊鏈 > 生成超清分辨率視頻,南洋理工開源Upscale-A-Video

    生成超清分辨率視頻,南洋理工開源Upscale-A-Video

    更新時間:2023-12-25 10:28:02 | 作者:佚名
    原文來源:AIGC開放社區(qū) 圖片來源:由無界AI生成 大模型在生成高質量圖像方面表現(xiàn)出色,但在生成視頻任務中,經常會面臨視頻不連貫、圖像模糊、掉幀等問題。 這主要是因為生成式抽樣過程中的隨機性,會在視頻序列中引入無法預測的幀跳動。同時現(xiàn)有方法僅考慮了局部視頻片段的時空一致性,無法保證整個長視頻的整體連貫性。 為了解決這些難題,新加坡南洋理工大學的研究人員開...

    原文來源:AIGC開放社區(qū)

    圖片來源:由無界 AI生成

    大模型在生成高質量圖像方面表現(xiàn)出色,但在生成視頻任務中,經常會面臨視頻不連貫、圖像模糊、掉幀等問題。

    這主要是因為生成式抽樣過程中的隨機性,會在視頻序列中引入無法預測的幀跳動。同時現(xiàn)有方法僅考慮了局部視頻片段的時空一致性,無法保證整個長視頻的整體連貫性。

    為了解決這些難題,新加坡南洋理工大學的研究人員開發(fā)了一種Upscale-A-Video框架,無需任何訓練便能快速集成到大模型中,提供視頻超分辨率、去噪、還原等強大功能。

    論文地址:https://arxiv.org/abs/2312.06640?

    開源地址:https://github.com/sczhou/Upscale-A-Video?

    項目地址:https://shangchenzhou.com/projects/upscale-a-video/?

    Upscale-A-Video主要借鑒了圖像模型中的擴散方法,設計了一種無需大規(guī)模訓練即可快速遷移的框架。

    該框架融合了局部和全局兩種策略來維持時間的一致性。局部層,模型通過 3D 卷積和時序注意力層增強特征提取網絡U-Net在短視頻片段內的一致性。

    全局層,則通過光流指導的循環(huán)潛碼傳播功能,提供跨視頻片段強化更長時間尺度下的連貫性。

    除了時間一致性,Upscale-A-Video還可以通過文本提示指導細節(jié)紋理的生成,不同的提示詞可產生不同風格、質量。


    時序U-Net


    U-Net作為特征提取網絡,對視頻質量起決定性作用。傳統(tǒng)只考慮空間信息的U-Net在處理視頻時往往會引入高頻誤差,表現(xiàn)為抖動和閃爍。

    Upscale-A-Video通過向U-Net中插入3D卷積塊和時序自注意力層,增強其對時間維度的建模能力。這使U-Net可以學習視頻數(shù)據(jù)中幀與幀之間的依賴,從而在局部序列內實現(xiàn)一致的超分辨重建。

    另一方面,研究人員選擇固定U-Net中的空間層參數(shù),只對新增時序層進行調優(yōu)。這種策略的優(yōu)點是可以避免從頭大規(guī)模預訓練,充分利用圖像模型中提取的豐富特征。同時也縮短了網絡收斂的時間,起到事半功倍的效果。


    循環(huán)潛碼


    時序U-Net的作用范圍僅局限于短視頻片段,難以約束更長序列的全局一致性。而視頻抖動和質量波動往往都是長時間范圍內的現(xiàn)象。

    為解決這一問題,Upscale-A-Video設計了一個基于光流的循環(huán)潛碼傳播模塊。

    該模塊可以在不增加訓練參數(shù)的情況下,通過前向和后向傳播推斷所有幀的潛碼信息,有效擴大模型感知的時間范圍。

    具體來說,該模塊利用預先估計的光流場,進行逐幀傳播與融合。它根據(jù)光流的前向-后向一致性誤差判斷傳播的有效性,只選擇誤差小于閾值的區(qū)域進行特征傳播。

    而超出閾值的區(qū)域則保留當前幀信息。這種混合融合策略,既利用了光流建模的長期信息,又避免了傳播錯誤的累積。


    文本提示增強指導


    Upscale-A-Video還支持文本條件和噪聲水平的控制,用戶可以依據(jù)實際情況,引導模型生成不同風格和質量的結果。

    文本提示可以指導模型合成更逼真的細節(jié),如動物皮毛、油畫筆觸等。噪聲水平的調整也提供了在還原與生成間權衡的靈活性:加入更少噪聲有利于保真,而更高水平的噪聲則促使模型補充更豐富的細節(jié)。

    這種可控制的生成能力進一步增強了Upscale-A-Video處理復雜真實場景的魯棒性


    實驗數(shù)據(jù)


    研究人員從定量和定性兩個方面全面驗證了Upscale-A-Video的性能。在四個合成低質量視頻基準上,皆取得了最高的峰值信號噪聲比和最低的流式感知損失。

    流式驗證集和AI生成視頻上, Upscale-A-Video的非參考畫質評分也高居各方法之首。這也證明了Upscale-A-Video在保真還原和感知質量上的優(yōu)勢。

    從生成效果對比來看,Upscale-A-Video重建的視頻展現(xiàn)了更高實際分辨率下的細節(jié)層次;運動軌跡更加連貫自然,沒有明顯的抖動和裂縫。這得益于強大的擴散先驗和時空一致性優(yōu)化。

    相比之下,卷積神經網絡和擴散等方法會出現(xiàn)模糊不清,失真等效果,無法達到同等水準。

    本站提醒:投資有風險,入市須謹慎,本內容不作為投資理財建議。