恭喜南京信息工程大學金哲棟獲國家專利權
買專利賣專利找龍圖騰,真高效! 查專利查商標用IPTOP,全免費!專利年費監控用IP管家,真方便!
龍圖騰網恭喜南京信息工程大學申請的專利一種文本驅動的人體姿態與紋理編輯方法及裝置獲國家發明授權專利權,本發明授權專利權由國家知識產權局授予,授權公告號為:CN119251357B 。
龍圖騰網通過國家知識產權局官網在2025-03-25發布的發明授權授權公告中獲悉:該發明授權的專利申請號/專利號為:202411788202.7,技術領域涉及:G06T11/60;該發明授權一種文本驅動的人體姿態與紋理編輯方法及裝置是由金哲棟;夏貴羽;楊派克;王夢祥;孫玉寶設計研發完成,并于2024-12-06向國家知識產權局提交的專利申請。
本一種文本驅動的人體姿態與紋理編輯方法及裝置在說明書摘要公布了:本發明公開了計算機視覺領域的一種文本驅動的人體姿態與紋理編輯方法及裝置。方法包括:首先從關于姿態信息的文本描述中提取特征,轉換為骨架節點坐標并繪制成骨架圖;再從服飾形狀文本提取特征,結合骨架圖通過編解碼網絡得到人體解析圖;訓練紋理感知的FSQ,學習不同紋理特征向量表示,將紋理文本描述與人體解析圖輸入FSQ進行采樣,填充紋理并生成較粗糙但符合文本描述的人體圖像。接著微調用于姿態遷移的擴散模型,用于對生成的人體圖像質量進行進一步優化。該方法克服現有模型生成能力不穩定、對圖像控制不足的問題,保證生成的人體圖像逼真且與輸入文本語義一致,為人體圖像生成提供了新的有效途徑。
本發明授權一種文本驅動的人體姿態與紋理編輯方法及裝置在權利要求書中公布了:1.一種文本驅動的人體姿態與紋理編輯方法,其特征在于,包括:獲取輸入文本,所述輸入文本包括關于目標姿態的文本描述、關于服飾形狀的文本描述及關于紋理的文本描述;通過特征提取網絡分別對所述目標姿態的文本描述、關于服飾形狀的文本描述及關于紋理的文本描述進行提取,得到姿態特征向量、形狀特征向量和紋理類別信息;將所述姿態特征向量輸入訓練好的姿態生成模型,得到相應的骨架坐標,并根據所述骨架坐標繪制成骨架圖;將所述骨架圖結合所述形狀特征向量輸入人體解析圖生成模型,生成相應的人體解析圖;將所述人體解析圖結合所述紋理類別信息輸入人體圖像生成模型,得到粗糙目標人體圖像;將所述粗糙目標人體圖像輸入質量提升網絡,得到最終的人體圖像;所述人體圖像生成模型的執行方法包括:得到了人體解析圖后,將人體解析圖根據部位分為多個部分;然后關于紋理的文本描述中提取得到各部位的紋理類別信息;將各部位的紋理類別信息轉換為one-hot編碼的形式,得到各部位的紋理特征向量;將各部位的紋理特征向量按部位填充到人體解析圖上,得到人體紋理圖;將人體解析圖、人體紋理圖和全掩碼初始索引序列共同輸入進訓練好的采樣器中,得到更新后的索引序列;通過更新后的索引序列從預構建的編碼本中得到對應編碼,組成離散化后的特征向量,將所述離散化后的特征向量輸入解碼器得到粗糙人體圖像;所述采樣器的輸入為人體解析圖Tseg,人體紋理圖Ttex以及全掩碼初始索引序列Tcode,通過擴散的方式將全掩碼初始索引序列逐步優化,直至得到目標人體圖像對應的索引序列T′code,根據T′code從編碼本中提取得到特征圖Z2,將特征圖Z2輸入解碼器得到粗糙人體圖像f,過程表示為:T′code=MHAEcodeTcode,EsegTseg,EtexTtex;Z2=CT′code;f=DecZ2;其中MHA·為多頭注意力網絡,而Ecode、Eseg、Etex分別為全掩碼初始索引序列、人體解析圖以及人體紋理圖所對應的可學習編碼本,C·表示根據索引來提取編碼本中的對應編碼,Dec·為解碼器;所述訓練好的采樣器的獲取方法包括:獲取人體圖像作為源圖像;將源圖像輸入訓練好的有限標量量化模型FSQ得到真實索引序列;將全掩碼初始索引序列、根據源圖像生成的人體解析圖和人體紋理圖輸入采樣器,采樣得到輸出的索引序列;通過減小輸出的索引序列與真實索引序列之間的差值訓練采樣器,得到訓練好的采樣器;所述有限標量量化模型FSQ包括:編碼器,用于對輸入的圖像進行編碼,得到離散前的特征圖Z;離散化模塊,用于對離散前的特征圖Z中每一個向量通過縮放以及四舍五入的方式,使得每一維都是固定范圍內的一個整數,得到離散后的特征圖,過程表示為: 其中,Z為人體圖像I通過編碼器后得到的特征圖,Zq是特征圖Z通過離散化模塊離散后的特征圖,sg·為梯度截止函數,lbi為第i個紋理類別獨熱編碼,cat·用于將兩個向量在特征維度上連接,Round·操作為四舍五入操作,σ·為sigmoid操作,將特征向量的每一維都轉換到0,1區間,L為超參數,用于控制向量每一維的取值范圍;所述預構建的編碼本的獲取方法包括:針對每一類別的紋理分別訓練得到的一個訓練好的有限標量量化模型FSQ;提取每一類別的紋理對應的訓練好的有限標量量化模型FSQ中離散化模塊能夠輸出的特征向量范圍,構成該類別的紋理對應的編碼本,整體流程如下: 其中,E為原始的不同紋理的編碼本集合,為第i種紋理所對應的編碼本,ei為每一個編碼本中的編碼,為根據紋理類別更新后的第i類紋理對應的編碼本,n為編碼本的個數,即紋理類別的數量,cat·用于將兩個向量在特征維度上連接,lbi為第i個紋理類別獨熱編碼,d為超參數,用于控制維度,表示正整數集合。
如需購買、轉讓、實施、許可或投資類似專利技術,可聯系本專利的申請人或專利權人南京信息工程大學,其通訊地址為:210000 江蘇省南京市江北新區寧六路219號;或者聯系龍圖騰網官方客服,聯系龍圖騰網可撥打電話0551-65771310或微信搜索“龍圖騰網”。
1、本報告根據公開、合法渠道獲得相關數據和信息,力求客觀、公正,但并不保證數據的最終完整性和準確性。
2、報告中的分析和結論僅反映本公司于發布本報告當日的職業理解,僅供參考使用,不能作為本公司承擔任何法律責任的依據或者憑證。