恭喜浩鯨云計算科技股份有限公司鮑鐘峻獲國家專利權
買專利賣專利找龍圖騰,真高效! 查專利查商標用IPTOP,全免費!專利年費監控用IP管家,真方便!
龍圖騰網恭喜浩鯨云計算科技股份有限公司申請的專利一種基于樹近鄰上下文的大語言模型RAG優化方法獲國家發明授權專利權,本發明授權專利權由國家知識產權局授予,授權公告號為:CN119293195B 。
龍圖騰網通過國家知識產權局官網在2025-03-25發布的發明授權授權公告中獲悉:該發明授權的專利申請號/專利號為:202411817803.6,技術領域涉及:G06F16/3329;該發明授權一種基于樹近鄰上下文的大語言模型RAG優化方法是由鮑鐘峻;王玉木;陳前進;季偉;昌龍設計研發完成,并于2024-12-11向國家知識產權局提交的專利申請。
本一種基于樹近鄰上下文的大語言模型RAG優化方法在說明書摘要公布了:本發明一種基于樹近鄰上下文的大語言模型RAG優化方法,包括,讀取文檔的目錄結構和內容,生成對應的目錄樹并轉換為包含標題和級別的Markdown格式,若無標題則根據文檔模板自動提取;按照優先級將文檔切分為知識塊;在召回知識塊后,使用樹鄰近上下文方法擴充上下文,形成新的知識塊列表;將擴充后的知識塊按照文檔標識分組和排序,基于不同的字段和置信度拼接參考資料,生成來自原始文檔的字符串集合;使用構造的參考資料和新的知識塊列表,拼接提示詞并發送給大模型進行處理。本發明該方案通過優化上下文信息、強調重點內容、適配多種文檔格式以及提升用戶體驗等方式,全面增強了大模型在信息檢索和回答生成過程中的性能和實用性。
本發明授權一種基于樹近鄰上下文的大語言模型RAG優化方法在權利要求書中公布了:1.一種基于樹近鄰上下文的大語言模型RAG優化方法,其特征在于,包括以下步驟:步驟1:讀取文檔的目錄結構和內容,生成對應的目錄樹并轉換為包含標題和級別的Markdown格式,若無標題則根據文檔模板自動提取;步驟2:按照優先級將文檔切分為知識塊,每個知識塊包含字段,且包含的token數在預定范圍內;具體包括:根據markdown文檔目錄、語義、塊大小chunk_size把markdown文檔切分成知識塊;按標題切分:首先根據標題進行切分,形成初步的知識塊,如果切分后的知識塊小于指定的chunk_size,則不再進行進一步切分;語義切分:使用開源組件對初步知識塊進行語義切分,如果語義切分后的塊仍小于chunk_size,則不再切分;進一步切分:對于大于chunk_size的語義切分塊,根據chunk_size進行進一步切分,切分后的塊將共享相同的brother_chunk_id,以標識它們來自同一語義塊,如果沒有進一步切分,則brother_chunk_id設為-1;步驟3:使用檢索方法召回與用戶查詢相關的知識塊,擴充上下文,通過添加語義相近塊、兄弟節點和父節點,形成新的知識塊列表,確保總token數在模型支持的上下文長度內;步驟3具體如下:步驟3.1:使用檢索方法召回與用戶查詢相關的知識塊,生成初始的知識塊列表;步驟3.2:對召回的知識塊列表進行去重處理,移除重復的知識塊,合并知識塊列表,準備進行排序和擴充;步驟3.3:使用相關性算法或模型,根據用戶查詢對知識塊重新排序,評分越高,表示知識塊與查詢的相關性越強;步驟3.4:計算當前知識塊列表的總token數,根據大模型支持的最大上下文長度,確定可用于擴充的剩余token數;步驟3.5:將知識塊按照文檔標識進行分組,每個分組代表一個源文檔中的相關知識塊;在組內,按Rerank分數對知識塊降序排序,按照各組中最高Rerank分數,對分組進行降序排序;步驟3.6:為分組擴充上下文知識塊;步驟3.7:對每個分組內的知識塊,按照知識塊標識進行升序排序,確保知識塊的順序符合文檔的邏輯結構,便于模型理解;步驟4:將擴充后的知識塊按照文檔標識分組和排序,基于不同的字段和置信度拼接參考資料,生成來自原始文檔的字符串集合;拼接參考資料具體如下:構造參考資料,對每個知識塊分組,按照知識塊標識升序排序,遍歷排序后的知識塊,根據類型和來源拼接成字符串;根據知識塊的來源,使用不同的字段拼接參考資料,并使用知識塊的重新排序分數作為其置信度;對于擴充的知識塊,采用原始召回知識塊的分數;對于原始召回的知識塊、語義相近的知識塊、兄弟節點知識塊,拼接目錄鏈字段、內容字段和置信度;對于原始召回知識塊的父節點知識塊,拼接目錄鏈字段、摘要字段和置信度;將所有拼接的字符串組合起來,形成參考資料列表,每個字符串對應一個知識塊,所有字符串共同構成完整的參考資料;步驟5:使用構造的參考資料和新的知識塊列表,拼接提示詞并發送給大模型進行處理。
如需購買、轉讓、實施、許可或投資類似專利技術,可聯系本專利的申請人或專利權人浩鯨云計算科技股份有限公司,其通訊地址為:210000 江蘇省南京市雨花臺區安德門大街50號B座6樓;或者聯系龍圖騰網官方客服,聯系龍圖騰網可撥打電話0551-65771310或微信搜索“龍圖騰網”。
1、本報告根據公開、合法渠道獲得相關數據和信息,力求客觀、公正,但并不保證數據的最終完整性和準確性。
2、報告中的分析和結論僅反映本公司于發布本報告當日的職業理解,僅供參考使用,不能作為本公司承擔任何法律責任的依據或者憑證。