恭喜山東威爾數(shù)據(jù)股份有限公司李大鵬獲國家專利權(quán)
買專利賣專利找龍圖騰,真高效! 查專利查商標(biāo)用IPTOP,全免費(fèi)!專利年費(fèi)監(jiān)控用IP管家,真方便!
龍圖騰網(wǎng)恭喜山東威爾數(shù)據(jù)股份有限公司申請的專利開發(fā)文檔智能解析方法獲國家發(fā)明授權(quán)專利權(quán),本發(fā)明授權(quán)專利權(quán)由國家知識產(chǎn)權(quán)局授予,授權(quán)公告號為:CN119272753B 。
龍圖騰網(wǎng)通過國家知識產(chǎn)權(quán)局官網(wǎng)在2025-03-25發(fā)布的發(fā)明授權(quán)授權(quán)公告中獲悉:該發(fā)明授權(quán)的專利申請?zhí)?專利號為:202411783140.0,技術(shù)領(lǐng)域涉及:G06F40/205;該發(fā)明授權(quán)開發(fā)文檔智能解析方法是由李大鵬;尹孟磊;王冠男設(shè)計(jì)研發(fā)完成,并于2024-12-06向國家知識產(chǎn)權(quán)局提交的專利申請。
本開發(fā)文檔智能解析方法在說明書摘要公布了:本發(fā)明公開了一種開發(fā)文檔智能解析方法,該解析方法用于從開發(fā)文檔中解析出結(jié)構(gòu)化數(shù)據(jù)集合。首先定義第一類別集合和第二類別集合,構(gòu)建第一語義識別網(wǎng)絡(luò)和第二語義識別網(wǎng)絡(luò),并構(gòu)建若干關(guān)鍵詞提取模塊;然后將開發(fā)文檔劃分為多個(gè)部分,然后依次遍歷每個(gè)部分,對于每個(gè)部分,根據(jù)其是文字段落還是表格進(jìn)行不同的處理,處理過程中使用第一語義識別網(wǎng)絡(luò)、第二語義識別網(wǎng)絡(luò)和各關(guān)鍵詞提取模塊,得到結(jié)構(gòu)化數(shù)據(jù)集合。本發(fā)明能夠自動(dòng)讀取開發(fā)文檔并準(zhǔn)確提取出需要的結(jié)構(gòu)化數(shù)據(jù),從而大幅節(jié)省開發(fā)人員閱讀和整理文檔所需要的時(shí)間,提高開發(fā)效率,同時(shí)還具有解析準(zhǔn)確性高、完整性好等優(yōu)點(diǎn)。
本發(fā)明授權(quán)開發(fā)文檔智能解析方法在權(quán)利要求書中公布了:1.一種開發(fā)文檔智能解析方法,其特征在于:該解析方法用于從開發(fā)文檔中解析出結(jié)構(gòu)化數(shù)據(jù)集合;所述結(jié)構(gòu)化數(shù)據(jù)集合包含若干數(shù)據(jù)項(xiàng),每個(gè)數(shù)據(jù)項(xiàng)中包含用于描述該數(shù)據(jù)項(xiàng)的第一屬性,還包括實(shí)體屬性和狀態(tài)量;所述實(shí)體屬性為包含若干參數(shù)項(xiàng)的集合,每個(gè)參數(shù)項(xiàng)中包含若干用于描述該參數(shù)項(xiàng)的第二屬性;所述狀態(tài)量用于指向當(dāng)前編輯的實(shí)體屬性;定義第一類別集合和第二類別集合;所述第一類別集合中的第一類別包括用于描述數(shù)據(jù)項(xiàng)中第一屬性的類別,還包括與實(shí)體屬性對應(yīng)的“包裝實(shí)體”和“表格”類別以及代表無需關(guān)注內(nèi)容的“噪聲”類別;所述第二類別集合中的第二類別是用于描述參數(shù)項(xiàng)下第二屬性的類別;構(gòu)建第一語義識別網(wǎng)絡(luò)和第二語義識別網(wǎng)絡(luò),所述第一語義識別網(wǎng)絡(luò)用于判斷所輸入的內(nèi)容所屬的第一類別,所述第二語義識別網(wǎng)絡(luò)用于判斷所輸入的內(nèi)容所屬的第二類別;構(gòu)建若干關(guān)鍵詞提取模塊,各關(guān)鍵詞提取模塊分別對應(yīng)不同的第一類別,關(guān)鍵詞提取模塊用于從輸入的內(nèi)容中提取出關(guān)鍵詞;解析步驟為:步驟1、初始化結(jié)構(gòu)化數(shù)據(jù)集合、段落stored和第一類別全局id,所述段落stored用于存儲已讀取且待處理的段落,所述第一類別全局id用于記錄當(dāng)前段落stored中內(nèi)容所屬的第一類別;步驟2、將開發(fā)文檔劃分為多個(gè)部分,然后依次遍歷每個(gè)部分,對于每個(gè)部分,分別按步驟3的方式進(jìn)行處理;步驟3、判斷當(dāng)前讀取的部分是文字段落還是表格,如果是文字段落則執(zhí)行步驟4、否則執(zhí)行步驟5;步驟4、將當(dāng)前讀取的文字段落作為段落current,使用第一語義識別網(wǎng)絡(luò)得到段落current對應(yīng)的第一類別,確認(rèn)段落current不屬于“噪聲”之后,判斷段落current的第一類別與第一類別全局id是否一致,一致則將段落current加入到段落stored中并結(jié)束對當(dāng)前讀取的部分的處理,不一致則對段落stored中的內(nèi)容進(jìn)行結(jié)算處理,然后將段落stored清空、將段落current加入到段落stored中,最后將段落current的第一類別作為第一類別全局id;步驟5、判斷段落stored是否包含內(nèi)容,如果包含則依次執(zhí)行步驟5-1和步驟5-2,否則直接執(zhí)行步驟5-2;步驟5-1、對段落stored中的內(nèi)容進(jìn)行結(jié)算處理,然后將段落stored清空;步驟5-2、遍歷處理當(dāng)前讀取的表格的每一行;對于當(dāng)前行,先將該行內(nèi)容合并為字符串,然后使用第一語義識別網(wǎng)絡(luò)對該字符串進(jìn)行識別,如果識別出的第一類別是“包裝實(shí)體”或“表格”,則將該行按列分為多個(gè)單元格,并創(chuàng)建一個(gè)參數(shù)項(xiàng);對于每個(gè)單元格,使用第二語義識別網(wǎng)絡(luò)對單元格的內(nèi)容進(jìn)行識別得到所屬的第二類別,然后將單元格的內(nèi)容賦值到創(chuàng)建的參數(shù)項(xiàng)中與識別出的第二類別所對應(yīng)的第二屬性;每一行的單元格遍歷完成后,將該行對應(yīng)的參數(shù)項(xiàng)加入到當(dāng)前指向的數(shù)據(jù)項(xiàng)中其狀態(tài)量所指向的實(shí)體屬性中。
如需購買、轉(zhuǎn)讓、實(shí)施、許可或投資類似專利技術(shù),可聯(lián)系本專利的申請人或?qū)@麢?quán)人山東威爾數(shù)據(jù)股份有限公司,其通訊地址為:264003 山東省煙臺市萊山區(qū)瑞達(dá)路8號;或者聯(lián)系龍圖騰網(wǎng)官方客服,聯(lián)系龍圖騰網(wǎng)可撥打電話0551-65771310或微信搜索“龍圖騰網(wǎng)”。
1、本報(bào)告根據(jù)公開、合法渠道獲得相關(guān)數(shù)據(jù)和信息,力求客觀、公正,但并不保證數(shù)據(jù)的最終完整性和準(zhǔn)確性。
2、報(bào)告中的分析和結(jié)論僅反映本公司于發(fā)布本報(bào)告當(dāng)日的職業(yè)理解,僅供參考使用,不能作為本公司承擔(dān)任何法律責(zé)任的依據(jù)或者憑證。
- 恭喜安全創(chuàng)造有限責(zé)任公司亞當(dāng)·勒韋獲國家專利權(quán)
- 恭喜深圳大醫(yī)伽瑪?shù)犊萍加邢薰竟佾@國家專利權(quán)
- 恭喜北京三快在線科技有限公司高玉龍獲國家專利權(quán)
- 恭喜廣州方邦電子股份有限公司蘇陟獲國家專利權(quán)
- 恭喜浙江紹興蘇泊爾生活電器有限公司曾俊兵獲國家專利權(quán)
- 恭喜三星顯示有限公司全景辰獲國家專利權(quán)
- 恭喜佳能株式會(huì)社松丸直樹獲國家專利權(quán)
- 恭喜荊門市格林美新材料有限公司許開華獲國家專利權(quán)
- 恭喜三星電子株式會(huì)社李圣民獲國家專利權(quán)
- 恭喜佛山市順德區(qū)美的飲水機(jī)制造有限公司李楊敏獲國家專利權(quán)


熱門推薦
- 恭喜瑞典愛立信有限公司N·維爾納松獲國家專利權(quán)
- 恭喜三菱綜合材料株式會(huì)社湯本遼平獲國家專利權(quán)
- 恭喜朗姆研究公司法亞茲·謝赫獲國家專利權(quán)
- 恭喜深圳市合元科技有限公司張?jiān)崎_獲國家專利權(quán)
- 恭喜意法半導(dǎo)體(格勒諾布爾2)公司S·萊切獲國家專利權(quán)
- 恭喜江蘇安靠智電股份有限公司程堯軒獲國家專利權(quán)
- 恭喜朗姆研究公司丹尼爾·亞瑟·布朗獲國家專利權(quán)
- 恭喜天津工業(yè)大學(xué)桑宏強(qiáng)獲國家專利權(quán)
- 恭喜咸陽恒佳機(jī)械有限公司張恒獲國家專利權(quán)
- 恭喜楚天科技股份有限公司張嬌武獲國家專利權(quán)