1. Trang chủ
  2. » Luận Văn - Báo Cáo

đồ án tốt nghiệp xây dựng mô hình mở rộng truy vấn trong truy xuất thông tin văn bản

251 1K 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 251
Dung lượng 2,42 MB

Nội dung

ĐẠI HỌC QUỐC GIA TP. HCM TRƯỜNG ĐẠI HỌC BÁCH KHOA TP.HCM NGUYỄN CHÁNH THÀNH XÂY DỰNG MÔ HÌNH MỞ RỘNG TRUY VẤN TRONG TRUY XUẤT THÔNG TIN VĂN BẢN LUẬN ÁN TIẾN SĨ KỸ THUẬT TP.HỒ CHÍ MINH – 2010 ĐẠI HỌC QUỐC GIA TP. HCM TRƯỜNG ĐẠI HỌC BÁCH KHOA TP.HCM NGUYỄN CHÁNH THÀNH XÂY DỰNG MÔ HÌNH MỞ RỘNG TRUY VẤN TRONG TRUY XUẤT THÔNG TIN VĂN BẢN Chuyên ngành: KHOA HỌC MÁY TÍNH Mã số: 62.48.01.01 LUẬN ÁN TIẾN SĨ KỸ THUẬT NGƯỜI HƯỚNG DẪN KHOA HỌC PGS.TS. PHAN THỊ TƯƠI TP.HỒ CHÍ MINH – 2010 LỜI CAM ĐOAN Tôi cam ñoan rằng nội dung của luận án này là kết quả nghiên cứu của bản thân. Tất cả những tham khảo từ các nghiên cứu liên quan ñiều ñược nêu nguồn gốc một cách rõ ràng từ danh mục tài liệu tham khảo trong luận án. Những ñóng góp trong luận án là kết quả nghiên cứu của tác giả ñã ñược công bố trong các bài báo khoa học trong phần “Các công trình khoa học” của luận án và chưa ñược công bố trong bất kỳ công trình khoa học nào khác. Tác giả luận án Nguyễn Chánh Thành LỜI CẢM ƠN Trong quá trình hoàn thành luận án này, tôi ñã ñược các thầy cô nơi cơ sở ñào tạo giúp ñỡ tận tình, cơ quan nơi công tác tạo mọi ñiều kiện thuận lợi và bạn bè cùng gia ñình thường xuyên ñộng viên khích lệ. Luận án này không thể hoàn thành tốt nếu không có sự tận tình hướng dẫn và sự giúp ñỡ quí báu của PGS.TS. Phan Thị Tươi, giáo viên hướng dẫn mà tôi tôn vinh và muốn ñược bày tỏ lòng biết ơn sâu sắc nhất. Tôi cũng muốn ñược bày tỏ lòng biết ơn ñối với tập thể các thầy cô khoa Khoa học và Kỹ thuật Máy tính trường Đại học Bách khoa TP. Hồ Chí Minh ñã giúp ñỡ và tạo ñiều kiện cho tôi rất nhiều trong quá trình học tập và nghiên cứu ở Khoa; ñặc biệt PGS.TS. Cao Hoàng Trụ, PGS.TS. Dương Tuấn Anh, PGS.TS. Đỗ Phúc và TS. Đặng Trần Khánh ñã có những lời khuyên quý giá trong quá trình làm NCS và viết luận án này; cảm ơn Phòng quản lý Sau Đại học về sự hỗ trợ các thủ tục hoàn thành luận án. Sự biết ơn của tôi xin ñược gửi ñến gia ñình, vợ con và người thân, ñã hỗ trợ ñộng viên và tạo mọi ñiều kiện thuận lợi cho tôi trong suốt quá trình hoàn thành khóa học NCS. Cuối cùng tôi cảm ơn anh Ngô Hùng Phương cùng tất cả bạn bè, ñặc biệt các thành viên trong nhóm nghiên cứu BK-NLP (thuộc trường Đại học Bách khoa Tp.HCM) ñã góp nhiều ý kiến thiết thực và có những lời ñộng viên khích lệ quý báu giúp tôi vượt qua khó khăn và hoàn thành tốt luận án. Tác giả luận án Nguyễn Chánh Thành TÓM TẮT Trong truy xuất thông tin (Information Retrieval, IR), do những yếu tố khác nhau, người sử dụng thường dùng các truy vấn dạng ñơn giản biểu diễn yêu cầu cần tìm. Việc này dẫn ñến kết quả tìm ñược không ñáp ứng ñủ nhu cầu mong muốn, hoặc chất lượng thấp. Do ñó, mở rộng truy vấn là vấn ñề cần thiết, ñể từ ñó giúp hệ thống truy xuất thông tin có thêm thông tin theo ngữ cảnh nhằm cải tiến các kết quả truy vấn. Thông tin theo ngữ cảnh có thể thu ñược từ những thông tin phản hồi liên quan, từ ñồng hiện hay mô hình tri thức như bản thể học (ontology). Việc ứng dụng ontology ñể trợ giúp việc mở rộng truy vấn ñược nghiên cứu từ ñầu thập niên 1990 với một số thành công. Trong bài toán mở rộng truy vấn, một số nhóm nghiên cứu trên thế giới ñã sử dụng ontology WordNet. Một số nhóm khác ñã phát triển ontology ñể phục vụ nhu cầu mở rộng truy vấn. Những ñịnh hướng ñặc biệt về cấu trúc ontology cần xây dựng bao gồm ñề xuất về nhóm thành phần lớp, thể hiện, thuộc tính, hay ñề xuất về nhóm thể hiện, thuộc tính, khái niệm và quan hệ rời rạc (disjointness), IS-A, và tương ñương (equivalence), hoặc phát triển một mô hình mới về mạng ngữ nghĩa dựa trên những quan hệ trích dẫn từ WordNet như quan hệ thượng danh (hypernymy), hạ danh (hyponymy) … cùng một số quan hệ ñược ñịnh nghĩa thêm như chú giải (gloss), chủ ñề và miền (domain). Luận án này ñề xuất phương pháp mở rộng truy vấn dựa trên cơ sở bản thể học (ontology-based query expansion). Để thực hiện mục tiêu trên, luận án phải giải quyết các vấn ñề chính: (1) ñề xuất cơ sở lý thuyết về các mô hình mở rộng truy vấn dựa trên ontology; (2) phát triển và huấn luyện ontology bằng phương pháp khai thác kho ngữ liệu sẵn có và phương pháp rút trích dữ liệu từ WordNet; (3) ñề xuất phương pháp hoàn thiện và mở rộng truy vấn. Phần thực nghiệm của luận án ñược tiến hành cho ngôn ngữ tiếng Anh dựa trên nguồn dữ liệu và truy vấn tiếng Anh từ nguồn TREC (Text REtrieval Conference) trong một số lĩnh vực. Các kết quả thực nghiệm phản ánh tính khả thi của những phương pháp ñề xuất trong luận án, ñồng thời cho thấy nhiều triển vọng phát triển của các ñề xuất lý thuyết trong luận án. MỤC LỤC M Ụ C L Ụ C i DANH M Ụ C CÁC B Ả NG iii DANH M Ụ C CÁC HÌNH v DANH M Ụ C CÁC GI Ả I THU Ậ T vii DANH M Ụ C CÁC T Ừ VI Ế T T Ắ T viii Ch ươ ng 1 GI Ớ I THI Ệ U 1 1.1 Độ ng c ơ nghiên c ứ u 1 1.2 M ụ c tiêu và ph ạ m vi nghiên c ứ u 5 1.3 Đ óng góp chính c ủ a lu ậ n án 8 1.4 C ấ u trúc c ủ a lu ậ n án 10 1.5 Các quy ướ c 13 1.6 Tóm t ắ t n ộ i dung lu ậ n án 13 Chương 2 CÁC NGHIÊN CỨU LIÊN QUAN 14 2.1 Gi ớ i thi ệ u 14 2.2 Các nghiên c ứ u liên quan trong n ướ c 15 2.3 Các nghiên c ứ u v ề ontology 19 2.4 Các nghiên c ứ u v ề m ở r ộ ng truy v ấ n 23 2.5 Khai thác d ữ li ệ u t ừ WordNet 39 2.6 Tóm l ượ c 44 Chương 3 XÂY DỰNG NỀN TẢNG HỆ THỐNG 46 3.1 Gi ớ i thi ệ u 46 3.2 Bài toán Xây d ự ng ontology và bài toán Hoàn ch ỉ nh m ở r ộ ng truy v ấ n 46 3.3 Các mô hình cho bài toán m ở r ộ ng truy v ấ n 60 3.4 M ẫ u nh ậ n d ạ ng c ụ m danh t ừ 65 3.5 Ph ươ ng pháp th ự c nghi ệ m và ñ ánh giá 70 3.6 Ngu ồ n d ữ li ệ u th ự c nghi ệ m 74 3.7 Tóm l ượ c 88 Chương 4 XÂY DỰNG ONTOLOGY OOMP 90 4.1 Gi ớ i thi ệ u 90 4.2 Xây d ự ng ontology OOMP 90 4.3 Ph ươ ng pháp hu ấ n luy ệ n d ự a trên kho ng ữ li ệ u 95 4.4 Ph ươ ng pháp hu ấ n luy ệ n d ự a trên WordNet 100 4.5 C ơ ch ế t ự hu ấ n luy ệ n c ủ a ontology OOMP 107 4.6 Các ứ ng d ụ ng c ủ a ontology và quan h ệ 109 4.7 Tóm l ượ c 110 Chương 5 HOÀN CHỈNH VÀ RÚT GỌN TRUY VẤN 112 5.1 Gi ớ i thi ệ u 112 i 5.2 Hoàn ch ỉ nh và rút g ọ n truy v ấ n 113 5.3 Ki ể m tra c ụ m danh t ừ hoàn ch ỉ nh 114 5.4 T ạ o c ụ m danh t ừ hoàn ch ỉ nh 121 5.5 T ạ o c ụ m danh t ừ rút g ọ n 122 5.6 Hoàn ch ỉ nh c ụ m danh t ừ 123 5.7 Gi ả i thu ậ t rút g ọ n thành ph ầ n c ụ m danh t ừ 135 5.8 Tóm l ượ c 140 Chương 6 MỞ RỘNG TRUY VẤN 142 6.1 M ở r ộ ng truy v ấ n cho ñộ ng c ơ tìm ki ế m trên Web 142 6.2 M ở r ộ ng truy v ấ n cho h ệ th ố ng truy xu ấ t thông tin có s ẵ n 153 6.3 Tóm l ượ c 165 Ch ươ ng 7 K Ế T LU Ậ N 167 7.1 Các k ế t qu ả ñạ t ñượ c 167 7.2 H ướ ng phát tri ể n 171 7.3 L ờ i k ế t 172 CÁC CÔNG TRÌNH KHOA H Ọ C C Ủ A TÁC GI Ả 174 TÀI LI Ệ U THAM KH Ả O 177 i Phụ lục A. Tóm lược về WordNet a Phụ lục B. Cấu trúc cụm danh từ tiếng Anh c Phụ lục C. Danh mục từ loại tiếng Anh g Phụ lục D. Danh mục luật sinh dạng cụm danh từ của văn phạm tiếng Anh xây dựng dựa trên TreeBank i Phụ lục E. Tính chất ảnh-tạo ảnh trong toán học o Phụ lục F. Cấu trúc ñịnh dạng tài liệu TREC p Phụ lục G. Tổ chức cơ sở dữ liệu của thực nghiệm trong luận án s ii DANH MỤC CÁC BẢNG Bảng 3.1. Danh sách mã lỗi quy ước 57 Bảng 3.2. Các trường hợp liên kết giữa q và q’ ñể tính ℘(q | q' ) 63 Bảng 3.3. Các trường hợp liên kết giữa q và q’ ñể tính ℘(q') 63 Bảng 3.4.Tập luật sinh tiếng Anh liên quan cụm danh từ (nguồn [2]) 67 Bảng 3.5. Danh sách mẫu cơ bản ñặc tả cụm danh từ 68 Bảng 3.6. Thống kê thành phần dữ liệu từ TREC 76 Bảng 3.7. Danh sách tập chỉ mục xây dựng từ nguồn dữ liệu trong bảng 3.6 78 Bảng 3.8. Thống kê mục từ, tài liệu và liên kết của nguồn dữ liệu 79 Bảng 3.9. Thống kê các tài liệu liên quan theo nguồn dữ liệu 81 Bảng 3.10. Danh sách mẫu sử dụng trong thực nghiệm 83 Bảng 3.11. Thống kê cụm danh từ phân biệt rút trích từ kho ngữ liệu tiếng Anh 84 Bảng 4.1. Thống kê số lượng cụm danh từ theo dạng mẫu 98 Bảng 4.2. Dữ liệu dự tuyển rút trích ñược trong giải thuật CB-KBT 99 Bảng 4.3. Dữ liệu dự tuyển rút trích ñược trong giải thuật CB-KBT 99 Bảng 4.4. Các thống kê cho dữ liệu huấn luyện 100 Bảng 4.5. Danh mục phân lớp từ vựng sử dụng trong WordNet 105 Bảng 4.6.Thống kê các mục từ dùng trong quá trình huấn luyện WB-BKT 106 Bảng 4.7. Dữ liệu ñược rút trích từ WordNet trong giải thuật WB-KBT 106 Bảng 4.8. Các thống kê cho dữ liệu huấn luyện 106 Bảng 4.9. Dữ liệu bổ sung tạo bởi giải thuật A-KBT 108 Bảng 5.1. Thống kê về thời gian thực thi của giải thuật CNPV 117 Bảng 5.2. Các trường hợp xử lý trong giải thuật CNPV theo dạng lỗi 117 Bảng 5.3. Các trường hợp xử lý trong giải thuật CNPV theo dạng lỗi và mẫu 118 Bảng 5.4. Số liệu thống kê các phần tử phân tích trung gian 120 Bảng 5.5. Thống kê về thời gian thực thi của giải thuật NPC 129 Bảng 5.6. Thống kê các trường hợp xử lý trong giải thuật NPC theo dạng lỗi 130 Bảng 5.7. Thống kê các trường hợp xử lý trong giải thuật NPC theo dạng mẫu 130 Bảng 5.8. Thống kê các phần tử phân tích trung gian của giải thuật NPC 131 9 Bảng 5.9. Kết quả thực nghiệm của giải thuật CNPG trên dữ liệu trung gian của giải thuật NPC 131 Bảng 5.10. Phân tích kết quả thực nghiệm của giải thuật NPC 133 Bảng 5.11. So sánh kết quả của phương pháp tìm kiếm thô và NPC 134 Bảng 5.12. Thống kê về thời gian thực thi của giải thuật NPMR 137 Bảng 5.13. Thống kê các phần tử phân tích trung gian của giải thuật NPMR 137 Bảng 5.14. Kết quả thực nghiệm của giải thuật RNPG trên dữ liệu trung gian của giải thuật NPMR 137 Bảng 5.15. Phân tích kết quả thực nghiệm của giải thuật NPMR 139 Bảng 5.16. So sánh kết quả của phương pháp tìm kiếm thô và NPMR 140 Bảng 6.1. Thống kê về thời gian thực thi của giải thuật SNPE 148 Bảng 6.2. Thống kê các trường hợp xử lý trong giải thuật SNPE theo dạng lỗi 148 Bảng 6.3. Thống kê các phần tử phân tích trung gian của giải thuật SNPE 149 Bảng 6.4. Kết quả thực nghiệm của giải thuật CNPG trên dữ liệu trung gian của giải thuật SNPE 149 Bảng 6.5. Phân tích kết quả thực nghiệm của giải thuật SNPE 151 Bảng 6.6. So sánh kết quả của phương pháp tìm kiếm thô và SNPE 153 Bảng 6.7. Thống kê số liệu thực nghiệm trong giải thuật SIC 160 Bảng 6.8. Số liệu chi tiết của tập si_TermLink tạo ra từ giải thuật SIC 161 Bảng 6.9. Thống kê kết quả trong tập si_TermLink tạo ra từ giải thuật SIC 161 Bảng 6.10. So sánh kết quả thực nghiệm 1 163 Bảng 6.11. So sánh kết quả thực nghiệm 2 164 Bảng 6.12. So sánh kết quả thực nghiệm 3 165 10 [...]... thụng tin liờn quan ủn nhng hnh ủng, nhng quyt ủnh ca ngi dựng Ng cnh trong truy xut thụng tin bao gm nhiu vn ủ trong ủú cú m rng truy vn Mt khú khn l lm sao biu din ủc ngha ca truy vn bng cỏc thut ng (term) mt cỏch chớnh xỏc Do vy, m rng truy vn cho phộp ngi dựng thc hin tỡm kim thụng tin bng truy vn mi cú cỏc thut ng l s bin ủi hỡnh thỏi ca thut ng ban ủu v (hoc) mt s thut ng mi ủc thờm vo truy vn... kim thụng tin cú ủ truy hi cao ph thuc vo vic so trựng cỏc t khúa i vi vic m rng truy vn, h thng xỏc ủnh ng ngha truy vn ủc chớnh xỏc hn, ủiu ủú cho phộp kt qu truy vn tt hn Thụng qua kt qu truy vn m rng, ngi dựng cú th hc tp cỏch phỏt biu truy vn rừ rng v chớnh xỏc hn ủ thu ủc cỏc kt qu hu ớch T mt truy vn ca ngi dựng, m rng truy vn s b sung vo ủú mt s t hay thut ng liờn quan v to ra dng truy vn mi... phng phỏp x lý truy vn ny cú th ỏp dng trong Bi toỏn 2, cng nh trong cỏc bi toỏn khỏc nh: Kim tra tớnh hon chnh ca cm danh t ting Anh theo quan ủim ngụn ng hc tớnh toỏn (ng dng trong lnh vc x lý ngụn ng t nhiờn: truy xut thụng tin, rỳt trớch thụng tin, túm lc ni dung vn bn) Hon chnh v m rng cm danh t tng ủng (ng dng trong lnh vc x lý ngụn ng t nhiờn: truy xut thụng tin, rỳt trớch thụng tin, túm lc ni... ủc ủng thi ghi c bng ting Vit v ting Anh (hoc ký hiu vit tt tng ng nu cú) ln lit kờ ủu tiờn trong lun ỏn, sau ủú chỳng s ủc dựng thng nht theo mt tờn gi ting Vit hay ting Anh 1.6 Túm tt ni dung lun ỏn Truy vn ting Anh (dng cm danh t) Bi toỏn 2B: m rng Bi toỏn 2A: m rng truy vn da trờn ontology OOMP Truy vn hon chnh? (Ch.5: gt.CNPV) (ton cc) Y Rỳt gn truy vn (Ch.5: gt.NPMR) N To truy vn rỳt gn (Ch.5:... h thng truy xut thụng tin (A) Mụ hỡnh x lý ca lun ỏn (phm vi nghiờn cu ca lun ỏn) (B) ng c tỡm kim thụng tin (thuc h thng truy xut thụng tin) (C) Kt qu tỡm kim thụng tin t yờu cu ca cỏc cõu truy vn ủó m rng Vi mụ hỡnh ủc mụ t hỡnh 1.1, trong mc (A), cõu truy vn nhp (dng cm danh t bao gm cỏc thnh phn l tớnh t hay ch cú danh t ủn) ủc x lý ủ tr v tp cỏc cõu truy vn ủó ủc m rng (cm danh t cú dng truy vn... (trong phm vi xỏc ủnh cho ting Vit) H thng cha thc s ủ mnh ủ nhn bit ng ngha ca truy vn T cỏc phõn tớch trờn, chỳng ta nhn thy nguyờn nhõn chớnh l cỏc h thng tỡm kim thụng tin cha ủ mnh nờn kt qu ủa ra khụng th h tr ngi dựng nh mong ủi Truy vn ca ngi dựng cng cha phn ỏnh ủy ủ ng ngha ủ h tr cho cỏc quỏ trỡnh tỡm kim v truy xut thụng tin ủc tt hn Vỡ vy, vic b sung ng ngha vo truy vn ban ủu ca ngi dựng. .. toỏn kinh ủin trong lnh vc Truy xut thụng tin l M rng truy vn ú l quỏ trỡnh b sung mt s t vo truy vn ca ngi dựng nhm to ra cỏc truy vn mi tng ủng ng ngha Bi toỏn ny l vn ủ ủc quan tõm vỡ nú cú th loi b nhp nhng ng ngha ca truy vn trong ngụn ng t nhiờn, cng nh khc phc nhng hn ch ca vic s dng t khúa ủ th hin mt khỏi nim thụng tin Krovetz v Croft [109] ủó quan sỏt thy phn ln cỏc li ớch thu ủc trong vic tỡm... kt qu nghiờn cu (a) v cú th trin khai trong thc t ủ mang li kt qu truy xut thụng tin tt hn Nh ủnh hng nờu trờn, phm vi nghiờn cu ca lun ỏn ủc th hin trong hỡnh 1.1 (trong khung ủng gch ủt nột) (A) Nhp: Cõu truy vn dng cm danh t (B) B x lý m rng truy vn trờn c s kt hp vi ontology Xut: ng c tỡm kim thụng tin Cỏc cõu truy vn: - dng cm danh t, - ủó ủc m rng cú dng truy vn hon chnh Kt qu tr v (tp ti liu)... truy vn trong ủú hng ủn vic s dng thụng tin ng cnh ủ xỏc ủnh cỏc t cn thờm mt cỏch hp lý Thụng tin theo ng cnh cú th thu ủc t cỏc thụng tin phn hi liờn quan (relevance feedback), t cỏc t ủng hin (co-occurrence term) v trong thi gian gn ủõy l t cỏc mụ hỡnh tri thc nh bn th hc (ontology) Hin nay, thụng tin liờn quan ng cnh ca truy vn l mt vn ủ ủang ủc cỏc nh nghiờn cu khai thỏc nhm ci tin quỏ trỡnh truy. .. cao nht vo truy vn ban ủu Cỏc hm tớnh trng s khỏc nhau ủa ra nhng kt qu khỏc nhau, do ủú hiu sut ca vic truy vn ph thuc vo cỏch thc tớnh cỏc trng s Vi dng m rng truy vn cú ngi dựng tr giỳp, h thng s sinh ra cỏc thut ng phự hp cho vic m rng truy vn v ngi dựng t chn mt s trong cỏc thut ng ủú ủ thờm vo Vn ủ ct lừi ca bi toỏn m rng truy vn l xỏc ủnh cỏc t thớch hp ủ thờm vo truy vn ca ngi dựng Nhiu nghiờn . GIA TP. HCM TRƯỜNG ĐẠI HỌC BÁCH KHOA TP.HCM NGUYỄN CHÁNH THÀNH XÂY DỰNG MÔ HÌNH MỞ RỘNG TRUY VẤN TRONG TRUY XUẤT THÔNG TIN VĂN BẢN LUẬN ÁN TIẾN SĨ KỸ THUẬT TP.HỒ CHÍ MINH – 2010 ĐẠI HỌC QUỐC. HỌC BÁCH KHOA TP.HCM NGUYỄN CHÁNH THÀNH XÂY DỰNG MÔ HÌNH MỞ RỘNG TRUY VẤN TRONG TRUY XUẤT THÔNG TIN VĂN BẢN Chuyên ngành: KHOA HỌC MÁY TÍNH Mã số: 62.48.01.01 LUẬN ÁN TIẾN SĨ KỸ THUẬT NGƯỜI HƯỚNG. lượng thấp. Do ñó, mở rộng truy vấn là vấn ñề cần thiết, ñể từ ñó giúp hệ thống truy xuất thông tin có thêm thông tin theo ngữ cảnh nhằm cải tiến các kết quả truy vấn. Thông tin theo ngữ cảnh

Ngày đăng: 19/08/2014, 17:22

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
[2] Nguyễn Chớ Hiếu. Mụ hỡnh khai thỏc ủặc tớnh ngụn ngữ ủớch nhằm xỏc ủịnh cỏc cụm danh từ cơ sở tương ứng Anh-Việt, Luận án tiến sĩ. Đại học Quốc gia Tp.Hồ Chí Minh. 2007 Sách, tạp chí
Tiêu đề: Mụ hỡnh khai thỏc ủặc tớnh ngụn ngữ ủớch nhằm xỏc ủịnh cỏc cụmdanh từ cơ sở tương ứng Anh-Việt
[3] Nguyễn Chí Hiếu, Phan Thị Tươi, Nguyễn Xuân Dũng, Nguyễn Quang Châu. Sử dụng kỹ thuật Pruning vào bài toỏn xỏc ủịnh từ loại. Tạp chớ Phỏt triển Khoa học &Công nghệ, tập 8, số 11, 14-23, 2005 Sách, tạp chí
Tiêu đề: Sử dụng kỹ thuật Pruning vào bài toỏn xỏc ủịnh từ loại
[5] Nguyễn Quang Chõu, Phan Thị Tươi. Nhận diện cụm từ ủặc trưng ngữ nghĩa trong tiếng Việt. Tạp chí Bưu chính Viễn thông và Công nghệ thông tin, số 19, 2/2008 Sách, tạp chí
Tiêu đề: Nhận diện cụm từ ủặc trưng ngữ nghĩa trongtiếng Việt
[6] Nguyễn Quang Chõu, Phan Thị Tươi, Cao Hoàng Trụ. Tự ủộng rỳt trớch cỏc cụm danh từ Anh - Việt từ kho ngữ liệu song ngữ. Kỹ yếu hội thảo khoa học Quốc gia lần II “Nghiên cứu cơ bản và Ứng dụng công nghệ thông tin” (FAIR’2005), Đại học Bách khoa Tp.HCM, Việt nam, 23-24/9/2005 Sách, tạp chí
Tiêu đề: Tự ủộng rỳt trớch cỏc cụm danh từ Anh - Việt từ kho ngữ liệu song ngữ". Kỹ yếu hội thảo khoa học Quốc gia lầnII “Nghiên cứu cơ bản và Ứng dụng công nghệ thông tin
[7] Thông tấn xã Việt nam. Thị trường internet Việt Nam: Bùng nổ và hấp dẫn. [online]. http://www.vnagency.com.vn/TrangChu/VN/tabid/58/itemid/225519/ Sách, tạp chí
Tiêu đề: Thị trường internet Việt Nam: Bùng nổ và hấp dẫn
[8] Vũ Ngọc Tỳ. Nghiờn cứu ủối chiếu trật tự từ Anh-Việt trờn một số cấu trỳc cỳ phỏp cơ bản, Luận án PTS Ngữ văn. ĐHQG Hà nội. 1996.Tiếng Anh Sách, tạp chí
Tiêu đề: Nghiờn cứu ủối chiếu trật tự từ Anh-Việt trờn một số cấu trỳc cỳ phỏpcơ bản
[9] Abraham Bernstein, Esther Kaufmann, Christian Kaiser, Christoph Kiefer. Ginseng, A Guided Input Natural Language Search Engine, for Querying Ontologies. Jena User Conference. Bristol. UK. 2005 Sách, tạp chí
Tiêu đề: Ginseng,A Guided Input Natural Language Search Engine, for Querying Ontologies
[10] Alain Leger, Aarno Lehtola and Victor Villagra. MKBEEM — Developing Multilingual Knowledge-Based Marketplace. ERCIM News No.46, July 2001 [online] http://www.ercim.org/publication/Ercim_News/enw46/leger.html Sách, tạp chí
Tiêu đề: MKBEEM — DevelopingMultilingual Knowledge-Based Marketplace
[11] Alan F. Smeaton, Cornelis Joost van Rijsbergen. The retrieval effects of query expansion on a feedback document retrieval system. Computer Journal, Volume 26 Issue 3, pp.239–246. 1983 Sách, tạp chí
Tiêu đề: The retrieval effects of queryexpansion on a feedback document retrieval system
[12] Alexander M. Robertson, Peter Willett. A comparison of spelling-correction methods for the identification of word forms in historical text databases. Literary and Sách, tạp chí
Tiêu đề: A comparison of spelling-correction methods for the identification of word forms in historical text databases
[14] Anne Sihvonen, Pertti Vakkari. Subject knowledge improves interactive query expansion assisted by a thesaurus. Journal of Documentation, Volume 60, Issue 6, pp.673–690. 2004. ISSN: 0022-0418 Sách, tạp chí
Tiêu đề: Subject knowledge improves interactive queryexpansion assisted by a thesaurus
[17] Baziz Mustapha, Boughanem Mohand,Aussenac-Gilles Nathalie. Conceptual indexing based on document content representation information context: nature, impact, and role. In 5th International Conference on Conceptions of Library and Information Sciences No5, Glasgow, Volume. 3507, pp.171-186 , ROYAUME-UNI.UK (04/06/2005) Sách, tạp chí
Tiêu đề: Conceptualindexing based on document content representation information context: nature,impact, and role
[18] Bentaallah Mohamed Amine, Malki Mimoun. WordNet based Multilingual Text Categorization. INFO COMP – Journal of Computer Science, Volume 6 Number 4, pp.52-59.. 2007. [online] http://www.dcc.ufla.br/infocomp/artigos/v6.4/art07.pdf[19] Bernardo Magnini, Manuela Speranza. Merging global and specialized linguisticontologies. In Proceedings of the workshop Ontologies and Lexical Knowledge bases (Ontolex-2002), LREC-2002, pp.43–48, 2002 Sách, tạp chí
Tiêu đề: WordNet based Multilingual TextCategorization". INFO COMP – Journal of Computer Science, Volume 6 Number 4,pp.52-59.. 2007. [online] http://www.dcc.ufla.br/infocomp/artigos/v6.4/art07.pdf [19] Bernardo Magnini, Manuela Speranza. "Merging global and specialized linguistic"ontologies
[20] Bodo Billerbeck, Justin Zobel. Questioning query expansion: an examination of behaviour and parameters. ACM International Conference Proceeding Series.Proceedings of the 15th Australasian database conference, Volume 27, pp.69-76.Dunedin, New Zealand. 2004 Sách, tạp chí
Tiêu đề: Questioning query expansion: an examination ofbehaviour and parameters
[21] Boris Gelfand, Marilyn Wulfekuhler, William F. Punch III. Automated Concept Extraction from Plain text. AAAI 1998 Workshop on Text Categorization. 1998.[online] http://garage.cse.msu.edu/papers/GARAGe98-07-02.pdf Sách, tạp chí
Tiêu đề: Automated ConceptExtraction from Plain text
[22] Bruce R. Schatz, Eric H. Johnson, Pauline A. Cochrane, Hsinchun Chen. Interactive term suggestion for users of digital libraries: using subject thesauri and co- occurrence lists for information retrieval. International Conference on Digital Sách, tạp chí
Tiêu đề: Interactiveterm suggestion for users of digital libraries: using subject thesauri and co-occurrence lists for information retrieval
[23] Chau Q. Nguyen, Tuoi T. Phan. An Ontology-Based Approach for Key Phrase Extraction. Proceedings of the Joint Conference of the 47th Annual Meeting of the ACL and the 4th International Joint Conference on Natural Language Processing of the AFNLP. [online] http://aclweb.org/anthology-new/P/P09/P09-2046.pdf Sách, tạp chí
Tiêu đề: An Ontology-Based Approach for Key PhraseExtraction
[24] Chau Q.Nguyen, Tuoi T.Phan, Tru H.Cao. Vietnamese Proper Noun Recognition.Proceedings of the 4th IEEE International Conference on Computer Science, Research, Innovation & Vision for the Future, February 12-16,2006 Ho Chi Minh City, Vietnam Sách, tạp chí
Tiêu đề: Vietnamese Proper Noun Recognition
[25] Ching Kang Cheng, Xiaoshan Pan. Using perception in managing unstructured documents. Crossroads, Volume 10, Issue 2 (Winter 2003), pp.5–5. 2003. ISSN:1528-4972 Sách, tạp chí
Tiêu đề: Using perception in managing unstructureddocuments
[26] Chinh Trong Nguyen, Dang Tuan Nguyen. A New Model of English-Vietnamese Bilingual Information Retrieval System. International Conference on Information Technology (ICIT 2009), Venice, Italy, October 28-30, 2009 Sách, tạp chí
Tiêu đề: A New Model of English-VietnameseBilingual Information Retrieval System

HÌNH ẢNH LIÊN QUAN

Hình 1.1. Mối quan hệ giữa mô hình của luận án và hệ thống truy xuất thông tin - đồ án tốt nghiệp xây dựng mô hình mở rộng truy vấn trong truy xuất thông tin văn bản
Hình 1.1. Mối quan hệ giữa mô hình của luận án và hệ thống truy xuất thông tin (Trang 21)
Hỡnh 1.2. Túm tắt phõn bố nội dung cỏc vấn ủề trỡnh bày trong luận ỏn - đồ án tốt nghiệp xây dựng mô hình mở rộng truy vấn trong truy xuất thông tin văn bản
nh 1.2. Túm tắt phõn bố nội dung cỏc vấn ủề trỡnh bày trong luận ỏn (Trang 28)
Hình 2.1. Tổ chức hệ thống WordNet phiên bản 3.0 (*) - đồ án tốt nghiệp xây dựng mô hình mở rộng truy vấn trong truy xuất thông tin văn bản
Hình 2.1. Tổ chức hệ thống WordNet phiên bản 3.0 (*) (Trang 56)
Hình 2.3. Đồ thị quan hệ ngữ nghĩa của Boris - đồ án tốt nghiệp xây dựng mô hình mở rộng truy vấn trong truy xuất thông tin văn bản
Hình 2.3. Đồ thị quan hệ ngữ nghĩa của Boris (Trang 58)
Hỡnh 3.2. Vớ dụ về cõy phõn tớch (hỡnh b) ủược xõy dựng từ quan hệ R OMP  (hỡnh a) 3.2.6 Truy van hoàn chính - đồ án tốt nghiệp xây dựng mô hình mở rộng truy vấn trong truy xuất thông tin văn bản
nh 3.2. Vớ dụ về cõy phõn tớch (hỡnh b) ủược xõy dựng từ quan hệ R OMP (hỡnh a) 3.2.6 Truy van hoàn chính (Trang 71)
Bảng 3.2. Cỏc trường hợp liờn kết giữa q và q’ ủể tớnh ℘(q | q' ) - đồ án tốt nghiệp xây dựng mô hình mở rộng truy vấn trong truy xuất thông tin văn bản
Bảng 3.2. Cỏc trường hợp liờn kết giữa q và q’ ủể tớnh ℘(q | q' ) (Trang 80)
Hỡnh 3.7. Cài ủặt chức năng xõy dựng chỉ mục cho dữ liệu dạng XML - đồ án tốt nghiệp xây dựng mô hình mở rộng truy vấn trong truy xuất thông tin văn bản
nh 3.7. Cài ủặt chức năng xõy dựng chỉ mục cho dữ liệu dạng XML (Trang 97)
Bảng 3.7. Danh sách tập chỉ mục xây dựng từ nguồn dữ liệu trong bảng 3.6 - đồ án tốt nghiệp xây dựng mô hình mở rộng truy vấn trong truy xuất thông tin văn bản
Bảng 3.7. Danh sách tập chỉ mục xây dựng từ nguồn dữ liệu trong bảng 3.6 (Trang 98)
Hình 3.8. Tổ chức lưu trữ vật lý của các tập chỉ mục - đồ án tốt nghiệp xây dựng mô hình mở rộng truy vấn trong truy xuất thông tin văn bản
Hình 3.8. Tổ chức lưu trữ vật lý của các tập chỉ mục (Trang 98)
Hình 3.9. Tổ chức cơ sở dữ liệu lưu trữ thông tin của các chỉ mục - đồ án tốt nghiệp xây dựng mô hình mở rộng truy vấn trong truy xuất thông tin văn bản
Hình 3.9. Tổ chức cơ sở dữ liệu lưu trữ thông tin của các chỉ mục (Trang 99)
Thống kờ số lượng tài liệu này ủược trỡnh bày trong cột (5) bảng 3.8. - đồ án tốt nghiệp xây dựng mô hình mở rộng truy vấn trong truy xuất thông tin văn bản
h ống kờ số lượng tài liệu này ủược trỡnh bày trong cột (5) bảng 3.8 (Trang 100)
Hình 3.13. Thống kê tập mẫu sử dụng trong thực nghiệm - đồ án tốt nghiệp xây dựng mô hình mở rộng truy vấn trong truy xuất thông tin văn bản
Hình 3.13. Thống kê tập mẫu sử dụng trong thực nghiệm (Trang 102)
Bảng 3.10. Danh sách mẫu sử dụng trong thực nghiệm - đồ án tốt nghiệp xây dựng mô hình mở rộng truy vấn trong truy xuất thông tin văn bản
Bảng 3.10. Danh sách mẫu sử dụng trong thực nghiệm (Trang 103)
Hình 3.16. Tổ chức lưu trữ cụm danh từ rút trích từ các nguồn dữ liệu - đồ án tốt nghiệp xây dựng mô hình mở rộng truy vấn trong truy xuất thông tin văn bản
Hình 3.16. Tổ chức lưu trữ cụm danh từ rút trích từ các nguồn dữ liệu (Trang 106)
Hình 4.4. Các phương pháp huấn luyện ontology OOMP - đồ án tốt nghiệp xây dựng mô hình mở rộng truy vấn trong truy xuất thông tin văn bản
Hình 4.4. Các phương pháp huấn luyện ontology OOMP (Trang 115)
Hỡnh 4.7. Quan hệ R m  ủược xõy dựng từ quan hệ meronymy trong WordNet - đồ án tốt nghiệp xây dựng mô hình mở rộng truy vấn trong truy xuất thông tin văn bản
nh 4.7. Quan hệ R m ủược xõy dựng từ quan hệ meronymy trong WordNet (Trang 121)
Hỡnh 4.10. Quan hệ R m  và R p  ủược xõy dựng từ quan hệ similar trong WordNet - đồ án tốt nghiệp xây dựng mô hình mở rộng truy vấn trong truy xuất thông tin văn bản
nh 4.10. Quan hệ R m và R p ủược xõy dựng từ quan hệ similar trong WordNet (Trang 122)
Hỡnh 4.11. Quan hệ R p  ủược xõy dựng từ quan hệ similar trong WordNet - đồ án tốt nghiệp xây dựng mô hình mở rộng truy vấn trong truy xuất thông tin văn bản
nh 4.11. Quan hệ R p ủược xõy dựng từ quan hệ similar trong WordNet (Trang 122)
Hình 4.12. Tổ chức dữ liệu của WordNet phiên bản 3.0 - đồ án tốt nghiệp xây dựng mô hình mở rộng truy vấn trong truy xuất thông tin văn bản
Hình 4.12. Tổ chức dữ liệu của WordNet phiên bản 3.0 (Trang 124)
Bảng 5.3. Các trường hợp xử lý trong giải thuật CNPV theo dạng lỗi và mẫu - đồ án tốt nghiệp xây dựng mô hình mở rộng truy vấn trong truy xuất thông tin văn bản
Bảng 5.3. Các trường hợp xử lý trong giải thuật CNPV theo dạng lỗi và mẫu (Trang 139)
Bảng 5.5. Thống kê về thời gian thực thi của giải thuật NPC - đồ án tốt nghiệp xây dựng mô hình mở rộng truy vấn trong truy xuất thông tin văn bản
Bảng 5.5. Thống kê về thời gian thực thi của giải thuật NPC (Trang 150)
Bảng 5.6. Thống kê các trường hợp xử lý trong giải thuật NPC theo dạng lỗi - đồ án tốt nghiệp xây dựng mô hình mở rộng truy vấn trong truy xuất thông tin văn bản
Bảng 5.6. Thống kê các trường hợp xử lý trong giải thuật NPC theo dạng lỗi (Trang 151)
Hỡnh 5.4. Cài ủặt chức năng tỡm kiếm cho truy vấn sinh từ giải thuật NPC - đồ án tốt nghiệp xây dựng mô hình mở rộng truy vấn trong truy xuất thông tin văn bản
nh 5.4. Cài ủặt chức năng tỡm kiếm cho truy vấn sinh từ giải thuật NPC (Trang 153)
Hỡnh 6.2. Cài ủặt chức năng tỡm kiếm cho truy vấn sinh từ giải thuật SNPE - đồ án tốt nghiệp xây dựng mô hình mở rộng truy vấn trong truy xuất thông tin văn bản
nh 6.2. Cài ủặt chức năng tỡm kiếm cho truy vấn sinh từ giải thuật SNPE (Trang 171)
Hình 6.5. Minh họa tính chất (6.1) - đồ án tốt nghiệp xây dựng mô hình mở rộng truy vấn trong truy xuất thông tin văn bản
Hình 6.5. Minh họa tính chất (6.1) (Trang 175)
Hình 6.7. Mô hình hệ thống mở rộng truy vấn kết hợp hệ thống truy xuất thông tin  dựng sẵn - đồ án tốt nghiệp xây dựng mô hình mở rộng truy vấn trong truy xuất thông tin văn bản
Hình 6.7. Mô hình hệ thống mở rộng truy vấn kết hợp hệ thống truy xuất thông tin dựng sẵn (Trang 176)
Hình 6.6. Ứng dụng tính chất (6.1) vào mở rộng kết quả tìm kiếm - đồ án tốt nghiệp xây dựng mô hình mở rộng truy vấn trong truy xuất thông tin văn bản
Hình 6.6. Ứng dụng tính chất (6.1) vào mở rộng kết quả tìm kiếm (Trang 176)
Hình 6.8. Mô hình tổ chức chỉ mục hướng ngữ nghĩa - đồ án tốt nghiệp xây dựng mô hình mở rộng truy vấn trong truy xuất thông tin văn bản
Hình 6.8. Mô hình tổ chức chỉ mục hướng ngữ nghĩa (Trang 177)
Hỡnh 7.1. Phương phỏp thực hiện của vấn ủề 4 - đồ án tốt nghiệp xây dựng mô hình mở rộng truy vấn trong truy xuất thông tin văn bản
nh 7.1. Phương phỏp thực hiện của vấn ủề 4 (Trang 193)

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w