Xây dựng mô hình mở rộng truy vấn trong truy xuất thông tin văn bản

232 207 0
Xây dựng mô hình mở rộng truy vấn trong truy xuất thông tin văn bản

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

ĐẠI HỌC QUỐC GIA TP HCM TRƯỜNG ĐẠI HỌC BÁCH KHOA TP.HCM NGUYỄN CHÁNH THÀNH XÂY DỰNG MÔ HÌNH MỞ RỘNG TRUY VẤN TRONG TRUY XUẤT THÔNG TIN VĂN BẢN LUẬN ÁN TIẾN SĨ KỸ THUẬT TP.HỒ CHÍ MINH – 2010 ĐẠI HỌC QUỐC GIA TP HCM TRƯỜNG ĐẠI HỌC BÁCH KHOA TP.HCM NGUYỄN CHÁNH THÀNH XÂY DỰNG MÔ HÌNH MỞ RỘNG TRUY VẤN TRONG TRUY XUẤT THÔNG TIN VĂN BẢN Chuyên ngành: KHOA HỌC MÁY TÍNH Mã số: 62.48.01.01 LUẬN ÁN TIẾN SĨ KỸ THUẬT NGƯỜI HƯỚNG DẪN KHOA HỌC PGS.TS PHAN THỊ TƯƠI TP.HỒ CHÍ MINH – 2010 LỜI CAM ĐOAN Tôi cam ñoan nội dung luận án kết nghiên cứu thân Tất tham khảo từ nghiên cứu liên quan ñiều ñược nêu nguồn gốc cách rõ ràng từ danh mục tài liệu tham khảo luận án Những ñóng góp luận án kết nghiên cứu tác giả ñã ñược công bố báo khoa học phần “Các công trình khoa học” luận án chưa ñược công bố công trình khoa học khác Tác giả luận án Nguyễn Chánh Thành LỜI CẢM ƠN Trong trình hoàn thành luận án này, ñã ñược thầy cô nơi sở ñào tạo giúp ñỡ tận tình, quan nơi công tác tạo ñiều kiện thuận lợi bạn bè gia ñình thường xuyên ñộng viên khích lệ Luận án hoàn thành tốt tận tình hướng dẫn giúp ñỡ quý báu PGS.TS Phan Thị Tươi, giáo viên hướng dẫn mà tôn vinh muốn ñược bày tỏ lòng biết ơn sâu sắc Tôi muốn ñược bày tỏ lòng biết ơn ñối với tập thể thầy cô khoa Khoa học Kỹ thuật Máy tính trường Đại học Bách khoa TP Hồ Chí Minh ñã giúp ñỡ tạo ñiều kiện cho nhiều trình học tập nghiên cứu Khoa; ñặc biệt PGS.TS Dương Tuấn Anh, PGS.TS Đỗ Phúc, PGS.TS Đặng Trần Khánh PGS.TS Cao Hoàng Trụ ñã có lời khuyên quý giá trình làm nghiên cứu sinh viết luận án này; cảm ơn Phòng Đào tạo Sau Đại học hỗ trợ thủ tục hoàn thành luận án Lời cảm ơn chân thành xin ñược gửi ñến anh Ngô Hùng Phương tất bạn bè, ñặc biệt thành viên nhóm nghiên cứu BK-NLP (thuộc trường Đại học Bách khoa Tp.HCM) ñã góp nhiều ý kiến thiết thực có lời ñộng viên khích lệ quý báu giúp vượt qua khó khăn hoàn thành tốt luận án Sự biết ơn xin ñược gửi ñến gia ñình, vợ tất người thân, ñã hỗ trợ ñộng viên tạo ñiều kiện thuận lợi cho suốt trình hoàn thành khóa học nghiên cứu sinh Cuối cùng, tất lời muốn nói, xin tưởng nhớ tri ân sâu sắc Mẹ Bà Ngoại tôi, người ñã cho ñược học hành ñầy ñủ dù hoàn cảnh truyền cho tinh thần hiếu học không ngừng nghỉ Tác giả luận án Nguyễn Chánh Thành e − Vị trí (d) vị trí bổ ngữ trước bao gồm từ có chức phân từ, tính từ, trường hợp có nhiều tính từ xuất vị trí chúng xuất theo trật tự sau: Bảng B.6.Phân loại nhóm tính từ STT Loại tính từ Số thứ tự Số ñếm tính từ chất lượng tính chất, tính từ mang ý nghĩa tổng quát: happy, beautiful, heavy… tính từ kích thước (size): tall, big, tính từ tuổi tác: old, young, tính từ nhiệt ñộ: hot, cold… tính từ hình dáng: round, square, tính từ màu sắc: red, purple, green, yellow, tính ñộng từ: interesting, broken, … 10 tính từ nguồn gốc, xuất xứ hay nơi chốn: French, central… 11 Danh từ xuất trước danh từ trung tâm; ñó trường hợp có thứ tự thấp gần với với danh từ trung tâm trường hợp thứ tự cao − Vị trí (c) vị trí ñịnh tố sau, gồm từ số ñếm, từ số thứ tự, nhóm số lượng khác như: many, a few, much, little, a lot of… − Vị trí (b) vị trí ñịnh tố giữa, xuất vị trí thành phần xác ñịnh mạo từ, tính từ sở hữu, từ trỏ… − Vị trí (a) vị trí ñịnh tố trước Đây vị trí ñầu tiên cụm danh từ, xuất vị trí thường nhóm từ: half, both, all, double, twice, three times; từ số thập phân one-third (1/3)… − Vị trí (f) vị trí bổ ngữ sau Đây vị trí phức tạp cấu trúc chúng cụm giới từ, mệnh ñề, phân từ, tính từ Như tiếng Anh, cụm danh từ có 32 (25 = 32) dạng biến thể, bảng B.6, vị trí phụ có không (a, b, c, d, f) ñể lại vị trí danh từ trung tâm xuất (e) Trong bảng B.7, thứ tự ñược ñánh số theo trật tự: thành phần ñứng trước từ trung tâm ñược ñánh số âm từ phải sang trái lấy gốc (0) từ trung tâm, thành phần ñứng sau từ trung tâm ñược ñánh số dương từ trái sang phải lấy gốc (0) từ trung tâm f Bảng B.7.Các biến thể cụm danh từ tiếng Anh STT Biến thể 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 Định tố trước -4 (a) All All All All All All All All All All All All All All All All Định tố -3 (b) The The The The The The The The the the the the the the the the Cụm danh từ Định tố Bổ ngữ sau -2 (c) -1 (d) good good three three three good three good good good three three three good three good good good three three three good three good good good three three three good three good Thành tố (e) books books books books books books books books books books books books books books books books books books books books books books books books books books books books books books books books Bổ ngữ sau (f) on sale on sale on sale on sale on sale on sale on sale on sale on sale on sale on sale on sale on sale on sale on sale on sale g Phụ lục C.Danh mục từ loại tiếng Anh STT Nhãn từ loại CC CD DT EX FW IN 10 11 12 JJ JJR JJS LS MD NN 13 14 15 16 17 18 19 NNS NNP NNPS PDT POS PRP PPS 20 21 22 23 24 25 26 27 28 29 RB RBR RBS RP SYM TO UH VB VBD VBG 30 31 VBN VBP Tên ñầy ñủ (tiếng Anh) Coordinating conjunction Cardinal number Determiner Existential there Foreign word Preposition or subordinating conjunction Adjective Adjective, comparative Adjective, superlative List item marker Modal Noun, singular or mass Noun, plural Proper noun, singular Proper noun, plural Predeterminer Possessive ending Personal pronoun Possessive pronoun (prolog version PRP-S) Adverb Adverb, comparative Adverb, superlative Particle Symbol to Interjection Verb, base form Verb, past tense Verb, gerund or present participle Verb, past participle Verb, non-3rd person singular present Ý nghĩa Liên từ kết hợp Số ñếm Định từ “Có” Từ tiếng nước Giới từ liên từ Tính từ Tính từ so sánh Tính từ so sánh Dấu liệt kê Động từ tình thái Danh từ số không ñếm ñược Danh từ số nhiều Danh từ riêng số Danh từ riêng số nhiều Tiền ñịnh từ Dấu sở hữu cách Đại từ nhân xưng Đại từ sở hữu Trạng từ Trạng từ so sánh Trạng từ so sánh Tiểu từ Ký hiệu “to” Thán từ Động từ nguyên mẫu không to Động từ khứ Hiện phân từ Quá khứ phân từ Động từ thứ số h 32 VBZ 33 34 35 WDT WP WPZ 36 37 38 39 40 41 42 43 44 45 46 47 48 WRB ADJP NP VP ADVP CONJP RRC UCP WHADJP WHAVP WHNP WHPP PP Verb, 3rd person singular present Wh-determiner Wh-pronoun Possessive wh-pronoun (prolog version WP-S) Wh-adverb Adjective Phrase Noun Phrase Verb Phrase Adverb Phrase Conjunction Phrase Reduced Relative Clause Unlike Coordinated Phrase Wh-adjective Phrase Wh-adverb Phrase Wh-noun Phrase Wh-prepositional Phrase Prepositional Phrase Nguồn tham khảo: [2], [120] [121] Động từ thứ số Định từ bắt ñầu WhĐại từ bắt ñầu WhĐại từ sở hữu bắt ñầu WhTrạng từ bắt ñầu WhCụm tính từ Cụm danh từ Cụm ñộng từ Cụm trạng từ Cụm liên từ Mệnh ñề tương ñối thu giảm Cụm phối hợp khác Cụm tính từ bắt ñầu với WhCụm trạng từ bắt ñầu với WhCụm danh từ bắt ñầu với WhCụm giới từ bắt ñầu với WhCụm giới từ i Phụ lục D.Danh mục luật sinh dạng cụm danh từ văn phạm tiếng Anh xây dựng dựa TreeBank (1) 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 (1) STT, (2) Dạng luật sinh, (3) Số thành phần (3) (2) (1) (2) JJ#JJ#NN# 221 NN#CC#NN#NN# JJ#JJ#NN#NN# 222 NN#CC#NN#NN#NNS# JJ#NN# 223 NN#CC#NN#NNS# JJ#JJ#NN#NN#NN# 224 NN#CC#NNS# $#CD# 225 NN#CD# ADJP#ADJP#NNS# 226 NN#DT# ADJP#JJ#NN# 227 NN#JJ#NN# ADJP#JJ#NN#NNS# 228 NN#NN# ADJP#NN# 229 NN#NN#CC#NN# ADJP#NNP#NNS# 230 NN#NN#CC#NN#NN# ADJP#NNS# 231 NN#NN#CC#NN#NNS# CD# 232 NN#NN#CD# CD#ADJP#JJ#JJ#NNS# 233 NN#NN#NN# CD#ADJP#NNS# 234 NN#NN#NNP#NNP#NNS# CD#CC#CD# 235 NN#NN#NNS# CD#JJ,#JJ#NN# 236 NN#NNP#%#NP#%#NP#%# NP#%#NP#%#NP#%#NP# CD#JJ#NN# 237 NN#NNS# CD#JJ#NN#NNS# 238 NN#NNS#CC#NNS# CD#JJ#NNP#NNS# 239 NN#NNS#NN# CD#JJ#NNS# 240 NN#NNS#NNP,#NNP#NNP# CD#NN# 241 NN#NNS#POS# CD#NN#NN#NN#NNS# 242 NN#POS# CD#NN#NN#NNS# 243 NN#RB# CD#NN#NNS# 244 NN#S# CD#NNP#NNS# 245 NNP# CD#NNS# 246 NNP,#NN,#NN#CC# NN#NN#NNS# DT# 247 NNP,#NNP,#NNP,# CC#NNP# DT#ADJP# 248 NNP,#NNP#CC#JJ# NN#NNS# DT#ADJP,#VBN#NN#NN# 249 NNP,#NNP#CC#NNP# DT#ADJP#NN# 250 NNP,#NNP#CC#NNP# NNP#NNS# DT#ADJP#NN#NN# 251 NNP#CC#NNP# (3) 2 5 3 14 2 6 j (1) 32 33 34 (2) DT#ADJP#NNP# DT#ADJP#NNP#NNP#NN# DT#ADJP#NNS# (3) (1) 252 253 254 35 36 37 38 39 40 41 42 43 44 45 46 47 DT#CD# DT#CD#CC#CD#NN# DT#CD#CC#CD#NNS# DT#CD#JJ#NNS# DT#CD#NN# DT#CD#NN#NN# DT#CD#NN#NNS# DT#CD#NNP#NN#NN#NN# DT#CD#NNP#NN#NNS# DT#CD#NNS# DT#CD#VBN#NN# DT#JJ# DT#JJ,#ADJP#JJ#NN#NN# 5 4 6 255 256 257 258 259 260 261 262 263 264 265 266 267 48 49 50 51 DT#JJ,#JJ#JJ#NN# DT#JJ,#JJ#NN# DT#JJ,#JJ#NNS#NN# DT#JJ#CC#JJ#NN#NNS# 5 268 269 270 271 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 DT#JJ#CC#JJ#NNS# DT#JJ#CD#NNS# DT#JJ#JJ#JJ#NN# DT#JJ#JJ#NN# DT#JJ#JJ#NNP#NN# DT#JJ#JJ#NNS# DT#JJ#NN# DT#JJ#NN#CC#JJ#NN#NNS# DT#JJ#NN#CC#NN# DT#JJ#NN#CC#NN#NN# DT#JJ#NN#NN# DT#JJ#NN#NN#NN# DT#JJ#NN#NNP# DT#JJ#NN#NNS# DT#JJ#NN#POS# DT#JJ#NN#RB# 5 4 4 272 273 274 275 276 277 278 279 280 281 282 283 284 285 286 287 68 69 70 71 72 DT#JJ#NN#S# DT#JJ#NNP# DT#JJ#NNP#NN# DT#JJ#NNP#NN#NN# DT#JJ#NNP#NN#NN#JJ# 4 288 289 290 291 292 (2) NNP#CC#NNP#NNS# NNP#CD# NNP#CD#NNP#CD#CC# CD#NNS# NNP#FW# NNP#NN# NNP#NN#CD# NNP#NN#NN# NNP#NN#NN#NNS# NNP#NN#NNS# NNP#NNP# NNP#NNP#CC#NNP#NNP# NNP#NNP#CD# NNP#NNP#NN# NNP#NNP#NNP# NNP#NNP#NNP#NNP# NNP#NNP#NNP#NNP# NNP#NN# NNP#NNP#NNS# NNP#NNPS# NNP#NNS# NNP#NNS,#NNS,#NNS# CC#NNS# NNP#POS# NNP#UCP#NN# NNS# NNS,#NNS#CC#NNS# NNS#CC#NN# NNS#CC#NN#NNS# NNS#CC#NNS# NNS#CC#NNS#NNS# NNS#NN# NNS#NNS# NNS#S# NNS#SBAR# NP#%#CC#NP# NP#%#NP# NP#%#NP#%# NP#%#NP#%#NP#%# CC#NP# NP#%#PP#%# NP,# NP,#ADJP# NP,#ADJP,# NP,#CC#NP# (3) 2 3 3 2 4 2 2 4 2 k (1) 73 74 75 76 77 78 79 80 81 82 (2) DT#JJ#NNP#NN#NNP# DT#JJ#NNP#NNP# DT#JJ#NNP#NNP#NN#NN# DT#JJ#NNP#NNP#NNP# DT#JJ#NNP#NNP#NNP#NNP# DT#JJ#NNP#NNS# DT#JJ#NNS# DT#JJ#NNS#NN# DT#JJ#QP#NNS# DT#JJR,#JJ#NN#NN# 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 DT#JJR#NN# DT#JJR#VBN#JJ#NN#NN# DT#JJS#NN# DT#JJS#NN#NN# DT#JJS#NNS# DT#NAC#NN# DT#NN# DT#NN#CC#NN# DT#NN#CC#NN#NN#NN# DT#NN#CC#NN#NN#NNP# DT#NN#CC#NN#NNS# DT#NN#CC#NNS# DT#NN#CD# DT#NN#JJ#NN# DT#NN#NN# DT#NN#NN#NN# DT#NN#NN#NNS# DT#NN#NNP# DT#NN#NNS# DT#NN#POS# DT#NN#RB# DT#NN#S# DT#NN#S#.# DT#NN#SBAR# DT#NNP# DT#NNP#CC#NNP# DT#NNP#CD# DT#NNP#CD#NN# DT#NNP#CD#NN#NN# DT#NNP#FW#NNP#NNP# DT#NNP#JJ#NN# DT#NNP#NN# 115 DT#NNP#NN#NN# (3) 6 4 (1) 293 294 295 296 297 298 299 300 301 302 3 6 4 4 3 3 4 5 303 304 305 306 307 308 309 310 311 312 313 314 315 316 317 318 319 320 321 322 323 324 325 326 327 328 329 330 331 332 333 334 335 (2) NP,#CC#NP,# NP,#CC#NP,#ADVP# NP,#CONJP#NP# NP,#NP# NP,#NP,# NP,#NP,#CC#NP# NP,#NP,#CC#NP,# NP,#NP,#NP# NP,#NP,#NP,#CC#NP# NP,#NP,#NP,#NP,#NP#CC#N P# NP,#NP,#NP,#NP#CC#NP# NP,#NP,#NP#.# NP,#NP,#NP#CC#NP# NP,#NP#CC#NP# NP,#PP# NP,#PP,# NP,#RB#NP# NP,#RRC,# NP,#SBAR# NP,#SBAR,# NP,#VP# NP,#VP,# NP#ADJP# NP#ADJP,#SBAR# NP#ADJP#NN# NP#ADJP#NNS# NP#ADVP# NP#CC#NP# NP#CC#NP,# NP#CC#PRN#NP# NP#CD#NN# NP#CD#NN#NN#NN# NP#CONJP#NP# NP#JJ#JJ# NP#JJ#JJ#NN#NN# NP#JJ#NN# NP#JJ#NN#NN# NP#JJ#NN#NN#NN# NP#JJ#NN#NNS# NP#JJ#NNP#NN# NP#JJ#NNP#NNP#CD# NP#JJ#NNP#NNP# NN#NN#NN# NP#JJ#NNS# (3) 2 4 2 2 2 2 3 3 3 5 4 l (1) (2) 116 DT#NNP#NN#NN#NN# 117 DT#NNP#NN#NN#NNP#NNP # 118 DT#NNP#NN#NNP# 119 DT#NNP#NN#NNP#NN# 120 DT#NNP#NN#NNP#NNP#NN P# 121 DT#NNP#NN#NNP#NNP#POS # 122 DT#NNP#NN#NNS# 123 DT#NNP#NNP# 124 DT#NNP#NNP#CC#NNP#NN P# 125 DT#NNP#NNP#CD# 126 DT#NNP#NNP#CD#NNP#NN # 127 DT#NNP#NNP#NN# 128 DT#NNP#NNP#NN#NN# 129 DT#NNP#NNP#NNP# 130 DT#NNP#NNP#NNP# CC#NNP#NNP#NNP# 131 DT#NNP#NNP#NNP#NN# 132 DT#NNP#NNP#NNP#NNP# 133 DT#NNP#NNP#NNP#NNP#N NP# 134 DT#NNP#NNP#NNP#POS# 135 DT#NNP#NNP#NNPS# CC#NNPS#NN#NNP# 136 DT#NNP#NNP#NNPS# NNP#NNP#NNP# 137 DT#NNP#NNPS#NN# 138 DT#NNP#NNPS#NNP# 139 DT#NNP#NNPS#NNP#NNP#N NP# 140 DT#NNP#NNS# 141 DT#NNP#POS# 142 DT#NNP#VBG#NN# 143 DT#NNPS# 144 DT#NNPS#CC#NNP#NNS# 145 DT#NNS# 146 DT#NNS#CC#NNS# 147 DT#NNS#NN# 148 DT#NNS#NNS# 149 DT#NP#CC#NP# 150 DT#NX# (3) (1) (2) 336 NP#JJ#NNS#NN# 337 NP#JJ#VBG#NNS# (3) 4 338 NP#JJS#NN# 339 NP#NN# 340 NP#NN#CC#NN# 341 NP#NN#CD#NNP# 4 342 NP#NN#NN# 343 NP#NN#NN#NN# 344 NP#NN#NN#NN#CC#NN# 6 345 NP#NN#NN#NNS# 346 NP#NN#NNS# 4 347 348 349 350 NP#NN#S# NP#NN#SBAR# NP#NNP# NP#NNP#CD# 3 5 351 NP#NNP#CD#JJ#NN# 352 NP#NNP#NN# 353 NP#NNP#NN#NN# 5 354 NP#NNP#NN#NN#NNS# 355 NP#NNP#NN#NNS# 356 NP#NNP#NNP# 4 357 NP#NNP#NNP#NN#NNP# 358 NP#NNP#NNP#NN#POS# 359 NP#NNP#NNS# 5 3 3 360 361 362 363 364 365 366 367 368 369 370 4 3 3 NP#NNP#NNS#NN# NP#NNS# NP#NNS#CC#NNS# NP#NNS#NN#NN# NP#NNS#S# NP#NP# NP#NP#SBAR# NP#PP# NP#PP,#PP# NP#PP,#PP,# NP#PP,#SBAR# m (1) 151 152 153 154 155 156 157 158 159 160 161 162 163 164 165 166 167 168 169 170 171 172 173 174 175 176 177 178 179 180 181 182 183 184 185 186 187 188 189 190 191 192 193 (2) DT#QP#NNP#NNS# DT#RBS#JJ# DT#VB# DT#VB#CC#VB# DT#VB#NN# DT#VB#NNS# DT#VBG#JJ#NN#NN#NN# DT#VBG#NN# DT#VBG#NN#NN# DT#VBG#NNS# DT#VBN#NN# DT#VBN#NN#NN# DT#VBN#NNP#NNP#NN# DT#VBN#NNS#NN# EX# IN#CD#NNS# JJ# JJ,#JJ#NN# JJ,#JJ#NNS# JJ#CD# JJ#JJ#JJ#NN#NNS# JJ#JJ#JJ#NNS# JJ#JJ#NN# JJ#JJ#NN#NN# JJ#JJ#NN#NNS# JJ#JJ#NNS# JJ#JJ#VBZ# JJ#NN# JJ#NN#CC#NN# JJ#NN#CC#NN#NN# JJ#NN#CC#NNS# JJ#NN#NN# JJ#NN#NN#NNS# JJ#NN#NNS# JJ#NN#VBG# JJ#NNP#CD#NNS# JJ#NNP#NNP#NN#NNS# JJ#NNP#NNP#NNP# NN#NNS# JJ#NNP#NNP#NNS# JJ#NNP#NNS# JJ#NNS# JJ#NNS#CC#NN# JJ#NNS#NN# (3) 4 3 3 3 4 3 4 3 (1) 371 372 373 374 375 376 377 378 379 380 381 382 383 384 385 386 387 388 389 390 391 392 393 394 395 396 397 398 399 400 401 402 403 404 405 406 407 408 (2) NP#PP#.# NP#PP#ADJP# NP#PP#NP# NP#PP#PP# NP#PP#SBAR# NP#PRN# NP#S# NP#SBAR# NP#UCP# NP#VP# PDT#DT#JJ#JJ#NNS# PDT#DT#NNS# PDT#DT#NNS#SBAR# PRP# PRP$#JJ#NN# PRP$#JJ#NN#NN# PRP$#JJ#NNP#NN#NNS# PRP$#JJ#NNS# PRP$#JJS# PRP$#JJS#NNS# PRP$#NN# PRP$#NN#CC#NN# PRP$#NN#NNS# PRP$#NN#SBAR# PRP$#NNP#NN#NN# PRP$#NNP#NNS# PRP$#NNS# PRP$#NX# PRP$#VB# QP# QP#DT# QP#JJ#NNS# QP#NN# QP#NN#NN# QP#NNS# RB# RB#CD#NNS# RB#DT#ADJP#NNS# 4 409 410 411 412 413 RB#DT#JJ#JJ#NN# RB#DT#JJ#NN# RB#DT#JJ#VBG#NNS# RB#DT#JJS#NN# RB#JJ#NN#NNS# (3) 3 3 2 2 4 3 3 2 2 3 5 4 n (1) 194 195 196 197 198 199 200 201 202 203 204 205 206 207 208 209 210 211 212 213 214 215 216 217 218 (2) JJ#NNS#NNS# JJ#NNS#NNS#NNS# JJ#NNS#POS# JJ#NX# JJ#POS# JJ#UCP#NNS# JJ#VBN#NNS# JJR#NN# JJR#NN#NN# JJR#NNS# JJS# JJS#JJ#JJ#NNS# JJS#JJ#NNS# JJS#NN#NN# JJS#NNS# NAC#NNP#NNP#NNP# NN# NN,#NN,#JJ#CC#NN#NNS# NN,#NN,#NN# NN,#NN,#NN,#CC# NN#NN#NNS# NN,#NN,#NN,#NN,#CC#NN# NN,#NN,#NN,#NN,# NN#CC#NN# NN,#NN,#NNP#NNP# CC#NNP#NNS# NN,#NN#CC#NN#NN# NN,#NN#CC#NN#NNS# (3) 2 3 3 (1) 414 415 416 417 418 419 420 421 422 423 424 425 426 427 428 429 430 431 432 433 (2) RBS#JJ#NN#NNS# UCP#NNS# VB# VB#CC#VB#NNS# VBG#NN# VBG#NN#NNS# VBG#NNP#NNS# VBG#NNS# VBG#NNS#CC#NN# VBN#NN# VBN#NN#CC#NNS# VBN#NN#NN# VBN#NN#NNS# VBN#NNS# VBN#NNS#CC#NNS# NN#IN#NN#NN#NN# JJ#CC#JJ#NN# JJ#NN#NN#NN# VB#NN# NN#IN#NN#NN# (3) 4 3 4 3 4 434 NN#IN#NN# 219 NN,#NN#CC#NNS# 220 NN#CC#NN# 5 435 JJ#NN#IN#NN# Nguồn tham khảo: http://www.cis.upenn.edu/~treebank o Phụ lục E Tính chất ảnh-tạo ảnh toán học Cho f: X Y ánh xạ, x phần tử X y phần tử Y, ta nói y ảnh x y qua ánh xạ f y = f(x) Nếu A tập hợp X, B tập hợp Y, thì: f(A) ảnh A qua ánh xạ f, ñó ta có f(A) = {y = f(x) ∈ Y / x ∈ X} f -1(B) = {x ∈ X / f(x) ∈ B} tạo ảnh B qua ánh xạ f Ngoài ra, nếu: − A1, A2 tập hợp tập hợp X − B1, B2 hai tập hợp tập hợp Y biểu thức sau ñây biểu diễn tính chất ánh xạ ngược: f(A1 ∪ A2) = f(A1) ∪ f(A2) f(A1 ∩ A2) ⊆ f(A1) ∩ f(A2) f −1(B1 ∪ B2) = f −1(B1) ∪ f −1(B2) f −1(B1 ∩ B2) = f −1(B1) ∩ f −1(B2) f(f −1(B)) ⊆ B 10 f −1(f(A)) ⊇ A A1 ⊆ A2 → f(A1) ⊆ f(A2) B1 ⊆ B2 → f −1(B1) ⊆ f −1(B2) f −1(BC) = (f −1(B))C (f |A)−1(B) = A ∩ f −1(B) Nguồn tham khảo: http://en.wikipedia.org/wiki/Image_(mathematics) p Phụ lục F Cấu trúc ñịnh dạng tài liệu TREC F1 Cấu trúc tổ chức liệu nguồn liệu FT ]> F2 Cấu trúc tổ chức liệu nguồn liệu FR q ]> F3 Cấu trúc tổ chức liệu nguồn CR r ]> s Phụ lục G Tổ chức sở liệu thực nghiệm luận án TEST_DATA_RESULT_SNP E s i_Docum ents TEST_DATA_RESULT_DETAIL_SNP E s i_DataSources s i_Term Doc Word_Lis t s i_Relations hipes Onto_trainM Word_Lis t_Link Onto_trainMP Onto_trainOM Onto_trainP Onto_trainO Onto_expAnalyzer s i_Term s s i_AttributeDocum ents Onto_expP hras e s i_Term Link s i_Attributes Onto_OM NP _DATA_DETAIL Onto_Object NP _DATA Onto_Mem ber Onto_P roperty Onto_MP TRAINING_DATA TEST_DATA TEST_DATA_RESULT_DETAIL_NP MR TEST_DATA_RESULT_DETAIL_NP C TEST_DATA_RESULT_NP MR TEST_DATA_RESULT_NP C SEARCH_DATA_RESULT_NP C Onto_expP Onto_exp_NP C _O Onto_expOM Onto_exp_NP MR_MP Word_P os Sys tem _Running SEARCH_DATA_RESULT Onto_exp_NP C_OM Onto_exp_SNP E_OM G_tm p P AT_Mapping SEARC H_DATA_RESULT_HS Onto_exp_NP MR_O Onto_expM Onto_exp_SNP E_O Onto_exp_NP C _P G_link Onto_exp_NP C_M Onto_exp_NP MR_OM SEARC H_DATA_RESULT_NP MR G_ext Onto_exp_NP MR_P Onto_expMP Onto_exp_NP MR_M Onto_expO Onto_exp_SNP E_P Onto_exp_SNP E_MP Onto_expP hras e_for_HS Onto_exp_SNP E_M Onto_exp_NP C_MP SEARC H_DATA_RESULT_SNP E Hình G.1 Tổ chức sở liệu thực nghiệm luận án [...]... quả trả về (tập tài liệu) (C) Hình 1.1 Mối quan hệ giữa mô hình của luận án và hệ thống truy xuất thông tin (A) Mô hình xử lý của luận án (phạm vi nghiên cứu của luận án) (B) Động cơ tìm kiếm thông tin (thuộc hệ thống truy xuất thông tin) (C) Kết quả tìm kiếm thông tin từ yêu cầu của các câu truy vấn ñã mở rộng Với mô hình ñược mô tả ở hình 1.1, trong mục (A), câu truy vấn nhập (dạng cụm danh từ bao... Đối với việc mở rộng truy vấn, hệ thống xác ñịnh ngữ nghĩa truy vấn ñược chính xác hơn, ñiều ñó cho phép kết quả truy vấn tốt hơn Thông qua kết quả truy vấn mở rộng, người dùng có thể học tập cách phát biểu truy vấn rõ ràng và chính xác hơn ñể thu ñược các kết quả hữu ích Từ một truy vấn của người dùng, mở rộng truy vấn sẽ bổ sung vào ñó một số từ hay thuật ngữ liên quan và tạo ra dạng truy vấn mới có... khai trong thực tế ñể mang lại kết quả truy xuất thông tin tốt hơn Như ñịnh hướng nêu trên, phạm vi nghiên cứu của luận án ñược thể hiện trong hình 1.1 (trong khung ñường gạch ñứt nét) (A) (B) Nhập: Câu truy vấn dạng cụm danh từ Xuất: Bộ xử lý mở rộng truy vấn trên cơ sở kết hợp với ontology Các câu truy vấn: - dạng cụm danh từ, - ñã ñược mở rộng có dạng truy vấn hoàn chỉnh Động cơ tìm kiếm thông tin. .. 138 Hình 6.1 Mô hình hệ thống mở rộng truy vấn với ñộng cơ tìm kiếm thông tin 141 Hình 6.2 Thống kê số lượng kết quả thực nghiệm theo nguồn dữ liệu 149 Hình 6.3 Thống kê số liệu các ñộ ño theo nguồn dữ liệu 150 Hình 6.4 Minh họa tính chất (6.1) 151 Hình 6.5 Ứng dụng tính chất (6.1) vào mở rộng kết quả tìm kiếm 153 Hình 6.6 Mô hình hệ thống mở rộng truy vấn kết hợp hệ thống truy. .. quan trong ñó một ñiều gì ñó tồn tại hay xảy ra”c Từ ñó, một nhận ñịnh chung là thông qua tương tác của người dùng lên hệ thống truy xuất thông tin, ngữ cảnh tương ứng sẽ bao gồm những thông tin liên quan ñến những hành ñộng, những quyết ñịnh của người dùng Ngữ cảnh trong truy xuất thông tin bao gồm nhiều vấn ñề trong ñó có mở rộng truy vấn Một khó khăn là làm sao biểu diễn ñược nghĩa của truy vấn bằng... ñiều kiện truy vấn hoàn chỉnh Điều ñó sẽ giúp giảm ñược ñộ phức tạp hay dạng biểu diễn phức hợp của truy vấn, ñồng thời còn giúp ñảm bảo tính duy nhất của từng thành phần trong truy vấn thỏa ñiều kiện truy vấn hoàn chỉnh Mục (B) của hình trên gồm ñộng cơ tìm kiếm thông tin Đây là một bộ phận quan trọng của hệ thống truy xuất thông tin Động cơ tìm kiếm thông tin giải quyết ba vấn ñề cốt lõi là mô hình biểu... Base Training Mô hình mở rộng truy vấn ñộng cơ tìm kiếm thông tin Tạo chỉ mục hướng ngữ nghĩa Mở rộng cụm danh từ tương ñương Hệ thống thông tin ñại học Stockholm Hội nghị về Truy xuất văn bản Làm giàu ontology dựa trên WordNet 1 Chương 1 GIỚI THIỆU 1.1 Động cơ nghiên cứu Như chúng ta ñã biết, internet (web)a ñược xem là nguồn thông tin khổng lồ của nhân loại Theo thời gian, nguồn thông tin này không... TẮT Trong truy xuất thông tin (Information Retrieval), do những yếu tố khác nhau, người sử dụng thường dùng các truy vấn dạng ñơn giản biểu diễn yêu cầu cần tìm Việc này dẫn ñến kết quả tìm ñược không ñáp ứng ñủ nhu cầu mong muốn, hoặc chất lượng thấp Do ñó, mở rộng truy vấn là vấn ñề cần thiết, ñể từ ñó giúp hệ thống truy xuất thông tin có thêm thông tin theo ngữ cảnh nhằm cải tiến các kết quả truy vấn. .. Anh trong thực nghiệm 8 lựa cho các thông tin hơn, ñể bổ sung vào từ khóa ban ñầu của người dùng, dẫn ñến việc nâng cao chất lượng của việc mở rộng truy vấn Việc giải quyết bài toán này ñược trình bày chi tiết trong chương 4 của luận án Bài toán 2 - Xây dựng phương pháp hoàn chỉnh mở rộng truy vấn Dựa trên ontology ở bài toán 1, nghiên cứu xây dựng phương pháp tiếp cận mới cho việc mở rộng truy vấn. .. thống tìm kiếm thông tin chưa ñủ mạnh nên kết quả ñưa ra không thể hỗ trợ người dùng như mong ñợi Truy vấn của người dùng cũng chưa phản ánh ñầy ñủ ngữ nghĩa ñể hỗ trợ cho các quá trình tìm kiếm và truy xuất thông tin ñược tốt hơn Vì vậy, việc bổ sung ngữ nghĩa vào truy vấn ban ñầu của người dùng là yêu cầu cần thiết Một bài toán kinh ñiển trong lĩnh vực Truy xuất thông tin là Mở rộng truy vấn Đó là quá

Ngày đăng: 19/05/2016, 10:45

Từ khóa liên quan

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan