Mở rộng câu truy vấn thông tin trong tiếng việt trên cơ sở ontology

80 25 0
Mở rộng câu truy vấn thông tin trong tiếng việt trên cơ sở ontology

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Đại Học Quốc Gia Tp Hồ Chí Minh TRƯỜNG ĐẠI HỌC BÁCH KHOA NGÔ DƯƠNG HÀ MỞ RỘNG CÂU TRUY VẤN THÔNG TIN TRONG TIẾNG VIỆT TRÊN CƠ SỞ ONTOLOGY Chuyên ngành : Khoa Học Máy Tính LUẬN VĂN THẠC SĨ TP HỒ CHÍ MINH, tháng 09 năm 2010 CƠNG TRÌNH ĐƯỢC HỒN THÀNH TẠI TRƯỜNG ĐẠI HỌC BÁCH KHOA ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH Cán hướng dẫn khoa học : PGS TS Phan Thị Tươi Cán chấm nhận xét : TS QUẢN THÀNH THƠ Cán chấm nhận xét : Luận văn thạc sĩ bảo vệ Trường Đại Học Bách Khoa, ĐHQG Tp.HCM ngày 18 tháng 09 năm 2010 Thành phần Hội đồng đánh giá luận văn thạc sĩ gồm: Chủ tịch hội đồng: PGS.TS DƯƠNG TUẤN ANH Thư ký hội đồng : TS QUẢN THÀNH THƠ, phản biện Ủy viên hội đồng : PGS.TS ĐỖ PHÚC, phản biện Ủy viên hội đồng : TS NGUYỄN XUÂN DŨNG Ủy viên hội đồng : PGS.TS PHAN THỊ TƯƠI, hướng dẫn NHIỆM VỤ LUẬN VĂN THẠC SĨ Họ tên học viên: NGÔ DƯƠNG HÀ Phái: Nam Sinh ngày tháng năm: 30/05/1982 Nơi sinh: Đồng Nai Chuyên ngành: Khoa học máy tính MSHV: 00706126 I TÊN ĐỀ TÀI: MỞ RỘNG CÂU TRUY VẤN THÔNG TIN TRONG TIẾNG VIỆT TRÊN CƠ SỞ ONTOLOGY II NHIỆM VỤ VÀ NỘI DUNG: - Nghiên cứu phương pháp mở rộng truy vấn - Tìm hiểu cơng cụ, cơng nghệ hỗ trợ - Tìm hiểu Ontology hỗ trợ ngữ nghĩa cho mở rộng truy vấn Từ xác định phương pháp mở rộng truy vấn thông tin tiếng Việt sở Ontology - Xây dựng mô hình mở rộng truy vấn thực nghiệm minh chứng cho mơ hình đề xuất III NGÀY GIAO NHIỆM VU: 22/06/2009 IV NGÀY HOÀN THÀNH NHIỆM VỤ: 18/09/2010 V CÁN BỘ HƯỚNG DẪN: PGS.TS Phan Thị Tươi CÁN BỘ HƯỚNG DẪN CN BỘ MÔN QL CHUYÊN NGÀNH PGS TS Phan Thị Tươi LỜI CẢM ƠN Trước tiên cho em gửi lời cảm ơn đến tất Quý thầy cô giảng dạy Cao học chun ngành khoa học máy tính khóa 2006 Đặc biệt cảm ơn PGS.TS Phan Thị Tươi anh Nguyễn Chánh Thành hướng dẫn tận tình đóng góp nhiều ý kiến quý báu suốt trình thực luận văn Chân thành cảm ơn Quý thầy phịng Sau Đại học nhiệt tình tổ chức, theo dõi, động viên tạo điều kiện để chương trình đào tạo Cao học kết thúc tốt đẹp Cảm ơn tất bạn bè đồng nghiệp giúp đỡ công việc, động viên mặt tinh thần để luận văn hoàn thành Xin tỏ lòng biết ơn sâu sắc lời động viên khuyến khích nhiệt tình gia đình để đạt thành hôm Cuối xin cảm ơn tất Quý thầy cô trường Đại Học Bách Khoa TP.Hồ Chí Minh, người nhiều bỏ cơng sức để truyền đạt kiến thức cho tơi suốt q trình học Cao học Vì thời gian có hạn kiến thức cịn hạn chế, nên chắn luận văn tránh khỏi thiếu sót, mong nhận đóng góp ý kiến q báu Q thầy bạn Tác giả Ngơ Dương Hà TĨM TẮT Nhu cầu tìm kiếm thơng tin tiếng Việt mạng ngày cấp thiết phổ biến nước Sự phong phú đa nghĩa tiếng Việt với khối lượng thông tin internet ngày lớn, điều gây khó khăn cho việc đáp ứng đầy đủ yêu cầu mong muốn người dùng truy cập thông tin internet tiếng Việt Vì vậy, việc xây dựng hệ thống xử lý nhập nhằng ngữ nghĩa phương pháp mở rộng câu truy vấn theo hướng ngữ nghĩa vấn đề thiết yếu Mơ hình mở rộng truy vấn kết hợp dùng Ontology giải thuật Gloss Overlap giúp cho việc đánh giá trọng số cho quan hệ mạng ngữ nghĩa nhằm tăng độ xác cho từ khóa mở rộng Kết thực nghiệm cho thấy, mơ hình mở rộng có tính xác tỉ lệ thuận với từ khóa truy vấn, nghĩa câu truy vấn có nhiều từ khóa mơ hình mở rộng có tính xác cao ABSTRACT Needs for Vietnamese-language information over the internet is becoming more and more urgent and common, both at home and abroad The abundant and multimeaning Vietnamese language and increasingly huge amounts of information hinder total satisfaction of customers’ demands and their access to the internet using Vietnamese That is why replacing a processing system with confusing semantics by semantics-oriented query expansion is very necessary The query expansion model combining Ontology and Gloss Overlap will help evaluate weight bits of relations of semantic network to improve precision for expanded words Experimental results showed that expansion model had precision proportional to query words, meaning that the more words queries included, the more precise expansion models were MỤC LỤC CHƯƠNG 1: GIỚI THIỆU ĐỀ TÀI 1.1 Mở rộng truy vấn 1.2 Mức độ xác ưu điểm câu truy vấn mở rộng 1.3 Mục tiêu giới hạn đề tài 1.4 Tóm lược kết đạt 1.5 Cấu trúc luận văn CHƯƠNG 2: NHỮNG CƠNG TRÌNH NGHIÊN CỨU LIÊN QUAN 2.1 Các cơng trình liên quan tới kỹ thuật phân tích thống kê 2.1.1 Cơng trình nghiên cứu Hang Cui, Ji-Rong Wen, Jian-Yun Nie, Wei-Ying Ma (2002) 2.1.2 Cơng trình nghiên cứu Mandar Mitra Chris Buckley (1998) 2.2 Các cơng trình liên quan tới kỹ thuật mở rộng truy vấn sử dụng Ontology 2.2.1 Cơng trình nghiên cứu Revuri, Upadhyaya Kumar (2006) 2.2.2 Cơng trình nghiên cứu Navigli Velardi (2003) 10 2.2.3 Công trình nghiên cứu Banerjee Pedersen (2003) 13 2.2.4 Cơng trình nghiên cứu Nguyễn Chánh Thành Phan Thị Tươi(2007) 14 CHƯƠNG 3: CƠ SỞ LÝ THUYẾT VỀ MỞ RỘNG TRUY VẤN 18 3.1 Phương pháp mở rộng truy vấn với mơ hình tri thức 18 3.1.1 Ontology 18 3.1.2 Wordnet 20 3.2 Phương pháp mở rộng truy vấn độc lập với mơ hình tri thức 23 3.2.1 Phương pháp thông tin phản hồi liên quan (relevance feedback) 23 3.2.2 Phương pháp thông tin phản hồi liên quan giả lập (Pseudo relevance feedback)23 3.2.3 Phương pháp thông tin phản hồi liên quan gián tiếp (Indirect relevance feedback) 24 3.2.4 Phương pháp lưu trữ truy vấn (Query Log) 25 3.3 Phương pháp mở rộng truy vấn dựa phân tích thống kê 26 3.3.1 Phương pháp phân tích tồn cục 26 3.3.2 Phương pháp phân tích cục 26 3.3.3 Phương pháp phân tích ngữ cảnh cục (local context analysis) 27 3.4 Phương pháp xác định độ đo ngữ nghĩa tương tự Ontology 27 3.4.1 Phương pháp Structural 28 3.4.2 Phương pháp Gloss overlap 29 3.5 Vấn đề nhập nhằng nghĩa 30 3.5.1 Nhập nhằng nghĩa 30 3.5.2 Một số tượng nhập nhằng 30 3.5.2.1 Nhập nhằng ranh giới từ 30 3.5.2.2 Nhập nhằng từ đa nghĩa 30 3.5.2.3 Nhập nhằng từ loại 31 CHƯƠNG 4: MƠ HÌNH ĐỀ XUẤT MỞ RỘNG TRUY VẤN CỦA LUẬN VĂN32 4.1 Hướng giải vấn đề 32 4.2 Kiến trúc hệ thống 33 4.3 Hoạt động hệ thống 34 4.3.1 Xác định giới hạn cụm danh từ cho luận văn 36 4.3.2 Gán nhãn từ loại rút trích danh từ, cụm danh từ 37 4.3.3 Xây dựng Ontology 38 4.3.4 Giải thuật mạng ngữ nghĩa tìm kiếm từ khóa dự tuyển 39 4.3.4.1 Vấn đề xử lý nhập nhằng 39 4.3.4.2 Xây dựng mạng ngữ nghĩa dựa vào nhóm tác giả Navigli 40 4.3.4.3 Giải thuật tạo mạng ngữ nghĩa từ khóa 41 4.3.5 Giải thuật Gloss Overlap 44 4.3.5.1 Giải thuật Gloss Overlap 44 4.3.5.2 Đề xuất hướng giải phương pháp Gloss Overlap 46 4.3.5.3 Phương pháp đánh trọng số cho khóa dự tuyển 47 4.3.6 Lựa chọn từ khóa mở rộng 50 4.4 Kết luận 51 CHƯƠNG 5: TRIỂN KHAI HỆ THỐNG VÀ ĐÁNH GIÁ KẾT QUẢ 52 5.1 Triển khai hệ thống 52 5.2 Hình ảnh chương trình 52 5.3 Đánh giá kết 53 5.3.1 Tiêu chí đánh giá 53 5.3.2 Xây dựng Ontology 54 5.3.3 Thực nghiệm 54 5.3.3.1 Thực nghiệm với phương pháp Gloss Overlap nhóm tác giả Banerjee 54 5.3.3.2 Thực nghiệm với q trình thu giảm việc tính tốn quan hệ họ hàng khái niệm 55 5.3.3.3 Thực nghiệm với đề xuất hướng giải phương pháp Gloss Overlap56 5.3.3.4 Thực nghiệm câu truy vấn ban đầu 57 5.3.3.5 Nhận xét 58 CHƯƠNG 6: TỔNG KẾT 59 6.1 Những đóng góp luận văn 59 6.2 Hạn chế luận văn 60 6.3 Hướng phát triển 60 PHỤ LỤC 62 A Lucene 62 DANH MỤC TÀI LIỆU THAM KHẢO 64 LÝ LỊCH TRÍCH NGANG 68 DANH SÁCH CÁC BẢNG Bảng 2.1:So sánh độ xác trung bình đạt mở rộng truy vấn với cụm không cụm Bảng 2.2: Kết phương pháp 14 Bảng 2.3: Tóm tắt kết huấn luyện ontology 15 Bảng 5.1: Kết thực nghiệm mở rộng truy vấn nhóm tác giả Banerjee 55 Bảng 5.2: Kết thực nghiệm mở rộng truy vấn trình thu giảm việc tính tốn quan hệ họ hàng 55 Bảng 5.3: Kết thực nghiệm mở rộng truy vấn luận văn 56 Bảng 5.4: Kết thực nghiệm đánh giá câu truy vấn ban đầu 57 A tập tài liệu nhận diện ánh xạ thủ công Ra tập giao tập R A.  5.3.2 Xây dựng Ontology Như mô tả phần trước, Ontology xây dựng với khái niệm danh từ, tính từ, động từ tiếng Việt với mối quan hệ liên kết ngữ nghĩa là: quan hệ tương tự, quan hệ bao hàm, quan hệ IS A, quan hệ phận, quan hệ tồn bộ, quan hệ thích, quan hệ hướng đối tượng Thơng tin liệu Ontology trích rút từ PCWORLD, ICTNEWS, WORDNET 2.1, LẠC VIỆT, WIKIPEDIA, GOOGLE 5.3.3 Thực nghiệm Sau thông tin kho liệu tìm kiếm tập câu truy vấn dùng để đánh giá: - Nội dung tìm kiếm hệ thống giới hạn nội dung website: ictnews.com, pcworld.com - Tập 75 câu truy vấn chọn - Kho mẫu để đánh giá 1000 tài liệu 5.3.3.1 Thực nghiệm với phương pháp Gloss Overlap nhóm tác giả Banerjee Mở rộng truy vấn kết hợp: Số từ khóa mở Độ xác Độ hồi qui rộng tối đa (%) (%) 22 10 63 20 65 40 68 54    Bảng 5.1: Kết thực nghiệm mở rộng truy vấn nhóm tác giả Banerjee Đồ thị biểu diễn độ xác độ hồi qui theo số tổ hợp từ khóa: Hình 5.3: Đồ thị biểu diễn độ xác độ hồi qui theo số từ khóa mở rộng nhóm tác giả Banerjee 5.3.3.2 Thực nghiệm với trình thu giảm việc tính tốn quan hệ họ hàng khái niệm Mở rộng truy vấn kết hợp: Số từ khóa mở Độ xác Độ hồi qui rộng tối đa (%) (%) 28 10 54 20 55 10 40 61 Bảng 5.2: Kết thực nghiệm mở rộng truy vấn q trình thu giảm việc tính toán quan hệ họ hàng 55    Đồ thị biểu diễn độ xác độ hồi qui theo số tổ hợp từ khóa: Hình 5.4: Đồ thị biểu diễn độ xác độ hồi qui theo số từ khóa mở rộng q trình thu giảm việc tính toán quan hệ họ hàng 5.3.3.3 Thực nghiệm với đề xuất hướng giải phương pháp Gloss Overlap Mở rộng truy vấn kết hợp: Số từ khóa mở Độ xác Độ hồi qui rộng tối đa (%) (%) 23 10 66 20 65 40 69 Bảng 5.3: Kết thực nghiệm mở rộng truy vấn luận văn Đồ thị biểu diễn độ xác độ hồi qui theo số tổ hợp từ khóa 56    Hình 5.5: Đồ thị biểu diễn độ xác độ hồi qui theo số từ khóa mở rộng luận văn 5.3.3.4 Thực nghiệm câu truy vấn ban đầu Bảng thống kê câu truy vấn ban đầu: Số từ khóa mở Độ xác Độ hồi qui rộng tối đa (%) (%) 56 10 51 23 20 33 26 40 46 18 Bảng 5.4: Kết thực nghiệm đánh giá câu truy vấn ban đầu Đồ thị biểu diễn độ xác độ hồi qui theo câu truy vấn ban đầu 57    Hình 5.6: Đồ thị biểu diễn độ xác độ hồi qui theo câu truy vấn ban đầu 5.3.4 Nhận xét Từ bảng 5.1, 5.2, 5.3 hình 5.3, 5.4, 5.5 thấy, kết độ hồi qui thấp, phần đưa từ khóa mở rộng vào việc tìm kiếm nội dung tài liệu Kết tìm kiếm nội dung tài liệu cho kết nhiều tài liệu không phù hợp Từ bảng 5.1 hình 5.3 kết gần tương tự bảng 5.3 hình 5.5 Điều cho thấy luận văn đề xuất làm giảm khối lượng tính tốn mang lại hiệu Tuy nhiên, tiến hành đánh giá kết gặp khó khăn cụ thể: tập câu mở rộng có nhiều câu khơng phù hợp với kho tài liệu, nguyên nhân tập câu truy vấn ban đầu không mong muốn 58    CHƯƠNG TỔNG KẾT Với mục tiêu mở rộng câu truy vấn phục vụ cho việc tìm kiếm tài liệu tiếng Việt internet, luận văn khảo sát số kĩ thuật phương pháp mở rộng để từ áp dụng cho tiếng Việt Luận văn đề xuất mô hình ontology kết hợp tri thức từ vựng tri thức khái niệm giới thực, sử dụng hướng tiếp cận từ điển hướng tiếp cận kết hợp thống kê tri thức ontology Tuy nhiên, luận văn bước đầu việc khảo sát xây dựng ontology cho tiếng Việt nên cịn nhiều thiếu sót cần tiếp tục nghiên cứu phát triển Chương tổng kết việc làm được, đóng góp luận văn nêu lên hướng mở rộng cho nghiên cứu sau 6.1 Những đóng góp luận văn Nhiệm vụ luận văn nghiên cứu phát triển hệ thống mở rộng truy vấn tài liệu thuộc lĩnh vực máy tính có hỗ trợ tiếng Việt, kết đạt sau: - Nghiên cứu WordNet, xây dựng kho liệu Ontology tiếng Việt với mối quan hệ tương tự, quan hệ bao hàm, quan hệ IS A, quan hệ phận, quan hệ toàn bộ, quan hệ thích, quan hệ hướng đối tượng trích rút từ WordNet, PCWORLD, Lạc Việt, Wikipedia, hỗ trợ việc xử lý nhập nhằng nghĩa - Nghiên cứu ứng dụng mạng ngữ nghĩa để xác định ngữ cảnh câu truy vấn tìm kiếm 59    - Xây dựng mơ hình mở rộng truy vấn kết hợp Ontology giải thuật Gloss Overlap Đề xuất đưa trọng số vào phương pháp Gloss Overlap nhằm hướng tới tạo câu truy vấn mở rộng gần nghĩa với câu truy vấn ban đầu Luận văn đưa hướng tiếp cận cho toán mở rộng truy vấn tiếng Việt sở Ontology Đó bổ sung trọng số cho quan hệ ngữ nghĩa từ khóa Các kết thực nghiệm cho thấy tính hiệu phương pháp mà luận văn đề nghị 6.2 Hạn chế luận văn Luận văn đề xuất phương án mở rộng truy vấn kết hợp sử dụng Ontology giải thuật Gloss Overlap Bên cạnh ưu điểm thể sở lý thuyết minh chứng thực nghiệm, hệ thống cịn có số hạn chế sau: Luận văn trọng hướng vào giải pháp mở rộng truy vấn, chưa đề cập yếu tố thời gian thực hệ thống truy hồi thông tin Qúa trình xây dựng kho liệu cịn hạn hẹp chưa đáp ứng đầy đủ kho liệu trình thực nghiệm Kho liệu thực nghiệm chọn pcworld, ictnews, google với ngôn ngữ tiếng Việt, kết đánh giá thực nghiệm dừng lại mức đánh giá mơ hình mình, chưa so sánh với mơ hình khác 6.3 Hướng phát triển Đề tài nêu vấn đề số cách giải toán mở rộng truy vấn Tuy nhiên, luận văn nhiều điểm khác cần phải nghiên cứu thêm để đề tài hoàn thiện Trong đề tài kết thực nghiệm thực nghiệm trên, liệu tổng hợp lấy từ nguồn pcworld, ictnews, google Do đó, cần phải có 60    thực nghiệm nhiều loại liệu khác để đưa kết luận xác giải thuật phù hợp cho loại liệu Nghiên cứu cải tiến giải pháp mở rộng kết hợp để đáp ứng yếu tố thời gian thực Sử dụng Log phương án đưa Tuy nhiên, hạn chế thời gian, phương pháp chưa đưa vào phần thực đề tài Nghiên cứu xây dựng index cho kho tài liệu Nhằm cải thiệt tốt độ hồi qui Nghiên cứu huấn luyện Ontology hỗ trợ tiếng Việt làm tảng để hoàn thiện trình xây dựng hệ thống mở rộng truy vấn tiếng Việt Nghiên cứu rút trích cụm danh từ đặc trưng cho phù hợp với toán mở rộng truy vấn lĩnh vựu ngành Công nghệ Thông tin Việc mở rộng miền liệu tri thức cần thiết để giải tốn lĩnh vực rộng Tuy nhiên, việc mở rộng ontology dẫn đến nhập nhằng ngữ nghĩa từ mang nghĩa khác lĩnh vực khác Việc tổ chức lưu trữ ontology hữu ích cho việc giải nhập nhằng ngữ nghĩa hướng mở rộng cần quan tâm nghiên cứu 61    DANH MỤC TÀI LIỆU THAM KHẢO [1] Agissilaos Andreou (2005) Ontologies and Queryexpansion School of Informatics University of Edinburgh [2] Banerjee, S and Pedersen, T (2003) Extended Gloss Overlaps as a measure of semantic relatedness In Proceedings of the Eighteenth International Joint Conference on Artificial Intelligence (IJCAI-03), pages 805–810 [3] Buckley, Chris, and Gerard Salton (1995) Optimization of relevance feedback weights In Proceedings of SIGIR, pages 351–357 ACM Press doi: http://doi.acm.org/10.1145/ 215206.215383 [292] [4] Chau Quang Nguyen, Tuoi Thi Phan, Tru Hoang Cao (2006) Vietnamese Proper Noun Recognition In Proceedings of The Fourth International IEEE Conference on Computer Sciences- RIVF’06, pages 144-151, 2006 [5] George A Miller, Richard Beckwith, Christiane Fellbaum, Derek Gross, and Katherine Miller (1993) Introduction to WordNet: An On-line Lexical Database In: International Journal of Lexicography (4), 1990, Revised August 1993 [6] Georg Buscher, Andreas Dengel, Ludger van Elst (2008) Query expansion using gaze-based feedback on the subdocument level In Proceedings of the 31st annual international ACM SIGIR conference on Research and development in information, pages 387-394 [7] Gruber, T R (1993) A Translation Approach to Portable Ontology Specifications Knowledge Acquisition, Volume 5, Issue 2, pages 199-220 [8] Gruber, Thomas (1995) Toward Principles for the Design of Ontologies Used for Knowledge Sharing International Journal Human-Computer Studies Vol 43, Issues 5-6, Novemer 1995, pages 907-928 62    [9] Guarino N (1998) Formal Ontology and Information Systems In Proceedings of FOIS’98, Trento, Italy, 6-8 June, Amsterdam, IOS Press, pages 315 [10] Hang Cui, Ji-Rong Wen, Jian-Yun Nie, Wei-Ying Ma (2005) Probabilistic query expansion using query logs Microsoft research Asia, Beijing, P.R.China [11] Janez Brank, Marko Grobelnik, Dunja Mladenic (2005) A survey of Ontology evaluation techniques The Slovenian Research Agency and the IST Programme of the European Community under SEKT Semantically Enabled Knowledge Technologies (IST-1-506826-IP) and PASCAL Network of Excellence (IST-2002-506778) [12] J Bhogal, A Macfarlane, P Smith (2006) A review of Ontology based query expansion Information Processing & Management, Volume 43, Issue 4, July 2007, pages 866-886 [13] Lesk, M (1986) Automatic sense disambiguation using machine readable dictionaries: how to tell a pine cone from an ice cream cone In Proceedings of the 5th Annual International Conference on Systems Documentation, pages 24–26 [14] Mandar Mitra, Amit Singhal and Chris Buckley (1998) Improve automation query expansion University of Melbourne [15] Manning, C and Shăutze, H (1999) Foundations of statistical natural language processing The Mit Press, pages 294-307 [16] Navigli, R and Velardi, P (2003) An analysis of Ontology-based query expansion strategies In Workshop on Adaptive Text Extraction and Mining (ATEM 2003), in the 14th European Conference on Machine Learning (ECML 2003) 63    [17] Nguyen Quang Chau, Phan Thi Tuoi, Cao Hoang Tru (2006) Gán nhãn từ loại cho tiếng Việt dựa văn phong tính tốn xác suất Tạp chí phát triển kh&cn, tập số 2, 2006 [18] Nieto M A M (2003) An Overview of Ontologies Center of Research in Information and Automation Technologies Technical Report, March, 2003 [19] Park, L a F., and Ramamohanarao, K (2004) Hybrid prequery term expansion using latent semantic analysis In Proceedings of the 4th International Conference on Data Mining (ICDM’04) [20] Sandhya Revuri, Sujatha R Upadhyaya and P Sreenivasa Kumar (2006) Using Domain Ontologies for Efficient Information Retrieval International Conference on Management of Data COMAD 2006, Delhi, India, December 14–16, 2006 [21] Shu Huang, Qiankun Zhao, Prasenjit Mitra, C Lee Giles (2008) Hierarchical Location and Topic based Query Expansion Association for the Advancement of Artificial Intelligence (www.aaai.org) [22] Swartout B., Patil R., Knight K., Russ T (1996) Toward distributed use of large−scale ontologies In Proceedings of the Tenth Knowledge Acquisition for Knowledge−Based Systems Workshop, KAW ’96, November 9−14, Banff, Alberta, Canada [23] Touretzky, D S (1986) The Mathematics of Inheritance Systems Los Altos, Calif.: Morgan Kaufmann [24] Uỷ ban khoa học xã hội Việt Nam (1993) Ngữ pháp tiếng Việt NXB Khoa học Xã hội Hà nội [25] Vo Van Cuong (2008) Mở rộng truy vấn dùng Ontology kỹ thuật phân tích cục Luận văn thạc sĩ, Khoa Khoa Học Kỹ Thuật Máy Tính, Đại Học Bách Khoa Tp Hồ Chí Minh 64    [26] Miller G A., Beckwith R., Fellbaum C., Gross D and Miller K (1990) Introduction to WordNet : An Online Lexical Database International Journal of Lexicography, Vol 3, No.4, pp 235-244 [27] Diệp Quang Ban, Hoàng Văn Thung (2000) Ngữ pháp tiếng Việt NXB Giáo dục [28] Nguyễn Tài Cẩn (1981) Ngữ pháp tiếng Việt Nhà xuất Đại hoc Trung học chuyên nghiệp [29] Đỗ Phúc (2006) Nghiên cứu ứng dụng tập phổ biến luật kết hợp vào toán phân loại văn tiếng Việt có xem xét ngữ nghĩa Tạp chí phát triển kh&cn, tập 9, số -2006 [30] Thanh C.Nguyen, Tuoi T.Phan (2007) An Ontology-Based Approach of Query Expansion Proceedings of iiWAS2007 [31] Đỗ Phúc, Đỗ Hoàng Cường, Nguyễn Tri Tuấn, Huỳnh Thụy Bảo Trân, Nguyễn Văn Khiết, Nguyễn Việt Hoàng, Nguyễn Việt Thành, Phạm Phú Hội, Dương Ngọc Long Nam, Nguyễn Phước Thanh Hải (2004) Phát triển Hệ thống S.E Hỗ trợ Tìm kiếm Thơng tin, thuộc lãnh vực CNTT Internet qua từ khóa tiếng Việt http://www.fit.hcmuns.edu.vn/~tmdung/NCKH/S- E/NoiDungS-E.pdf 65    LÝ LỊCH TRÍCH NGANG Họ tên: Ngơ Dương Hà Ngày, tháng, năm sinh: 30 – 05 – 1982 Nơi sinh: Đồng Nai Địa liên lạc: 65/22/36 – Đường Số – Khu phố – Phường BHH – Quận Bình Tân – Tp Hồ Chí Minh QUÁ TRÌNH ĐÀO TẠO: Từ tháng năm 2000 đến tháng năm 2004: học đại học, chuyên ngành Toán-Tin Học trường Đại Học Khoa Học Tự Nhiên Tp Hồ Chí Minh Từ tháng năm 2006 đến nay: học sau đại học, chuyên ngành Khoa Học Máy Tính trường Đại Học Bách Khoa Tp Hồ Chí Minh Q TRÌNH CƠNG TÁC: Từ tháng năm 2005 đến nay, làm việc Trường Đại Học Công Nghiệp Thực Phẩm Tp.HCM   PHỤ LỤC A Lucene Lucene thư viện mã nguồn mở, phát triển Dough Cutting Thư viện cung cấp hàm hỗ trợ cho việc đánh mục tìm kiếm Cho phép tạo mục tìm kiếm thơng tin toàn văn (full text) với hiệu suất cao Đây ứng dụng mã nguồn mở phát triển dựa ngôn ngữ Java Sau mơ hình Lucene cho phép tạo mục Hình PL.1: Mơ hình tạo mục Các bước sử dụng Lucene bao gồm: - Mô tả đối tượng cần đánh mục: Lucene coi đối tượng cần đánh mục Document Mỗi Document có nhiều Field, Field tương ứng thuộc tính đối tượng cần đánh mục - Đánh mục: trước hết liệu văn phân tích thành từ khóa, đồng thời loại bỏ từ khơng dùng đến, sau từ khóa dùng để tạo mục nghịch đảo (inverted index) lưu thành phân đoạn (segments) dạng thuận tiện cho việc tìm kiếm sau - Tìm kiếm: Sau liệu đánh mục, thực tìm kiếm chúng Tìm kiếm tồn vẹn cho phép tìm kiếm theo danh sách từ khóa với tốn tử luận lí (và, hoặc, phủ định) Ngồi điểm bật khác tìm kiếm toàn văn cho phép xếp hạng kết trả tùy vào độ tương đồng (relevance) câu truy vấn kết tìm kiếm ... TÀI: MỞ RỘNG CÂU TRUY VẤN THÔNG TIN TRONG TIẾNG VIỆT TRÊN CƠ SỞ ONTOLOGY II NHIỆM VỤ VÀ NỘI DUNG: - Nghiên cứu phương pháp mở rộng truy vấn - Tìm hiểu cơng cụ, cơng nghệ hỗ trợ - Tìm hiểu Ontology. .. kỹ thuật mở rộng truy vấn phân thành ba nhóm: mở rộng truy vấn dựa vào tài liệu, mở rộng truy vấn dựa vào từ (term), mở rộng truy vấn dựa vào khái niệm Trong cách tiếp cận mở rộng truy vấn dựa... mở rộng truy vấn dựa Ontology điểm mạnh hệ thống truy xuất thơng tin Đây hướng tiếp cận luận văn, mở rộng truy vấn dùng Ontology 1.2 Mức độ xác ưu điểm câu truy vấn mở rộng Bài toán mở rộng truy

Ngày đăng: 15/02/2021, 17:26

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan