(LUẬN VĂN THẠC SĨ) Phương pháp biểu diễn ngữ nghĩa lân cận siêu liên kết trong máy tìm kiếm VietSeek

83 2 0
(LUẬN VĂN THẠC SĨ) Phương pháp biểu diễn ngữ nghĩa lân cận siêu liên kết trong máy tìm kiếm VietSeek

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

ĐẠI HỌC QUỐC GIA HÀ NỘI KHOA CÔNG NGHỆ ĐẶNG TIỂU HÙNG PHƯƠNG PHÁP BIỂU DIỄN NGỮ NGHĨA LÂN CẬN SIÊU LIÊN KẾT CHO MÁY TÌM KIẾM VIETSEEK LUẬN VĂN THẠC SĨ Hà Nội - 2004 TIEU LUAN MOI download : skknchat@gmail.com ĐẠI HỌC QUỐC GIA HÀ NỘI KHOA CÔNG NGHỆ ĐẶNG TIỂU HÙNG PHƯƠNG PHÁP BIỂU DIỄN NGỮ NGHĨA LÂN CẬN SIÊU LIÊN KẾT CHO MÁY TÌM KIẾM VIETSEEK Chuyên ngành: Công nghệ thông tin Mã số: 1.01.10 LUẬN VĂN THẠC SĨ NGƯỜI HƯỚNG DẪN KHOA HỌC: TS HÀ QUANG THỤY Hà Nội - 2004 TIEU LUAN MOI download : skknchat@gmail.com Phương pháp biểu diễn ngữ nghĩa lân cận siêu liên kết cho máy tìm kiếm VietSeek MỤC LỤC PHẦN MỞ ĐẦU CHƢƠNG TỔNG QUAN VỀ TÌM KIẾM THƠNG TIN TRÊN WEB 1.1 Giới thiệu tìm kiếm thơng tin 1.2 Bài tốn tìm kiếm thơng tin 1.2.1 Giai đoạn 1: Thu thập phân tích thơng tin 10 1.2.2 Giai đoạn 2: Xử lý câu hỏi trả lời 11 1.3 Mơ hình biểu diễn thơng tin văn 13 1.3.1 Mô hình biểu diễn thơng tin theo từ khố 13 1.3.2 Mơ hình biểu diễn thơng tin theo nội dung 15 1.4 Phân tích cú pháp ngữ nghĩa 16 1.5 Phân lớp văn 16 1.6 Phân cụm văn 16 1.7 Khai thác thông tin cấu trúc web 17 1.8 Khai thác thông tin sử dụng web 17 CHƢƠNG PHƢƠNG PHÁP BIỂU DIỄN TRANG WEB THEO NGỮ NGHĨA LÂN CẬN SIÊU LIÊN KẾT 19 2.1 Giới thiệu 19 2.2 Phƣơng pháp đánh giá chất lƣợng độ đo tƣơng tự 20 2.2.1 Chọn phƣơng pháp đánh giá 20 2.2.2 Xác định thứ tự ODP 21 2.2.3 So sánh tƣơng quan tập thứ tự 24 2.2.4 Miền tập thứ tự 25 2.3 Định nghĩa mô hình vector biểu diễn thơng tin văn 28 2.3.1 Vector biểu diễn thông tin văn 28 2.3.2 Lựa chọn từ khoá biểu diễn 28 2.3.3 Lƣợc bớt từ khoá 30 Đặng Tiểu Hùng – Luận văn cao học TIEU LUAN MOI download : skknchat@gmail.com Phương pháp biểu diễn ngữ nghĩa lân cận siêu liên kết cho máy tìm kiếm VietSeek 2.3.4 Xác định trọng số từ khoá 30 2.4 Định nghĩa độ đo tƣơng tự 32 2.5 Đánh giá chất lƣợng xếp hạng phƣơng pháp xây dựng vector 33 2.5.1 Đánh giá chất lƣợng cách chọn từ khoá 34 2.5.2 Đánh giá chất lƣợng cách chuẩn hoá trọng số từ khoá 41 2.5.3 Đánh giá chất lƣợng phƣơng pháp lƣợc bớt từ khoá 44 2.6 Thiết kế thuật tốn tìm kiếm theo mơ hình vector 45 CHƢƠNG MÁY TÌM KIẾM VIETSEEK VÀ THỬ NGHIỆM THUẬT TỐN TÌM KIẾM THEO NGỮ NGHĨA LÂN CẬN SIÊU LIÊN KẾT 48 3.1 Máy tìm kiếm VietSeek 48 3.1.1 Các đặc điểm VietSeek 48 3.1.2 Cơ sở liệu VietSeek 49 3.2 Đề xuất thuật toán tìm kiếm cho máy tìm kiếm VietSeek 52 3.2.1 Những sở để đề xuất thuật toán 52 3.2.2 Xây dựng thuật tốn áp dụng cho máy tìm kiếm VietSeek 56 3.2.3 Kết thực 66 PHẦN KẾT LUẬN 71 TÀI LIỆU THAM KHẢO 73 PHỤ LỤC 75 Đặng Tiểu Hùng – Luận văn cao học TIEU LUAN MOI download : skknchat@gmail.com Phương pháp biểu diễn ngữ nghĩa lân cận siêu liên kết cho máy tìm kiếm VietSeek LỜI CẢM ƠN Tơi xin bày tỏ lịng kính trọng biết ơn tới thầy giáo, giáo khoa Công nghệ trường Đại học Quốc gia Hà Nội dìu dắt tơi suốt q trình học tập nghiên cứu, đóng góp ý kiến quý báu cho luận văn Đặc biệt xin bày tỏ lịng kính trọng biết ơn sâu sắc Thầy giáo Tiến sĩ Hà Quang Thuỵ gia đình tận tình, dành nhiều thời gian hướng dẫn, động viên, khích lệ cho tơi hồn thành luận văn Tơi xin bày tỏ lịng biết ơn sâu sắc tới gia đình, bạn bè đồng nghiệp tạo điều kiện thuận lợi giúp đỡ có nhiều ý kiến đóng góp bổ ích cho luận văn Tơi xin kính chúc thầy giáo, giáo gia đình mạnh khoẻ, hạnh phúc; Tiếp tục nghiệp đào tạo cho hệ học sinh, sinh viên đạt nhiều thành công đường học tập nghiên cứu khoa học Tôi xin chúc bạn bè, đồng nghiệp mạnh khoẻ, thành công; áp dụng hiệu sáng tạo kiến thức học vào thực tiễn Xin trân trọng cảm ơn Hà Nội ngày 25/03/2004 Học viên Đặng Tiểu Hùng Đặng Tiểu Hùng – Luận văn cao học TIEU LUAN MOI download : skknchat@gmail.com Phương pháp biểu diễn ngữ nghĩa lân cận siêu liên kết cho máy tìm kiếm VietSeek PHẦN MỞ ĐẦU Cùng với phát triển mạnh mẽ Iinternet sốkhối lƣợng khổng lồ liệu đƣợc phát sinh, nhiên (theo thơng tin từcủa tập đồn Oracle) khoảng 90% liệu dạng phi cấu trúc nửa cấu trúc Trong nNhu cầu khai thác, tìm kiếm thơng tin cách xác internet ngày trở nên thiết hơn, xuất hệ tìm kiếm theo từ khố (cụm từ khố) nhƣ Yahoo, Google Tuy nhiên việc tìm kiếm theo từ khoá chƣa đủ để giúp ngƣời sử dụng nhanh chóng tìm đƣợc trang Web cần thiết số lƣợng kết trả lại lớn nhiều trang Web có liên quan Vì hệ thống tìm kiếm ngàycần đƣợc cải tiến để ngày thông minh Xuất hệ hƣớng tới mục tiêu cụ thể nhƣ tra cứu thông tin chủ đề y tế, giáo dục, luật phá p, âm nhạc Tuy vậy, việc nghiên cứu giải pháp để tìm đƣợc mộtcác trang thơng tin theo nội dung sát với yêu cầu ngƣời sử dụng cịn nhiều hạn chế Đã có nhiều mơ hình tìm kiếm đƣợc đề xuất, song mơ hình lý tƣởng mặt lý thuyết lại chƣa có tính khả thi cài đặt Do đó, hệ tìm kiếm, ngƣời ta tìm cách cải tiến phƣơng pháp đơn giảncó sẵn để có áp dụng thực tế Luận văn hƣớng tới việc nghiên cứu, phân tích, đánh giá kết số thuật tốn tìm kiếm theo nội dung, từ đề xuất phƣơng án cải tiến để nâng cao hiệu tính xác nội dung nhƣ tốc độ Từ việc tìm hiểu, đánh giá phân tích ƣu, nhƣợc điểm phƣơng pháp tiếp cận khác nhau, dựa theo mục tiêutrên ý tƣởng nâng cao hiệu tìm kiếm, luận văn đề xuất giải pháp thực “Phương pháp biểu diễn ngữ nghĩa lân cận siêu liên kết cho máy tìm kiếm VietSeek” Nội dung luận văn đƣợc định hƣớng vào vấn đề sau: Mơ hình tốn học củabiểu diễn trang văn Web Đặng Tiểu Hùng – Luận văn cao học TIEU LUAN MOI download : skknchat@gmail.com Phương pháp biểu diễn ngữ nghĩa lân cận siêu liên kết cho máy tìm kiếm VietSeek Khái quát phƣơng pháp tiếp cận tìm kiếm trang Web có nội dung tƣơng tự Đánh giá ƣu điểm nhƣợc điểm phƣơng pháp đƣợc khảo sát Đề xuất phƣơng pháp kết hợp để đạtnâng cao hiệu cao tìm kiếm trang Web có nội dung tƣơng tự Luận văn bao gồm Phần mở đầu, ba chƣơng nội dung Phần kết luận vớimà nội dung chƣơng đƣợc trình bày nhƣ dƣới Chƣơng với tiêu đề Tổng quan phương pháp biểu diễn tìm kiếm thơng tin web giới thiệu khái quát phƣơng pháp biểu diễn tìm kiếm web Tiêu đề chƣơng Phương pháp biểu diễn trang web theo ngữ nghĩa lân cận siêu liên kết Chƣơng trình bày sở, nội dung phƣơng pháp đƣợc đề xuất nhƣ trìnhvà đánh giá phƣơng pháp đƣợc đề xuất với phƣơng pháp khác Luận văn trình bày chi tiếtcác đánh lựa chọn đƣợc đề xuất bƣớc phƣơng pháp, từ chọn giải pháp tốt Chƣơng Máy tìm kiếm VietSeek thử nghiệm Thuật tốn tìm kiếm theo ngữ nghĩa lân cận siêu liên kết giới thiệu kiến trúc logic máy tìm kiếm VietSeek, thiết kế logic liệu theo biểu diễn vector thuật tốn tìm kiếm theo nội dung sở biểu diễn trang web luận văn đề xuất Trong cChƣơng đề xuất cải tiến áp dụng vào thực tế để nâng cao hiệu suất thực phƣơng pháp biểu diễn Phần kết luận tổng hợp kết nghiên cứu luận văn, số hạn chế luận văn Đồng thời luận văn đề xuất số hƣớng nghiên cứu cụ thể luận văn Phần phụ lục bổ sung số thông tin chi tiết việc áp dụng thuật tốn cho máy tìm kiếm VietSeek nhƣ sơ đồ khối số module cần bổ sung chức năng, lệnh bổ sung vào sở liệu VietSeek Đặng Tiểu Hùng – Luận văn cao học TIEU LUAN MOI download : skknchat@gmail.com Phương pháp biểu diễn ngữ nghĩa lân cận siêu liên kết cho máy tìm kiếm VietSeek CHƢƠNG TỔNG QUAN VỀ TÌM KIẾM THƠNG TIN TRÊN WEB Giới thiệu tìm kiếm thơng tin Khai phá liệuthông tin web (web mining) trình khảo sát phân tích liệu web cách tự động bán tự động để phát thông tin Từ thông tin đƣợc khai phá, tìm kiếm thơng tin (Infomartion Retrieval) web phƣơng pháp để truy cập cách hiệu đến thơng tin mà ngƣời dùng quan tâm, làkỳ vọng cung cấp tập hợp nhỏ văn gần đến lĩnh vực chủ đề mà ngƣời dùng mong muốn tiếp cận Ngn tµi liƯu Cho: - Một nguồn tài liệu - Một câu hỏi ng-ời dùng (dựa theo văn bản) Tìm: Tập tài liệu (đ-ợc xếp hạng từ nguồn có liên quan đến câu hỏi) Câu hỏi, ví dụ: ĐTHùng Hệ tìm kiếm thông minh Tài liệu Tài liệu đ-ợc xếp hạng Tµi liƯu Tµi liƯu Hình 1.: Tìm kiếm thơng tin Bài tốn tìm kiếm thơng tin Có tốn tìm kiếm thơng tin tìm kiếm theo từ khố tìm kiếm theo nội dung Bài tốn tìm kiếm theo từ khố tốn tìm kiếm thơng tin theo từ khóa ngƣời dùng cung cấp [1] Hệ tìm kiếm trả cho ngƣời dùng trang web có chứa từ khố câu hỏi Tuy vậy, với số lƣợng khổng lồ trang web internet nhƣ số lƣợng kết tìm đƣợc theo từ khố Đặng Tiểu Hùng – Luận văn cao học TIEU LUAN MOI download : skknchat@gmail.com Phương pháp biểu diễn ngữ nghĩa lân cận siêu liên kết cho máy tìm kiếm VietSeek q lớn Ví dụ tìm trang web có từ khố find similar web page cho kết 858 trang web Hình 2.: Tìm kiếm thơng tin theo từ khoá Đặng Tiểu Hùng – Luận văn cao học TIEU LUAN MOI download : skknchat@gmail.com Phương pháp biểu diễn ngữ nghĩa lân cận siêu liên kết cho máy tìm kiếm VietSeek Bằng cách tìm kiếm theo cụm từ khố số lƣợng kết trả xác hơn, số kết trả 25 trang web Hình 3.: Tìm kiếm thơng tin theo cụm từ khố Đặng Tiểu Hùng – Luận văn cao học TIEU LUAN MOI download : skknchat@gmail.com 67 Phương pháp biểu diễn ngữ nghĩa lân cận siêu liên kết cho máy tìm kiếm VietSeek select u.url_id, u.url, s.sim from urlword u, sim_urlsim s where (s.url_id1 = or s.url_id2 = 7) and u.url_id = s.url_id1+s.url_id2-7 order by s.sim desc; + + + -+ | url_id | url | sim | + + + -+ | 14 | http://190.2.180.188/manual/mod/index-bytype.html | 0.797 | | | http://190.2.180.188/manual/sitemap.html | 0.27 | | | http://190.2.180.188/manual/new_features_1_3.html | 0.196 | | 65 | http://190.2.180.188/manual/mod/mod_speling.html | 0.188 | | 101 | http://190.2.180.188/manual/mod/mod_cern_meta.html | 0.185 | | 48 | http://190.2.180.188/manual/mod/mod_info.html | 0.182 | | 113 | http://190.2.180.188/manual/mod/mod_so.html | 0.172 | | 103 | http://190.2.180.188/manual/mod/mod_digest.html | 0.171 | | 104 | http://190.2.180.188/manual/mod/mod_example.html | 0.171 | | 68 | http://190.2.180.188/manual/mod/mod_setenvif.html | 0.169 | | 97 | http://190.2.180.188/manual/mod/module-dict.html | 0.167 | | | | http://190.2.180.188/manual/upgrading_to_1_3.html 96 | http://190.2.180.188/manual/mod/directive-dict.html | 0.166 | | 0.166 | | 130 | http://190.2.180.188/manual/mod/mod_cookies.html | 0.165 | | 66 | http://190.2.180.188/manual/mod/mod_actions.html | 0.164 | | 46 | http://190.2.180.188/manual/mod/mod_usertrack.html | 0.162 | | 131 | http://190.2.180.188/manual/mod/mod_browser.html | 111 | http://190.2.180.188/manual/mod/mod_mmap_static.html | 0.159 | | 57 | http://190.2.180.188/manual/mod/mod_env.html | 0.16 | | 0.156 | | 107 | http://190.2.180.188/manual/mod/mod_isapi.html | 117 | http://190.2.180.188/manual/mod/mod_vhost_alias.html | 0.155 | | 62 | http://190.2.180.188/manual/mod/mod_auth_db.html | 0.156 | | 0.153 | | 100 | http://190.2.180.188/manual/mod/mod_auth_digest.html | 0.153 | | 133 | http://190.2.180.188/manual/mod/mod_log_common.html | 0.153 | | 114 | http://190.2.180.188/manual/mod/mod_status.html | 0.151 | | 59 | http://190.2.180.188/manual/mod/mod_expires.html | 0.15 | + + + -+ 26 rows in set (0.02 sec) Đặng Tiểu Hùng – Luận văn cao học TIEU LUAN MOI download : skknchat@gmail.com 68 Phương pháp biểu diễn ngữ nghĩa lân cận siêu liên kết cho máy tìm kiếm VietSeek Bảng 15 Danh sách trang web tương tự với trang web mẫu Hình 20 Trang web mẫu http://190.2.180.188/manual/mod/ Đặng Tiểu Hùng – Luận văn cao học TIEU LUAN MOI download : skknchat@gmail.com 69 Phương pháp biểu diễn ngữ nghĩa lân cận siêu liên kết cho máy tìm kiếm VietSeek Hình 21 Trang web tương tự http://190.2.180.188/manual/mod/index -bytype.html Cả hai trang web thể chung vấn đề mô tả module apache trình bày theo hai cách khác Chúng có độ tương tự 0.797 Đặng Tiểu Hùng – Luận văn cao học TIEU LUAN MOI download : skknchat@gmail.com 70 Phương pháp biểu diễn ngữ nghĩa lân cận siêu liên kết cho máy tìm kiếm VietSeek KẾT LUẬN CHƢƠNG Chƣơng trình bày cấu trúc thành phần máy tìm kiếm tiếng Việt VietSeek sơ đồ logic Phát triển đề xuất chƣơng 2, luận văn trình bày thiết kế chi tiết việc bổ sung thành phần liệu (các bảng), bổ sung module phân tích trang web để tìm vector biểu diễn trang web theo ngữ nghĩa lân siêu liên kết (thuật toán 3.3.1, 3.3.2) Luận văn đề xuất thuật toán so sánh độ tƣơng tự vector biểu diễn trang web Hơn nữa, qua trình nghiên cứu, phân tích áp dụng thực tế, luận văn đề xuất phƣơng pháp tính xấp xỉ cận (thuật toán 3.3.3) độ đo tƣơng tự để cắt bớt nhánh xử lý so sánh hai vector Điều tăng đáng kể tốc độ phân tích làm cho thuật tốn luận văn đề xu ất có ý nghĩa thực tế Để tăng tốc độ phân tích trang web, luận văn đề xuất phƣơng án lƣu trang web có vector biểu diễn thay đổi vào hàng đợi để xử lý sau (thuật tốn 3.3.1, 3.3.2) Điều đảm bảo cho vector biểu diễn có thay đổi bao nhiê u lần phiên tìm duyệt cần xử lý cho lần thay đổi cuối (thuật toán 3.3.3) Luận văn đề xuất thuật toán thể khả tìm kiếm "gần nội dung" dựa biểu diễn vector (thuật toán 3.3.4) việc lƣu trữ sẵn 100 số trang web gần nhƣng giảm kích thƣớc cịn 1/2 nhƣ cách thơng thƣờng Đặng Tiểu Hùng – Luận văn cao học TIEU LUAN MOI download : skknchat@gmail.com 71 Phương pháp biểu diễn ngữ nghĩa lân cận siêu liên kết cho máy tìm kiếm VietSeek PHẦN KẾT LUẬN Kết đạt luận văn Thơng qua việc khảo sát, phân tích, phát triển nội dung số cơng trình nghiên cứu gần toán biểu diễn xử lý liệu trang web, luận văn hoàn thành số kết sau đây: Đã trình bày tổng quan tốn tìm kiếm thơng tin web (chƣơng 1) Đã trình bày, khảo sát, phân tích, so sánh đánh giá chất lƣợng số phƣơng pháp tiếp cận điển hình để giải tốn (chƣơng 2), Thơng qua việc khảo sát, phân tích, đánh giá phƣơng pháp nói trên, luận văn đã: - Đề xuất cách thức biểu diễn trang web theo ngữ nghĩa lân cận siêu liên kết làm sở so sánh nội dung toàn văn văn khai thác đƣợc ngữ nghĩa lân cận siêu liên kết (mục 2.6) - Đề xuất phƣơng pháp giảm bớt số lần so sánh độ tƣơng tự trang web (mục 3.2) - Đề xuất phƣơng pháp tính cận độ tƣơng tự cách thức xấp xỉ (cắt bớt nhánh xem xét), giảm đƣợc đáng kể số phép tính phải thực hiện, làm tăng tốc độ thực (mục 3.2) - Thông qua việc khảo sát liệu máy tìm kiếm tiếng Việt VietSeek, luận văn thiết kế liệu bổ sung phù hợp với phƣơng pháp biểu diễn từ đề xuất bổ sung thêm chức tìm kiếm trang web có nội dung "gần" với nội dung trang web thời (mục 3.3) Tuy nhiên, hạn chế thời gian hoàn thành luận văn nên việc triển khai phát triển máy tìm kiếm VietSeek chƣa bổ sung đƣợc giao diện ngƣời sử dụng để khai thác phản hồi ngƣời dùng với kết tìm kiếm Luận văn đề xuất số cải tiến có ý nghĩa giải pháp biểu diễn tìm kiếm, đồng thời xây dựng đƣợc số module chƣơng trình thuật tốn cho Đặng Tiểu Hùng – Luận văn cao học TIEU LUAN MOI download : skknchat@gmail.com 72 Phương pháp biểu diễn ngữ nghĩa lân cận siêu liên kết cho máy tìm kiếm VietSeek phƣơng pháp cải tiến song thử nghiệm bƣớc đầu mà chƣa cài đặt tích hợp vào VietSeek Đây hạn chế luận văn Phương hướng nghiên cứu Web Mining lĩnh vực nghiên cứu triển khai thời hạn chế kết luận văn phƣơng hƣớng phát triển nội dung luận văn Những toán dƣới nội dung nghiên cứu luận văn này: - Nghiên cứu cải tiến hệ thống thông qua giải pháp thu nhận đánh giá phản hồi ngƣời dùng chất lƣợng tìm kiếm để chất lƣợng tìm kiếm định hƣớng tới ngƣời dùng - Tự động phân lớp trang web tiếng Việt bổ sung thêm vào chủ đề ODP Đặng Tiểu Hùng – Luận văn cao học TIEU LUAN MOI download : skknchat@gmail.com 73 Phương pháp biểu diễn ngữ nghĩa lân cận siêu liên kết cho máy tìm kiếm VietSeek TÀI LIỆU THAM KHẢO Tiếng Việt [1] Phạm Thanh Nam (2003) Một số giải pháp cho tốn tìm kiếm sở liệu Hypertext Luận văn thạc sĩ Công nghệ thông tin Đại học Quốc gia Hà Nội [2] Phạm Thanh Nam, Bùi Quang Minh, Hà Quang Thuỵ (2004) Giải pháp tìm kiếm trang Web tương tự máy tìm kiếm VietSeek Tạp chí Tin học Điều khiển học (nhận đăng 1-2004) [3] Đoàn Sơn (2002) Các phương pháp biểu diễn ứng dụng khai phá liệu văn Luận văn thạc sĩ Công nghệ thông tin - Đại học Quốc gia Hà Nội Tiếng Anh [4] J Dean and M Henzinger (1999) Finding Related Pages in the World Wide Web Proceedings of WWW8, 1999 [5] L A Goodman and W H Kruskal (1954) Measures of association for cross classifications J of Amer Stat Assoc, 1954 [6] T.H Haveliwala, A Gionis, and P Indyk (2000) Scalable Techniques for Clustering the Web.Informal Proceedings of the International Workshop on the Web and Databases, WebDB, 2000 [7] J Hirai, S Raghavan, H Garcia-Molina, and A Paepcke (2000) WebBase: A Repository of Web Pages.Proceedings of WWW9, 2000 [8] A.K Jain, M Narasimha Murty, and P.J Flynn (1999) Data clustering: A review ACM Computing Surveys, 31(3), 1999 [9] H P Luhn The Automatic Creation of Literature Abstracts IBM Journal of Research and Development, 2:159-165, 1958 [10] Nguyen Ngoc Minh, Nguyen Tri Thanh, Ha Quang Thuy, Luong Song Van, Nguyen Thi Van (2001) A Knowledge Discovery Model in Full-text Databases Proceedings of the First Workshop of Đặng Tiểu Hùng – Luận văn cao học TIEU LUAN MOI download : skknchat@gmail.com 74 Phương pháp biểu diễn ngữ nghĩa lân cận siêu liên kết cho máy tìm kiếm VietSeek International Joint Research: "Parallel Computing, Data Mining and Optical Networks" March 7, 2001, Japan Advanced Institute of Science and Technology (JAIST), Tatsunokuchi, Japan, 59-68 [11] M Porter (1980) An Algorithm for Suffix Stripping Program: Automated Library and Information Systems, 14(3):130-137, 1980 [12] G Salton and M.J McGill (1983) Introduction to Modern Information Retrieval McGraw-Hill, 1983 [13] Sen Slattery (2002) Hypertext Classification Doctoral dissertation (CMU-CS-02-142) School of Computer Science Carnegie Mellon University [14] S Siegel and N J Castellan (1988) Nonparametric Statistics for the Behavioral Sciences McGraw-Hill, 1988 [15] M Steinbach, G Karypis, and V Kumar (2000) A comparison of document clustering techniques TextMining Workshop, KDD, 2000 [16] Taher H Haveliwala, Aristides Gionis, Dan Klein, Piotr Indyk (2002) Evaluating Strategies for Similarity Search on the Web WWW2002 - USA [17] BBC http://www.bbc.com [18] CNN http://www.cnn.com [19] Open Directory Project (ODP) http://www.dmoz.com [20] Web page www.InfoWorld.com (Theo công bố ngày 17/02/2004 kho liệu Google có 4,28 tỷ trang web, 880 triệu hình ảnh 845 triệu thông điệp Internet Mảng thông tin tăng nhanh gần trang web liên quan đến sách, bao gồm chƣơng đầu, phần phê bình, tham khảo Hệ thống thông tin đƣợc Google truy xuất qua dịch vụ Google Print đƣợc vận hành thử nghiệm Số liệu thống kê gần Google 3,3 tỷ trang web đƣợc kết nối vào tháng 8-2003, 400 triệu hình ảnh vào tháng 11/2002) [21] Yahoo! http://www.yahoo.com/ Đặng Tiểu Hùng – Luận văn cao học TIEU LUAN MOI download : skknchat@gmail.com 75 Phương pháp biểu diễn ngữ nghĩa lân cận siêu liên kết cho máy tìm kiếm VietSeek PHỤ LỤC Script để tạo bảng lƣu trữ mục tƣơng tự DROP table IF EXISTS sim_urlcontent; DROP table IF EXISTS sim_urlwnd; DROP table IF EXISTS sim_urlsim; DROP table IF EXISTS Alias; DROP table IF EXISTS Category; DROP table IF EXISTS Editor; DROP table IF EXISTS Link; DROP table IF EXISTS Newsgroup; #table sim_urlword #url_id: id of url #bag: bag of word = (word_id1,df1;word_idi,dfi; ;word_idn,dfn) CREATE TABLE sim_urlcontent (url_id integer primary key ,word_count integer not null ,words longblob ); # table url window # url_id: id of url # refer_id: url_id references to this url # left url window in content of refer_id references to this url # center url window in content of refer_id references to this url # right url window in content of refer_id references to this url CREATE TABLE sim_urlwnd (id integer auto_increment primary key ,url_id integer not null ,refer_by integer not null Đặng Tiểu Hùng – Luận văn cao học TIEU LUAN MOI download : skknchat@gmail.com 76 Phương pháp biểu diễn ngữ nghĩa lân cận siêu liên kết cho máy tìm kiếm VietSeek ,word_count integer not null ,words longblob ,unique index (url_id, refer_by) ,index (url_id, refer_by) ); #table url sim #url_id: id of url #url_sim: similation url = (url_id1,sim1;url_idi,simi; .;url_idn,simn) CREATE TABLE sim_urlsim (id integer auto_increment primary key ,url_id1 integer not null ,url_id2 integer not null ,sim float not null ,unique index(url_id1, url_id2) ,index(url_id1) ,index(url_id2) ); CREATE TABLE sim_urltmp (url_id integer primary key ); # using tool from http://odp.locallink.net/setup/ # Table structure for table 'Alias' # CREATE TABLE Alias ( aliasID int(10) NOT NULL auto_increment, title varchar(255) DEFAULT '' NOT NULL, targetCategory varchar(255) DEFAULT '' NOT NULL, parentTopic varchar(255) DEFAULT '' NOT NULL, PRIMARY KEY (aliasID), KEY alias_targetCategory_index (targetCategory), KEY alias_parentTopic_index (parentTopic) Đặng Tiểu Hùng – Luận văn cao học TIEU LUAN MOI download : skknchat@gmail.com 77 Phương pháp biểu diễn ngữ nghĩa lân cận siêu liên kết cho máy tìm kiếm VietSeek ); # # Table structure for table 'Category' # CREATE TABLE Category ( topic varchar(255) DEFAULT '' NOT NULL, topicShort varchar(50) DEFAULT '' NOT NULL, parentTopic varchar(255), description varchar(255) DEFAULT '' NOT NULL, lastUpdate varchar(255) DEFAULT '' NOT NULL, PRIMARY KEY (topic), KEY category_parentTopic_index (parentTopic), KEY category_topicShort_index (topicShort) ); # # Table structure for table 'Editor' # CREATE TABLE Editor ( editorID int(10) NOT NULL auto_increment, parentTopic varchar(255) DEFAULT '' NOT NULL, editorName varchar(50) DEFAULT '' NOT NULL, PRIMARY KEY (editorID), KEY category_parentTopic_index (parentTopic) ); # # Table structure for table 'Link' # CREATE TABLE Link ( linkID int(10) NOT NULL auto_increment, page varchar(255) DEFAULT '' NOT NULL, parentTopic varchar(255) DEFAULT '' NOT NULL, Đặng Tiểu Hùng – Luận văn cao học TIEU LUAN MOI download : skknchat@gmail.com 78 Phương pháp biểu diễn ngữ nghĩa lân cận siêu liên kết cho máy tìm kiếm VietSeek title varchar(255) DEFAULT '' NOT NULL, description varchar(255) DEFAULT '' NOT NULL, PRIMARY KEY (linkID), KEY link_parentTopic_index (parentTopic), KEY link_page_index (page), KEY link_title_index (title), KEY link_description_index (description) ); # # Table structure for table 'Newsgroup' # CREATE TABLE Newsgroup ( newsID int(10) NOT NULL auto_increment, newsgroupName varchar(255) DEFAULT '' NOT NULL, parentTopic varchar(255) DEFAULT '' NOT NULL, PRIMARY KEY (newsID), KEY newsgroup_parentTopic_index (parentTopic) ); Bảng 16 Nội dung lệnh tạo cấu trúc liệu bổ sung cho VietSeek Đặng Tiểu Hùng – Luận văn cao học TIEU LUAN MOI download : skknchat@gmail.com 79 Phương pháp biểu diễn ngữ nghĩa lân cận siêu liên kết cho máy tìm kiếm VietSeek Phân tích module VietSeek cần hiệu chỉnh để bổ sung chức tìm kiếm tƣơng tự index process main() [index.cpp] true clear database false clear all Ỵtue Index() RealIndex() [index.cpp] false CSQLDatabase::Clear() [sqldb.cpp] delete sim_urlcontent delete sim_urlwnd delete sim_urlsim CWordCache ::Index() [[wcache.cpp] CSQLDatabaseI ::DeleteUrls [sqldbi.cpp] CSQLDatabaseI::Mark Deleted [sqldbi.cpp] with url_id delete sim_urlcontent delete sim_urlwnd delete sim_urlsim CUrl::HTTPGetUrlAndStore [parse.cpp] true END Hình 22 Sơ đồ khối module index Đặng Tiểu Hùng – Luận văn cao học TIEU LUAN MOI download : skknchat@gmail.com 80 Phương pháp biểu diễn ngữ nghĩa lân cận siêu liên kết cho máy tìm kiếm VietSeek CUrl::HTTPGetUrlAndStore() [parse.cpp] delete document true false CUrl::HTTPGetUrl() [parse.cpp] ConverDocument CWordCache::DeleteWordsFromURL() [parse.cpp] CSQLDatabaseI::MarkDeleted() [wcache.cpp] CParsedContent::ParseText() [content.cpp] ParseHtml() [parse.cpp] ParseTag() [parse.cpp] CUrlWnd.UrlTextWinddow() [urlwnd.cpp] END Hình 23 Sơ đồ khối module HTTPGetAndStore Đặng Tiểu Hùng – Luận văn cao học TIEU LUAN MOI download : skknchat@gmail.com 81 Phương pháp biểu diễn ngữ nghĩa lân cận siêu liên kết cho máy tìm kiếm VietSeek CParsedContent::~CParsedContent() [content.cpp] CParsedContent::Save() [content.cpp] CSimUrlContent::DeleteContent() [urlwnd.cpp] CSimUrlContent::AddWord() [urlwnd.cpp] CWordCache::SaveWords() [wcache.cpp] Hình 24 Sơ đồ khối module CParsedContent Đặng Tiểu Hùng – Luận văn cao học TIEU LUAN MOI download : skknchat@gmail.com ... Phương pháp biểu diễn ngữ nghĩa lân cận siêu liên kết cho máy tìm kiếm VietSeek CHƢƠNG PHƢƠNG PHÁP BIỂU DIỄN TRANG WEB THEO NGỮ NGHĨA LÂN CẬN SIÊU LIÊN KẾT Giới thiệu Mục tiêu việc tìm kiếm trang Web... CáchPhƣơng pháp tiếp cận theo ngữ nghĩa lân cận liên kết: Từ khoá vector biểu diễn văn u từ xuất cửa sổ ngữ nghĩa lân cận liên kết từ văn v đến văn u Luận văn đề cập tới giải pháp kết hợp phƣơng pháp. .. quan phương pháp biểu diễn tìm kiếm thơng tin web giới thiệu khái quát phƣơng pháp biểu diễn tìm kiếm web Tiêu đề chƣơng Phương pháp biểu diễn trang web theo ngữ nghĩa lân cận siêu liên kết Chƣơng

Ngày đăng: 27/06/2022, 09:11

Hình ảnh liên quan

Bảng 1.: Vector biểu diễn văn bản - (LUẬN VĂN THẠC SĨ) Phương pháp biểu diễn ngữ nghĩa lân cận siêu liên kết trong máy tìm kiếm VietSeek

Bảng 1..

Vector biểu diễn văn bản Xem tại trang 17 của tài liệu.
Bảng 2. Tập thứ tự với độ đo tương tự phự hợp nhất với thứ hạng nền - (LUẬN VĂN THẠC SĨ) Phương pháp biểu diễn ngữ nghĩa lân cận siêu liên kết trong máy tìm kiếm VietSeek

Bảng 2..

Tập thứ tự với độ đo tương tự phự hợp nhất với thứ hạng nền Xem tại trang 29 của tài liệu.
Bảng 3. Tập thứ tự với độ đo tương tự ớt phự hợp nhất với thứ hạng nền - (LUẬN VĂN THẠC SĨ) Phương pháp biểu diễn ngữ nghĩa lân cận siêu liên kết trong máy tìm kiếm VietSeek

Bảng 3..

Tập thứ tự với độ đo tương tự ớt phự hợp nhất với thứ hạng nền Xem tại trang 29 của tài liệu.
bảng. Do đú VietSeek đó lƣu trữ thụng tin chi tiết kốm luụn vào từ điển. Với mỗi từ khoỏ thỡ thụng tin cỏc url mà từ khoỏ  xuất hiện đƣợc lƣu  kốm theo dƣới dạng  nhị  phõn - (LUẬN VĂN THẠC SĨ) Phương pháp biểu diễn ngữ nghĩa lân cận siêu liên kết trong máy tìm kiếm VietSeek

b.

ảng. Do đú VietSeek đó lƣu trữ thụng tin chi tiết kốm luụn vào từ điển. Với mỗi từ khoỏ thỡ thụng tin cỏc url mà từ khoỏ xuất hiện đƣợc lƣu kốm theo dƣới dạng nhị phõn Xem tại trang 52 của tài liệu.
Bảng urlword: Từ điển cỏc trang web - (LUẬN VĂN THẠC SĨ) Phương pháp biểu diễn ngữ nghĩa lân cận siêu liên kết trong máy tìm kiếm VietSeek

Bảng urlword.

Từ điển cỏc trang web Xem tại trang 53 của tài liệu.
Bảng sim_urlcontent: chỉ mục nội dung của cỏc trang web - (LUẬN VĂN THẠC SĨ) Phương pháp biểu diễn ngữ nghĩa lân cận siêu liên kết trong máy tìm kiếm VietSeek

Bảng sim.

_urlcontent: chỉ mục nội dung của cỏc trang web Xem tại trang 55 của tài liệu.
dựng thƣờng chỉ dừng lại khoảng 20 kết quả ban đầu. Bảng dữ liệu sim_urlsim cú thể đƣợc phõn mảnh bằng cỏch phõn chia theo chủ đề của trang web - (LUẬN VĂN THẠC SĨ) Phương pháp biểu diễn ngữ nghĩa lân cận siêu liên kết trong máy tìm kiếm VietSeek

d.

ựng thƣờng chỉ dừng lại khoảng 20 kết quả ban đầu. Bảng dữ liệu sim_urlsim cú thể đƣợc phõn mảnh bằng cỏch phõn chia theo chủ đề của trang web Xem tại trang 55 của tài liệu.
Bảng 9. Mụ tả cấu trỳc bảng dữ liệu chỉ mục cửa sổ liờn kết của VietSeek - (LUẬN VĂN THẠC SĨ) Phương pháp biểu diễn ngữ nghĩa lân cận siêu liên kết trong máy tìm kiếm VietSeek

Bảng 9..

Mụ tả cấu trỳc bảng dữ liệu chỉ mục cửa sổ liờn kết của VietSeek Xem tại trang 56 của tài liệu.
Bảng sim_urlsim: Chỉ mục độ tƣơng sự giữa cỏc trang web - (LUẬN VĂN THẠC SĨ) Phương pháp biểu diễn ngữ nghĩa lân cận siêu liên kết trong máy tìm kiếm VietSeek

Bảng sim.

_urlsim: Chỉ mục độ tƣơng sự giữa cỏc trang web Xem tại trang 56 của tài liệu.
Bảng Category: Danh mục cỏc chủ đề - (LUẬN VĂN THẠC SĨ) Phương pháp biểu diễn ngữ nghĩa lân cận siêu liên kết trong máy tìm kiếm VietSeek

ng.

Category: Danh mục cỏc chủ đề Xem tại trang 57 của tài liệu.
Bảng Link: Cỏc trang web trong cõy chủ đề - (LUẬN VĂN THẠC SĨ) Phương pháp biểu diễn ngữ nghĩa lân cận siêu liên kết trong máy tìm kiếm VietSeek

ng.

Link: Cỏc trang web trong cõy chủ đề Xem tại trang 58 của tài liệu.
Ta phải tỡm mó số của nú trong bảng từ điển cỏc url bằng lệnh sau - (LUẬN VĂN THẠC SĨ) Phương pháp biểu diễn ngữ nghĩa lân cận siêu liên kết trong máy tìm kiếm VietSeek

a.

phải tỡm mó số của nú trong bảng từ điển cỏc url bằng lệnh sau Xem tại trang 68 của tài liệu.
Bảng 15. Danh sỏch cỏc trang web tương tự với trang web mẫu - (LUẬN VĂN THẠC SĨ) Phương pháp biểu diễn ngữ nghĩa lân cận siêu liên kết trong máy tìm kiếm VietSeek

Bảng 15..

Danh sỏch cỏc trang web tương tự với trang web mẫu Xem tại trang 70 của tài liệu.
1. Script để tạo cỏc bảng lƣu trữ chỉ mục tƣơng tự - (LUẬN VĂN THẠC SĨ) Phương pháp biểu diễn ngữ nghĩa lân cận siêu liên kết trong máy tìm kiếm VietSeek

1..

Script để tạo cỏc bảng lƣu trữ chỉ mục tƣơng tự Xem tại trang 77 của tài liệu.

Tài liệu cùng người dùng

Tài liệu liên quan