Nghiên cứu kỹ thuật trộn kết quả tìm kiếm Website

26 109 0
Nghiên cứu kỹ thuật trộn kết quả tìm kiếm Website

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Header Page of 126 BỘ GIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC ĐÀ NẴNG TRẦN ANH HUY NGHIÊN CỨU KỸ THUẬT TRỘN KẾT QUẢ TÌM KIẾM WEBSITE Chuyên ngành: Khoa học máy tính Mã số: 60.48.01 TÓM TẮT LUẬN VĂN THẠC SĨ KỸ THUẬT Đà Nẵng - Năm 2013 Footer Page of 126 Header Page of 126 Công trình hoàn thành ĐẠI HỌC ĐÀ NẴNG Người hướng dẫn khoa học: PGS.TS VÕ TRUNG HÙNG NCS LÂM TÙNG GIANG Phản biện 1: PGS.TSKH TRẦN QUỐC CHIẾN Phản biện 2: TS HOÀNG THỊ LAN GIAO Luận văn bảo vệ trước Hội đồng chấm Luận văn tốt nghiệp thạc sĩ Kỹ thuật họp Đại học Đà Nẵng vào ngày 18 tháng năm 2013 Có thể tìm hiểu luận văn tại: - Trung tâm Thông tin - Học liệu, Đại Học Đà Nẵng Footer Page of 126 Header Page of 126 MỞ ĐẦU TÍNH CẤP THIẾT CỦA ĐỀ TÀI Trong thời đại ngày nay, thông tin nhu cầu thiết yếu người lĩnh vực Mỗi phút trôi qua có hàng ngàn trang web đưa lên Internet nhằm làm giàu nguồn tài nguyên vô tận Tuy nhiên việc khai thác nguồn thông tin khổng lồ chưa triệt để, máy tìm kiếm lớn Google chưa đáp ứng nhu cầu tìm kiếm đa dạng người sử dụng Một nỗ lực cải thiện kết tìm kiếm việc thực trộn kết nhiều máy tìm kiếm Việc trộn kết tìm kiếm từ nguồn liệu máy tìm kiếm khác nhau, cho tăng cường độ xác độ bao phủ kết tìm kiếm Vì lý này, định chọn đề tài: “Nghiên cứu kỹ thuật trộn kết tìm kiếm Website” hướng dẫn trực tiếp PGS.TS Võ Trung Hùng hỗ trợ ThS Lâm Tùng Giang MỤC TIÊU NGHIÊN CỨU Mục tiêu đề tài cải thiện chất lượng dịch vụ tìm kiếm Đề tài tập trung nghiên cứu kỹ thuật giải thuật trộn kết tìm kiếm Website Internet Và xây dựng thực nghiệm chương trình tìm kiếm Website có sử dụng kỹ thuật trộn kết tìm kiếm Website nghiên cứu Footer Page of 126 Header Page of 126 ĐỐI TƯỢNG VÀ PHẠM VI NGHIÊN CỨU Đối tượng nghiên cứu:  Đối tượng nghiên cứu kỹ thuật trộn kết tìm kiếm Website công cụ, kỹ thuật, giải thuật sử dụng máy tìm kiếm Phạm vi nghiên cứu:  Tìm kiếm Website Internet trộn kết tìm kiếm Website sở kết trả từ máy tìm kiếm có sẵn như: Google, Yahoo, Bing, …  Cài đặt giao diện người dùng PHƯƠNG PHÁP NGHIÊN CỨU Phương pháp lý thuyết:  Để thực nghiên cứu, thu thập, chọn lọc, đánh giá, phân tích tổng hợp tài liệu liên quan đến lĩnh vực tìm kiếm Website Tìm hiểu tư liệu hoạt động máy tìm kiếm Website có  Chúng nghiên cứu, đánh giá kỹ thuật trộn kết tìm kiếm Website nhằm áp dụng triển khai vào ứng dụng Phương pháp thực nghiệm:  Bằng phương pháp thực nghiệm, lựa chọn hướng giải nhằm đáp ứng nhu cầu tìm kiếm đa dạng người dùng Footer Page of 126 Header Page of 126  Thực nghiệm công cụ hỗ trợ xây dựng máy tìm kiếm Website  Dựa thực trạng máy tìm kiếm có để xây dựng ứng dụng tìm kiếm Website có sử dụng kỹ thuật trộn kết tìm kiếm Website nghiên cứu Ý NGHĨA KHOA HỌC VÀ THỰC TIỄN CỦA ĐỀ TÀI Ý nghĩa khoa học:  Đề xuất giải pháp ứng dụng kỹ thuật xếp hạng, bóc tách thông tin trang Web, kỹ thuật trộn kết tìm kiếm Website Giải pháp cho tăng cường độ xác độ bao phủ kết tìm kiếm Website Ý nghĩa thực tiễn:  Ứng dụng nhằm trợ giúp đáp ứng nhu cầu tìm kiếm cho người sử dụng tìm kiếm thông tin Internet  Hỗ trợ cho người dùng tìm kiếm, thu thập thông tin cần tìm để sử dụng cho mục đích BỐ CỤC LUẬN VĂN Toàn luận văn chia làm ba chương tóm tắt nội dung sau: MỞ ĐẦU Phần giới thiệu nhu cầu cần thiết để thực đề tài, xác định mục tiêu, nhiệm vụ, đối tượng nghiên cứu, phương pháp nghiên cứu, sở nghiên cứu kết mong muốn đạt Footer Page of 126 Header Page of 126 CHƯƠNG - CƠ SỞ LÝ THUYẾT Chương trình bày tổng quan sở lý thuyết máy tìm kiếm kỹ thuật ứng dụng phương pháp trộn kết tìm kiếm website CHƯƠNG - CÁC KỸ THUẬT TRỘN KẾT QUẢ TÌM KIẾM WEBSITE Trong chương này, nêu giải pháp trộn kết tìm kiếm website Chúng tiến hành phân tích kỹ thuật trộn kết tìm kiếm website Qua phân tích đánh giá mô hình để xác định mô hình trộn kết tìm kiếm cho việc cài đặt thử nghiệm CHƯƠNG - THỬ NGHIỆM VÀ ĐÁNH GIÁ KẾT QUẢ Phân tích chức hệ thống, thiết kế kiến trúc hệ thống thực xây dựng ứng dụng theo kỹ thuật trộn kết tìm kiếm website phân tích, sau thử nghiệm đánh giá kết đạt chương trình Footer Page of 126 Header Page of 126 CHƯƠNG - CƠ SỞ LÝ THUYẾT Chương trình bày sở lý thuyết liên quan đến đề tài, làm tảng để nghiên cứu kỹ thuật trộn kết tìm kiếm Website xây dựng hệ thống tìm kiếm liên hợp (meta search engine) Gồm nội dung sau:  Tìm hiểu tìm kiếm thông tin  Giới thiệu khái niệm, thuật ngữ tìm kiếm  Tập trung tìm hiểu hệ thống tìm kiếm liên hợp (meta search engine)  Giới thiệu kỹ thuật bóc tách thông tin kỹ thuật xếp hạng 1.1 CÁC KHÁI NIỆM CƠ BẢN TRONG TÌM KIẾM THÔNG TIN 1.1.1 Tài liệu 1.1.2 Thuật ngữ 1.1.3 Chỉ mục mục ngược 1.1.4 Tần suất, độ xuất hiện, trọng số 1.1.5 Truy vấn 1.1.6 Sự phù hợp 1.2 TÌM KIẾM THÔNG TIN 1.2.1 Tổng quan tìm kiếm thông tin hệ thống tìm kiếm thông tin Footer Page of 126 Header Page of 126 1.2.2 Cách thức hoạt động hệ thống tìm kiếm thông tin 1.2.3 Các phận cấu thành nguyên lý hoạt động hệ thống tìm kiếm thông tin 1.2.4 Mục tiêu hệ thống tìm kiếm thông tin Mục tiêu hệ truy tìm thông tin (IR) truy tìm văn tập văn hệ thống liên quan đến thông tin mà người sử dụng hệ thống cần Những thông tin người dùng đưa vào hệ thống câu truy vấn (query) Những tài liệu – văn “liên quan” (relevant) với câu truy vấn hệ thống trả Như vậy, mục đích hệ IR để tự động quy trình kiểm tra tài liệu cách tính độ đo tương quan câu truy vấn tài liệu 1.2.5 Các tiêu chí đánh giá hiệu tìm kiếm thông tin Có nhiều cách đo lường khác cho việc đánh giá mức độ xử lý trả kết hệ thống tìm kiếm thông tin Các cách đo lường đòi hỏi tập tài liệu câu truy vấn tập tài liệu đó, giả sử tài liệu liên quan không liên quan đến câu truy vấn Để đánh giá hiệu hệ truy tìm thông tin dựa theo tiêu chuẩn sau:  Dựa hai độ đo: “độ xác” (precision) “độ bao phủ” (recall)  Độ xác (Precision): đo tỉ lệ tài liệu trả xác tổng tài liệu nhận Footer Page of 126 Header Page of 126  Độ bao phủ (Recall): đo tỉ lệ tài liệu trả xác tổng tài liệu có liên quan 1.2.6 Mô hình xếp hạng áp dụng cho phương pháp trộn kết tìm kiếm a Mô hình xác suất – Probabilistic model b Mô hình không gian vector – Vector Space Model VSM c Đánh giá theo kết thử nghiệm hai mô hình VSM mô hình xác suất d Mô tả kiến trúc hệ IR tính điểm theo mô hình VSM (VSM – IR) 1.2.7 Đặc tả bước xây dựng hệ VSM – IR 1.3 HOẠT ĐỘNG CỦA MÁY TÌM KIẾM LIÊN HỢP 1.3.1 Máy tìm kiếm liên hợp 1.3.2 Đánh giá máy tìm kiếm liên hợp 1.3.3 Các bước xây dựng máy tìm kiếm liên hợp Footer Page of 126 Header Page 10 of 126 a Chọn máy tìm kiếm nguồn b Xử lý kết trả từ máy tìm kiếm nguồn 1.4 KỸ THUẬT BÓC TÁCH DỮ LIỆU TRONG NET Để triển khai xây dựng ứng dụng máy tìm kiếm liên hợp – meta search engine – phải sử dụng kết tìm kiếm trả từ máy tìm kiếm thành phần như: Google, Yahoo, Bing,… Do giới hạn kinh phí kỹ thuật phổ biến, sử dụng phương pháp bóc tách liệu để lấy kết trả từ máy tìm kiếm 1.4.1 Bóc liệu trang Web Để bóc tách nội dung HTML trang Web sử dụng lớp WebRequest để tạo yêu cầu, lớp WebReponse để nhận đáp ứng từ Webserver số dạng Reader (StreamReader liệu Html Text BinaryReader liệu nhị phân) để phân tích đáp ứng 1.4.2 Giới thiệu Regular Expression Footer Page 10 of 126 Header Page 12 of 126 2.2 10 PHƯƠNG PHÁP ĐẾM BORDA 2.2.1 Thuật toán Bước 1: Tính điểm cho tất tài liệu dij n danh sách top-k đầu vào Bước 2: Phát sinh danh sách top-k tài liệu có điểm cao Thuật toán tính điểm tài liệu dij n danh sách top-k, tài liệu dij tính điểm dựa vào vị trí tài liệu n danh sách Li (Điểm tài liệu d có vị trí thứ j danh sách Li s(di) = k - j Tổng điểm d s(d)) Thuật toán tính điểm tài liệu d sau: For each dij { s(di)=0; for(j=1;j

Ngày đăng: 06/05/2017, 11:40

Tài liệu cùng người dùng

Tài liệu liên quan