Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 26 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
26
Dung lượng
669,16 KB
Nội dung
BỘ GIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC ĐÀ NẴNG TRẦN ANH HUY NGHIÊNCỨUKỸTHUẬTTRỘNKẾTQUẢTÌMKIẾMWEBSITE Chuyên ngành: Khoa học máy tính Mã số: 60.48.01 TÓM TẮT LUẬN VĂN THẠC SĨ KỸTHUẬT Đà Nẵng - Năm 2013 Công trình được hoàn thành tại ĐẠI HỌC ĐÀ NẴNG Người hướng dẫn khoa học: PGS.TS. VÕ TRUNG HÙNG NCS. LÂM TÙNG GIANG Phản biện 1: PGS.TSKH. TRẦN QUỐC CHIẾN Phản biện 2: TS. HOÀNG THỊ LAN GIAO Luận văn được bảo vệ trước Hội đồng chấm Luận văn tốt nghiệp thạc sĩ Kỹthuật họp tại Đại học Đà Nẵng vào ngày 18 tháng 5 năm 2013. Có thể tìm hiểu luận văn tại: - Trung tâm Thông tin - Học liệu, Đại Học Đà Nẵng 1 MỞ ĐẦU 1. TÍNH CẤP THIẾT CỦA ĐỀ TÀI Trong thời đại ngày nay, thông tin là nhu cầu thiết yếu đối với mọi người và mọi lĩnh vực. Mỗi phút trôi qua có hàng ngàn trang web được đưa lên Internet nhằm làm giàu nguồn tài nguyên vô tận này. Tuy nhiên việc khai thác nguồn thông tin khổng lồ này chưa được triệt để, ngay cả bộ máy tìmkiếm lớn nhất là Google vẫn chưa đáp ứng được nhu cầu tìmkiếm đa dạng của người sử dụng. Một trong các nỗ lực cải thiện kếtquảtìmkiếm là việc thực hiện trộnkếtquả của nhiều máy tìm kiếm. Việc trộnkếtquảtìmkiếm từ nguồn dữ liệu của các máy tìmkiếm khác nhau, sẽ cho tăng cường độ chính xác hoặc độ bao phủ của kếtquảtìm kiếm. Vì lý do này, tôi đã quyết định chọn đề tài: “Nghiên cứukỹthuậttrộnkếtquảtìmkiếm Website” dưới sự hướng dẫn trực tiếp của PGS.TS. Võ Trung Hùng và sự hỗ trợ của ThS. Lâm Tùng Giang. 2. MỤC TIÊU NGHIÊNCỨU Mục tiêu của đề tài là cải thiện chất lượng của dịch vụ tìm kiếm. Đề tài tập trung nghiêncứu các kỹthuật và các giải thuậttrộnkếtquảtìmkiếmWebsite trên Internet. Và xây dựng thực nghiệm chương trình tìmkiếmWebsite có sử dụng các kỹthuậttrộnkếtquảtìmkiếmWebsite đã nghiên cứu. 2 3. ĐỐI TƯỢNG VÀ PHẠM VI NGHIÊNCỨU Đối tượng nghiên cứu: Đối tượng nghiêncứu là các kỹthuậttrộnkếtquảtìmkiếmWebsite và các công cụ, kỹ thuật, giải thuật sử dụng trong các máy tìm kiếm. Phạm vi nghiên cứu: Tìmkiếm các Website trên Internet và trộnkếtquảtìmkiếmWebsite trên cơ sở kếtquả trả về từ các máy tìmkiếm có sẵn như: Google, Yahoo, Bing, … Cài đặt giao diện người dùng. 4. PHƯƠNG PHÁP NGHIÊNCỨU Phương pháp lý thuyết: Để thực hiện nghiên cứu, chúng tôi thu thập, chọn lọc, đánh giá, phân tích và tổng hợp các tài liệu liên quan đến lĩnh vực tìmkiếm Website. Tìm hiểu tư liệu về hoạt động của các bộ máy tìmkiếmWebsite hiện có. Chúng tôi sẽ nghiên cứu, đánh giá các kỹthuậttrộnkếtquảtìmkiếmWebsite nhằm áp dụng triển khai vào ứng dụng. Phương pháp thực nghiệm: Bằng phương pháp thực nghiệm, chúng tôi lựa chọn hướng giải quyết nhằm đáp ứng được nhu cầu tìmkiếm đa dạng của người dùng. 3 Thực nghiệm trên các công cụ hỗ trợ xây dựng máy tìmkiếm Website. Dựa trên thực trạng các bộ máy tìmkiếm hiện có để xây dựng ứng dụng tìmkiếmWebsite có sử dụng kỹthuậttrộnkếtquảtìmkiếmWebsite đã nghiên cứu. 5. Ý NGHĨA KHOA HỌC VÀ THỰC TIỄN CỦA ĐỀ TÀI Ý nghĩa khoa học: Đề xuất giải pháp ứng dụng các kỹthuật xếp hạng, bóc tách thông tin trang Web, kỹthuậttrộnkếtquảtìmkiếm Website. Giải pháp này có thể cho tăng cường độ chính xác hoặc độ bao phủ của kếtquảtìmkiếm Website. Ý nghĩa thực tiễn: Ứng dụng nhằm trợ giúp đáp ứng được nhu cầu tìmkiếm cho người sử dụng tìmkiếm thông tin trên Internet. Hỗ trợ cho người dùng tìm kiếm, thu thập được thông tin cần tìm nhất để sử dụng cho mục đích của mình. 6. BỐ CỤC LUẬN VĂN Toàn bộ luận văn được chia làm ba chương được tóm tắt nội dung như sau: MỞ ĐẦU Phần này giới thiệu về nhu cầu cần thiết để thực hiện đề tài, xác định mục tiêu, nhiệm vụ, đối tượng nghiên cứu, phương pháp nghiên cứu, cơ sở nghiêncứu và kếtquả mong muốn đạt được. 4 CHƯƠNG 1 - CƠ SỞ LÝ THUYẾT Chương này trình bày tổng quan về cơ sở lý thuyết máy tìmkiếm và các kỹthuật ứng dụng trong phương pháp trộnkếtquảtìmkiếmwebsite CHƯƠNG 2 - CÁC KỸTHUẬTTRỘNKẾTQUẢTÌMKIẾMWEBSITE Trong chương này, nêu giải pháp trộnkếtquảtìmkiếm website. Chúng tôi tiến hành phân tích các kỹthuậttrộnkếtquảtìmkiếm website. Qua các phân tích đánh giá các mô hình để xác định mô hình trộnkếtquảtìmkiếm cho việc cài đặt thử nghiệm. CHƯƠNG 3 - THỬ NGHIỆM VÀ ĐÁNH GIÁ KẾTQUẢ Phân tích các chức năng của hệ thống, thiết kế kiến trúc hệ thống và thực hiện xây dựng ứng dụng theo kỹthuậttrộnkếtquảtìmkiếmwebsite đã phân tích, sau đó thử nghiệm và đánh giá kếtquả đạt được của chương trình. 5 CHƯƠNG 1 - CƠ SỞ LÝ THUYẾT Chương này trình bày về cơ sở lý thuyết liên quan đến đề tài, làm nền tảng để nghiêncứu các kỹthuậttrộnkếtquảtìmkiếmWebsite và xây dựng hệ thống tìmkiếm liên hợp (meta search engine). Gồm các nội dung sau: Tìm hiểu về tìmkiếm thông tin. Giới thiệu về khái niệm, các thuật ngữ cơ bản trong tìm kiếm. Tập trung tìm hiểu về hệ thống tìmkiếm liên hợp (meta search engine). Giới thiệu các kỹthuật bóc tách thông tin và kỹthuật xếp hạng. 1.1. CÁC KHÁI NIỆM CƠ BẢN TRONG TÌMKIẾM THÔNG TIN 1.1.1. Tài liệu 1.1.2. Thuật ngữ 1.1.3. Chỉ mục và chỉ mục ngược 1.1.4. Tần suất, độ xuất hiện, trọng số 1.1.5. Truy vấn 1.1.6. Sự phù hợp 1.2. TÌMKIẾM THÔNG TIN 1.2.1. Tổng quan về tìmkiếm thông tin và hệ thống tìmkiếm thông tin 6 1.2.2. Cách thức hoạt động của một hệ thống tìmkiếm thông tin 1.2.3. Các bộ phận cấu thành và nguyên lý hoạt động của hệ thống tìmkiếm thông tin 1.2.4. Mục tiêu của hệ thống tìmkiếm thông tin Mục tiêu chính của hệ truy tìm thông tin (IR) là truy tìm những văn bản trong tập văn bản của hệ thống liên quan đến thông tin mà người sử dụng hệ thống cần. Những thông tin được người dùng đưa vào hệ thống bởi các câu truy vấn (query). Những tài liệu – văn bản “liên quan” (relevant) với câu truy vấn sẽ được hệ thống trả về. Như vậy, mục đích của hệ IR là để tự động quy trình kiểm tra tài liệu bằng cách tính độ đo tương quan giữa câu truy vấn và tài liệu. 1.2.5. Các tiêu chí đánh giá hiệu quảtìmkiếm thông tin Có rất nhiều cách đo lường khác nhau cho việc đánh giá mức độ xử lý trả về kếtquả của một hệ thống tìmkiếm thông tin. Các cách đo lường đều đòi hỏi một tập tài liệu và một câu truy vấn trên tập tài liệu đó, giả sử rằng mỗi tài liệu có thể liên quan hoặc không liên quan đến câu truy vấn. Để đánh giá hiệu quả của hệ truy tìm thông tin có thể dựa theo các tiêu chuẩn sau: Dựa trên hai độ đo: “độ chính xác” (precision) và “độ bao phủ” (recall). Độ chính xác (Precision): được đo bởi tỉ lệ của tài liệu trả về chính xác trên tổng các tài liệu nhận được 7 Độ bao phủ (Recall): được đo bởi tỉ lệ của tài liệu trả về chính xác trên tổng các tài liệu có liên quan 1.2.6. Mô hình xếp hạng áp dụng cho các phương pháp trộnkếtquảtìmkiếm a. Mô hình xác suất – Probabilistic model b. Mô hình không gian vector – Vector Space Model VSM c. Đánh giá theo kếtquả thử nghiệm trên hai mô hình VSM và mô hình xác suất d. Mô tả kiến trúc hệ IR được tính điểm theo mô hình VSM (VSM – IR) 1.2.7. Đặc tả các bước xây dựng hệ VSM – IR 1.3. HOẠT ĐỘNG CỦA MÁY TÌMKIẾM LIÊN HỢP 1.3.1. Máy tìmkiếm liên hợp 1.3.2. Đánh giá về máy tìmkiếm liên hợp 1.3.3. Các bước xây dựng một máy tìmkiếm liên hợp 8 a. Chọn các máy tìmkiếm nguồn b. Xử lý kếtquả trả về từ máy tìmkiếm nguồn 1.4. KỸTHUẬT BÓC TÁCH DỮ LIỆU TRONG .NET Để triển khai xây dựng ứng dụng máy tìmkiếm liên hợp – meta search engine – chúng tôi phải sử dụng kếtquảtìmkiếm trả về từ các máy tìmkiếm thành phần như: Google, Yahoo, Bing,… Do các giới hạn về kinh phí và kỹthuật phổ biến, chúng tôi sử dụng phương pháp bóc tách dữ liệu để lấy kếtquả trả về từ các máy tìm kiếm. 1.4.1. Bóc dữ liệu của một trang Web Để bóc tách được nội dung HTML của một trang Web bất kì thì chúng tôi sử dụng lớp WebRequest để tạo yêu cầu, lớp WebReponse để nhận đáp ứng từ Webserver và một số dạng Reader (StreamReader đối với dữ liệu Html hoặc Text hoặc BinaryReader đối với dữ liệu nhị phân) để phân tích các đáp ứng đó. 1.4.2. Giới thiệu về Regular Expression