1. Trang chủ
  2. » Luận Văn - Báo Cáo

Tìm hiểu về Search Engine và xây dựng ứng dụng minh hoạ cho Search Engine tiếng Việt

148 1.2K 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Cấu trúc

  • Phần 1 : TÌM HIỂU VẤN ĐỀ

    • Chương 1: TỔNG QUAN VỀ HỆ THỐNG SEARCH ENGINE

      • 1. Các bộ phận cấu thành hệ thống search engine

        • 1.1 Bộ thu thập thông tin – Robot

        • 1.2 Bộ lập chỉ mục – Index

        • 1.3 Bộ tìm kiếm thông tin – Search Engine

      • 2. Nguyên lý hoạt động

    • Chương 2: BỘ THU THẬP THÔNG TIN – ROBOT

      • 1. Ứng dụng của Robot

        • 1.1 Phân tích, thống kê – Statistical Analysis

        • 1.2 Duy trì siêu liên kế - Maintenance

        • 1.3 Ánh xạ địa chỉ web - Mirroring

        • 1.4 Phát hiện tài nguyên – Resource Discovery

        • 1.5 Kết hợp các công dụng trên- Combined uses

      • 2. Robot chỉ mục – Robot Indexing

      • 3. Các chiến thuật thu thập dữ liệu [II.1]

        • 3.1 Chiến thuật tìm kiếm theo chiều sâu

        • 3.2 Chiến thuật tìm kiếm theo chiều rộng

        • 3.3 Chiến thuật tìm kiếm theo ngẫu nhiên

      • 4. Những vấn đề cần lưu ý của web robot

        • 4.1 Chi phí và hiểm hoạ

          • 4.1.1 Qúa tải mạng và server – Network resource and server load

          • 4.1.2 Sự cập nhật quá mức- Updating overhead

          • 4.1.3 Những tình huống không mong đợi – Bad implementations

        • 4.2 Tiêu chuẩn loại trừ robot

          • 4.2.1 File robot.txt

          • 4.2.2 Thẻ META dành cho robot – Robot META tag

          • 4.2.3 Nhược điểm của file robot.txt

    • Chương 3: BỘ LẬP CHỈ MỤC – INDEX

      • 1. Khái quát về hệ thống lập chỉ mục

      • 2. Tổng quan về phương pháp lập chỉ mục ([I.1], [I.2], [II.1])

        • 2.1 Xác định mục từ quan trọng cần lập chỉ mục ([I.1])

        • 2.2 Một số hàm tính trọng số mục từ. ([I.1])

          • 2.2.1 Nghịch đảo trọng số tần số tài liệu (The Inverse Document Frequency Weight)

          • 2.2.2 Độ nhiễu tín hiệu (Signal Noise):

          • 2.2.3 Giá trị độ phân biệt của mục từ :

          • 2.2.4 Kết hợp tần số xuất hiện mục từ và nghịch đảo tần số tài liệu

        • 2.3 Lập chỉ mục tự động cho tài liệu

      • 3. Lập chỉ mục cho tài liệu tiếng Việt ([III.1], [II.1], [II.2], [II.3], [II.4], [IV.11], [IV.12])

        • 3.1 Khó khăn cho việc lập chỉ mục tiếng Việt

        • 3.2 Đặc điểm về từ trong tiếng Việt và việc tách từ

          • 3.2.1 . Đặc điểm về từ trong tiếng Việt:

            • 3.2.1.a Tiếng:

            • 3.2.1.b Từ:

          • 3.2.2 Tách từ

        • 3.3 Giải quyết các vấn đề hiển thị của tiếng Việt (vấn đề chính tả)

          • 3.3.1 Vấn đề bảng mã

          • 3.3.2 Vấn đề dấu thanh

          • 3.3.3 Vấn đề dấu tổ hợp nguyên âm

        • 3.4 Giải quyết các vấn đề về từ của tiếng Việt

          • 3.4.1 Luật xác định các từ láy

          • 3.4.2 Luật xác định các liên từ

        • 3.5 Xây dựng từ điển tiếng Việt

    • Chương 4: BỘ TÌM KIẾM THÔNG TIN – SEARCH ENGINE

      • 1. Vì sao ta cần một công cụ tìm kiếm (SE) ?

      • 2. Các phương thức tìm kiếm

        • 2.1 Tìm theo từ khoá – Keyword searching

        • 2.2 Những khó khăn khi tìm theo từ khoá

        • 2.3 Tìm theo ngữ nghĩa – Concept-based searching

      • 3. Các chiến lược tìm kiếm

        • 3.1 Tìm thông tin với các thư mục chủ đề

        • 3.2 Tìm thông tin với các công cụ tìm kiếm

        • 3.3 Tối ưu câu truy vấn

        • 3.4 Truy vấn bằng ví dụ

    • Chương 5: MỘT SỐ SEARCH ENGINE THÔNG DỤNG TRÊN THẾ GIỚI VÀ VIỆT NAM

      • 1.1 Thư mục của Yahoo, Google

      • 1.2 Alltheweb

      • 1.3 AltaVista

      • 1.4 Lycos

      • 1.5 HotBot

      • 2. Một số search engine thông dụng ở Việt Nam

        • 2.1 Netnam [IV.12]

          • 2.1.1 Phương pháp Netnam SE lập chỉ mục dữ liệu

          • 2.1.2 Cú pháp tìm kiếm

          • 2.1.3 Sử dụng từ khoá để lọc các tìm kiếm

        • 2.2 Vinaseek ([IV.11])

  • Phần 2 : THIẾT KẾ VÀ CÀI ĐẶT

    • Chương 1: THIẾT KẾ DỮ LIỆU

      • 1. Cơ sở dữ liệu trong SQL

      • 2. Hệ thống tập tin

    • Chương 2: THU THẬP THÔNG TIN

      • 1. Cấu trúc dữ liệu

        • 1.1 Cấu trúc UrlInfo

        • 1.2 Cấu trúc StartUrlInfo

        • 1.3 Cấu trúc FileRetrieval

        • 1.4 Cấu trúc ProjectInfo

      • 2. Xử lý của web robot

      • 3. Giải quyết các vấn đề của web robot

        • 3.1 Tránh sự lặp lại

        • 3.2 Tránh làm qúa tải server

        • 3.3 Tránh truy xuất đến các dạng tài nguyên không thích hợp

        • 3.4 Tránh các lỗ đen(black holes)

        • 3.5 Tránh những nơi cấm robot

      • 4. Các thuật toán phân tích cấu trúc file HTML

        • 4.1 Thuật toán lấy liên kết

          • 4.1.1 Thuật toán ứng dụng cũ đã cài đặt

          • 4.1.2 Chọn lựa của ứng dụng mới

        • 4.2 Thuật toán lấy tiêu đề

        • 4.3 Thuật toán lấy nội dung

      • 5. Duy trì thông tin cho CSDL

      • 6. Resume project

        • 6.1 Nguyên tắc resume của ứng dụng cũ1­­­1

        • 6.2 Cải tiến của ứng dụng mới

    • Chương 3: LẬP CHỈ MỤC

      • 1. Tính trọng số của từ:

      • 2. Tập tin nghịch đảo :

      • 3. Từ điển chỉ mục

      • 4. Quá trình stemming

    • Chương 4: TÌM KIẾM THÔNG TIN

    • Chương 5: CÁC MODULE ,PACKAGE, LỚP CHÍNH CỦA CHƯƠNG TRÌNH

      • 1. Các module, package của chương trình

      • 2. Các lớp đối tượng chính trong từng module

        • 2.1 Module DBController

        • 2.2 Module ProcessDoc

        • 2.3 Module Query

        • 2.4 Module SE

        • 2.5 Module Webcopy

        • 2.6 Module WebcopyGUI

  • Phần 3 : KẾT QUẢ, ĐÁNH GIÁ VÀ HƯỚNG PHÁT TRIỂN

    • 1. Kết quả thử nghiệm

    • 2. Hoạt động của chương trình

      • 2.1 Giao diện quản trị

        • 2.1.1 Giao diện chính của quản trị

        • 2.1.2 Tạo mới project

        • 2.1.3 Tạo mới một StartUrl :

        • 2.1.4 Xem từ điển chỉ mục

        • 2.1.5 Quản l‎ý mục từ

          • 2.1.5.a xem một mục từ

          • 2.1.5.b Thêm mục từ

          • 2.1.5.c Xoá mục từ

          • 2.1.5.d Cập nhật mục từ

      • 2.2 Giao diện tìm kiếm

    • 3. Đánh giá

      • 3.1 Ưu điểm

      • 3.2 Khuyết điểm

    • 4. Hướng phát triển

      • 4.1 Đối với từng module :

      • 4.2 Đối với toàn luận văn:

    • DANH SÁCH CÁC BẢNG

    • DANH SÁCH CÁC HÌNH VẼ

    • TÀI LIỆU THAM KHẢO

      • I. Sách, ebook:

      • II. Luận văn, luận án

      • III. Bài báo

      • IV. Website

Nội dung

Tìm hiểu Search Engine xây dựng ứng dụng minh hoạ cho Search Engine tiếng Việt LỜI CẢM ƠN Đầu tiên, chúng em xin gởi lời cảm ơn đến Thầy, Cô khoa Công nghệ Thông tin trường Đại học Khoa học Tự nhiên tận tình dạy dỗ, dìu dắt chúng em suốt bốn năm đại học Chúng em cảm ơn Cô Nguyễn Thị Diễm Tiên, người tận tình hướng dẫn, giúp đỡ, động viên chúng em hoàn thành luận văn Chúng cảm ơn anh Trần Nguyễn Hoàng Phương, Bùi Ngọc Tuấn Anh, Đoàn Hữu Quang Vinh bạn Nguyễn Huy Hoàng, Phan Anh Đức giúp đỡ, đóng góp ý kiến cho trình cài đặt, thử nghiệm chương trình Cuối cùng, chúng cảm ơn Ba, Mẹ người thân khích lệ, động viên chúng thời gian học tập, nghiên cứu để có thành ngày Tháng năm 2004 Sinh viên Lê Thuý Ngọc – Đỗ Mỹ Nhung Lê Thuý Ngọc - 0012745 Đỗ Mỹ Nhung - 0012624 Tìm hiểu Search Engine xây dựng ứng dụng minh hoạ cho Search Engine tiếng Việt NHẬN XÉT CỦA GIÁO VIÊN HƯỚNG DẪN …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… ………………………………………………………………………………… …………………………………………………………………………………… Ngày…… tháng……năm 2004 Ký tên Lê Thuý Ngọc - 0012745 Đỗ Mỹ Nhung - 0012624 Tìm hiểu Search Engine xây dựng ứng dụng minh hoạ cho Search Engine tiếng Việt NHẬN XÉT CỦA GIÁO VIÊN PHẢN BIỆN …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… ………………………………………………………………………………… …………………………………………………………………………………… Ngày…… tháng……năm 2004 Ký tên Lê Thuý Ngọc - 0012745 Đỗ Mỹ Nhung - 0012624 Tìm hiểu Search Engine xây dựng ứng dụng minh hoạ cho Search Engine tiếng Việt MỤC LỤC Phần : TÌM HIỂU VẤN ĐỀ Chương 1: TỔNG QUAN VỀ HỆ THỐNG SEARCH ENGINE Các phận cấu thành hệ thống search engine 1.1 Bộ thu thập thông tin – Robot 1.2 Bộ lập mục – Index 1.3 Bộ tìm kiếm thông tin – Search Engine Nguyên lý hoạt động Chương 2: BỘ THU THẬP THÔNG TIN – ROBOT Ứng dụng Robot 1.1 Phân tích, thống kê – Statistical Analysis 1.2 Duy trì siêu liên kế - Maintenance 1.3 Ánh xạ địa web - Mirroring 1.4 Phát tài nguyên – Resource Discovery 1.5 Kết hợp công dụng trên- Combined uses Robot mục – Robot Indexing Các chiến thuật thu thập liệu [II.1] 3.1 Chiến thuật tìm kiếm theo chiều sâu 3.2 Chiến thuật tìm kiếm theo chiều rộng 3.3 Chiến thuật tìm kiếm theo ngẫu nhiên Những vấn đề cần lưu ý web robot .10 4.1 Chi phí hiểm hoạ 10 4.1.1 Qúa tải mạng server – Network resource and server load .10 4.1.2 Sự cập nhật mức- Updating overhead 11 4.1.3 Những tình không mong đợi – Bad implementations .12 4.2 Tiêu chuẩn loại trừ robot 12 4.2.1 File robot.txt 13 4.2.2 Thẻ META dành cho robot – Robot META tag 14 4.2.3 Nhược điểm file robot.txt .15 Chương 3: BỘ LẬP CHỈ MỤC – INDEX 18 Khái quát hệ thống lập mục .18 Tổng quan phương pháp lập mục ([I.1], [I.2], [II.1]) .21 2.1 Xác định mục từ quan trọng cần lập mục ([I.1]) 21 2.2 Một số hàm tính trọng số mục từ ([I.1]) .23 2.2.1 Nghịch đảo trọng số tần số tài liệu (The Inverse Document Frequency Weight) 24 Lê Thuý Ngọc - 0012745 Đỗ Mỹ Nhung - 0012624 Tìm hiểu Search Engine xây dựng ứng dụng minh hoạ cho Search Engine tiếng Việt 2.2.2 Độ nhiễu tín hiệu (Signal Noise): 25 2.2.3 Giá trị độ phân biệt mục từ : 25 2.2.4 Kết hợp tần số xuất mục từ nghịch đảo tần số tài liệu .26 2.3 Lập mục tự động cho tài liệu 28 Lập mục cho tài liệu tiếng Việt ([III.1], [II.1], [II.2], [II.3], [II.4], [IV.11], [IV.12]) 29 3.1 Khó khăn cho việc lập mục tiếng Việt 29 3.2 Đặc điểm từ tiếng Việt việc tách từ 31 3.2.1 Đặc điểm từ tiếng Việt: 31 3.2.2 Tách từ 32 3.3 Giải vấn đề hiển thị tiếng Việt (vấn đề tả) 34 3.3.1 Vấn đề bảng mã .34 3.3.2 Vấn đề dấu 35 3.3.3 Vấn đề dấu tổ hợp nguyên âm .36 3.4 Giải vấn đề từ tiếng Việt 37 3.4.1 Luật xác định từ láy 37 3.4.2 Luật xác định liên từ .37 3.5 Xây dựng từ điển tiếng Việt 38 Chương 4: BỘ TÌM KIẾM THÔNG TIN – SEARCH ENGINE 40 Vì ta cần công cụ tìm kiếm (SE) ? .40 Các phương thức tìm kiếm 40 2.1 Tìm theo từ khoá – Keyword searching .40 2.2 Những khó khăn tìm theo từ khoá 41 2.3 Tìm theo ngữ nghĩa – Concept-based searching 41 Các chiến lược tìm kiếm 42 3.1 Tìm thông tin với thư mục chủ đề 42 3.2 Tìm thông tin với công cụ tìm kiếm 43 3.3 Tối ưu câu truy vấn .43 3.4 Truy vấn ví dụ 44 Chương 5: MỘT SỐ SEARCH ENGINE THÔNG DỤNG TRÊN THẾ GIỚI VÀ VIỆT NAM .45 1.1 Thư mục Yahoo, Google .53 1.2 Alltheweb 54 1.3 AltaVista .54 1.4 Lycos .55 1.5 HotBot 55 Một số search engine thông dụng Việt Nam 55 2.1 Netnam [IV.12] .55 2.1.1 Phương pháp Netnam SE lập mục liệu 58 Lê Thuý Ngọc - 0012745 Đỗ Mỹ Nhung - 0012624 Tìm hiểu Search Engine xây dựng ứng dụng minh hoạ cho Search Engine tiếng Việt 2.1.2 Cú pháp tìm kiếm 59 2.1.3 Sử dụng từ khoá để lọc tìm kiếm 61 2.2 Vinaseek ([IV.11]) 64 Phần : THIẾT KẾ VÀ CÀI ĐẶT 67 Chương 1: THIẾT KẾ DỮ LIỆU 67 Cơ sở liệu SQL 67 Hệ thống tập tin 70 Chương 2: THU THẬP THÔNG TIN 72 Cấu trúc liệu 72 1.1 Cấu trúc UrlInfo 73 1.2 Cấu trúc StartUrlInfo 74 1.3 Cấu trúc FileRetrieval 74 1.4 Cấu trúc ProjectInfo .75 Xử lý web robot 77 Giải vấn đề web robot 82 3.1 Tránh lặp lại .82 3.2 Tránh làm qúa tải server .82 3.3 Tránh truy xuất đến dạng tài nguyên không thích hợp 83 3.4 Tránh lỗ đen(black holes) 83 3.5 Tránh nơi cấm robot 83 Các thuật toán phân tích cấu trúc file HTML 83 4.1 Thuật toán lấy liên kết 83 4.1.1 Thuật toán ứng dụng cũ cài đặt 84 4.1.2 Chọn lựa ứng dụng 88 4.2 Thuật toán lấy tiêu đề 88 4.3 Thuật toán lấy nội dung 89 Duy trì thông tin cho CSDL .90 Resume project 90 6.1 Nguyên tắc resume ứng dụng cũ1 91 6.2 Cải tiến ứng dụng 93 Chương 3: LẬP CHỈ MỤC 95 Tính trọng số từ: 95 Tập tin nghịch đảo : 96 Từ điển mục 102 Quá trình stemming 108 Chương 4: TÌM KIẾM THÔNG TIN 111 Lê Thuý Ngọc - 0012745 Đỗ Mỹ Nhung - 0012624 Tìm hiểu Search Engine xây dựng ứng dụng minh hoạ cho Search Engine tiếng Việt Chương 5: CÁC MODULE ,PACKAGE, LỚP CHÍNH CỦA CHƯƠNG TRÌNH 113 Các module, package chương trình 113 Các lớp đối tượng module 114 2.1 Module DBController 114 2.2 Module ProcessDoc 114 2.3 Module Query .116 2.4 Module SE 116 2.5 Module Webcopy .117 2.6 Module WebcopyGUI 118 Phần : KẾT QUẢ, ĐÁNH GIÁ VÀ HƯỚNG PHÁT TRIỂN 119 Kết thử nghiệm 119 Hoạt động chương trình .121 2.1 Giao diện quản trị .121 2.1.1 Giao diện quản trị .121 2.1.2 Tạo project 122 2.1.3 Tạo StartUrl : 125 2.1.4 Xem từ điển mục 128 2.1.5 Quản lý mục từ 129 2.2 Giao diện tìm kiếm .131 Đánh giá 133 3.1 Ưu điểm 133 3.2 Khuyết điểm .134 Hướng phát triển .134 4.1 Đối với module : 134 4.2 Đối với toàn luận văn: 135 DANH SÁCH CÁC BẢNG 137 DANH SÁCH CÁC HÌNH VẼ 138 TÀI LIỆU THAM KHẢO 140 I Sách, ebook: 140 II Luận văn, luận án 140 III Bài báo .141 IV Website 141 Lê Thuý Ngọc - 0012745 Đỗ Mỹ Nhung - 0012624 Tìm hiểu Search Engine xây dựng ứng dụng minh hoạ cho Search Engine tiếng Việt MỞ ĐẦU Trong thời đại ngày nay, thông tin nhu cầu thiết yếu người lĩnh vực Mỗi phút trôi qua hàng triệu triệu trang web đẩy lên nhằm làm giàu nguồn tài nguyên vô tận Tuy nhiên tồn nghịch lý dù ví thư viện toàn cầu, internet không thoả mãn nhu cầu thông tin người Xung quanh vấn đề có nhiều nguyên nhân quan trọng thông hiểu người công cụ tìm kiếm mạng – search engine – chưa đạt đến mức giao tiếp tốt với Hơn nữa, search engine mang đặc thù ngôn ngữ mà hiển thị search engine Tiếng Việt phải giải vấn đề đặc trưng Tiếng Việt, cụ thể vấn đề bảng mã, ngữ pháp Tiếng Việt Nếu ta hiểu cách thức search engine tổ chức thông tin, thực thi câu truy vấn đặc trưng ngôn ngữ mà search engine tiếp cận ta tối ưu hoá hội nhận thông tin hữu ích Đây mục tiêu luận văn Lê Thuý Ngọc - 0012745 Đỗ Mỹ Nhung - 0012624 Tìm hiểu Search Engine xây dựng ứng dụng minh hoạ cho Search Engine tiếng Việt Phần : TÌM HIỂU VẤN ĐỀ Chương 1: TỔNG QUAN VỀ HỆ THỐNG SEARCH ENGINE Các phận cấu thành hệ thống search engine 1.1 Bộ thu thập thông tin – Robot Robot chương trình tự động duyệt qua cấu trúc siêu liên kết để thu thập tài liệu & cách đệ quy nhận tất tài liệu có liên kết với tài liệu Robot biết đến nhiều tên gọi khác : spider, web wanderer web worm,… Những tên gọi gây nhầm lẫn, từ ‘spider’, ‘wanderer’ làm người ta nghĩ robot tự di chuyển từ ‘worm’ làm người ta liên tưởng đến virus Về chất robot chương trình duyệt thu thập thông tin từ site theo giao thức web Những trình duyệt thông thường không xem robot thiếu tính chủ động, chúng duyệt web có tác động người 1.2 Bộ lập mục – Index Hệ thống lập mục hay gọi hệ thống phân tích xử lý liệu, thực việc phân tích, trích chọn thông tin cần thiết (thường từ đơn , từ ghép , cụm từ quan trọng) từ liệu mà robot thu thập tổ chức thành sở liệu riêng để tìm kiếm cách nhanh chóng, hiệu Hệ thống mục danh sách từ khoá, rõ từ khoá xuất trang nào, địa Lê Thuý Ngọc - 0012745 Đỗ Mỹ Nhung - 0012624 Tìm hiểu Search Engine xây dựng ứng dụng minh hoạ cho Search Engine tiếng Việt 1.3 Bộ tìm kiếm thông tin – Search Engine Search engine cụm từ dùng toàn hệ thống bao gồm thu thập thông tin, lập mục & tìm kiếm thông tin Các hoạt động liên tục từ lúc khởi động hệ thống, chúng phụ thuộc lẫn mặt liệu độc lập với mặt hoạt động Search engine tương tác với user thông qua giao diện web, có nhiệm vụ tiếp nhận & trả tài liệu thoả yêu cầu user Nói nôm na, tìm kiếm từ tìm kiếm trang mà từ câu truy vấn (query) xuất nhiều nhất, ngoại trừ stopword (các từ thông dụng mạo từ a, an, the,…) Một từ xuất nhiều trang trang chọn để trả cho người dùng Và trang chứa tất từ câu truy vấn tốt trang không chứa từ Ngày nay, hầu hết search engine hỗ trợ chức tìm nâng cao, tìm từ đơn, từ ghép, cụm từ, danh từ riêng, hay giới hạn phạm vi tìm kiếm đề mục, tiêu đề, đoạn văn giới thiệu trang web,… Ngoài chiến lược tìm xác theo từ khoá, search engine cố gắng ‘ hiểu ‘ ý nghĩa thực câu hỏi thông qua câu chữ người dùng cung cấp Điều thể qua chức sửa lỗi tả, tìm hình thức biến đổi khác từ Ví dụ : search engine tìm từ speaker, speaking, spoke người dùng nhập vào từ speak Nguyên lý hoạt động Search engine điều khiển robot thu thập thông tin mạng thông qua siêu liên kết ( hyperlink ) Khi robot phát site mới, gởi tài liệu (web Lê Thuý Ngọc - 0012745 Đỗ Mỹ Nhung - 0012624 Tìm hiểu Search Engine xây dựng ứng dụng minh hoạ cho Search Engine tiếng Việt Hình 10.16Màn hình thể trạng thái xử lý StartUrl thứ Lê Thuý Ngọc - 0012745 127 Đỗ Mỹ Nhung - 0012624 Tìm hiểu Search Engine xây dựng ứng dụng minh hoạ cho Search Engine tiếng Việt 2.1.4 Xem từ điển mục Các loại từ điển Nhảy đến vị trí từ từ điển có Goi dialog ManageItem hiển thị từ chọn textbox Item Về trang trước Về trang đầu Đến trang cuối Đến trang sau Gọi dialog ManageItem Đến trang số Hình 10.17 Màn hình xem từ điển mục Lê Thuý Ngọc - 0012745 128 Đỗ Mỹ Nhung - 0012624 Tìm hiểu Search Engine xây dựng ứng dụng minh hoạ cho Search Engine tiếng Việt 2.1.5 Quản lý mục từ 2.1.5.a xem mục từ Từ Từ loại Hình 10.18Màn hình xem thông tin từ từ điển mục 2.1.5.b Thêm mục từ … Hình 10.19Màn hình thêm từ vào từ điển mục Lê Thuý Ngọc - 0012745 129 Đỗ Mỹ Nhung - 0012624 Tìm hiểu Search Engine xây dựng ứng dụng minh hoạ cho Search Engine tiếng Việt 2.1.5.c Xoá mục từ Hình 10.20Màn hình xóa từ khỏi từ điển mục 2.1.5.d Cập nhật mục từ Hình 10.21 Màn hình cập nhật mục từ từ điển mục Lê Thuý Ngọc - 0012745 130 Đỗ Mỹ Nhung - 0012624 Tìm hiểu Search Engine xây dựng ứng dụng minh hoạ cho Search Engine tiếng Việt 2.2 Giao diện tìm kiếm Hình 10.22Giao diện tìm kiếm thông tin người dùng Lê Thuý Ngọc - 0012745 131 Đỗ Mỹ Nhung - 0012624 Tìm hiểu Search Engine xây dựng ứng dụng minh hoạ cho Search Engine tiếng Việt Hình 10.23Màn hình kết Lê Thuý Ngọc - 0012745 132 Đỗ Mỹ Nhung - 0012624 Tìm hiểu Search Engine xây dựng ứng dụng minh hoạ cho Search Engine tiếng Việt Đánh giá 3.1 Ưu điểm Về luận văn thực tốt nội dung đề đạt số kết định :  Luận văn trình bày sở lý thuyết nguyên lý vận hành hệ thống search engine  Tìm hiểu phương thức chiến lược việc thiết kế module cụ thể cho hệ thống  Tìm hiểu vấn đề đặc trưng hệ thống thu thập thông tin hoạt động môi trường mạng Đề xuất vài giải pháp xử lý khó khăn webrobot  Tìm hiểu vấn đề đặc trưng hệ thống search engine tiếng Việt Đề xuất vài giải pháp đơn giản để xử lý vấn đề khó khăn tiếng Việt  Tìm hiểu hoạt động, thống kê số đặc trưng cách sử dụng số search engine thông dụng giới Việt Nam  Tìm hiểu Semantic Search Engine  Xây dựng ứng dụng thử nghiệm cho hệ thống search engine tiếng Việt với kết đạt sau:  Xây dựng công cụ đảm nhận việc thu thập trang web cách tự động với nhiều tiến trình đồng hành nhiều tuỳ chọn tuỳ chọn qúa trình xử lý Lê Thuý Ngọc - 0012745 133 Đỗ Mỹ Nhung - 0012624 Tìm hiểu Search Engine xây dựng ứng dụng minh hoạ cho Search Engine tiếng Việt  Xây dựng công cụ lập tự động cho từ tiếng Anh, tiếng Việt có dấu không dấu  Hỗ trợ việc cập nhật, thêm, xoá, sửa từ vào từ điển  Xử lý hậu tố trình lập mục tiếng Anh  Xử lý bỏ dấu không đồng Tiếng Việt không dấu  Thời gian xử lý yêu cầu tìm kiếm nhanh kết tương đối phù hợp  Giao diện đẹp, thân thiện, dễ sử dụng 3.2 Khuyết điểm Tuy nhiên ứng dụng mang tính chất minh hoạ nên số hạn chế cần phải cải tiến :  Chưa có thời gian thử nghiệm ứng dụng môi trường mạng  Chưa tóm tắt nội dung Website trả Hướng phát triển 4.1 Đối với module :  Bộ thu thập thông tin  Hỗ trợ nhiều hệ quản trị CSDL khác  Lập lịch download project cách tự động Lê Thuý Ngọc - 0012745 134 Đỗ Mỹ Nhung - 0012624 Tìm hiểu Search Engine xây dựng ứng dụng minh hoạ cho Search Engine tiếng Việt  Xác định font file css mà trang HTML tham chiếu tới  Phân tích trang HTML không dạng text để lấy thông tin cho lập mục  Bộ lập mục  Hoàn chỉnh phần xử lý font chữ  Xử lý thêm nhiều hậu tố khác  Sử dụng cách tổ chức, lưu trữ xử lý liệu khác: bảng băm…  Lập lịch cho việc lập mục file download cách tự động  Bộ tìm kiếm thông tin  Hỗ trợ thêm nhiều toán tử tuỳ chọn tìm kiếm  Cải tiến kết tìm kiếm dựa vào kỹ thuật gom nhóm nhật ký người sử dụng (user log) dùng thư mục web 4.2 Đối với toàn luận văn:  Cho phép ứng dụng chạy môi trường Web  Tăng tính hiệu quả, tăng tốc độ tìm kiếm, tăng tính ổn định tính bảo mật chương trình  Tóm tắt nội dung Website trả  Hỗ trợ nhiều việc tìm kiếm nâng cao: theo tiêu đề, theo ngày cập nhật, theo kiểu file… Lê Thuý Ngọc - 0012745 135 Đỗ Mỹ Nhung - 0012624 Tìm hiểu Search Engine xây dựng ứng dụng minh hoạ cho Search Engine tiếng Việt Lê Thuý Ngọc - 0012745 136 Đỗ Mỹ Nhung - 0012624 Tìm hiểu Search Engine xây dựng ứng dụng minh hoạ cho Search Engine tiếng Việt DANH SÁCH CÁC BẢNG Bảng 2.1 :Ví dụ chuẩn loại trừ robot dùng file robot.txt 13 Bảng 2.2 : Bảng thông tin META tag chuẩn loại trừ robot 14 Bảng 2.3 : Bảng giá trị cờ thuộc tính Content META tag .15 Bảng 4.4 : Các từ khóa giúp tối ưu câu truy vấn 44 Bảng 5.5 : Bảng hướng dẫn nhanh cách sử dụng search engine phổ biến giới 47 Bảng 5.6 : Sơ lược đặc trưng số search engine thông dụng internet 51 Bảng 5.7 : Các meta-search engine thông dụng internet .52 Bảng 5.8 : Các hệ thống thư mục theo chủ đề thông dụng internet 53 Bảng 5.9 : Bảng miêu tả từ khoá sử dụng việc tìm kiếm .62 Bảng 5.10 : Ví dụ tìm kiếm thông tin Netnam 64 Bảng 6.11 : Bảng URL 70 Bảng 7.12 : Cấu trúc URLInfo 74 Bảng 7.13 : Cấu trúc StartURLInfo 74 Bảng 7.14 : Cấu trúc FileRetrieval 75 Bảng 7.15 : Cấu trúc ProjectInfo 77 Bảng 7.16 : Danh sách thẻ thường dùng tạo tạo liên kết 84 Bảng 7.17: Bảng tóm tắt so sánh chức ứng dụng cũ 94 Bảng 8.18: Cấu trúc trang cấp cho mục từ tập tin nghịch đảo 101 Lê Thuý Ngọc - 0012745 137 Đỗ Mỹ Nhung - 0012624 Tìm hiểu Search Engine xây dựng ứng dụng minh hoạ cho Search Engine tiếng Việt DANH SÁCH CÁC HÌNH VẼ Hình 3.1 Lưu đồ xử lý cho hệ thống lập mục 19 Hình 5.2 Sơ đồ hệ thống Search Engine Netnam 57 Hình 7.3 Lưu đồ thuật toán cờ trạng thái .85 Hình 7.4 Lưu đồ thuật toán dựa vào đuôi file 87 Hình 7.5 Cây liên kết 92 Hình 8.6 Tập tin nghịch đảo 100 Hình 8.7 Cây từ điển n-phân 103 Hình 8.8 Lưu đồ nhận dạng bảng mã 109 Hình 9.9 Lưu đồ xử lý câu truy vấn 112 Hình 10.10 Giao diện quản trị 121 Hình 10.11Màn hình thể số thông tin chung project .122 Hình 10.12Các tuỳ chọn thu thập liệu project 123 Hình 10.13Màn hình sửa chữa thông tin thêm dạng file .124 Hình 10.14Màn hình chứa thông tin StartUrl 125 Hình 10.15Màn hình sau thêm số StartUrl 126 Hình 10.16Màn hình thể trạng thái xử lý StartUrl thứ 127 Hình 10.17 Màn hình xem từ điển mục 128 Hình 10.18Màn hình xem thông tin từ từ điển mục 129 Hình 10.19Màn hình thêm từ vào từ điển mục .129 Hình 10.20Màn hình xóa từ khỏi từ điển mục 130 Lê Thuý Ngọc - 0012745 138 Đỗ Mỹ Nhung - 0012624 Tìm hiểu Search Engine xây dựng ứng dụng minh hoạ cho Search Engine tiếng Việt Hình 10.21 Màn hình cập nhật mục từ từ điển mục 130 Hình 10.22Giao diện tìm kiếm thông tin người dùng 131 Hình 10.23Màn hình kết 132 Lê Thuý Ngọc - 0012745 139 Đỗ Mỹ Nhung - 0012624 Tìm hiểu Search Engine xây dựng ứng dụng minh hoạ cho Search Engine tiếng Việt TÀI LIỆU THAM KHẢO I Sách, ebook: [I.1] Gerard Salton, Michael J.McGill, Introduction to Modern Information Retrieval [I.2] C.J van Rijsbergen , Department of Computing Science University of Glasgow, Information Retrieval II Luận văn, luận án [II.1] Huỳnh Thụy Bảo Trân Luận án thạc sĩ khoa học Nghiên cứu số mô hình xây dựng thử nghiệm search engine Tiếng Việt Người hướng dẫn khoa học : GS.TS.Hoàng Văn Kiếm [II.2] Đoàn Hữu Quang Vinh Luận văn cử nhân tin học Xây dựng công cụ hỗ trợ trình tiền xử lý cho hệ thống search engine GVHD : Huỳnh Thụy Bảo Trân [II.3] Bùi Ngọc Tuấn Anh, Trần Nguyễn Hoàng Phương Luận văn cử nhân tin học Nghiên cứu số thuật toán tra cứu thông tin Internet cài đặt thử nghiệm GVHD: Hồ Bảo Quốc [II.4] Nguyễn Hải Quyền, Lương Thị Hoàng Thuý Luận văn cử nhân tin học Tạo từ khoá cho văn tiếng Việt GVHD: Chu Tất Bích San Lê Thuý Ngọc - 0012745 140 Đỗ Mỹ Nhung - 0012624 Tìm hiểu Search Engine xây dựng ứng dụng minh hoạ cho Search Engine tiếng Việt III Bài báo [III.1] Dong Thi Bich Thuy, Ho Bao Quoc, Marie-France Bruandet, Jean-Pierre Chevallet, An approach to Vietnamese Information Retrival IV Website [IV.1] http://citeseer.nj.nec.com [IV.2] Conceptual Graph Home Page http://www.cs.uah.edu/~delugach/CG [IV.3] CYC ontology http://www.cyc.com [IV.4] Search Engine Glossary http://www.cadenza.org/search_engine_terms [IV.5] W3C SemanticWeb Activity http://www.w3.org/2001/sw [IV.6] WordNet ftp://clarity.princeton.edu/pub/wordnet/ Princeton University [IV.7] http://www.robotstxt.org/wc/thread-or-treat.html [IV.8] http://infopeople.org/search/chart.html [IV.9] http://infopeople.org/search/guide.html [IV.10] http://www.vinaseek.com [IV.11] http://www.panvietnam.com [IV.12] http://www.netnam.vn [IV.13 http://monash.com Lê Thuý Ngọc - 0012745 141 Đỗ Mỹ Nhung - 0012624

Ngày đăng: 21/11/2016, 02:26

HÌNH ẢNH LIÊN QUAN

Bảng 2.1 :Ví dụ về chuẩn loại trừ robot dùng file robot.txt - Tìm hiểu về Search Engine và xây dựng ứng dụng minh hoạ cho Search Engine tiếng Việt
Bảng 2.1 Ví dụ về chuẩn loại trừ robot dùng file robot.txt (Trang 20)
Hình 3.1 Lưu đồ xử lý cho hệ thống lập chỉ mục - Tìm hiểu về Search Engine và xây dựng ứng dụng minh hoạ cho Search Engine tiếng Việt
Hình 3.1 Lưu đồ xử lý cho hệ thống lập chỉ mục (Trang 26)
Bảng 5.6 : Sơ lược về các đặc trưng của một số search engine thông dụng trên internet - Tìm hiểu về Search Engine và xây dựng ứng dụng minh hoạ cho Search Engine tiếng Việt
Bảng 5.6 Sơ lược về các đặc trưng của một số search engine thông dụng trên internet (Trang 58)
Bảng 5.7 : Các meta-search engine thông dụng trên internet - Tìm hiểu về Search Engine và xây dựng ứng dụng minh hoạ cho Search Engine tiếng Việt
Bảng 5.7 Các meta-search engine thông dụng trên internet (Trang 59)
Bảng 5.8 : Các hệ thống thư mục theo chủ đề thông dụng trên internet - Tìm hiểu về Search Engine và xây dựng ứng dụng minh hoạ cho Search Engine tiếng Việt
Bảng 5.8 Các hệ thống thư mục theo chủ đề thông dụng trên internet (Trang 60)
Hình 5.2 Sơ đồ hệ thống Search Engine của Netnam - Tìm hiểu về Search Engine và xây dựng ứng dụng minh hoạ cho Search Engine tiếng Việt
Hình 5.2 Sơ đồ hệ thống Search Engine của Netnam (Trang 64)
Bảng 5.9 : Bảng miêu tả các từ khoá sử dụng trong việc tìm kiếm. - Tìm hiểu về Search Engine và xây dựng ứng dụng minh hoạ cho Search Engine tiếng Việt
Bảng 5.9 Bảng miêu tả các từ khoá sử dụng trong việc tìm kiếm (Trang 69)
Bảng 6.11 : Bảng URL - Tìm hiểu về Search Engine và xây dựng ứng dụng minh hoạ cho Search Engine tiếng Việt
Bảng 6.11 Bảng URL (Trang 77)
Bảng 7.12 : Cấu trúc URLInfo - Tìm hiểu về Search Engine và xây dựng ứng dụng minh hoạ cho Search Engine tiếng Việt
Bảng 7.12 Cấu trúc URLInfo (Trang 81)
Bảng 7.14 : Cấu trúc FileRetrieval - Tìm hiểu về Search Engine và xây dựng ứng dụng minh hoạ cho Search Engine tiếng Việt
Bảng 7.14 Cấu trúc FileRetrieval (Trang 82)
Bảng 7.15 : Cấu trúc ProjectInfo - Tìm hiểu về Search Engine và xây dựng ứng dụng minh hoạ cho Search Engine tiếng Việt
Bảng 7.15 Cấu trúc ProjectInfo (Trang 84)
Bảng 7.16 : Danh sách các thẻ thường dùng tạo tạo liên kết 4.1.1 Thuật toán ứng dụng cũ đã cài đặt - Tìm hiểu về Search Engine và xây dựng ứng dụng minh hoạ cho Search Engine tiếng Việt
Bảng 7.16 Danh sách các thẻ thường dùng tạo tạo liên kết 4.1.1 Thuật toán ứng dụng cũ đã cài đặt (Trang 91)
Hình 7.3 Lưu đồ thuật toán cờ trạng thái - Tìm hiểu về Search Engine và xây dựng ứng dụng minh hoạ cho Search Engine tiếng Việt
Hình 7.3 Lưu đồ thuật toán cờ trạng thái (Trang 92)
Hình 7.4  Lưu đồ thuật toán dựa vào đuôi file - Tìm hiểu về Search Engine và xây dựng ứng dụng minh hoạ cho Search Engine tiếng Việt
Hình 7.4 Lưu đồ thuật toán dựa vào đuôi file (Trang 94)
Hình 7.5 Cây liên kết - Tìm hiểu về Search Engine và xây dựng ứng dụng minh hoạ cho Search Engine tiếng Việt
Hình 7.5 Cây liên kết (Trang 99)
Bảng 7.17: Bảng tóm tắt so sánh những chức năng chính giữa ứng dụng cũ và mới - Tìm hiểu về Search Engine và xây dựng ứng dụng minh hoạ cho Search Engine tiếng Việt
Bảng 7.17 Bảng tóm tắt so sánh những chức năng chính giữa ứng dụng cũ và mới (Trang 101)
Hình 8.6 Tập tin nghịch đảo - Tìm hiểu về Search Engine và xây dựng ứng dụng minh hoạ cho Search Engine tiếng Việt
Hình 8.6 Tập tin nghịch đảo (Trang 107)
Bảng 8.18: Cấu trúc của một trang cấp cho từng mục từ trong tập tin nghịch đảo - Tìm hiểu về Search Engine và xây dựng ứng dụng minh hoạ cho Search Engine tiếng Việt
Bảng 8.18 Cấu trúc của một trang cấp cho từng mục từ trong tập tin nghịch đảo (Trang 108)
Hình 10.10 Giao diện chính của quản trị - Tìm hiểu về Search Engine và xây dựng ứng dụng minh hoạ cho Search Engine tiếng Việt
Hình 10.10 Giao diện chính của quản trị (Trang 128)
Hình 10.11Màn hình thể hiện một số thông tin chung về project - Tìm hiểu về Search Engine và xây dựng ứng dụng minh hoạ cho Search Engine tiếng Việt
Hình 10.11 Màn hình thể hiện một số thông tin chung về project (Trang 129)
Hình 10.12Các tuỳ chọn thu thập dữ liệu của project - Tìm hiểu về Search Engine và xây dựng ứng dụng minh hoạ cho Search Engine tiếng Việt
Hình 10.12 Các tuỳ chọn thu thập dữ liệu của project (Trang 130)
Hình 10.14Màn hình chứa thông tin của một StartUrl - Tìm hiểu về Search Engine và xây dựng ứng dụng minh hoạ cho Search Engine tiếng Việt
Hình 10.14 Màn hình chứa thông tin của một StartUrl (Trang 132)
Hình 10.15Màn hình sau khi thêm một số StartUrl - Tìm hiểu về Search Engine và xây dựng ứng dụng minh hoạ cho Search Engine tiếng Việt
Hình 10.15 Màn hình sau khi thêm một số StartUrl (Trang 133)
Hình 10.17 Màn hình xem từ điển chỉ mục - Tìm hiểu về Search Engine và xây dựng ứng dụng minh hoạ cho Search Engine tiếng Việt
Hình 10.17 Màn hình xem từ điển chỉ mục (Trang 135)
Hình 10.19Màn hình thêm một từ mới vào từ điển chỉ mục - Tìm hiểu về Search Engine và xây dựng ứng dụng minh hoạ cho Search Engine tiếng Việt
Hình 10.19 Màn hình thêm một từ mới vào từ điển chỉ mục (Trang 136)
Hình 10.18Màn hình xem thông tin của một từ trong từ điển chỉ mục 2.1.5.b Thêm mục từ - Tìm hiểu về Search Engine và xây dựng ứng dụng minh hoạ cho Search Engine tiếng Việt
Hình 10.18 Màn hình xem thông tin của một từ trong từ điển chỉ mục 2.1.5.b Thêm mục từ (Trang 136)
Hình 10.21 Màn hình cập nhật mục từ trong từ điển chỉ mục - Tìm hiểu về Search Engine và xây dựng ứng dụng minh hoạ cho Search Engine tiếng Việt
Hình 10.21 Màn hình cập nhật mục từ trong từ điển chỉ mục (Trang 137)
Hình 10.22Giao diện tìm kiếm thông tin của người dùng - Tìm hiểu về Search Engine và xây dựng ứng dụng minh hoạ cho Search Engine tiếng Việt
Hình 10.22 Giao diện tìm kiếm thông tin của người dùng (Trang 138)
Hình 10.23Màn hình kết quả - Tìm hiểu về Search Engine và xây dựng ứng dụng minh hoạ cho Search Engine tiếng Việt
Hình 10.23 Màn hình kết quả (Trang 139)

TỪ KHÓA LIÊN QUAN

w