Luận văn tìm hiểu về search engine và xây dựng ứng dụng minh hoạ cho search engine tiếng việt

143 4 0
Luận văn tìm hiểu về search engine và xây dựng ứng dụng minh hoạ cho search engine tiếng việt

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Tìm hiểu Search Engine xây dựng ứng dụngminh hoạ cho Search Engine tiếng Việt LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com MỞ ĐẦU Trong thời đại ngày nay, thông tin nhu cầu thiết yếu người lĩnh vực Mỗi phút trôi qua hàng triệu triệu trang web đẩy lên nhằm làm giàu nguồn tài nguyên vô tận Tuy nhiên tồn nghịch lý dù ví thư viện tồn cầu, internet khơng thoả mãn nhu cầu thông tin người Xung quanh vấn đề có nhiều nguyên nhân quan trọng thơng hiểu người cơng cụ tìm kiếm mạng – search engine – chưa đạt đến mức giao tiếp tốt với Hơn nữa, search engine mang đặc thù ngôn ngữ mà hiển thị search engine Tiếng Việt phải giải vấn đề đặc trưng Tiếng Việt, cụ thể vấn đề bảng mã, ngữ pháp Tiếng Việt Nếu ta hiểu cách thức search engine tổ chức thông tin, thực thi câu truy vấn đặc trưng ngôn ngữ mà search engine tiếp cận ta tối ưu hố hội nhận thơng tin hữu ích Đây mục tiêu luận văn LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com TÌM HIỂU VẤN ĐỀ Chương 1: TỔNG QUAN VỀ HỆ THỐNG SEARCH ENGINE Các phận cấu thành hệ thống search engine 1.1 Bộ thu thập thơng tin – Robot Robot chương trình tự động duyệt qua cấu trúc siêu liên kết để thu thập tài liệu & cách đệ quy nhận tất tài liệu có liên kết với tài liệu Robot biết đến nhiều tên gọi khác : spider, web wanderer web worm,… Những tên gọi gây nhầm lẫn, từ ‘spider’, ‘wanderer’ làm người ta nghĩ robot tự di chuyển từ ‘worm’ làm người ta liên tưởng đến virus Về chất robot chương trình duyệt thu thập thơng tin từ site theo giao thức web Những trình duyệt thơng thường khơng xem robot thiếu tính chủ động, chúng duyệt web có tác động người 1.2 Bộ lập mục – Index Hệ thống lập mục hay gọi hệ thống phân tích xử lý liệu, thực việc phân tích, trích chọn thơng tin cần thiết (thường từ đơn , từ ghép , cụm từ quan trọng) từ liệu mà robot thu thập tổ chức thành sở liệu riêng để tìm kiếm cách nhanh chóng, hiệu Hệ thống mục danh sách từ khoá, rõ từ khoá xuất trang nào, địa LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 1.3 Bộ tìm kiếm thơng tin – Search Engine Search engine cụm từ dùng toàn hệ thống bao gồm thu thập thông tin, lập mục & tìm kiếm thơng tin Các hoạt động liên tục từ lúc khởi động hệ thống, chúng phụ thuộc lẫn mặt liệu độc lập với mặt hoạt động Search engine tương tác với user thơng qua giao diện web, có nhiệm vụ tiếp nhận & trả tài liệu thoả yêu cầu user Nói nơm na, tìm kiếm từ tìm kiếm trang mà từ câu truy vấn (query) xuất nhiều nhất, ngoại trừ stopword (các từ thông dụng mạo từ a, an, the,…) Một từ xuất nhiều trang trang chọn để trả cho người dùng Và trang chứa tất từ câu truy vấn tốt trang khơng chứa từ Ngày nay, hầu hết search engine hỗ trợ chức tìm nâng cao, tìm từ đơn, từ ghép, cụm từ, danh từ riêng, hay giới hạn phạm vi tìm kiếm đề mục, tiêu đề, đoạn văn giới thiệu trang web,… Ngồi chiến lược tìm xác theo từ khố, search engine cịn cố gắng ‘ hiểu ‘ ý nghĩa thực câu hỏi thông qua câu chữ người dùng cung cấp Điều thể qua chức sửa lỗi tả, tìm hình thức biến đổi khác từ Ví dụ : search engine tìm từ speaker, speaking, spoke người dùng nhập vào từ speak Nguyên lý hoạt động Search engine điều khiển robot thu thập thông tin mạng thông qua siêu liên kết ( hyperlink ) Khi robot phát site mới, gởi tài liệu (web LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com page) cho server để tạo sở liệu mục phục vụ cho nhu cầu tìm kiếm thơng tin Bởi thơng tin mạng thay đổi nên robot phải liên tục cập nhật site cũ Mật độ cập nhật phụ thuộc vào hệ thống search engine Khi search engine nhận câu truy vấn từ user, tiến hành phân tích, tìm sở liệu mục & trả tài liệu thoả yêu cầu LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Chương 2: BỘ THU THẬP THÔNG TIN – ROBOT Ứng dụng Robot Robot thường sử dụng cho mục đích sau : 1.1 Phân tích, thống kê – Statistical Analysis Robot dùng để đếm số lượng web server, số tài liệu trung bình server, tỉ lệ dạng file khác nhau, kích thước trung bình trang web, độ kết dính, … 1.2 Duy trì siêu liên kế - Maintenance Một khó khăn việc trì siêu liên kết liên kết với trang bị hỏng (dead links) trang bị thay đổi chí bị xóa Thật khơng may chưa có chế cảnh báo trì thay đổi Trên thực tế tác giả nhận tài liệu chứa liên kết hỏng, họ thông báo cho nhau, độc giả thông báo cho họ email Một số robot, chẳng hạn MOMspider trợ giúp tác giả phát liên kết hỏng trì cấu trúc siêu liên kết nội dung trang web Chức lặp lại liên tục tài liệu cập nhật, nhờ vấn đề xảy giải nhanh chóng 1.3 Ánh xạ địa web - Mirroring Mirroring kỹ thuật phổ biến việc trì kho liệu FPT Một ánh xạ (mirror) chép toàn cấu trúc thư mục thường xuyên cập LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com nhật file bị thay đổi Điều cho phép nhiều người truy xuất nguồn liệu, giảm số liên kết bị thất bại, nhanh chi phí so với truy cập trực tiếp vào site thực chứa liệu 1.4 Phát tài nguyên – Resource Discovery Có lẽ ứng dụng thú vị robot dùng để phát tài ngun Con người khơng thể kiểm sốt khối lượng thông tin khổng lồ môi trường mạng Robot giúp thu thập tài liệu, tạo trì sở liệu, phát xố bỏ liên kết hỏng có, kết hợp với cơng cụ tìm kiếm cung cấp thơng tin cần thiết cho người 1.5 Kết hợp công dụng trên- Combined uses Một robot đảm nhận nhiều chức Ví dụ RBSE Spider [4] vừa thống kê số lượng tài liệu thu vừa tạo sở liệu Tuy nhiên ứng dụng ỏi Robot mục – Robot Indexing Trong q trình thu thập thơng tin phục vụ cho lập mục, ta cần giải vấn đề sau : Một : Trong môi trường mạng, robot lấy thông tin từ site Vậy robot site ? Điều hoàn toàn phụ thuộc vào robot Mỗi robot khác có chiến lược khác Thường robot viếng thăm site phổ biến site có nhiều liên kết dẫn đến Hai : Ai cung cấp địa site cho robot ? LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Có nguồn : Robot nhận URL ban đầu từ user Robot phân tích trang web để lấy URL mới, đến lượt URL trở thành địa đầu vào cho robot Quá trình lặp lại liên tục Ba : Chọn liệu tài liệu để lập mục ? Quyết định chọn liệu tài liệu hoàn tồn phụ thuộc vào robot, thường từ liệt kê sau xem quan trọng : ¾ Ở góc cao tài liệu ¾ Trong đề mục ¾ Được in đậm (inktomi) ¾ Trong URL ¾ Trong tiêu đề (quan trọng) ¾ Trong phần miêu tả trang web (description) ¾ Trong thẻ dành cho hình ảnh (ALT graphisc) ¾ Trong thẻ chứa từ khóa ¾ Trong text liên kết Một số robot lập mục tiêu đề, số đoạn văn toàn tài liệu (full text) Một số khác lại lập mục thẻ META(META tags) thẻ ẩn, nhờ tác giả trang web quyền ấn định từ khố cho tài liệu Tuy nhiên chức bị lạm dụng nhiều thẻ META khơng cịn giữ giá trị ban đầu chúng LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Các chiến thuật thu thập liệu [II.1] Trước trang web đánh mục, tất trang web phải lấy máy robot Để lấy tất trang web, robot phải có chiến thuật Từ số trang web có sẵn, robot lọc danh sách liên kết, từ dị tìm trang khác Có chiến thuật tìm kiếm Heuristic sau : tìm kiếm theo chiều sâu, tìm kiếm theo chiều rộng tìm kiếm ngẫu nhiên 3.1 Chiến thuật tìm kiếm theo chiều sâu Từ danh sách chứa liên kết cần duyệt, thực bước sau : (1) Cho danh sách = {trang đầu tiên} (2) Lấy trang danh sách Nếu có qua (3) Nếu khơng qua (5) (3) Trang xét tới chưa ? Nếu rồi, quay lại (2) Nếu chưa, qua (4) (4) Đánh dấu tới Phân tích tìm xem liên kết có trang khơng? (4a) Nếu có, thêm liên kết vào đầu danh sách Quay lại (4) (4b) Nếu không, quay lại (2) (5) Kết thúc LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 3.2 Chiến thuật tìm kiếm theo chiều rộng Từ danh sách chứa liên kết cần duyệt, thực bước sau : (1) Cho danh sách = {trang đầu tiên} (2) Lấy trang danh sách Nếu có qua (3) Nếu không qua (5) (3) Trang xét tới chưa ? Nếu rồi, quay lại (2) Nếu chưa, qua (4) (4) Đánh dấu tới Phân tích tìm xem liên kết có trang khơng? (4a) Nếu có, thêm liên kết vào cuối danh sách Quay lại (4) (4b) Nếu không, quay lại (2) (5) Kết thúc 3.3 Chiến thuật tìm kiếm theo ngẫu nhiên Từ danh sách chứa liên kết cần duyệt, thực bước sau : (1) Cho danh sách = {trang đầu tiên} (2) Lấy ngẫu nhiên trang danh sách Nếu có qua (3) Nếu khơng qua (5) (3) Trang xét tới chưa ? LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Tìm hiểu Search Engine xây dựng ứng dụng minh hoạ cho Search Engine tiếng Việt 2.1.3 Tạo StartUrl : ¾ Nhập địa URL vào textbox URL ¾ Nhập chuỗi mô tả URL textbox Title ¾ Giới hạn phạm vi thu thập thông tin StartUrl cách định độ sâu liên kết chọn kiểu ràng buộc StartUrl Depth link Boundaries Hình 10.5Màn hình chứa thơng tin StartUrl 128 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Tìm hiểu Search Engine xây dựng ứng dụng minh hoạ cho Search Engine tiếng Việt Hình 10.6Màn hình sau thêm số StartUrl 129 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Tìm hiểu Search Engine xây dựng ứng dụng minh hoạ cho Search Engine tiếng Việt Hình 10.7Màn hình thể trạng thái xử lý StartUrl thứ 130 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Tìm hiểu Search Engine xây dựng ứng dụng minh hoạ cho Search Engine tiếng Việt 2.1.4 Xem từ điển mục Các loại từ Nhảy đến vị trí từ từ điển có Goi dialog ManageItem hiển thị từ Về trang trước Về trang đầu Gọi dialog ManageItem Đến trang cuối Đến trang sau Đến trang số Hình 10.8 Màn hình xem từ điển mục 131 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Tìm hiểu Search Engine xây dựng ứng dụng minh hoạ cho Search Engine tiếng Việt 2.1.5 Quản lý mục từ 2.1.5.a xem mục từ Từ Từ loại Hình 10.9Màn hình xem thơng tin từ từ điển mục 2.1.5.b Thêm mục từ Hình 10.10Màn hình thêm từ vào từ điển mục 132 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Tìm hiểu Search Engine xây dựng ứng dụng minh hoạ cho Search Engine tiếng Việt 2.1.5.c Xoá mục từ Hình 10.11Màn hình xóa từ khỏi từ điển mục 2.1.5.d Cập nhật mục từ Hình 10.12 Màn hình cập nhật mục từ từ điển mục 133 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Tìm hiểu Search Engine xây dựng ứng dụng minh hoạ cho Search Engine tiếng Việt 2.2 Giao diện tìm kiếm Hình 10.13Giao diện tìm kiếm thơng tin người dùng 134 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Tìm hiểu Search Engine xây dựng ứng dụng minh hoạ cho Search Engine tiếng Việt Hình 10.14Màn hình kết 135 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Tìm hiểu Search Engine xây dựng ứng dụng minh hoạ cho Search Engine tiếng Việt Đánh giá 3.1 Ưu điểm Về luận văn thực tốt nội dung đề đạt số kết định : Luận văn trình bày sở lý thuyết nguyên lý vận hành hệ thống search engine Tìm hiểu phương thức chiến lược việc thiết kế module cụ thể cho hệ thống Tìm hiểu vấn đề đặc trưng hệ thống thu thập thông tin hoạt động môi trường mạng Đề xuất vài giải pháp xử lý khó khăn webrobot Tìm hiểu vấn đề đặc trưng hệ thống search engine tiếng Việt Đề xuất vài giải pháp đơn giản để xử lý vấn đề khó khăn tiếng Việt Tìm hiểu hoạt động, thống kê số đặc trưng cách sử dụng số search engine thơng dụng giới Việt Nam Tìm hiểu Semantic Search Engine Xây dựng ứng dụng thử nghiệm cho hệ thống search engine tiếng Việt với kết đạt sau: Xây dựng công cụ đảm nhận việc thu thập trang web cách tự động với nhiều tiến trình đồng hành nhiều tuỳ chọn tuỳ chọn qúa trình xử lý 136 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Tìm hiểu Search Engine xây dựng ứng dụng minh hoạ cho Search Engine tiếng Việt Xây dựng công cụ lập tự động cho từ tiếng Anh, tiếng Việt có dấu khơng dấu Hỗ trợ việc cập nhật, thêm, xố, sửa từ vào từ điển Xử lý hậu tố trình lập mục tiếng Anh Xử lý bỏ dấu không đồng Tiếng Việt không dấu Thời gian xử lý yêu cầu tìm kiếm nhanh kết tương đối phù hợp Giao diện đẹp, thân thiện, dễ sử dụng 3.2 Khuyết điểm Tuy nhiên ứng dụng mang tính chất minh hoạ nên cịn số hạn chế cần phải cải tiến : Chưa có thời gian thử nghiệm ứng dụng môi trường mạng Chưa tóm tắt nội dung Website trả Hướng phát triển 4.1 Đối với module : Bộ thu thập thông tin Hỗ trợ nhiều hệ quản trị CSDL khác Lập lịch download project cách tự động 137 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Tìm hiểu Search Engine xây dựng ứng dụng minh hoạ cho Search Engine tiếng Việt Xác định font file css mà trang HTML tham chiếu tới Phân tích trang HTML không dạng text để lấy thông tin cho lập mục Bộ lập mục Hoàn chỉnh phần xử lý font chữ Xử lý thêm nhiều hậu tố khác Sử dụng cách tổ chức, lưu trữ xử lý liệu khác: bảng băm… Lập lịch cho việc lập mục file download cách tự động Bộ tìm kiếm thơng tin Hỗ trợ thêm nhiều tốn tử tuỳ chọn tìm kiếm Cải tiến kết tìm kiếm dựa vào kỹ thuật gom nhóm nhật ký người sử dụng (user log) dùng thư mục web 4.2 Đối với toàn luận văn: Cho phép ứng dụng chạy mơi trường Web Tăng tính hiệu quả, tăng tốc độ tìm kiếm, tăng tính ổn định tính bảo mật chương trình Tóm tắt nội dung Website trả Hỗ trợ nhiều việc tìm kiếm nâng cao: theo tiêu đề, theo ngày cập nhật, theo kiểu file… 138 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Tìm hiểu Search Engine xây dựng ứng dụng minh hoạ cho Search Engine tiếng Việt DANH SÁCH CÁC BẢNG Bảng 2.1 :Ví dụ chuẩn loại trừ robot dùng file robot.txt 14 Bảng 2.2 : Bảng thông tin META tag chuẩn loại trừ robot 14 Bảng 2.3 : Bảng giá trị cờ thuộc tính Content META tag 15 Bảng 4.1 : Các từ khóa giúp tối ưu câu truy vấn 44 Bảng 5.1 : Bảng hướng dẫn nhanh cách sử dụng search engine phổ biến giới 48 Bảng 5.2 : Sơ lược đặc trưng số search engine thông dụng internet 52 Bảng 5.3 : Các meta-search engine thông dụng internet 53 Bảng 5.4 : Các hệ thống thư mục theo chủ đề thông dụng internet 54 Bảng 5.5 : Bảng miêu tả từ khố sử dụng việc tìm kiếm 63 Bảng 5.6 : Ví dụ tìm kiếm thơng tin Netnam 65 Bảng 6.1 : Bảng URL 70 Bảng 7.1 : Cấu trúc URLInfo 74 Bảng 7.2 : Cấu trúc StartURLInfo 74 Bảng 7.3 : Cấu trúc FileRetrieval 75 Bảng 7.4 : Cấu trúc ProjectInfo 78 Bảng 7.5 : Danh sách thẻ thường dùng tạo tạo liên kết 85 Bảng 7.6: Bảng tóm tắt so sánh chức ứng dụng cũ 96 Bảng 8.1: Cấu trúc trang cấp cho mục từ tập tin nghịch đảo 103 139 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Tìm hiểu Search Engine xây dựng ứng dụng minh hoạ cho Search Engine tiếng Việt DANH SÁCH CÁC HÌNH VẼ Hình 3.1 Lưu đồ xử lý cho hệ thống lập mục 19 Hình 5.1 Sơ đồ hệ thống Search Engine Netnam 57 Hình 7.1 Lưu đồ thuật toán cờ trạng thái 86 Hình 7.2 Lưu đồ thuật tốn dựa vào file 88 Hình 7.3 Cây liên kết 93 Hình 8.1 Tập tin nghịch đảo 102 Hình 8.2 Cây từ điển n-phân 106 Hình 8.3 Lưu đồ nhận dạng bảng mã 111 Hình 9.1 Lưu đồ xử lý câu truy vấn 114 Hình 10.1 Giao diện quản trị 124 Hình 10.2Màn hình thể số thông tin chung project 125 Hình 10.3Các tuỳ chọn thu thập liệu project 126 Hình 10.4Màn hình sửa chữa thơng tin thêm dạng file 127 Hình 10.5Màn hình chứa thơng tin StartUrl 128 Hình 10.6Màn hình sau thêm số StartUrl 129 Hình 10.7Màn hình thể trạng thái xử lý StartUrl thứ 130 Hình 10.8 Màn hình xem từ điển mục 131 Hình 10.9Màn hình xem thơng tin từ từ điển mục 132 Hình 10.10Màn hình thêm từ vào từ điển mục 132 Hình 10.11Màn hình xóa từ khỏi từ điển mục 133 Hình 10.12 Màn hình cập nhật mục từ từ điển mục 133 Hình 10.13Giao diện tìm kiếm thông tin người dùng 134 Hình 10.14Màn hình kết 135 140 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Tìm hiểu Search Engine xây dựng ứng dụng minh hoạ cho Search Engine tiếng Việt TÀI LIỆU THAM KHẢO I Sách, ebook: [I.1] Gerard Salton, Michael J.McGill, Introduction to Modern Information Retrieval [I.2] C.J van Rijsbergen , Department of Computing Science University of Glasgow, Information Retrieval II Luận văn, luận án [II.1] Huỳnh Thụy Bảo Trân Luận án thạc sĩ khoa học Nghiên cứu số mô hình xây dựng thử nghiệm search engine Tiếng Việt Người hướng dẫn khoa học : GS.TS.Hoàng Văn Kiếm [II.2] Đoàn Hữu Quang Vinh Luận văn cử nhân tin học Xây dựng cơng cụ hỗ trợ q trình tiền xử lý cho hệ thống search engine GVHD : Huỳnh Thụy Bảo Trân [II.3] Bùi Ngọc Tuấn Anh, Trần Nguyễn Hoàng Phương Luận văn cử nhân tin học Nghiên cứu số thuật tốn tra cứu thơng tin Internet cài đặt thử nghiệm GVHD: Hồ Bảo Quốc [II.4] Nguyễn Hải Quyền, Lương Thị Hoàng Thuý Luận văn cử nhân tin học Tạo từ khoá cho văn tiếng Việt GVHD: Chu Tất Bích San 141 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Tìm hiểu Search Engine xây dựng ứng dụng minh hoạ cho Search Engine tiếng Việt III Bài báo [III.1] Dong Thi Bich Thuy, Ho Bao Quoc, Marie-France Bruandet, Jean-Pierre Chevallet, An approach to Vietnamese Information Retrival IV Website [IV.1] http://citeseer.nj.nec.com [IV.2] Conceptual Graph Home Page http://www.cs.uah.edu/~delugach/CG [IV.3] CYC ontology http://www.cyc.com [IV.4] Search Engine Glossary http://www.cadenza.org/search_engine_terms [IV.5] W3C SemanticWeb Activity http://www.w3.org/2001/sw [IV.6] WordNet ftp://clarity.princeton.edu/pub/wordnet/ Princeton University [IV.7] http://www.robotstxt.org/wc/thread-or-treat.html [IV.8] http://infopeople.org/search/chart.html [IV.9] http://infopeople.org/search/guide.html [IV.10] http://www.vinaseek.com [IV.11] http://www.panvietnam.com [IV.12] http://www.netnam.vn [IV.13 http://monash.com 142 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com ... luanvanchat@agmail.com Tìm hiểu Search Engine xây dựng ứng dụng minh hoạ cho Search Engine tiếng Việt Chương 5: MỘT SỐ SEARCH ENGINE THÔNG DỤNG TRÊN THẾ GIỚI VÀ VIỆT NAM Vài nét đặc trưng số search engine thông dụng. .. luanvanchat@agmail.com Tìm hiểu Search Engine xây dựng ứng dụng minh hoạ cho Search Engine tiếng Việt 3.2.1.b Từ: Có nhiều quan niệm từ tiếng Việt , từ nhiều quan niệm từ tiếng Việt khác thấy đặc... download : add luanvanchat@agmail.com Tìm hiểu Search Engine xây dựng ứng dụng minh hoạ cho Search Engine tiếng Việt 2.2 Những khó khăn tìm theo từ khố Search engine thường gặp rắc rối với từ đồng

Ngày đăng: 01/11/2022, 16:01

Tài liệu cùng người dùng

Tài liệu liên quan