Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 50 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
50
Dung lượng
1,09 MB
Nội dung
i ii BỘ GIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC ĐÀ NẴNG LỜI CAM ĐOAN Tôi xin cam ñoan ñây công trình nghiên cứu riêng hướng dẫn khoa học PGS TS Lê Văn Sơn Các số liệu kết nêu luận trung thực chưa ñược công bố công trình khác LÊ VĂN TIÊN Người cam ñoan ỨNG DỤNG HỆ PHÂN TÁN ĐỂ TỐI ƯU Lê Văn Tiên THỜI GIAN XỬ LÝ CHO MÁY TÌM KIẾM LUẬN VĂN THẠC SĨ KỸ THUẬT ĐÀ NẴNG – Năm 2011 iii MỤC LỤC iv 2.2.1 Mô hình client – server 33 2.2.2 Mô hình RPC(Remote Procedure Call: gọi thủ tục từ xa) .34 LỜI CAM ĐOAN i 2.2.3 Truyền thông ñiệp (MOM) 36 MỤC LỤC iii 2.2.4 Truyền thông hướng dòng (SOM) 37 2.2.5 Truyền thông ña ñiểm (MultiCast) 37 DANH MỤC CÁC TỪ VIẾT TẮT vi DANH MỤC CÁC BẢNG vii 2.3 Đồng hóa tiến trình 38 DANH MỤC CÁC HÌNH vii 2.3.1 Đặt vấn ñề 38 MỞ ĐẦU 2.3.2 Các giải pháp ñồng tiến trình 39 CHƯƠNG 1: TỔNG QUAN VỀ MÁY TÌM KIẾM 2.3.3 Kết luận 47 1.1 Giới thiệu số máy tìm kiếm thông dụng CHƯƠNG 3: ỨNG DỤNG HỆ PHÂN TÁN TỐI ƯU THỜI GIAN XỬ LÝ 1.2 Kiến trúc chế hoạt ñộng máy tìm kiếm CHO MÁY TÌM KIẾM 48 1.3 Bộ thu thập thông tin – Crawler 10 3.1 Phân tích máy tìm kiếm hệ tập trung 48 1.3.1 Các thủ thuật tìm kiếm Crawler 11 3.1.1 Phân tích hoạt ñộng máy tìm kiếm hệ tập trung 48 1.3.2 Tính bắt buộc crawler phải tuân theo 13 3.1.2 Một số hạn chế máy tìm kiếm hệ tập trung 48 1.3.3 Tính crawler nên tuân theo 13 3.1.3 Các yếu tố ảnh hưởng ñến thời gian xử lý máy tìm kiếm .49 1.3.4 Vấn ñề cần giải Crawler 14 3.1.4 Hướng giải vấn ñề 50 1.3.5 Xây dựng Crawler 15 1.3.6 Vấn ñề cần tránh 17 3.2.1 Phương thức hoạt ñộng tổng thể hệ thống .52 1.4 Bộ lập mục – Index 18 3.2.2 Phương thức liên kết trạm hệ thống .53 1.5 Bộ tìm kiếm thông tin – Search Engine 20 3.2.3 Phương thức hoạt ñộng trạm hệ thống 54 3.2.4 Phương thức lưu trữ file index hệ thống 57 1.5.1 Tìm kiếm theo từ khóa 20 1.5.2 Tìm theo ngữ nghĩa 21 3.2 3.3 Đề xuất phương thức hoạt ñộng máy tìm kiếm hệ phân tán 52 Các vấn ñề phát sinh cách giải .58 1.6 Cấu trúc lưu trữ liệu index files .22 3.3.1 Chọn lựa server xử lý 58 1.7 Kết luận .23 3.3.2 Vấn ñề ñồng tiến trình 61 CHƯƠNG 2: HỆ PHÂN TÁN CHO MÁY TÌM KIẾM 25 3.3.3 Vấn ñề cố ñường truyền 64 Định nghĩa tính chất hệ phân tán .25 3.3.4 Vấn add, remove trạm 66 2.1 2.1.1 Định nghĩa 25 2.1.2 Tính chất 27 3.4.1 Danh sách tác nhân hệ thống 69 Truyền thông hệ phân tán 32 3.4.2 Sơ ñồ tác nhân (UC) .70 2.2 3.4 Phân tích hệ thống .69 v 3.4.3 Biểu ñồ .72 3.4.4 Biểu ñồ hoạt ñộng (activity) 74 3.4.5 Sơ ñồ lớp 77 3.4.6 Các bảng liệu hệ thống file index .77 3.4.7 Xây dựng hệ thống 79 3.4.8 Đề mô chương trình .84 vi DANH MỤC CÁC TỪ VIẾT TẮT SE Máy tìm kiếm DS Hệ phân tán DNS Hệ thống tên miền TÀI LIỆU THAM KHẢO 89 MON Truyền thông hướng thông ñiệp QUYẾT ĐỊNH GIAO ĐỀ TÀI LUẬN VĂN THẠC SĨ (BẢN SAO) SOM Truyền thông thướng dòng RPC Gọi thủ tục từ xa MDR Nhịp trôi lớn ñồng hồ WWV Thời gian quốc tế UTC Giờ phối hợp quốc tế P Tiến trình KẾT LUẬN .87 vii viii , DANH MỤC CÁC BẢNG DANH MỤC CÁC HÌNH Hình 1.1 Bảng xếp hạng search engine năm 2009 .1 Bảng 1.1 Bảng xếp hạng search engine năm 2009 Bảng 3.1 Bảng tiêu chí tối ưu máy tìm kiếm 50 Hình 1.2 Giao diện google search engine Hình 1.3 Giao diện xalo.vn search engine .8 Hình 1.4 Mô hình hoạt ñộng máy tìm kiếm Bảng 3.2 Bảng tiêu chí chọn server tối ưu 59 Hình 1.5 Biểu ñồ trạng thái liên kết 17 Bảng 3.3 Bảng phân tích ñộ rỗi khác server hệ 59 Hình 1.6 Quá trình ñánh mục .18 Bảng 3.4 Bảng liệu tbl_document 77 Hình 1.7 Các bước phân tích tài liệu 19 Hình 1.8 Cấu trúc lưu trữ files index [12] 23 Bảng 3.5 Bảng từ khóa tbl_key_word .78 Hình 1.9 Cấu trúc liệu inverted index [11] 23 Bảng 3.6 Bảng chủ ñề tbl_topics .78 Hình 2.1 Hệ thống máy ñơn .25 Bảng 3.7 Bảng loại liệu tbl_data_type 78 Hình 2.2 Các thực thể hệ phân tán .26 Hình 2.3 Mô hình Client – Server 33 Hình 2.4 Mô hình Synchronous RPC 35 Hình 2.5 Mô hình Asynchronos RPC .36 Hình 2.6 Mô hình MOM 36 Hình 2.7 Mô hình multicast many-to-many .38 Hình 2.8 Mô hình trật tự phần 44 Hình Thứ tự kiện tiến trình trạm phát nhận 45 Hình 10 Các thời gian ñánh dấu Lamport (Lamport timestamps) 46 Hình 11 Ví dụ thời gian logic Lamport 47 Hình Mô hình hoạt ñộng pha xử lý yêu cầu người dùng 50 Hình Các bước hoạt ñộng máy tìm kiếm ứng dụng hệ phân tán 51 Hình 3.3 Mô hình hoạt ñộng tổng thể máy tìm kiếm ứng dụng hệ phân tán 52 Hình Mô hình liên kết trạm hệ thống 54 Hình Mô hình hoạt ñộng trạm trạm hệ thống .54 Hình Thuật toán xử lý crawler 56 Hình Mô hình lưu trữ hệ thống files index trạm .57 ix Hình Hệ thống index file theo mô hình 58 MỞ ĐẦU Hình Sơ ñồ chọn server tối ưu 60 Hình 10 Mô hình không ñồng hai tiến trình hai trạm 61 Hình 11.Kết sau ñồng tiến trình theo thuật toán lamport .63 Hình 12 Thuật toán kiểm tra tình trạng URL 64 Hình 13 Mô hình cố ñường truyền 65 Hình 14 Cấu trúc giao tiếp 2PC tuyến tính 66 Hình 15 Thuật toán xử lý trạm remove khỏi hệ .68 Hình 16 Thuật toán xử lý việc add trạm 69 Hình 17 biểu ñồ UC người sử dụng 70 Hình 18 Biểu ñồ UC admin 71 Hình 19 Biểu ñồ xử lý yêu cầu người dùng .72 Hình 20 Biểu ñồ truy tìm thông tin tự ñộng .73 Hình 21 Biểu ñồ lập mục tự ñộng 73 Lý chọn ñề tài Hơn 40 năm kể từ internet ñời cho ñến nay, mang lại nhiều tiện ích hữu dụng cho người sử dụng ñiển hệ thống thư ñiện tử (email), trò chuyện trực tuyến (chat), máy truy tìm liệu (search engine), dịch vụ thương mại, chuyển ngân dịch vụ y tế giáo dục Đi kèm với bùng nổ dịch vụ internet dùng nổ số lượng website internet, số lượng website ñã lên số hàng tỉ không ngừng tăng lên theo thời gian, ñứng ñầu tên miền có ñuôi com, theo thống kê ñã lên tới 84.000.000 tên miền Tên miền có ñuôi ñã lên tới 140.000 tên miền Chính bùng nổ số lượng website internet ñã bổ sung cho kho thông tin ngày khổng lồ ngày kiến thức lĩnh vực ñều tìm thấy internet Hình 22 Biểu bồ hoạt ñộng xử lý yêu cầu người dùng 74 Vấn ñề ñặt ñây làm ñể tìm kiếm mẫu thông tin kho Hình 23 Biểu ñồ hoạt ñộng truy tìm thông tin tự ñộng 75 tàng thông tin khổng lồ cách xác nhanh nhất, lời giải cho câu Hình 24 Biểu ñồ hoạt ñộng lập mục tự ñộng 76 hỏi ñó sử dụng máy tìm kiếm (search engine) nhiều nhà dịch vụ ñã Hình 25 Mô hình quan hệ bảng liệu 79 sử dụng thành công, ñiển hình như: Google, Yahoo, Mirosoft… Máy tìm kiếm ñã xuất ñược ñưa vào sử dụng từ sớm, ñể tối ưu hóa cho thời gian trả lời kết tìm kiếm nhanh xác chuyên gia ñang ngày hoàn thiện Trong thời gian gần ñây nhờ phát triển vượt bậc lĩnh vực phần cứng CNTT truyền thông, nhờ mà giải pháp cho ứng dụng CNTT ñược ñời ñang ñược chuyên gia ñánh giá cao lợi ích mà mó mang lại ñó “Hệ phân tán - Distributed Systems” Hệ phân tán hệ thống xử lý thông tin bao gồm nhiều xử lý vi xử lý nằm vị trí khác ñược liên kết với thông qua phương tiện viễn thông ñiều khiển thống hệ ñiều hành nhằm tăng tốc ñộ 3 Đối tượng phạm vi nghiên cứu bình quân tính toán xử lý, cải thiện tình trạng sẵn sàng loại tài nguyên, tăng ñộ an toàn cho liệu, ña dạng hóa loại hình dịch vụ tin học, bảo ñảm tính toàn vẹn thông tin - Nghiên cứu mô hình hoạt ñộng tổng thể máy tìm kiếm số giải pháp tìm kiếm thông dụng Xuất phát từ nhu cầu tiền ñề trên, việc tối ưu hóa máy tìm kiếm thông - Nghiên cứu hệ phân tán ña server tin, mà ñặc biệt tối ưu thời gian tìm kiếm thông tin máy tìm kiếm vấn ñề + Xây dựng hệ phân tán ña server có ý nghĩa giai ñoạn CNTT tương lai Chính chọn + Lưu trữ, truy xuất liệu hệ phân tán ña server hướng nghiên cứu áp dụng “hệ phân tán” ñể tối ưu thời gian xử lý cho máy tìm kiếm lấy tên ñề tài “ứng dụng hệ phân tán ñể tối ưu thời gian xử lý cho - Nghiên cứu, ứng dụng hệ phân tán vào máy tìm kiếm máy tìm kiếm” - Nghiên cứu áp dụng ñịnh tuyến ưu tiên yêu cầu (Request) người dùng Mục ñích nghiệm vụ nghiên cứu ñề tài - Ngôn ngữ lập trình Java, Lucene Mục ñích ñề tài nghiên cứu áp dụng hệ phân tán vào máy tìm kiếm - Hệ quản trị sở liệu My SQL nhằm giải yêu cầu ñặt sau: Giả thiết nghiên cứu Một: Giảm thời gian tìm kiếm cho máy tìm kiếm: có nguyên nhân - Hiểu ñược trình hoạt ñộng số giải pháp xây dựng máy SE + Giảm tải lượng truy cập vào tài nguyên chung + Rút ngắn khoảng cách vật lý người dùng server - Hiểu ñược chất hệ phân tán trình trao ñổi thông tin thành phần hệ + Tăng tốc ñộ tính toán – xử lý Hai: Tăng ñộ an toàn cho liệu cho máy tìm kiếm: có nguyên nhân - Hiểu thêm ngôn ngữ lập trình Java, Lucene hệ quản trị sở liệu My SQL - Hiểu vận dụng ñược giải pháp ứng dụng hệ phân tán ñể tối ưu thời gian + Dữ liệu ñược ñặt nhiều server khác có khả phục hồi + Đảm bảo tính ñồng liệu server tìm kiếm cho máy SE Phương pháp nghiên cứu + Đảm bảo ñược tính toàn vẹn liệu - Thu thập, tìm hiểu, phân tích tài liệu thông tin có liên quan ñến luận Ba: Đảm bảo hệ thống hoạt ñộng thông suốt: có nguyên nhân + Tính co giãn hệ thống cao + Tính chịu lỗi hệ thống cao + Tính mở hệ thống cao văn - Phân tích, nắm rõ trình hoạt ñộng máy tìm kiếm - Nắm rõ cách xây dựng, truy xuất lưu trữ liệu hệ phân tán - Phân tích, tìm hướng giải cho vấn ñề nảy sinh áp dụng hệ phân CHƯƠNG 1: TỔNG QUAN VỀ MÁY TÌM KIẾM tán vào máy SE - Triển khai xây dựng chương trình chạy hệ phân tán Máy tìm kiếm (tiếng Anh: search engine), hay ñược gọi với nghĩa rộng công cụ tìm kiếm (search tool), nguyên thuỷ phần mềm nhằm tìm - Triển khai xây dựng chương trình chạy hệ tập trung trang web mạng Internet có nội dung theo yêu cầu người dùng dựa vào - Kiểm thử, ñánh giá kết rút kết luận thông tin mà chúng có Trữ lượng thông tin công cụ tìm kiếm thực chất Ý nghĩa khoa học thực tiễn ñề tài - Nghiên cứu, nắm vững phương pháp thực máy tìm kiếm loại sở liệu (database) cực lớn Việc tìm tài liệu dựa từ khóa (keyword) ñược người dùng gõ vào trả danh mục trang Web có nội dung chứa từ khóa mà tìm ñược - Nghiên cứu, nắm vững chất phương pháp hoạt ñộng hệ phân tán Máy tìm kiếm hoạt ñộng dựa vào chính: ña server - Bộ thu thập thông tin – Robot - Nghiên cứu, xây dựng mô hình lưu trữ thông tin cho máy tìm kiếm - Bộ lập mục – Index - Giảm ñáng kể thời gian thực cho máy tìm kiếm - Bộ tìm kiếm thông tin – Search Engine - Tăng ñộ an toàn cho liệu - Đảm bảo hệ thống thông suốt 1.1 Giới thiệu số máy tìm kiếm thông dụng - Mang lại lợi ích ứng dụng lớn Bảng 1.2 Bảng xếp hạng search engine năm 2009 ñể thu thập tài liệu web ñể xây dựng sở liệu ñược sử dụng Thế giới công cụ tìm kiếm google.com Các Googlebot sử dụng quy trình dựa thuật toán xác ñịnh trang web ñể thu thập liệu, tần số số lượng trang ñể tìm nạp từ trang web Danh sách trang web toàn diện ñể xác ñịnh liên kết ñến trang khác Bộ lập mục google Đánh mục trình quét qua trang web tạo số có sử dụng Google ñể cho kết bạn tìm kiếm Thực tế, robot phân tích ñưa mục tất từ họ xem vị trí họ Và việc trang web có ñược Google ñánh hay không mối quan tâm hàng ñầu nhà thiết kế web Các loại liệu google tìm kiếm Không hẳn vậy, Google trích xuất thông tin mục nhiều loại tập tin khác nhau: PDF, PS (Adobe PostScript), Excel (xls), tài liệu, văn MW, DOC, WRI, RTF, ANS, TXT, thuyết trình PowerPoint (ppt) tập tin, Microsoft Hình 1.1 Giao diện google search engine Google máy tìm kiếm (Search Engine) ñang ñược ñánh giá “vô ñịch” Internet, với 4,2 tỷ trang Web ñã ñược lập mục có tốc ñộ tìm Works (wks, wps, Wdb) swf Điều ñược thực ñể cung cấp cho Google nhiều kết hơn, thực kiếm cực nhanh Google không công cụ tìm kiếm ñược hầu hết người tế, trình thực tìm kiếm bạn thấy hiển thị số loại tập lướt Web sử dụng hỗ trợ tới 97 ngôn ngữ, ñây tiện ích tìm kiếm ñược tin khác html, ví dụ: file doc hay pdf nhúng vào nhiều website (một dịch vụ ñược Google cung cấp nhiều hình thức cho ñối tượng khác nhau) Các tìm kiếm google Google không ngừng tìm kiếm cập nhật trang ñể thêm vào mục bạn Có chương trình phụ trách vấn ñề ñược gọi robot hay bọ tìm kiếm (Googlebot) Các Googlebot ñược gọi chương trình tìm kiếm có nhiệm vụ Bộ pageRank google Google PageRank hệ thống có nhiệm vụ xếp hạng trang web, ñược phát triển Larry Page Sergey Brin thuộc Đại học Stanford Trong Google có nhiều kỹ sư làm việc ñể cải thiện mặt Google hàng ngày, PageRank tiếp tục ñóng vai trò trung tâm nhiều công cụ tìm kiếm web Google - Tìm kiếm Diễn ñàn: dịch vụ tìm kiếm cho phép người dùng tìm kiếm thông tin Việt Nam từ 100 diễn ñàn lớn Việt Nam xalo.vn - Tìm kiếm Ảnh: dịch vụ tìm kiếm hình ảnh số lượng 20 triệu hình ảnh ñược người dùng Việt Nam ñưa lên Internet - Tìm kiếm Blog: dịch vụ tìm kiếm cho phép người dùng tìm kiếm thông tin hầu hết mạng xã hội ñược cung cấp Việt Nam giới mà người Việt Nam hay sử dụng - Tìm kiếm Nhạc: dịch vụ tìm kiếm liệu Nhạc từ Website nghe nhạc trực tuyến lớn Việt Nam - Tìm kiếm Rao vặt: dịch vụ tổng hợp tìm kiếm thông tin rao vặt từ 20 Website mua bán rao vặt lớn Việt Nam Với dịch vụ cung cấp tính khác biệt cho dịch vụ, Xa Lộ ñang không ngừng ñược hoàn thiện ñể phục vụ tốt nhu cầu tìm kiếm người dùng Internet Việt Nam trở thành máy tìm kiếm tiếng Việt hàng ñầu Việt Nam Hình 1.2 Giao diện xalo.vn search engine 1.2 Kiến trúc chế hoạt ñộng máy tìm kiếm Xalo.vn Máy tìm kiếm (search engine) ñược Tinhvân Media phát triển với tham vọng Xalo.vn trở thành công cụ tìm kiếm tiếng Việt hàng ñầu Việt Nam Xalo.vn ñang cung cấp dịch vụ tìm kiếm bao gồm: - Tìm kiếm Web: dịch vụ tìm kiếm thông tin tổng hợp liệu gần 100 triệu trang văn tiếng Việt có Website Việt Nam - Tìm kiếm Tin tức: dịch vụ tổng hợp tin tức tìm kiếm thông tin liệu Crawler dạng tin tức ñược tổng hợp từ gần 70 trang tin ñiện tử hàng ñầu Việt Nam Hình 1.3 Mô hình hoạt ñộng máy tìm kiếm 10 Máy tìm kiếm chi thành phần Front-end phần Back-end - Front- end: Bao gồm giao diện người sử dụng (Search engine interface); xếp (ranking) xử lý yêu cầu người dùng (query parser) Khi người sử dụng gửi yêu cầu tìm kiếm mẫu thông tin, máy tìm kiếm phân tích yêu cầu gửi ñến server, server thực so khớp yêu cầu với liệu kho index files xếp kết tìm ñược theo thứ tự từ cao ñến ñộ xác, cuối hiển thị kết cho người dùng 11 • Phân tích nội dung, tìm liên kết, ñi theo liên kết • Theo dõi liên kết, tránh trùng lặp Có nhiều chế ñộ làm việc cho crawler thực nhiệm vụ truy tìm thông tin Các chế ñộ ñược phân biệt theo nhiều cách Các ñặc ñiểm phân biệt là: • Batch Mode • Incremental Mode Batch mode Crawler ñánh mục liên tục trang web không tải nội - Back-end: Bao gồm thu thập thông tin (Crawler) lập mục (indexer) dung ñể lưu trữ Cách nội dung ñược cập nhật phù hợp cho lượng trang web nhỏ có giới hạn Chẳng hạn mục tiêu crawler ñược ñịnh Bộ Crawler dựa vào robot tìm kiếm tự ñộng tìm kiếm thông tin internet chuyển thông tin qua indexer lập mục lưu vào kho liệu index files Các thành phần ñược phân tích cụ thể phần sau thực số website cụ thể ñấy Crawler có nhiệm vụ liên tục chạy qua wesiste ñể cập nhật nội dung Incremental Mode hoạt ñộng chế ñộ crawler không xóa nội dung lưu trữ Khi gặp tài liệu ñược cho ñã viếng thăm crawler tuân theo chiến lược cập nhật nội dung ñã ñược cài ñặt Ở chế ñộ crawler 1.3 Bộ thu thập thông tin – Crawler Từ hay nhiều liên kết ban ñầu, Crawler lên ñường thực công việc “lùng sục” Internet Crawler tải nội dung trang web từ liên kết ñã nhận ban ñầu truy xuất liên kết nằm nội dung trang Các liên kết ñược nạp vào trình ñiều khiển (Crawler Manager) Crawler Manager ñịnh liên kết ñược viếng thăm kế tiếp, Crawler Manager nạp chúng vào hàng ñợi ñể chờ xử lý Các liên kết ñược quản lý sở liệu ñể thuận tiện cho công việc cập nhật thông tin cần phải có kho lưu trữ tài liệu thật lớn • Breadth-first(Tìm kiếm theo chiều rộng) • Depth-first(Tìm kiếm theo chiều sâu) 1.3.1 Các thủ thuật tìm kiếm Crawler 1.3.1.1Chiến thuật tìm kiếm theo chiều sâu (Depth-first) Từ danh sách chứa liên kết cần duyệt, thực bước sau : Trong lần thực liên kết phải ñược truy cập lần ñể tăng khả hoạt ñộng tránh trùng lặp nội dung Một crawler ñi qua bốn bước bản: (1) Cho danh sách = {trang ñầu tiên} (2) Lấy trang ñầu tiên danh sách • Bắt ñầu từ hay nhiều liên kết * Nếu có qua (3) • Tải nội dung * Nếu không qua (5) 62 63 trạm gửi ñến, ñó url a chưa ñược ghi vào sở liệu trạm kết Khi nhận ñược thông ñiệp, trạm cập nhật số hiệu ñồng hồ logic cách result(a) =NO Điều dẫn tới trạm ñều ghi url a vào sở liệu lấy giá trị lớn số hiệu ñồng hồ logic trạm gởi số hiệu ñồng hồ logic mình Ti=max(Ti , Ck) Kết luận: Dữ liệu trạm bị trùng, không quán Điều này, dẫn tới Khi trạm nhận ñược ñầy ñủ thông ñiệp trả lời trạm, trạm so liệu bị dư thừa Nguyên nhân ñiều không ñồng sánh ñồng hồ logic với trạm khác, nhỏ trạm thực xử tiến trình trạm lý tiếp gởi thông báo cho trạm lại hủy việc xử lý 3.3.2.2Giải vấn ñề Trạm Trạm Trạm Phương pháp ñồng hóa tiến trình T1 (c,3,1,a) Vấn ñề ñược ñề cập bên tương tự toán bãi ñể xe [2, tr 157] toán người sản xuất – người tiêu thụ [2, tr 162] Việc không ñồng tiến (c,1,1,a) T2 (c,3,1,a) (c,1,1,a) T4 trình trạm hệ thống dẫn ñến vấn ñề sai lệch kết trình vận hành, mà nguyên nhân ñó thứ tự thực tiến trình không ñồng ñộ trễ thông ñiệp (trình bày mục 2.3.2) Giải vấn ñề giải ñồng hóa tiến trình (trình bày T3 T5 (r,3,2,a) (r,2,2,a) (r,1,3,a) (r,2,4,a) T6 T7 mục 2.3.2) Trong nội dung thông ñiệp ta ñính kèm thêm nhãn thời gian logic, ñịa T8 nguồn thông ñiệp dựa vào ñồng hồ logic ta xác ñịnh thông ñiệp T9 trạm ñược ưu tiên xử lý Thông ñiệp có ñồng hồ logic nhỏ thông ñiệp ñó ñược ưu tiên xử lý, thông ñiệp lại bị hủy Hình 11.Kết sau ñồng tiến trình theo thuật toán lamport Nhược ñiểm phương pháp lượng thông ñiệp cần gởi ñi xử lý tăng lên Thuật toán ñược thực sau: nhiều, lần kiểm tra hệ thống phải gởi lượng thông ñiệp (n-1)*2 ñó n Gán ñồng hồ logic Ti = cho tất trạm số trạm hệ thống, ñó ảnh hưởng nhiều ñến thời gian xử lý Khi trạm thực gởi thông ñiệp, trạm ñó tự ñộng tăng ñồng hồ logic lên ñơn vị Ti=Ti + gắn số hiệu ñồng hồ logic Ci vào nội dung thông ñiệp gởi cho trạm ñích Phương pháp lưu nhật ký Tại trạm tổ chức hệ thống lưu tất URL tất trạm ñã ñược crawler Khi URL ñược lấy danh sách kiểm tra, thay gởi thông ñiệp ñi yêu cầu trạm kiểm tra tình trạng URL trạm ñó kiểm tra trực tiếp hệ thống nhật ký ñã ñược lưu trữ 64 65 Phương pháp không cần phải gởi thông ñiệp, thay vào ñó tất trạm phải thực lưu nhật ký tất URL ñã ñược crawler ñược gọi phân hoạch mạng, lúc ñó vị trí phân hoạch tiếp tục hoạt ñộng Khi ñó việc thực giao dịch cần truy xuất ñến nhiều phân hoạch trở thành vấn ñề quan trọng Giả sử trạm gởi thông ñiệp yêu cầu kiểm tra (C,1,2,“url a”) thông ñiệp Begin ñược ưu tiên xử lý, thông ñiệp trả lời kết trạm hệ thống không gởi ñến ñược trạm (do ñường truyền bị gián ñoạn) Điều làm cho tiến Lấy url từ danh sách trình crawl url a trạm trạng thái chờ vĩnh viễn (tiến trình chết) Tương tự trạm tồn nhiều tiến trình chết Kiểm tra Tồn Trạm Trạm Chưa tồn Xử lý, ghi vào nhật ký Chờ ñợi vĩnh viễn Gởi thông ñiệp ñến trạm ghi vào nhật ký Hình 13 Mô hình cố ñường truyền 3.3.3.2Giải vấn ñề end Hình 12 Thuật toán kiểm tra tình trạng URL 3.3.3 Vấn ñề cố ñường truyền 3.3.3.1Đặt vấn ñề Như ñã trình mục 2.2, truyền thông yếu tố tối quan trọng hệ phân Xét khoảng thời gian α (α: số), kết cố ñường truyền tạm chia hai loại: Thất lạc thông ñiệp phân hoạch mạng Ở ñây ta ñưa giải thuật hai pha tuyến tính (Linear two phase commit - 2PC) Trong ñó thành viên trao ñổi với Chúng ta giả thiết thứ tự vị trí có tham gia vào việc thực giao dịch 1, 2,…,N với ñiều phối viên vị trí ñầu tiên giải thuật hoạt ñộng sau: tán, hệ phân tán không tồn truyền thông Thế thực tế truyền thông không ổn ñịnh, kết nối lúc nào, thông ñiệp thất lạc không ñến ñược nơi nhận Điều phối viên gửi thông ñiệp prepare ñến thành viên Nếu thành viên chưa sẵn sàng ủy thác giao dịch, gửi thông ñiệp biểu hủy bỏ Vote-abort (VA) ñến thành viên giao dịch bị hủy thời ñiểm (hủy bỏ ñơn phương 2) Nếu ñường truyền bị hỏng, vấn ñề làm thông báo tuyền qua, phân cắt mạng thành hai nhiều nhóm tách rời Tình Ngược lại thành viên ñồng ý ủy thác, gửi thông ñiệp vote-commit (VC) cho thành viên chuyển sang trạng thái READY Quá trình tiếp tục cho ñến 66 67 biểu uỷ thác ñến ñược thành viên N Đến ñây kết thúc pha ñầu tiên Nếu N ñịnh ủy thác gửi trở lại cho thành viên N-1 thông báo globalcommit (GC); không, gửi thông ñiệp hủy bỏ toàn cục global-abort (GA) Theo ñó thành viên chuyển sang trạng thái thích hợp (COMMIT Vì lý ñường truyền cố trạm nên hệ thống có tình trạng remove add (thêm trạm vào hệ thông) trạm hệ thống 3.3.4.2Giải vấn ñề Giải vấn ñề add – remove trạm hệ thống phân tán, ta tập trung ABORT) làm lan truyền thông ñiệp trở ñiều phối viên giải vấn ñề ñó là: i Thông báo cho hệ thống biết việc add – remove Pha prepare VC/VA VC/VA ii Cập nhật lại ñồng hồ logic VC/VA VC/VA iii Giải việc quán liệu GC/GA GC/GA GC/GA GC/GA N GC/GA Pha Dữ liệu hệ thống ñược phân tán trạm, trạm bị ñứt khỏi hệ thống ñồng nghĩa với việc phần liệu hệ bị theo, vận hành trạm hệ phải kiểm tra liệu ñể ñảm bảo liệu hệ ñược quán Như vậy, phải làm ñể không ảnh hưởng ñến Hình 14 Cấu trúc giao tiếp 2PC tuyến tính Như theo giải thuật 2PC tuyến tính, giả sử có trạm hệ thống bị cố không tiếp nhận ñược thông ñiệp, hệ thống gởi thông ñiệp thông hoạt hệ hay nhiều trạm bị ñứt khỏi hệ Để giải vấn ñề, ta ñưa hai phương án sau: i Phục hồi nhờ hệ thống backup báo cho trạm lại ñể trạm xác ñịnh lại trạm “hàng xóm” Mặt khác hệ thống gửi thông ñiệp thông báo việc gia nhập trở lại trạm bị cố cho trạm ñược biết Tại trạm ta xây dựng thêm trạm backup (là trạm chính) hai trạm hoạt ñộng ñồng thời với Nếu hai trạm bị cố trạm lại hoạt ñộng bình thường Nếu trạm bị cố sau khắc phục gia nhập 3.3.4 Vấn add, remove trạm 3.3.4.1Đặt vấn ñề Theo quan ñiểm trình bày mục 3.3,2, trạm hệ thống gởi thông ñiệp kiểm tra lần thứ hai ñã chờ khoảng thời gian α mà phản hồi, ñiều này, có nghĩa trạm ñích ñó ñã bị loại bỏ khỏi hệ thống (remove) Sau lại hệ thống chúng thực chép lại toàn liệu trạm lại Để thực phương án này, phải xây dựng thêm hệ thống tương tự phục vụ việc backup Như vậy, ñòi hỏi khoản chi phí gấp ñôi ñể xây dựng hệ thống Tính mặt kinh tế phương án không khả thi ii Phục hồi nhờ nhật ký khắc phục cố ta phải thực add trạm vào lại hệ thống Mọi hoạt ñộng trạm hệ thống ñược thân trạm ghi chép lại thành file nhật ký chứa thông tin tất URL ñã ñược crawler 68 69 Hệ thống file nhật ký gồm tập hợp file với tên file trùng với tên trạm hệ thống Mỗi file lưu trữ thông tin url trạm ñã clawler ñược ñồng Begin hồ logic trạm Hệ thống file nhật ký trạm giống hoàn toàn cấu trúc thông tin Khi url ñược crawler lần cập nhật ñồng logic Trạm I gửi thông ñiệp nhờ “hàng xóm” cung cấp thông tin chúng phải thực ghi vào file nhật ký tất trạm Khi trạm bị cố, “hàng xóm” trạm ñó thông báo cho tất trạm hệ ñược biết Các trạm chấm dứt giao dịch với trạm bị cố tức khắc Việc kiểm tra url ñươc thực trực tiếp file nhật ký Trạm “hàng xóm” gởi lại thông ñiệp chứa ñồng hồ logic cho trạm I Khi trạm I muốn gia nhập vào lại hệ thống, gửi thông ñiệp nhờ trạm Trạm I cập nhật ñồng hồ logic “hàng xóm” gởi lại ñồng hồ logic cho trạm I, Trạm I thực cập nhật ñồng hồ logic, ñồng thời gửi thông ñiệp sẳn sàng thông báo cho trạm hệ biết Trạm I gửi thông ñiệp sẳn sàng hoạt ñộng cho tất trạm hệ Begin Trạm I lan truyền thông ñiệp cho trạm G end Thông ñiệp không ñến ñược G Hình 16 Thuật toán xử lý việc add trạm 3.4 Phân tích hệ thống 3.4.1 Danh sách tác nhân hệ thống Trạm I thông báo cho tất trạm tình trạng G Chấm dứt giao dịch, kiểm tra trực tiếp vào file nhật ký 3.4.1.1Người sử dụng (user) Người sử dụng thao tác với hệ thống thông qua giao diện người dùng (user end Hình 15 Thuật toán xử lý trạm remove khỏi hệ interface) User nhập câu thông tin cần tìm kiếm vào ô nhập hiệu giao diện người sử dụng User chọn tùy chọn tìm kiếm (kiểu liệu cần tìm, phạm vi tìm kiếm, thể loại …) User chọn nút submit ñể gởi thông tin cần tìm kiếm ñến hệ thống xử lý Hệ thống xử lý trả lại kết cho User 70 3.4.1.2Quản trị (admin) 71 3.4.2.2Biểu ñồ tác nhân (UC) quản trị (admin) Quản trị thao tác hệ thống thông qua giao diện admin (admin interface) Admin khởi ñộng trạm hệ thống, kiểm tra kết nối trạm, khắc phục cố có Khởi ñộng truy tìm thông tin tự ñộng lập mục tự ñộng cho trạm Quản trị thực cân tải cho trạm hệ thống theo ñịnh kỳ ngẫu nhiên, giúp cho dung lượng lưu trữ thông tin trạm tương ñương Quản trị thực khai báo thêm, bớt trạm hệ thống, lưu liệu thường xuyên thực công việc bảo trì hệ thống Quản trị thực lưu dự phòng liệu 3.4.2 Sơ ñồ tác nhân (UC) 3.4.2.1Biểu ñồ tác nhân (UC) người sử dụng Hình 17 biểu ñồ UC người sử dụng Hình 18 Biểu ñồ UC admin 72 3.4.3 Biểu ñồ 3.4.3.1Xử lý yêu cầu người dùng 73 3.4.3.2Truy tìm thông tin tự ñộng (bộ crawler) Admin :form crawler internet Nạp liên kết gốc Lấy liên kết khỏi hàng ñợi Lấy nội dung web liên kết Nội dung web liên kết Lưu nội dung web liên kết Đọc nội dung web liên kết Đọc liên kết chứa nội dung Kiểm tra tồn liên kết Kiểm tra tồn liên kết server khác Kết kiểm tra Nạp liên kết vào hàng ñợi Hình 20 Biểu ñồ truy tìm thông tin tự ñộng 3.4.3.3Lập mục (bộ indexer) Hình 19 Biểu ñồ xử lý yêu cầu người dùng Hình 21 Biểu ñồ lập mục tự ñộng server n 74 3.4.4 Biểu ñồ hoạt ñộng (activity) 75 3.4.4.2Truy tìm thông tin tự ñộng (bộ crawler) 3.4.4.1Xử lý yêu cầu người dùng Hình 22 Biểu bồ hoạt ñộng xử lý yêu cầu người dùng Hình 23 Biểu ñồ hoạt ñộng truy tìm thông tin tự ñộng 76 3.4.4.3Lập mục tự ñộng (bộ indexer) 77 3.4.5 Sơ ñồ lớp 3.4.6 Các bảng liệu hệ thống file index Bảng 3.4 Bảng liệu tbl_document Hình 24 Biểu ñồ hoạt ñộng lập mục tự ñộng Field Data type Description ID Number Khóa Url Char(50) ñịa web document extract Char(128) phần trích ñoạn document Doc Char(1024) thông tin document Directory Char(50) ñường dẫn document Id_topic Number 78 79 Bảng 3.5 Bảng từ khóa tbl_key_word Field Data type Description ID Number Khóa Id_doc Char(128) Lưu ñịa web document Key_word Char(128) Lưu từ từ khóa weight Number Trọng số từ khóa Field Data type Description ID Number Khóa Topics_name Char(128) Tên chủ ñề weight Char(128) Trọng số chủ ñề Id_data_type Number Field Data type Description ID Number Khóa Data_type Char(128) Tên chủ ñề 3.4.7 Xây dựng hệ thống 3.4.7.1Mô hình quan hệ bảng liệu Bảng 3.6 Bảng chủ ñề tbl_topics Bảng 3.7 Bảng loại liệu tbl_data_type Hình 25 Mô hình quan hệ bảng liệu 3.4.7.2form submit yêu cầu tìm kiếm 80 3.4.7.3Hiển thị kết tìm kiếm 81 3.4.7.4Bộ crawler public class Crawler{ String url; public Crawler(String s){ url = s; } public void getDocument(){ try{ URL url = new URL(this.url); //String filename = url HttpURLConnection = (HttpURLConnection) url.openConnection(); InputStream inputs = con.getInputStream(); InputStreamReader r = new InputStreamReader(inputs); BufferedReader br = new BufferedReader(r); String line = null; while ((line = br.readLine()) != null) { System.out.println(line); } System.out.println("TEST: header field = " + con.getHeaderField(2)); con.disconnect(); }catch(MalformedURLException e){ e.printStackTrace(); }catch(IOException e){ e.printStackTrace(); } } public static void main(String[] args) { Crawler c = new Crawler("http://www.yahoo.com"); c.getDocument(); } } 82 3.4.7.5Bộ indexer Tạo mục public boolean createIndex() throws IOException{ if(true == ifIndexExist()){ return true; } File dir = new File(dataDir); if(!dir.exists()){ return false; } File[] htmls = dir.listFiles(); Directory fsDirectory = FSDirectory.getDirectory(indexDir, true); Analyzer analyzer = new StandardAnalyzer(); IndexWriter indexWriter = new IndexWriter(fsDirectory, analyzer, true); for(int i = 0; i < htmls.length; i++){ String htmlPath = htmls[i].getAbsolutePath(); if(htmlPath.endsWith(".html") || htmlPath.endsWith(".htm")){ addDocument(htmlPath, indexWriter); } } indexWriter.optimize(); indexWriter.close(); return true; } Thêm từ vựng vào kho index file public void addDocument(String htmlPath, IndexWriter indexWriter){ HTMLDocParser htmlParser = new HTMLDocParser(htmlPath); String path = htmlParser.getPath(); String title = htmlParser.getTitle(); Reader content = htmlParser.getContent(); Document document = new Document(); document.add(new Field("path",path,Field.Store.YES,Field.Index.NO)); document.add(new Field("title",title,Field.Store.YES,Field.Index.TOKENIZED)); document.add(new Field("content",content)); try { indexWriter.addDocument(document); } catch (IOException e) { e.printStackTrace(); } } 83 Kiểm tra tồn từ vựng public boolean ifIndexExist(){ File directory = new File(indexDir); if(0 < directory.listFiles().length){ return true; }else{ return false; } 3.4.7.6Bộ search engine public List search(){ List searchResult = new ArrayList(); if(false == indexManager.ifIndexExist()){ try { if(false == indexManager.createIndex()){ return searchResult; } } catch (IOException e) { e.printStackTrace(); return searchResult; }} IndexSearcher indexSearcher = null; try{ indexSearcher = new IndexSearcher(indexManager.getIndexDir()); }catch(IOException ioe){ ioe.printStackTrace(); } QueryParser queryParser = new QueryParser("content",analyzer); Query query = null; try { query = queryParser.parse(searchWord); } catch (ParseException e) { e.printStackTrace(); } if(null != query >> null != indexSearcher){ try { Hits hits = indexSearcher.search(query); for(int i = 0; i < hits.length(); i ++){ SearchResultBean resultBean = new SearchResultBean(); resultBean.setHtmlPath(hits.doc(i).get("path")); resultBean.setHtmlTitle(hits.doc(i).get("title")); searchResult.add(resultBean); } } catch (IOException e) { e.printStackTrace(); } } return searchResult; } 84 3.4.8 Đề mô chương trình 3.4.8.1 Giao diện tìm kiếm 3.4.8.2 Cấu trúc chương trình search engine indexer 85 3.4.8.3 Bộ crawler 86 87 3.4.8.4 Kết chương trình KẾT LUẬN Qua trình nghiên cứu, ñề tài ñã ñạt ñược số kết ñịnh Bên cạnh ñó tồn hạn chế số mặt ñó Phần ñánh giá lại kết ñồng thời phân tích khả ứng dụng ñề tài ñể từ ñó có hướng phát triển cao * Về kết ñạt ñược Nội dung ñề tài nghiên cứu máy tìm kiếm thông tin ứng dụng hệ phân tán ña server ñể phân tán máy tìm kiếm nhằm tối ưu thời gian xử lý thông tin Đối với máy tìm kiếm, ñề tài nghiên cứu phần cấu thành máy tìm kiếm clawler, indexer, searcher cấu trúc lưu trữ kho liệu index Đối với hệ phân tán, ñề tài nghiêm cứu tính chất hệ phân tán, mô hình truyền thông hệ phân tán giải thuật ñồng hóa tiến trình xử lý hệ phân tán Đối với việc ứng dụng hệ phân tán ñể tối ưu thời gian xử lý máy tìm kiếm, ñề tài nghiên cứu, phân tích, ñánh giá nhược ñiểm máy tìm kiếm triển khai hệ tập trung, ñề xuất ñưa mô hình hoạt ñộng máy tìm kiếm triển khai hệ phân tán, phân tích hệ thống máy tìm kiếm mới, nghiên cứu, nêu số vấn ñề phát sinh hướng giải triển khai máy tìm kiếm mới, xây dựng sở liệu cho kho liệu index chương trình ứng dụng cho máy tìm kiếm * Về ưu ñiểm nhược ñiểm ñề tài Ưu ñiểm: 88 89 Đề tài ñã nghiên cứu xây dựng thành công máy tìm kiếm phân tán, làm giảm thời gian xử lý ñán kể cho máy tìm kiếm, giúp máy tìm kiếm cho kết nhanh TÀI LIỆU THAM KHẢO xác Phân tích thành lập bảng tiêu chí tối ưu cho máy tìm kiếm Tiếng Việt [1] Phan Tấn Luận (2007), Nghiên cứu máy tìm kiếm xây dựng mô Phân tích, ñưa vấn ñề phát sinh dẫn ñến cố cho máy tìm kiếm hướng giải vấn ñề ñó máy tìm kiếm, Luận văn tốt nghiệp, Đại học Đà Nẵng [2] PGS TS Lê Văn Sơn (2004), Hệ tin học phân tán, Đại học Đà Nhược ñiểm: Bên cạnh ñó ñề tài nhiều hạn chế sau: Nẵng [3] GS.TS Nguyễn Thúc Hải (2007), Giáo trình hệ phân tán, Đại học Đà Nẵng Đề tài chưa nghiêm cứu tiêu chí tối ưu thuật toán máy tìm kiếm Đề tài nghiên cứu mức ñộ tổng quát, chưa ñi sâu Tiếng nước [4] Các lập luận chưa có tính thuyết phục cao * Hướng phát triển Tiếp tục nghiên cứu ñề xuất thuật toán xử lý tối ưu S Mullender ed (1993), Distributed Systems, Addison-Wesley, 2nd ed., [5] G Coulouris, J Dollimore, T Kinberg (1994), Distributed systems : Concept and Design, Addison-Wesley [6] A S Tanenbaum, M V Steen (2002), Distributed Systems: Tiếp tục hoàn chỉnh mô hình hoạt ñộng máy tìm kiếm cách có hiệu Principles and Paradigms, Prentice-Hall nhât Trang web Tiếp hoàn thiện tiêu chí tối ưu cho máy tìm kiếm [7] Tài liệu hệ phân tán http://www.wattpad.com/72987-h%E1%BB%87ph%C3%A2n-t%C3%A1n?p=1 [8] Ví dụ tạo máy tìm kiếm http://www.ibm.com/developerworks/web/library/wa-lucene2/ [9] Tìm hiểu máy tìm kiếm http://www.vietseo.net/articles/search-engine/ [10] Định nghĩa máy tìm kiếm http://vi.wikipedia.org/wiki/M%C3%A1y_truy_t%C3%ACm_d%E1%BB %AF_li%E1%BB%87u 90 [11] Building a Desktop Search Engine - Inverted Index http://untiluknow.blogspot.com/2010/04/building-search-engine-invertedindex.html [12] Search engine: http://www.compassproject.org/docs/2.0.2/reference/html/core-searchengine.html [13] Ngôn ngữ lập trình Lucene http://www.webreference.com/programming/lucene/2.html [...]... thời gian xử lý tại các trạm như sau 3.3.1 Chọn lựa server xử lý chính Bảng 3.3 Bảng phân tích ñộ rỗi khác nhau của các server trong hệ 3.3.1.1Đặt vấn ñề Server Thời gian xử lý Thời gian truyền thông tin Tổng thời xử lý 1 0,005 ms 0,02 ms 0.025 ms ñến hệ thống, hệ thống sẽ lựa chọn server nào tối ưu nhất ñể giao quyền xử lý chính 2 0,003 ms 0,05 ms 0.053 ms nhằm tối ưu thời gian xử lý cho máy tìm kiếm. .. nhỏ và ñược thực hiện Như vậy ứng dụng hệ phân tán ña server sẽ giảm thời gian xử lý của máy tìm kiếm một cách ñáng kể xử lý ñồng thời tại nhiều server khác nhau và kết quả ñược tập hợp từ các trạm trong hệ thống 3.2 Đề xuất phương thức hoạt ñộng của máy tìm kiếm trên hệ phân tán 3.2.1 tìm kiếm ra thành nhiều máy tìm kiếm nhỏ và các máy tìm kiếm nhỏ này hoạt ñộng Xử lý yêu cầu người dùng: Khi một yêu... triển khai ứng dụng ra công chúng ñược Un - Nếu hệ thống index file phân tán tại nhiều server khác nhau + Phân tải ra nhiều server tránh ñược việc truy cập tập trung + Tăng tốc ñộ xử lý cho máy tìm kiếm (vì tất cả các server trong hệ thống ñều làm việc phục vụ cho máy SE) Hình 2.1 Hệ thống máy ñơn Phân tán hệ thống index files sẽ giảm ñược thời gian xử lý cho máy SE Ở một thời ñiểm nhất ñịnh, máy ñơn... thông Ưu ñiểm lớn nhất của hệ phân tán ña server ñó là ta có thể chia sẽ tài nguyên giữa các trạm và tăng khả năng xử lý ñồng thời Điều này sẽ làm giảm thời gian xử lý thông tin rất nhiều SE (2) trong hệ thống, số lượng các trạm càng tăng thì thời gian xử lý càng giảm Ứng dụng hệ phân tán ña server vào máy tìm kiếm ta có thể giải quyết ñược các vấn ñề sau: 52 53 i Kho dữ liệu index file ñược phân tán. .. ñến hệ thống phân tán có thể bị sự cố bất cứ lúc nào Các biện pháp ñồng bộ hóa các tiến trình, mà cốt lõi là ñồng bộ thời gian xử lý của các tiến trình trong hệ giúp các tiến trình ñược xử lý theo trật tự cố ñịnh Đây là ñiều kiện giúp hệ thống tồn tại và có thể ñưa vào sử dụng ñược Hình 2 10 Các thời gian ñánh dấu Lamport (Lamport timestamps) 48 CHƯƠNG 3: ỨNG DỤNG HỆ PHÂN TÁN TỐI ƯU THỜI GIAN XỬ LÝ CHO. .. ƯU THỜI GIAN XỬ LÝ CHO MÁY TÌM KIẾM 3.1 Phân tích máy tìm kiếm trên hệ tập trung 49 3.1.3 Các yếu tố ảnh hưởng ñến thời gian xử lý của máy tìm kiếm Ta xét quá trình thực hiện và xử lý của hệ thống từ khi yêu cầu người dùng ñược gởi ñi ñến khi người dùng nhận ñược kết quả (hình 3.1) gồm các công ñoạn như sau: 3.1.1 Phân tích hoạt ñộng của máy tìm kiếm trên hệ tập trung Máy tìm kiếm hoạt ñộng dựa trên... results Ranking search lại cho hệ thống, hệ thống sẽ tổng hợp, sắp xếp kết quả và chuyển cho người dùng Beging Index file Hình 3 1 Mô hình hoạt ñộng của pha xử lý yêu cầu người dùng Send request Như vậy, ñể tối ưu thời gian xử lý thông tin của máy tìm kiếm chúng ta thực hiện tối ưu sáu tiêu chí sau: SE (1) Bảng 3.1 Bảng tiêu chí tối ưu máy tìm kiếm STT SE (n) Tiêu chí tối ưu 1 Số lượng và dung lượng... quả cho người dùng Ta có công thức như sau: T= Tnht + Ttht 3.1.2 Một số hạn chế của máy tìm kiếm trên hệ tập trung Theo như mô hình trình bày tại mục 1.2 và theo phân tích hoạt ñộng của máy Các công ñoạn xử lý nằm ngoài hệ thống chúng ta không thể can thiệp hoặc cải tìm kiếm trình bày ở trên thì tất cả các xử lý của hệ thống máy tìm kiếm ñược tập thiệp, do ñó ta không xét Như vậy ñể tối ưu thời gian xử. .. tin cần xử lý 5 Dung lượng và cấu trúc kho dữ liệu 6 Độ phức tạp thuật toán 3.1.4 Hướng giải quyết vấn ñề Ranking Display result End Hình 3 2 Các bước hoạt ñộng của máy tìm kiếm ứng dụng hệ phân tán 3.1.4.2Kết luận Như vậy, thời gian xử lý của hệ thống sẽ tỉ lệ nghịch với số lượng các trạm 3.1.4.1Đặt vấn ñề Theo ñịnh nghĩa và các tính chất của hệ phân tán (Trình bày tại chương 2), hệ phân tán gồm nhiều... thông tin cao hơn tốc ñộ xử lý trên một ñơn vị thông tin của server B Dựa vào tổng thời gian xử lý của từng server ta có thể xác ñịnh ñược server tối ưu (server có tổng thời gian xử lý nhỏ nhất) ñể giao quyền xử lý chính 60 Các yếu tố ảnh hưởng ñến thời gian xử lý của một server: - Tốc ñộ xử lý của CPU - Dung lượng bộ nhớ tạm RAM và Bus của RAM - Tốc ñộ quay và chất lượng của ñĩa cứng - FSB (Front Side