Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 108 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
108
Dung lượng
1,3 MB
Nội dung
TỔNG LIÊN ĐOÀN LAO ĐỘNG VIỆT NAM TRƯỜNG ĐẠI HỌC TƠN ĐỨC THẮNG KHOA CƠNG NGHỆ THƠNG TIN & TỐN ỨNG DỤNG LUẬN VĂN TỐT NGHIỆP TÌM HIỂU VỀ WEB CRAWLER VÀ XÂY DỰNG ỨNG DỤNG MINH HỌA Giảng viên hướng dẫn : THS NGUYỄN HỒ MINH ĐỨC Sinh viên thực hiện: CA PHÚ PHÁT LÊ THANH NHÀN Lớp : 07TH2D Khoá : 11 MSSV: 070233T MSSV: 070221T TP Hồ Chí Minh, tháng 07 năm 2011 Tìm hiểu Web Crawler xây dựng ứng dụng GVHD: Ths Nguyễn Hồ Minh Đức LỜI CẢM ƠN Sau thời gian dài học tập, nghiên cứu khoa Công nghệ thông tin Trường Đại học Tôn Đức Thắng, giúp đỡ tận tình thầy giáo, giáo bạn bè, chúng tơi nỗ lực hồn thành luận văn cử nhân ngành Khoa học máy tính với đề tài: “Tìm hiểu Web Crawler xây dựng ứng dụng minh họa” Hồn thành luận văn chúng tơi xin gửi đến thầy Nguyễn Hồ Minh Đức lời cảm ơn chân thành, người hết lịng giúp đỡ góp ý suốt q trình hồn thành luận văn này, đồng thời cảm ơn thầy cô giáo khoa Cơng nghệ thơng tin giúp đỡ chúng tơi hồn thành đề tài Xin cám ơn động viên, giúp đỡ tất bạn bè lớp ln ủng hộ góp ý suốt q trình thực luận văn Xin chân thành cám ơn cha mẹ, anh chị người thân bên cạnh để động viên tạo điều kiện tốt tinh thần lẫn vật chất từ bước chân vào đại học lúc hoàn thành luận văn Mặc dù cố gắng học tập nghiên cứu suốt tất năm qua ghế giảng đường, song thời gian có hạn, lĩnh vực cơng nghệ ngày phát triển hiểu biết cịn có hạn nên đề tài chúng tơi khơng thể tránh khỏi thiếu sót Tơi mong nhận góp ý thầy cô giáo tất quan tâm đến đề tài này, để luận văn hoàn thiện nâng cao Tìm hiểu Web Crawler xây dựng ứng dụng GVHD: Ths Nguyễn Hồ Minh Đức NHẬN XÉT (Của Cơ quan thực tập) Tìm hiểu Web Crawler xây dựng ứng dụng GVHD: Ths Nguyễn Hồ Minh Đức NHẬN XÉT (Của Giảng viên hướng dẫn) Tìm hiểu Web Crawler xây dựng ứng dụng GVHD: Ths Nguyễn Hồ Minh Đức NHẬN XÉT (Của Giảng viên phản biện) Tìm hiểu Web Crawler xây dựng ứng dụng GVHD: Ths Nguyễn Hồ Minh Đức MỤC LỤC LỜI MỞ ĐẦU Tính cấp thiết, ý nghĩa khoa học thực tiễn đề tài .9 Mục đích nghiên cứu đề tài Đối tượng phạm vi nghiên cứu đề tài .10 PHẦN 1: TÌM HIỂU WEB CRAWLER .11 CHƯƠNG 1: TỔNG QUAN WEB CRAWLER 11 Tổng quan Web Crawler 11 1.1 Khái niệm giới thiệu sơ lược Web Crawler .11 1.2 Ưu điểm Web Crawler 12 1.3 Khuyết điểm Web Crawler 13 1.4 Những ứng dụng Web Crawler .13 Các bước để thực Web Crawler 14 2.1 Tìm nạp trang .14 2.2 Tách lọc 14 2.2.1 Các bước tách lọc 14 2.2.2 Khó khăn tách lọc 15 2.2.3 Cách khắc phục 17 2.3 Loại bỏ Stopword lấp đầy (Stemming) 17 2.3.1 Loại bỏ Stopword (Stopword Removal) .17 2.3.2 Lấp đầy (Stemming) 17 2.4 Trích lọc đường dẫn hợp với quy tắc tiêu chuẩn 18 2.4.1 Trích lọc đường dẫn 18 2.4.2 Hợp với quy tắc tiêu chuẩn 20 2.4.3 Một số ví dụ URL 21 2.5 Spider traps 21 2.5.1 Bất lợi Spider traps trình thu thập 22 2.5.2 Cách khắc phục 22 2.6 Lưu xuống kho .23 2.7 Xử lý đồng thời (Concurrency) 24 Tìm hiểu Web Crawler xây dựng ứng dụng GVHD: Ths Nguyễn Hồ Minh Đức 2.7.1 Nguyên nhân 24 2.7.2 Hướng giải 24 CHƯƠNG 2: NỘI DUNG CHÍNH CỦA WEB CRAWLER .26 Các giải thuật thu thập Web Crawler .26 1.1 Thuật toán thu thập theo chiều rộng 26 1.1.1 Yêu cầu cần có .26 1.1.2 Ta thực bước sau .26 1.2 Thuật toán thu thập ưu tiên 27 1.2.1 Yêu cầu cần có .27 1.2.2 Ta thực bước sau .27 Các thuật tốn tính hạng trang 29 2.1 Thuật toán PageRank 29 2.1.1 Mơ hình PageRank 29 2.1.2 Cơng thức tính PageRank 31 2.1.3 Ví dụ Ứng dụng PageRank 34 2.2 Thuật toán PageRank cải tiến (Modify Adaptive PageRank) .41 2.2.1 Phương pháp Adaptive PageRank 42 2.2.2 Những cải tiến phương pháp 43 2.2.3 Filter-Based Adaptive PageRank 43 2.2.4 Modified Adaptive PageRank .44 2.2.5 Đánh giá .44 2.3 Giải thuật tính hạng trang theo chủ đề (Topic-sensitive PageRank) 45 Các trình tự thu thập Web Crawler 48 3.1 Universal Crawler 48 3.1.1 Mục đích 48 3.1.2 So sánh với thu thập theo chiều sâu 48 3.1.3 Scalability 49 3.2 Focused Crawler 51 3.2.1 Hai chiến lược khám phá .53 3.3 Topical Crawlers 55 3.3.1 Topical Locality and Cues .56 3.3.2 Best-first Variations .61 3.3.3 Adaptation .61 Những vấn đề cần lưu ý với Web Crawler .65 Tìm hiểu Web Crawler xây dựng ứng dụng GVHD: Ths Nguyễn Hồ Minh Đức 4.1 Chi phí hiểm họa .65 4.1.1 Quá tải mạng server .65 4.1.2 Sự cập nhật mức .65 4.1.3 Những tình khơng mong đợi 66 4.2 Tiêu chuẩn loại trừ Crawler 67 4.2.1 File robot.txt 67 4.2.2 Nhược điểm file robot.txt 68 Một số dự án 70 CHƯƠNG 3: WEB CRAWLER VÀ VẤN ĐỀ XỬ LÝ SONG SONG .73 Máy tính song song 73 1.1 Phân loại máy tính song song 75 1.1.1 Phân loại dựa chế điều khiển chung 75 1.1.2 Cách phân loại dựa tương tác Bộ Xử Lý 76 Mơ hình lập trình song song .78 2.1 Mơ hình nhiệm vụ - kênh liên lạc 78 2.1.1 Đặc điểm mơ hình nhiệm vụ - kênh liên lạc 78 2.1.2 Đặc điểm mơ hình nhiệm vụ - kênh liên lạc 78 2.2 Mơ hình chia sẻ nhớ chung 80 Hiệu xử lý song song 81 3.1 Khả tăng tốc độ tính tốn 81 3.2 Cân tải 83 3.2.1 Các thuật toán cân tải tập trung 84 3.2.2 Các thuật tốn cân tải phân tán hồn tồn 84 3.2.3 Các thuật toán cân tải phân tán nửa .84 3.3 Sự bế tắc .84 Đề xuất giải pháp song song hóa 87 4.1 Giải pháp song song hóa 87 4.2 Cơ chế phân công công việc xử lý 90 4.3 Tổng hợp kết sau trình song song 90 4.4 Vấn đề tương tranh xử lý 90 4.5 Đánh giá giải pháp song song hóa .91 4.5.1 Ưu điểm 91 4.5.2 Nhược điểm 91 Tìm hiểu Web Crawler xây dựng ứng dụng GVHD: Ths Nguyễn Hồ Minh Đức PHẦN 2: XÂY DỰNG ỨNG DỤNG MINH HỌA WEB CRAWLER .92 Cấu trúc liệu 92 1.1 Cấu trúc Frontier 92 1.2 Cấu trúc Considered 93 Cơ chế hoạt động Web Crawler có kết hợp xử lí song song 94 2.1 Mơ hình q trình thu thập Crawler 94 2.2 Mơ tả chi tiết q trình thu thập Crawler 94 Giao diện 96 3.1 Giao diện khởi chạy Crawler .96 3.2 Giao diện Crawler thực thi 97 Giải vấn đề Web Crawler 99 4.1 Tránh lặp lại 99 4.2 Tránh làm tải server 99 4.3 Tốc độ thu thập 99 4.4 Tránh lỗ đen (black holes) 99 4.5 Thuật toán lấy liên kết .100 Giải Thuật PageRank 101 PHẦN 3: KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 104 Kết luận 104 1.1 Kết đạt 104 1.2 Hướng phát triển 104 PHẦN 4: TÀI LIỆU THAM KHẢO 105 Tìm hiểu Web Crawler xây dựng ứng dụng GVHD: Ths Nguyễn Hồ Minh Đức LỜI MỞ ĐẦU Tính cấp thiết, ý nghĩa khoa học thực tiễn đề tài Từ năm 1980, Máy vi tính phát triển ngày ứng dụng rộng rãi nhiều lĩnh vực, nhiều quốc gia Cùng với phát triển bùng nỗ thơng tin Thông tin đuợc chứa rải rác hàng tỷ trang web phục vụ hàng triệu máy chủ khắp giới Vì lý đó, muốn tìm kiếm thơng tin cách nhanh nhất, xác điều khó khăn Xuất phát từ thực tế trên, đề tài “Tìm hiểu Web Crawler xây dựng ứng dụng minh họa” phần giải vấn đề đặt Tại lại vậy? Tại vì, muốn tìm kiếm thơng tin cách nhanh nhất, xác cần xây dựng hệ thống tìm kiếm hiệu nhất, tối ưu Chúng ta muốn xây dựng hệ thống tìm kiếm hiệu nhất, tối ưu cần xây dựng trình thu thập thơng tin tốt Chính điều đó, đề tài đề tài mang tính cấp thiết hệ thống tìm kiếm thơng tin Mục đích nghiên cứu đề tài o Tìm hiểu tổng quan Web Crawler, thuật tốn giải thuật o Tìm hiểu bước xây dựng Web Crawler o Tìm hiểu loại Web Crawler vấn đề cần đượ c lưu ý Web Crawler o Xây dựng chương trình ứng dụng minh họa Tìm hiểu Web Crawler xây dựng ứng dụng GVHD: Ths Nguyễn Hồ Minh Đức 1.2 Cấu trúc Considered Mơ tả thuộc tính Class Considered Kiểu STT Tên thuộc tính Ý nghĩa UrlId Id trang xét int Url url trang xét string Parent PageRank Text Nội dung trang html string NumberChildUrl Số liên kết từ trang int Danh sách id trang trực tiếp tìm trang Điểm số theo thuật tốn PageRank liệu List double 93 Tìm hiểu Web Crawler xây dựng ứng dụng GVHD: Ths Nguyễn Hồ Minh Đức Cơ chế hoạt động Web Crawler có kết hợp xử lí song song 2.1 Mơ hình q trình thu thập Crawler Bắt đầu Khơng Frontier có cịn Url khơng? Tiến trình ngủ Có Lấy Url từ Frontier Cịn tiến trình chạy? Tải phân tích trang lấy Url hợp lệ Có Khơng Kết thúc Lưu Url vừa tìm vào Frontier Tính hạng cho trang 2.2 Mơ tả chi tiết q trình thu thập Crawler Bước 1: Lấy url từ textbox đưa vào danh sách frontier làm url hạt nhân Bước 2: Kiếm tra Frontier có cịn url hay khơng? o Nếu còn: lấy url danh sách Frontier, gán giá trị tương ứng cho Considered, sang bước o Nếu Frontier rỗng: cho tiến trình ngủ sang bước 94 Tìm hiểu Web Crawler xây dựng ứng dụng GVHD: Ths Nguyễn Hồ Minh Đức Bước 3: o Tải nội dung trang web với url tương ứng o Phân tích trang lấy url có trang web Nếu url hợp lệ: đưa vào danh sách chứa url hợp lệ Nếu không hợp lệ: bỏ qua Bước 4: Kiểm tra url vừa thu có tồn Frontier Consider chưa? o Nếu chưa: thêm url vào Frontier o Nếu có: tìm vị trí url Frontier Considered bổ sung thêm ParentId cho url Bước 5: Vì chương trình có nhiều tiến trình chạy lúc nên chương trình khơng kết thúc Frontier rỗng mà kết thúc tiến trình ngủ Kiểm tra tiến trình o Nếu tiến trình điều ngủ sang bước o Nếu cịn tồn tiến trình chạy quay lại bước Bước 6: Tính hạng trang thuật tốn PageRank Bước 7: Kết thúc 95 Tìm hiểu Web Crawler xây dựng ứng dụng GVHD: Ths Nguyễn Hồ Minh Đức Giao diện 3.1 Giao diện khởi chạy Crawler Hình 22: Màn hình bắt đầu Crawler o Người dùng nhập vào Url làm hạt nhân cho Crawler o Ấn button Start, Crawler tiến hành thu thập theo Url mà người dùng cung cấp 96 Tìm hiểu Web Crawler xây dựng ứng dụng GVHD: Ths Nguyễn Hồ Minh Đức 3.2 Giao diện Crawler thực thi Hình 23: Màn hình Crawler thực thi o Sau nhấn button Start thì: Button Start thay đổi giá trị thành Stop cho phép người dùng dừng chương trình Crawler tiến hành thu thập thơng tin, Url thu hiển thị lên list view tab Url Thu Được, Url thu thập hiển thị lên list view tab Các Url Đã Duyệt 97 Tìm hiểu Web Crawler xây dựng ứng dụng GVHD: Ths Nguyễn Hồ Minh Đức o Khi người dùng nhấn button Stop hết link để thu thập tiếp Crawler ngừng thu thập tiến hành tính hạng trang hiển thị lên list view Tab Page Rank 98 Tìm hiểu Web Crawler xây dựng ứng dụng GVHD: Ths Nguyễn Hồ Minh Đức Giải vấn đề Web Crawler 4.1 Tránh lặp lại Url trước lưu vào sở liệu phải kiểm tra có tồn hay chưa, url tồn khơng lưu, nhằm tránh trùng lắp 4.2 Tránh làm tải server Các Crawler hoạt động đồng hành địa khác Kết hợp đồng Crawler trì thời gian đợi lần truy xuất liên tiếp đến server nên server tránh bị áp lực mức Tuy nhiên biện pháp khắc phục triệt để vấn đề URL site thường đặt cạnh hàng đợi Áp dụng chiến lươc duyệt ngẫu nhiên cho kết tốt Kiểm tra web robot máy cục bộ, sửa lỗi trước chạy server thực 4.3 Tốc độ thu thập Như biết trình thu thập gồm tài ngun là: mạng, CPU, ổ đĩa Nếu có tiến trình thời điểm có loại tài nguyên sử dụng, để tráng lãng phí thời gian chờ nên tạo nhiều tiến trình chạy đồng thời 4.4 Tránh lỗ đen (black holes) Quy định kích thước tối đa URL< 256 kí tự 99 Tìm hiểu Web Crawler xây dựng ứng dụng GVHD: Ths Nguyễn Hồ Minh Đức 4.5 Thuật toán lấy liên kết Để tạo liên kết file HTML người ta thường dùng dạng sau: Danh sách thẻ thường dùng tạo tạo liên kết Tên thẻ Thuộc tính kết hợp A Href AREA Href BASE Href BODY Background IMG Src INPUT TYPE Src FRAME Src FORM ACTION LINK Href TD Bacground 100 Tìm hiểu Web Crawler xây dựng ứng dụng GVHD: Ths Nguyễn Hồ Minh Đức Giải Thuật PageRank Ta xét ví dụ tính giá trị PageRank trang web (hình trên) sau: o Giả sử ta có trang web A,B, C D Khởi tạo xấp xỉ giá trị PageRank chia cho trang, trang có xấp xỉ 0.25 o Trang B link đến trang C trang A, trang D link đến tất trang A,B,C Giá trị link vào chia cho tất link trang Vì vậy, trang B link đến A với 0.125 C 0.125 Đối với D phần ba giá trị PageRank link đến trang khác (xấp xỉ 0.083) Cơng thức tính PageRank trang A sau: Q trình gọi q trình chuẩn hóa link với N(B), N(C), N(D) tương ứng số liên kết trang B, C D Một cách tổng quát PageRank trang tính sau: 101 Tìm hiểu Web Crawler xây dựng ứng dụng GVHD: Ths Nguyễn Hồ Minh Đức Trong trang cha U link đến U, Parents(U) tập tất trang web liên kết đến U N(V) số liên kết đến trang khác U Để đảm bảo phân phối dừng ổn định (duy nhất), cơng thức tính PageRank điều chỉnh việc thêm vào hệ số hãm d cho phù hợp, d nhận giá trị khoảng [0,1] Với định nghĩa này, phần nhỏ d giá trị hạng trang Web phân phối nút có liên kết tới Giá trị cịn lại hạng trang phân bố đ ều trang Web Công thức PageRank sửa đổi có dạng: Việc thêm “hệ số hãm” d (theo thực nghiệm thường chọn d = 0.85) có ý nghĩa việc bổ sung thêm giá trị hạng trang cho nhóm trang khơng có liên kết ngồi Cơng thức PageRank nguyên thủy trường hợp đặc biệt giá trị PageRank vừa nêu d = Giải Thuật Tính Tốn PageRank Bước 1: Khởi tạo giá trị PageRank cho N trang Web Bước 2: Tính giá trị PageRank tất trang cơng thức 102 Tìm hiểu Web Crawler xây dựng ứng dụng GVHD: Ths Nguyễn Hồ Minh Đức Bước 3: Tính sai số tất trang ε = PR(K i ) – PR(K i-1 ) ( i: lần lặp thứ i ) o Nếu ε tất trang nhỏ ngưỡng dừng o Nếu tồn ε lớn ngưỡng sai số cho phép quay lại bước Để có giá trị PageRank tốt, ln phản ánh tình trạng trang web, Google tính tốn lại giá trị PageRank thời điểm thăm dò trang web xây dựng lại tập mục Do Google tăng số lượng tài liệu cho tập hợp làm giảm việc xấp xỉ giá trị khởi tạo cho tất tài liệu Việc sử dụng toán tử thăm dò trang web làm mục trang web cơng việc tốn thời gian chi phí nên Google ln tìm cách đ ể tối ưu q trình xây dựng công cụ hỗ trợ cho Google trình duyệt Google Toolbar, máy chủ lưu trữ tạm thời (Caching Server) hỗ trợ cho công cụ tìm kiếm 103 Tìm hiểu Web Crawler xây dựng ứng dụng GVHD: Ths Nguyễn Hồ Minh Đức PHẦN 3: KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN Kết luận 1.1 Kết đạt Nghiên cứu tìm hiểu Web Crawler: tìm hiểu tổng quan Web Crawler, thuật toán sử dụng, cách xây dựng trình thu thập, cách dùng thuật tốn PageRank để tính điểm cho url thu thập, tìm kiếm url hệ thống, xóa url hệ thống, phân quyên cho hệ thống để dễ dàng quản lý qui định quan trọng 1.2 Hướng phát triển Vì thời gian phát triển luận văn không nhiều nên chúng tơi tập trung vào vấn đề đề tài tìm hiểu Web Crawler Do đó, chúng tơi chưa xây dựng chương trình ứng dụng tối ưu Chính vậy, chúng tơi đưa hướng phát triển sau: Nghiên cứu, nắm vững vấn đề hạn chế đồ án Xây dựng trình thu thập tối ưu, hiệu kết tốt Áp dụng trình thu thập thông tin để xây dựng hệ thống tìm kiếm hiệu 104 Tìm hiểu Web Crawler xây dựng ứng dụng GVHD: Ths Nguyễn Hồ Minh Đức PHẦN 4: TÀI LIỆU THAM KHẢO [1] Đỗ Thị Diệu Ngọc, Nguyễn Hoài Nam, Nguyễn Yến Ngọc, Nguyễn Thu Trang Giải pháp tính hạng trang cải tiến cho máy tìm kiếm Vinahoo Chun san “Các cơng trình nghiên cứu – triển khai viễn thơng CNTT”, Tạp chí Bưu – Viễn thơng, 14, 4-2005, 65-71 [2] Andrew Y Ng, Alice X.Zheng, and Michael I Jordan Stable algorithms for link analysis In Proceedings of the 24th Annual International ACM SIGIR Conference ACM, 2001 [3] Jon Kleinberg Authoritative sources in a hyperlinked environment Journal of the ACM, 46(5):604-632, November 1999 [4] Jiawei Han, Micheline Kamber, Data Mining: Concepts and Techniques Morgan Kufmannn Publishers, 2001, trang 435-443 [5] Kir Kolyshkin Vinahoo Manual Cung ấp c http://www.Vinahoo.org 2002.The Anatom of large scale Hypertextual Web Search Engine [6] Page, L., Brin, S., Motwani, R and Winograd, T 1998 The PageRank citation ranking: bringing order to the Web, Technical report, Stanford University [7] Raymond Kosala, Hendrik Blockeel Web Mining Research: A Survey Department of Computer Science, Katholieke Uiniversiteit Leuven, Heuverlee, Belgium, trang 601-602 [8] Sepandar Kamvar, Taher Haveliwala, and Gene Golub (2003) Adaptive Methods for the Computation of PageRank Technical report, Stanford University 105 Tìm hiểu Web Crawler xây dựng ứng dụng GVHD: Ths Nguyễn Hồ Minh Đức [9] Sepandar D Kamvar, Taher H Haveliwala, Christopher D Manning Gene H Golub (2003) Exploiting the Block Structure of the Web for Computing PageRank Technical report, Stanford University [10] S.D Kamvar, T.H Haveliwala, C.D Manning, and G.H Golub Extrapolation methods for accelerating PageRank computations In proceedings of the Twelfth International World Wide Web Conference, 2003 [11] Sheldon Ross Introduction to probability models, 8th Edition Academic Press, January 2003 [12] Shian – Hualin, Meng Chang Chen, Jan-Ming Ho, ACIRD: Intelligent Internet Decument Organization and Retrival IEEE transaction on knowledge and data engineering VOL 14, NO May/June 2002 [13] Taher H.Haveliwala Topic-Sensitive PageRank WWW2002, May 7-11, 2002, Honolulu, Hawaii, USA (ACM 1581134495/02/0005) [14] Taher H Haveliwala Topic-Sensitive PageRank: A Context-Sensitive Ranking Algorithm for Web Search, 2003 [15] Taher H Haveliwala Efficient Computation of PageRank Technical report, Stanford University, 1999 [16] G.A Geist, J.A.Kolh, P.M.Papadopoulos, PVM and MPI: a comparison of features Applied Mathematical Sciences subprogram of the Office of Energy Research, US Department of Energy May 30 1996 [17] Gautam Pant, Padmini Srinivasan, Fillipo Menczer Crawling the Web The University of Iowa, Iowa City IA 52242, USA [18] Jack Dongarra MPI: the complete Reference Cungấp c http://fsusu1.rnd.runnet.ru/parallel/mpi/mpibook/ 1995 [19] Ian Foster Designing and Building Parallel Programs Cung ấp c htt;://www.unix.mcs.anl.gov/dbpp/ 1995 106 Tìm hiểu Web Crawler xây dựng ứng dụng GVHD: Ths Nguyễn Hồ Minh Đức [20] Li wang, Edward A.Fox, Crawling on the World Wide Web Virginia Tech 2001 [21] Osmar R.Zaiane, From Resource Discovery to Knowledge Discovery tin the Internet School of Computing Science, Simon Fracer University, Burnaby, BC Canada V5A 1S6 [22] Sergey Brin and Lawrence Page, The Anatomy of lare scale Hypertextual Web Search Engine Computer Science Department, Standford University, Standford CA 94305, USA [23] Yukiya Aoyama, Jun Nakano RS/6000 SP: Practical MPI Programming IBM International Technical Support Organization 1999 [24] Filippo Menczer and Bamshad Mobasher, Web Data Mining, 12- 2006 [25] Nguyễn Tuấn Anh, Các kỹ tìm kiếm mạng, ĐH Thủy lợi– Hà nội, 2007 [26] Phạm Văn Công, Nguyễn Hữu Khương, Nguyễn Hoàng Nhật, Nguyễn Khoa Ngữ Nguyễn Trường Phúc, Tìm hiểu xây dựng search Engine , Đồ án chuyên nghành, Đại học công nghiệp TPHCM, 7-2008 [27] http://en.wikipedia.org/wiki/Web_crawler, Tìm hiểu Web Crawler [28] http://www.webcrawler.com/, Tìm hiểu cách thức hoạt động web crawler [29] Http://www.google.com 107