Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 76 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
76
Dung lượng
3,38 MB
Nội dung
ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC CÔNG NGHỆ TRỊNH VIỆT DŨNG XÂY DỰNG HỆ THỐNG KHẢO DUYỆT WEB PHÂN TÁN VÀ THU THẬP DỮ LIỆU PHỤC VỤ CÁC HỆ HỖ TRỢ QUYẾT ĐỊNH LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN HÀ NỘI - 2015 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC CÔNG NGHỆ TRỊNH VIỆT DŨNG XÂY DỰNG HỆ THỐNG KHẢO DUYỆT WEB PHÂN TÁN VÀ THU THẬP DỮ LIỆU PHỤC VỤ CÁC HỆ HỖ TRỢ QUYẾT ĐỊNH Ngành: Công nghệ thông tin Chuyên ngành: Truyền liệu mạng máy tính Mã số: Chƣơng trình đào tạo thí điểm LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN NGƢỜI HƢỚNG DẪN KHOA HỌC: TS NGUYỄN ĐẠI THỌ LỜI CAM ĐOAN Tôi xin cam đoan kết đạt đƣợc luận văn sản phẩm riêng cá nhân tôi, không chép lại ngƣời khác Trong toàn nội dung luận văn điều đƣợc trình bày cá nhân đƣợc tổng hợp từ nhiều nguồn tài liệu Tất tài liệu tham khảo có xuất xứ rõ ràng đƣợc trích dẫn hợp pháp Tơi xin hồn tồn chịu trách nhiệm chịu hình thức kỷ luật theo quy định cho lời cam đoan Hà Nội, ngày 19 tháng 10 năm 2015 Trịnh Việt Dũng MỤC LỤC DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT DANH MỤC CÁC HÌNH VẼ DANH MỤC CÁC BẢNG LỜI CẢM ƠN MỞ ĐẦU CHƢƠNG TỔNG QUAN VỀ HỆ HỖ TRỢ QUYẾT ĐỊNH 1.1 Thế định 1.2 Quá trình định 1.3.1 Phân loại định 1.3.2 Các giai đoạn trình định 1.3 Hệ hỗ trợ định 1.3.1 Khái niệm hệ hỗ trợ định 1.3.2 Các thành phần hệ hỗ trợ định 1.3.3 Mơ hình định 1.3.4 Phân loại hệ hỗ trợ định 1.4 Một trƣờng hợp sử dụng hệ hỗ trợ định việc dự đoán giá sản phẩm đƣợc bán đấu giá eBay 1.4.1 Thu thập liệu từ website eBay 1.4.2 Tiền xử lý liệu 1.4.3 Dự đoán giá 11 1.5 Kết luận 12 CHƢƠNG MỘT SỐ HỆ THỐNG THU THẬP DỮ LIỆU 13 2.1 Kiến trúc chung hệ thống Web Crawler 13 2.1.1 Kho chứa URL 16 2.1.2 Lịch sử viếng thăm kho chứa trang web 17 2.1.3 Tải trang web 18 2.1.4 Duyệt phân tích nội dung 19 2.2 Hệ thống thu thập liệu Mercator 22 2.3 Hệ thống thu thập liệu từ Twitter - TwitterEcho 24 2.4 Tìm hiểu cơng cụ HTTrack 25 2.5 Kết luận 29 CHƢƠNG THIẾT KẾ HỆ THỐNG KHẢO DUYỆT WEB VÀ THU THẬP DỮ LIỆU 30 3.1 Kiến trúc hệ thống Web Crawler 31 3.1.1 Sơ đồ tổng quan 32 3.1.2 Các thành phần Web Crawler 33 3.1.3 Thiết kế 33 3.2 Kiến trúc hệ thống Twitter Crawler 36 3.2.1 Sơ đồ tổng quan 36 3.2.2 Sử dụng RestAPI v1.1 để thu thập liệu 37 3.2.3 Request Limits 41 3.2.4 Thiết kế 41 3.3 MongoDB cho việc lƣu trữ sở liệu 45 3.3.1 Ƣu điểm nhƣợc điểm 45 3.3.2 Cơ chế phân quyền vào bảo mật 46 3.3.3 Chỉ mục MongoDB 47 3.3.4 Phân mảnh MongoDB 47 3.4 Kết luận 50 CHƢƠNG ĐÁNH GIÁ KẾT QUẢ 51 4.1 Triển khai 51 4.2 Mơ hình triển khai 53 4.3 Phần mềm thông số máy chủ 54 4.3.1 Phần mềm 54 4.3.2 Cấu hình máy chủ 54 4.4 Đánh giá hệ thống 55 4.4.1 Đánh giá hệ thống Web Crawler 55 4.4.2 Đánh giá hệ thống Twitter Crawler 55 4.4.3 Một số giao diện sau chạy hệ thống 56 4.5 Kết luận 57 CHƢƠNG KẾT LUẬN VÀ HƢỚNG PHÁT TRIỂN 58 5.1 Kết luận 58 5.2 Hƣớng phát triển 58 TÀI LIỆU THAM KHẢO 59 PHỤ LỤC 60 PHỤ LỤC 61 PHỤ LỤC 62 DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT Ký hiệu Diễn giải DE Data Extraction - hệ thống bóc tách liệu từ website theo luật ngƣời sử dụng tạo WC Web Crawler - hệ thống thu thập liệu RSS Crawler Một hệ thống thu thập liệu thông qua RSS - Rich Site Summary MS Crawler Metasearch - hệ thống thu thập liệu thông qua máy tìm kiếm nhƣ Google, Bing, Yahoo, Daum FB Crawler Một hệ thống thu thập liệu từ mạng xã hội Facebook TW Crawler Một hệ thống thu thập liệu từ mạng xã hội Twitter WB Crawler Một hệ thống thu thập liệu từ mạng xã hội Weibo IS Crawler Một hệ thống thu thập liệu từ mạng xã hội Instagram Crawling Quá trình thu thập liệu Spider Trap Bẫy hệ thống thu thập liệu tự động làm cho hệ thống thu thập liệu rơi vào vòng lặp vơ hạn Robot Exclusion Giao thức loại trừ robot Protocol TOA Twitter Open Authentication dùng để xác thực yêu cầu gửi lên server Task Một công việc mà hệ thống cần thực DANH MỤC CÁC HÌNH VẼ Hình 1-1 Các giai đoạn trình định Hình 1-2 Ưu điểm hệ hỗ trợ định Hình 1-3 Các thành phần hệ hỗ trợ định Hình 1-4 Sản phẩm đấu giá eBay Hình 1-5 Nội dung HTML sản phẩm 10 Hình 1-6 Vector đại diện văn mẫu 11 Hình 1-7 Cây định hồi quy 11 Hình 2-1 Kiến trúc chung Web Crawler 15 Hình 2-2 Trang HTML cấu trúc hệ thống tương ứng 22 Hình 2-3 Các thành phần Mercator 23 Hình 2-4 Kiến trúc TwitterEcho 25 Hình 2-5 Kéo thả vài địa web 26 Hình 2-6 Cấu hình HTTrack 26 Hình 2-7 Lọc liên kết 27 Hình 2-8 Đặt lịch tự động download 27 Hình 2-9 Giao diện thu thập liệu 28 Hình 2-10 Màn hình kết thúc trình thu thập liệu 28 Hình 3-1 Mơ hình hệ thống thu thập liệu công ty Saltlux 31 Hình 3-2 Kiến trúc phân tán hệ thống khảo duyệt web 32 Hình 3-3 Các thành phần bên Web Crawler 33 Hình 3-4 Tạo Web Crawler task 34 Hình 3-5 Cập nhật thơng tin cho Web Crawler task 34 Hình 3-6 Xoá Web Crawler task 35 Hình 3-7 Xem liệu download 35 Hình 3-8 Kiến trúc phân tán Twitter Crawler 36 Hình 3-9 Danh sách địa điểm hỗ trợ Twitter 40 Hình 3-10 Các chủ đề ý toàn cầu 41 Hình 3-11 Tạo Twitter task 41 Hình 3-12 Cập nhật thông tin Twitter task 42 Hình 3-13 Xố Twitter task 43 Hình 3-14 Trao đổi thông tin TwitterManager QueueManager 44 Hình 3-15 Trao đổi thơng tin TwitterWorker QueueManager 44 Hình 3-16 Hệ thống sử dụng shard lưu trữ 1TB liệu 48 Hình 3-17 Các thành phần shard cluster 49 Hình 4-1 Giao diện website terms.naver.com 51 Hình 4-2 Màn hình kết lấy tweet 56 Hình 4-3 Màn hình kết lấy danh sách follower 57 DANH MỤC CÁC BẢNG Bảng 3-1 Cấu trúc bảng crawler_agent_info 36 Bảng 3-2 Danh sách tham số statuses/filter API 37 Bảng 3-3 Danh sách tham số statuses/user_timeline API 38 Bảng 3-4 Danh sách tham số follower/ids API 38 Bảng 3-5 Danh sách tham số friends/ids API 39 Bảng 3-6 Danh sách tham số users/lookup API 39 Bảng 3-7 Cấu trúc bảng twitter_task 45 Bảng 3-8 Cấu trúc bảng twitter_open_authentication 45 Bảng 4-1 Danh sách 61 người dùng Twitter 53 Bảng 4-2 Mơ hình triển khai hệ thống 54 Bảng 4-3 Thơng số cấu hình máy chủ 54 Bảng 4-4 Kết đánh giá hệ thống Web Crawler 55 Bảng 4-5 So sánh kết 55 Bảng 4-6 Kết đánh giá hệ thống Twitter Crawler 56 CHƢƠNG ĐÁNH GIÁ KẾT QUẢ Thách thức công ty cung cấp dịch vụ thu thập liệu nói chung cơng ty Saltlux nói riêng làm để kiểm tra hệ thống lấy đƣợc đủ liệu (dữ liệu đƣợc coi đủ hệ thống lấy đƣợc 80% tổng số liệu cần lấy, ví dụ: website có 1,000,000 trang, hệ thống lấy đƣợc 800,000 đến 1,000,000 trang tiêu chí đủ liệu đƣợc đáp ứng), làm để kiểm tra hệ thống lấy đƣợc liệu (nội dung hệ thống lấy đƣợc với nội dung nguồn cung cấp) Trong luận văn này, kết đánh giá bám sát vào tiêu chí đƣợc trình bày trên: (1) đủ liệu, (2) liệu so sánh kết thu thập đƣợc với hệ thống thu thập liệu khác nhƣ HTTrack, WebSPHINX Hình 4-1 Giao diện website terms.naver.com 4.1 Triển khai Tơi triển khai hệ thống dựa yêu cầu từ hai khách hàng lớn công ty (Viện nghiên cứu Bộ quốc phòng Hàn Quốc) Yêu cầu Viện nghiên cứu Hàn Quốc lấy liệu 31 mục website http://terms.naver.com/category.nhn, với tổng 2,259,347 liệu với mục đích làm giàu sở liệu cho máy dịch tự động - sản phẩm Viện nghiên cứu Yêu cầu thứ đến từ Bộ quốc phòng Hàn Quốc lấy thơng tin profile, tweet, danh sách following, danh sách follower mạng xã hội Twitter (mạng xã hội phổ biến Hàn Quốc) ngƣời dùng (danh sách ngƣời dùng cần lấy phía bên Bộ quốc phòng gửi) Trong luận văn này, yêu cầu thứ hai 51 Bộ quốc phòng Hàn Quốc, tơi lấy thơng tin 61 ngƣời dùng danh sách đƣợc cung cấp đánh giá dựa thông tin lấy đƣợc dựa danh sách ngƣời dùng Bảng 4-1 liệt kê danh sách 61 ngƣời dùng cần lấy thông tin, lƣợng liệu có thực cần thu thập đƣợc thống kê thời điểm viết luận văn # 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 Username JosephFerrisIII ComradekimMOVIE DPRK_News dprkfilms DTNNorthKorea juchestrong NKoreaReports NorthKoreaDPRK nkwitness RetroDPRK koryotours airkoryo notoriousgonzo KFAEuskalHerria KFAPaisValencia KFAcapituloVE KFAEstadoEsp treveraritz CoreaSocialista Corea_del_Norte CineCoreadelNor DPRK_CAODEBENOS parti_juche PartidoJucheVK juche_songun juchefrance Fekerfanta jeet0212 ishimarujiro kimi_shimizu NKoreaNewsJP dailynkjapan dprkorean_tan 415_216 daioosaka0 daioosaka Profile 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 Tweet 1,317 950 248 146,000 288 22,500 2,453 1,517 1,126 2,547 44 23,600 1,265 374 436 70 10,800 21 121 2,245 1,539 1,934 492 1,903 1,482 31,500 16,000 12,900 4,721 20,400 13,600 2,052 22,300 24,300 24,900 52 Following 368 169 100 80 263 1,759 155 627 2,257 16 111 313 23 62 13 113 85 14 17 34 245 2,098 10 779 1027 69 1252 120 483 2,621 932 Follower 1,776 40 38,400 88 1,202 153 17,600 2,380 4,328 636 4,634 33 194,000 656 262 124 204 749 129 1,518 775 27,000 3,564 298 1,099 911 13,200 718 9,208 350 378 8,129 234 1,122 2,616 927 37 raccoon987 73,600 1,117 38 fabyorian 3,137 1,267 39 kelog21 130,000 215 40 uriminzok_nihon 714 41 irsaitama 140,000 238 42 lala_flower010 51,800 216 43 chousen24 259 35 44 kevtarobot 61,700 2,015 45 dprk_info 18,300 46 NorthKorea_News 15,000 2,932 47 yasgreen615 10,500 811 48 secretofnkorea 64,300 2,101 49 MusleNerd 54 11 50 YourAnonNews 140,000 1,062 51 Anon_value 12 52 AnonNewsC 1,359 551 53 planetbeing 1,276 93 54 GeohotJailbreak 3,631 170 55 pod2g 3,314 242 56 p0sixninja 10,000 739 57 uriminzok 17,300 58 qlaser 880 646 59 notoriousgonzo 23,600 111 60 yeonjae0528 3,267 74 61 Yunaaaa 102 12 Tổng số 61 1,172,045 30,907 Bảng 4-1 Danh sách 61 ngƣời dùng Twitter 774 917 21,300 60 749 413 79 1,705 733 5,301 1,595 1,501 5,583 1,610,000 264 1,119 191,000 61,900 474,000 182,000 18,500 316 194,000 250,000 782,000 4,145,250 Với yêu cầu nhƣ trên, triển khai hệ thống thu thập liệu từ Web Web Crawler để giải yêu cầu thứ Viên nghiên cứu, triển khai hệ thống thu thập liệu từ mạng xã hội Twitter - Twitter Crawler để giải yêu cầu thứ hai Bộ quốc phòng Trong Twitter Crawler, sử dụng access token để xác sign request trƣớc gửi request tới RestAPI, access token sử dụng cho việc lấy thông tin profile đầy đủ ngƣời dùng, access token sử dụng cho lấy thơng tin lại 4.2 Mơ hình triển khai Tôi sử dụng máy chủ để cài đặt hệ thống thu thập liệu Web Trong đó, máy chủ sử dụng cho việc cài đặt sở liệu PostgreSQL 9.2, Web Crawler Manager, Twitter Crawler Manager, Queue Manager máy chủ máy cài đặt Web Crawler Worker Twitter Crawler Worker máy chủ lại đƣợc sử để cài đặt MongoDB cluster Bảng 4-2 mơ tả mơ hình triển khai hệ thống 53 # Server Crawler Crawler Crawler MongoDB MongoDB MongoDB MongoDB MongoDB Dịch vụ cài đặt Web Crawler Manager, Twitter Crawler Manager, QueueManager, PostgreSQL, NFS Server, Mongos Web Crawler Worker, Twitter Crawler Worker, Mongos Web Crawler Worker, Twitter Crawler Worker, Mongos Shard, Config Server Shard, Config Server Shard, Config Server Shard Shard Bảng 4-2 Mơ hình triển khai hệ thống 4.3 Phần mềm thông số máy chủ 4.3.1 Phần mềm - Oracle Java 1.6 - PostgreSQL 9.2 - MongoDB 3.0.5 4.3.2 Cấu hình máy chủ Bảng 4-3 mô tả chi tiết thông tin cấu hình máy chủ đƣợc sử dụng để triển khai hệ thống # CPU Core OS Intel(R) Xeon(R) E3-1280 V2 @ CentOS Release 3.6GHz 6.5 Intel(R) Xeon(R) E3-1280 V2 @ CentOS Release 3.6GHz 6.5 Intel(R) Xeon(R) E3-1280 V2 @ CentOS Release 3.6GHz 6.5 Intel(R) Xeon(R) E3-1220 @ CentOS Release 3.1GHz 6.2 Intel(R) Xeon(R) E3-1220 @ CentOS Release 3.1GHz 6.2 Intel(R) Xeon(R) E3-1220 @ CentOS Release 3.1GHz 6.2 Intel(R) Xeon(R) E3-1220 @ CentOS Release 3.1GHz 6.2 Intel(R) Xeon(R) E3-1220 @ CentOS Release 3.1GHz 6.2 Bảng 4-3 Thơng số cấu hình máy chủ 54 RAM 32GB HDD 1.8TB 32GB 1.8TB 32GB 1.8TB 32GB 1.8TB 32GB 1.8TB 32GB 1.8TB 32GB 1.8TB 32GB 1.8TB 4.4 Đánh giá hệ thống Thực đánh giá hệ thống theo hai yêu cầu công ty Đánh giá dựa tiêu chí: đủ liệu, liệu 4.4.1 Đánh giá hệ thống Web Crawler Đủ liệu: Thông tin cần đo SL gốc Web Crawler HTTrack WebSPHINX Từ điển 2,259,347 1,972,948 1,971,052 1,972,939 Thống kê 87.32% 87.23% 87.32% Bảng 4-4 Kết đánh giá hệ thống Web Crawler Hệ thống Web Crawler lấy đƣợc 87% (>80%) đáp ứng tiêu chí đủ liệu Kết so sánh với hai hệ thống khác HTTrack WebSPHINX chênh lệch không đáng kể, nhƣng việc thống kê số lƣợng đƣợc thực Web Crawler dễ dàng nhiều (chỉ cần truy vấn sở liệu) so với việc thống kê số lƣợng HTTrack WebSPHINX (đếm số file download đƣợc) Phụ lục trình bày phƣơng pháp thống kê file HTTrack WebSPHINX Đúng liệu: Phƣơng pháp áp dụng để đánh giá tiêu chí liệu là: tiến hành lấy 50 mẫu, sau so sánh nội dung mẫu với nội dung website Kết thu đƣợc hệ thống thu thập liệu lấy nội dung 4.4.2 Đánh giá hệ thống Twitter Crawler Đủ liệu Thông tin cần đo SL gốc Twitter HTTrack WebSPHINX Crawler Profile 61 61 61 61 Tweet 1,172,045 134,413 1220 1220 Following 30,907 32,099 0 Follower 4,145,250 4,175,747 0 Bảng 4-5 So sánh kết với HTTrack WebSPHINX Thống kê cho thấy hệ thống Twitter Crawler cho kết vƣợt trội so với hai hệ thống HTTrack WebSPHINX thực thu thập tweet, following, follower So sánh số lƣợng hệ thống Twitter Crawler thu đƣợc với số liệu thực có ta có kết nhƣ sau: 55 Thơng tin cần đo SL gốc Twitter Thống kê Kết luận Crawler Profile 61 61 100% Đủ Tweet 1,172,045 134,413 11.47% Không đủ Following 30,907 32,099 103.86% Đủ Follower 4,145,250 4,175,747 100.73% Đủ Bảng 4-6 Kết đánh giá hệ thống Twitter Crawler Kết thống kê cho thấy số lƣợng tweet lấy đƣợc thấp so với thực tế API giới hạn trả 3,200 tweet gần Số lƣợng following follower lớn so với thực tế hệ thống chƣa cài đặt tính xố following follower ngƣời dùng huỷ bỏ follow Đúng liệu: Cách kiểm tra tiến hành nhƣ hệ thống Web Crawler, kết thu đƣợc hệ thống thu thập liệu lấy liệu, nhiên hệ thống Twitter Crawler cho liệu đầy đủ 4.4.3 Một số giao diện sau chạy hệ thống Hình 4-2 Màn hình kết lấy tweet 56 Hình 4-3 Màn hình kết lấy danh sách follower 4.5 Kết luận Chƣơng tiến hành triển khai đánh giá hệ thống thu thập liệu Web đƣợc xây dựng theo giải pháp chọn Kết đánh giá đƣợc triển khai theo yêu cầu thực tế mà công ty nhận đƣợc yêu cầu từ khách hàng Việc đánh giá hệ thống dựa hai tiêu chí: đủ số lƣợng, nội dung Thông qua việc so sánh với công cụ khác nhƣ HTTrack, WebSPHINX, hệ thống thu thập liệu đƣợc trình bày luận văn cho kết tốt, vƣợt trội thực lấy liệu từ Twitter 57 CHƢƠNG KẾT LUẬN VÀ HƢỚNG PHÁT TRIỂN 5.1 Kết luận Luận văn trình bày chi tiết trình xây dựng hai hệ thống thu thập liệu Web Crawler Twitter Crawler Từ đánh giá, phân tích có đƣợc thơng qua q trình nghiên cứu khảo sát hệ thống thu thập liệu có, luận văn đề xuất giải pháp xây dựng hệ thống đáp ứng đầy đủ yêu cầu mà hệ thống thu thập, lƣu trữ liệu lớn cần đáp ứng u cầu từ cơng ty tác giả cơng tác Hệ thống đƣợc xây dựng có ƣu điểm vƣợt trội so với hệ thống có nhƣ khả chạy nhiều mơi trƣờng hệ điều hành, khả chạy đa luồng, khả chia sẻ công việc, khả mở rộng hệ thống nhiều máy, khả quản lý lƣu trữ liệu lớn, khả lấy liệu đầy đủ từ mạng xã hội Twitter Hệ thống thu thập liệu đƣợc trình bày luận văn triển khai thực tế cho khách hàng nhiều khách hàng quan, doanh nghiệp lớn Hàn Quốc nhƣ Bộ quốc phòng, Bộ nội vụ,.v.v tập đồn Samuraiz Nhật Bản Phụ lục liệt kê danh sách khách hàng triển khai hệ thống Hƣớng phát triển Trong thời gian tới tác giả cài đặt tính cho hệ thống Web Crawler để hỗ trợ thu thập liệu thông qua giao thức FTP Việc triển khai hệ thống lƣu, khôi phục liệu (replica set) tăng tốc trình lấy liệu từ mạng xã hội Twitter đƣợc tác giả triển khai giai đoạn Đối với Twitter Crawler bị giới hạn 3,200 tweet gần lấy danh sách tweet, tác giả cần tìm giải pháp để vƣợt qua giới hạn 5.2 58 TÀI LIỆU THAM KHẢO Tiếng Việt [1] Trần Hữu Phú (2011), Xây dựng hệ thống thu thập thông tin tự động phục vụ cập nhật nội dung cho trang Web, Đại học Đà N ng Tiếng Anh [2] Dennis van Heijst, Rob Potharst, Michiel van Wezel (2007), A Support System for predicting eBay end prices [3] Harshavardhan Achrekar, Avinash Gandhe, Ross Lazarus, Ssu-Hin Yu, Benyuan Liu, Predicting Flu Trends using Twitter Data [4] Allan Heydon, Marc Najork (1999), Mercator: A Scalable, Extensible Web Crawler [5] Hongfei Yan Jianyong Wang, Xiaoming Li, Lin Guo (2001), Architectural design and evaluation of an efficient Web-crawling system [6] Masko Bosnjak, Eduardo Oliveira, Jose Martins, TwitterEcho - A Distributed Focused Crawler to Support Open Research with Twitter Data [7] Gorry, G.A, Scott Morton, A framework for Management Information System, Sloan Management Review, Vol 13, No 1, 1971 [8] Efraim Turban, Jay E Aronson, Decision Support System and Intelligent Systems [9] NetCraft, http://news.netcraft.com/, 2015 [10] Twitter Developers, https://dev.twitter.com [11] MongoDB Manual, https://docs.mongodb.org/manual 59 PHỤ LỤC CHỨNG NHẬN PHÁT TRIỂN HỆ THỐNG VÀ TRIỂN KHAI HỆ THỐNG 60 PHỤ LỤC ĐOẠN MÃ THỰC HIỆN ĐẾM TỪ ĐIỂN HTTrack WebSPHINX ĐÃ DOWNLOAD int theNumberOfEntry = 0; public int coutEntry(File dir) { for (File file : dir.listFiles()) { if (file.isDirectory)) { countEntry(file); } if (file.getName().contains("docId")) { theNumberOfEntry++; } } return theNumberOfEntry; } 61 PHỤ LỤC CÁCH TẠO OPEN AUTHENTICATION CHO TWITTER Twitter Crawler sử dụng API để lấy thông tin từ Twitter website Mỗi request gửi tới Twitter server cần đƣợc xác thực b ng cách sử dụng twitter open authentication (TOA) Phụ lục hƣớng dẫn cách tạo TOA Bƣớc 1: Login vào website https://apps.twitter.com (cần phải có tài khoản twitter) Bƣớc 2: Click "Create New App" để tạo ứng dụng, ứng dụng có TOA Mỗi TOA có cặp giá trị consumerKey, consumerSecret, tokenKey, tokenSecret 62 Bƣớc 3: Nhập vào tên, mơ tả địa website bạn Tích vào "Yes, I agree" sau click "Create your Twitter application" 63 Bƣớc 4: Hệ thống twitter tự động tạo consumerKey consumerSecret Click vào "Keys and Access Tokens" để tạo tokenKey tokenSecret 64 Bƣớc 5: Di chuyển chuột xuống dƣới click "Create my access token" Bƣớc 6: Ứng dụng bạn đƣợc tạo thành công 65 ... ĐẠI HỌC CÔNG NGHỆ TRỊNH VIỆT DŨNG XÂY DỰNG HỆ THỐNG KHẢO DUYỆT WEB PHÂN TÁN VÀ THU THẬP DỮ LIỆU PHỤC VỤ CÁC HỆ HỖ TRỢ QUYẾT ĐỊNH Ngành: Công nghệ thông tin Chuyên ngành: Truyền liệu mạng máy tính... để xây dựng hệ thống khảo duyệt web thu thập liệu 2.1 Kiến trúc chung hệ thống Web Crawler Web Crawler (hay đƣợc gọi với tên khác nhƣ Web Spider Web Robot) chƣơng trình máy tính duyệt web cách... 1: Trình bày lý thuyết chung hệ hỗ trợ định Đây kiến thức tảng hệ thống hỗ trợ định nhƣ trình định, thành phần hệ hỗ trợ định Chƣơng 2: Tìm hiểu khảo sát số hệ thống thu thập liệu đƣợc giới thiệu