Giải pháp vượt qua sự ngăn chặn thu thập dữ liệu thương mại điện tử (An antianticrawling solution for data collection from ecommerce websites): luận văn thạc sĩ

73 103 0
Giải pháp vượt qua sự ngăn chặn thu thập dữ liệu thương mại điện tử (An antianticrawling solution for data collection from ecommerce websites): luận văn thạc sĩ

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC LẠC HỒNG *** NGUYỄN TẤN NHÂN GIẢI PHÁP VƯỢT QUA SỰ NGĂN CHẶN THU THẬP DỮ LIỆU THƯƠNG MẠI ĐIỆN TỬ (An anti – anti – crawling solution for data collection from e-commerce websites) Luận văn thạc sĩ Công nghệ thông tin Đồng Nai – Năm 2017 BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC LẠC HỒNG *** NGUYỄN TẤN NHÂN GIẢI PHÁP VƯỢT QUA SỰ NGĂN CHẶN THU THẬP DỮ LIỆU THƯỢNG MẠI ĐIỆN TỬ (An anti – anti – crawling solution for data collection from e-commerce websites) Chuyên ngành : Công nghệ thông tin Mã số: 60480201 NGƯỜI HƯỚNG DẪN KHOA HỌC PGS TS ĐẶNG TRẦN KHÁNH Đồng Nai – Năm 2017 i LỜI CẢM ƠN Sau khoảng thời gian học tập rèn luyện trường Đại học Lạc Hồng, bảo tận tình q thầy q trình học tập, em hoàn tất luận văn tốt nghiệp cao học, em xin bày tỏ lòng biết ơn chân thành sâu sắc đến Ban giám hiệu, phòng sau đại học trường Đại học Lạc Hồng, đặc biệt PGS TS Đặng Trần Khánh người trực tiếp hướng dẫn tận tình, định hướng, giúp đỡ em với dẫn khoa học quý giá suốt trình triển khai, nghiên cứu hoàn thành đề tài “Giải pháp vượt qua ngăn chặn thu thập liệu thương mại điện tử (An anti-anticrawling solution for data collection from e-commerce websites)” Một lần em xin bày tỏ lòng chân thành cảm ơn quý Thầy Cô giáo trực tiếp giảng dạy, truyền đạt trãi nghiệm quý báu kiến thức khoa học chuyên ngành cho thân em suốt thời gian qua Và em xin gửi lòng biết ơn chân thành đến góp ý vơ thiết thực nhiệt tình từ bạn bè, đồng nghiệp giúp đỡ em hoàn thành luận văn Xin chân thành cảm ơn ! Đồng Nai, tháng 06 năm 2017 Học viên thực Nguyễn Tấn Nhân ii LỜI CAM ĐOAN Em xin cam đoan luận văn thực với đề tài “Giải pháp vượt qua ngăn chặn thu thập liệu thương mại điện tử (An anti-anti-crawling solution for data collection from e-commerce websites)” kết trình học tập, nghiên cứu khoa học độc lập, nghiêm túc Các giải pháp đưa luận văn trung thực chưa sử dụng, có nguồn gốc rõ ràng, phát triển từ giải pháp, tạp chí, cơng trình nghiên cứu công bố, website từ internet Mọi giúp đỡ cho việc thực luận văn em cảm ơn chân thành trích dẫn có rõ tác giả có sử dụng kết nghiên cứu có liên quan Các phương pháp nghiên cứu luận văn rút từ sở lý luận trình nghiên cứu Đồng Nai, tháng 06 năm 2017 Học viên thực Nguyễn Tấn Nhân iii TÓM TẮT LUẬN VĂN Đề tài: Giải pháp vượt qua ngăn chặn thu thập liệu thương mại điện tử (An anti – anti – crawling solution for data collection from e – commerce websites) Ngành: Công nghệ thông tin Mã số: 60.48.02.01 Học viên: Nguyễn Tấn Nhân Người hướng dẫn: PGS TS Đặng Trần Khánh NỘI DUNG TÓM TẮT Nội dung giao kết mong đợi người hướng dẫn  Nghiên cứu cách thức ngăn chặn thu thập thông tin website thương mại điện tử  Tìm hiểu giải pháp chiến thuật vượt qua ngăn chặn thu thập thông tin  Nghiên cứu cách thức phát triển ứng dụng web với giao diện thân thiện người dùng  Hiện thực giải thuật vượt qua ngăn chặn thu thập thông tin tảng web di động  Kiểm thử giải thuật  Viết báo cáo tổng kết luận văn Cách thức giải vấn đề  Tìm hiểu cách thức thu thập thơng tin website thương mại điện tử: Tìm hiểu từ nghiên cứu trước  Tìm hiểu báo cáo, báo khoa học trang web thực tế có thực giải pháp ngăn chặn thu thập thông tin: Thông qua sách, báo, website áp dụng giải pháp chống thu thập…  Nghiên cứu giải thuật vượt qua ngăn chặn thu thập thông tin website: Nghiên cứu từ báo khoa học  Tìm hiểu hệ quản trị sở liệu có khả lưu trữ liệu thương mại điện tử thu thập được: Tìm hiểu thơng qua sách, báo, internet,… iv  Đề xuất kiến trúc hệ thống công nghệ phù hợp với đề tài  Phát triển hệ thống thực kiểm thử: Xây dựng ứng dụng web từ đơn giản đến phúc tạp, tìm kiếm sửa lỗi ứng dụng; chạy kiểm thử Đánh giá mặt khoa học kết  Tìm hiểu giải pháp ngăn chặn thu thập liệu  Đề xuất, thực, kiểm thử giải pháp vượt qua ngăn chặn  Đưa giải pháp song song, khả mở rộng nhằm mục đích cải thiện hiệu suất hệ thống Những vấn đề tồn so với nội dung giao  Hiện hệ thống tích hợp với thiết bị Android, chưa hỗ trợ lượng lớn thiết bị iOS Cần học thêm Object – C Swift, trang bị thêm Macbook để tạo ứng dụng chạy thiết bị iOS  Giải pháp thay đổi Proxy Server thực web, chưa có Android  Kiểm thử cịn Để luận văn trở thành sản phẩm hoàn chỉnh tơi cần phải kiểm thử nhiều hơn, chi tiết Ngày 01 tháng năm 2017 NGƯỜI HƯỚNG DẪN HỌC VIÊN PGS TS Đặng Trần Khánh Nguyễn Tấn Nhân v MỤC LỤC LỜI CẢM ƠN i LỜI CAM ĐOAN ii TÓM TẮT LUẬN VĂN iii DANH MỤC BẢNG ix CHƯƠNG GIỚI THIỆU ĐỀ TÀI 1.1 Giới thiệu đề tài 1.2 Lý chọn đề tài 1.3 Mục tiêu chọn đề tài 1.4 Phương pháp thực 1.5 Cấu trúc luận văn CHƯƠNG CƠ SỞ LÝ THUYẾT 2.1 Hệ thống thu thập thông tin thương mại điện tử 2.2 Các chiến lược thu thập liệu 2.3 Các giải pháp ngăn chặn thu thập thông tin 12 2.3.1 Ngăn chặn cách mã hóa nội dung trang web 12 2.3.2 Ngăn chặn cách thử thách trả lời câu hỏi trang 13 2.3.3 Ngăn chặn cách giới hạn giám sát truy cập 14 2.3.4 Xác định địa IP, vị trí địa lý xuất phát kết nối đến web server 15 2.3.5 Thời gian lưu lại trang web khách hàng (Time on page) 16 2.3.6 Cách thức người dùng duyệt web thương mại điện tử 16 2.3.7 Xác định kết nối đến web server từ hệ điều hành, trình duyệt 17 2.3.8 Ngăn chặn cách thiết lập cấu hình tập tin robots.txt 20 2.4 Giải pháp vượt qua ngăn chặn thu thập liệu 21 2.5 Hệ quản trị sở liệu 21 2.5.1 ElasticSearch 21 2.5.2 MongoDB 29 2.6 Nền tản phát triển website 34 2.6.1 NodeJS 34 vi 2.6.2 Ưu điểm NodeJS 35 2.6.3 Nhược điểm NodeJS 36 2.6.4 ExpressJS 37 2.6.5 SocketIO 37 2.6.6 Xpath 39 2.6.7 CSS Selector 42 2.7 Ứng dụng Android 43 2.7.1 Môi trường phát triển Android Studio 44 2.7.2 Ngơn ngữ lập trình Java 45 CHƯƠNG PHÂN TÍCH VÀ THIẾT KẾ HỆ THỐNG 46 3.1 Phân tích hệ thống 46 3.3.1 Giải pháp chống Crawler 46 3.3.2 Giải pháp hiệu suất Anti – anti – Crawler 51 3.2 Thiết kế hệ thống 52 3.3 Cơ sở liệu 53 CHƯƠNG HIỆN THỰC HỆ THỐNG 55 4.1 Ứng dụng website 55 4.2 Ứng dụng mobile 57 CHƯƠNG KẾT LUẬN 59 5.1 Kết đạt 59 5.2 Hướng phát triển 59 TÀI LIỆU THAM KHẢO vii BẢNG DANH MỤC TỪ VIẾT TẮT Viết tắt Tiếng Anh Tiếng việt ASP.NET Active Server Pages BSON Binary JSON CSS Cascading Style Sheets CSDL Database Cơ sở liệu XHTML Extensible HyperText Markup Language Ngôn ngữ đánh dấu siêu liên kết mở rộng XML Extensible Markup Language Ngôn ngữ đánh dấu mở rộng XSL Extensile – Style – Langugue HTML Hypertext Markup Language PHP Hypertext Preprocessor HTTP HyperText Transfer Protocol ID Identification Định danh IP Internet Protocol Giao thức Internet JS Javar Script JSON Javascript Object Notation JSP JavaServer Pages LAMP Linux – Apache – MySQL – PHP MS SQL Microsoft Structure Query Language Ngôn ngữ truy vấn cấu trúc viii MVC Module – View – Controller OOP Object – Oriented Programming PDF Portable Document Format RSS Really Simple Syndication RDBMS Relational Database Management System REST API Representational State Tranfer Application Programming Interface TCP Transmission Control Protocol URI Uniform Resource Indentifier URL Uniform Resource Locator VPS Virtual Private Server WYSIWYG What You See Is What You Get Lập trình hướng đối tượng Hệ quản trị sở liệu quan hệ Giao thức điều khiển truyền Máy chủ riêng ảo Giao diện tương tác tức thời mắt thấy tay làm 46 CHƯƠNG PHÂN TÍCH VÀ THIẾT KẾ HỆ THỐNG 3.1 Phân tích hệ thống Quá trình thu thập liệu từ Crawler gây nên tình trạng chiếm dụng tài nguyên website làm cho việc đáp ứng cho yêu cầu người sử dụng thật bị chậm phải chờ xử lý nên nhà quản trị xử dụng giải pháp ngăn chặn thu thập liệu chúng Giải pháp vượt qua ngăn chặn thu thập liệu (Anti – anti – crawling solution) việc tìm cách, giải pháp để crawler lấy liệu từ website thương mại điện tử mà không bị trở ngại đặt để ngăn chặn trình lấy liệu Phần phân tích trình bày giải pháp chống crawler giải pháp song song khắc phục hiệu suất crawler 3.3.1 Giải pháp chống Crawler Trong phần trình bày giải pháp vượt qua giải pháp ngăn chặn crawler trình bày mục 2.3 chương o Đầu tiên, để vượt qua giải pháp chống crawler “Ngăn chặn cách mã hóa nội dung trang web” mục 2.3.1 hệ thống crawler khơng thể dùng phương thức HTTP GET để lấy trang web từ Server Vì nội dung trang web khơng hồn toàn nằm kết trả từ lần yêu cầu GET đến Web Server Nguyên nhân người quản trị web cố tình mã hóa liệu để chống crawler tối ưu tải website ưu tiên tải liệu đủ để hiển thị phần giao diện đầu tiên, liệu khác tiến hành tải sau Giải pháp để vượt qua cách ngăn chặn áp dụng trình duyệt web hỗ trợ JavaScript (Scriptable Web Browser) Những thư viện crawler không hỗ trợ JavaScript HTMLUnit bị loại Phantom.js, Nightmare.js hay Web View Android, iOS giải pháp tiềm Việc sử dụng JavaScript để vượt qua cách ngặn chặn cụ thể sử dụng webview Android hỗ trợ tốt JavaScript dễ sử dụng, thông 47 qua webview thành phần trang cần thu thập liệu tải theo trình tự thành phần cần lấy liệu thu thập trình tải hoàn tất, để biết thành phần tải đầy đủ trước tiến hành thu thập liệu dựa vào kiện tải trang webview, từ xác định thời điểm thực thu thập liệu o Khi chọn giải pháp chống crawler “Ngăn chặn cách thử thách trả lời câu hỏi trang đầu tiên” mục 2.3.2 người quản trị website phải cân nhắc tính tiện dụng người duyệt web mức độ chống crawler, hai điều mâu thuẫn Quản trị Website thiết lập mức độ chống crawler cao cách đặt câu hỏi khó trang đầu tiên, dùng captcha… Nhưng lúc đó, người dùng thực lại gặp khó khăn để trả lời câu hỏi nên khó vào nội dung trang web, gây nên khó sử dụng trang web Để vượt qua cách ngăn chặn hệ thống cần có khả nhúng mã JavaScript vào thực thi trình duyệt để nhấp (Click) vào nút nhấn, đưa đáp án vào ô kết câu hỏi, hay cao giải captcha Cụ thể với việc vượt qua thử thách nhấp chuột lên nút nhấn phải thực thi mã JavaScript trang welcome site để di chuyển trỏ chuột lên vị trị nút nhấn sau tiến hành thực thao tác giả lập người dùng thực với việc thực thi đoạn mã nhấn (click) lên nút o Với giải pháp “Ngăn chặn cách giới hạn giám sát truy cập” mục 2.3.3, hệ thống cần có chiến lược kết nối đến Web Server với lưu lượng hợp lý bao gồm thành phần trang web (CSS, JS, Image,…) tải theo lịch trình tuần tự, có khả song song tải nhiều tập tin lúc Nếu crawler tải số phần trang web dễ bị nghi ngờ web crawler Thường trang web thương mại điện tử Việt Nam có thời gian tải trang ngắn Dưới giây giây website thegioididong.com Do thị trường thương mại điện tử cạnh tranh 48 nên thời gian tải trang chậm vơ tình đẩy người dùng rời bỏ trang web duyệt để đến trang web tương tự nhà cung cấp khác Lấy ví dụ cho việc tải hình ảnh minh họa cho sản phẩm cụ thể giải pháp với việc tải trang theo lịch trình khả song song tải nhiều tập tin lúc Và với hai cách tải ảnh tức tải xong ảnh thứ sau tải ảnh (tuần tự) tải lúc ảnh thứ với ảnh thứ hai sau tải xong hai ảnh tiến hành tải tiếp hai ảnh thứ ba thứ tư (tuần tự song song) o Ngăn chặn cách “Xác định địa IP, vị trí địa lý xuất phát kết nối đến web server” mục 2.3.4 thiết bị chạy ứng dụng crawler cần thay đổi vị trí địa lý địa IP để vượt qua cách ngăn chặn Giải pháp thứ nhất, ứng dụng chạy thiết bị di động, chúng dựa vào di chuyển người dùng với việc kết nối Wifi, 3G địa điểm khác Với cách ứng dụng crawler tích hợp phần mềm ứng dụng có ích cho người dùng cho phép chạy ẩn ứng dụng đọc báo, tra cứu thông thông,… đồng thời trình chạy ẩn khơng gây thiệt hại cho người dùng trình tiến hành thu thập liệu không thu thập liệu người dùng sử dụng kết nối internet thông qua 3G,… Giải pháp thứ hai, kết nối thông qua Proxy Server Giải pháp áp dụng thiết bị di động thông minh cho ứng dụng crawler máy tính cá nhân giúp cho việc đánh giả vị trí địa lý Với cách sử dụng Proxy Server máy tính chưa thực thiết bị di động, việc cấu hình cho kết nối thơng qua Proxy Server tiến hành tự động người dùng cài đặt ứng dụng có tích hợp crawler vào Hình 3.1 bên mô tả trực quan cho việc đánh giả vị trí địa lý 49 Hình 3.1 Giả vị trí địa lý o Giải pháp chống crawler “Thời gian lưu lại trang web khách hàng (Time on page)” mục 2.3.5 quan tâm đến thời gian lại trang ngắn crawler dễ bị phát Nhưng thời gian lại trang web dài làm cho hệ thống crawler trở nên chậm chạp, khơng áp dụng thực tế Do đó, cấu hình cho crawler lưu lại trang web khoảng từ đến giây giải pháp cân Ngoài thời gian lưu lại trang web, crawler cần thực số hành vi giả dạng người dùng thật duyệt web, ví dụ như: Kéo trỏ dọc trình duyệt để xem nội dung trang web từ xuống dưới, nhấp click chuột vào số mục định trang web như: Nút like, favourite, nút xem chi tiết hay nút đặt mua để đưa sản phẩm vào giỏ hàng Các hành vi giả lập thực mã lệnh thêm vào có hệ thống crawler, để lưu lại thời gian website sử dụng lệnh thread.Sleep() thời gian cho việc dừng lại ứng với thời gian mà crawler lưu lại trang mà duyệt, lưu ý với lệnh thời gian tính theo phần 50 ngàn giây (millisecond), thao tác khác tương tự trình bày giải pháp thứ hai đề cập phần o Giải pháp “Cách thức người dùng duyệt web thương mại điện tử” mục 2.3.6 xét đường mà người dùng đến trang web Thường Web Server biết trang web liền trước trang web người dùng yêu cầu truy cập Dựa vào trang web liền trước này, Web Server biết kết nối đến qua đường trực tiếp hay gián tiếp Hệ thống nên tránh đường trực tiếp, ưu tiên đến trang web gián tiếp thông qua trang loại danh mục (Category) sản phẩm, trang tìm kiếm Google hay trang mạng xã hội Facebook,… Như với giải pháp crawler buộc phải theo trình tự đến với trang chi tiết phải thông qua bước khác Để làm điều thu thập xong trang, crawler quay lại trang trước (có thể trang chủ trang danh mục) sau đến trang chi tiết thơng qua trang tìm kiếm cách gán địa url trang chi tiết vào trang tìm kiếm sau trang trả kết thực mã lệnh nhấn chọn lên liên kết trả để đến trang chi tiết o Hệ thống chạy ứng dụng web crawler có khả chạy nhiều tảng hệ điều hành khác giả dạng hệ điều hành Một điều hệ điều hành nên tập trung vào nhóm phổ biến Windows 7, Windows 8.1, Windows 10,… chúng cần thuộc vào nhóm có độ tin cậy cao, hệ điều hành thiết bị di động thông minh iOS, Android, Windows phone… Hỉnh 3.2 biểu tượng logo cho hệ điều hành phổ biến đề cập Hình 3.2 Hệ điều hành phổ biến 51 Điều giúp cho hệ thống vượt qua giải pháp chống crawler “Xác định kết nối đến web server đến từ hệ điều hành, trình duyệt gì” mục 2.3.7 Các ứng dụng crawler kết nối đến Web Server cần phải đóng giả trình duyệt phổ biến, người dùng có xu hướng cài đặt nhiều trình duyệt web máy tính thiết bị di động thơng minh nên hệ thống biến đổi từ trình duyệt sang trình duyệt khác Giải pháp thực cách nhúng mã lệnh giã lập hệ điều hành, trình duyệt vào trình duyệt với phiên hợp lý chúng crawler khó phát ra, sử dụng HTMLUnit đề xuất tốt cho giải pháp giã lập Hình 3.3 thể trình duyệt phổ biến với biểu tượng logo tương ứng Hình 3.3 Các trình duyệt web phổ biến 3.3.2 Giải pháp hiệu suất Anti – anti – Crawler Khi áp dụng giải pháp vượt qua Anti – crawler hệ thống phải đóng người dùng thật duyệt web Điều làm cho tốc độ thu thập liệu web trở nên chậm nhiều crawler phải trì hỗn lại khoảng thời gian trang mà thu thập liệu cho việc giả lập hành vi người dùng kéo cuộn dọc, thực nhấn chọn lên số mục trang nút like, nút mua hàng bù lại ứng dụng crawler tập trung thiết bị di động nên hiệu suất hiệu cải thiện phần Bên cạnh đó, hệ thống có sử dụng thêm thành phần khác phải thông qua Proxy Server nơi xa so với nơi xuất phát kết nối để lấy liệu hiệu suất hệ thống giảm Để hệ thống áp dụng vào thực tế linh hoạt mở rộng để nhiều thiết bị kết nối vào hệ thống để crawl trang web Ngồi tính linh 52 hoạt, công nghệ kết nối thiết bị cần hỗ trợ đa tảng bao gồm: Website, Android, iOS,… 3.2 Thiết kế hệ thống Kiến trúc hệ thống mơ tả hình 3.4 bên với thành phần: Hình 3.4 Kiến trúc hệ thống Phía client gồm ứng dụng chạy hệ điều hành mobile mà cụ thể hệ điều hành mobile phổ biến Android, iOS, Windows phone Phía server gồm thành phần SocketIO để kết nối giữ kết nối server client; ExpressJS dùng để xây dựng trang web quản lý cấu hình server cho crawler theo mơ hình lập trình web MVC thơng dụng; NodeJS cung cấp Module JavaScript đa dạng, đa tảng để phát triển ứng dụng server liên quan đến mạng với ứng dụng viết JavaScript; Hệ quản trị CSDL mongoDB sử dụng cho việc lưu trữ liệu mà crawler thu thập 53 Cơ sở liệu 3.3 Bài toán khoa học luận văn vượt qua cản trở thu thập liệu từ nhà quản trị website Thiết kế sở liệu sau đáp ứng lưu trữ liệu cần thiết cho hệ thống Category CrawlResult _id websiteId (FK) name url page active selectorType selectorScript _id Categoryid (FK) url ip timestamp crawlerType html CrawlTask _id Categoryid (FK) url ip purpose Website _id name url status active Hình 3.5 Thiết kế sở liệu hệ thống - Tài liệu Website: o _id: Khóa o name: Tên gợi nhớ lưu thuộc tính o url: Địa trang web lưu thuộc tính o status: Trạng thái trang web o active: Quyết định trang web có trạng thái tích cực hay khơng Trạng thái tích cực crawl - Tài liệu Category: o websiteId: Để xác định danh mục thuộc website cụ thể o Name: Dùng để lưu tên gợi nhớ danh mục o url: Địa cụ thể trang web cần lưu lại để phục vụ cho trình thu thập liệu 54 o page: Để lưu lại cách thức trang web quy định phân trang sản phẩm Ví dụ trang web bán máy vi tính vật giá http://www.vatgia.com/446/may-vi-tinh.html Vật giá phân trang cách thêm dấu phẩy số trang phía sau địa url Khi trang có giá trị {url},{page} Trang thứ, bán máy tính thứ 10 vật giá http://www.vatgia.com/446/may-vi-tính.html,10 o active: Xác định Category có thu thập liệu hay khơng o selectorType: Cho biết kiểu cách thức hệ thống rút trích url sản phẩm trang web category Các cách rút trích bao gồm: CSS Selector, Xpath o selectorScript: Cách thức rút trích để thực bóc tách url khỏi trang Category - Tài liệu CrawlResult: o url: Xác định trang web có địa thuộc danh mục categoryId thu thập liệu o ip: Địa IP thiết bị thực việc thu thập liệu o timestamp: Khoản thời gian định cho việc thu thập liệu o crawlType: Xác định trang web thu thập đường trực tiếp, gián tiếp qua Google qua trang category o Html: Nội dung trang web lấy - Tài liệu CrawlTask: Chứa tác vụ thu thập liệu o url: Địa trang web cần thu thập liệu o categoryId: Danh mục trang web o ip: Chứa địa thiết bị thu thập liệu, thuộc tính chứa giá trị Null nghĩa Task trạng thái chờ o purpose: Xác định mục đích thu thập trang web cụ thể Có hai mục đích crawl nội dung sản phẩm crawl trang web danh mục Nội dung sản phẩm lưu vào tài liệu CrawlResult, kết crawl trang danh mục dùng để phân tích, rút trích sản phẩm tạo Task 55 CHƯƠNG HIỆN THỰC HỆ THỐNG 4.1 Ứng dụng website Khi thu thập liệu hình trang web hiển thị hình 4.1 bên dưới: Hình 4.1 Thu thập liệu website thương mại điện tử 56 Website thương mại điện tử có giao diện hình 4.2 bên dưới: Hình 4.2 Website quản lý trang web cần thu thập liệu Website quản lý danh mục có giao diện hình 4.3 bên dưới: Hình 4.3 Website quản lý danh mục trang web cần thu thập liệu 57 Website quản lý thông tin chi tiết danh mục hiển thị hình 4.4 bên dưới: Hình 4.4 Website quản lý thơng tin danh mục website 4.2 Ứng dụng mobile Hệ thống xây dựng phép dễ dàng mở rộng theo chiều ngang Ứng dụng mobile thiết kế để nhận tác vụ thu thập liệu dễ dàng Hệ thống dùng Socket.IO để chuyển Task từ Server phía ứng dụng Android Đoạn mã hình 4.5 thể kết nối Socket.IO với Web Server sẵn sàng nhận tác vụ thu thập liệu Hình 4.5 Kết nối web server nhận tác vụ Khi nhận tác vụ từ Web Server, ứng dụng Android thiết lập cấu hình để hỗ trợ JavaScript, giả lập trình duyệt phổ biến Đoạn mã hình 4.6 bên thiết lập hỗ trợ JavaScript giả lập trình duyệt Web Chrome hệ điều hành Window 10 để thu thập liệu website thương mại điện tử Hình 4.6 Giả lập trình duyệt Chrome hệ điều hành Windows 10 58 Khi đoạn mã (code) thực thi ứng dụng Android hiển thị trang web thương mại điện tử hình 4.7 bên Hình 4.7 Ứng dụng Android thu thập liệu website thương mại điện tử Kết thu thập liệu truyền lên Web Server để lưu lại Khi ứng dụng Android tắt, đoạn mã hình 4.8 thực thi để khỏi kết nối hệ thống Hình 4.8 Ngắt kết nối web server 59 CHƯƠNG KẾT LUẬN Kết đạt 5.1 Qua luận văn này, tơi tìm hiểu cách thức thu thập liệu, cách thức quản trị viên website ngăn chặn việc thu thập liệu Từ đó, đề xuất giải pháp vượt qua ngăn chặn để có liệu thương mại điện tử mong muốn Anti – anti – crawler cho thấy cần thiết nó, giá phải trả hiệu suất thu thập trang web bị giảm xuống Kết luận văn giải pháp kết hợp website ứng dụng mobile chạy hệ điều hành Android Việc kết hợp cho phép song song nhiều thiết bị crawler tham gia vào hệ thống chung Vượt qua ngăn chặn thu thập liệu toán khoa học luận văn, nâng cao hiệu suất thu thập liệu giúp hệ thống khả thi thực tế Hướng phát triển 5.2 Do thời gian phát triển luận văn ngắn nên luận văn cịn nhiều thiếu sót Đây hướng phát triển hệ thống Anti – anti – crawler thời gian tới Cụ thể sau: - Hiện hệ thống tích hợp thiết bị Android, chưa hỗ trợ lượng lớn thiết bị iOS Cần nghiên cứu thêm Object – C Swift, trang bị thêm Macbook để tạo ứng dụng chạy thiết bị iOS - Giải pháp thay đổi Proxy Server thực web, chưa có Android - Kiểm thử cịn Để luận văn trở thành sản phẩm hồn chỉnh cần phải kiểm thử nhiều hơn, chi tiết TÀI LIỆU THAM KHẢO  TÀI LIỆU TIẾNG ANH [1] Daniel J Abadi, Samuel R Madden and Babil Hachem, 2008 Column-Stores vs Row-Stores: How Different Are They Really ? In the Association for Computing Machinery’s Special Interest Group on Management of Data (SIGMOD) [2] Distributed data processing with Hadoop, M Tim Jones, 03/06/2010 [3] Gaurav Vaish, 2013 Getting Started with NoSQL Packt Publishing Ltd [4] Gautam Pant, Padmini Srinivasan, Filoppo Menczer Crawling the Web Web Dynamics 2004, pp 153-178 [5] He, Ling “System and method for preventing web crawler access.” U.S Patent No.9, 203, 863 Dec 2015 [6] Ian Robinson, Jim Webber and Emil Eifrem, 2nd edition, 2016 Graph Database new opportunities for connected data O’Reilly Media [7] Marcia Kaufman, Fern Halper, Alan Nugent, Judith Hurwitz, 2013 Big data for dummies John Wiley & Sons [8] Mike Wilson, 2012 Building Node Application with MongoDB and Backbone O’Reilly Media [9] Tom White, 3rd edition, 2012 Hadoop the definitive guide O’Reilly Media [10] Tran Khanh Dang, Duc Dan Ho, Duc Minh Chay Pham, An Khuong Vo, Huu Huy Nguyen: A Cross-checking based Method for Fraudulent Detection on E-commercial Crawling Data In proceedings of the 2016 Internetional Conference on Advanced Computing and Applications (ACOMP 2016), IEEE CPS, ISBN 987-1-5090-6143-3, Can Tho City, VietNam, November 23-25, 2016, pp 32-41 ... dụng giải pháp để ngăn chặn thu thập liệu chúng Giải pháp vượt qua ngăn chặn thu thập liệu (Anti – anti – crawling solution) việc tìm cách, giải pháp để crawler lấy liệu từ website thương mại điện. .. nghiên cứu giải thu? ??t vượt qua ngăn chặn thu thập thông tin thị trường thương mại điện tử 1.2 Lý chọn đề tài Đề tài luận văn thạc sĩ “Hệ thống thu thập liệu thị trường thương mại điện tử? ?? học viên... CAM ĐOAN Em xin cam đoan luận văn thực với đề tài ? ?Giải pháp vượt qua ngăn chặn thu thập liệu thương mại điện tử (An anti-anti-crawling solution for data collection from e-commerce websites)”

Ngày đăng: 16/08/2020, 10:35

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan