Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 62 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
62
Dung lượng
1,66 MB
Nội dung
BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC LẠC HỒNG *** CAO THỊ HỒNG SANH XÂY DỰNG HỆ THỐNG NHẰM XÁC THỰC DỮ LIỆU THU THẬP TỪ NHIỀU NGUỒN KHÁC NHAU Luận văn thạc sĩ Công nghệ thông tin Đồng Nai – Năm 2017 BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC LẠC HỒNG *** CAO THỊ HỒNG SANH XÂY DỰNG HỆ THỐNG NHẰM XÁC THỰC DỮ LIỆU THU THẬP TỪ NHIỀU NGUỒN KHÁC NHAU Chuyên ngành : Công nghệ thông tin Mã số: 60480201 NGƯỜI HƯỚNG DẪN KHOA HỌC PGS TS ĐẶNG TRẦN KHÁNH Đồng Nai – Năm 2017 i LỜI CẢM ƠN Tôi xin gửi lời cảm ơn đến thầy cô giáo trường Đại học Lạc Hồng – Đồng Nai quan tâm tổ chức đạo trực tiếp giảng dạy khoá cao học Cảm ơn cha (mẹ), thầy cô, bạn bè, đồng nghiệp người thân gia đình, người dạy bảo ủng hộ suốt trình học tập Đặc biệt, tơi xin gửi lời cảm ơn chân thành đến thầy giáo hướng dẫn PGS.TS Đặng Trần Khánh, người tận tình bảo góp ý mặt chuyên môn cho suốt trình làm luận văn Nếu khơng có giúp đỡ thầy tơi khó hồn thành luận văn Trong suốt trình làm luận văn, thân tơi cố gắng tập trung tìm hiểu, nghiên cứu tham khảo thêm nhiều tài liệu liên quan Tuy nhiên, thân bắt đầu đường nghiên cứu khoa học, chắn luận văn cịn nhiều thiếu sót Tơi mong nhận bảo Thầy, Cô giáo góp ý bạn bè, đồng nghiệp để luận văn hồn thiện Cuối cùng, tơi xin chúc sức khỏe Quý thầy cô bạn bè, đồng nghiệp ủng hộ, động viên để yên tâm nghiên cứu hoàn thành luận văn Đồng Nai, tháng 07 năm 2017 Học viên thực Cao Thị Hồng Sanh ii LỜI CAM ĐOAN Tôi cam đoan luận văn “Xây dựng hệ thống xác thực liệu thu thập từ nhiều nguồn khác nhau” cơng trình nghiên cứu thân Tài liệu tham khảo tơi có sử dụng nêu rõ phần Tài liệu tham khảo Các số liệu, kết nêu luận văn trung thực chưa công bố cơng trình khác Tơi xin chịu trách nhiệm nghiên cứu mình! Đồng Nai, tháng 07 năm 2017 Học viên thực Cao Thị Hồng Sanh iii TÓM TẮT LUẬN VĂN Đề tài: Xây dựng hệ thống nhằm xác thực liệu thu thập từ nhiều nguồn khác Ngành: Công nghệ thông tin Mã số: 60.48.02.01 Học viên: Cao Thị Hồng Sanh Người hướng dẫn: PGS TS Đặng Trần Khánh NỘI DUNG TÓM TẮT Nội dung giao kết mong đợi người hướng dẫn - Nghiên cứu cách thức thu thập thông tin Website thương mại điện tử - Nghiên cứu cách thức phân tích, rút trích thơng tin sản phẩm từ mã nguồn Web - Tìm hiểu giải pháp chiến thuật xác thực liệu thu thập từ nhiều nguồn khác - Hiện thực giải pháp - Kiểm thử giải thuật - Viết báo cáo tổng kết luận văn Cách thức giải vấn đề - Tìm hiểu cách thức thu thập thông tin Website thương mại điện tử qua nghiên cứu trước - Nghiên cứu giải thuật xác thực thông tin Website qua nghiên cứu từ báo khoa học - Tìm hiểu hệ quản trị sở liệu có khả lưu trữ liệu thương mại điện tử thu thập được: Tìm hiểu thơng qua sách, báo, internet… - Đề xuất kiến trúc hệ thống công nghệ phù hợp với đề tài - Phát triển hệ thống thực kiểm thử iv Đánh giá mặt khoa học kết - Tìm hiểu giải pháp thu thập thông tin Website thương mại điện tử - Đề xuất giải pháp xác thực liệu thu thập, tăng độ xác liệu để kết phân tích sau xác, tin cậy - Cải thiện hệ thống thông qua khả mở rộng song song thu thập liệu Những vấn đề tồn so với nội dung giao (nếu có) Ngày 01 tháng năm 2017 NGƯỜI HƯỚNG DẪN HỌC VIÊN PGS TS Đặng Trần Khánh Cao Thị Hồng Sanh v MỤC LỤC LỜI CẢM ƠN .i LỜI CAM ĐOAN ii TÓM TẮT LUẬN VĂN iii BẢNG DANH MỤC TỪ VIẾT TẮT vii DANH MỤC BẢNG viii BẢNG DANH MỤC HÌNH .ix CHƯƠNG TỔNG QUAN 1.1 Tổng quan đề tài 1.2 Mục đích đề tài 1.3 Mục tiêu chọn đề tài 2.1 Hệ thống thu thập liệu 2.1.1 Chương trình thu thập liệu 2.1.2 Vòng thu thập liệu Website 2.2 Phương pháp thu thập liệu 2.2.1 Trình thu thập đa luồng 2.2.2 Các thuật toán thu thập liệu 11 2.3 Lược sử kho lưu trữ trang 14 2.4 Mơ hình thẻ HTML dạng 15 CHƯƠNG PHÂN TÍCH THIẾT KẾ HỆ THỐNG XÁC THỰC DỮ LIỆU THU THẬP ĐƯỢC 17 3.1 Các giải pháp thu thập trang Web 17 3.1.1 Trình duyệt PhanTomJS 17 3.1.2 Thư viện HtmlUnit 19 3.1.3 Webview thiết bị di động 20 3.2 Các giải pháp rút trích liệu trang Web 21 3.2.1 Xpath 21 3.2.2 Regex (Regular Expresion – Biểu thức quy) 24 Bảng 3.1 Các quy tắc Regex 26 vi 3.2.3 CSS Selector 28 3.3 Giải pháp xác thực liệu 29 3.3.1 Giải pháp xác thực liệu thông qua chiến thuật trùng lắp thu thập 29 3.3.2 Giải pháp xác thực liệu dựa bất thường nội dung 30 CHƯƠNG THIẾT KẾ HỆ THỐNG 39 4.1 Kiến trúc hệ thống thu thập liệu 39 4.1.1 Kiến trúc tổng quan hệ thống 39 4.1.2 Kiến trúc thành phần thu thập liệu 40 4.1.3 Thành phần tiền xử lý liệu 45 4.1.4 Kiến trúc thành phần rút trích liệu 46 4.1.5 Kiến trúc thành phần xác thực liệu 48 CHƯƠNG KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 49 5.1 Đánh giá kết đặt 49 5.1.1 Ưu điểm 49 5.1.2 Hạn chế 49 5.2 Đối với yêu cầu đề tài: Đạt 49 TÀI LIỆU THAM KHẢO vii BẢNG DANH MỤC TỪ VIẾT TẮT Viết tắt Tiếng Anh Tiếng việt C2C Customer to Customer Khách hàng với Khách hàng HTTP/HTTPs HyperText Transfer Protocol/ Hyper Text Transfer Protocol Secure Giao thức truyền tải siêu văn URL Uniform Resource Locator HTML HyperText Markup Language XML eXtensible Markup Language DOM Document Object Model CSS Cascading Style Sheets JSON Javascript Object Notation XPath XML Path Language Regex Regular Expression SVG Scalable Vector Graphics Med Median Số trung vị IP Internet Protocal Giao thức Internet MC MedCouple Web-API Web Application Programming Interface Ngôn ngữ đánh dấu Siêu văn Ngơn ngữ đánh dấu mở rộng Mơ hình đối tượng tài liệu Các tập tin định kiểu theo tầng Biểu thức quy viii DANH MỤC BẢNG Bảng 3.1 Các quy tắc Regex Bảng 3.2 Bảng Tập liệu 1, Tập liệu Bảng 3.3 Bảng phân loại số từ theo thể loại Bảng 3.4 Bảng ước lượng xác suất từ Bảng 3.5 Bảng tập liệu Bảng 3.6: Bảng tập liệu giá 64 mẫu giá điện thoại Samsung Galaxy S6 edge Bảng 3.7: Bảng dùng phương pháp thống kê Adjust Boxplot phát giá trị Oulines 37 Bảng 3.6: Bảng tập liệu giá 64 mẫu giá điện thoại Samsung Galaxy S6 edge Tập x1 xn (n=64) giá phần tử 64 mẫu giá điện thoại Samsung Galaxy S6 edge với đơn vị tính 1.000 đồng 6.500 3.900 2.500 4.000 7.500 7.500 5.600 15.000 5.000 3.950 6.000 4.200 7.000 8.500 5.700 3.900 3.800 2.000 7.000 3.950 8.000 9.000 5.900 4.800 3.900 4.000 3.800 4.050 8.500 3.900 4.000 3.800 4.000 3.800 4.500 4.100 14.500 4.200 3.990 4.600 5.500 4.500 4.300 4.200 6.000 4.100 4.090 4.700 6.000 4.300 5.200 5.300 5.800 5.900 5.500 4.900 4.750 4.100 9.900 5.700 5.750 6.000 8.900 8.000 Tính tứ phân vị theo bước sau: B1: Sắp xếp liệu mẫu theo thứ tự tăng dần x1 ≤ ≤ xn B2: Nếu (n+1)*p số nguyên phân vị mức (100p) giá trị thứ (n+1)*p thống kê thứ tự B3: Nếu (n+1)*p số nguyên tách thành phần nguyên r cộng với phân số a/b, ta tính trung bình có trọng số giá trị thứ r (r+1) thống kê thứ tự phân vị mức (100p) giá trị thứ (n+1)*p thống kê thứ tự Phân vị mẫu mức (100p) xác định công thức: Bảng 3.7: Bảng dùng phương pháp thống kê Adjust Boxplot phát giá trị Oulines x1….x64 với đơn vị tính 1.000 đồng để thực dãy mẫu phải thỏa x1≤x2,…, ≤xn 2.000 2.500 3.800 3.800 3.800 3.800 3.900 3.900 3.900 3.900 3.950 3.950 3.990 4.000 4.000 4.000 4.000 4.050 4.090 4.100 4.100 4.100 4.200 4.200 4.200 4.300 4.300 4.500 4.500 4.600 4.700 4.750 4.800 4.900 5.000 5.200 5.300 5.500 5.500 5.600 5.700 5.700 5.750 5.800 5.900 5.900 6.000 6.000 6.000 8.000 6.000 8.500 6.500 8.500 7.000 8.900 7.000 9.000 7.500 9.900 7.500 14.500 8.000 15.000 38 Ta tính Q1, Q2, Q3 dùng hàm QUARTILE(Array,quart) Ứng với: Array chứa 64 giá trị giá bảng 3.7 (tương ứng vùng liệu $A$2:$A$65 Excel); quart =1, tính giá trị tứ phân vị thứ (Q1); quart =2, tính giá trị trung vị (Q2); quart =3, tính giá trị tứ phân vị thứ ba (Q3) Vậy Q1 =QUARTILE($A$2:$A$65 ;1) = 4.000.000 Q2 =QUARTILE($A$2:$A$65 ;2) = 4.775.000 Q3 =QUARTILE($A$2:$A$65 ;3) =6.000.000 Khoảng cách IQR = Q3-Q1 = 6.000.000 - 4.000.000 = 2.000.000 Vì số mẫu n = 64 nên giá trị Median dãy X là: Theo công thức (*) để thõa điều kiện xi ≤ medk ≤ xj nên ta chọn xi = 4.700.000; xj = 4.900.000 Do đó: Cận dưới: Q1 – 1,5 *e-3.5*MC * IQR = 4.000.000 – 1.5*e-0.875*2.000.000 = 2.769.730 Cận trên: Q3 + 1,5* e4*MC* IQR = 6.000.000 +1.5*e4*0.25*2.000.000 =14.154.845 Do thu thập liệu giá 64 mẫu điện thoại Samsung Galaxy S6 edge dùng phương pháp thống kê Adjust Boxplot giá trị sau cho phần tử dị biệt: 2.000.000; 2.500.000; 14.500.000; 15.000.000 giá trị giá nằm ngồi khoảng [2.769.730; 14.154.845] cho bất thường 39 CHƯƠNG THIẾT KẾ VÀ PHÁT TRIỂN HỆ THỐNG 4.1 Kiến trúc hệ thống 4.1.1 Kiến trúc tổng quan hệ thống Hình 4.1 Kiến trúc tổng quan hệ thống Cách hoạt động hệ thống Dữ liệu thu thập crawling service trải qua trình tiền xử lý liệu để sau lưu trữ xử lý tảng Elastic search Hadoop Các tri thức phân tích từ liệu trực quan hóa giúp cho người sử dụng có nhìn tổng quan liệu dễ dàng đưa định Tóm tắt thành phần hệ thống: - Web server: Là nơi chứa liệu trang web thương mại điện tử, quản lý hoàn toàn chủ trang web - Crawling Service: Là dịch vụ, giải pháp thu thập liệu Thành phần cố gắng lấy liệu từ trang web rút trích số thơng tin liệu - Data Pre-processing (tiền xử lý liệu): Dữ liệu thu thập liệu thô, việc khai phá liệu đòi hỏi liệu phải xử lý để đảm bảo vấn đề chất lượng nhiễu, bất thường… thành phần Pre-processing tiến hành tiền xử lý liệu trả từ Crawling Service - Data warehouse (Lưu trữ Big Data): Tại Việt Nam lĩnh vực thương mại điện tử phát triển mạnh thời gian gần Bằng chứng Doanh nghiệp lên nhanh chóng nhờ thương mại điện tử như: Lazada, Vatgia, Tiki…, 40 đầu năm 2016, Việt Nam thức gia nhập hiệp định thương mại TPP mở cửa cho Doanh nghiệp nước ạt đầu tư vào lĩnh vực thương mại điện tử Việt Nam Có hàng trăm ngàn giao dịch ngày thực hiện, liệu thu thập từ Crawling Service lên đến vài trăm Gigabyte ngày Việc lưu trữ phân tích liệu truyền thống khơng cịn thích hợp cho liệu có tốc độ sinh trưởng lớn Do liệu sau thu thập, tiền xử lý xác thực lưu trữ xử lý tảng Big Data, sử dụng phương pháp lưu trữ phân tán xử lý song song nhằm tối thiểu hóa khó khăn mà phương pháp lưu trữ xử lý truyền thống gặp phải Đồng thời việc áp dụng kiến trúc Big Data giúp cho trình xử lý liệu lớn cách nhanh chóng đảm bảo tính thời liệu - Data analyzer: Phân tích liệu giai đoạn quan trọng luồng liệu Big Data với mục đích rút trích liệu có ích, cung cấp đề xuất định Đây phần phân tích để xác thực liệu, cụ thể hiệ thực giải pháp xác thực liệu dựa bất thường nội dung - Data visualization: Để có nhìn tổng quan liệu, tình hình thương mại điện tử Việt Nam địi hỏi liệu sau phân tích phải trực quan hóa tảng web, mobile… thành phần Data visualization hệ thống sử dụng Elastic Search để truy vấn liệu trực quan hóa tảng web 4.1.2 Kiến trúc thành phần thu thập liệu Phân tích cấu trúc trang Web thương mại điện tử Xem xét mơ hình tổng qt Website thương mại điện tử Website chia thành nhiều mục lớn (Category) lĩnh vực lớn, category lại phân làm nhiều mục nhỏ (Sub-category) lĩnh vực nhỏ, phân mục nhỏ (Sub-category) lại phân làm nhiều phân mục nhỏ nữa, phân mục nhỏ nhất, phân mục nhỏ chứa trang danh sách URL liên kết đến trang chi tiết sản phẩm thuộc phân mục 41 Dựa vào đặc tính trang web thương mại điện tử ta phân loại URL trang web thương mại điện tử sau: - URL đăng: Là URL mà request Web server trả liệu chi tiết sản phẩm trang web thương mại điện tử Và hệ thống dùng URL để lấy liệu đăng bao gồm: Tên viết, thông tin user đăng viết, danh mục viết, địa điểm mua bán, thời gian đăng… - URL trang danh mục: Là URL mà request Web server trả liệu chứa URL đăng URL trang danh mục khác Đa số trang Web thương mại điện tử sử dụng mơ hình phân trang (Pagination) xử lý Request HTTP get để trả liệu Do viết trang danh mục trang web phân biệt với qua URL Ta dùng URL làm đơn vị nhỏ để thực thu thập liệu Ta mơ hình hóa trang web theo sơ đồ với URL URL trang danh mục URL đăng Hình 4.2 Sơ đồ mơ hình hóa trang web Một số khái niệm - Bậc (Level) URL: Là độ sâu cần duyệt từ URL ban đầu đến URL đó, bậc URL ban đầu 42 - Độ sâu thu thập (Deep of crawl): Là bậc cao URL thu thập Phân loại website thương mại điện tử dựa vào cách lấy liệu Dựa vào đặc tính website thương mại điện tử phân loại website để lấy liệu làm loại: - Website dùng phương thức HTTP Get lấy HTML có chứa tất thông tin hiển thị trang web - Website dùng phương thức HTTP Get lấy HTML chứa đoạn mã JavaScript để sinh HTML load browser - Website dùng phương thức HTTP Get lấy HTML có phần chứa số thông tin hiển thị website phần lại chứa JavaScript để sinh HTML load browser Để thuận tiện ta quy ước loại website để lấy liệu từ xuống loại I, loại II, loại III Sau cách xử lý loại Loại I: Trong loại website để lấy liệu loại I loại dễ dàng lấy liệu Ta cần dùng HTTP Get để lấy HTML lấy thông tin nằm Việc phân tích HTML để lấy xác thơng tin cần thiết vơ đơn giản Loại II: Đây loại website vô phức tạp để thu thập hầu hết website áp dụng mơ hình để xây dựng Các website có Web-API vơ mạnh mẽ để tương tác với sở liệu Nhìn chung có hai cách để lấy liệu loại website này: Thứ đọc hiểu cấu trúc code để tìm Web-API dựa vào lấy thông tin lưu trữ Database Đối với cách thức thời gian lấy liệu nhanh tốc độ truy xuất Database dựa vào Web-API tối ưu Nhưng hạn chế việc làm cần phải có kiến thức rộng tảng web, khơng tìm Web-API trang web có sử dụng tool để rút gọn soure code (minification) 43 Thứ hai giả lập browser để sinh HTML chứa thông tin cần lấy từ sử dụng lấy liệu loại I Giải pháp giúp dễ dàng lấy thơng tin mà khơng cần nhiều hiểu biết tảng web, đồng thời xử lý trang Web sử dụng Tool để rút gọn Soure code (Minification) Tuy nhiên hạn chế cách thời gian tài nguyên máy để lấy liệu tiêu tốn nhiều nhiều lần so với cách thứ phải giả lập Browser để chạy Loại III: Đây loại website kết hợp loại I loại II nên cách xử lý kết hợp phương pháp nêu loại I, loại II để xử lý Xây dựng Crawler thu thập liệu trang thương mại điện tử Dựa vào phân tích thấy đa số trang web thương mại điện tử có cấu trúc URL giống việc lấy liệu sản phẩm phức tạp trang có cách lấy khác hồn tồn, ví dụ có web phải parse hình ảnh để lấy số điện thoại phải bấm vào số điện thoại Vì chúng tơi xây dựng hệ thống thu thập liệu cách xây dựng web crawler dùng để lấy tất URL đăng có trang web web scraping riêng biệt cho trang web dùng để lấy tất liệu sản phẩm từ URL đăng Các bước thực Web Crawler Bước 1: Bắt đầu với URLs cho trước, hệ thống cho URLs vào Queue Bước 2: Nếu Queue rỗng tới Bước 10 ngược lại dùng Pop lấy URL Queue để xử lý Bước 3: Kiểm tra URL có hợp lệ hay khơng khơng hợp lệ trở Bước Bước 4: Lấy nội dung trang web từ URL Bước 5: Trích xuất tất URL có nội dung lưu vào danh sách 44 Bước 6: Nếu danh sách rỗng trở Bước 2, ngược lại lấy URL có danh sách Kiểm tra URL có Queue Database hay khơng, có qua Bước Bước 7: Kiểm tra URL có phải URL đăng hay khơng, có lưu URL vào Database tới Bước Bước 8: Thêm URL vào Database Bước 9: Xóa URL khỏi danh sách quay lại Bước Bước 10: Kết thúc Quá trình thể theo hình Hình 4.3 Lưu đồ hệ thống webcrawler Các bước thực web scraping Bước 1: Lấy tất URLs chưa xử lý từ Database cho vào Queue Bước 2: Nếu Queue rỗng tới Bước ngược lại dùng Pop lấy URL Queue để xử lý Bước 3: Lấy nội dung trang web từ URL Parse nội dung để lấy liệu lưu vào Database Bước 4: Đánh dấu URL xử lý Database 45 Bước 5: Quay Bước Bước 6: Kết thúc Quá trình thực theo hình đây: Hình 4.4 Lưu đồ hệ thống Web Scraping 4.1.3 Thành phần tiền xử lý liệu Dữ liệu thu thập liệu thô lưu trữ trực tiếp liệu khó khăn q trình khai phá liệu chí làm cho q trình khai phá liệu khơng xác liệu nhiễu…Do ta cần có chế tiền xử lý liệu Luận văn thực liệu từ trang web thương mại điện tử bao gồm chotot.vn, nhattao.com, muaban.net, vatgia.com có nhiều vấn đề liệu cần phải tiền xử lý như: - Số điện thoại thể dạng ảnh văn (Text) thông thường - Giá sản phẩm có nhiều kiểu định dạng khác như: 1.000.000VND, triệu đồng… 46 - Các đăng bị thiếu nhiều liệu quan trọng: số điện thoại, giá, địa chỉ… Để giải vấn đề liệu nêu thực sau: - Đối với liệu dạng hình ảnh phát triển cơng cụ nhận diện hình ảnh với độ xác 100% Các trang web thường hiển thị số điện thoại người dùng dạng hình ảnh lý bảo mật chống crawl Dữ liệu số điện thoại liệu vô quan trọng nhạy cảm địi hỏi phải có cơng cụ nhận dạng xác 100% khơng nhỏ Thuận lợi nhận dạng hình ảnh hiển thị số điện thoại trang web đạt độ xác 100% số điện thoại tạo máy tính định dạng hình ảnh hiển thị luôn giống nhau, khác số điện thoại bên tạo thuận lợi cho việc xây dựng tập liệu huấn luyện (training data) để học nhận diện số điện thoại từ hình ảnh trang web trả - Đối với giá sản phẩm thể nhiều dạng khác phát triển cú pháp định dạng giá từ trang web, định dạng giá công cụ chuẩn hóa dạng chuỗi số (ví dụ 1000000) - Đối với đăng bị thiếu nhiều liệu quan trọng ta chọn giải pháp bỏ qua đăng coi liệu nhiễu 4.1.4 Kiến trúc thành phần rút trích liệu Hình 4.5 Kiến trúc mơ hình rút trích liệu Dữ liệu sau thu thập dạng văn HTML thô, hệ thống khơng thể tiến hành phân tích dựa nguồn liệu thô thu thập 47 Nói cách khác liệu văn HTML thơ chưa đem lại giá trị cho hệ thống mặt thơng tin rút trích trở thành thuộc tính quy định sẵn, để hệ thống dễ dàng thao tác thơng tin này, từ trở nên hữu dụng Do cần phát triển mơ hình rút trích thơng tin từ liệu thu thập Kiến trúc mơ hình rút trích liệu hồn tồn độc lập với thành phần khác hệ thống, tương tác với qua liệu đăng chứa sở liệu chung Hình thể sơ đồ luồng liệu liệu rút trích hệ thống Hình 4.6 Sơ đồ dịng liệu rút trích Scheduler: Chương trình định thời hệ thống, chương trình quy định thời gian mà Parse bắt đầu thực cơng việc Sheduler thiết lập để sau khoảng thời gian định khởi động Parse để bắt đầu rút trích liệu từ văn thơ 48 Parse: Thành phần chức rút trích liệu Parse thực thành khối nhìn chung bao gồm hai nhóm Nhóm (1): Đóng vai trị truy xuất cập nhật sở liệu suốt q trình rút trích liệu Nhóm (2): Đóng vai trị phân tích rút trích nội dung lưu HTML 4.1.5 Kiến trúc thành phần xác thực liệu Hình 4.7 Kiến trúc mơ hình xác thực Anomalies Detection: Thành phần làm nhiệm vụ phát URL bất thường danh sách URL đầu vào dựa vào mối quan hệ phụ thuộc nhóm thuộc tính liệu đăng Mọi liệu vừa thu thập kiểm tra thành phần Threshold Check: Kiểm tra số lượng URL cần thu thập lại Đây URL đánh dấu bất thường sau qua thành phần Anomalies Detection Nếu số lượng chưa vượt qua ngưỡng số URL cần thu thập lại, URL bỏ qua thành phần Anomalies Detection đưa vào thành phần Weighted Selection Weighted Selection: Làm nhiệm vụ lựa chọn URL bị bỏ qua thành phần Anomalies Detection số lượng cần thiết để thu thập lại dựa trọng số gán cho nhóm URL 49 CHƯƠNG KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 5.1 Đánh giá kết đặt Kết luận văn hệ thống thu thập liệu thương mại điện tử tập trung vào môi trường C2C Hệ thống có ưu điểm hạn chế sau: 5.1.1 Ưu điểm Nghiên cứu cách thu thập liệu từ nhiều nguồn khác Đặc biệt môi trường C2C thu thập liệu cách tốt để tìm hiểu thị trường nhằm định đầu tư tái đầu tư vào lĩnh vực thương mại điện tử với mục đích đem lại hiệu cho nhà đầu tư tránh gây lãng phí cho xã hội Bởi mẫu tin đăng tải gian lận xảy trường hợp cố ý người đăng tin làm mẫu tin bật lơi kéo tị mị khách hàng; Trường hợp khác đối thủ cạnh tranh muốn nhà cung cấp dịch vụ cung cấp thông tin bị chỉnh sửa so với thông tin gốc ban đầu nhằm ngăn cản lực cạnh tranh đối thủ Đưa phương pháp thống kê liệu quan trọng để tìm chìa khóa mảng liệu trọng tâm thường bị “Kẻ công liệu” thao túng chỉnh sửa Từ q trình thu thập liệu xác hơn, kết phân tích, đánh giá thị trường đáng tin cậy, giảm bớt hao phí xã hội doanh nghiệp đầu tư sai vào lĩnh vực kinh doanh Thao tác đơn giản dễ sử dụng: Bạn lấy thơng tin nhiều website khác để so sánh, đối chiếu làm thuật tốn phân tích tiềm thị trường 5.1.2 Hạn chế Dùng nhiều thiết bị để thu thập song song liệu tốn nhiều chi phí đầu tư trang thiết bị ban đầu Kiểm thử hệ thống thị trường Việt Nam hạn chế số lượng website hiệu chỉnh làm sai liệu 5.2 Đối với yêu cầu đề tài: Đạt TÀI LIỆU THAM KHẢO [1] Andas Amrin*, Chunlei Xia, Shuguang Dai “Focused Web Crawling Algorithms”, JCP1004-04.pdf (2015), pp 245-251 [2] Gautam Pant, Padmini Srinivasan, Flippo Menczer “Crawling the Web”, Web Dynamics (2004), pp 153-178 [3] Tran Khanh Dang, Duc Dan Ho, Duc Minh Chau Pham, An Khuong Vo, Huu Huy Nguyen “A Cross-Checking Based Method for Fraudulent Detection on E- Commercial Crawling Data”, ACOM 2016, pp 32-39 [4] Cho J & Garcia-Molina H (2002) Parallel crawlers In proc.11th Int World Wide Web Conference, pp 124-135 [5] Mike Thelwall A web crawler design for data mining Jounal of Information Science, Vol 27, No.5 [6] Najok M and Heydon A (2001) High-performance web crawling Compaq SRC Research Report [7] Tina R.Paril, Mrs.S.S Shere (2013) Performance Analysis of Naïve Bayes and J48 Classification Algorithm for Data, Vol6, No [8] Jussi Myllymaki (2001) Effective Web Data Extraction with Standard, XML Technologies Proceedings of the 10th international conference on World Wide Web, PP 689-696 [9] Chia –Hui Chang, Mohammed Kayed, Moheb Ramzy Girgis, Khaled Shaalan (2006) A Survey of Web Information Extraction Systems, IEEE Transactions on Knowledge and Data Enginneering, pp 1411-1428 [10] Hubert, M and Vandervieren, E (2006) An Adjusted Boxplot for Skewed Distribution, Technical Report TR-06-11, KU Leuven, section of Statistics, Leuven, https://wis.kuleuven.be/stat/robust/Papers/TR0611.pdf [11]Trang Bách khoa tồn thư trình duyệt PhantomJS https://en.wwikipedia.org/wiki/PhantomJS, truy cập tháng 4/2017 [12]Trang Bách khoa toàn thư trình duyệt https://en.wwikipedia.org/wiki/HtmlUnit, truy cập tháng 4/2017 HtmlUnit [13] Tham khảo Xpath https://www.stdio.vn/articles/read/80/xml-path-language, truy cập tháng 4/2017 [14] Tham khảo CSS https://www.w3schools.com/cssref/default.asp, truy cập 4/2017 [15] Bài báo nghiên cứu khoa học “Xây dựng hệ thống phân loại tài liệu Tiếng việt”, tác giả Trần Thị Thu Thảo, Vũ Thị Chinh, Trường Đại học Lạc Hồng ... thời gian thực Khi xác thực liệu thu thập thực đối tượng hình ảnh văn riêng biệt, chưa xác thực liệu thu thập đối tượng hình ảnh văn lồng 5 CHƯƠNG CƠ SỞ LÝ THUYẾT 2.1 Hệ thống thu thập liệu 2.1.1... dụng thu thập liệu hỗ trợ xác thực kết liệu thu thập Do thị trường rộng lớn thường xuyên biến động, làm cho việc thu thập xác thực liệu khó khăn Vì vậy, mục tiêu đề tài ? ?Xây dựng hệ thống nhằm xác. .. cứu hồn thành luận văn Đồng Nai, tháng 07 năm 2017 Học viên thực Cao Thị Hồng Sanh ii LỜI CAM ĐOAN Tôi cam đoan luận văn ? ?Xây dựng hệ thống xác thực liệu thu thập từ nhiều nguồn khác nhau” cơng