Ứng dụng khai phá luật kết hợp trong phân tích dữ liệu sử dụng web : Luận văn ThS. Công nghệ thông tin: 60 48 05

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ NGUYỄN VƯƠNG THỊNH ỨNG DỤNG KHAI PHÁ LUẬT KẾT HỢP TRONG PHÂN TÍCH DỮ LIỆU SỬ DỤNG WEB LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN Hà Nội – Năm 2012 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ NGUYỄN VƯƠNG THỊNH ỨNG DỤNG KHAI PHÁ LUẬT KẾT HỢP TRONG PHÂN TÍCH DỮ LIỆU SỬ DỤNG WEB Ngành: Chuyên ngành: Mã số: Công nghệ thông tin Hệ thống thông tin 60 48 05 LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS.TS NGUYỄN HÀ NAM Hà Nội – Năm 2012 LỜI CAM ĐOAN Tôi xin cam đoan luận văn kết trình lao động, nghiên cứu riêng cá nhân tác giả, không chép lại người khác Nội dung luận văn bao gồm nghiên cứu cá nhân dựa sở kết nghiên cứu trước Tất tài liệu tham khảo có độ tin cậy trích dẫn hợp pháp Tơi xin hồn tồn chịu trách nhiệm chịu hình thức kỷ luật theo quy định cho lời cam đoan Hà Nội, ngày 29 tháng 08 năm 2012 Học viên thực luận văn Nguyễn Vương Thịnh NGUYỄN VƯƠNG THỊNH – LỚP K15T4 LUẬN VĂN THẠC SỸ LỜI CẢM ƠN Đầu tiên, muốn gửi lời cảm ơn chân thành tới cán hướng dẫn khoa học, thầy PGS.TS Nguyễn Hà Nam, giảng viên môn Hệ thống thông tin - khoa Công nghệ thông tin - trường Đại học Công nghệ - Đại học Quốc gia Hà Nội Chính nhờ có hướng dẫn, bảo tận tình thầy mà tơi hoàn thành kết nghiên cứu Tơi xin gửi lời cảm ơn chân thành tới bạn học viên lớp cao học K15T4 – Đại học Công nghệ - ĐHQG HN thầy giáo, anh chị em đồng nghiệp Khoa Công nghệ thông tin trường Đại học Hàng hải ủng hộ giúp đỡ suốt thời gian qua Cuối cùng, xin gửi lời cảm ơn sâu sắc tới người thân gia đình tơi, bạn bè tơi Họ nguồn cổ vũ lớn sống, người ln bên cạnh tơi lúc khó khăn Học viên thực luận văn Nguyễn Vương Thịnh NGUYỄN VƯƠNG THỊNH – LỚP K15T4 LUẬN VĂN THẠC SỸ MỤC LỤC LỜI CAM ĐOAN LỜI CẢM ƠN MỤC LỤC DANH MỤC CÁC BẢNG DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ CHƯƠNG 1: GIỚI THIỆU TỔNG QUAN 1.1 Khai phá liệu sử dụng web 1.2 Phát biểu toán khai phá luật kết hợp từ liệu sử dụng web 11 1.3 Hướng tiếp cận đề tài 12 1.4 Kết luận chương 13 CHƯƠNG 2: LUẬT KẾT HỢP VÀ CÁC KỸ THUẬT KHAI PHÁ LUẬT KẾT HỢP 14 2.1 Khái niệm luật kết hợp tập phổ biến 14 2.2 Luật kết hợp liệu sử dụng web 15 2.3 Một số nghiên cứu khai phá luật kết hợp 15 2.4 Khai phá sử dụng Web với giải thuật Apriori 19 2.5 Các kỹ thuật khai phá song song luật kết hợp 24 2.6 Những vấn đề đặt khai phá luật kết hợp từ liệu web log 30 2.7 Kết luận chương 36 CHƯƠNG : TƯ TƯ NG CHIA Đ T Ị T ONG KHAI PHÁ LUẬT KẾT HỢP 37 3.1 p dụng chiến lược Chia để trị toán khai phá luật kết hợp 37 3.2 Cơ sở toán học cho việc áp dụng chiến lược Chia để trị 38 3.3 Mơ hình hệ thống khai phá luật kết hợp từ liệu sử dụng web dựa chiến lược Chia để trị 40 3.4 Tư tưởng Chia để trị khai phá song song luật kết hợp từ liệu sử dụng web 46 3.5 Sinh tập phổ biến cục 50 NGUYỄN VƯƠNG THỊNH – LỚP K15T4 LUẬN VĂN THẠC SỸ 3.6 Sinh luật kết hợp mạnh từ tập phổ biến 51 3.7 Kết luận chương 52 CHƯƠNG 4: KẾT QUẢ THỰC NGHIỆM 54 4.1 Đặc trưng liệu thực nghiệm 54 4.2 Các thao tác tiền xử lý liệu 54 4.2.1 Lọc liệu 55 4.2.2 Gán nhãn thời gian 57 4.2.3 Phân định phiên truy cập 58 4.3 Một số kết thực nghiệm 63 4.3.1 Mục tiêu trình thực nghiệm 63 4.3.2 Các hệ thống tham gia vào trình thực nghiệm 64 4.3.3 Tổ chức liệu cách thức tiến hành thực nghiệm 65 4.3.4 Kết thực đánh giá 66 4.4 Kết luận chương 71 KẾT LUẬN 72 TÀI LIỆU THAM KHẢO 74 NGUYỄN VƯƠNG THỊNH – LỚP K15T4 LUẬN VĂN THẠC SỸ DANH MỤC CÁC BẢNG Bảng 2.1: Các phiên truy cập người dùng 21 Bảng 2.2: Cơ sở liệu giao dịch D 22 Bảng : Các mẫu web log số máy chủ web thu thập cung cấp trang web http://ita.ee.lbl.gov 34 Bảng 4.1: Các tập tin liệu thực nghiệm 54 Bảng 4.2: Cấu hình máy tính tham gia thử nghiệm 64 Bảng : Các liệu thử nghiệm 66 Bảng 4.4: Kết thực nghiệm với 04 liệu 03 hệ thống 67 NGUYỄN VƯƠNG THỊNH – LỚP K15T4 LUẬN VĂN THẠC SỸ DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ Hình 1.1: Một trích đoạn liệu web log Hình 2.1: Loại bỏ tập mục độ dài có độ hỗ trợ nhỏ minsup=2/9 22 Hình 2.2: Loại bỏ tập mục độ dài có độ hỗ trợ nhỏ minsup=2/9 23 Hình 2.3: Các tập phổ biến độ dài 23 Hình 2.4: Minh họa giải thuật phân phối độ hỗ trợ 03 xử lý song song 25 Hình 2.5: Minh họa giải thuật phân phối liệu 03 xử lý song song 26 Hình 2.6: Mơ hình khai phá song song luật kết hợp từ liệu truy cập web 27 Hình 2.7: Một tập tin web log với trường thơng tin xác định 31 Hình 2.8: Sự tiêu tốn nhớ số mục vào tăng 32 Hình 2.9: Cấu hình tập tin log Microsoft IIS 7.5 35 Hình 2.10: Các tập tin log ghi theo ngày (từ 20/07 đến 25/07/2012) 36 Hình 3.1: Tương quan lực lượng tập phổ biến cục toàn cục 38 Hình 3.2: Mơ hình khai phá luật kết hợp dựa chiến lược Chia để trị 41 Hình 3.3: Mơ hình Chia để trị khai phá song song luật kết hợp 48 Hình 4.1: Quá trình tiền xử lý liệu truy cập web 55 Hình 4.2: Yêu cầu truy cập Ri ∈ Sj khoảng cách TS(Ri) - TS(Ro) ≤ θ 60 Hình 4.3: Ri ∈ Sj Ri+1 ∈ Sj+1 ST(Ri+1) - ST(Ri) ≥ δ 61 Hình 4.4: Nếu Rk ∈ Sj Rk tham chiếu đến Ri Ri ∈ Sj 61 Hình 4.5: p dụng phương pháp heuristic hướng thời gian 62 Hình 4.6: p dụng phương pháp heuristic hướng cấu trúc 62 Hình 4.7: Hệ thống khai phá luật kết hợp dựa giải thuật Apriori 65 Hình 4.8a: Biểu đồ so sánh thời gian xử lý hệ thống với minsup = 0.25% 69 Hình 4.8b: Biểu đồ so sánh thời gian xử lý hệ thống với minsup = 0.5% 69 Hình 4.8c: Biểu đồ so sánh thời gian xử lý hệ thống với minsup = 0.75% 70 Hình 4.8d: Biểu đồ so sánh thời gian xử lý hệ thống với minsup = 1.00% 70 NGUYỄN VƯƠNG THỊNH – LỚP K15T4 LUẬN VĂN THẠC SỸ M ĐẦU Dữ liệu sử dụng web (còn gọi liệu truy cập web hay liệu web logs) chứa đựng nhiều thơng tin hữu ích phản ánh q trình tương tác người dùng với World Wide Web Dữ liệu thường phần mềm máy chủ web tự động ghi lại dạng tập tin nhật ký truy cập (web server logs) p dụng kỹ thuật khai phá liệu, ta phát mẫu (tri thức) tiềm hữu ích từ liệu sử dụng web Được xem ba loại hình khai phá web, khai phá sử dụng web trở thành lĩnh vực thu hút quan tâm nhiều nhà nghiên cứu có nhiều ứng dụng hiệu thực tế Trong luận văn này, tác giả tập trung trình bày hướng nghiên cứu quan trọng khai phá sử dụng web, khai phá luật kết hợp từ liệu sử dụng web Có thể nói khai phá luật kết hợp toán khai phá liệu điển hình Từ luật kết hợp, xác định thói quen xu hướng truy cập người dùng, từ giúp cho doanh nghiệp có chiến lược kinh doanh phù hợp giúp cho nhà phát triển tái cấu trúc lại website cho thuận tiện với người dùng Tuy nhiên, liệu sử dụng web có nét đặc trưng khác với dạng liệu khác, là: liệu thường có dung lượng lớn phát sinh liên tục theo thời gian thực Điều dẫn tới kết khai phá liệu thời điểm khơng cịn phản ánh thực tế thời điểm sau liệu đầu vào có phát sinh Trong điều kiện mà liệu đầu vào thường xuyên thay đổi thao thác khai phá liệu phải thực liên tục có liệu phát sinh chi phí cho q trình khai phá liệu lớn Để khắc phục vấn đề này, tác giả mạnh dạn đề xuất phương pháp tiếp cận dựa chiến lược Chia để trị xử lý tập liệu vào Tập liệu vào chia nhỏ thành phần liệu riêng biệt tiến hành xử lý độc lập, sau kết hợp lại để thu kết cuối Phương pháp giúp làm giảm đáng kế chi phí cho q trình khai phá liệu điều kiện liệu phát sinh liên tục Khi tiếp cận dựa chiến lược Chia để trị tập liệu phát sinh xem độc lập với liệu trước q trình khai phá thực với tập liệu phát sinh với tồn liệu, nhờ làm giảm đáng kể chi phí cho q trình khai phá Trong luận văn này, tác giả dành phần đáng kể để sở toán học nhằm chứng minh cho tính đắn phương pháp đề xuất Luận văn NGUYỄN VƯƠNG THỊNH – LỚP K15T4 LUẬN VĂN THẠC SỸ xây dựng dựa tảng nghiên cứu khai phá luật kết hợp khai phá sử dụng web đề xuất từ năm 1995, đáng ý phải kể đến nghiên cứu Navathe [16] Agrawal [3] Nội dung luận văn tác giả trình bày bao gồm 04 chương: hương i i thiệu t ng u n: Đặt vấn đề giới thiệu toán mong muốn xử lý, nghiên cứu trước hướng tiếp cận đề tài hương Luật kết hợp kỹ thuật kh i phá luật kết hợp: Tập trung trình bày số khái niệm tập phổ biến luật kết hợp, nghiên cứu khai phá luật kết hợp số thuật toán tiêu biểu Trong chương này, tác giả khó khăn áp dụng khai phá luật kết hợp với liệu web log hương Tư tưởng “ hi để trị” kh i phá luật kết hợp: Trình bày sở toán học cho việc áp dụng tư tưởng Chia để trị đề xuất thuật toán cho phép tổng hợp kết xử lý tập liệu để thu kết mong muốn Tác giả đề xuất mơ hình hệ thống phân tích liệu web log để tìm luật kết hợp dựa chiến lược Chia để trị hương o ul ph n t ch liệu kết u thực nghiệ : Phân tích đặc trưng liệu web log trình bày kết thực nghiệm đánh giá Mặc dù có nhiều cố gắng chắn khơng tránh khỏi thiếu sót, tác giả mong nhận ý kiến đóng góp thầy giáo, cô giáo bạn học viên để tác giả hồn thiện kết nghiên cứu NGUYỄN VƯƠNG THỊNH – LỚP K15T4 LUẬN VĂN THẠC SỸ 62 Hình 4.5: Áp dụng phương pháp heuristic hư ng thời gian Nếu ta áp dụng phương pháp heuristic h2 với ngưỡng thời gian δ = 10 phút cho liệu hình 4.5 tập ghi phân tách ứng với phiên truy cập: Phiên 1: A B C E Phiên 2: A Phiên 3: F B D Hình 4.6: Áp dụng phương pháp heuristic hư ng cấu trúc Hình 4.6 minh họa việc áp dụng phương pháp heuristic hướng cấu trúc h-ref vào tập liệu web log Khi yêu cầu truy cập ứng với trang ghi nhận (nhãn thời gian 01:26) có hai phiên truy cập mở: Phiên 1: A B C E Phiên 2: A Tuy nhiên, yêu cầu truy cập trang xem thuộc phiên trang tham chiếu đến trang trang C truy cập trước phiên Yêu cầu truy cập trang B (nhãn thời gian 01:30) thuộc hai phiên truy cập mở trang tham chiếu đến B trang A truy cập trước hai phiên NGUYỄN VƯƠNG THỊNH – LỚP K15T4 LUẬN VĂN THẠC SỸ 63 Trong trường hợp này, yêu cầu truy cập trang B xem thuộc phiên phiên mở gần Khi cài đặt, tác giả lựa chọn tiếp cận dựa phương pháp heuristic hướng thời gian h2 Ý tưởng cài đặt minh họa qua phương thức SessionIdentification Các ghi duyệt qua Chúng kiểm tra xem có thuộc người dùng hay khơng? Nếu có, khoảng cách thời gian hai ghi liên tiếp so sánh với ngưỡng thời gian t chọn Chi tiết thủ tục trình bày sau: procedure SessionIdentification() { While(!EOF) { Add first entry to session i; For each (next entry) { If(IP = = previous IP) If(time[this entry] - time[this entry - 1] < t) Add this entry to session i; Else { i++; Add entry to session i; } Else { i++; Add entry to session i; } } } } Một số kết thực nghiệm .1 Mục tiêu tr nh thực nghiệm Mục tiêu trình thực nghiệm nhằm đánh giá hiệu thực thi hệ thống khai phá luật kết hợp dựa chiến lược Chia để trị mà tác giả đề xuất Như phân tích chương 3, mơ hình hệ thống khai phá luật kết hợp dựa chiến lược Chia để trị có 02 ưu điểm bản, đáp ứng tốt điều kiện NGUYỄN VƯƠNG THỊNH – LỚP K15T4 LUẬN VĂN THẠC SỸ 64 liệu đầu vào lớn phải tiến hành khai phá liên tiếp có phát sinh liệu (sau chu kỳ thời gian) Mơ hình dễ dàng mở rộng để áp dụng cho hệ thống tính tốn có nhiều xử lý song song Trong mục 4.3 này, tác giả tập trung trình bày kết thực nghiệm nhằm làm bật ưu điểm thứ mơ hình hệ thống, đáp ứng tốt điều kiện liệu đầu vào thường xuyên thay đổi phải khai phá liên tiếp sau lần liệu phát sinh Với chế sử dụng sở liệu để lưu trữ tập phổ biến thu từ lần khai phá trước đó, mơ hình hệ thống khai phá luật kết hợp dựa Chia để trị cố gắng kế thừa kết khai phá trước hạn chế phải khai phá lại từ đầu với toàn liệu, liệu phát sinh thêm không lớn Điều giúp giảm thiểu thời gian khai phá Tác giả tiến hành bước thực nghiệm nhằm chứng minh ưu mặt thời gian xử lý mơ hình hệ thống dựa chiến lược Chia để trị so với mơ hình khác .2 Các hệ thống tham gia vào tr nh thực nghiệm Tác giả tiến hành thực nghiệm hệ thống:  Hệ thống 1: Sử dụng mơ hình khai phá luật kết hợp cổ điển dựa giải thuật Apriori (hình 4.2) Dữ liệu sử dụng web sau tiền xử lý thu tập phiên truy cập người dùng (cơ sở liệu giao dịch D) Giải thuật Apriori áp dụng để sinh tập phổ biến Sau đó, giải thuật sinh luật kết hợp sử dụng để sinh luật kết hợp mạnh từ tập phổ biến tìm (xem mục 3.6 - Chương 3) Đây mơ hình hệ thống khai phá luật kết hợp điển hình, đơn giản sử dụng rộng rãi  Hệ thống 2: Sử dụng mơ hình khai phá luật kết hợp dựa chiến lược Chia để trị tác giả đề xuất (hình 3.2 – Chương 3)  Hệ thống : Sử dụng mơ hình khai phá song song luật kết hợp (hình 2.6 – Chương 2) với số xử lý N=2 Giải thuật khai phá song song áp dụng giải thuật phân phối độ hỗ trợ (count distribution) Agrawal C.Shafer đề xuất B ng Cấu hình máy tính tham gia thử nghiệm Bộ vi xử lý Intel Pentium IV (2.4GHz) Bộ nhớ RAM GB Hệ điều hành Microsoft Windows XP SP3 NGUYỄN VƯƠNG THỊNH – LỚP K15T4 LUẬN VĂN THẠC SỸ 65 D liệu cần kh i phá Tiền xử lý (4 giai đoạn) Sinh tập ph biến Sinh luật kết hợp ác luật kết hợp ạnh Hình 4.7: Hệ th ng khai phá luật kết hợp d a tr n giải thuật Apriori Khi cài đặt, hệ thống hệ thống 2, hệ thống triển khai PC có cấu hình phần cứng phần mềm bảng 4.2 Hệ thống triển khai mạng LAN gồm 02 PC có cấu bảng 4.2 kết nối trực tiếp với cáp mạng chuẩn ast Ethernet 100Mps Các chương trình ứng dụng thử nghiệm viết ngơn ngữ lập trình C# Net ramework 3.5 Ngồi để hỗ trợ lập trình song song cho hệ thống 3, thư viện lập trình song song MPI.Net (Message Passing Interface for Net) sử dụng Tổ chức liệu cách thức tiến hành thực nghiệm Dữ liệu thực nghiệm lấy từ 04 tập tin web logs bảng 4.1 Dữ liệu tổ chức thành 04 liệu (ký hiệu số La Mã từ (I) đến (IV)) (bảng 4.3) Các liệu bao trùm nhau, nghĩa liệu thứ (i+1) chứa liệu (i) với phần liệu phát sinh Nói cách khác, ta ln có (I) ⊂ (II) ⊂ (III) ⊂ (IV) Cũng cần phải nói thêm yếu tố tạo nên nét đặc trưng cho hệ thống thử nghiệm chế tìm tập phổ biến Đóng góp lớn luận văn nằm việc cải tiến chế tìm tập phổ biến Chính trình thử nghiệm, tác giả tập trung vào việc so sánh thời gi n tì tập ph biến từ sở liệu gi o ịch hệ thống với Cách thức tiến hành thực nghiệm sau: NGUYỄN VƯƠNG THỊNH – LỚP K15T4 LUẬN VĂN THẠC SỸ 66 Bước 1: ng với ngưỡng độ hỗ trợ minsup cho trước, liệu từ (I) đến (IV) xử lý hệ thống Thời gian tìm tập phổ biến hệ thống ứng với liệu ghi lại Chuyển sang bước Bước 2: Các giá trị ghi lại biểu diễn biểu đồ Trục hoành tương ứng với số lượng phiên truy cập, trục tung tương ứng với thời gian thực thi (millisecond) Mỗi hệ thống đặc trưng đường biểu diễn biểu đồ Chuyển sang bước Bước 3: óa hết liệu sở liệu tập phổ biến cục hệ thống Lặp lại bước với ngưỡng độ hỗ trợ minsup khác B ng Các liệu thử nghiệm Dung lượng (KB) Số lượng b n ghi Số lượng phiên truy cập Tập tin nguồn (I) 41873 164135 443 20120720-access (II) 93139 364988 1087 20120720-access 20120721-access 1556 20120720-access 20120721-access 20120722-access 2364 20120720-access 20120721-access 20120722-access 20120723-access Bộ liệu (III) (IV) 124351 154940 487363 608083 Chú ý làm việc với 04 liệu bảng 4.3 hệ thống hệ thống coi 04 liệu hoàn toàn độc lập Việc xử lý liệu (i+1) khơng liên quan đến kết xử lý liệu (i) trước Hệ thống làm việc dựa nguyên lý Chia để trị tập liệu nên cho phép chế kế thừa kết trước để rút ngắn khối lượng cần khai phá Khi hệ thống làm việc với liệu (i+1), tận dụng kết khai phá liệu (i) trước khai phá thêm tập liệu phát sinh sau tổng hợp kết lại (cập nhật độ hỗ trợ toàn cục lọc tập phổ biến toàn cục) .4 Kết thực đánh giá Sau tiến hành chạy thử nghiệm liệu hệ thống ứng với 04 ngưỡng độ hỗ trợ minsup khác 0.25%, 0.5%, 0.75%, 1.00%, ta thu NGUYỄN VƯƠNG THỊNH – LỚP K15T4 LUẬN VĂN THẠC SỸ 67 bảng kết thực nghiệm (bảng 4.4) Ngoài ra, vào bảng kết thực nghiệm, ta xây dựng 04 biểu đồ biểu diễn thay đổi thời gian xử lý theo gia tăng kích thước liệu vào tương ứng với 04 ngưỡng độ hỗ trợ (các hình 4.8a,b,c,d) B ng Lần thử Kết th c nghiệm v i 04 liệu tr n 03 hệ th ng Ngưỡng độ hỗ trợ Bộ liệu Số lượng b n ghi Số lượng phiên truy cập (I) 164135 (II) Thời gi n tì tập ph biến (Đơn vị s) Hệ thống 01 Hệ thống 02 Hệ thống 03 443 56 65 29 364988 1087 275 299 150 (III) 487363 1556 350 88 178 04 (IV) 608083 2364 535 225 250 05 (I) 164135 443 52 60 30 (II) 364988 1087 93 75 48 (III) 487363 1556 150 62 74 08 (IV) 608083 2364 223 84 118 09 (I) 164135 443 53 55 25 (II) 364988 1087 100 50 48 (III) 487363 1556 138 42 72 12 (IV) 608083 2364 180 45 90 13 (I) 164135 443 44 58 28 (II) 364988 1087 75 50 40 (III) 487363 1556 130 40 75 (IV) 608083 2364 155 52 78 01 02 03 06 07 10 11 14 15 16 0.25% 0.50% 0.75% 1.00% Từ bảng số liệu thực nghiệm quan sát biểu đồ, ta rút số nhận xét chung sau: ng với ngưỡng độ hỗ trợ, xử lý liệu (I) tức có xuất phát điểm, hệ thống (Divide and Conquer) tỏ chậm so với hai hệ thống lại Sở dĩ lúc hệ thống phải xuất phát từ đầu chưa kế thừa NGUYỄN VƯƠNG THỊNH – LỚP K15T4 LUẬN VĂN THẠC SỸ 68 từ trước Hệ thống cịn tỏ chậm hệ thống hệ thống dựa giải thuật Apriori cổ điển xử lý liệu (I) chế xử lý 02 hệ thống tương đối giống Có điều hệ thống phải thêm thời gian để giao tiếp với sở liệu lưu nhớ đồng thời phải cập nhật độ hỗ trợ tìm tập phổ biến toàn cục Hệ thống tỏ mạnh mẽ sử dụng xử lý song song Tuy nhiên chậm thời, bước sang xử lý liệu (II), hệ thống bắt đầu thể bứt phá Do tận dụng kết khai phá từ lần khai phá liệu (I) trước nên hệ thống cần khai phá tập liệu phát sinh thêm ∆P1 = (II)/(I) (ứng với 644 phiên truy cập) Trong đó, hệ thống phải chạy lại từ đầu với toàn tập liệu (II) (ứng với 1087 phiên truy cập) Như vậy, phải xử lý liệu (II) khối lượng cần xử lý hệ thống khoảng 60% so với hệ thống hệ thống Nhờ thời gian xử lý hệ thống giảm xuống Quan sát biểu đồ ta thấy đường biểu diễn hệ thống bắt đầu dời xa xuống phía đường biểu diễn hệ thống Thời gian cần thiết để xử lý liệu (II) hệ thống nhỏ hệ thống lớn nhiều so với hệ thống hệ thống sử dụng xử lý song song Khi xử lý sang liệu (III) hệ thống tỏ chiếm ưu tuyệt đối Do kế thừa kết khai phá từ lần khai phá liệu (II) trước nên hệ thống cần khai phá tập liệu phát sinh thêm ∆P2 = (III)/(II) (ứng với 469 phiên truy cập) hệ thống hệ thống phải khai phá toàn tập liệu (III) (ứng với 1556 phiên truy cập) Khối lượng cần xử lý hệ thống lúc khoảng 30% so với hệ thống hệ thống Thời gian cần thiết để xử lý liệu (III) hệ thống lúc không nhỏ nhiều so với hệ thống mà nhỏ hệ thống hệ thống có ưu phần cứng Đường biểu diễn tương ứng với hệ thống lùi xuống phía đường biểu diễn hệ thống Càng tiến hành xử lý ưu hệ thống thể hiện, với liệu (IV) ta thu kịch tương tự Do kế thừa kết khai phá từ lần khai phá liệu (III) trước nên hệ thống cần khai phá tập liệu phát sinh thêm ∆P3 = (IV)/(III) (ứng với 808 phiên truy cập) hệ thống hệ thống phải khai phá toàn tập liệu (IV) (ứng với 2364 phiên truy cập) Khối lượng cần xử lý hệ thống lúc khoảng 30% so với hệ thống hệ thống NGUYỄN VƯƠNG THỊNH – LỚP K15T4 LUẬN VĂN THẠC SỸ 69 Hình 4.8a: Biểu đồ so sánh thời gian xử lý hệ th ng v i minsup = 0.25% Hình 4.8b: Biểu đồ so sánh thời gian xử lý hệ th ng v i minsup = 0.5% NGUYỄN VƯƠNG THỊNH – LỚP K15T4 LUẬN VĂN THẠC SỸ 70 Hình 4.8c: Biểu đồ so sánh thời gian xử lý hệ th ng v i minsup = 0.75% Hình 4.8d: Biểu đồ so sánh thời gian xử lý hệ th ng v i minsup = 1.00% NGUYỄN VƯƠNG THỊNH – LỚP K15T4 LUẬN VĂN THẠC SỸ 71 Qua phân tích sơ kết thực nghiệm trên, ta khẳng định: Mơ hình hệ thống khai phá liệu dựa chiến lược Chia để trị tác giả đề xuất hoạt động hiệu trường hợp liệu cần khai phá thường xuyên có phát sinh cần phải liên tục tiến hành khai phá có liệu phát sinh Tình hay gặp thực tế mà liệu truy cập web thường máy chủ web ghi lại chu kỳ (ngày/tuần/tháng) Nếu so với mô hình khai phá song song luật kết hợp đề xuất Agrawal C.Shafer mơ hình Chia để trị tác giả đề xuất không chiếm ưu hiệu xử lý mà đơn giản dễ cài đặt 4.4 Kết luận chư ng Trong chương này, tác giả tập trung trình bày đặc trưng liệu truy cập web số thao tác tiền xử lý liệu Dựa kết nghiên cứu chương 3, tác giả bước đầu có thử nghiệm đánh giá so sánh hiệu thực thi mơ hình xử lý: mơ hình khai phá luật kết hợp cổ điển, mơ hình khai phá luật kết hợp dựa chiến lược Chia để trị , mơ hình khai phá luật kết hợp Mỗi mơ hình có ưu điểm nhược điểm tùy thuộc vào điều kiện cụ thể mà lựa chọn mơ hình phù hợp Đặc biệt phải cân nhắc lựa chọn chi phí xây dựng hệ thống hiệu xử lý Trong điều kiện liệu web thường xuyên thay đổi thường xuyên phải tiến hành khai phá có liệu phát sinh mơ hình khai phá liệu dựa chiến lược Chia để trị lựa chọn tối ưu NGUYỄN VƯƠNG THỊNH – LỚP K15T4 LUẬN VĂN THẠC SỸ 72 KẾT LUẬN Bằng việc đề xuất áp dụng chiến lược Chia để trị tập liệu vào, tác giả giải hai vấn đề lớn thường gặp phải xử lý liệu sử dụng web là: liệu có dung lượng lớn thường xuyên thay đổi (có phát sinh mới) theo thời gian thực:  Trong trường hợp liệu có ung lượng l n vượt uá lực xử lý củ hệ thống t nh toán: Chiến lược Chia để trị cho phép chia nhỏ tập liệu vào thành phần mà hệ thống tính tốn xử lý để tiến hành xử lý riêng rẽ phần Nhờ mà tận dụng tảng sẵn có hệ thống tính tốn khơng cần phải nâng cấp phần cứng  Trong trường hợp liệu thường xuyên có phát sinh i ph i tiến hành kh i phá liên tục ỗi có liệu i phát sinh: Chiến lược Chia để trị giúp làm giảm đáng kể chi phí q trình khai phá liệu Có điều áp dụng chiến lược Chia để trị tập liệu phát sinh xem phần liệu độc lập với liệu có trước Q trình khai phá tiến hành tập liệu phát sinh thay tồn liệu, nhờ mà làm giảm đáng kể chi phí của q trình khai phá Mơ hình hệ thống khai phá luật kết hợp dựa chiến lược Chia để trị tác giả đề xuất có nhiều ưu điểm:  ó thể ễ àng rộng cho hệ thống t nh toán v i nhiều xử lý song song: Như trình bày chương 3, mơ hình tác giả đề xuất hồn tồn mở rộng để áp dụng cho hệ thống tính tốn với nhiều xử lý song song Khi mở rộng vậy, thực chất thay phân tán liệu theo thời gian ta phân tán liệu theo khơng gian (chia cho nhiều xử lý) Cịn ngun tắc chế xử lý khơng có khác biệt so với hệ thống ban đầu  Linh hoạt, ễ cài đặt, chi ph thấp: Như tác giả trình bày chương 3, mơ hình mà tác giả đề xuất khơng cần có u cầu đặc biệt phần cứng cài đặt Không giống hệ thống khai phá luật kết hợp song song Agrawal C.Shafer đề xuất [2-3 đòi hỏi phải có hệ thống nhiều xử lý kết nối với qua mạng truyền thông tốc NGUYỄN VƯƠNG THỊNH – LỚP K15T4 LUẬN VĂN THẠC SỸ 73 độ cao giải thuật xử lý phải cài đặt dựa thư viện lập trình song song  Độc lập v i gi i thuật kh i phá liệu sử ụng: Khi tiến hành sinh tập phổ biến cục bộ, ta sử dụng giải thuật tìm tập phổ biến biết Thậm chí ứng với Dj ta sử dụng giải thuật khác mà không ảnh hưởng đến kết cuối Tuy nhiên, bên cạnh kết đạt chiến lược Chia để trị mơ hình tác giả đề xuất số hạn chế:  Hiệu mơ hình áp dụng chiến lược Chia để trị phụ thuộc nhiều vào giải thuật Tìm tập phổ biến toàn cục từ tập phổ biến cục mà tác giả đề xuất Tuy nhiên thuật toán đơn giản nên hiệu xử lý chưa cao  Trong trình khai phá để tìm tập phổ biến cục sở liệu Dj xử lý hoàn toàn độc lập Khơng có trao đổi hay kế thừa thơng tin q trinh xử lý Dj Chính số trường hợp phát sinh nhiều tập mục thừa (tức tập phổ biến cục tập phổ biến tồn cục) sau giải thuật tìm tập phổ biến toàn cục từ tập phổ biến cục phải chạy vất vả để loại bỏ mục thừa Trong tương lai, để hoàn thiện nghiên cứu mình, tác giả tập trung vào hai hướng:  Cải tiến giải thuật tìm tập phổ biến toàn cục từ tập phổ biến cục nhằm làm tăng hiệu xử lý hệ thống  Dựa nghiên cứu Agrawal C.Shafer để cải tiến thuật toán sinh tập phổ biến cục nhằm hạn chế tạo tập mục thừa Q trình xử lý Dj khơng phải hồn tồn độc lập mà phải có chế trao đổi thông tin nhằm tránh phát sinh nhiều tập phổ biến cục không cần thiết NGUYỄN VƯƠNG THỊNH – LỚP K15T4 LUẬN VĂN THẠC SỸ 74 TÀI LIỆU THAM KHẢO Tiếng Việt Hà Quang Thụy, Phan n Hiếu, Đồn Sơn, Nguyễn Trí Thành, Nguyễn Thu Trang, Nguyễn Cẩm Tú (2005), Giáo trình khai phá liệu Web, Nhà xuất Giáo dục Việt Nam, tr.56-65 Phan uân Hiếu (2003), Khai phá song song luật kết hợp mờ, Luận văn Thạc sĩ khoa học, Trường Đại học Công nghệ, Đại học Quốc gia Hà Nội, tr.39-47 Tiếng Anh Rakesh Agrawal and John C.Shafer (1996), Parallel Mining of Association Rules , IEEE Transactions in knowledge and data engineering, Vol (No 6) Agrawal R., Imielinski T., Swami A N (1993), Mining Association Rules Between Sets of Items in Large Database , Proceedings of the ACM SIGMOD, International Conference on Management of Data, pp.207-216 Agrawal R and Srikant R (1994), ast Algorithm for Mining Association Rules , Proceedings of 20th International Conference of Very Large Databases, pp.487-499 Agrawal R and Srikant R (1995), Mining Sequential Patterns , Proceedings of 11th International Conference on Data Engineering, IEEE Computer Society Press, pp.3-14 Han J., Dong G and Yin Y (1999), Efficient Mining of Partial Periodic Patterns in Time Series Database , Proceedings of 15th IEEE International Conference on Data Engineering, pp.106-115 Han J., Jian Pei., Yiwen Yin and Runying Mao (2004), Mining requent Patterns without Candidate Generation: A Frequent-Pattern Tree Approach , Journal of Data Mining and Knowledge Discovery, 8, pp.53-87 Han J., Jian Pei and Yiwen Yin (2000), Mining requent Patterns without Candidate Generation , Proceedings of ACM International Conference on Management of Data, 29(2), pp.1-12 NGUYỄN VƯƠNG THỊNH – LỚP K15T4 LUẬN VĂN THẠC SỸ 75 10 Eui-Hong Han, George Karypis and Kumar (2000), Scalable Parallel Data Mining for Asssociation Rules , IEEE Transaction on Knowledge and Data Engineering, pp.728-737 11 Lakshmanan V., Carson Kai-Sang, T Raymond (2000), The segment Support Map: Scalable Mining of requent Itemsets , Journal of ACM SIGKDD Explorations Newsletter, 2(2), pp.21-27 12 Mata J., Alvarez J L and Riquelme J C (2002), Evolutionary Computing and Optimization: An Evolutionary Algorithm to Discover Numeric Association Rules , Proceedings of ACM Symposium on Applied Computing, pp.590-594 13 Zdravko Markov and Daniel T.Larose (2007), Data mining the web – Uncovering patterns in web content, structure, and usage, A John Wiley & Sons, INC., Publication, pp.143-218 14 Florent Masseglia, Pascal Poncelet, Rosine Cicchetti (2000), An Efficient Algorithm for Web usage mining , Networking and Information Systems Journal, Volume X 15 Jong Park S., Ming-Syan, Chen and Yu P.S (1997), Using a Hash-Based Method with transaction Trimming for Mining Association Rules, IEEE Transactions on Knowledge and Data Engineering, pp.813-825 16 Ashok Savasere, Edward Omiecinski and Shamkant Navathe (1995), An Efficient Algorithm for Mining Association Rules in Large Databases , the 21th Very Large Database Conference 17 Suneetha K R and Krishnamoorti R (2011) Web Log Mining using Improved Version of Apriori Algorithm , International Journal of Computer Applications (0975-8887), Volume 29 (No 6) 18 Wang Tong and He Pi-lian (2005), Web Log Mining by an Improved AprioriAll Algorithm , World Academy of Science, Engineering and Technology 19 Navin Kumar Tyagi, A.K.Solanki and Manoj Wadhwa (2010), Analysis of Server Log by Web Usage Mining for Website Improvement , IJCSI NGUYỄN VƯƠNG THỊNH – LỚP K15T4 LUẬN VĂN THẠC SỸ 76 International Journal of Computer Science Issues (ISSN: 1694-0784) , Vol.7 (No 8) 20 Mohd Helmy Abd Wahab, Mohd Norzali Haji Mohd, Hafizul Fahri, Hanafi, Mohamad arhan, Mohamad Mohsin (2008), Data Pre-processing on Web Server Logs for Generalized Association Rules Mining Algorithm , Proceedings Of World Academy of Science, Engineering and Technology ISSN 2070-3740, Volume 36 21 Xian-Wei Liu and Pi-Lian He (2004), The Research of Improved Association Rules Mining Apriori Algorithm , Proceedings of the 3rd International Conference of Machine Learning and Cybernetics, pp.15771579 22 Yiwu Xie, Yutong Li, Chunli Wang and Mingyu Lu (2008), The Optimization and Improvement of the Apriori Algorithm , Proceedings of IEEE International Symposium on Intelligent Information Technology Application Workshops, pp.1101-1103 23 Zhao Hong, Gang yang, Lei wang and Ying Liu, An Implementation of Improved Apriori Algorithm , Proceedings of the 8th International Conference of Machine Learning and Cybernetics, pp.1565-1569 24 Wei Zhang, Zhang Wei, Dongme Sun Shaohua Teng and Haibin Zhu (2007), An Algorithm to Improve Effectiveness of Apriori , Proceedings of 6th IEEE International Conference on Cognitive Informatics, pp.385-390 NGUYỄN VƯƠNG THỊNH – LỚP K15T4 LUẬN VĂN THẠC SỸ

Định dạng
Số trang	78
Dung lượng	2,26 MB