Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 90 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
90
Dung lượng
0,9 MB
Nội dung
ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ NGUYỄN VƯƠNG THỊNH ỨNG DỤNG KHAI PHÁ LUẬT KẾT HỢP TRONG PHÂN TÍCH DỮ LIỆU SỬ DỤNG WEB LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN Hà Nội – Năm 2012 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ NGUYỄN VƯƠNG THỊNH ỨNG DỤNG KHAI PHÁ LUẬT KẾT HỢP TRONG PHÂN TÍCH DỮ LIỆU SỬ DỤNG WEB Ngành: Chuyên ngành: Mã số: Công nghệ thông tin Hệ thống thông tin 60 48 05 LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS.TS NGUYỄN HÀ NAM Hà Nội – Năm 2012 LỜI CAM ĐOAN Tôi xin cam đoan luận văn kết trình lao động, nghiên cứu riêng cá nhân tác giả, không chép lại người khác Nội dung luận văn bao gồm nghiên cứu cá nhân dựa sở kết nghiên cứu trước Tất tài liệu tham khảo có độ tin cậy trích dẫn hợp pháp Tơi xin hồn tồn chịu trách nhiệm chịu hình thức kỷ luật theo quy định cho lời cam đoan Hà Nội, ngày 29 tháng 08 năm 2012 Học viên thực luận văn Nguyễn Vương Thịnh NGUYỄN VƯƠNG THỊNH – LỚP K15T4 LUẬN VĂN THẠC SỸ LỜI CẢM ƠN Đầu tiên, muốn gửi lời cảm ơn chân thành tới cán hướng dẫn khoa học, thầy PGS.TS Nguyễn Hà Nam, giảng viên môn Hệ thống thông tin - khoa Công nghệ thông tin - trường Đại học Công nghệ - Đại học Quốc gia Hà Nội Chính nhờ có hướng dẫn, bảo tận tình thầy mà tơi hoàn thành kết nghiên cứu Tơi xin gửi lời cảm ơn chân thành tới bạn học viên lớp cao học K15T4 – Đại học Công nghệ - ĐHQG HN thầy giáo, anh chị em đồng nghiệp Khoa Công nghệ thông tin trường Đại học Hàng hải ủng hộ giúp đỡ suốt thời gian qua Cuối cùng, xin gửi lời cảm ơn sâu sắc tới người thân gia đình tơi, bạn bè tơi Họ nguồn cổ vũ lớn sống, người ln bên cạnh tơi lúc khó khăn Học viên thực luận văn Nguyễn Vương Thịnh NGUYỄN VƯƠNG THỊNH – LỚP K15T4 LUẬN VĂN THẠC SỸ MỤC LỤC LỜI CAM ĐOAN LỜI CẢM ƠN MỤC LỤC DANH MỤC CÁC BẢNG DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ CHƯƠNG 1: GIỚI THIỆU TỔNG QUAN 1.1 Khai phá liệu sử dụng web 1.2 Phát biểu toán khai phá luật kết hợp từ liệu sử dụng web .11 1.3 Hướng tiếp cận đề tài 12 1.4 Kết luận chương 13 CHƯƠNG 2: LUẬT KẾT HỢP VÀ CÁC KỸ THUẬT KHAI PHÁ LUẬT KẾT HỢP 14 2.1 Khái niệm luật kết hợp tập phổ biến 14 2.2 Luật kết hợp liệu sử dụng web 15 2.3 Một số nghiên cứu khai phá luật kết hợp 15 2.4 Khai phá sử dụng Web với giải thuật Apriori 19 2.5 Các kỹ thuật khai phá song song luật kết hợp 24 2.6 Những vấn đề đặt khai phá luật kết hợp từ liệu web log 30 2.7 Kết luận chương 36 CHƯƠNG : TƯ TƯ NG CHIA Đ T Ị T ONG KHAI PHÁ LUẬT KẾT HỢP 37 3.1 p dụng chiến lược Chia để trị toán khai phá luật kết hợp 37 3.2 Cơ sở toán học cho việc áp dụng chiến lược Chia để trị 38 3.3 Mơ hình hệ thống khai phá luật kết hợp từ liệu sử dụng web dựa chiến lược Chia để trị 40 3.4 Tư tưởng Chia để trị khai phá song song luật kết hợp từ liệu sử dụng web 46 3.5 Sinh tập phổ biến cục 50 NGUYỄN VƯƠNG THỊNH – LỚP K15T4 LUẬN VĂN THẠC SỸ 3.6.Sinh luật kết hợp mạnh từ tập phổ biến 3.7.Kết luận chương CHƯƠNG 4: KẾT QUẢ THỰC NGHIỆM 4.1.Đặc trưng liệu thực nghiệm 4.2.Các thao tác tiền xử lý liệu 4.2.1 Lọc liệu 4.2.2 Gán nhãn thời gian 4.2.3 Phân định phiên truy cập 4.3.Một số kết thực nghiệm 4.3.1 Mục tiêu trình thực nghiệm 4.3.2 Các hệ thống tham gia vào trình thực nghiệm 4.3.3 Tổ chức liệu cách thức tiến hành thực nghiệm 4.3.4 Kết thực đánh giá 4.4.Kết luận chương KẾT LUẬN TÀI LIỆU THAM KHẢO NGUYỄN VƯƠNG THỊNH – LỚP K15T4 LUẬN VĂN THẠC SỸ DANH MỤC CÁC BẢNG Bảng 2.1: Các phiên truy cập người dùng Bảng 2.2: Cơ sở liệu giao dịch D Bảng : Các mẫu web log số máy chủ web thu thập cung cấp trang web http://ita.ee.lbl.gov Bảng 4.1: Các tập tin liệu thực nghiệm Bảng 4.2: Cấu hình máy tính tham gia thử nghiệm Bảng : Các liệu thử nghiệm Bảng 4.4: Kết thực nghiệm với 04 liệu 03 hệ thống NGUYỄN VƯƠNG THỊNH – LỚP K15T4 LUẬN VĂN THẠC SỸ DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ Hình 1.1: Một trích đoạn liệu web log Hình 2.1: Loại bỏ tập mục độ dài có độ hỗ trợ nhỏ minsup=2/9 Hình 2.2: Loại bỏ tập mục độ dài có độ hỗ trợ nhỏ minsup=2/9 Hình 2.3: Các tập phổ biến độ dài Hình 2.4: Minh họa giải thuật phân phối độ hỗ trợ 03 xử lý song song Hình 2.5: Minh họa giải thuật phân phối liệu 03 xử lý song song Hình 2.6: Mơ hình khai phá song song luật kết hợp từ liệu truy cập web Hình 2.7: Một tập tin web log với trường thơng tin xác định Hình 2.8: Sự tiêu tốn nhớ số mục vào tăng Hình 2.9: Cấu hình tập tin log Microsoft IIS 7.5 Hình 2.10: Các tập tin log ghi theo ngày (từ 20/07 đến 25/07/2012) Hình 3.1: Tương quan lực lượng tập phổ biến cục tồn cục Hình 3.2: Mơ hình khai phá luật kết hợp dựa chiến lược Chia để trị Hình 3.3: Mơ hình Chia để trị khai phá song song luật kết hợp Hình 4.1: Quá trình tiền xử lý liệu truy cập web Hình 4.2: Yêu cầu truy cập Ri ∈ Sj khoảng cách TS(Ri) - TS(Ro) ≤ θ Hình 4.3: Ri ∈ Sj Ri+1 ∈ Sj+1 ST(Ri+1) - ST(Ri) ≥ δ Hình 4.4: Nếu Rk ∈ Sj Rk tham chiếu đến Ri Ri ∈ Sj Hình 4.5: p dụng phương pháp heuristic hướng thời gian Hình 4.6: p dụng phương pháp heuristic hướng cấu trúc Hình 4.7: Hệ thống khai phá luật kết hợp dựa giải thuật Apriori Hình 4.8a: Biểu đồ so sánh thời gian xử lý hệ thống với minsup = 0.25% Hình 4.8b: Biểu đồ so sánh thời gian xử lý hệ thống với minsup = 0.5% Hình 4.8c: Biểu đồ so sánh thời gian xử lý hệ thống với minsup = 0.75% Hình 4.8d: Biểu đồ so sánh thời gian xử lý hệ thống với minsup = 1.00% NGUYỄN VƯƠNG THỊNH – LỚP K15T4 LUẬN VĂN THẠC SỸ M ĐẦU Dữ liệu sử dụng web (còn gọi liệu truy cập web hay liệu web logs) chứa đựng nhiều thơng tin hữu ích phản ánh trình tương tác người dùng với World Wide Web Dữ liệu thường phần mềm máy chủ web tự động ghi lại dạng tập tin nhật ký truy cập (web server logs) p dụng kỹ thuật khai phá liệu, ta phát mẫu (tri thức) tiềm hữu ích từ liệu sử dụng web Được xem ba loại hình khai phá web, khai phá sử dụng web trở thành lĩnh vực thu hút quan tâm nhiều nhà nghiên cứu có nhiều ứng dụng hiệu thực tế Trong luận văn này, tác giả tập trung trình bày hướng nghiên cứu quan trọng khai phá sử dụng web, khai phá luật kết hợp từ liệu sử dụng web Có thể nói khai phá luật kết hợp tốn khai phá liệu điển hình Từ luật kết hợp, xác định thói quen xu hướng truy cập người dùng, từ giúp cho doanh nghiệp có chiến lược kinh doanh phù hợp giúp cho nhà phát triển tái cấu trúc lại website cho thuận tiện với người dùng Tuy nhiên, liệu sử dụng web có nét đặc trưng khác với dạng liệu khác, là: liệu thường có dung lượng lớn phát sinh liên tục theo thời gian thực Điều dẫn tới kết khai phá liệu thời điểm khơng cịn phản ánh thực tế thời điểm sau liệu đầu vào có phát sinh Trong điều kiện mà liệu đầu vào thường xuyên thay đổi thao thác khai phá liệu phải thực liên tục có liệu phát sinh chi phí cho q trình khai phá liệu lớn Để khắc phục vấn đề này, tác giả mạnh dạn đề xuất phương pháp tiếp cận dựa chiến lược Chia để trị xử lý tập liệu vào Tập liệu vào chia nhỏ thành phần liệu riêng biệt tiến hành xử lý độc lập, sau kết hợp lại để thu kết cuối Phương pháp giúp làm giảm đáng kế chi phí cho trình khai phá liệu điều kiện liệu phát sinh liên tục Khi tiếp cận dựa chiến lược Chia để trị tập liệu phát sinh xem độc lập với liệu trước q trình khai phá thực với tập liệu phát sinh khơng phải với tồn liệu, nhờ làm giảm đáng kể chi phí cho q trình khai phá Trong luận văn này, tác giả dành phần đáng kể để sở tốn học nhằm chứng minh cho tính đắn phương pháp đề xuất Luận văn NGUYỄN VƯƠNG THỊNH – LỚP K15T4 LUẬN VĂN THẠC SỸ xây dựng dựa tảng nghiên cứu khai phá luật kết hợp khai phá sử dụng web đề xuất từ năm 1995, đáng ý phải kể đến nghiên cứu Navathe [16] Agrawal [3] Nội dung luận văn tác giả trình bày bao gồm 04 chương: hương i i thiệu t ng u n: Đặt vấn đề giới thiệu toán mong muốn xử lý, nghiên cứu trước hướng tiếp cận đề tài hương Luật kết hợp kỹ thuật kh i phá luật kết hợp: Tập trung trình bày số khái niệm tập phổ biến luật kết hợp, nghiên cứu khai phá luật kết hợp số thuật toán tiêu biểu Trong chương này, tác giả khó khăn áp dụng khai phá luật kết hợp với liệu web log hương Tư tưởng “ hi để trị” kh i phá luật kết hợp: Trình bày sở toán học cho việc áp dụng tư tưởng Chia để trị đề xuất thuật toán cho phép tổng hợp kết xử lý tập liệu để thu kết mong muốn Tác giả đề xuất mơ hình hệ thống phân tích liệu web log để tìm luật kết hợp dựa chiến lược Chia để trị hương o ul ph n t ch liệu kết u thực nghiệ : Phân tích đặc trưng liệu web log trình bày kết thực nghiệm đánh giá Mặc dù có nhiều cố gắng chắn khơng tránh khỏi thiếu sót, tác giả mong nhận ý kiến đóng góp thầy giáo, cô giáo bạn học viên để tác giả hồn thiện kết nghiên cứu NGUYỄN VƯƠNG THỊNH – LỚP K15T4 LUẬN VĂN THẠC SỸ 65 D liệu cần kh i phá Sinh luật kết hợp ác luật kết hợp ạnh Hình 4.7: Hệ th ng khai phá luật kết hợp d a tr n giải thuật Apriori Khi cài đặt, hệ thống hệ thống 2, hệ thống triển khai PC có cấu hình phần cứng phần mềm bảng 4.2 Hệ thống triển khai mạng LAN gồm 02 PC có cấu bảng 4.2 kết nối trực tiếp với cáp mạng chuẩn ast Ethernet 100Mps Các chương trình ứng dụng thử nghiệm viết ngơn ngữ lập trình C# Net ramework 3.5 Ngồi để hỗ trợ lập trình song song cho hệ thống 3, thư viện lập trình song song MPI.Net (Message Passing Interface for Net) sử dụng Tổ chức liệu cách thức tiến hành thực nghiệm Dữ liệu thực nghiệm lấy từ 04 tập tin web logs bảng 4.1 Dữ liệu tổ chức thành 04 liệu (ký hiệu số La Mã từ (I) đến (IV)) (bảng 4.3) Các liệu bao trùm nhau, nghĩa liệu thứ (i+1) chứa liệu (i) với phần liệu phát sinh Nói cách khác, ta ln có (I) ⊂ (II) ⊂ (III) ⊂ (IV) Cũng cần phải nói thêm yếu tố tạo nên nét đặc trưng cho hệ thống thử nghiệm chế tìm tập phổ biến Đóng góp lớn luận văn nằm việc cải tiến chế tìm tập phổ biến Chính trình thử nghiệm, tác giả tập trung vào việc so sánh thời gi n tì tập ph biến từ sở liệu gi o ịch hệ thống với Cách thức tiến hành thực nghiệm sau: NGUYỄN VƯƠNG THỊNH – LỚP K15T4 LUẬN VĂN THẠC SỸ 66 Bước 1: ng với ngưỡng độ hỗ trợ minsup cho trước, liệu từ (I) đến (IV) xử lý hệ thống Thời gian tìm tập phổ biến hệ thống ứng với liệu ghi lại Chuyển sang bước Bước 2: Các giá trị ghi lại biểu diễn biểu đồ Trục hoành tương ứng với số lượng phiên truy cập, trục tung tương ứng với thời gian thực thi (millisecond) Mỗi hệ thống đặc trưng đường biểu diễn biểu đồ Chuyển sang bước Bước 3: óa hết liệu sở liệu tập phổ biến cục hệ thống Lặp lại bước với ngưỡng độ hỗ trợ minsup khác B ng Các liệu thử nghiệm Bộliệu (I) (II) (III) (IV) Chú ý làm việc với 04 liệu bảng 4.3 hệ thống hệ thống coi 04 liệu hoàn toàn độc lập Việc xử lý liệu (i+1) khơng liên quan đến kết xử lý liệu (i) trước Hệ thống làm việc dựa nguyên lý Chia để trị tập liệu nên cho phép chế kế thừa kết trước để rút ngắn khối lượng cần khai phá Khi hệ thống làm việc với liệu (i+1), tận dụng kết khai phá liệu (i) trước khai phá thêm tập liệu phát sinh sau tổng hợp kết lại (cập nhật độ hỗ trợ toàn cục lọc tập phổ biến toàn cục) .4 Kết thực đánh giá Sau tiến hành chạy thử nghiệm liệu hệ thống ứng với 04 ngưỡng độ hỗ trợ minsup khác 0.25%, 0.5%, 0.75%, 1.00%, ta thu NGUYỄN VƯƠNG THỊNH – LỚP K15T4 LUẬN VĂN THẠC SỸ 67 bảng kết thực nghiệm (bảng 4.4) Ngoài ra, vào bảng kết thực nghiệm, ta xây dựng 04 biểu đồ biểu diễn thay đổi thời gian xử lý theo gia tăng kích thước liệu vào tương ứng với 04 ngưỡng độ hỗ trợ (các hình 4.8a,b,c,d) B ng Kết th Lần thử 01 02 03 04 05 06 07 08 09 10 11 12 13 14 15 16 Từ bảng số liệu thực nghiệm quan sát biểu đồ, ta rút số nhận xét chung sau: ng với ngưỡng độ hỗ trợ, xử lý liệu (I) tức có xuất phát điểm, hệ thống (Divide and Conquer) tỏ chậm so với hai hệ thống cịn lại Sở dĩ lúc hệ thống phải xuất phát từ đầu chưa kế thừa NGUYỄN VƯƠNG THỊNH – LỚP K15T4 LUẬN VĂN THẠC SỸ 68 từ trước Hệ thống tỏ chậm hệ thống hệ thống dựa giải thuật Apriori cổ điển xử lý liệu (I) chế xử lý 02 hệ thống tương đối giống Có điều hệ thống phải thêm thời gian để giao tiếp với sở liệu lưu nhớ đồng thời phải cập nhật độ hỗ trợ tìm tập phổ biến toàn cục Hệ thống tỏ mạnh mẽ sử dụng xử lý song song Tuy nhiên chậm thời, bước sang xử lý liệu (II), hệ thống bắt đầu thể bứt phá Do tận dụng kết khai phá từ lần khai phá liệu (I) trước nên hệ thống cần khai phá tập liệu phát sinh thêm ∆P1 = (II)/(I) (ứng với 644 phiên truy cập) Trong đó, hệ thống phải chạy lại từ đầu với toàn tập liệu (II) (ứng với 1087 phiên truy cập) Như vậy, phải xử lý liệu (II) khối lượng cần xử lý hệ thống khoảng 60% so với hệ thống hệ thống Nhờ thời gian xử lý hệ thống giảm xuống Quan sát biểu đồ ta thấy đường biểu diễn hệ thống bắt đầu dời xa xuống phía đường biểu diễn hệ thống Thời gian cần thiết để xử lý liệu (II) hệ thống nhỏ hệ thống lớn nhiều so với hệ thống hệ thống sử dụng xử lý song song Khi xử lý sang liệu (III) hệ thống tỏ chiếm ưu tuyệt đối Do kế thừa kết khai phá từ lần khai phá liệu (II) trước nên hệ thống cần khai phá tập liệu phát sinh thêm ∆P = (III)/(II) (ứng với 469 phiên truy cập) hệ thống hệ thống phải khai phá toàn tập liệu (BI) (ứng với 1556 phiên truy cập) Khối lượng cần xử lý hệ thống lúc khoảng 30% so với hệ thống hệ thống Thời gian cần thiết để xử lý liệu (III) hệ thống lúc không nhỏ nhiều so với hệ thống mà nhỏ hệ thống hệ thống có ưu phần cứng Đường biểu diễn tương ứng với hệ thống lùi xuống phía đường biểu diễn hệ thống Càng tiến hành xử lý ưu hệ thống thể hiện, với liệu (IV) ta thu kịch tương tự Do kế thừa kết khai phá từ lần khai phá liệu (III) trước nên hệ thống cần khai phá tập liệu phát sinh thêm ∆P3 = (IV)/(III) (ứng với 808 phiên truy cập) hệ thống hệ thống phải khai phá toàn tập liệu (IV) (ứng với 2364 phiên truy cập) Khối lượng cần xử lý hệ thống lúc khoảng 30% so với hệ thống hệ thống NGUYỄN VƯƠNG THỊNH – LỚP K15T4 LUẬN VĂN THẠC SỸ 69 Hình 4.8a: Biểu đồ so sánh thời gian xử lý hệ th ng v i minsup = 0.25% Hình 4.8b: Biểu đồ so sánh thời gian xử lý hệ th ng v i minsup = 0.5% NGUYỄN VƯƠNG THỊNH – LỚP K15T4 LUẬN VĂN THẠC SỸ 70 Hình 4.8c: Biểu đồ so sánh thời gian xử lý hệ th ng v i minsup = 0.75% Hình 4.8d: Biểu đồ so sánh thời gian xử lý hệ th ng v i minsup = 1.00% NGUYỄN VƯƠNG THỊNH – LỚP K15T4 LUẬN VĂN THẠC SỸ 71 Qua phân tích sơ kết thực nghiệm trên, ta khẳng định: Mơ hình hệ thống khai phá liệu dựa chiến lược Chia để trị tác giả đề xuất hoạt động hiệu trường hợp liệu cần khai phá thường xuyên có phát sinh cần phải liên tục tiến hành khai phá có liệu phát sinh Tình hay gặp thực tế mà liệu truy cập web thường máy chủ web ghi lại chu kỳ (ngày/tuần/tháng) Nếu so với mơ hình khai phá song song luật kết hợp đề xuất Agrawal C.Shafer mơ hình Chia để trị tác giả đề xuất khơng chiếm ưu hiệu xử lý mà đơn giản dễ cài đặt 4.4 Kết luận chư ng Trong chương này, tác giả tập trung trình bày đặc trưng liệu truy cập web số thao tác tiền xử lý liệu Dựa kết nghiên cứu chương 3, tác giả bước đầu có thử nghiệm đánh giá so sánh hiệu thực thi mơ hình xử lý: mơ hình khai phá luật kết hợp cổ điển, mơ hình khai phá luật kết hợp dựa chiến lược Chia để trị , mơ hình khai phá luật kết hợp Mỗi mơ hình có ưu điểm nhược điểm tùy thuộc vào điều kiện cụ thể mà lựa chọn mơ hình phù hợp Đặc biệt phải cân nhắc lựa chọn chi phí xây dựng hệ thống hiệu xử lý Trong điều kiện liệu web thường xuyên thay đổi thường xuyên phải tiến hành khai phá có liệu phát sinh mơ hình khai phá liệu dựa chiến lược Chia để trị lựa chọn tối ưu NGUYỄN VƯƠNG THỊNH – LỚP K15T4 LUẬN VĂN THẠC SỸ 72 KẾT LUẬN Bằng việc đề xuất áp dụng chiến lược Chia để trị tập liệu vào, tác giả giải hai vấn đề lớn thường gặp phải xử lý liệu sử dụng web là: liệu có dung lượng lớn thường xuyên thay đổi (có phát sinh mới) theo thời gian thực: • Trong trường hợp củ hệ thống t nh toán: Chiến lược C liệu vào thành phần mà hệ thống tính tốn xử lý đ tiến hành xử lý riêng rẽ phần Nhờ mà tận dụng tảng sẵn có hệ thống tính tốn khơng cần phải nâng cấp phần cứng • Trong trường hợp tiến hành kh i phá liên tục lược Chia để trị giúp làm giảm đáng k liệu Có điều áp dụng chiến lược liệu phát sinh xem phần liệu độc lập với liệu có trước Q trình khai phá tiến hành tập liệu phát sinh thay tồn liệu, nhờ mà làm giảm đáng kể chi phí của q trình khai phá Mơ hình hệ thống khai phá luật kết hợp dựa chiến lược Chia để trị tác giả đề xuất có nhiều ưu điểm: • ó thể ễ àng rộng cho hệ thống t nh toán v i nhiều xử lý song song: Như trình bày chương 3, mơ hình tác giả đề xuất hồn tồn mở rộng để áp dụng cho hệ thống tính toán với nhiều xử lý song song Khi mở rộng vậy, thực chất thay phân tán liệu theo thời gian ta phân tán liệu theo không gian (chia cho nhiều xử lý) Còn nguyên tắc chế xử lý khơng có khác biệt so với hệ thống ban đầu Linh hoạt, ễ cài đặt, chi ph thấp: Như tác giả trình bày chương 3, mơ hình mà tác giả đề xuất khơng cần có u cầu đặc biệt phần cứng cài đặt Không giống hệ thống khai phá luật kết hợp song song Agrawal C.Shafer đề xuất [2-3 địi hỏi phải có hệ thống nhiều xử lý kết nối với qua mạng truyền thông tốc NGUYỄN VƯƠNG THỊNH – LỚP K15T4 LUẬN VĂN THẠC SỸ 73 độ cao giải thuật xử lý phải cài đặt dựa thư viện lập trình song song • Độc lập v i gi i thuật kh i phá liệu sử ụng: Khi tiến hành sinh tập phổ biến cục bộ, ta sử dụng giải thuật tìm tập phổ biến biết Thậm chí ứng với D j ta sử dụng giải thuật khác mà không ảnh hưởng đến kết cuối Tuy nhiên, bên cạnh kết đạt chiến lược Chia để trị mơ hình tác giả đề xuất số hạn chế: Hiệu mơ hình áp dụng chiến lược Chia để trị phụ thuộc nhiều vào giải thuật Tìm tập phổ biến tồn cục từ tập phổ biến cục mà tác giả đề xuất Tuy nhiên thuật tốn cịn đơn giản nên hiệu xử lý chưa cao Trong trình khai phá để tìm tập phổ biến cục sở liệu Dj xử lý hồn tồn độc lập Khơng có trao đổi hay kế thừa thông tin trinh xử lý D j Chính số trường hợp phát sinh nhiều tập mục thừa (tức tập phổ biến cục tập phổ biến tồn cục) sau giải thuật tìm tập phổ biến tồn cục từ tập phổ biến cục phải chạy vất vả để loại bỏ mục thừa Trong tương lai, để hồn thiện nghiên cứu mình, tác giả tập trung vào hai hướng: Cải tiến giải thuật tìm tập phổ biến tồn cục từ tập phổ biến cục nhằm làm tăng hiệu xử lý hệ thống Dựa nghiên cứu Agrawal C.Shafer để cải tiến thuật toán sinh tập phổ biến cục nhằm hạn chế tạo tập mục thừa Quá trình xử lý Dj khơng phải hồn tồn độc lập mà phải có chế trao đổi thơng tin nhằm tránh phát sinh nhiều tập phổ biến cục không cần thiết NGUYỄN VƯƠNG THỊNH – LỚP K15T4 LUẬN VĂN THẠC SỸ 74 TÀI LIỆU THAM KHẢO Tiếng Việt Hà Quang Thụy, Phan uân Hiếu, Đoàn Sơn, Nguyễn Tr Thu Trang, Nguyễn Cẩm Tú (2005), Giáo trình khai phá xuất Giáo dục Việt Nam, tr.56-65 Phan uân Hiếu (2003), Khai phá song song luật kết hợp sĩ khoa học, Trường Đại học Công nghệ, Đại học Quốc g Tiếng Anh Rakesh Agrawal and John C.Shafer (1996), Parallel Mining of Association Rules , IEEE Transactions in knowledge and data engineering, Vol (No 6) Agrawal R., Imielinski T., Swami A N (1993), Mining Association Rules Between Sets of Items in Large Database , Proceedings of the ACM SIGMOD, International Conference on Management of Data, pp.207-216 Agrawal R and Srikant R (1994), ast Algorithm for Mining Association Rules , Proceedings of 20th International Conference of Very Large Databases, pp.487-499 Agrawal R and Srikant R (1995), Mining Sequential Patterns , Proceedings of 11th International Conference on Data Engineering, IEEE Computer Society Press, pp.3-14 Han J., Dong G and Yin Y (1999), Efficient Mining of Partial Periodic Patterns in Time Series Database , Proceedings of 15th IEEE International Conference on Data Engineering, pp.106-115 Han J., Jian Pei., Yiwen Yin and Runying Mao (2004), Mining requent Patterns without Candidate Generation: A Frequent-Pattern Tree Approach , Journal of Data Mining and Knowledge Discovery, 8, pp.53-87 Han J., Jian Pei and Yiwen Yin (2000), Mining requent Patterns without Candidate Generation , Proceedings of ACM International Conference on Management of Data, 29(2), pp.1-12 NGUYỄN VƯƠNG THỊNH – LỚP K15T4 LUẬN VĂN THẠC SỸ 75 10 Eui-Hong Han, George Karypis and Kumar (2000), Scalable Parallel Data Mining for Asssociation Rules , IEEE Transaction on Knowledge and Data Engineering, pp.728-737 11 Lakshmanan V., Carson Kai-Sang, T Raymond (2000), The segment Support Map: Scalable Mining of requent Itemsets , Journal of ACM SIGKDD Explorations Newsletter, 2(2), pp.21-27 12 Mata J., Alvarez J L and Riquelme J C (2002), Evolutionary Computing and Optimization: An Evolutionary Algorithm to Discover Numeric Association Rules , Proceedings of ACM Symposium on Applied Computing, pp.590-594 13 Zdravko Markov and Daniel T.Larose (2007), Data mining the web – Uncovering patterns in web content, structure, and usage, A John Wiley & Sons, INC., Publication, pp.143-218 14 Florent Masseglia, Pascal Poncelet, Rosine Cicchetti (2000), An Efficient Algorithm for Web usage mining , Networking and Information Systems Journal, Volume X 15 Jong Park S., Ming-Syan, Chen and Yu P.S (1997), Using a Hash-Based Method with transaction Trimming for Mining Association Rules, IEEE Transactions on Knowledge and Data Engineering, pp.813-825 16 Ashok Savasere, Edward Omiecinski and Shamkant Navathe (1995), An Efficient Algorithm for Mining Association Rules in Large Databases , the 21th Very Large Database Conference 17 Suneetha K R and Krishnamoorti R (2011) Web Log Mining using Improved Version of Apriori Algorithm , International Journal of Computer Applications (0975-8887), Volume 29 (No 6) 18 Wang Tong and He Pi-lian (2005), Web Log Mining by an Improved AprioriAll Algorithm , World Academy of Science, Engineering and Technology 19 Navin Kumar Tyagi, A.K.Solanki and Manoj Wadhwa (2010), Analysis of Server Log by Web Usage Mining for Website Improvement , IJCSI NGUYỄN VƯƠNG THỊNH – LỚP K15T4 LUẬN VĂN THẠC SỸ 76 International Journal of Computer Science Issues (ISSN: 1694-0784) , Vol.7 (No 8) 20 Mohd Helmy Abd Wahab, Mohd Norzali Haji Mohd, Hafizul Fahri, Hanafi, Mohamad arhan, Mohamad Mohsin (2008), Data Pre-processing on Web Server Logs for Generalized Association Rules Mining Algorithm , Proceedings Of World Academy of Science, Engineering and Technology ISSN 2070-3740, Volume 36 21 Xian-Wei Liu and Pi-Lian He (2004), The Research of Improved Association Rules Mining Apriori Algorithm , Proceedings of the 3rd International Conference of Machine Learning and Cybernetics, pp.1577-1579 22 Yiwu Xie, Yutong Li, Chunli Wang and Mingyu Lu (2008), The Optimization and Improvement of the Apriori Algorithm , Proceedings of IEEE International Symposium on Intelligent Information Technology Application Workshops, pp.1101-1103 23 Zhao Hong, Gang yang, Lei wang and Ying Liu, An Implementation of Improved Apriori Algorithm , Proceedings of the 8th International Conference of Machine Learning and Cybernetics, pp.1565-1569 24 Wei Zhang, Zhang Wei, Dongme Sun Shaohua Teng and Haibin Zhu (2007), An Algorithm to Improve Effectiveness of Apriori , Proceedings of 6th IEEE International Conference on Cognitive Informatics, pp.385-390 NGUYỄN VƯƠNG THỊNH – LỚP K15T4 LUẬN VĂN THẠC SỸ ... nhiều ứng dụng hiệu thực tế Trong luận văn này, tác giả tập trung trình bày hướng nghiên cứu quan trọng khai phá sử dụng web, khai phá luật kết hợp từ liệu sử dụng web Có thể nói khai phá luật kết. .. cứu khai phá luật kết hợp 15 2.4 Khai phá sử dụng Web với giải thuật Apriori 19 2.5 Các kỹ thuật khai phá song song luật kết hợp 24 2.6 Những vấn đề đặt khai phá luật kết. .. nhật ký truy cập (web server logs) p dụng kỹ thuật khai phá liệu, ta phát mẫu (tri thức) tiềm hữu ích từ liệu sử dụng web Được xem ba loại hình khai phá web, khai phá sử dụng web trở thành lĩnh