Ứng dụng khai phá luật kết hợp trong phân tích dữ liệu sử dụng web

27 41 0
Ứng dụng khai phá luật kết hợp trong phân tích dữ liệu sử dụng web

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ NGUYỄN VƯƠNG THỊNH ỨNG DỤNG KHAI PHÁ LUẬT KẾT HỢP TRONG PHÂN TÍCH DỮ LIỆU SỬ DỤNG WEB LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN Hà Nội – Năm 2012 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ NGUYỄN VƯƠNG THỊNH ỨNG DỤNG KHAI PHÁ LUẬT KẾT HỢP TRONG PHÂN TÍCH DỮ LIỆU SỬ DỤNG WEB Ngành: Chuyên ngành: Mã số: Công nghệ thông tin Hệ thống thông tin 60 48 05 LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS.TS NGUYỄN HÀ NAM Hà Nội – Năm 2012 MỤC LỤC LỜI CAM ĐOAN LỜI CẢM ƠN MỤC LỤC DANH MỤC CÁC BẢNG DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ CHƯƠNG 1: GIỚI THIỆU TỔNG QUAN 1.1 Khai phá liệu sử dụng web 1.2 Phát biểu toán khai phá luật kết hợp từ liệu sử dụng web 11 1.3 Hướng tiếp cận đề tài 12 1.4 Kết luận chương 13 CHƯƠNG 2: LUẬT KẾT HỢP VÀ CÁC KỸ THUẬT KHAI PHÁ LUẬT KẾT HỢP 14 2.1 Khái niệm luật kết hợp tập phổ biến 14 2.2 Luật kết hợp liệu sử dụng web 15 2.3 Một số nghiên cứu khai phá luật kết hợp 15 2.4 Khai phá sử dụng Web với giải thuật Apriori 19 2.5 Các kỹ thuật khai phá song song luật kết hợp 24 2.6 Những vấn đề đặt khai phá luật kết hợp từ liệu web log 30 2.7 Kết luận chương 36 CHƯƠNG : TƯ TƯ NG CHIA Đ T Ị T ONG KHAI PHÁ LUẬT KẾT HỢP 37 3.1 p dụng chiến lược Chia để trị toán khai phá luật kết hợp 37 3.2 Cơ sở toán học cho việc áp dụng chiến lược Chia để trị 38 3.3 Mơ hình hệ thống khai phá luật kết hợp từ liệu sử dụng web dựa chiến lược Chia để trị 40 3.4 Tư tưởng Chia để trị khai phá song song luật kết hợp từ liệu sử dụng web 46 3.5 Sinh tập phổ biến cục 50 NGUYỄN VƯƠNG THỊNH – LỚP K15T4 LUẬN VĂN THẠC SỸ 3.6 Sinh luật kết hợp mạnh từ tập phổ biến 51 3.7 Kết luận chương 52 CHƯƠNG 4: KẾT QUẢ THỰC NGHIỆM 54 4.1 Đặc trưng liệu thực nghiệm 54 4.2 Các thao tác tiền xử lý liệu 54 4.2.1 Lọc liệu 55 4.2.2 Gán nhãn thời gian 57 4.2.3 Phân định phiên truy cập 58 4.3 Một số kết thực nghiệm 63 4.3.1 Mục tiêu trình thực nghiệm 63 4.3.2 Các hệ thống tham gia vào trình thực nghiệm 64 4.3.3 Tổ chức liệu cách thức tiến hành thực nghiệm 65 4.3.4 Kết thực đánh giá 66 4.4 Kết luận chương 71 KẾT LUẬN 72 TÀI LIỆU THAM KHẢO 74 NGUYỄN VƯƠNG THỊNH – LỚP K15T4 LUẬN VĂN THẠC SỸ CHƯƠNG 1: GIỚI THIỆU TỔNG QUAN S bùng nổ Internet khiến ho World Wide Web tr th nh kho liệu khổng lồ với s l ợng v ùng lớn máy hủ web rải rá khắp n i tr n giới Kho t i nguy n liệu Web tiềm ẩn nhiều mẫu th ng tin quý giá đ i với nhân, tổ hay ả ộng đồng Trong năm gần đây, lĩnh v khai phá web (Web Mining) ó b phát tri n mạnh mẽ, thu hút s quan tâm nhiều nh nghi n ứu v nhóm phát tri n ứng dụng Khai phá liệu sử dụng web (Web Usage Mining) l h ớng nghi n ứu quan tr ng khai phá web Cá máy hủ web th ờng ghi lại v tí h lũy liệu phản ánh hoạt động ng ời dùng nhận đ ợ y u ầu truy ập Từ hồ s truy ập web (hay òn g i l web log), áp dụng kỹ thuật khai phá liệu ó th giúp khám phá tri thứ hữu í h li n quan đến tr nh t ng tá ng ời dùng với Internet m ụ th l trang Web Trong luận văn n y, tá giả l a h n h ớng tiếp ận d a tr n khai phá luật kết hợp nh m đ nh u h ớng truy ập ng ời dùng đ ợ phản ánh b i tập phổ biến Cá phân tí h n y ó th giúp ấu trú lại website phân nhóm hiệu h n, hay đ nh v trí đặt banner quảng áo hiệu nhất, ũng nh gắn việ quảng áo sản phẩm đ nh ho ng ời dùng quan tâm đ đạt hiệu ao nhất,… Khi áp dụng khai phá luật kết hợp v o liệu web log, ta vấp phải s vấn đề sau đây: Dung l ợng liệu đ v o từ tập tin web log ó th lớn đến mứ kh ng th áp dụng tr tiếp giải thuật khai phá luật kết hợp s hạn hế nhớ hệ th ng tính tốn Bản thân liệu web log ó th đ ợ ghi lại h phân tán tr n tập tin rời rạ (theo hu kỳ thời gian giờ/ng y/tuần/tháng/năm) v liệu th ờng uy n đ ợ phát sinh sau hu kỳ Tuy nhi n tiến h nh khai phá liệu th ta ần khai phá to n liệu từ tập tin n y nh hỉnh th Việ liệu phát sinh khiến kết khai phá tr kh ng òn hính v húng ta phải tiến h nh khai phá lại từ đầu sau liệu đầu v o đ ợ ập nhật NGUYỄN VƯƠNG THỊNH – LỚP K15T4 TÓM TẮT LUẬN VĂN Liệu ó h n o ó th tận dụng đ ợ kết khai phá tr hay kh ng l vấn đề đặt Trong luận văn, tá giả kh ng tiếp ận d a tr n việ ải tiến giải thuật khai phá luật kết hợp ó hay đề uất áp dụng giải thuật m tiếp ận giải vấn đề từ gó độ liệu v o T t ng Chia đ tr (Divide and Conquer) đ ợ tá giả đề uất áp dụng lý tập liệu v o Chia đ tr l h tiếp ận hết sứ t nhi n giải b i toán Tập liệu vào đ ợ phân hia th nh tập liệu on ( ó kí h th phù hợp với nhớ trong) ó th đ ợ lý độ lập Cá kết lý n y đ ợ tổng hợp lại đ thu đ ợ kết mong mu n Trong luận văn, tá giả tập trung tr nh b y s toán h ũng nh hứng minh tính đắn việ áp dụng hiến l ợ Chia đ tr lý tập liệu v o v đồng thời đề uất m h nh hệ th ng phân tí h liệu thu đ ợ từ tập tin web log đ đ a luật kết hợp Cá s liệu th nghiệm ũng đ ợ tr nh b y h đầy đủ đ l m s so sánh Cá h thứ tiếp ận d a tr n t t ng Chia đ tr ó nhiều u m, ó hai u m lớn l : Độc lập với giải thuật khai phá liệu sử dụng: Khi tiến h nh lý tập liệu on, ta ó th l a h n giải thuật khai phá liệu phù hợp Thậm hí, kh ng thiết tất ả tập liệu on phải sử dụng ùng giải thuật m tập liệu on ó th dùng giải thuật đ lý Có thể xử lý độc lập hệ thống tính tốn khác nhau: Cá tập liệu on ó th đ ợ lý song song v ho n to n độ lập tr n ùng hệ th ng tính tốn hoặ tr n hệ th ng B i toán khai phá luật kết hợp kh ng phải l b i toán khai phá liệu, nhi n l lĩnh v ó nhiều ứng dụng th tế v đ ợ nhiều nh nghi n ứu quan tâm, đề uất thuật toán đ giải Khi áp dụng m h nh luật kết hợp v o dạng liệu đặ thù l liệu web th việ l a h n thuật toán khai phá liệu phù hợp l yếu t v ùng quan tr ng Trong h ng 2, tá giả tập trung tr nh b y s s kỹ thuật khai phá luật kết hợp đ ợ phát tri n v vấn đề gặp phải áp dụng với liệu web log NGUYỄN VƯƠNG THỊNH – LỚP K15T4 TÓM TẮT LUẬN VĂN CHƯƠNG 2: LUẬT KẾT HỢP VÀ CÁC KỸ THUẬT KHAI PHÁ LUẬT KẾT HỢP 2.1 Luật kết hợp liệu sử dụng web Sau liệu truy ập web đ ợ tiền lý, đ nh rõ liệu t ng ứng với ng ời dùng v phi n truy ập th vấn đề th tiễn đặt l trang web (hay tập tin t i nguy n) n o th ờng đ ợ truy ập ùng với Về bản, phân đ nh đ ợ phi n truy ập, ta ó th áp dụng m h nh luật kết hợp v o liệu thu đ ợ Mỗi trang web hay tập tin đ ợ truy ập đóng vai trò l mụ , phi n truy ập đ ợ em l giao d h Dữ liệu truy ập web lú n y đ ợ em l s liệu giao d h v ó th sử dụng thuật tốn khai phá luật kết hợp Cá luật kết hợp ó th đ ợ sử dụng đ li n kết trang th ờng đ ợ truy ập ùng với phi n truy ập Trong ngữ ảnh khai phá sử dụng web th luật kết hợp hỉ tập hợp trang web th ờng đ ợ truy ập ùng với với độ hỗ trợ lớn h n ng ỡng quy đ nh tr Cá trang web n y kh ng thiết phải đ ợ kết n i với th ng qua si u li n kết (hyperlink) Việ sử dụng giải thuật khai phá luật kết hợp ó th giúp phát m i t ng quan ng ời dùng viếng thăm trang web 2.2 Khai phá sử dụng Web với giải thuật Apriori Giả sử sau tiền lý liệu thu đ ợ từ web log, ta đ nh đ ợ phi n truy ập ng ời dùng nh bảng 2.1 phi n truy ập ó th oi l giao d h v trang đ ợ truy ập l mụ Việ áp dụng giải thuật Apriori ó th giúp đ nh đ ợ trang n o th ờng đ ợ truy ập ùng với Những mẫu thu đ ợ ung ấp tri thứ hữu í h phụ vụ ho lĩnh v nh tiếp th điện tử hay tổ lại website ho thuận tiện đ i với ng ời dùng ngắn g n, ta ký hiệu trang truy ập nh sau: /shopping/ omesti htm I1 /shopping/fashion.htm I2 /sport.htm I3 /news.htm I4 / ars.htm I5 NGUYỄN VƯƠNG THỊNH – LỚP K15T4 TĨM TẮT LUẬN VĂN Ta ó s liệu giao d h D gồm giao d h với tập mụ nh bảng 2.2 Bảng 2.1: Các phiên truy cập người dùng Phiên truy Các trang truy cập cập Session /shopping/ omesti htm , /shopping/fashion.htm / ars.htm Session /shopping/fashion.htm , /news.htm Session /shopping/fashion.htm , /sport.htm Session /shopping/ omesti htm , /shopping/fashion.htm /news.htm Session /shopping/ omesti htm , /sport.htm Session /shopping/fashion.htm , /sport.htm Session /shopping/ omesti htm , /sport.htm Session /shopping/ omesti htm , /shopping/fashion.htm /sport.htm , / ars.htm Session /shopping/ omesti htm , /shopping/fashion.htm /sport.htm , , , , Bảng 2.2: Cơ sở liệu giao dịch D Giao dịch Tập mục T01 I1, I2, I5 T02 I2, I4 T03 I2, I3 T04 I1, I2, I4 T05 I1, I3 T06 I2, I3 T07 I1, I3 T08 I1, I2, I3, I5 T09 I1, I2, I3 Thuật toán Apriori l thuật toán kinh n áp dụng khai phá luật kết hợp Thuật toán d a tr n nguy n lý Apriori tập on tập phổ biến ũng l tập phổ biến Mụ đí h thuật tốn Apriori l t m đ ợ tất ả tập phổ biến ó th ó s liệu giao d h D Thuật toán hoạt động theo nguy n tắ quy hoạ h động, nghĩa l từ tập Fi = { ci | ci l tập phổ biến, | i| = 1} gồm m i NGUYỄN VƯƠNG THỊNH – LỚP K15T4 TÓM TẮT LUẬN VĂN tập mụ phổ biến ó độ d i i (1 ≤ i ≤ k), t m tập F k+1 gồm m i tập mụ phổ biến ó độ d i k+1 Cá mụ i1, i2,…, in thuật toán đ ợ ếp theo thứ t đ nh Thuật toán Apriori: Input: C s liệu giao d h D = {t1, t2,…, tm} Ng ỡng t i thi u minsup > Output: Tập hợp tất ả tập phổ biến Begin Tính sup(ij) = count(ij)/m ho mụ i1, i2,…, in b ng h quét CSDL lần v đếm s lần uất mụ ; Tập ứng vi n ó độ d i l C1 = {i1, i2,…, in}; Tập tập phổ biến ó độ d i l F1 = {ij | ij ∈ C1, sup(ij) ≥ minsup}; k=1; termination = false; Repeat Fk+1 = ⍉; Tạo tập ứng vi n Ck+1 b ng kết hợp phần tử ó độ d i k có k-1 mụ trùng v loại bỏ ứng vi n ó hứa tập on độ d i k kh ng thuộ Fk; Quét CSDL lần v tính tốn độ hỗ trợ ho phần tử Ck+1 Nếu độ hỗ trợ lớn h n minsup th kết nạp phần tử v o Fk+1; If Fk+1 = ⍉ then termination=true Else k=k+1; Until termination; End; Thủ tụ tạo tập ứng vi n Ck+1 ó nhiệm vụ sinh (generation) tập mụ ó độ d i k+1 từ tập mụ ó độ d i k tập F k Thủ tụ n y đ ợ thi h nh th ng qua việ n i (join) tập mụ ó tiền t (prefi ) v sau áp dụng nguy n lý Apriori đ loại bỏ bớt tập kh ng thỏa mãn NGUYỄN VƯƠNG THỊNH – LỚP K15T4 TÓM TẮT LUẬN VĂN 2.3 Những vấn đề đặt khai phá luật kết hợp từ liệu web log Có nhiều vấn đề đặt khai phá liệu sử dụng web từ tập tin web server log i với luận văn n y, tá giả tập trung v o vấn đề sau đây:  Dữ liệu cần xử lý lớn: Tất ả giải thuật khai phá luật kết hợp, dù hiệu đến đâu ũng b giới hạn b i dung l ợng nhớ hệ th ng tính tốn Khi s l ợng ghi ần lý lớn, kh ng áp dụng kỹ thuật lý bổ sung ó th l m hệ th ng tính tốn b treo Dung l ợng liệu truy ập web máy hủ đ ợ ghi lại d ới dạng tập tin log ùng khoảng thời gian ó th l tùy theo s l ợng truy ập đ ợ gửi đến máy hủ Dung l ợng n y ó th r i v o khoảng v i hụ đến h ng trăm megabyte ng y (t ng ứng với khoảng v i ng n đến h ng trăm ng n ghi) L ợng liệu tí h lũy đ ợ ghi lại sau v i tuần hay v i tháng ó th l n tới h ng gigabyte Câu hỏi đặt l ta phải l m g dung l ợng liệu ần lý v ợt giới hạn nhớ hệ th ng tính tốn Một h t hết sứ t nhi n l hia nhỏ tập liệu th nh phần ó dung l ợng vừa với kí h th nhớ v lý phần độ lập Giải pháp ho vấn đề n y đ ợ tr nh b y h ng  Dữ liệu thường xuyên có phát sinh q trình khai phá đòi hỏi phải thực thường xuyên, liên tục Một thá h thứ tiến h nh khai phá liệu sử dụng web từ tập tin server log l liệu đ ợ ập nhật li n tụ Một s phần mềm máy hủ web ho phép nh quản tr l a h n h thứ ghi lại liệu truy ập tr n nhiều tập tin log, tập tin log đ ợ tạo sau hu kỳ đ nh (ng y/tuần/tháng) hoặ dung l ợng tập tin v ợt giới hạn ho tr Ngo i nh quản tr ũng ó th l a h n ghi lại to n liệu truy ập web l n một tin log v kí h th tập tin n y gia tăng Vấn đề n y ó th đ ợ phát bi u h tổng quát nh sau: Giả sử thời m t1 ta ó s liệu giao d h D v ta tiến h nh khai phá tr n s liệu giao d h n y, thu đ ợ tập phổ biến ũng nh luật kết hợp t ng ứng ến thời m t 2, phát sinh thêm tập giao d h l ∆D C s liệu giao d h lú n y l D’ = D ∪ NGUYỄN VƯƠNG THỊNH – LỚP K15T4 TÓM TẮT LUẬN VĂN 10 v lú n y hiến l ợ Chia đ tr kh ng th áp dụng th nh ng việ kết hợp nghiệm b i toán on kh ng giúp ta ây d ng lại đ ợ hính nghiệm b i toán ban đầu F F F* F* hỉ hứa phần F, phần F* òn lại F kh ng th đ nh F* hứa to n F đ ợ từ F* Hình 3.1: Tương quan lực lượng tập phổ biến cục tập phổ biến toàn cục hứng minh F ⊆ F* ta hứng minh r ng m i phần tử F ũng thuộ F* Mu n hứng minh m i phần tử F ũng thuộ F* ta phải hứng minh r ng tập phổ biến Ii ∈ F ũng phải thuộ s tập F1,…, Fm Nói h , ta phải hứng minh r ng tập mụ l tập phổ biến to n ụ ứng với CSDL giao d h D th ũng l tập phổ biến ụ ứng với đoạn CSDL on Dj n o D Tứ l : Nếu sup D ( I i ) ≥ p th phải  j ∈ [1, m] cho sup D j ( Ii ) ≥ p Trong đó: Ii l tập mụ , p l ng ỡng độ hỗ trợ (minsup), sup D ( Ii ) l độ hỗ trợ Ii ứng với sup D j ( Ii ) l độ hỗ trợ Ii ứng với s liệu giao d h D v s liệu giao d h on Dj Ta hứng minh mệnh đề n y b ng ph ng pháp phản hứng: Giả sử với sup D ( I i ) ≥ p, ∄j ∈ [1, m] cho sup D j ( I i ) ≥ p, tứ l ∀j ∈ [1, m] ta ó sup D j ( I i ) < p G i s lần uất (support ount) Ii CD ( I i ) Theo đ nh nghĩa độ hỗ trợ th sup D ( I i )  NGUYỄN VƯƠNG THỊNH – LỚP K15T4 s liệu D CD ( I i ) Từ D TÓM TẮT LUẬN VĂN 11 giả thiết sup D ( I i )  p , ta có CD ( I i )  p suy ra: CD ( I i )  p D D (3.2.1) G i CD j ( I i ) l s lần uất Ii Theo đ nh nghĩa độ hỗ trợ th sup D j ( I i )  hứng: ∀j ∈ [1, m] CD j ( I i ) Dj ta CD j ( I i ) Dj s liệu on Dj Từ giả thiết phản ó sup D j ( I i ) < p, từ suy  p (∀j ∈ [1, m]) hay CD j ( Ii )  p D j (∀j ∈ [1, m]) Áp dụng bất đ ng thứ tr n lần l ợt ho D2,…, Dm, ta thu đ ợ m bất đ ng thứ sau đây: s liệu on D1, CD1 ( Ii )  p D1 CD2 ( Ii )  p D2 CD3 ( Ii )  p D3 … CDm ( Ii )  p Dm Cộng bất đ ng thứ tr n theo vế ta đ ợ : CD1 ( Ii )  CD2 ( Ii )   CDm ( Ii )  p  D1  D2   Dm  (3.2.2) Do D = D1 ∪ D2 …∪ Dm v suy ra: tập D1, D2,…, Dm đ i kh ng giao CD ( Ii )  CD1 ( Ii )  CD2 ( Ii )   CDm ( Ii ) (3.2.3) D  D1  D2   Dm (3.2.4) Từ (3.2.2), (3.2.3) v (3.2.4) suy ra: CD ( I i )  p D (3.2.5) Dễ thấy hai bất đ ng thứ (3.2.1) v (3.2 ) mâu thuẫn với n n giả thiết phản hứng ban đầu m húng ta đ a l sai Vậy nh tập mụ l tập phổ biến to n ụ ứng với s liệu D th ũng l tập phổ biến ụ ứng với s NGUYỄN VƯƠNG THỊNH – LỚP K15T4 TÓM TẮT LUẬN VĂN 12 liệu on n o D tứ l phải thuộ s tập F1, F2,…, Fn đồng nghĩa với việ phải thuộ F* V m i phần tử thuộ F ũng phải thuộ F* nên ta có F ⊆ F* (đp m) Qua hứng minh tr n, ta ó th kh ng đ nh việ áp dụng hiến l ợ Chia đ tr khai phá luật kết hợp từ s liệu giao d h D l ho n to n khả thi v ta ó th kh i phụ đ ợ tập tập phổ biến to n ụ F từ tập tập phổ biến ụ F* Trong phần tiếp theo, tá giả in đề uất m h nh hệ th ng khai phá luật kết hợp từ liệu sử dụng web d a tr n ý t ng hiến l ợ Chia đ tr v thuật toán đ n giản đ t m F từ F* Mơ hình hệ thống khai phá luật kết hợp từ liệu sử dụng web dựa chiến lược Chia để trị Rm R2 R1 Các phần liệu riêng rẽ Tách tr ờng liệu L liệu Gán nhãn thời gian Phân đ nh phi n truy ập Sinh tập phổ biến to n ụ CSDL tập phổ biến cục Các tập phổ biến toàn cục Sinh luật kết hợp mạnh Sinh tập phổ biến ụ Các luật kết hợp mạnh Hình 3.2: Mơ hình KP LKH dựa chiến lược “Chia để trị” Dữ liệu web log đ ợ hia th nh m phần ri ng rẽ 1, R2,…, m ( ó th từ ban đầu liệu đ ợ tổ th nh m tập tin log độ lập nhau) đ lý lần l ợt th ng qua module (hình 3.2) NGUYỄN VƯƠNG THỊNH – LỚP K15T4 TÓM TẮT LUẬN VĂN 13 Hệ th ng ó s liệu đ l u trữ to n kết khai phá ụ tr n phần liệu i Trong ngữ ảnh khai phá liệu, th 04 thao tá từ phân tá h tr ờng liệu, l liệu, gán nhãn thời gian ho đến phân đ nh phi n truy ập thuộ tr nh tiền xử lý liệu Module Sinh tập phổ biến to n ụ ó th đ ợ i đặt d a tr n thuật toán đ n giản sau đây: Input: Tập tập phổ biến ụ F* Output: Tập tập phổ biến to n ụ F F* = F1 + F2 +…+ Fm; //Tập chứa toàn tập phổ biến cục F = ϕ; //Tập chứa toàn tập phổ biến toàn cục L = I1; //Tập chứa tập ứng viên toàn cục * * F =F \{I1}; for each Ii ∈ F* { boolean OK = true; for each Lj ∈ L if Ii ≡ Lj then { Lj.Count = Lj.Count + Ii.Count; //Cập nhật support count cho Lj OK = false; Exit For; } if OK then L = L ∪ {Ii}; //Nếu Ii chưa có L kết nạp Ii vào L } for each Lj ∈ L if (Lj.Count ≥ p*|D|) then F = F ∪ {Lj}; Ký hiệu s tập phổ biến ụ ó F* l N, nh vòng lặp đầu ti n phải hạy N lần đ duyệt hết tập ó F* ng với tập phổ biến Ii F*, ta so sánh Ii với ứng vi n ó tập L xem Ii ó mặt L hay h a, h a th kết nạp Ii v o L òn ó th ập nhật giá tr s lần uất (support ount) G i hiều d i danh sá h L lú l li v hiều d i t i đa L l l0 Vòng lặp thứ phải duyệt qua li phần tử, ứng với phần tử Lj phải th NGUYỄN VƯƠNG THỊNH – LỚP K15T4 TÓM TẮT LUẬN VĂN 14 ki m tra em Ii ó trùng với Lj kh ng S phép toán so sánh phải th l min{L(Ii),L(Lj)} với L(Ii) v L(Lj) lần l ợt l hiều d i Ii v Lj ộ phứ tạp thuật toán tr ờng hợp ấu ó th đ ợ đánh giá nh sau: li   T =  3 +  (min L(Ii ), L(L j ) + 3)  + 2l0 i=1  j=1  N   li N   = 3N + 2l0 +  (min L(Ii ), L(L j ) + 3) i=1 j=1 V 1< L(Ii), L(Lj) ≤ L (∀i,j) nên min{L(Ii), L(Lj)} ≤ L Từ suy ra: li N   N li N  (min L(Ii ), L(L j ) + 3)   (L + 3)   li (L + 3) i=1 j=1 i=1 j=1 i=1 Kí h th t i đa tập ứng vi n to n ụ L l l0 tứ l li ≤ l0 (∀i ∈ [1,N]) v N N l  l i i=1 = Nl0 i=1 Vậy n n: N li N  (min L(I ), L(L ) + 3)   l (L + 3)  Nl (L + 3) i j i=1 j=1 i i=1 Suy ra: T  3N + 2l0 + Nl0 (L + 3) V phần tử tập ứng vi n to n ụ L th hất đ ợ tập F* n n kí h th tập L kh ng th lớn h n kí h th hay l0 ≤ N Từ đó: h n từ tập F* T  LN2 + 3N2 + 5N Hay T = O(LN2) Sau thu đ ợ tập phổ biến to n ụ , module Sinh luật kết hợp mạnh đ ợ sử dụng đ t m luật kết hợp mạnh từ tập NGUYỄN VƯƠNG THỊNH – LỚP K15T4 TÓM TẮT LUẬN VĂN 15 phổ biến to n ụ thu đ ợ d a tr n giải thuật sinh luật kết hợp (mụ 3.6) M h nh hệ th ng đề uất tr n đáp ứng t t 02 k h ó th ảy với liệu web log: - Trong tr ờng hợp liệu web log ó dung l ợng lớn v ợt khả lý hệ th ng tính tốn, ta ó th em ét tới ph ng án hia nhỏ tập liệu th nh phần nhỏ đ lý v tí h lũy tập phổ biến ụ t ng ứng v o s liệu Sau đó, ta áp dụng thuật toán mụ 3.3 đ l s liệu tập phổ biến ụ nh m thu đ ợ tập phổ biến to n ụ nh mong mu n - Trong tr ờng liệu web log đ ợ tí h lũy dần theo thời gian ( hu kỳ) v phải li n tụ tiến h nh khai phá liệu sau lần tí h lũy, m h nh n y giúp l m giảm đáng kế thời gian khai phá lần khai phá sau ó th kế thừa kết lần khai phá tr (đ ợ l u s liệu tập phổ biến ụ bộ) .4 Tư tưởng Chia để trị khai phá song song luật kết hợp từ liệu sử dụng web Sau đây, tá giả in đề uất m h nh l m rộng m h nh h nh 3.2 áp dụng ho hệ th ng tính tốn ó m lý song song Dữ liệu ần lý đ ợ hia th nh m phần (m tập tin log) Sau giai đoạn tiền lý liệu, ta thu đ ợ m s liệu giao d h on t ng ứng D1, D2,…, Dm Cá s liệu on n y đ ợ phân hia ho m lý, lý Pi lý liệu Di Mỗi lý ó th sử dụng thuật toán t m tập phổ biến n o biết (ví dụ nh Apriori h ng hạn) đ khai phá tr n s liệu Di ri ng nh m t m tập phổ biến ụ Trong tr nh lý m nh, lý ho n to n độ lập v kh ng ần ó s trao đổi liệu đ đồng hóa tr nh lý NGUYỄN VƯƠNG THỊNH – LỚP K15T4 TÓM TẮT LUẬN VĂN 16 Phần liệu Phần liệu Tá h tr ờng liệu Tá h tr ờng liệu L liệu L Phần liệu m Tá h tr ờng liệu L liệu liệu Gắn nhãn thời gian Gắn nhãn thời gian Gắn nhãn thời gian Phân đ nh phi n truy ập Phân đ nh phi n truy ập Phân đ nh phi n truy ập CSDL giao d h D1 CSDL giao d h D2 CSDL giao d h Dm Bộ lý P1 Bộ lý P2 Bộ lý Pm Tập tập phổ biến ụ F1 Tập tập phổ biến ụ F2 Tập tập phổ biến ụ Fm Sinh tập phổ biến to n ụ Tập tập phổ biến to n ụ F Phân hia tập tập phổ biến to n ụ F1 ộ xử lý P1 F2 ho m lý ộ xử lý P2 Fm ộ xử lý Pm Tập luật kết hợp mạnh Hình 3.3: Mơ hình “Chia để trị” khai phá song song luật kết hợp NGUYỄN VƯƠNG THỊNH – LỚP K15T4 TÓM TẮT LUẬN VĂN 17 CHƯƠNG 4: KẾT QUẢ THỰC NGHIỆM 4.1 Các hệ thống tham gia vào trình thực nghiệm Tá giả tiến h nh th nghiệm tr n hệ th ng:  Hệ thống 1: Sử dụng m h nh khai phá luật kết hợp ổ n d a tr n giải thuật Apriori (h nh 4.2) Dữ liệu sử dụng web sau đ ợ tiền lý thu đ ợ tập phi n truy ập ng ời dùng ( s liệu giao d h D) Giải thuật Apriori đ ợ áp dụng đ sinh tập phổ biến Sau đó, giải thuật sinh luật kết hợp đ ợ sử dụng đ sinh luật kết hợp mạnh từ tập phổ biến t m đ ợ ( em mụ 3.6 - Ch ng 3) ây l m h nh hệ th ng khai phá luật kết hợp n h nh, đ n giản v đ ợ sử dụng rộng rãi  Hệ thống 2: Sử dụng m h nh khai phá luật kết hợp d a tr n hiến l ợ Chia đ tr tá giả đề uất (h nh 3.2 – Ch ng 3)  Hệ thống : Sử dụng m h nh khai phá song song luật kết hợp (hình 2.6 – Ch ng 2) với s lý N=2 Giải thuật khai phá song song đ ợ áp dụng l giải thuật phân ph i độ hỗ trợ ( ount distribution) Agrawal v C.Shafer đề uất 4.2 Tổ chức liệu cách thức tiến hành thực nghiệm Dữ liệu th nghiệm lấy từ 04 tập tin web logs đ ợ hỉ tr n bảng 4.1 Dữ liệu đ ợ tổ th nh 04 liệu (ký hiệu b ng s La Mã từ (I) đến (IV)) (bảng 4.3) Cá liệu n y l bao trùm nhau, nghĩa l liệu thứ (i+1) hứa liệu (i) ùng với phần liệu phát sinh Nói h , ta lu n ó (I) ⊂ (II) ⊂ (III) ⊂ (IV) Cũng ần phải nói th m l yếu t tạo n n nét đặ tr ng ho hệ th ng đ ợ thử nghiệm hính l hế t m tập phổ biến óng góp lớn luận văn ũng n m việ ải tiến hế t m tập phổ biến Chính v tr nh thử nghiệm, tá giả hỉ tập trung v o việ so sánh thời gian tìm tập phổ biến từ sở liệu giao dịch hệ th ng với Cá h thứ tiến h nh th nghiệm nh sau: ước 1: ng với ng ỡng độ hỗ trợ minsup ho tr , liệu từ (I) đến (IV) đ ợ lần l ợt lý tr n hệ th ng Thời gian t m NGUYỄN VƯƠNG THỊNH – LỚP K15T4 TÓM TẮT LUẬN VĂN 18 tập phổ biến tr n hệ th ng ứng với liệu đ ợ ghi lại Chuy n sang b ước 2: Cá giá tr ghi lại đ ợ bi u diễn tr n bi u đồ Trụ ho nh t ng ứng với s l ợng phi n truy ập, trụ tung t ng ứng với thời gian th thi (millise ond) Mỗi hệ th ng đ ợ đặ tr ng b i đ ờng bi u diễn tr n bi u đồ Chuy n sang b ước : Xóa hết liệu s liệu tập phổ biến ụ hệ th ng Lặp lại b với ng ỡng độ hỗ trợ minsup Bộ liệu (I) (II) (III) (IV) Bảng 4.3: Các liệu thử nghiệm Dung Số lượng Số lượng lượng phiên truy Tập tin nguồn ghi (KB) cập 41873 164135 443 20120720-access 20120720-access 93139 364988 1087 20120721-access 20120720-access 124351 487363 1556 20120721-access 20120722-access 20120720-access 20120721-access 154940 608083 2364 20120722-access 20120723-access Chú ý l l m việ với 04 liệu tr n bảng 4.3 th hệ th ng v hệ th ng oi l 04 liệu hoàn toàn độc lập Việ lý liệu (i+1) kh ng li n quan g đến kết lý liệu i tr Hệ th ng l m việ d a tr n nguy n lý Chia đ tr đ i với tập liệu n n ho phép hế kế thừa kết tr đ rút ngắn kh i l ợng ần khai phá Khi hệ th ng l m việ với liệu (i+1), tận dụng kết khai phá liệu i tr v hỉ khai phá th m tr n tập liệu phát sinh sau tổng hợp kết lại ( ập nhật độ hỗ trợ to n ụ v l tập phổ biến to n ụ ) Kết thực đánh giá Sau tiến h nh hạy thử nghiệm liệu tr n hệ th ng ứng với 04 ng ỡng độ hỗ trợ minsup l 0.2 %, %, 0.7 %, 1.00%, ta thu đ ợ bảng kết th nghiệm (bảng 4.4) Ngo i NGUYỄN VƯƠNG THỊNH – LỚP K15T4 TÓM TẮT LUẬN VĂN 19 ra, ăn ứ v o bảng kết th nghiệm, ta ũng ây d ng đ ợ 04 bi u đồ bi u diễn s thay đổi thời gian lý theo s gia tăng kí h th liệu v o t ng ứng với 04 ng ỡng độ hỗ trợ ( h nh 4.8a,b,c,d) Bảng 4.4: Kết thực nghiệm với 04 liệu 03 hệ thống Thời gian tìm tập phổ Số biến Bộ Số lượng (Đơn vị: ms) Lần Ngưỡng lượng phiên thử độ hỗ trợ Hệ Hệ Hệ liệu ghi truy thống thống thống cập 01 02 03 01 (I) 164135 443 56 65 29 02 (II) 364988 1087 275 299 150 0.25% 03 (III) 487363 1556 350 88 178 04 (IV) 608083 2364 535 225 250 05 06 07 08 09 10 11 12 13 14 15 16 0.50% (I) (II) (III) (IV) 164135 364988 487363 608083 443 1087 1556 2364 52 93 150 223 60 75 62 84 30 48 74 118 0.75% (I) (II) (III) (IV) 164135 364988 487363 608083 443 1087 1556 2364 53 100 138 180 55 50 42 45 25 48 72 90 1.00% (I) (II) (III) (IV) 164135 364988 487363 608083 443 1087 1556 2364 44 75 130 155 58 50 40 52 28 40 75 78 Từ bảng s liệu th nghiệm v quan sát bi u đồ, ta ó th rút s nhận ét nh sau: ng với ùng ng ỡng độ hỗ trợ, lý liệu (I) tứ l ó ùng uất phát m, hệ th ng (Divide and Conquer) tỏ chậm NGUYỄN VƯƠNG THỊNH – LỚP K15T4 TÓM TẮT LUẬN VĂN 20 so với hai hệ th ng òn lại S dĩ nh v lú n y hệ th ng phải uất phát từ đầu v h a kế thừa đ ợ g từ tr Tuy nhiên s hậm n y hỉ l thời, b sang lý liệu (II), hệ th ng bắt đầu th s bứt phá Do tận dụng đ ợ kết khai phá từ lần khai phá liệu (I) tr n n hệ th ng hỉ ần khai phá tr n tập liệu phát sinh th m ∆P1 = (II)/(I) (ứng với 644 phi n truy ập) Khi lý sang liệu (III) th hệ th ng tỏ u tuyệt đ i Do đ ợ kế thừa kết khai phá từ lần khai phá liệu (II) tr n n hệ th ng hỉ ần khai phá tr n tập liệu phát sinh th m ∆P2 = (III)/(II) (ứng với 469 phi n truy ập) Kh i l ợng ần lý hệ th ng lú n y hỉ òn khoảng 30% so với hệ th ng v hệ th ng C ng tiến h nh lý th u hệ th ng ng đ ợ th hiện, với liệu (IV) ta ũng thu đ ợ k h t ng t Do đ ợ kế thừa kết khai phá từ lần khai phá liệu (III) tr n n hệ th ng hỉ ần khai phá tr n tập liệu phát sinh th m ∆P3 = (IV)/(III) (ứng với 808 phi n truy ập) Kh i l ợng ần lý hệ th ng lú n y ũng hỉ òn khoảng 30% so với hệ th ng v hệ th ng Qua phân tí h s kết th nghiệm tr n, ta ó th kh ng đ nh: M h nh hệ th ng khai phá liệu d a tr n hiến l ợ Chia đ tr tá giả đề uất hoạt động hiệu tr ờng hợp liệu ần khai phá th ờng uy n ó s phát sinh v ần phải li n tụ tiến h nh khai phá ó liệu phát sinh K h n y hay gặp th tế m liệu truy ập web th ờng đ ợ máy hủ web ghi lại hu kỳ (ng y/tuần/tháng) Nếu so với m h nh khai phá song song luật kết hợp th m h nh Chia đ tr tá giả đề uất kh ng hỉ u hiệu lý m òn đ n giản v dễ i đặt h n NGUYỄN VƯƠNG THỊNH – LỚP K15T4 TĨM TẮT LUẬN VĂN 21 Hình 4.8a: Biểu đồ so sánh thời gian xử lý với minsup = 0.25% Hình 4.8b: Biểu đồ so sánh thời gian xử lý với minsup = 0.5% NGUYỄN VƯƠNG THỊNH – LỚP K15T4 TĨM TẮT LUẬN VĂN 22 Hình 4.8c: Biểu đồ so sánh thời gian xử lý với minsup = 0.75% Hình 4.8d: Biểu đồ so sánh thời gian xử lý với minsup = 1.00% NGUYỄN VƯƠNG THỊNH – LỚP K15T4 TÓM TẮT LUẬN VĂN 23 KẾT LUẬN B ng việ đề uất áp dụng hiến l ợ Chia đ tr đ i với tập liệu v o, tá giả giải đ ợ hai vấn đề lớn th ờng gặp phải lý liệu sử dụng web l : liệu ó dung l ợng lớn v th ờng uy n thay đổi ( ó s phát sinh mới) theo thời gian th :  Trong trường hợp liệu có dung lượng lớn vượt lực xử lý hệ thống tính toán: Chiến l ợ Chia đ tr ho phép hia nhỏ tập liệu v o th nh phần m hệ th ng tính tốn ó th lý đ ợ đ tiến h nh lý ri ng rẽ phần Nhờ m tận dụng đ ợ tảng sẵn ó hệ th ng tính toán v kh ng ần phải nâng ấp phần ứng  Trong trường hợp liệu thường xuyên có phát sinh phải tiến hành khai phá liên tục có liệu phát sinh: Chiến l ợ Chia đ tr giúp l m giảm đáng k hi phí tr nh khai phá liệu Có điều n y l áp dụng hiến l ợ Chia đ tr th tập liệu phát sinh đ ợ em l phần liệu độ lập với liệu ó tr Quá tr nh khai phá hỉ đ ợ tiến h nh tr n tập liệu phát sinh thay v tr n to n liệu, nhờ m l m giảm đáng k hi phí ủa q trình khai phá M h nh hệ th ng khai phá luật kết hợp d a tr n hiến l ợ Chia đ tr tá giả đề uất ũng ó nhiều u m:  Có thể dễ dàng mở rộng cho hệ thống tính tốn với nhiều xử lý song song: Nh tr nh b y h ng 3, m h nh tá giả đề uất ho n to n ó th m rộng đ áp dụng ho hệ th ng tính tốn với nhiều lý song song Khi m rộng nh vậy, th th hất l thay v phân tán liệu theo thời gian th ta phân tán liệu theo kh ng gian ( hia ho nhiều lý) Còn nguy n tắ v hế lý kh ng ó s biệt so với hệ th ng ban đầu  Linh hoạt, dễ cài đặt, chi phí thấp: Nh tá giả tr nh b y h ng 3, m h nh m tá giả đề uất kh ng ần ó y u ầu đặ biệt n o phần ứng ũng nh i đặt Kh ng gi ng nh hệ th ng khai phá luật kết hợp song song NGUYỄN VƯƠNG THỊNH – LỚP K15T4 TÓM TẮT LUẬN VĂN 24 Agrawal v C.Shafer đề uất đòi hỏi phải ó hệ th ng nhiều lý kết n i với qua mạng truyền th ng t độ ao v giải thuật lý phải đ ợ i đặt d a tr n th viện lập trình song song  Độc lập với giải thuật khai phá liệu sử dụng: Khi tiến h nh sinh tập phổ biến ụ bộ, ta ó th sử dụng giải thuật khai phá luật kết hợp ổ n n o Thậm hí ứng với Dj ta ó th sử dụng giải thuật m kh ng ảnh h ng đến kết u i Tuy nhi n, b n ạnh kết đạt đ ợ th hiến l ợ Chia đ tr v m h nh tá giả đề uất ũng òn s hạn hế:  Hiệu m h nh áp dụng hiến l ợ Chia đ tr phụ thuộ nhiều v o giải thuật T m tập phổ biến to n ụ từ tập phổ biến ụ m tá giả đề uất Tuy nhi n thuật toán n y òn đ n giản n n hiệu lý h a ao  Trong khai phá đ t m tập phổ biến ụ từ s liệu on Dj Dj đ ợ lý ho n to n độ lập Kh ng ó s trao đổi hay kế thừa th ng tin trinh lý Dj Chính v s tr ờng hợp phát sinh nhiều tập mụ thừa (tứ l tập phổ biến ụ nh ng kh ng phải l tập phổ biến to n ụ ) v sau giải thuật T m tập phổ biến to n ụ từ tập phổ biến ụ phải hạy vất vả đ loại bỏ mụ thừa n y Trong t ng lai, đ ho n thiện nghi n ứu m nh, tá giả tập trung v o hai h ớng:  Cải tiến giải thuật T m tập phổ biến to n ụ từ tập phổ biến ụ nh m l m tăng hiệu lý hệ th ng  D a tr n nghi n ứu Agrawal v C.Shafer đ ải tiến thuật toán sinh tập phổ biến ụ nh m hạn hế tạo tập mụ thừa Quá tr nh lý Dj kh ng phải l hoàn toàn độ lập m phải ó hế trao đổi th ng tin nh m tránh phát sinh nhiều tập phổ biến ụ kh ng ần thiết NGUYỄN VƯƠNG THỊNH – LỚP K15T4 TÓM TẮT LUẬN VĂN ... LUẬT KẾT HỢP VÀ CÁC KỸ THUẬT KHAI PHÁ LUẬT KẾT HỢP 14 2.1 Khái niệm luật kết hợp tập phổ biến 14 2.2 Luật kết hợp liệu sử dụng web 15 2.3 Một số nghiên cứu khai phá luật. .. l s liệu giao d h v ó th sử dụng thuật toán khai phá luật kết hợp Cá luật kết hợp ó th đ ợ sử dụng đ li n kết trang th ờng đ ợ truy ập ùng với phi n truy ập Trong ngữ ảnh khai phá sử dụng web. .. luật kết hợp 15 2.4 Khai phá sử dụng Web với giải thuật Apriori 19 2.5 Các kỹ thuật khai phá song song luật kết hợp 24 2.6 Những vấn đề đặt khai phá luật kết hợp từ liệu web

Ngày đăng: 07/03/2020, 18:40

Tài liệu cùng người dùng

Tài liệu liên quan