Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 88 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
88
Dung lượng
1,35 MB
Nội dung
ĐẠI HỌC THÁI NGUYÊN TRƢỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG NGUYỄN AN KHÁNH KHAI PHÁ TẬP MỤC THƢỜNG XUYÊN LỢI ÍCH CAO TRONG CƠ SỞ DỮ LIỆU LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH THÁI NGUN - 2012 Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn THÁI NGUYÊN - 2012 ĐẠI HỌC THÁI NGUYÊN TRƢỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG NGUYỄN AN KHÁNH KHAI PHÁ TẬP MỤC THƢỜNG XUYÊN LỢI ÍCH CAO TRONG CƠ SỞ DỮ LIỆU Chuyên ngành: Khoa học máy tính Mã số: 60 48 01 LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH Ngƣời hƣớng dẫn khoa học: GS TS: Vũ Đức Thi THÁI NGUYÊN - 2012 Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn LỜI CẢM ƠN Lời cho xin gửi lời cảm ơn chân thành biết ơn sâu sắc đến GS TS Vũ Đức Thi – Viện Công nghệ Thông tin, Viện Khoa học Công nghệ Việt Nam, ngƣời thầy đáng kính bảo hƣớng dẫn tận tình cho tơi suốt q trình nghiên cứu khoa học thực luận văn Tôi xin chân thành cảm ơn dậy bảo, giúp đỡ, tạo điều kiện khuyến khích tơi q trình học tập nghiên cứu thầy cô giáo Viện Công nghệ Thông tin, Viện Khoa học Công nghệ Việt Nam Xin chân thành cảm ơn Ban Giám hiệu thầy cô giáo Trƣờng Đại học Công nghệ Thông tin Truyền thông – Đại học Thái Nguyên, nơi học tập làm việc, xin đƣợc gửi lời cảm ơn chân thành sâu sắc đến thầy cô Và cuối cùng, xin gửi lời cảm ơn tới gia đình, bạn bè đồng nghiệp – ngƣời ln bên tơi lúc khó khăn nhất, ln động viên tơi, khuyến khích tơi sống công việc Tôi xin chân thành cảm ơn! Thái Nguyên, ngày 20 tháng năm 2012 Tác giả Nguyễn An Khánh Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn LỜI CAM ĐOAN Tôi xin cam đoan Luận văn “ Khai phá tập mục thƣờng xuyên lợi ích cao sở liệu “ đƣợc thực theo mục tiêu đề dƣới hƣớng dẫn GS TS Vũ Đức Thi Trong tồn luận văn, điều đƣợc trình bày cá nhân đƣợc tổng họp từ nhiều nguồn tài liệu Tất loại tài liệu có xuất xứ rõ ràng đƣợc trích dẫn hợp pháp Thái Nguyên, ngày 20 tháng năm 2012 Tác giả Nguyễn An Khánh Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn DANH MỤC CÁC KÝ HIỆU VÀ CÁC CHỮ VIẾT TẮT Trong luận văn này, dùng thống ký hiệu chữ viết tắt sau: Các ký hiệu: I = {i1,i2,…,in}: Tập n mục liệu DB = {T1,T2,…,Tm}: Cơ sở liệu có m giao tác db: sở liệu giao tác DB, db DB ip: Mục liệu thứ p Tq: Giao tác thứ q n: Số mục liệu sở liệu giao tác m: Số giao tác sở liệu giao tác A, B, C,…: Tên mục liệu sở liệu giao tác ví dụ X, Y,…: Tập tập mục liệu I, X, Y I X = ABC thay cho X={A,B,C} sở liệu giao tác ví dụ Nếu X Y X gọi tập tập Y, Y gọi tập cha tập X minsup: Ngƣỡng độ hỗ trợ tối thiểu minShare: Ngƣỡng cổ phần tối thiểu minutil: Giá trị lợi ích tối thiểu X: Số phần tử tập hợp X Viết tắt: CSDL: Cơ sở liệu CNTT: Công nghệ Thông tin CNTT TT: Công nghệ Thông tin Truyền thông DL: Dữ liệu Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn MỤC LỤC MỞ ĐẦU .7 Chƣơng KHAI PHÁ TẬP MỤC THƢỜNG XUYÊN VÀ MỘT SỐ MỞ RỘNG 1.1MỞ ĐẦU 1.2CÁC KHÁI NIỆM CƠ BẢN 10 1.2.1 Cơ sở liệu giao tác 10 1.2.2 Tập mục thƣờng xuyên luật kết hợp 13 1.2.3 Bài toán khai phá luật kết hợp 14 1.3 KHAI PHÁ TẬP MỤC THƢỜNG XUYÊN .15 1.3.1 Các cách tiếp cận khai phá tập mục thƣờng xuyên 15 1.3.2 Thuật toán Apriori 16 1.3.3 Thuật toán FP-growth 21 1.4 MỞ RỘNG BÀI TOÁN KHAI PHÁ TẬP MỤC THƢỜNG XUYÊN 27 1.5 KẾT LUẬN CHƢƠNG .28 Chƣơng KHAI PHÁ TẬP MỤC LỢI ÍCH CAO 30 2.1 GIỚI THIỆU 30 2.2 BÀI TOÁN KHAI PHÁ TẬP MỤC LỢI ÍCH CAO 32 2.3 THUẬT TOÁN COUI-Mine1 35 2.3.1 Xây dựng TWUI-tree 37 2.3.2 Khai phá TWUI-tree 42 2.3.3 Đánh giá thuật toán COUI-Mine1 51 2.3.3.1: Bƣớc xây dựng TWUI-tree: 51 2.3.3.2: Bƣớc khai phá TWU-tree 52 2.3.4 Nhận xét thuật toán COUI-Mine1 54 2.3.5 Khai phá tƣơng tác với TWUI-tree 55 2.4 THUẬT TOÁN COUI-Mine2 57 2.4.1 Xây dựng UP-tree 57 2.4.2 Khai phá UP-tree 59 2.4.3 Ví dụ áp dụng minh họa 61 2.4.3.1 Xây dựng UP-tree 62 2.4.3.2 Khai phá UP-tree 64 2.4.4 Nhận xét thuật toán COUI-Mine2 68 2.5 THUẬT TOÁN COUI-Mine3 70 2.5.1 Cơ sở thuật toán 70 2.5.2 Xây dựng khai phá mảng giao tác 71 2.5.2.1 Xây dựng mảng giao tác 71 2.5.2.2 Khai phá mảng giao tác : 75 2.5.3 Nhận xét thuật toán COUI-Mine3 78 2.6 KẾT LUẬN CHƢƠNG .80 Chƣơng THỰC NGHIỆM THUẬT TOÁN KHAI PHÁ TẬP MỤC LỢI ÍCH CAO 81 PHẦN KẾT LUẬN .85 Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn MỞ ĐẦU Ngày nay, với phát triển không ngừng ngành công nghệ thông tin truyền thông vào nhiều lĩnh vực đời sống văn hóa xã hội, quản lý kinh tế, khoa học kỹ thuật, … tạo nhiều sở liệu khổng lồ Để khai thác hiệu nguồn thông tin liệu lớn, hỗ chợ tiến trình định, bên cạnh phƣơng pháp khai thác thông tin truyền thống khuynh hƣớng kỹ thuật đời Kỹ thuật Khai phá liệu khám phá tri thức (KDD – Knownledge Discovery and DataMining) lĩnh vực quan trọng nghành Công nghệ thông tin Đây lĩnh vực thu hút đƣợc đông đảo nhà khoa học giới nƣớc tham gia nghiên cứu Khai phá tập mục thƣờng xun tốn có vai trò quan trọng nhiều nhiệm vụ khai phá liệu Mơ hình khai phá tập mục thƣờng xun có nhiều ứng dụng thực tế bên cạnh cịn có hạn chế, khơng đáp ứng đƣợc nhu cầu ngƣời sử dụng Để đáp ứng yêu cầu thực tiễn, số hƣớng mở rộng toán đƣợc quan tâm nghiên cứu, theo hƣớng này, từ toán khai phá tập mục thƣờng xuyên ban đầu nhà nghiên cứu đề xuất mơ hình mở rộng, số có mơ hình Khai phá tập mục lợi ích cao, đánh giá lợi ích mà tập mục liệu mang lại sở liệu Khai phá tập mục lợi ích cao thực lĩnh vực thu hút nhiều nhà nghiên cứu tham gia Trong luận văn này, tơi trình bày ba thuật tốn khai phá tập mục lợi ích cao dựa cấu trúc đơn giản cách khai phá khơng đệ quy (Thuật tốn COUIMine1, COUI-Mine2, COUI-Mine 3) Các thuật toán đề xuất sử dụng cấu trúc FP-tree đƣợc Han, Wang Yin giới thiệu năm 2000 cách khai phá FPtree không đệ quy cấu trúc COFI-tree Mohammad El-Hajj Osmar R Zaiane đề xuất năm 2003 Hai thuật toán đầu sử dụng cấu trúc FP-tree để xây dựng chứa thông tin giao tác, sau khai phá để tìm tập Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn mục lợi ích cao Thuật toán thứ chuyển đổi liệu thành mạng ma trận để lƣu nhớ ngoài, sau chuyển đổi sang dạng biểu diễn mới, khai phá ngƣỡng lợi ích khác Thuật tốn thứ ba khai phá đƣợc tập liệu lớn hầu nhƣ tồn liệu đặt nhớ ngoài, đƣa vào nhớ phần nhỏ liệu để khai phá Ba thuật tốn đề xuất thực khai phá hiệu lí do: 1) Số lần duyệt sở liệu ít, 2) Khơng sinh khối lƣợng khổng lồ tập ứng viên, giảm chi phí tốn 3) sử dụng tiết kiệm nhớ Với thời gian kiến thức cịn hạn chế, luận văn khơng tránh khỏi thiếu sót, mong đƣợc quan tâm định hƣớng thầy giáo góp ý bạn đồng nghiệp để báo cáo hoàn thiện Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn Chƣơng KHAI PHÁ TẬP MỤC THƢỜNG XUYÊN VÀ MỘT SỐ MỞ RỘNG 1.1 MỞ ĐẦU Khai phá tập mục thƣờng xun đóng vai trị quan trọng nhiều nhiệm vụ khai phá liệu Khai phá tập mục thƣờng xuyên xuất nhƣ toán nhiều lĩnh vực khai phá liệu nhƣ khám phá luật kết hợp, khám phá mẫu tuần tự, phân tích tƣơng quan, phân lớp, phân cụm liệu, khai phá Web,…Bài toán khai phá tập mục thƣờng xuyên đƣợc giới thiệu lần đầu Agrawal vào năm 1993 phân tích sở liệu bán hàng siêu thị, mơ hình tốn khai phá luật kết hợp Khai phá luật kết hợp phát mối quan hệ giá trị liệu sở liệu, mối quan hệ luật kết hợp Khai phá luật kết hợp có hai bƣớc: bƣớc thứ nhất, tìm tập mục thƣờng xuyên thỏa mãn ngƣỡng độ hỗ trợ tối thiểu minsup cho trƣớc, bƣớc thứ hai, từ tập mục thƣờng xuyên tìm đƣợc, sinh luật kết hợp thỏa mãn ngƣỡng độ tin cậy minconf cho trƣớc Mọi khó khăn tốn khai phá luật kết hợp tập trung bƣớc thứ nhất, khai phá tất tập mục thƣờng xuyên thỏa mãn ngƣỡng độ hỗ trợ cho trƣớc Kể từ Agrawal đề xuất, khai phá tập mục thƣờng xuyên thu hút đƣợc quan tâm nhiều nhà nghiên cứu, có hàng trăm kết nghiên cứu đƣợc cơng bố giới thiệu thuật tốn hay đề xuất giải pháp nâng cao hiệu thuật tốn có Tập mục thƣờng xun có vai trị quan trọng nhiều ứng dụng thực tế nhƣ quản lý quan hệ khách hàng, nâng cao hiệu thƣơng mại điện tử, lĩnh vực tin sinh học, phân tích cấu trúc Protein DNA, mở rộng truy vấn, phát xâm nhập mạng,… Mơ hình khai phá tập mục thƣờng xun có nhiều ứng dụng thực tế nhƣng có hạn chế, không đáp ứng đầy đủ yêu cầu ngƣời sử dụng Rằng buộc độ hỗ trợ độ tin cậy luật kết hợp mang ngữ nghĩa thống kê, Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 10 không phản ánh đƣợc vai trị khác thuộc tính nhƣ đặc tính liệu vốn có chúng sở liệu Để đáp ứng yêu cầu thực tiễn, khai phá tập mục thƣờng xuyên có nhiều cách thức mở rộng ứng dụng, từ thay đổi phƣơng pháp luận đến thay đổi đa dạng kiểu liệu, mở rộng nhiệm vụ khai phá đa dạng ứng dụng Trong năm qua, có nhiều hƣớng mở rộng tốn đƣợc quan tâm nghiên cứu Chƣơng trình bày vấn đề toán khai phá tập mục thƣờng xuyên số mở rộng toán 1.2 CÁC KHÁI NIỆM CƠ BẢN Khai phá luật kết hợp kỹ thuật quan trọng khai phá liệu Mục tiêu khai phá phát mối quan hệ giá trị liệu sở liệu Mơ hình tốn khai phá luật kết hợp mơ hình nhị phân (hay cịn gọi mơ hình bản) đƣợc R.Agrawal, T.Imielinski A.Swami đề xuất vào năm 1993, xuất phát từ nhu cầu phân tích liệu sở liệu giao tác, phát mối quan hệ tập mục hàng hóa (Itemsets) bán đƣợc siêu thị Việc xác định quan hệ khơng phân biệt vai trị khác nhƣ khơng dựa vào đặc tính liệu vốn có thuộc tính mà dựa vào xuất lúc chúng Phần tiếp sau nêu số khái niệm phát biểu toán khai phá luật kết hợp, toán dẫn đến toán khai phá tập mục thƣờng xuyên 1.2.1 Cơ sở liệu giao tác Định nghĩa 1.1: Cho tập mục (item) I={i1,i2,…,in} Một giao tác (transaction) T tập I, T I Cơ sở liệu giao tác tập giao tác DB ={T1,T2,…,Tm} Mỗi giao tác đƣợc gán định danh TID Một tập mục X I, gồm k mục phân biệt đƣợc gọi k-tập mục Giao tác T gọi chứa tập mục X X T Biểu biễn sở liệu giao tác: Cơ sở liệu giao tác thƣờng đƣợc biểu diễn dạng biểu diễn ngang, biểu diễn dọc biểu diễn ma trận giao tác Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 74 T6 0 13 T7 20 111 T8 25 57 T9 0 13 T10 0 16 21 Mảng giao tác Vị Phần trí số D, 12, 2, 71 4, 253 2, 14 1, 57 1, 21 2, 111 6, 57 [3, 2] [2, 2] [3, 4] [2, 4] A, 8, 2, 12 1, 14 1, 13 3, 57 1, 13 5, 109 [4, 2] [5, 4] [3, 3] [4, 4] [3, 5] B, 48, 12, 72 12, 71 2, 13 20,111 2, 13 5,280 [4, 1] [5, 2] [,] [5, 6] [,] C, 48, 2, 72 1, 12 4, 14 25, 57 16, 21 5, 176 [5, 1] [5, 3] [5,5] [5, 7] [5, 8] E, 10, 2, 72 1, 12 1, 14 2, 14 1, 111 8, 372 [,] [,] [,] [,] [,] [,] [,] 1, 71 [,] Hình 2.19: Mảng giao tác biểu diễn sở liệu bảng 2.1 bảng 2.2 Ta thấy giao tác sở liệu bảng 2.1 bảng 2.2 đƣợc lƣu vào mảng giao tác Mảng chứa đủ thông tin để khai phá tập mục lợi ích cao Khai phá tập mục lợi ích cao với ngƣỡng lợi ích khác thực đƣợc mảng mà không cần phải xây dựng lại Thuật toán xây dựng mảng giao tác mơ tả nhƣ sau: Thuật tốn 2.5.1 (xây dựng mảng giao tác) Input: Cơ sở liệu giao tác DB Output: Mảng giao tác lƣu nhớ biểu diễn sở liệu DB Method: Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 75 for each T DB //duyệt sở liệu lần thứ begin – Tính lợi ích giao tác tu(T); – Tính độ hỗ trợ, tổng số lƣợng, lợi ích TWU mục liệu ; end ; Sắp xếp mục liệu theo thứ tự tăng dần độ hỗ trợ chúng ; Dựa danh sách mục DL sắp, xây dựng phần số mảng giao tác ; for each T DB//duyệt sở liệu lần thứ hai begin Sắp mục liệu T theo thứ tự phần số, nhận đƣợc 10 danh sách Tlist =(A1 :s1, A2 :s2,…, Ak :sk) ;//si số lượng mục Ai Xác định địa [d1, c1] lƣu thông tin mục A1 mảng giao 11 tác ; 12 for i :=1 to k-1 //xét mục liệu danh sách Tlist 13 begin Xác định địa [di+1, ci+1] lƣu thông tin mục Ai+1 14 mảng ; Lƣu [di, ci] : số lƣợng si, lợi ích tu(T), địa [di+1, ci+1] ; 15 16 17 18 end ; Lƣu [dk, ck] : số lƣợng sk, lợi ích tu(T), địa [, ] ; end ; 2.5.2.2 Khai phá mảng giao tác : Xét lần lƣợt mục liệu từ xuống phần số mảng giao tác Với mục liệu có lợi ích TWU lớn ngƣỡng minutil, thuật toán đọc giao tác chứa mảng giao tác, từ giao tác này, xây dựng COUItree, khai phá COUI-tree để tìm mẫu lợi ích cao, sau loại bỏ xét mục liệu Cấu trúc, trình xây dựng khai phá COUI- Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 76 tree thuật tốn COUI-Mine3 giống nhƣ thuật tốn COUI-Mine2 trình bày phần 2.4 chƣơng Ta minh họa thuật tốn qua khai phá mảng giao tác hình 2.19 Khai phá tập mục lợi ích cao mảng giao tác hình 2.19 cần xây dựng COUI-tree cho mục D, B C, không xây dựng A-COUI-tree cho mục A twu(A)=109minutil then HU :=HU {A} ; 19 Return HU ; 2.5.3 Nhận xét thuật toán COUI-Mine3 - Mệnh đề 2.7: Số COUI-tree cần xây dựng khai phá hai thuật toán COUI-Mine2 COUI-Mine3 Chứng minh: Trong thuật toán COUI-Mine2, giao tác đƣợc nén lên lên UP-tree Bảng đầu mục chứa mục liệu có lợi ích TWU cao Ở bƣớc khai phá thuật toán xây dựng khai phá COUI-tree cho mục liệu bảng đầu mục này, số COUI-tree cần xử lý số mục liệu có lợi ích TWU cao sở liệu Trong thuật toán COUI-Mine3, sở liệu đƣợc chuyển thành dạng mảng giao tác lƣu nhớ Mảng giao tác có phần số chứa tồn mục Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 79 liệu sở liệu Khi khai phá mảng giao tác, thuật toán duyệt cần số , xây dựng khai phá COUI-tree cho mục liệu có lợi ích TWU cao Do số COUI-tree mà thuật tốn COUI-Mine3 xử lý số mục liệu có lợi ích TWU cao sở liệu Vậy, số COUI-tree mà hai thuật toán COUI-Mine2 COUI-Mine3 cần xây dựng khai phá số mục liệu có lợi ích TWU cao sở liệu - Thuật toán COUI-Mine3 đƣợc phát triển từ thuật toán COUI-Mine2 cách thay UP-tree thuật toán COUI-Mine2 mảng giao tác, lƣu nhớ Theo mệnh đề 2.7, số COUI-tree mà hai thuật toán cần xây dựng khai phá nhau, cấu trúc COUI-tree cách khai phá hai thuật tốn nhƣ nhau, vậy, phát biểu mệnh đề 2.8 sau tính dừng thuật toán thuật toán COUI-Mine3 Mệnh đề 2.8: Thuật tốn COUI-tree đảm bảo tính dừng tìm tập tất tập mục lợi ích cao - Thuật toán thuật toán COUI-Mine3 thực chậm thuật toán COUIMine2 bƣớc chuyển đổi liệu bƣớc khai phá Ở bƣớc chuyển đổi liệu, thuật toán COUI-Mine2 xây dựng UP-tree lƣu nhớ thuật toán COUI-Mine3 xây dựng mảng giao tác nhớ ngồi Ở bƣớc khai phá, thuật tốn COUI-Mine2 đọc liệu từ UP-tree nhớ cịn thuật tốn COUIMine3 phải đọc liệu từ mảng giao tác nhớ Thao tác đọc/ghi với nhớ chậm đọc/ghi với nhớ phụ thuộc vào thiết bị phần cứng - Thuật toán COUI-Mine3 phù hợp khai phá tập liệu lớn thuật tốn đƣa vào nhớ phần nhỏ liệu Thuật toán sẵn sàng cho khai phá tƣơng tác, khai phá với ngƣỡng lợi ích khác mà không cần chuyển đổi lại liệu Khi chuyển đổi liệu, thời gian khai phá giảm nhiều thuật tốn cịn thời gian cho bƣớc khai phá mảng giao tác Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 80 - Kết thử nghiệm tập liệu thực liệu nhân tạo cho thấy thuật toán COUI-Mine3 khai phá hiệu tập liệu lớn 2.6 KẾT LUẬN CHƢƠNG Chƣơng nghiên cứu mơ hình khai phá tập mục lợi ích cao đề suất ba thuật toán khai phá tập mục lợi ích cao dựa ý tƣởng thuật toán COFI-tree Các thuật toán đề suất đƣợc xây dựng dựa vào thuật tốn có tính dừng nên chúng đảm bảo tính dừng thực khai phá hiệu Ba thuật tốn đƣợc đề xuất có ƣu nhƣợc điểm riêng Phân tích thuật tốn kết thực nghiệm cho thấy thuật toán COUI-Mine1 COUI-Mine2 thực nhanh thuật toán COUI-Mine3 Thuật toán COUI-Mine3 khai phá hiệu đƣợc tập liệu lớn liệu đặt nhớ ngồi, khai phá với ngƣỡng lợi ích khác mà cần chuyển đổi liệu lần đầu, thời gian khai phá lần sau giảm nhiều Thuật toán COUI-Mine1 khai phá đƣợc tập liệu lớn so với thuật toán COUI-Mine2 sử dụng cấu trúc đơn giản Khi khai phá tập liệu không lớn, hai thuật toán COUI-Mine1 COUI-Mine2 thực nhanh gần nhƣ nhanh hơn, hiệu thuật tốn Hai pha Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 81 Chƣơng THỰC NGHIỆM THUẬT TỐN KHAI PHÁ TẬP MỤC LỢI ÍCH CAO Phần trình bày kết thực nghiệm thuật tốn khai phá tập mục lợi ích cao Thuật tốn đƣợc cài đặt Microsoft Visual C# chạy máy tính Laptop với cấu hình Pentium core dual 2.00 GHz CPU, 4GB nhớ RAM, sử dụng hệ điều hành Windows Thực nghiệm trƣơng trình sử dụng thuật tốn Apiori, nhƣng khơng dùng tính chất Apiori để tỉa mà dùng hàm TWU để tỉa Giao diện chƣơng trình gồm mục hiển thị: - Thực đơn: mục khai phá lợi ích cao giao tác - Ngƣỡng lợi ích: tính tỷ lệ phần trăm lợi ích nhập (bằng số) - Kết quả: hiển thị đƣợc Ngƣỡng lợi ích tối thiểu minutil: Số lƣợng tập mục lợi ích cao tìm đƣợc: Thời gian thực tốn: Ví dụ ngƣỡng lợi ích tìm 15% Chƣơng trình xẽ hiển thị kết nhƣ sau: - Ngƣỡng lợi ích tối thiểu minutil = 78,75 - Số lƣợng tập mục lợi ích cao tìm đƣợc:25 - Thời gian thực tốn: 2044ms Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 82 Bảng nhập liệu đƣợc thể file Excel gồm tab Tab HUI chứa sở liệu giao tác Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 83 Tab frofit chứa lợi ích mục Các mục lợi íc đƣợc tính kết nạp hiển thị file result giá trị lợi ích lớn ngƣỡng minutil đƣợc kết nạp hiển thị form trƣơng trình Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 84 Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 85 PHẦN KẾT LUẬN 1) Những kết luận văn : Luận văn nghiên cứu mơ hình mở rộng khai phá tập mục thƣờng xuyên đề xuất ba thuật toán khai phá tập mục tập mục lợi ích cao sở giao tác liệu Thuật toán COUI-Mine1 khai phá tập mục lợi ích cao dựa ý tƣởng COFI-tree cho khai phá tập mục thƣờng xuyên Luận văn đề xuất cấu trúc tiền tố (prefix) TWUI-tree để lƣu giao tác thực khai phá Thuật toán COUI-Mine1 cần tối đa ba lần duyệt sở liệu để tìm tập mục lợi ích cao Khi xây dựng TWUI-tree lƣu tồn sở liệu, thuật tốn COUI-Mine1 khai phá với ngƣỡng lợi ích khác mà không cần xây dựng lại TWUI-tree Thuật toán COUI-Mine2 đƣợc phát triển từ tuật toán COUI-Mine1với đề xuất phƣơng pháp lƣu số lƣợng mục liệu giao tác vào nút TWUI-tree gọi UP-tree Với cải tiến thuật toán COUI-Mine2 cần lần duyệt sở liệu để tìm tập mục lợi ích cao Thuật tốn COUI-Mine2 thực nhanh thuật toán COUI-Mine1 giảm đƣợc lần duyệt sở liệu Thuật toán COUI-Mine3 khai phá tập mục lợi ích cao với liệu đƣợc chuyển đổi thành mảng giao tác lƣu nhớ theo ý tƣởng thuật toán Inverted Matrix Thuật toán cần duyệt sở liệu hai lần để chuyển đổi liệu sang dạng biểu diễn mới, sau khai phá mảng giao tác dựa vào cấu trúc COUI-tree nhƣ thuật toán COUI-Mine2 Thuật toán COUI-Mine3 đáp ứng yêu cầu khai phá tƣơng tác, liệu đƣợc chuyển đổi, thuật tốn khai phá với ngƣỡng lợi ích khác mà khơng cần chuyển đổi lại So với hai thuật toán COUI-Mine1 COUI-Mine2, thuật tốn COUI-Mine3 khai phá đƣợc tập liệu lớn Các thuật toán COUI-Mine1, COUI-Mine2, COUI-Mine3 đƣợc xây dựng theo phƣơng pháp nên giao tác lên cấu trúc cây, sau khai phá cách Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 86 phát triển dần mẫu; nhờ tránh đƣợc hạn chế vốn có thuật tốn kiểu Apeiori phải duyệt nhiều lần sở liệu phát sinh khối lƣợng khổng lồ tập mục ứng viên Đóng góp luận văn đề xuất ba thuật toán mới, hiệu khai phá tập mục lợi ích cao sở liệu giao tác cỡ lớn 2) Hƣớng phát triển luận văn : Nghiên cứu thuật tốn khai phá tập mục lợi ích cao hƣớng nghiên cứu đƣợc nhiều nhà nghiên cứu quan tâm tính ứng dụng vào nhiều lĩnh vực, đặc biệt lĩnh vực kinh doanh Sau hƣớng nghiên cứu ứng dụng luận văn : - Phát triển thuật toán song song khai phá tập mục lợi ích cao Cấu trúc COFI-tree mà thuật tốn sử dụng song song hóa đƣợc, COFI-tree cho mục liệu đƣợc xây dựng khai phá độc lập nhau,do ba thuật tốn khai phá tập mục lợi ích cao đề xuất nghiên cứu phát triển thành thuật toán song song - Khai phá tập mục lợi ích cao có yếu tố thời gian Phát triển thuật tốn tìm tập mục lợi ích cao sở liệu gia tăng, đáp ứng nhu cầu ngày tăng nhiều ứng dụng đòi hỏi xử lý trực tuyến - Khai phá tập mục lợi ích cao có trọng số Các mục liệu đƣợc gán trọng số khác để phản ánh mức độ quan trọng khác sở liệu, bảng lợi ích có thêm cột trọng số mục liệu Lợi ích tập mục lúc phải xét thêm trọng số mục liệu toán đặt cần nghiên cứu khai phá tập mục lợi ích cao có trọng số - Áp dụng lý thuyết tập thô, lý thuyết xác suất để khai phá tập mục lợi ích cao Với phát triển ngày mạnh CNTT TT, kích thƣớc sở liệu giao tác ngày có xu hƣớng lớn lên, điều thách thức cho nhà nghiên cứu tìm thuật toán phù hợp Áp dụng lý thuyết tập thơ lý thuyết xác suất để tìm tập mục lợi ích cao xấp xỉ, luật kết hợp lợi ích cao xấp xỉ hƣớng nghiên cứu phù hợp có nhiều khả mang lại kết tốt Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 87 DANH MỤC TÀI LIỆU THAM KHẢO Tiếng Việt [1] Vũ Đức Thi (1997), Cơ sở liệu – kiến thức thực hành, Nhà xuất thống kê, Hà Nội [2] Vũ Đức Thi, Nguyễn Đức Huy (2008), “Khai phá tập mục thƣờng xuyên cổ phần cao sở liệu lớn”, Tạp chí Tin học Điều khiển học, 24(4), tr 307-320 [3] Vũ Đức Thi, Nguyễn Huy Đức (2008), “Thuật toán hiệu khai phá tập mục thƣờng xuyên lợi ích cao cấu trúc liệu cây”, Tạp chí Tin học Điều khiển học, 24(3), tr 204-216 [4] Nguyễn Thanh Tùng (2007), “Khai phá tập mục lợi ích cao sở liệu”, Tạp chí Tin học Điều khiển học, 23(4), tr 364-373 [5] Nguyễn Huy Đức (2003), “Khai phá luật kết hợp sở liệu lớn”, Kỷ yếu hội thảo khoa học Quốc gia lần thứ nghiên cứu ứng dụng CNTT, Hà Nội, 10/2003, tr 128-136 [6] Một số thông tin Website http://tailieu.vn Tiếng Anh [1] Agrawal R And Srikant R (1994), “Fast algorithm for mining association rules”, in processdings of 20th International Conference on Very large Databases, Santiago, Chile [2] Ashafi M., Taniar D., Smith K.(2004), “A new Approach of Eniminating Redundant Associatino Ruler”, Lecture Notes in Computer Science, Vol 3180, pp 465 – 474 [3] CUCIS Center for Ultra-scale Computing and Information Security, Northwestern University http://cucis.ece.northwestern.edu/projects/DMS/MineBenchDownload.html [4] Zhao Q.(2003), “Association Rule Mining: A survey”, Technical Report, CAIS, Nanyang Technological University, Singapore, No 2003116 Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 88 [5] Zadrozny B., Weiss G.M., Saar-Tsechansky M (2006), Proceedings of the second international workshop on utility-based datamining, ACM press, Philadelphia,PA, USA Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn ... mục lợi ích cao - Tập mục lợi ích cao chứa tập tập mục lợi ích TWU cao Điều có nghĩa là, ta tìm đƣợc tập tập mục lợi ích TWU cao ta cần tìm tập mục lợi ích cao tập Do tập mục lợi ích TWU cao. .. phần cao, đánh giá đóng gióp tập mục tổng số mục liệu sở liệu; khai phá tập mục lợi ích cao, đánh giá lợi ích mà tập mục mang lại sở liệu Các tác giả đề xuất mơ hình khai phá tập mục lợi ích cao. .. định) Lợi ích tập mục số đo lợi nhuận mà tập mục đóng góp sở liệu, tổng lợi nhuận, tổng chi phí tập mục Khai phá tập mục lợi ích cao khám phá tất tập mục có lợi ích khơng nhỏ ngƣỡng lợi ích tối