Khai phá tập mục lợi ích cao dựa trên cấu trúc cây tiền tố

85 14 0
Khai phá tập mục lợi ích cao dựa trên cấu trúc cây tiền tố

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

i đại học thái nguyên Tr-ờng đại học CÔNG NGHệ THÔNG TIN Và TRUYềN THÔNG NGUYN TH LUYN KHAI PHÁ TẬP MỤC LỢI ÍCH CAO DỰA TRÊN CẤU TRÚC CÂY TIỀN TỐ LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TNH thái nguyên - năm 2014 S húa bi Trung tõm Hc liu http://www.lrc-tnu.edu.vn/ ii đại học thái nguyên Tr-ờng đại học CÔNG NGHệ THÔNG TIN Và TRUYềN THÔNG NGUYN THỊ LUYẾN [ KHAI PHÁ TẬP MỤC LỢI ÍCH CAO DỰA TRÊN CẤU TRÚC CÂY TIỀN TỐ LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH Chuyên ngành: KHOA HỌC MÁY TÍNH Mã số: 60 48 01 Ngƣời hƣớng dẫn khoa học: TS LÊ VĂN PHÙNG Thái Nguyên, 2014 Số hóa Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ iii LỜI CAM ĐOAN Tôi xin cam đoan Luận văn "Khai phá tập mục lợi ích cao dựa cấu trúc tiền tố" đƣợc thực theo mục tiêu đề dƣới hƣớng dẫn TS Lê Văn Phùng Kết đạt đƣợc luận văn sản phẩm cá nhân tơi Trong tồn luận văn, điều đƣợc trình bày cá nhân đƣợc tổng hợp từ nhiều nguồn tài liệu Tất tài liệu tham khảo có xuất xứ rõ ràng đƣợc trích dẫn hợp pháp Tơi xin chịu hồn tồn trách nhiệm chịu hình thức kỷ luật theo quy định cho lời cam đoan Thái Nguyên, ngày 29 tháng năm 2014 Người cam đoan Nguyễn Thị Luyến Số hóa Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ iv LỜI CẢM ƠN Lời xin gửi lời cảm ơn chân thành biết ơn sâu sắc tới TS Lê Văn Phùng – Trƣờng Đại học công nghệ Thông tin Truyền thông, Thầy bảo hƣớng dẫn tận tình cho tơi suốt trình làm việc thực luận văn Tôi xin chân thành cảm ơn dạy bảo, giúp đỡ, tạo điều kiện khuyến khích tơi q trình học tập nghiên cứu thầy giáo Viện Công nghệ thông tin, Trƣờng Đại học Công nghệ thông tin Truyền thông - Đại học Thái Nguyên Và cuối cùng, xin gửi lời cảm ơn tới gia đình, ngƣời thân bạn bè, ngƣời ln bên tơi lúc khó khăn nhất, ln động viên tơi, khuyến khích tơi sống công việc Tôi xin chân thành cảm ơn! Thái Nguyên, ngày 29 tháng năm 2014 Tác giả Nguyễn Thị Luyến Số hóa Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ v MỤC LỤC LỜI CAM ĐOAN i LỜI CẢM ƠN iv DANH MỤC CÁC HÌNH VẼ vii DANH MỤC CÁC BẢNG viii DANH MỤC CÁC KÝ HIỆU ix DANH MỤC CHỮ VIẾT TẮT x MỞ ĐẦU .1 CHƢƠNG 1: TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU 1.1 Quá trình khám phá tri thức .3 1.1.1 Khái niệm trình khám phá tri thức khai phá liệu 1.1.2 Kiến trúc số hệ thống khai phá liệu 1.1.3 Một số ứng dụng khai phá liệu 1.2 Một số phƣơng pháp khai phá liệu thông dụng 1.2.1 Phƣơng pháp luật kết hợp 1.2.2 Phƣơng pháp định 1.3 Kết luận chƣơng 12 CHƢƠNG 2: KHAI PHÁ TẬP MỤC THƢỜNG XUYÊN VÀ TẬP MỤC LỢI ÍCH CAO 13 2.1 Khai phá tập mục thƣờng xuyên 13 2.1.1 Cơ sở liệu giao tác .13 2.1.2 Tập mục thƣờng xuyên luật kết hợp 15 2.1.3 Bài toán khai phá luật kết hợp số thuật toán khai phá tập mục thƣờng xuyên .17 2.2 Bài toán Khai phá tập mục lợi ích cao 29 2.2.1 Khái niệm tập mục lợi ích cao .29 2.2.2 Một số tốn khai phá tập mục lợi ích cao 29 2.3 Khai phá tập mục lợi ích cao dựa tiền tố 34 2.3.1 Định nghĩa tiền tố .34 Số hóa Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ vi 2.3.2 Một số thuật tốn khai phá tập mục lợi ích cao dựa tiền tố 35 2.3.3 Các cấu trúc tiền tố cho khai phá lợi ích cao .56 2.3.4 Thuật toán UP-Growth .59 2.4 Kết luận chƣơng 62 CHƢƠNG 3: THỰC NGHIỆM KHAI PHÁ TẬP MỤC LỢI ÍCH CAO DỰA TRÊN CẤU TRÚC CÂY TIỀN TỐ 63 3.1 Bài toán phát nhóm mặt hàng có lợi nhuận cao .63 3.2 Mô tả liệu 63 3.3 Xây dựng chƣơng trình 70 3.4 Thực nghiệm khai phá tìm tập mục lợi ích cao .71 3.5 Kết luận chƣơng 72 KẾT LUẬN .73 Những kết luận văn 73 Hƣớng nghiên cứu 73 TÀI LIỆU THAM KHẢO 74 A Tiếng việt 74 B Tiếng Anh 74 Số hóa Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ vii DANH MỤC CÁC HÌNH VẼ Hình 1.1 Các bƣớc Data Mining KDD Hình 1.2 Kiến trúc hệ thống khai phá liệu Hình 1.3 Luồng thơng tin đƣợc sử dụng theo cách kết hợp Hình 1.4 Cây định khái niệm mua máy tính Hình 1.5 Cây định phân lớp (bad/good) mức lƣơng 11 Hình 1.6 Các bƣớc thực thuật toán K-Mean 12 Hình 2.1 Cây FP-tree CSDL bảng 2.5 27 Hình 2.2 Cây COFI-tree mục D 27 Hình 2.3 Minh họa bƣớc khai phá D-COFI-tree 28 Hình 2.4 Cây TWUI-tree sau lƣu giao tác T1 39 Hình 2.5 Cây TWUI-tree sau lƣu giao tác T1 T2 39 Hình 2.6 Cây TWUI-tree CSDL bảng 2.9 bảng 2.10 40 Hình 2.7 Cây C-COUI-tree sau lƣu mẫu CBE 42 Hình 2.8 Cây C-COUI-tree sau lƣu mẫu CBE CE 43 Hình 2.9 Cây C-COUI-tree sau xây dựng xong 43 Hình 2.10 Cây D-COUI-tree 43 Hình 2.11 Cây B-COUI-tree 44 Hình 2.12 Các bƣớc khai phá D-COUI-Tree 45 Hình 2.13 Khơng gian tìm kiếm tập mục lợi ích cao theo thuật tốn Hai pha 56 Hình 2.14 Cây TWUI-tree có mục liệu tăng dần theo trật tự từ điển sở liệu bảng 2.9 bảng 2.10 57 Hình 2.15 Cây TWUI-tree có mục liệu giảm dần theo số lần xuất chúng sở liệu bảng 2.9 bảng 2.10 57 Hình 2.16 Cây TWUI-tree có mục liệu giảm dần theo TWU chúng sở liệu bảng 2.9 bảng 2.10 58 Hình 2.17 Cây TWUI-tree CSDL bảng 2.8 với minutil = 40 62 Hình 2.18 Cây UP-tree CSDL bảng 2.8 với minutil = 40 62 Hình 3.1 Tệp CSDL.txt biểu diễn liệu đầu vào 70 Hình 3.2 Giao diện chƣơng trình 71 Hình 3.3 Tập mục lợi ích cao 72 Số hóa Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ viii DANH MỤC CÁC BẢNG Bảng 1.1: Tập liệu huấn luyện định phân lớp mức lƣơng 10 Bảng 2.1: Biểu diễn ngang sở liệu giao tác 14 Bảng 2.2: Biểu diễn dọc sở liệu giao tác 14 Bảng 2.3: Ma trận giao tác sở liệu cho bảng 2.1 15 Bảng 2.4: Cơ sở liệu giao tác minh họa thực thuật toán Apriori 21 Bảng 2.5: CSDL giao tác minh họa thực thuật toán COFI-tree 25 Bảng 2.6: Các mục liệu độ hỗ trợ 25 Bảng 2.7: Các mục liệu thƣờng xuyên thứ tự 25 Bảng 2.8: Các mục DL giao tác xếp giảm dần theo độ hỗ trợ 26 Bảng 2.9 CSDL giao tác 32 Bảng 2.10 Bảng lợi ích 32 Bảng 2.11: Lợi ích giao tác sở liệu bảng 2.9 bảng 2.10 37 Bảng 2.12: Lợi ích TWU mục liệu 37 Bảng 2.13: Các mục liệu có lợ 38 Bảng 2.14 Các mục liệu giao tác giảm dần theo lợi ích TWU 38 Bảng 2.15 Kết tính lợi ích tập mục ứng viên .46 Bảng 2.16: Cơ sở liệu ví dụ cho thuật toán UP-Growth 60 Bảng 2.17: Bảng lợi ích CSDL bảng 2.15 61 Bảng 2.18: Các giao tác đƣợc lại mục liệu theo TWU giảm dần 61 Bảng 3.1 Dữ liệu trích chọn để khai phá 65 Bảng 3.2 Mã hóa mặt hàng 68 Bảng 3.3 Bảng lợi ích mặt hàng .69 Số hóa Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ ix DANH MỤC CÁC KÝ HIỆU X : Số phần tử tập hợp X A, B, C,…: Tên mục liệu sở liệu giao tác ví dụ Conf(X->Y): Độ tin cậy luật X->Y db DB : db sở liệu giao tác DB DB = {T1, T2,…, Tm}: Cơ sở liệu có m giao tác I = {i1, i2,…, in}: Tập n mục liệu Ip: Mục liệu thứ p m: Số giao tác sở liệu giao tác Minconf: Độ tin cậy tối thiểu minShare: Ngƣỡng cổ phần tối thiểu minsup: Ngƣỡng độ hỗ trợ tối thiểu minutil: Ngƣỡng lợi ích tối thiểu n: Số mục liệu sở liệu giao tác Nếu X Y X gọi tập tập Y, Y gọi tập cha tập X P(Y/X): Xác suất có điều kiện (độ tin cậy luật Y->X) P(Y/X): Xác suất có điều kiện (độ tin cậy luật kết hợp X->Y) Sup(X): Tỷ lệ % giao tác chứa tập X Tq: Giao tác thứ q U(X): Lợi ích tập mục CSDL DB X = ABC thay cho X = {A, B, C} sở liệu giao tác ví dụ X, Y,…: Tập tập mục liệu I, X, Y Số hóa Trung tâm Học liệu I http://www.lrc-tnu.edu.vn/ x DANH MỤC CHỮ VIẾT TẮT AIS Thuật toán AIS CHARM Thuật toán CHAM CNTT CSDL Công nghệ thông tin Cơ sở liệu FP-Growth SETM UP-Growth Thuật toán FP-Growth Thuật toán SETM Thuật toán UP-Growth DM Data Mining Khai phá liệu HU High Utility Khai phá tập mục lợi ích cao TWU Transaction Weighted Utility Tập mục ràng buộc lợi ích theo giao tác TWUI-tree Transaction Weighted Utility Là cấu trúc tiền tố tree KDD Knowledge Discovery from Data Phát tri thức từ liệu PT Prefix-tree Số hóa Trung tâm Học liệu Cây tiền tố http://www.lrc-tnu.edu.vn/ 61 Bảng 2.17: Bảng lợi ích CSDL bảng 2.15 Mục A B C D E F G Lợi nhuận 2 1 Bảng 2.18: Các giao tác lại mục liệu theo TWU giảm dần TID Giao tác lại mục liệu TU T1’ (C,1) (A,1) (D,1) T2’ (C,6) (E,2) (A,2) 22 T3’ (C,1) (E,1) (A,1) (B,2) (D,6) 25 T4’ (C,3) (E,1) (B,4) (D,3) 20 T5’ (C,2) (E,1) (B,2) Xét trình chèn giao tác T1 ' (C,1)( A,1)( D,1) bảng 2.17 lên UP- tree: Đầu tiên nút C đƣợc tạo ra, C.nu TWU (T1' ) (u( A,T1' ) u( D,T1' )) (5 2) u(C,T1' ) Tiếp theo nút A đƣợc tạo nút C với A.count A.nu C.nu u( A,T1' ) Nút thứ ba D đƣợc tạo nút A D.nu ' D.count ' C.nu u( A, T1 ) u( D, T1 ) Giao tác thứ T2' {(C,6) ( E,2) ( A,2)} đƣợc chèn lên UP-tree, giá trị nu nút C C.nu tăng u(C, T2' ) C.count tăng Nút E đƣợc tạo nút C với E.count E.nu u(C,T2' ) u( E,T2' ) 12 Tƣơng tự nút A đƣợc tạo nút nút E với A.count A.nu 22 Sau chèn tất giao tác lên cây, UP-tree đƣợc xây dựng xong Hình 2.17 UP-tree hồn thành, so với TWU-tree hình 2.16 ta thấy, nút N, giá trị N.nu UP-tree nhỏ giá trị N.twu Số hóa Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ 62 Gốc C: 5, 96 Bảng đầu mục Mục liệu WU C 96 E 88 A 65 B 61 D 58 Con trỏ E: 4, 88 A: 1, A: 2, 57 B: 2, 31 D: 1, B: 1, 30 D: 1, 20 D: 1, 30 Hình 2.17: Cây TWUI-tree CSDL bảng 2.8 với minutil = 40 Gốc Bảng đầu mục Mục liệu WU C 96 E 88 A 65 B 61 D 58 C: 5, 13 Con trỏ E: 4, 27 A: 1, A: 2, 31 B: 2, 23 D: 1, B: 1, 13 D: 1, 20 D: 1, 25 Hình 2.18: Cây UP-tree CSDL bảng 2.8 với minutil = 40 (iii) Cả hai kỹ thuật (i) (ii) đƣợc áp dụng tiếp cho bƣớc khai phá UPtree xây dựng chiếu mục liệu theo phƣơng pháp UP-growth Nhờ áp dụng kỹ thuật này, số tập mục lợi ích cao tiềm tìm đƣợc giảm nhiều, giúp cho bƣớc xác định tập mục lợi ích cao từ tập mục lợi ích cao tiềm thực nhanh chóng 2.4 Kết luận chƣơng Chƣơng trình bày tốn khai phá tập mục lợi ích cao, phƣơng pháp khai phá tập mục lợi ích cao sử dụng cấu trúc tiền tố hai thuật toán khai phá COUI-Mine UP-Growth Các thuật toán khai phá đƣợc tập Số hóa Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ 63 liệu lớn nhanh hiệu thuật toán Hai pha [9], [11] sử dụng cấu trúc tiền tố CHƢƠNG THỰC NGHIỆM KHAI PHÁ TẬP MỤC LỢI ÍCH CAO DỰA TRÊN CẤU TRÚC CÂY TIỀN TỐ 3.1 Bài tốn phát nhóm mặt hàng có lợi nhuận cao Tại Siêu thị 168 Thanh Phƣợng thành phố Thái Nguyên, có tổng số 700 mặt hàng đƣợc bày bán sàn nhà với diện tích 500 m2 địa Tổ – Phƣờng Tân Thịnh – TP Thái Nguyên Hàng ngày có hàng nghìn lƣợt ngƣời mua hàng, nhà quản lý siêu thị sử dụng phần mềm Quản lý bán hàng quầy giao dịch để quản lý mặt hàng đƣợc nhập về, mặt hàng đƣợc bán hàng ngày với hoá đơn chứng từ kế toán,… Khách hàng tùy theo nhu cầu mình, lựa chọn mặt hàng cho vào giỏ, sau lựa chọn xong mặt hàng muốn mua quầy thu ngân để tốn Các tính tốn tổng cộng hoá đơn đƣợc thực tự động đƣợc lƣu vào CSDL Trên hố đơn có thơng tin hàng hoá nhƣ: mã hàng, tên hàng, đơn vị tính, số lƣợng, đơn giá, giá trƣớc thuế VAT, % thuế VAT, tổng thành tiền có thuế VAT,… Từ liệu bán hàng siêu thị chứa đầy đủ thông tin cần thiết để nhà quản lý tổng kết đánh giá tình hình kinh doanh nhƣ: Sức mua khách hàng, mặt hàng bán chạy, doanh số bao nhiêu,…Từ có chiến lƣợc kinh doanh cho phù hợp Bài toán đặt là: Từ liệu bán hàng có, tìm mặt hàng đƣợc khách hàng mua mang lại lợi nhuận cao (chính tập mục lợi ích cao), kết tìm đƣợc hỗ trợ ệu 3.2 Mô tả liệu Trong quý II năm 2014, CSDL giao tác siêu thị lớn, 4.500 giao tác với 550 mặt hàng đƣợc bán Để thực nghiệm khai phá tập mục lợi ích cao, liệu thực nghiệm trích chọn 2.000 giao tác với 24 mặt hàng thiết yếu hàng ngày Số hóa Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ 64 Bảng 3.1 biểu diễn phần liệu bán hàng quý I năm 2014 đƣợc trích chọn Số hóa Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ 65 Bảng 3.1 Dữ liệu trích chọn để khai phá ID Các mặt hàng giao tác Dầu gội đầu Clear 300gr – 12 cuộn/bịch(10); Bát ăn cơm men trắng 10 chiếc/01 bộ(20), Đĩa men bóng cao cấp 18,25 cm(10); 01 Cốc bầu UG (Thailand) 12 cái/01 bộ(6); Dầ (11); Net Café in (8) 3kg(5); Bánh Choco-Pie Orion 12p(5); Mì 02 Ajinomoto 400g(3), Nƣớc lau sàn Sunlight, hƣơng hoa Hạ, bóng & thơm mát, bình 4kg/Unilever(10); Dầu gộ 350gr(4); Giấy vệ sinh Việt – Nhật(30); Băng vệ sinh Kotex có cánh(5); Dầu gội đầu 03 Clear 300gr (7); Quạt Vinawin thấp 450 (15); 75g(30); Cà phê Trung Nguyên G7 (10); – 190g(25) Bát ăn cơm men trắng 10 chiếc/01 bộ(20); – 12 cuộn/bịch(10); Quạt Vinawin thấp 450(7); Kem đánh Close Up 350gr(4); Băng vệ sinh 04 Kotex có cánh(9); Giấy vệ sinh Việt – Nhật(2); Bàn chải đánh Thái(5); Bánh Bông Lan 450g(10); Net Café in 1(14) – 190g(20); – 12 cuộn/bịch(10); Bát ăn cơm men trắng 10 chiếc/01 bộ(6); Đĩa men bóng cao cấp 18,25 cm(5); Bánh Choco-Pie Orion 12p(2); Mì Ajinomoto 75g(4); 05 06 – 190g(2) – 12 cuộn/bịch(1); Nƣớc lau sàn Sunlight, hƣơng hoa Hạ, bóng & thơm mát, bình 4kg/Unilever(2);Dầu gộ 350gr(20); Mì tơm Omachi 75g(1); Dầ (3); Net Café in 1(5) Dầu gội đầu Clear 300gr(2); Quạt Vinawin thấp 450(10); Giấy vệ sinh Việt – Nhật(8); B 3kg(15); Bánh Choco-Pie Orion 12p(4); Mì Ajinomoto 400g(20) – 12 cuộn/bịch(2); Bát ăn cơm men trắng 10 chiếc/01 bộ(20); Đĩa men bóng cao cấp 18,25 cm(4); Cốc bầu UG (Thailand) 12 cái/01 bộ(4); Số hóa Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ 66 Kem đánh Close Up 350gr(6); Giấy vệ sinh Việt – Nhật(5); Băng vệ sinh Kotex có cánh(30); 3kg(25); Dầ 07 (13); Dầu gộ 350gr(27); Đĩa men bóng cao cấp 18,25 cm(3); Cốc bầu UG (Thailand) 12 cái/01 bộ(5); Nƣớc lau sàn Sunlight, hƣơng hoa Hạ, bóng & thơm mát, bình 4kg/Unilever(3); Dầu gộ 350gr(3) Bỉ 75g(5); Cà phê Trung Nguyên G7 (2); – 12 cuộn/bịch(1); Bát ăn cơm men trắng 10 chiếc/01 08 bộ(4); 09 cay 75g(3); 175gr(12); Cà phê Trung Nguyên G7 (5); Bỉ 10 75g(2); – 12 cuộn/bịch(1); – 190g(2) 11 3kg(10); Bỉm Pamper cho bé(12); Net Café in (12); Mì tơm Omachi 75g (9); Cà phê Trung Ngun G7 (10); 12 Quạt Vinawin thấp 450 (15); 175gr(20); Mì 75g(10); Đĩa men bóng cao cấp 18,25 cm(6); Cốc bầu UG (Thailand) 12 cái/01 bộ(10); - 13 14 175gr(2); Băng vệ sinh Kotex có cánh (8); Châu 190g(2); – i Dầu xả Sunsilk mềm mƣợt 350g (10); Xà phòng tắm lifebuoy (15); Nƣớc lau sàn Sunlight, hƣơng hoa Hạ, bóng & thơm mát, bình 4kg/Unilever (2); Dầu gội 350gr (10) 175gr (5); Mì Cốc bầu UG (Thailand) 12 cái/01 (2); Dầ 15 – 3kg (1); Dầu gộ 190g (15) Số hóa Trung tâm Học liệu 75g (20); 350gr (5); http://www.lrc-tnu.edu.vn/ 67 Số hóa Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ 68 Chuyển đổi liệu: Để chuẩn bị liệu cho khai phá, mặt hàng đƣợc mã hóa tập số tự nhiên (tức ánh xạ tập mặt hàng sang tập số tự nhiên - đánh thứ tự mục liệu từ đến hết) Bảng 3.2 mơ tả việc mã hóa mặt hàng Bảng 3.2 Mã hóa mặt hàng Mã mặt hàng Tên mặt hàng A Dầu gội đầu Clear 300gr B Quạt Vinawin thấp 450 C Kem đánh Close Up 350gr D Giấy vệ sinh Việt – Nhật E Băng vệ sinh Kotex có cánh F 3kg G Bỉm Pamper cho bé H Bánh Choco-Pie Orion 12p I Xà phòng tắm lifebuoy J 175gr K 75g L Cà phê Trung Nguyên G7 M Nƣớc mắm Chin Su Nam Ngƣ 750ml – N 190g O – 12 cuộn/bịch P Bát ăn cơm men trắng 10 chiếc/01 Q Đĩa men bóng cao cấp 18,25 cm R Cốc bầu UG (Thailand) 12 cái/01 S Nƣớc lau sàn Sunlight, hƣơng hoa Hạ, bóng & thơm mát, bình 4kg/Unilever T Dầu gộ U Bàn chải đánh Thái X Dầu xả Sunsilk mềm mƣợt 350g Y Mì tơm Omachi 75g Z Net Café in Số hóa Trung tâm Học liệu 350gr http://www.lrc-tnu.edu.vn/ 69 Bảng 3.3 Bảng lợi ích mặt hàng Lợi nhuận ($/đơn vị) Tên mặt hàng Dầu gội đầu Clear 300gr Quạt Vinawin thấp 450 Kem đánh Close Up 350gr Giấy vệ sinh Việt – Nhật Băng vệ sinh Kotex có cánh 3kg Bỉm Pamper cho bé Bánh Choco-Pie Orion 12p Mì Ajinomoto 400g 175gr 75g Cà phê Trung Nguyên G7 75g 190g – 12 cuộn/bịch Bát ăn cơm men trắng 10 chiếc/01 Đĩa men bóng cao cấp 18,25 cm Cốc bầu UG (Thailand) 12 cái/01 – Nƣớc lau sàn Sunlight, hƣơng hoa Hạ, bóng & thơm mát, bình 4kg/Unilever Dầu gộ 350gr Bàn chải đánh Thái Dầu xả Sunsilk mềm mƣợt 350g Mì tơm Omachi 75g Net Café in 1 Mì tơm Ozion 50gr Số hóa Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ 70 Tiếp đến, liệu đƣợc tiền xử lý đƣa dạng Text, ghi tệp CSDL.txt có cấu trúc nhƣ sau: Hình 3.1 Tệp CSDL.txt biểu diễn liệu đầu vào Mã mặt hàng số thứ tự cột, mã cách dấu cách, dòng, ứng với cột mã hàng ghi số lƣợng hàng bán đƣợc giao tác khơng có mặt hàng Tệp CSDL.txt biểu diễn liệu tiền xử lý, chuẩn bị cho khai phá tập mục lợi ích cao Kết khai phá đƣợc ánh xạ ngƣợc lại để xác định tên mặt hàng 3.3 Xây dựng chƣơng trình Chƣơng trình thử nghiệm áp dụng Thuật tốn COUI - Mine cơng cụ Visual C# 2012 Chƣơng trình đƣợc thiết kế khơng cần cài đặt, kích đúp vào biểu tƣợng COUI - Mine.exe giao diện chƣơng trình nhƣ hình 3.2: Số hóa Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ 71 Hình 3.2 Giao diện chương trình 3.4 Thực nghiệm khai phá tìm tập mục lợi ích cao Với CSDL đƣợc mã hóa (hình 3.1) Trƣớc tìm tập mục lợi ích cao ta xem lại CSDL bán hàng bảng lợi ích, sau nhập ngƣỡng lợi ích (%) nhấn nút chạy chƣơng trình Kết tập mục lợi ích cao liệt kê phía dƣới Giả sử nhập ngƣỡng lợi ích 30% kết nhƣ sau: Số hóa Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ 72 Hình 3.3 Tập mục lợi ích cao Giải thích : Nhóm mặt hàng mặt hàng mang lại lợi nhuận cao Nếu lấy ánh xạ ngƣợc trở lại ta đƣợc tên mặt hàng tƣơng ứng - Lợi ích: Là tổng lợi ích mà nhóm mặt hàng bán - Phần trăm lợi ích: Là tổng lợi ích nhóm mặt hàng bán đƣợc tính theo phần trăm 3.5 Kết luận chƣơng Chƣơng trình bày cụ thể toán bán hàng siêu thị với nhiều mặt hàng có lợi nhuận khác nhau, thực nghiệm tìm mặt hàng, nhóm mặt hàng có lợi nhuận cao dựa lý thuyết nêu chƣơng Sau đƣa vào thử nghiệm kết thực nghiệm khai phá liệu tệp CSDL.TXT khẳng định vấn đề lý thuyết khai phá tập mục lợi ích cao trình bày chƣơng Qua thực nghiệm với ngƣỡng lợi ích khác nhận thấy rằng: Khi ngƣỡng lợi ích thấp số tập mục lợi ích cao tìm thấy nhiều Kết khai phá tập mục lợi ích cao chƣơng trình thực nghiệm tìm đƣợc phát nhóm mặt hàng mang lại lợi nhuận cao, từ hỗ trợ tốt cho nhà quản lý siêu thị việc tổ chức kinh doanh ngày phát triển thêm nhiều mặt hàng Số hóa Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ 73 KẾT LUẬN Những kết luận văn Luận văn nghiên cứu mơ hình mở rộng tốn tìm tập mục thƣờng xun tốn tìm tập mục lợi ích cao Từ tốn đƣợc giới thiệu có nhiều thuật tốn nhiều nhóm nghiên cứu giới đề xuất Vì cần phải lựa chọn nghiên cứu thuật toán hiệu cách sâu sắc để góp phần hệ thống lại kiến thức lĩnh vực khám phá tri thức khai phá liệu Mục tiêu luận văn muốn giúp cho ngƣời nghiên cứu tiếp cận nhanh kiến thức cập nhật giới lĩnh vực Luận văn khái quát vấn đề khai phá liệu khai phá tập mục thƣờng xuyên, trình bày khái niệm cách tiếp cận để khai phá tập mục lợi ích cao Đồng thời trình bày chi tiết hai thuật tốn điển hình dựa cấu trúc dạng tiền tố tìm tập mục lợi ích cao: thuật tốn COUI-Mine UP-Growth Các thuật tốn đƣợc minh họa qua ví dụ cụ thể có nhận xét tính hiệu Phần thực nghiệm, luận văn xây dựng đƣợc chƣơng trình khai phá phát nhóm mặt hàng mang lại lợi nhuận cao tập liệu bán hàng siêu thị 168 Thanh Phƣợng Hƣớng nghiên cứu Trên sở nghiên cứu đƣợc trình bày luận văn, tiếp tục nghiên cứu sâu thuật tốn khai phá tập mục lợi ích cao, tìm cách cải tiến nhằm nâng cao hiệu thuật toán để áp dụng vào số toán khai phá liệu đặt nhiều lĩnh vực, đặc biệt lĩnh vực kinh doanh Số hóa Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ 74 TÀI LIỆU THAM KHẢO A Tiếng việt [1] Nguyễn Huy Đức (2009), “Khai phá tập mục cổ phần cao lợi ích cao sở liệu” Luận án tiến sĩ tốn học, Viện Cơng nghệ Thơng tin, Hà Nội [2] Đỗ Phúc (2007), ”Bài giảng môn học: Khai thác liệu”, Trƣờng Đại học Quốc gia, TP Hồ Chí Minh [3] TS Lê Văn Phùng, Ths Quách Xuân Trƣởng (2012), “Khai phá liệu”, Nhà xuất Thông tin truyền thông [4] Nguyễn Nhật Quang (2010), ”Bài giảng môn học: Khai phá liệu”, Trƣờng Đại học Bách khoa Hà Nội [5] Vũ Đức Thi, Nguyễn Huy Đức (2008), “Thuật tốn hiệu khai phá tập mục lợi ích cao cấu trúc liệu cây”, Tạp chí tin học điều khiển học B Tiếng Anh [6] Yao H., Hamilton H J., and Geng L (2006), “A Unified Framework for Utility Based Measures for Mining Itemsets”, UBDM’06 Philadelphia, Pennsylvania, USA [7] Agrawal R And Srikant R (1994), “Fast algorithms for mining association rules”, in proceeding of 20th International Conference on Very Large Databases, Santiago, Chile [8] El-Hajj M and Zaiane Osmar R (2003), “COFI-tree Mining: A New Approach to Pattern Growth with Reduced Candidacy Generation”, In Proc 2003 Int’l Conf.on Data Mining and Knowledge Discovery (ACM SIGKDD), Chicago, Illinois, USA [9] Erwin A., Gopalan R P., & Achuthan N R (2007), “A Bottom-Up Projection Based Algorithm for Mining High Utility Itemsets”, IEEE 7th International Conferences on Computer and Information Technology, Aizu Wakamatsu, Japan [10] Han J and M Kamber (2006), “Data Mining-Concepts and Techniques” (Second Edition), Morgan Kaufmann Publishers [11] Liu Y., W Liao K., and Choudhary A (2005), “A fast high utility itemsets mining algorithm”, in Proc 1st Intl conf on Utility-Based Data Mining, Chicago Chicago Illinois, pp.90-99, USA Số hóa Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ 75 [12] Yao H., Hamilton H J (2006), “Mining Itemsets Utilities from Transaction Databases”, Data and Knowledge Engeneering, Vol 59, issue Số hóa Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ ... tập mục lợi ích cao khai phá tập mục lợi ích cao khơng ?” Với mục ? ?ích tìm hiểu tốn tập mục lợi ích cao thuật tốn khai phá dựa cấu trúc tiền tố, em chọn đề tài ? ?Khai phá tập mục lợi ích cao dựa. .. trình khai phá tập mục lợi ích cao Trong chƣơng trình bày khái niệm tập mục thƣờng xuyên tập mục lợi ích cao, cấu trúc tiền tố thuật tốn khai phá tập mục lợi ích cao sử dụng cấu trúc tiền tố Số... buộc lợi ích, cho biết lợi ích k -tập mục X k đƣợc giới hạn lợi ích tất tập mục có (k-1) mục 2.3 Khai phá tập mục lợi ích cao dựa tiền tố 2.3.1 Định nghĩa tiền tố Trong phƣơng pháp khai phá tập mục

Ngày đăng: 24/02/2021, 21:41

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan