Bảng 3 .1 Dữ liệu đó trớch chọn để khai phỏ
Bảng 3.2 Mó húa cỏc mặt hàng
Mó của mặt hàng Tờn mặt hàng
A Dầu gội đầu Clear 300gr B Quạt Vinawin thấp 450
C Kem đỏnh răng Close Up 350gr D Giấy vệ sinh Việt – Nhật
E Băng vệ sinh Kotex cú cỏnh
F 3kg G Bỉm Pamper cho bộ H Bỏnh Choco-Pie Orion 12p I Xà phũng tắm lifebuoy J 175gr K 75g L Cà phờ Trung Nguyờn G7 M Nƣớc mắm Chin Su Nam Ngƣ 750ml N – 190g O – 12 cuộn/bịch
P Bỏt ăn cơm men trắng 10 chiếc/01 bộ Q Đĩa men búng cao cấp 18,25 cm R Cốc bầu UG (Thailand) 12 cỏi/01 bộ
S Nƣớc lau sàn Sunlight, hƣơng hoa Hạ, sạch búng & thơm mỏt, bỡnh 4kg/Unilever
T Dầu gộ 350gr
U Bàn chải đỏnh răng Thỏi
X Dầu xả Sunsilk mềm mƣợt 350g Y Mỡ tụm Omachi 75g
Số húa bởi Trung tõm Học liệu http://www.lrc-tnu.edu.vn/ Bảng 3.3. Bảng lợi ớch cỏc mặt hàng
Tờn cỏc mặt hàng Lợi nhuận ($/đơn vị)
Dầu gội đầu Clear 300gr 2 Quạt Vinawin thấp 450 3 Kem đỏnh răng Close Up 350gr 1 Giấy vệ sinh Việt – Nhật 2 Băng vệ sinh Kotex cú cỏnh 2
3kg 1 Bỉm Pamper cho bộ 2 Bỏnh Choco-Pie Orion 12p 1 Mỡ chớnh Ajinomoto 400g 3 175gr 1 75g 3 Cà phờ Trung Nguyờn G7 1 75g 2 – 190g 1 – 12 cuộn/bịch 2 Bỏt ăn cơm men trắng 10 chiếc/01 bộ 2 Đĩa men búng cao cấp 18,25 cm 3 Cốc bầu UG (Thailand) 12 cỏi/01 bộ 2 Nƣớc lau sàn Sunlight, hƣơng hoa Hạ, sạch
búng & thơm mỏt, bỡnh 4kg/Unilever 1
Dầu gộ 350gr 2
Bàn chải đỏnh răng Thỏi 2 Dầu xả Sunsilk mềm mƣợt 350g 3
Mỡ tụm Omachi 75g 2
Net Cafộ 3 in 1 1
Số húa bởi Trung tõm Học liệu http://www.lrc-tnu.edu.vn/
Tiếp đến, dữ liệu đƣợc tiền xử lý đƣa về dạng Text, ghi trờn tệp CSDL.txt cú cấu trỳc nhƣ sau:
Hỡnh 3.1. Tệp CSDL.txt biểu diễn dữ liệu đầu vào
Mó của cỏc mặt hàng là số thứ tự cỏc cột, cỏc mó cỏch nhau một dấu cỏch, trờn mỗi dũng, ứng với cột mó hàng ghi số lƣợng hàng bỏn đƣợc hoặc 0 nếu giao tỏc khụng cú mặt hàng đú.
Tệp CSDL.txt biểu diễn dữ liệu đó tiền xử lý, chuẩn bị cho khai phỏ tập mục lợi ớch cao. Kết quả khai phỏ sẽ đƣợc ỏnh xạ ngƣợc lại để xỏc định tờn cỏc mặt hàng.
3.3 Xõy dựng chƣơng trỡnh
Chƣơng trỡnh thử nghiệm ỏp dụng Thuật toỏn COUI - Mine trờn bộ cụng cụ
Visual C# 2012. Chƣơng trỡnh đƣợc thiết kế khụng cần cài đặt, kớch đỳp vào biểu tƣợng COUI - Mine.exe giao diện chớnh của chƣơng trỡnh nhƣ hỡnh 3.2:
Số húa bởi Trung tõm Học liệu http://www.lrc-tnu.edu.vn/ Hỡnh 3.2. Giao diện chớnh của chương trỡnh
3.4 Thực nghiệm khai phỏ tỡm tập mục lợi ớch cao
Với CSDL đó đƣợc mó húa (hỡnh 3.1). Trƣớc khi tỡm tập mục lợi ớch cao ta cú thể xem lại CSDL bỏn hàng và bảng lợi ớch, sau đú nhập ngƣỡng lợi ớch (%) và nhấn nỳt chạy chƣơng trỡnh. Kết quả cỏc tập mục lợi ớch cao sẽ liệt kờ phớa dƣới. Giả sử nhập ngƣỡng lợi ớch là 30% thỡ kết quả hiện ra nhƣ sau:
Số húa bởi Trung tõm Học liệu http://www.lrc-tnu.edu.vn/ Hỡnh 3.3. Tập cỏc mục lợi ớch cao
Giải thớch :
Nhúm mặt hàng là cỏc mặt hàng mang lại lợi nhuận cao. Nếu lấy ỏnh xạ ngƣợc trở lại ta sẽ đƣợc tờn cỏc mặt hàng tƣơng ứng.
- Lợi ớch: Là tổng lợi ớch mà nhúm mặt hàng đú đó bỏn.
- Phần trăm lợi ớch: Là tổng lợi ớch của cỏc nhúm mặt hàng đó bỏn đƣợc tớnh theo phần trăm.
3.5 Kết luận chƣơng 3
Chƣơng 3 đó trỡnh bày cụ thể bài toỏn bỏn hàng ở siờu thị với rất nhiều mặt hàng cú lợi nhuận khỏc nhau, thực nghiệm tỡm ra những mặt hàng, nhúm mặt hàng nào cú lợi nhuận cao dựa trờn lý thuyết đó nờu ở chƣơng 2.
Sau khi đƣa vào thử nghiệm kết quả thực nghiệm khai phỏ dữ liệu trờn tệp CSDL.TXT đó khẳng định những vấn đề lý thuyết trong khai phỏ tập mục lợi ớch cao đó trỡnh bày ở chƣơng 2.
Qua thực nghiệm với cỏc ngƣỡng lợi ớch khỏc nhau nhận thấy rằng: Khi ngƣỡng lợi ớch càng thấp thỡ số tập mục lợi ớch cao tỡm thấy càng nhiều.
Kết quả khai phỏ tập mục lợi ớch cao do chƣơng trỡnh thực nghiệm tỡm đƣợc đó phỏt hiện ra những nhúm mặt hàng mang lại lợi nhuận cao, từ đú hỗ trợ rất tốt cho cỏc nhà quản lý siờu thị trong việc tổ chức kinh doanh và ngày càng phỏt triển thờm nhiều mặt hàng mới.
Số húa bởi Trung tõm Học liệu http://www.lrc-tnu.edu.vn/
KẾT LUẬN 1. Những kết quả chớnh của luận văn
Luận văn đó nghiờn cứu mụ hỡnh mở rộng của bài toỏn tỡm tập mục thƣờng xuyờn là bài toỏn tỡm tập mục lợi ớch cao. Từ khi bài toỏn này đƣợc giới thiệu cho đến nay cú khỏ nhiều thuật toỏn của nhiều nhúm nghiờn cứu trờn thế giới đề xuất. Vỡ vậy cần phải lựa chọn và nghiờn cứu những thuật toỏn hiệu quả nhất một cỏch sõu sắc để gúp phần hệ thống lại cỏc kiến thức cơ bản trong lĩnh vực khỏm phỏ tri thức và khai phỏ dữ liệu. Mục tiờu của luận văn cũng muốn giỳp cho những ngƣời mới nghiờn cứu cú thể tiếp cận nhanh những kiến thức cập nhật của thế giới trong lĩnh vực này.
Luận văn đó khỏi quỏt vấn đề về khai phỏ dữ liệu và khai phỏ tập mục thƣờng xuyờn, trỡnh bày những khỏi niệm cơ bản và cỏc cỏch tiếp cận để khai phỏ tập mục lợi ớch cao. Đồng thời trỡnh bày chi tiết hai thuật toỏn điển hỡnh dựa trờn cấu trỳc dạng cõy tiền tố tỡm tập mục lợi ớch cao: thuật toỏn COUI-Mine và UP-Growth. Cỏc thuật toỏn đƣợc minh họa qua vớ dụ cụ thể và cú nhận xột về tớnh hiệu quả.
Phần thực nghiệm, luận văn đó xõy dựng đƣợc chƣơng trỡnh khai phỏ phỏt hiện nhúm cỏc mặt hàng mang lại lợi nhuận cao trờn tập dữ liệu bỏn hàng của siờu thị 168 Thanh Phƣợng.
2. Hƣớng nghiờn cứu tiếp theo
Trờn cơ sở nghiờn cứu đó đƣợc trỡnh bày trong luận văn, tiếp tục nghiờn cứu sõu hơn cỏc thuật toỏn khai phỏ tập mục lợi ớch cao, tỡm cỏch cải tiến nhằm nõng cao hiệu quả của cỏc thuật toỏn để ỏp dụng vào một số bài toỏn khai phỏ dữ liệu đang đặt trong nhiều lĩnh vực, đặc biệt trong lĩnh vực kinh doanh.
Số húa bởi Trung tõm Học liệu http://www.lrc-tnu.edu.vn/
TÀI LIỆU THAM KHẢO A. Tiếng việt
[1] Nguyễn Huy Đức (2009), “Khai phỏ tập mục cổ phần cao và lợi ớch cao
trong cơ sở dữ liệu”. Luận ỏn tiến sĩ toỏn học, Viện Cụng nghệ Thụng tin, Hà Nội.
[2] Đỗ Phỳc (2007), ”Bài giảng mụn học: Khai thỏc dữ liệu”, Trƣờng Đại học
Quốc gia, TP. Hồ Chớ Minh.
[3] TS. Lờ Văn Phựng, Ths. Quỏch Xuõn Trƣởng (2012), “Khai phỏ dữ liệu”,
Nhà xuất bản Thụng tin và truyền thụng.
[4]. Nguyễn Nhật Quang (2010), ”Bài giảng mụn học: Khai phỏ dữ liệu”,
Trƣờng Đại học Bỏch khoa Hà Nội.
[5] Vũ Đức Thi, Nguyễn Huy Đức (2008), “Thuật toỏn hiệu quả khai phỏ tập
mục lợi ớch cao trờn cấu trỳc dữ liệu cõy”, Tạp chớ tin học và điều khiển học.
B. Tiếng Anh
[6] Yao H., Hamilton H. J., and Geng L. (2006), “A Unified Framework for
Utility Based Measures for Mining Itemsets”, UBDM’06 Philadelphia, Pennsylvania, USA.
[7]. Agrawal R. And Srikant R. (1994), “Fast algorithms for mining association
rules”, in proceeding of 20th
International Conference on Very Large Databases, Santiago, Chile.
[8] El-Hajj M. and Zaiane Osmar R. (2003), “COFI-tree Mining: A New
Approach to Pattern Growth with Reduced Candidacy Generation”, In Proc. 2003 Int’l
Conf.on Data Mining and Knowledge Discovery (ACM SIGKDD), Chicago, Illinois, USA.
[9] Erwin A., Gopalan R. P., & Achuthan N. R. (2007), “A Bottom-Up Projection
Based Algorithm for Mining High Utility Itemsets”, IEEE 7th
International Conferences on Computer and Information Technology, Aizu Wakamatsu, Japan.
[10] Han J. and M. Kamber (2006), “Data Mining-Concepts and Techniques”
(Second Edition), Morgan Kaufmann Publishers.
[11] Liu Y., W. Liao K., and Choudhary A. (2005), “A fast high utility itemsets
mining algorithm”, in Proc. 1st Intl. conf. on Utility-Based Data Mining, Chicago Chicago Illinois, pp.90-99, USA.
Số húa bởi Trung tõm Học liệu http://www.lrc-tnu.edu.vn/
[12] Yao H., Hamilton H. J. (2006), “Mining Itemsets Utilities from Transaction