Cảnh báo lỗi nếu chọn sai dữ liệu

Một phần của tài liệu (LUẬN văn THẠC sĩ) khai thác luật kết hợp từ cơ sở dữ liệu giao dịch của siêu thị bán lẻ 001 (Trang 66 - 73)

3.2.3. Thử nghiệm chương trình

Thu thập dữ liệu

Dữ liệu được thu thập từ các siêu thị, công ty bán lẻ, là thông tin hóa đơn với các mặt hàng được mua trong hóa đơn gồm tên hàng, và số lượng hàng. Dùng chương trình khai phá tập mục cổ phần cao để tìm ra các mặt hàng nào được mua nhiều và thói quen mua các sản phẩm có mối liên quan với nhau của khách hàng. Nhờ đó tư vấn giúp người quản lý định hướng kinh doanh. Ngoài ra có thể

sử dụng dữ liệu có một số thông tin đặc thù để khai phá như cơ sở dữ liệu về thông tin lỗi viễn thông (thống kê các lỗi hay xảy ra và mối liên quan giữa chúng), …

Tạo cơ sở dữ liệu

Dữ liệu được chuẩn bị để kiểm thử chương trình gồm ba dạng như đã trình bày ở trên. Trong đó:

- Dạng cơ sở dữ liệu đầy đủ: một file CSDL nhỏ mang tính chất minh họa - Dữ liệu lớn được lưu và file txt gồm 3 file sau:

Tên tệp Số giao tác Số mục dữ liệu

Test1.txt 1000 20

Test2.txt 10000 50

Test3.txt 50000 50

Cấu hình máy kiểm thử:

Máy tính 1:

- Proccessor: Intel Pentium IV 3.0GHz

- Memory: 3328MB RAM

- Hệ điều hành: Window XP SP2 32bit

Máy tính 2:

- Proccessor: Intel Core™ i7 – 2670QM 2.20GHz

- Memory: 6G RAM

- Hệ điều hành: Window 8 Enterprise 64bit

Kết quả kiểm thử: File dữ liệu Ngưỡng cổ phần (%) Ngưỡng tin cậy (%) Số tập mục cổ phần cao Số luật Thời gian tính (Máy tính 1) Thời gian tính (Máy tính 2) Test1.txt 10 10 3 4 1s 0.4s Test1.txt 1 10 160 373 3s 3.5s Test2.txt 10 10 0 0 44s 31.3s

Test2.txt 1 50 108 222 10m15s 7m58s

Test3.txt 20 80 0 0 28s 19s

Test3.txt 10 80 0 0 4m6s 2m58s

Test3.txt 1 50 0 0 7m10s 6m23s

Khi thực hiện so sánh giữa khai phá luật theo cổ phần cao và khai phá luật kết hợp theo tập phổ biến trên cùng một bộ dữ liệu sử dụng máy tính 2, ta có kết quả như sau:

Bảng nhị phân kích thước 10 tập mục, 700 giao tác (file Table2.mdb): - Ngưỡng cổ phần (độ hỗ trợ) 40% , ngưỡng tin cậy 50%

Kiểu khai phá Thời gian thực hiện

Số tập mục

thỏa mãn Số luật mạnh

Cổ phần cao 0.174s 1 28

Tập phổ biến 0.0271s 3 0

- Ngưỡng cổ phần (độ hỗ trợ) 20% , ngưỡng tin cậy 50%

Kiểu khai phá Thời gian thực hiện

Số tập mục

thỏa mãn Số luật mạnh

Cổ phần cao 0.45s 20 148

Tập phổ biến 0.401s 31 158

Bảng giao tác có số lượng, kích thước 20 tập mục, 183 giao tác (file Table3.mdb):

- Ngưỡng cổ phần (độ hỗ trợ) 30%, ngưỡng tin cậy 50%

Kiểu khai phá Thời gian thực hiện

Số tập mục

thỏa mãn Số luật mạnh

Cổ phần cao 0.024s 0 0

Tập phổ biến 0.034s 10 14

- Ngưỡng cổ phần (độ hỗ trợ) 10% , ngưỡng tin cậy 10%

Kiểu khai phá Thời gian thực hiện

Số tập mục

thỏa mãn Số luật mạnh

Cổ phần cao 0.455s 57 606

3.2.4. Nhận xét

Qua thực nghiệm cho thấy, kết quả khai phá luật kết hợp từ cùng một bảng dữ liệu theo khía cạnh cổ phần cao và theo khía cạnh tập mục phổ biến cho kết quả khác nhau. Điều này đúng ngay cả khi dữ liệu ở dạng bảng nhị phân 0 và 1 hay là dữ liệu ở dạng bảng giao tác có số lượng.

KẾT LUẬN

Kết quả đạt được

Luận văn "Khai thác luật kết hợp từ cơ sở dữ liệu giao dịch của siêu thị

bán lẻ" đã đạt được một số kết quả sau:

 Chương 1 giới thiệu khái quát nhất về khái niệm “Khai phá dữ liệu” một số vấn đề liên quan như: định nghĩa, ứng dụng, các bước tiến hành, kiến trúc của một hệ thống khai phá dữ liệu, kiểu dữ liệu và các bài toán điển hình trong khai phá dữ liệu, lợi thế và những khó khăn của khai phá dữ liệu so với các phương pháp khác,...

 Chương 2 giới thiệu về “Khai phá luật kết hợp”, các khái niệm cơ bản của Khai phá luật kết hợp như: độ hỗ trợ, độ tin cậy, tập mục phổ biến, luật kết hợp, luật mạnh. Chương này cũng giới thiệu các dạng bài toán khai phá luật kết hợp khác nhau và một số phương pháp kinh điển trong khai phá luật kết hợp nhị phân như Apriori, FP-Tree.

 Chương 3 giới thiệu bài toán “Khai thác luật kết hợp từ cơ sở dữ liệu giao dịch của siêu thị bán lẻ”, sự khác biệt giữa bài toán này với bài toán khai phá luật kết hợp trên bảng nhị phân điển hình dẫn tới việc không thể áp dụng phương pháp khai phá tập mục phổ biến cho loại bài toán này. Chương 3 giới thiệu về khái niệm tập mục cổ phần cao, các định nghĩa liên quan như cổ phần, ngưỡng cổ phần, tập mục cổ phần theo giao tác cao, ... Chương này cũng giới thiệu thuật toán khai phá tập mục cổ phần cao để giải quyết bài toán của luận văn. Cuối chương 3 là phần giới thiệu kết quả thực nghiệm xây dựng phần mềm khai thác luật kết hợp từ cơ sở dữ liệu giao dịch của siêu thị bán lẻ. Vì Khai phá dữ liệu luật kết hợp nói riêng và khai phá dữ liệu nói chung là một vấn đề rộng lớn, nên chắc hẳn bài nghiên cứu nhỏ này của em vẫn còn nhiều thiếu sót, phần thực nghiệm vẫn còn ở dạng thử nghiệm thuật toán, cần cải thiện thêm mới có thể trở thành sản phẩm thực tiễn. Em rất mong nhận được sẽ góp ý giúp đỡ của các thày cô và các bạn để đề tài ngày càng hoàn thiện hơn. Em xin chân thành cảm ơn!

Hướng nghiên cứu tiếp theo

Tiếp tục hoàn thiện phần mềm để có thể trở thành một sản phẩm thương mại. Nghiên cứu và đưa thêm yếu tố giá trị sản phẩm, trọng số cho từng sản phẩm vào phần mềm để đáp ứng nhu cầu khác nhau của các khách hàng.

Phát triển thuật toán song song để khai phá luật kết hợp.

Xây dựng cơ chế khai phá luật kết hợp theo thời gian nhằm tận dụng kết quả đã khai phá trước đó để không cần phải khai phá lại từ đầu, tránh lãng phí. Cách làm hiện nay là khi cơ sở dữ liệu được gia tăng (tăng về số lượng giao tác hay tăng về số lượng tập mục), việc khai phá luật kết hợp phải thực hiện lại từ đầu, chưa thể kế thừa kết quả của những lần khai phá trước đó đã thực hiện.

TÀI LIỆU THAM KHẢO

Tiếng Việt

1. Nguyễn Huy Đức (2003), "Khai phá luật kết hợp trong cơ sở dữ liệu lớn",

Kỷ yếu Hội thảo khoa học Quốc gia lần thứ nhất về nghiên cứu cơ bản và ứng dụng CNTT, Hà Nội, 10/2003,tr.128-136.

2. Nguyễn Huy Đức (2009), Khai phá tập mục cổ phần cao và lợi ích cao trong cơ sở dữ liệu, Luận án Tiến sĩ toán học – viện Công nghệ thông tin. 3. Phan Xuân Hiếu, Bài giảng Khai phá dữ liệu và Kho dữ liệu, Đại học

Công nghệ, Đại học Quốc Gia Hà Nội.

4. Vũ Đức Thi (1997), Cơ sở dữ liệu - Kiến thức và thực hành, NXB Thống Kê, Hà Nội.

5. Vũ Đức Thi, Nguyễn Huy Đức (2008), "Khai phá tập mục thường xuyên cổ phần cao trong cơ sở dữ liệu lớn", Tạp chí Tin học và Điều khiển học,

24(2), tr.168-178.

6. Vũ Đức Thi, Nguyễn Huy Đức (2008), "Thuật toán hiệu quả khai phá tập mục thường xuyên cổ phần cao", Kỷ yếu Hội thảo Một số vấn đề chọn lọc CNTT và TT, Huế, 12/2008, tr.431-444.

7. Hà Quang Thụy (2009), Giáo trình khai phá dữ liệu web, NXB Giáo dục Việt Nam, tr.9-38.

8. Hà Quang Thụy, Bài giảng Nhập môn Khai phá dữ liệu, Đại học Công nghệ, Đại học Quốc Gia Hà Nội.

Tiếng Anh

9. Agrawal R. and Srikant R. (1994), "Fast algorithms for mining association rules", Proceedings of 20th International Conference on Very Large Databases, Santiago, Chile.

10. Fayyad, Piatetsky-Shapiro, and Smyth (1996), "From Data Mining to Knowledge Discovery in Databases", AI Magazine Volume 17 Number 3.

11. Friedman J. H. (1998), Data Mining and Statistics: What's the Connection?, Department of Statistics and Stanford Linear Accelerator Center, Stanford.

12. Han J. and Kamber M. (2000), "Mining frequent patterns without candidate generation", ACM SIGMOD Intl. Conference on Management of Data, pp.1-12.

13. Han J. and Kamber M. (2006), Data Mining: Concept and Techniques, 2nd ed.

14. Hilderman R. J., Carter C. L., Hamilton H. J., and Cercon N. (1998), "Mining association rules from market basket data using share measures and characterized itemsets", Intl, Joural of Artificial Intelligence Tools, Vol. 7, pp. 189-220.

15. Li Y. C., Yeh J. S., and Chang C. C. (2005), "A fast algorithm for mining share-frequent itemsets", Lecture Notes in Computer Science, Springer- Verlag, Germany, Vol.3399, pp.417-428.

Một phần của tài liệu (LUẬN văn THẠC sĩ) khai thác luật kết hợp từ cơ sở dữ liệu giao dịch của siêu thị bán lẻ 001 (Trang 66 - 73)

Tải bản đầy đủ (PDF)

(73 trang)