Chƣơng trình chạy trên cấu hình máy : Chip core i7,RAM 4 GB,HDD 500GB. - Giao diện chính của chƣơng trình:
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn
- Tiến hành khai phá với độ hỗ trợ tối thiểu = 22% và độ tin cậy tối thiểu = 90% :
Thời gian chạy = 0.7 phút. Giải thích luật thu đƣợc:
Chứng khoán và đầu tƣ Nhân vật và bài học kinh doanh 94.17%
Có nghĩa: 94.17% giao dịch nếu mua sách Chứng khoán và đầu tƣ thì sẽ mua sách Nhân vật và bào học kinh doanh.
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn
Tƣơng tự :
96.52% giao dịch nếu mua sách Nhân vật và bài học kinh doanh thì sẽ mua sách Chứng khoán và đầu tƣ.
90.89% giao dịch nếu mua sách Chứng khoán đầu tƣ thì sẽ mua sách Quản trị.
96.59% giao dịch nếu mua sách Quản trị thì sẽ mua sách Chứng khoán và đầu tƣ.
92.88% giao dịch nếu mua sách Nhân vật và bài học kinh doanh thì sẽ mua sách Quản trị
Khai phá với một vài độ hỗ trợ tối thiểu và độ tin cậy tối thiểu khác: - Với độ hỗ trợ tối thiểu = 18% và độ tin cậy tối thiểu = 80% :
Thời gian chạy = 7.5 phút
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn
Thời gian chạy = 1.8 phút
Qua các luật thu đƣợc sau khi chạy chƣơng trình, dựa vào đó có thể sắp xếp các cuốn sách có của luật có độ tin cậy cao nằm cạnh nhau trên trang web bán hàng của mình. Hoặc khi khách hàng chọn một cuốc sách nào đó, ta sẽ gợi ý những cuốn sách nên mua kèm theo.
Ví dụ:
Có các luật sau :
Khi khách hàng chọn mua sách Chứng khoán và đầu tƣ, ta có thể gợi ý khách hàng mua các cuốn Nhân vật và bài học kinh doanh và cuốn Quản trị. Ngƣợc lại khi khách hàng chọn mua cuốn Quản trị ta cũng gợi ý khách mua thêm các cuốn Chứng khoán đầu tƣ và cuốn Nhân vật và bài học kinh doanh.
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn
KẾT LUẬN 1. Kết quả đạt đƣợc trong luận văn
Luận văn đề cập đến các nội dung về kho dữ liệu, các đặc tính trong kho dữ liệu, sự khác biệt của kho dữ liệu với các CSDL tác nghiệp khác. Ứng dụng của lƣu trữ và khai phá tri thức trong kho dữ liệu là rất lớn và có ích trong mọi hoạt động sản xuất, kinh doanh và trợ giúp cho việc hoạch định chiến lƣợc của các nhà quản lý cũng nhƣ hỗ trợ ra quyết định.
Những kết quả chính của luận văn đạt đƣợc:
Trình bày khái quát về kho dữ liệu và các kỹ thuật khai phá dữ liệu, các bƣớc của quá trình khai phá dữ liệu, nhiệm vụ và các phƣơng pháp để khai phá dữ liệu.
Giới thiệu luật kết hợp, các phƣơng pháp và mô hình phát luật kết hợp. Trình bày các thuật toán khai phá dữ liệu phát hiện luật kết hợp nhƣ:
AprioriTID, AprioriHyrid, K-Nearest Neighbors (K- láng giềng), K- Means, ...
Cài đặt thử nghiệm hai thuật toán Apriori áp dụng vào bài toán “Khai phá dữ liệu và phát hiện luật kết hợp trong CSDL siêu thị sách”.
2. Hƣớng nghiên cứu tiếp theo
Nghiên cứu sâu các thuật toán khai phá dữ liệu, tìm cách minh hoạ thuật toán tốt hơn nữa. Tiếp tục hoàn thiện và mở rộng chƣơng trình trong luận văn này để có thể áp dụng vào thực tế một cách triệt để đảm bảo theo đúng các bƣớc trong quá trình khai phá dữ liệu.
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn
TÀI LIỆU THAM KHẢO
Tiếng Việt:
[1] Đoàn Văn Ban (2006), Lập trình hướng đối tượng bằng Java, NXB KHKT , Hà Nội .
[2] Nguyễn Bá Tƣờng (2005), Nhập môn cơ sở dữ liệu phân tán, NXB KHKT. [3] Vũ Đức Thi, Cơ sở dữ liệu: Kiến thức và thực hành, NXB Thống kê 1997. [4] Nguyễn Thanh Thuỷ (2001), Khai phá dữ liệu - Kỹ thuật và ứng dụng. Bài giảng trƣờng thu, Hệ mờ và ứng dụng, Hà Nội.
[5] Phan Đầu (2005), Khai phá dữ liệu bằng phương pháp luật kết hợp, luận văn thạc sĩ khoa học Công nghệ thông tin - Đại học Sƣ phạm Hà Nội.
[6] Nguyễn Thị Diệu Thƣ (2000), Khai phá dữ liệu kỹ thuật và ứng dụng, luận văn thạc sĩ khoa học Công nghệ thông tin - Đại học Bách khoa Hà Nội.
[7] Nguyễn Trung Tuấn (2003), Kỹ thuật phát hiện tri thức và khai phá dữ liệu, ứng dụng trong bài toán dự báo từ thông tin kinh tế - xã hội.
Tiếng Anh:
[8] Bao Ho Tu (1998), Introduction to Knowledge Discovery and Data mining, Institute of Information Technology National Center for Natural Science and Technology.
[9] Christopher Westphal - Teresa Blaxton (1998), Data Mining Solution, Wiley Computer Publishing.
[10] Jean-Marc Adamo (2001), Data Mining for Association Rule and Sequential Pattens, With 54 Illustrations. ISBN0-95048-6.
[11] John Wiley & Sons (2003), Data Mining: Concepts, Models, Methods, and Algorithms, by Mehmed Kantardzic, ISBN: 0471228524.