3/ Một số phương pháp khai phá dữ liệu:
4.2 Hướng dẫn chạy chương trình
Mở thư mục: CH1101128-NguyenVanSang-
TimLuatPhoBienVaLuatKetHopTrongCSDL > chuong_trinh>
findFPAssRulesWithFPGrowth. Xem hình dưới đây:
Hình 5 – Thư mục chứa chương trình demo
Trong thư mục này có 2 file : ChitietHD.xls và file
findFPAssRulesWithFPGrowth.jar. File ChitietHD.xls chứa dữ liệu liên quan tới chi tiết hóa đơn, để cho việc kiểm tra (test) được dễ dàng, dữ liệu chính ban đầu được dưa vào chỉ bao gồm một số giao dịch; tuy nhiên, khi chúng ta muốn kiểm tra nhiều dữ liệu hơn thì cũng có thể sửa lại dữ liệu file này. Xem hình dưới đây :
Hình 6 – Dữ liệu mẫu trong file Excel lấy theo số tự nhiên. Cột đầu tiên là “Mã HĐ”- mã hóa đơn, cột thứ hai là “Mã Hàng” – mã hàng hóa, chương trình sẽ quét tất cả các giao dịch ở file này (hiện có tất cả 6 giao dịch mua hàng ứng với số thứ tự của mã hóa đơn được tô màu khác nhau), sau đó sẽ tìm ra các tập phổ biến, các luật kết hợp đối với “Mã Hàng”, ứng với các ngưỡng cho trước, các mã hàng ta này – khóa ngoại của bảng hàng hóa “Product” ta có thể biết được tên mặt hàng. Các mã hàng được lấy thứ tự theo số tự nhiên tăng dần từ 1(lưu ý, hiện tại chương trình chỉ hỗ trợ các mã mặt hàng chỉ lấy theo số tự nhiên, ví dụ : 1,2, 3,…,10,…)
File thứ hai : findFPAssRulesWithFPGrowth.jar là file để chạy chương trình, nhấn đúp chuột trái vào file này, giao diện chương trình xuất hiện và đọc dữ liệu ở file ChitietHD.xls. Xem hình dưới đây:
Hình 7 – Giao diện chương trình lúc khởi tạo
Giữ liệu được đọc lên ở góc trái trên cùng của giao diện, bây giờ để chạy thuât toán, hãy điền các tham số sau :
Min Supp (độ hỗ trợ tối thiểu), có thể nhập một số a sao cho : 0 ≤ a ≤ 1 hoặc 0 ≤ a ≤ 100.
Min Conf (độ tin cậy tối thiểu), có thể nhập một số b sao cho : 0 ≤ b ≤ 1 hoặc 0 ≤ b ≤ 100.
Tiếp theo, click chuột trái vào nút “Chạy”, theo như thông số thiết lập trên mành hình, ta có kết quả như hình dưới đây (kéo thành scroll bar của bảng xuống để xem được nhiều kết quả hơn):
Chương IV> Kết luận & Hướng phát triển đề tài 1/ Kết luận :
Trong vi bài tiểu luận này em đã trình bày được một số điểm như sau:
Về mặt lý thuyết liên quan tới môn học khai phá dữ liệu và kho dữ liệu em đã trình bày một số khái niệm về: khai phá dữ liệu, các phương pháp khai phá dữ liệu,.., thuật toán Apriori để tìm luật kết hợp, phân tích ưu và khuyết điểm của thuật toán, và cũng đồng thời đưa ra một số thuật toán mới để cải tiến cho thuật toán Apriori.
Về mặt ứng dụng cho khai phá dữ liệu, em chọn mục tiêu là đi xây dựng ứng dụng nhắm vào các giao dịch trong siêu thị và hiện thực thuật toán FP-growth để tìm tập mặt hàng phổ biến và các tập luật phổ biến thỏa các điều kiện cho trước(min supp, min conf) trong cơ sở dữ liệu. Để minh họa đơn giản cho việc hiện thực thuật toán FP-grownth em đã xây dựng dữ liệu giả lập trong file Excel và giao diện chương trình để dễ dàng thực hiện.
Qua đây, bài viết đã cho thấy tầm ảnh hưởng quan trọng của việc khai phá dữ liệu trong các lĩnh vực kinh doanh nói chung và các hệ thống siêu thị nói riêng. Bởi vì bên trong kho dữ liệu to lớn ấy luôn tiềm ẩn những tri thức vô cùng quý giá mà chúng ta cần khai thác để tìm ra các quy luật giúp cho việc hỗ trợ nhà đầu tư có thể ra quyết định, hoạch định kinh doanh ngày càng hiệu quả hơn, thông minh hơn (intelligence bussiness). Tuy nhiên trên thực tế vẫn còn rất nhiều những khó khăn và thử thách trong việc ứng dụng và kết hợp các kỹ thuật khai phá dữ liệu lại với nhau. Vì còn tùy thuộc vào cấu trúc của kho dữ liệu mà chúng ta quyết định lựa chọn những phương án phát hiện tri thức mới dựa vào luật kết hợp sao cho phù hợp.
2/ Hướng phát triển đề tài:
Đề tài cần cần tiếp tục phát triển và cần được đưa vào trong môi trường chạy thử nghiệm và chạy thật để có thể đánh giá hết được các vấn đề thực tại nhằm mục tiêu cải tiến chương trình cải tiến thuật toán chạy nhanh hơn hoặc có thể tiếp tục nghiên cứu và áp dụng một thuật toán nào đó chạy nhanh hơn thuật toán FP-grownth… Từ đó giúp cho các nhà quản lý trong các lĩnh vực kinh doanh khác như chứng khoán, bất động sản, y tế, …có thể tự tin sử dụng chương trình.
TƯ LIỆU THAM KHẢO
1/ http://www.lec.dalat.vn
2/ www.vi.wikipedia.org
3/ http://thuhuong.hot4um.com
TÀI LIỆU THAM KHẢO
1/ Đỗ Phúc , Chuyên đề Khai phá dữ liệu và Nhà kho dữ liệu (2004) - Đại học
Quốc Gia Thành Phố Hồ Chí Minh.
2/ Hoàng Kiếm - Đỗ Phúc, Giáo trình khai phá dữ liệu (2005) - Trung tâm
nghiên cứu phát triển công nghệ thông tin, Đại học Quốc gia thành phố Hồ Chí Minh.
3/ Rakesh Agrawal, Ramakrishnan Srikant, Fast Algorithms for Mining
Association Rules.
4/ Christian Borgelt, An Implementation of the FP-growth Algorithm
5/ Christian Borgelt, Comparative Analysis of Various Approaches Used in