Màn hình kết quả khai phá dữ liệu dạng Text

Một phần của tài liệu (LUẬN VĂN THẠC SĨ) Một số phương pháp khai phá dữ liệu sinh luật kết hợp Luận văn ThS Công nghệ thông tin 1.01.10 (Trang 78 - 83)

4.3. Cài đặt và Đánh giá

Chương trình được viết trên nền ngôn ngữ lập trình C#.Net là ngôn ngữ lập trình hướng đối tượng và cũng hướng thành phần hiện đại nhất hiện nay của Microsoft. Chi tiết mã nguồn (Source code) được trình bày trong phụ lục đính kèm.

Giao diện được thiết kế đẹp mắt, hiệu quả trong nhập liệu (hỗ trợ cả nhập liệu dạng văn bản (Text) và dạng lưới (Grid)) và đơn giản trong việc lấy kết quả đầu ra – hãy xem giới thiệu chương trình ở trên. Thời gian chạy thực tế khá nhanh (xử lý 10,000 bản ghi đơn hàng trong khoảng 1 giây trên máy Pentium IV 2.67 GHz 512MB RAM khi áp dụng cả 2 giải thuật Apriori và FP-Growth với minsup = 0.01).

Chương trình cho phép khai phá dữ liệu thực tế, cụ thể ở đây là dữ liệu đơn hàng thực tế tại một công ty tin học. Chương trình hoàn toàn có thể áp dụng trực tiếp khai phá các cơ sở dữ liệu khác như điều tra dân số, chẩn đoán bệnh, nhận dạng nấm, ...

Tuy nhiên trong tương lai, cần cải tiến để chương trình có thể khai phá luật kết hợp định lượng, luật kết hợp mờ và các CSDL có kích thước cực lớn.

KẾT LUẬN

Khai phá dữ liệu là một lĩnh vực còn tương đối mới, nó bao gồm nhiều lĩnh vực và nhiều kỹ thuật khác nhau trong đó khai phá luật kết hợp hiện đang là mục tiêu quan trọng nhất của lĩnh vực khai phá dữ liệu [002]. Trên tinh thần như vậy tôi đã cố gắng trình bày đầy đủ các vấn đề và phương pháp cơ bản nhất của khai phá dữ liệu, trong đó đặc biệt trình bày chi tiết, làm rõ vấn đề khai phá luật kết hợp và các thuật toán từ kinh điển như Apriori tới các thuật toán hiện đại và hiệu quả như FP-Growth, Charm và Closet. Việc đánh giá độ phức tạp của các thuật toán khai phá luật kết hợp và so sánh chúng với nhau về mặt lý thuyết là một việc khó, tuy nhiên trong trường hợp tổng quát nhất thì bài toán khai phá luật kết hợp có thể quy về bài toán Clique hai phía, tức là trong trường hợp tổng quát nhất thì ta phải chấp nhận giải một bài toán NP-Complete [112]. Tuy nhiên, trong thực tế do CSDL là thưa, các mẫu phổ biến thường ngắn, do vậy các thuật toán khai phá thường có độ phức tạp đa thức với kích thước của dữ liệu mà thôi.

Cụ thể hơn:

Chương 1: Tổng quan về Khai phá dữ liệu

Trình bày những nét khái quát nhất từ khái niệm cho tới các bước của quá trình KPDL. Sơ lược các hướng tiếp cận như: Phân lớp và Dự đoán, Khai phá luật kết hợp, Phân cụm, ... và các phương pháp như: Suy diễn, Quy nạp, Cây quyết định, Phát hiện luật kết hợp, Phân nhóm, Mạng Nơron, Giải thuật di truyền, .... Và cuối cùng là nêu một số ứng dụng trong thực tiễn của KPDL.

Chương 2: Một số vấn đề cơ bản về Luật kết hợp

Trình bày các vấn đề chung, cơ bản nhất về luật kết hợp như các định nghĩa và tính chất cho tới các loại luật kết hợp cho tới hướng tiếp cận tương ứng và các vấn đề liên quan.

Chương 3: Một số phương pháp khai phá dữ liệu sinh luật kết hợp

Trình bày chi tiết các giải thuật khai phá luật kết hợp thông thường như Apriori và FP- Growth cho tới các giải thuật khai phá luật kết hợp đóng như Charm và Closet. Các giải thuật này lần lượt đại diện cho 2 hướng tiếp cận: hướng Sinh ứng cử - kiểm tra (Apriori, Charm) và hướng Không sinh ứng cử (FP - Growth, Closet). Mỗi thuật toán đều được trình bày chi tiết từ ý tưởng, chi tiết thuật toán cho tới minh hoạ và tổng kết các ưu nhược điểm riêng.

Chương 4: Xây dựng ứng dụng minh hoạ

Xây dựng ứng dụng triển khai các giải thuật được trình bày trong Chương 3, gồm đầy đủ các giải thuật: Apriori, FP-Growth, Charm, Closet trên CSDL đơn hàng thực tế và so sánh giữa chúng.

Hướng phát triển tiếp theo của luận văn:

+ Nghiên cứu, đánh giá và bổ sung các giải thuật mới hoặc các giải thuật cải tiến như Mafia, Closet+, Charm-L ....

+ Nghiên cứu và bổ sung chi tiết khai phá luật kết hợp đa mức, luật kết hợp định lượng và luật kết hợp mờ.

+ Ứng dụng kết quả nghiên cứu vào thực tiễn như ngân hàng, thị trường chứng khoán, bệnh viện, ....

Danh sách tài liệu tham khảo tiếng Việt

[001] Nguyễn Huy Đức (2003), Một số vấn đề khai phá dữ liệu, Luận văn thạc sĩ CNTT, Đại học Quốc gia Hà Nội.

[002] Hoàng Kiếm (4/2005), Giải một bài toán trên máy tính như thế nào, Tập 3 (tái bản lần thứ nhất). NXB Giáo dục.

[003] Nguyễn Hùng Sơn (2006), Bài giảng Tập thô và Khai phá dữ liệu.

[004] Vũ Đức Thi, Lê Hải Khôi (1999), Một số nguyên lý hoạt động của kho dữ liệu. [005] Vũ Đức Thi (1997), Cơ sở dữ liệu – Kiến thức và thực hành. NXB Thống Kê. [006] Nguyễn Thanh Thuỷ (8/2001), Bài giảng Khai phá dữ liệu - Kỹ thuật và ứng dụng.

Danh sách tài liệu tham khảo tiếng Anh

[101] R.Agrwal, R.Srikant (1994), Fast Algorithms for Mining Association Rules. [102] Y.Bastide, R.Taouil, N.Pasquier, G.Stumme, and L.Lakhal (12/2000), Mining

frequent patterns with counting inference. SIGKDD Exploration, 2(2).

[103] D.Burdick, M.Calimlim, and J.Gehrke (4/2001), Mafia: a maximal frequent itemset algorithm for transactional databases. In Intl. Conf. on Data Engineering.

[104] A.Gyensei (2000), A fuzzy approach for mining quantitive association rules. Turku centre for computer science, TUCS technical reports, No 336.

[105] J.Han and M.Kamber (2001), Data Mining: Concepts and Techniques, Hacours Science and Technology Company, USA.

[106] J.Han, J.Pei, and Y.Yin (5/2000), Mining frequent patterns without candidate generation. In Proc. 2000 ACM-SIGMOD Int. Conf. Management of Data (SIGMOD’00), Dallas, TX.

[107] J.Han, J.Pei, and R.Mao (5/2000), Closet: An efficient algorithm for mining frequent closed itemsets. In SIGMOD Intl Workshop on Data Mining and Knowledge

Discovery.

[108] N.Pasquier, Y.Bastide, R.Taouil, and L.Lakhal (1/1999), Discovering frequent closed itemsets for association rules. In 7th Intl. Conf. on Database Theory.

[109] J.Wiley & Sons (2003), Data Mining: Concepts, Models, Methods and Algorithms. [110] M.J.Zaki and C.Hsiao (1999), Charm: An efficient algorithm for closed association

rule mining. In Technical Report, Computer Science, Rensselaer Polytechnic Institute.

[111] M.J.Zaki and C.Hsiao (4/2005), Charm and Charm-L: Efficient algorithm for mining closed itemsets and their lattice structure. IEEE transactions on knowledge and data engineering, vol. 17, no. 4.

[112] M.J.Zaki and M.Ogihara (6/1998), Theoretical Foundations of Association Rules. In 3rd ACM SIGMOD Workshop on Research Issues in Data mining and Knowledge Discovery.

Danh sách WebSites tham khảo

[L01] http://en.wikipedia.org/wiki/Data_mining [L02] http://en.wikipedia.org/wiki/Association_rule_mining [L03] http://citeseer.ist.psu.edu/ [L04] http://citeseer.ist.psu.edu/agrawal93mining.html [L05] http://citeseer.ist.psu.edu/han99mining.html [L06] http://citeseer.ist.psu.edu/zaki02charm.html [L07] http://citeseer.ist.psu.edu/pei00closet.html [L08] http://citeseer.ist.psu.edu/zaki98theoretical.html [L09] http://citeseer.ist.psu.edu/goil99mafia.html [L10] http://www.cs.sfu.ca/ [L11] http://www.cs.sfu.ca/~jpei/publications/closed-gradient-tkde.pdf [L12] http://www.cs.sfu.ca/CC/741/jpei/slides/freqpat05.pdf [L13] http://fuzzy.cs.uni-magdeburg.de/ [L14] http://fuzzy.cs.uni-magdeburg.de/wiki/pmwiki.php [L15] http://www.comp.nus.edu.sg/~atung/publication/ [L16] http://www.oracle.com/technology/products/bi/odm/ [L17] http://ieeexplore.ieee.org/iel5/8907/28247/01264439.pdf [L18] http://ieeexplore.ieee.org/iel5/9681/30565/01410311.pdf Phụ lục (Mã nguồn chương trình)

Một phần của tài liệu (LUẬN VĂN THẠC SĨ) Một số phương pháp khai phá dữ liệu sinh luật kết hợp Luận văn ThS Công nghệ thông tin 1.01.10 (Trang 78 - 83)

Tải bản đầy đủ (PDF)

(83 trang)