Kết quả lọc MinCon = 40% - khai phá dữ liệu bằng l- 123docz.net

Hình 3.13. Kết quả lọc độ tin cậy

* Kết luận chuơng III:

Cài đặt bằng thuật toán Apriori áp dụng trong quản lý bán hàng tại thị siêu. Dựa vào kết quả này mà người quản lý biết được những nhóm mặt hàng nào liên quan tới nhau, phục vụ cho mục đích quản lý và lựa chọn các mặt hàng để kinh doanh.

KẾT LUẬN CHUNG

Trong quá trình hoàn thành đồ án này, dù đã đạt được những kiến thức nhất định, nhưng chúng em nhận thấy Khai phá dữ liệu nói chung và khai phá luật kết hợp nói riêng là một lĩnh vực nghiên cứu rộng lớn, nhiều triển vọng. Đề tài đã trình bày được các vấn đề cơ bản về khai phá dữ liệu: Tầm quan trọng của KPDL, các hướng tiếp cận khai phá dữ liệu và các kỹ thuật khai phá dữ liệu. Khai phá dữ liệu sử dụng luật kết hợp và một số thuật toán tìm tập mục thường xuyên theo hướng sinh ứng cử và không sinh ứng cử. Phần cài đặt chương trình đã cài đặt được thuật toán khai phá dữ liệu Apriori.

Tuy nhiên, do những hạn chế về tài liệu và thời gian nên chưa hoàn thành được việc cài đặt thuật toán khai phá luật kết hợp, trong thời gian tiếp theo chúng em sẽ cố gằng hoàn thành phần cài đặt này để đề tài được hoàn thiện hơn.

Chương I: Đã trình bày tổng quan về khai phá dữ liệu (Data Minning); Các loại tri thức tiềm ẩn trong cơ sở dữ liệu, các kỹ thuật khai thác dữ liệu.

Chương II: Đã trình bày tổng quan về khai thác luật kết hợp, nêu ra những khái niệm, định nghĩa, tính chất của tập mục và luật kết hợp, cách xác định độ hỗ trợ của tập mục và luật, độ tin cậy của luật.

Đưa ra các mô hình bài toán khai thác luật kết hợp, nó là tiền để để các thuật toán dựa vào đó phát triển và có những đánh giá so sánh giữa các thuật toán.

Chương II: Cũng trình bày về các thuật toán khai thác luật kết hợp, thuật toán nổi tiếng là Apriori, thuật toán tìm luật kết hợp không phát sinh ứng viên dựa vào cấu trúc cây FP- Tree,…

Chương III: Trình bày về cách cài đặt chương trình khai thác luật kết hợp trong việc quản lý bán hàng tại thị siêu. Dựa vào kết quả này mà người quản lý nắm bắt được những nhóm mặt hàng nào liên quan tới nhau, phục vụ cho mục đích quản lý, lựa chọn các mặt hàng để kinh doanh.

HƯỚNG PHÁT TRIỂN ĐỀ TÀI

Một trong những công việc quan trọng của khai phá luật kết hợp là tìm tất cả các tập phổ biến trong cơ sở dữ liệu, nên trong thời gian tới chúng em sẽ phát triển đề tài rộng ra theo hướng: Ứng dụng thuật toán song song áp dụng cho bài toán khai phá luật kết hợp mờ, là luật kết hợp trong các tập thuộc tính mờ.

Thuật toán song song chia đều cơ sở dữ liệu và tập ứng viên cho các bộ vi sử lý, và các tập ứng viên sau khi chia cho từng bộ xử lý là hoàn toàn độc lập với nhau mục đich cải thiện chi phí tìm luật kết hợp mờ và thời gian mã hoá dữ liệu.

Do nhược điểm của thuật toán Apriori là nếu dữ liệu lớn thì sự phân tích sẽ mất rất nhiều thời gian vì vậy để khắc phục được nhược điểm đó thì chúng ta cần sử dụng thêm một số thuật toán khác ví dụ như thuật toán FP_Growth, thuật toán song song,..

Tiếp tục hoàn thiện hệ thống Quản lý bán hàng tại siêu thị và có thể ứng dụng thêm vào các lĩnh vực khác như bán hàng tại các siêu thị, bán máy tính,..

Khi mà lượng dữ liệu thu thập và lưu trữ ngày càng tăng, cùng với nhu cầu nắm bắt thông tin, thì nhiệm vụ đặt ra cho Khai phá dữ liệu ngày càng quan trọng. Sự áp dụng được vào nhiểu lĩnh vực kinh tế xã hội, an ninh quốc phòng cũng là một ưu thế của khai phá dữ liệu. Với những mong muốn đó chúng em hy vọng sẽ dần đưa những kiến thức đã có từ đề tài này sớm trở thành thực tế, phục vụ cho cuộc sống con người chúng ta.

TÀI LIỆU THAM KHẢO

[1]. R. Agrawal, H. Mannila, R. Srikant, H. Toivonen, and A. I.Verkamo. Fast discovery of association rules. In Advances in Knowledge Discovery and Data Mining, pages 307–328,1996.

[2]. R. Agrawal and R. Srikant. Fast algorithms for mining associationrules. The International Conference on Very LargeDatabases, pages 487–499, 1994.

[3]. R. Agrawal and R. Srikant. Mining sequential patterns. InP. S. Yu and A. L. P. Chen, editors, Proc. 11th Int. Conf. DataEngineering, ICDE, pages 3–14. IEEE Press, 6–10 1995.

[4]. N. F.Ayan, A. U. Tansel, and M. E. Arkun. An efficient algorithm to update large itemsets with early pruning. In KnowledgeDiscovery and Data Mining, pages 287–291, 1999.

[5].TS Đỗ Phúc, Khai thác dữ liệu, Nhà xuất bản Đại Học Quốc Gia TP HCM 2005. [6].Phạm Hữu Khang, Kỹ thuật lập trình C#.Net, Nhà xuất bản Lao Động- Xã Hội. [7].Từng bước học lập trình Visual C#.Net, Nhà xuất bản Lao Động- Xã Hội.

[8]. Giáo trình trí tuệ nhân tạo - cầu trúc dữ liệu - giải thuật di truyền, Nhà xuất bản Lao Động- Xã Hội.

[9]. http://www.cs.uh.edu/~ceick/6340/grue-assoc.pdf, truy cập cuối cùng ngày

20/03/2009.

[10].http://www.vnulib.edu.vn:8000/dspace/bitstream/123456789/1811/1/sedev020

6-03.pdf, truy cập cuối cùng ngày 22/03/2009.

[11].http://gralib.hcmuns.edu.vn/gsdl/collect/hnkhbk/index/assoc/HASH0107.dir/do

c.pdf, truy cập cuối cùng ngày 20-03-2009.

[12].http://www.tapchibcvt.gov.vn/News/PrintView.aspx?ID=15671, truy cập cuối

cùng ngày 22-03-2009.

[13].http://www.uit.edu.vn/forum/index.php?act=Attach&type=post&id=50641,

BẢNG ĐỐI CHIẾU THUẬT NGỮ VIỆT - ANH

Tiếng Anh Tiếng Việt

Data Mining Khai phá dữ liệu

Data Dữ liệu

Knowledge Discovery in Database-KDD Phát hiện tri thức trong cơ sở dữ liệu

Target Mục đích, mục tiêu.

Clearsed Preprocessed Prepadated Làm sạch - Tiền xử lý - Chuẩn bị trước

Transform Chuyển đổi

Pattern Discovery Khám phá mô hình

Knowlege Tri thức

Clustering Phân cụm

Summerization Tóm tắt

Visualiztion Trực quan hoá

Evolution and deviation analyst Phân tích sự phát triển và độ lệch

Association rules Phân tích luật kết hợp

Classification Phân lớp

Regression Hồi quy

Clustering Gom nhóm

Summarization Tổng hợp

Dependency modeling Mô hình ràng buộc

Change and Deviation Dectection Dò tìm biến đổi và độ lệch

Hồi qui Regression

Cross validation Đánh giá chéo

Support Phổ biến

Minimum Support Độ phổ biến tối thiểu

Confidence Độ tin cây

Minimum Confidence Độ tin cây tối thiểu

Itemset Hạng mục

Procedure Thủ tục

Code Mã, cốt

Input Đầu vào

Transasction Giao dịch

Transaction Identification Giao dịch định danh

Frenquent-Itemset Tập mục phổ biến

Frequent Patern Mô hình phổ biến

Conditional Pattern Bases Cơ sở mẫu điều kiện

Conditional FP tree Cây FP điều kiện