Rời rạc các thuộc tính gốc để tạo thành các thuộc tính nhị phân

Một phần của tài liệu Phương pháp luận kết hợp và ứng dụng (Trang 63 - 69)

Hình 4.3.Bảng đăng ký tên thuộc tính rời rạc

Bảng gồm các trường

+ Mã TT gốc: ghi mã thuộc tính gốc

+ Mã TT rời rạc: ghi mã thuộc tính được tách ra (rời rạc) từ thuộc tính gốc.

Một thuộc tính gốc được tách thành n thuộc tính kiểu nhị phân (thuộc tính mà dữ liệu có giá trị 0 hoặc 1).

Ví dụ: thuộc tính gốc là Auttomat thì ta tạo thành ba thuộc tính At1, At2 và At3.

Nếu số lượng Attomat <=2 thì trường At1=1, còn các trường At2, At3 sẽ = 0 Nếu số lượng Attomat >=3 và < 6 thì At2=1, còn At1, At3 sẽ = 0

Nếu số lượng Attomat >=6 thì trường At3=1, còn At1, At2 sẽ =0

Cụ thể, nếu trường Attomat có giá trị là 1, 3, 4 thì trường At1, At2 và At3 có giá trị như hình sau:

Attomat At1 At2 At3

1  1 0 0

3 0 1 0

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 62 Tương tự ta rời rạc cho các trường lưu trữ các thiết bị khác như: rèm cửa, máy tính điều hoà,…

4.4. Cơ sở dữ liệu dạng nhị phân

Sau khi biến đổi bảng dữ liệu gốc chi tiết tên và số lượng các thiết bị của các phòng trong cơ quan thành bảng dữ liệu dạng nhị phân, ta được bảng dữ liệu nhị phân như sau:

Hình 4.4.Bảng cơ sở dữ liệu dạng nhị phân

4.5. Kết quả khai thác luật kết hợp bằng thuật toán Apriori

Với độ hỗ trợ (Min Support) = 0.65, độ tin cậy (Min Confidence) = 0.7 Tổng số giao tác = 18

Tổng số thuộc tính = 35

Tổng số tập phổ biến là 32 tập Tổng số luật là 180 luật

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 63

4.6. Kết quả khai thác cơ sở dữ liệu quản lý thiết bị Trƣờng THPT Chu Văn An – Thái Nguyên

Kết quả khai thác luật kết hợp trên cơ sở dữ liệu thống kê phòng: có 100 giao tác tương ứng với thông ting 100 phòng và có 43 thuộc tính.

Độ hỗ trợ tối thiểu Minsupp

Độ tin cậy tối thiểu Min confidence Thời gian thực hiện Tổng số tập phổ biến Tổng số luật 60 0,7 5 phút 29 giây 63 602 50 0,7 6 phút 12 giây 126 1932

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 64

KẾT LUẬN

Có thể nói rằng, khai phá dữ liệu là một trong những kỹ thuật quan trọng, mang tính thời sự không chỉ đối với Việt Nam mà còn của cả nền CNTT thế giới hiện nay. Sự bùng nổ thông tin, dữ liệu toàn cầu, trên mọi mặt của đời sống xã hội cùng với sự phát triển và ứng dụng ngày càng rộng rãi của công nghệ thông tin trong mọi lĩnh vực đã khiến cho nhu cầu xử lý những khối dữ liệu khổng lồ để kết xuất ra những thông tin, tri thức hữu ích cho người sử dụng một cách tự động, nhanh chóng và chính xác trở thành nhân tố quan trọng hàng đầu cho mọi thành công của các cơ quan, tổ chức và cá nhân trên thế giới. Khai phá dữ liệu đang được áp dụng một cách rộng rãi trong nhiều lĩnh vực kinh doanh và đời sống khác nhau: marketing, tài chính, ngân hàng và bảo hiểm, khoa học, y tế, an ninh, internet… Rất nhiều tổ chức và công ty lớn trên thế giới đã áp dụng kỹ thuật khai phá dữ liệu vào các hoạt động sản xuất kinh doanh của mình và thu được những lợi ích to lớn.

Một trong những phương pháp quan trọng và cơ bản nhất của kỹ thuật khai phá dữ liệu mà đề tài đi sâu tìm hiểu là khai phá luật kết hợp. Mục tiêu của phương pháp này là phát hiện và đưa ra các mối liên hệ giữa các giá trị dữ liệu trong cơ sở dữ liệu. Mẫu đầu ra của giải thuật khai phá dữ liệu là luật kết hợp tìm được. Phương pháp này được sử dụng rất hiệu quả trong các lĩnh vực như maketing có chủ đích, phân tích quyết định, quản lý kinh doanh, phân tích giá thị trường …

Trong khoảng thời gian không dài song đề tài đã tổng kết các kiến thức cơ bản nhất của phương pháp khai phá luật kết hợp. Có thể coi đề tài là một tài liệu tham khảo khá đầy đủ, rõ ràng về các kiến thức cơ bản trong phương pháp phát hiện luật kết hợp. Đồng thời, từ việc tìm hiểu về các kỹ thuật khai phá dữ liệu; các vấn đề liên quan đến khai phá luật kết hợp nhằm phát hiện và đưa ra các mối liên hệ giữa các giá trị dữ liệu trong CSDL đề tài đã áp dụng chúng vào bài toán thử nghiệm quản lý trang thiết bị đồ dùng của trường THPT Chu Văn An – Tỉnh Thái Nguyên dựa trên thuật toán Apriori.

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 65

Hƣớng phát triển của luận văn:

Một trong những công việc quan trọng của khai phá luật kết hợp là tìm tất cả các tập phổ biến trong cơ sở dữ liệu, nên trong thời gian tới luận văn sẽ mở rộng nghiên cứu theo hướng: ứng dụng thuật toán song song áp dụng cho bài toán khai phá luật kết hợp mờ, là luật kết hợp trên các tập thuộc tính mờ.

Thuật toán song song chia đều cơ sở dữ liệu và tập ứng viên cho các bộ vi xử lý và các tập ứng viên sau khi chia cho từng bộ sử lý là hoàn toàn độc lập với nhau mục đích cải thiện chi phí tìm luật kết hợp mờ và thời gian hoá dữ liệu.

Tiếp tục hoàn thiện hệ thống quản lý trang thiết bị và có thể ứng dụng thêm vào trong các lĩnh vực khác như đào tạo, ngân hàng, siêu thị.

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 66

TÀI LIỆU THAM KHẢO

[1] Lê Hoài Bắc (2002), Bài giảng về khám phá tri thức và khai thác dữ liệu – tìm luật kết hợp theo mục đích người dùng, Đại học Quốc gia TP. Hồ Chí Minh. [2] Đỗ Phúc (2002), Nghiên cứu và phát triển một số thuật giải, mô hình ứng dụng

khai thác dữ liệu (data mining). Luận án tiến sĩ toán học, Đại học Quốc gia TP. Hồ Chí Minh.

[3] Rakesh Agrawal, Tomasz Imielinski, and Arun Swami (1993), “Mining association rules between sets of items in large database”, In proc of the ACM SIGMOD Conference on Management of Data, Washington, D.C.

[4] Rakesh Agrawal, Ramakrishnan Srikant (1996), “Mining Quantilative Association in Large Rilation Table”, In proc of the ACM SIGMOD Conference on Management of Data, Montreal, Canada.

[5] Usama M.Fayyad, Gregory Piatetsky-Shapiro (1996), Advances in knowledge discovery and data mining, AAAI press/the MIT press.

[6] Krzystof J.Cios, and Witold Perdrycz and Roman W.Swiniarski (1998), Data Mining Methods for Knowledge Discovery, Kluwer Acsdemic Publicshers, Boston/Dordrecht/London.

[7] R. Agrawal and R. Srikant (1994). Fast algorithms for mining association rules.

The International Conference on Very Large Databases, pages 487–499.

[8] D.Phuc, H. Kiem (2000), Discovering the binary and fuzzy association rules from database, In proc of Int’l ConfAfss2000, Tsukuba, Japan, pp 981-986. [9] R. Agrawal and R. Srikant (1995). Mining sequential patterns. In P. S. Yu and

A. L. P. Chen, editors, Proc. 11th Int. Conf. Data Engineering, ICDE.

[10] N. F.Ayan, A. U. Tansel, and M. E. Arkun (1999). An efficient algorithm to update large itemsets with early pruning. In Knowledge Discovery and Data Mining.

[11] John Wang (Idea Group Publishing) (2003). Data Mining: Opportunities and Challenges .

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 67

[12] Jiawei Han and Micheline Kamber 2002, Data Mining: Concepts and Techniques, University of Illinois, Morgan Kaufmann Publishers.

[13] N Pqaquier et al (1999), Discovering frequent closed item sets for association rules, In proc of the 7th intl conference ICDT’99, pp 398-410, Israel.

[14] Osmar R.Zaiane, Mohammad EI-Haij, and PaulLu (200), Fast paralled Association Rule Mining without Cadidacy Generation, University of Alberta, Edmonton, Alberta, Canada.

Một phần của tài liệu Phương pháp luận kết hợp và ứng dụng (Trang 63 - 69)

Tải bản đầy đủ (PDF)

(69 trang)