Phát hiện luật kết hợp nhiều chiều mờ từ CSDL nhiều chiều mờ loại

Một phần của tài liệu Phát hiện luật kết hợp nhiều chiều mờ từ cơ sở dữ liệu định lượng (Trang 98)

Thuật toán phát hiện luật kết hợp tác vụ nhiều chiều mờ được chia làm 5 giai

đoạn:

Giai đoạn 1: Chuyển đổi mẫu

Giai đoạn 2: Chuyển đổi CSDL tác vụ nhiều chiều định lượng thành CSDL tác vụ nhiều chiều mờ

Giai đoạn 3: Tìm các ứng cử viên

Giai đoạn 4: Tìm tập phổ biến: tìm tất cả các tập mục dữ liệu chuẩn phổ biến có độ hỗ trợ lớn hơn độ hỗ trợ cực tiểu của người dùng nhập vào: supp(X)≥minsupp

Giai đoạn 5: Sinh ra các luật thoả mãn

Việc phát hiện luật kết hợp tác vụ nhiều chiều mờ giống với phát hiện luật kết hợp tác vụ nhiều chiều nhị phân đã giải quyết ở chương 2.

Kết luận

Mục đích của chương 3 là trình bày một số kết quả nghiên cứu ban đầu liên quan đến vấn đề phát hiện luật kết hợp từ CSDL nhiều chiều định lượng.

Nguyên tắc thực hiện là: áp dụng lý thuyết tập mờ để chuyển CSDL nhiều chiều định lượng về CSDL nhiều chiều mờ và xây dựng thuật toán phát hiện luật kết hợp từ CSDL nhiều chiều mờ trên cơ sở cải tiến thuật toán mới được công bố gần đây- phát hiện luật kết hợp từ CSDL tác vụ nhiều chiều nhị phân (các thuộc tính chiều nhận giá trị nhị phân hoặc số với tập giá trị có số lượng nhỏ; mục dữ liệu nhận giá trị nhị phân).

Vấn đề phát hiện luật kết hợp từ CSDL tác vụ nhiều chiều nhị phân đã rất phức tạp. Vì thế chắc chắn việc phát hiện luật kết hợp từ CSDL nhiều chiều

định lượng còn phức tạp hơn nhiều. Để giải quyết vấn đềđặt ra, trong chương

đã phân loại CSDL nhiều chiều, cụ thểđã đề xuất 4 loại:

Loại 1: CSDL nhiều chiều có các thuộc tính chiều nhận giá trị số (hay phân loại) nhưng tập giá trị có số lượng nhỏ; các mục dữ liệu nhận giá trị nhị

phân.

Loại 2: CSDL nhiều chiều có các thuộc tính chiều nhận giá trị nhị phân hoặc số (hay phân loại) nhưng tập giá trị có số lượng nhỏ; các mục dữ liệu nhận giá trị số (hay phân loại).

Loại 3: CSDL nhiều chiều có các thuộc tính chiều nhận giá trị số (hay phân loại) với tập giá trị có số lượng lớn; các mục dữ liệu nhận giá trị nhị

phân.

Loại 4: CSDL nhiều chiều có các thuộc tính chiều nhận giá trị số (hay phân loại) với tập giá trị có số lượng lớn; các mục dữ liệu nhận giá trị số (hay phân loại).

Vấn đề phát hiện luật kết hợp từ CSDL nhiều chiều loại 1(CSDL tác vụ

nhiều chiều nhị phân) đã được trình bày ở chương 2 [18]. Trong chương đã đề

xuất kỹ thuật chuyển CSDL nhiều chiều loại 2, 3 về CSDL mờ cùng loại. Cụ

Việc chuyển CSDL nhiều chiều loại 2 về CSDL nhiều chiều mờ đã

được áp dụng kỹ thuật được đề xuất trong các bài báo [1,8,16], nó chỉ áp dụng trên các mục dữ liệu.

Việc chuyển CSDL nhiều chiều loại 3 về CSDL nhiều chiều mờ đã

được áp dụng kỹ thuật mới được công bố gần đây trong bài báo[7], và được áp dụng trên các thuộc tính chiều.

Trong chương cũng đề xuất các khái niệm liên quan: CSDL nhiều chiều mờ

loại 2, CSDL nhiều chiều mờ loại 3, mục dữ liệu mờ mở rộng, tác vụ mờ mở

rộng, ngữ cảnh nhiều chiều mờ...trên cơ sở phát triển các khái niệm cùng loại trong chương 2. Các khái niệm độ đo: độ tin cậy, độ hỗ trợ đã được đề xuất trong mỗi trường hợp.

Thuật toán phát hiện luật kết hợp mờ từ CSDL định lượng loại 2 và 3 đã

được đề xuất ở cuối chương. Để phát hiện luật kết hợp mờ gồm 5 giai đoạn: chuyển đổi mẫu, chuyển đổi CSDL cũ thành CSDL mới, tìm các tập ứng viên, tìm tập mục dữ liệu phổ biến và tìm các luật thoả mãn yêu cầu.

KẾT LUẬN

Phát hiện luật kết hợp một lĩnh vực được phát triển mạnh mẽ trong những năm gần đây trên thế giới. Ở nước ta, đây là lĩnh vực mới đã được nhiều người quan tâm nghiên cứu, ứng dụng và phát triển khá mạnh mẽ trong vài năm gần đây.

Chương 1 của luận văn đã trình bày những khái niệm cơ bản về kho dữ

liệu (DW), đặc điểm dữ liệu trong kho dữ liệu và mô hình của nó. Mô hình của kho dữ liệu chủ yếu là CSDL nhiều chiều

Trong chương 2 đã trình bày một số kiến thức cơ bản về luật kết hợp như: khái niệm luật kết hợp, độ đo độ hỗ trợ, độ tin cậy của luật. Chương này tập trung chủ yếu vào trình bày vấn đề phát hiện luật kết hợp tác vụ nhiều chiều nhị phân. Cụ thể, các khái niệm về CSDL tác vụ nhiều chiều nhị phân: mục dữ liệu mở rộng, tác vụ mở rộng, tập mục dữ liệu mở rộng chuẩn... Thuật toán gồm 4 giai đoạn: chuyển đổi mẫu, tìm tập các ứng cử viên, tìm tập mục dữ

liệu phổ biến, sinh ra luật kết hợp thoả mãn.

Chương 3 là chương chủ yếu trình bày một số đề xuất nghiên cứu về vấn

đề phát hiện luật kết hợp từ CSDL nhiều chiều loại 2 và loại 3.

Vấn đề phát hiện CSDL nhiều chiều loại 4 (CSDL nhiều chiều có các thuộc tính chiều nhận giá trị số (hay phân loại) với tập giá trị có số lượng lớn; các mục dữ liệu nhận giá trị số (hay phân loại)) sẽ được tác giả nghiên cứu tiếp theo và hoàn toàn khả thi khi giải quyết trọn vẹn vấn đề như vậy với các CSDL loại 2 và 3. Cài đặt chương trình cụ thể để mô phỏng các thuật toán trên máy tính cũng chưa được đề xuất, mà nguyên nhân chủ yếu là do điều kiện thời gian cũng như sự phức tạp của vấn đề. Nếu có một chương trình cài

vấn đề một cách hiệu quả từ CSDL nhiều chiều sẵn có. Nhưng có thể hoàn toàn tin cậy vào thuật toán đề xuất vì nó được phát triển thuật toán đã được kiểm nghiệm và hoàn toàn chứng minh được sựđúng đắn của nó.

TÀI LIỆU THAM KHẢO

Tiếng Việt

[1] Đỗ Văn Thành (2005), Phát hiện luật kết hợp mờ từ CSDL định lượng có

độ hỗ trợ cực tiểu không giống nhau, nhận đăng trong “Tạp chí tin học” . [2] Đỗ Văn Thành (2004), Phát hiện luật kết hợp với độ hỗ trợ không giống

nhau, Tạp chí Khoa học và Công nghệ, N1.

[3] Đoàn Văn Ban (1997), Phương pháp thiết kế và khai thác kho dữ liệu, báo cáo đề tài TT96/97-04, Viện Công Nghệ Thông Tin.

[4] Tài liệu về “Data Warehouse” của Viện Công Nghệ Thông Tin, 1997

Tiếng Anh

[5] Agrawal,R T.Imielinski, and A.Swami, “Mining association rules between sets of items in large databases”. Proceedings of the ACM SIGMOD Int’l

Conference on Management of Data, page 207-216, may 1993.

[6] Agrawal R, Srikant R, “Fast algorithm for mining association rules in large databases”. In:Bocca JB, Jarke M, Zaniolo C, editors. Proc 20th VLDB Conf. San Francisco, CA: MorganKaufmann; 1994. pp 487– 499.

[7] Attila Gyenesei, Jukka Teuhola, “Multidimensional Fuzzy Partitioning of Attribute Ranges for Mining Quantitative Data” INTERNATIONAL JOURNAL OF INTELLIGENT SYSTEMS, VOL. 19, 1111–1126 (2004)

[8] Attila Gyenesei, “A Fuzzy Aproach for Mining Quantitative Association Rules”. Turku Centre for Computer Sciences, TUCS Technical Report, No 336, 2000.

[9] Baralis E, Psaila G (1997), “Designing templates for mining association rules” J Intell Inf Syst 9 (1):7–32

[10] Chun Hing Cai, “Mining Association Rules with Weighted Items”, Thesis, Chinese University of HongKong, 8/1998.

[11] Fayyad U.M, Platstsky-Shapiro G, Smyth P., and Uthurusamy,” From Data Mining to Knowledge Discovery”. Advances in Knowledge discovery

and DataMining, , edited by the same authors, AAAI Press/The MIT

Press,1996, pp. 1-34.

[12] Fukuda T, Morimoto Y, Morishita S, Tokuyama T (1996), “Data mining using two-dimensional optimized association rules: schema, algorithms, and visualization”, In: Proc.ACMSIGMOD International Conference on

Management of Data, pp 13–23,Montreal, Canada

[13] Han J., Kamber M, “Data mining: Concepts and Techniques”, Morgan Kaufman Publishers, 2001, 550 pages.

[14] Ke Wang, Yu He, Jiwei Han, “Mining Frequent Itemset Using Support Constraints”. Proceedings of the 26th VLDB Conference,Cairo,Egypt, 2000.

[15] Ke Wang, Yu He, Jiwei Han, “Pushing support constraints into frequent itemset mining”. School of Computing, National Univer. Of Singapore, 2000. [16]. Kuok CM, Fu A, Wong MH, “Fuzzy association rules in databases”, ACM SIGMOD Rec1998;27:41– 46.

[17] Kuod. M, Ada. P, “Mining Fuzzy Association Rules”, In SIGMOD Record, 27(1), 1998.

[18] Ling Feng, Jeffrey Xu Yu, Hongjun Lu, Jiawei Han, “A template model for multidimensional inter-transactional association rules”,2002

[19] Miller RJ,YangY(1997), “Association rules over interval data”, In: Proc.ACMSIGMOD International Conference on Management of Data, pp 452–461, Tucson, Ariz., USA

[20] Srikant R, Agrawal R,”Mining quantitative association rules in large relation tables”. In:Widom J, editor. Proc ACM SIGMOD. New York: ACM Press; 1996. pp 1–12.

Một phần của tài liệu Phát hiện luật kết hợp nhiều chiều mờ từ cơ sở dữ liệu định lượng (Trang 98)

Tải bản đầy đủ (PDF)

(104 trang)