KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂ N

Trong quá trình thực hiện luận văn có tìm hiểu một số vấn đề cần thiết như: học không giám sát cụ thể là tìm hiểu nhóm thuật toán gom cụm k-means, tìm hiểu các bài toán về khai thác luật kết hợp, tìm hiểu kiến thức cơ bản tập thô để phục vụ cho việc phân hoạch tìm tập cầu, phân tích một sốđộđo để xác định luật bắc cầu nào là luật bắc cầu thú vị. Bên cạnh đó, luận văn cũng đã cài đặt được demo để tìm các tập cầu từ cơ sở

dữ liệu, đồng thời có thể so sánh được về tỷ lệ với luật kết hợp truyền thống và xác

định được các luật bắc cầu thú vị chính là những biệt lệ lý thú giữa 2 nhóm dữ liệu hoàn toàn khác nhau. Trong đó phân tích các độ đo là một trong những vấn đề không thể thiếu để xác định ngưỡng làm cơ sở tìm luật bắc cầu thú vị.

Phân tích các độđo tương tự:

Có nhiều công thức tính độ tương tự giữa các tập đối tượng khác nhau. Trong luận văn này tác giả sử dụng 2 phương pháp để đo độ tương tự: (1) đếm số thuộc tính giống nhau giữa các tập mục (item); (2) dùng khoảng cách Euclide. Vì cơ sở dữ liệu khai thác đã được chuẩn hóa sao cho mọi thuộc tính đều có giá trị khoảng nên việc sử dụng hai phương pháp đo trên là hợp lý. Tuy nhiên, mỗi phương pháp có những hạn chế

riêng. Ta biết luật bắc cầu là luật X → Y, trong đó X và Y là tập các item thuộc về hai lớp khái niệm khác nhau. Do đó, phương pháp đo (1) sẽ gặp khó khăn nếu ít nhất một trong hai tập X, Y có hơn một item. Nó chỉ hiệu quả khi X và Y chỉ có một item. Trong khi phương pháp (2) có thể giải quyết cho mọi trường hợp của X và Y. Tuy nhiên, thời gian tính toán sẽ tăng lên khá nhiều nếu cơ sở dữ liệu có nhiều thuộc tính.

Độ tương tự giữa X và Y thể hiện tính thú vị của luật bắc cầu X → Y. Đối với phương pháp (1), nếu độ tương tự càng nhỏ thì luật bắc cầu càng thú vị. Nhưng nếu dùng (2) thì ngược lại, nghĩa là, nếu khoảng cách giữa X và Y càng lớn thì luật bắc cầu X → Y càng thú vị hơn.

Phân tích các độđo độ thú vị:

Entropy là độđo mức độ không chắc chắn của biến ngẫu nhiên còn thông tin tương hỗ

giữa hai biến ngẫu nhiên X, Y là độđo cho ta biết biến ngẫu nhiên này chứa bao nhiêu thông tin về biến ngẫu nhiên khác. Do đó, để tìm mối quan hệ giữa các lớp khái niệm với nhau chúng ta có thể sử dụng 2 độ đo trên. Tuy nhiên, do độ đo tương tự, độ đo entropy và thông tin tương hỗ có tính chất đối xứng nên tính thú vị của hai luật kết hợp X → Y và Y → X là như nhau. Điều này không sát với thực tế. Do đó, luận văn đã nghiên cứu thêm về các độđo và đề xuất sử dụng thêm độ quan trọng (importance). Khai thác luật bắc cầu thú vị là một hướng nghiên cứu mới, vì vậy luận văn chỉ dừng lại ở mức độ khai thác tất cả các luật bắc cầu thú vị trên tập cơ sở dữ liệu giao tác. Tuy

nhiên luận văn cũng đã phát hiện ra đây là một hướng còn có thể phát triển được về

mặt lý thuyết cũng như cài đặt các ứng dụng hữu ích cho nhiều lĩnh vực. Luận văn sẽ

nghiên cứu thêm về các độđo để tìm độđo hợp lý hơn cho từng loại bài toán.

Ngoài ra, luật bắc cầu thú vị trong một số bài toán có thể sinh ra rất nhiều nên cần tìm các luật quan trọng nhất trong các luật thú vị đó. Dựa vào khái niệm tập phổ biến đóng

để tìm các luật kết hợp không dư thừa. Luận văn có thể phát triển theo hướng tìm luật thú vị không dư thừa dựa trên tập phổ biến đóng. Phương pháp tìm luật thú vị không dư thừa có thểđược đề nghị như sau:

Bước 1: Xác định tập cầu

Bước 2: Xác định tập phổ biến đóng trên phạm vi tập cầu

Bước 3: Tìm các luật thỏa tính chất bắc cầu từ tập phổ biến đóng Bước 4: Xác định luật thú vị dựa trên độ tương tự và độ thú vị.

Trước đây, các thuật toán tìm luật kết hợp thường làm việc trên cơ sở dữ liệu giao tác; nghĩa là, trên một giao tác ta có thể biết được có bao nhiêu món hàng (tập mục) xuất hiện. Những năm gần đây xuất hiện nhiều thuật toán tìm luật kết hợp trên cơ sở dữ liệu số (quantitative database), nghĩa là trên một giao tác ngoài thông tin cho biết có bao nhiêu món hàng xuất hiện còn biết được thông tin số lượng mỗi món hàng.

Dựa vào hướng tìm luật bắc cầu thú vị trên cơ sở dữ liệu số, ta có thể phát triển bài toán luật bắc cầu thú vị có trọng số. Bài toán này cần thêm một bảng mô tả trọng số

của từng món hàng (tập mục), cho biết tầm quan trọng của món hàng này so với món hàng khác. Như vậy, với bài toán này ta có 3 bảng trên cơ sở dữ liệu: Bảng mô tả

thuộc tính từng tập mục, bảng mô tả trọng số từng tập mục, và giao tác số (quantitative transaction).

Gần đây có nhiều hướng nghiên cứu kết hợp với di truyền và logic mờ trong việc tìm luật kết hợp. Theo hướng này thì bài toán sẽ tìm được ngưỡng của độ hỗ trợ và độ tin

cậy tốt nhất dựa vào thuật toán di truyền và logic mờ. Từ đó ta có thể phát triển bài toán tìm các luật bắc cầu thú vị có kết hợp di truyền và logic mờđể xác định ngưỡng tốt nhất, thay vì người dùng phải tự xác định ngưỡng. Các hướng khai thác mờ gần đây

được nhiều người thảo luận nhằm suy dẫn tri thức mờ. Do các tập mục có thể có các

đặc tính riêng, các độ hỗ trợ tối thiểu khác nhau và có thể xác định hàm liên thuộc cho các tập mục khác nhau. Trong quá khứ, đã có nhiều thuật toán khai thác dữ liệu theo kiểu di truyền-mờđể rút trích các độ hỗ trợ tối thiểu và các hàm liên thuộc cho các tập mục từ cơ sở dữ liệu số.

Tóm lại, luận văn còn có thể phát triển thêm theo 5 hướng: tìm hiểu các độ đo cho từng loại bài toán đặc thù, tìm luật bắc cầu thú vị không dư thừa, khai thác tập cầu thú vị trên cơ sở dữ liệu có trọng số, khai thác tập cầu thú vị có trọng số, khai thác tập cầu thú vị theo hướng di truyền và logic mờ. Vì vậy, khai thác luật bắc cầu thú vị sẽ là một hướng nghiên cứu khá lý thú trong tương lai mà ta có thể tiếp tục khai thác.

TÀI LIỆU THAM KHẢO Tiếng Việt

[1] Đỗ Phúc (2009), Giáo trình Khai thác dữ liệu, Nxb Đại học Quốc gia Thành phố Hồ Chí Minh.

Tiếng Anh

[2] Arning, A., Agrawal, R., Raghavan, P. (1996), A linear method for deviation detection in large databases. In Proceeding of the 1996 international conference knowledge discovery and data mining (pp. 164-169). Portland, Oregon, August.

[3] Barnett & Lewis (1994), Outliers in statistical data. Jonh Wiley & Sons.

[4] Breunig Markus M., Kriegel, Hans-Peter., Ng, Raymond T., et al. (2000), Identifying density-based local outliers. In proceeding of the ACM SIGMOD 2000 international conference on management of data. Daller, TX.

[5] David M. Mount (2005), Kmlocal: A testbed for k-means Clustering Algorithm. [6] Edwin, M., & Raymond, T. (1998), Algorithms for mining distance-based

outlier in large datasets. In Proceeding of the 24th international conference on very large databases (pp. 392-403).

[7] Gray, R.M., Neuhoff, D. L. (1998), “Quantizaton,” IEEE Transaction on Information Theory, (pp. 2325-2384).

[8] Han, J., & Kamber, M. (2000), Data mining: Concepts and techniques. Mogan haufman.

[9] J. Han (2006), Data mining: Concepts and Techniques.

[10] Johnson, T., Kwok, I., & Ng, R.T. (1998), Fast computation of 2-dimensional depth contours. In Proceedings of the KDD 1998 (pp. 224–228).

[11] Karypic, G., Han, E. & Kumar, V. (1999), CHAMELEON: A hierarchical clustering algorithm using dynamic modeling. IEEE Computer, 68-75.

[12] Liu, H., Lu, H., Feng, L., & Hussain, F. (1999), Efficient search of reliable exception. In Proceeding of PAKDD9 (pp. 194-204).

[13] Liu, B., Hsu, W., Han, H., & Xia, Y. (2000), Mining changes for real-life application. In second international conference on data warehousing and knowledge discovery (pp. 337-346)

[14] Liu, B., Hsu, W., Mun, L., & Lee, H. (1999), Finding interesting patterns using user expectations. IEEE Transactions on Knowledge and Data Engineering, 11(6), 817-832.

[15] Qin, Z., & Chen, F. (2006), Discovering class-bridge within conceptual classes. Asian Journal of Information Technology, 5(2), 169-171.

[16] Wu, X., Zhang, C., &Zhang, S. (2002), Mining both positive and negative association rules. In ICML02 (pp. 658-665) Sydney, Australia.

[17] Zeng, L. (1998), Rough set theory and its applications – the methods of data deductions. The Chongqing University Press.

[18] Zhang, Shichao, Chen, Feng, Wu, Xindong, & Zhang, Chengqi (2006), Identifying bridging rules between conceptual cluster. KDD, 815-820.

KẾT QUẢ THỰC NGHIỆ M