KẾT QUẢ THỰC NGHIỆ M

Một phần của tài liệu Khai thác luật bác cầu thú vị (Trang 67 - 69)

Thực nghiệm luận văn được thực hiện trên ngôn ngữ C# 2005, dùng hệ quản trị cơ sở

dữ liệu SQL Server 2005. Luận văn có tham khảo các thuật toán gọm cụm của David M. Mount ở Đại học Maryland, các nhóm thuật toán gom cụm được thực hiện bằng

ngôn ngữ visual C++ 2008, do vậy để tích hợp nhóm các thuật toán này, luận văn đề

nghị cần phải cài thêm Visual C++ 2008. Thực nghiệm được thực hiện trên cấu hình CPU intel core dual 2.2 GHz, RAM 3GB, hệ điều hành Win XP. Thực nghiệm thứ

nhất được thực hiện trên cơ sở dữ liệu nhân tạo với 50 tập mục, mỗi tập mục có 10 thuộc tính, và bảng cơ sở dữ liệu có 50.000 giao tác. Trong đó, dữ liệu được gom thành 10 cụm, tần số xuất hiện của các thuộc tính đề xuất là 42/50; minsimi = 5 và

minentro = 0.5. Kết quả thực nghiệm thể hiện trong bảng 4.1.

Thực nghiệm thứ hai được thực hiện trên cơ sở dữ liệu Mushroom với 119 tập mục, mỗi tập mục có 10 thuộc tính, và bảng cơ sở dữ liệu có 8.124 giao tác. Trong đó, dữ

liệu được gom thành 12 cụm, tần số xuất hiện của các thuộc tính đề xuất là 105/119. Kết quả thực nghiệm với minsimi = 8, minentro = 1. Kết quả thu được trong bảng 4.2.

Bảng 4.1: Kết quả thử nghiệm trên CSDL nhân tạo.

Stt Minsup Minconf Luật kết hợp thông thường Luật bắc cầu Luật bắc cầu thú vị 1 0.2 0.3 2450 14 6 2 0.2 0.4 2450 14 6 3 0.2 0.5 1390 5 4 4 0.2 0.6 0 0 0 5 0.25 0.4 1483 6 4 6 0.25 0.5 1234 5 4 7 0.3 0.3 0 0 0

Bảng 4.2: Kết quả thực nghiệm trên CSDL Mushroom.

Stt Minsup Minconf Luật kết hợp thông thường Luật bắc cầu Luật bắc cầu thú vị 1 0.3 0.65 63129 5 3 2 0.4 0.7 3828 3 1 3 0.45 0.7 1907 2 1 4 0.5 0.7 667 2 0 5 0.6 0.7 223 0 0

Hiện nay không có nhiều thuật toán để xác định tập cầu nên không thể so sánh các bài toán với nhau về mặt tìm số lượng luật cũng như về mặt thời gian. Do vậy, kết quả

thực nghiệm được so sánh số lượng luật bắc cầu tìm được và luật kết hợp thông thường, dựa trên nhiều độ hỗ trợ và độ tin cậy khác nhau.

Dựa vào kết quả thực nghiệm ta thấy số lượng luật bắc cầu tìm được so với luật kết hợp thông thường là rất bé. Nghĩa là, số lượng luật bắc cầu tìm được là rất ít so với luật kết hợp thông thường. Điều đó cho thấy, luật bắc cầu thú vị tìm được chính là những biệt lệ cần tìm.

Cách thc chn giá tr ngưỡng: Tùy thuộc vào từng cơ sở dữ liệu thử mà ta chọn các giá trị ngưỡng khác nhau. Với cơ sở dữ liệu Chess bao gồm 75 tập mục và 3196 giao tác được gom thành 10 cụm và tần số xuất hiện của các thuộc tính đề xuất là 65/75. Kết quả thực nghiệm cho thấy giá trịminsimi giao động trong đoạn [7, 9] và minentro

∈ (0.5, 0.66). Đối với cơ sở dữ liệu Connect bao gồm 129 tập mục và 67557 giao tác

được gom thành 15 cụm và tần số xuất hiện của các thuộc tính đề xuất là 110/129. Kết quả thực nghiệm cho thấy giá trị minsimi giao động trong đoạn [7, 10] và minentro

(0.8, 1.68).

Một phần của tài liệu Khai thác luật bác cầu thú vị (Trang 67 - 69)