SO SÁNH, ĐÁNH GIÁ KẾT QUẢ THỰC NGHIỆM

Chương 4. THỰC NGHIỆM VÀ ĐÁNH GIÁ

4.2. SO SÁNH, ĐÁNH GIÁ KẾT QUẢ THỰC NGHIỆM

Hình 4.1 – 4.4so sánh thời gian xây dựng dàn của 2 Phương pháp từcác bộ dữ liệu Mushroom, Chess, Pumsb và Retail,ứng với sự thay đổi về số nhóm và minSup.

Hình 4.1. Thời gian xây dựng dàn từ bộ dữ liệu Mushroom với các giá trị khác nhau của minSup và số nhóm

Hình 4.2. Thời gian xây dựng dàn từbộ dữ liệu Chess với các giá trị khác nhau của minSup và số nhóm

Hình 4.3. Thời gian xây dựng dàn từ bộ dữ liệu Pumsb với các giá trị khác nhau của minSup và số nhóm

Hình 4.4. Thời gian xây dựng dàn từbộ dữ liệu Retail với các giá trị khác nhau của minSup và số nhóm

Hình 4.5. Lượng bộ nhớ cần thiết để xây dựng dàn từ bộ dữ liệu Mushroom với các giá trị khác nhau của minSup và số nhóm

Hình 4.6. Lượng bộ nhớ cần thiết để xây dựng dàn từ bộ dữ liệu Chess với các giá trị khác nhau của minSup và số nhóm

Hình 4.7. Lượng bộ nhớ cần thiết để xây dựng dàn từ bộ dữ liệu Pumsb với các giá trị khác nhau của minSup và số nhóm

Hình 4.8. Lượng bộ nhớ cần thiết để xây dựng dàn từ bộ dữ liệu Retail với các giá trị khác nhau của minSup và số nhóm

Hình 4.5 – 4.8 so sánh lượng bộ nhớ cần thiết để xây dựng dàn của 2 Phương pháp từ các bộ dữ liệu Mushroom, Chess, Pumsb và Retail,ứng với sự thay đổi về số nhóm và minSup.

Các kết quả trên cho thấysự thay đổi của số nhóm và minSup sẽ ảnh hưởng đến:

i) Thời gian để xây dựng dàn.

ii) Lượng bộ nhớ cần thiết để dựng dàn

Và trong hầu hết các trường hợp, phương pháp đề xuất có kết quả về chi phí tốt hơnso với phương pháp so sánh (thuật toán MMCAR) cảvề thời gian và bộ nhớ, và kết quả về số luật kết hợp đa cấp và cross -level khai thác được là tương đương nhau.

Từ đó cho thấy, phương pháp đề xuất hiệu quả hơn so với thuật toán MMCAR.

Mặt khác, cũng do phương pháp đề xuất đã bỏ qua được việc xây dựng dàn 1 -item và không cần phải duyệt DFS để sinh các tập đóng ứng viên vìđã sử dụng trực tiếp các tập đóng sinh ra làm cácứng viên giao nhau.

KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN

1. Kết quả đạt được của luận văn

Luận văn đã tập trung tìm hiểu kỹ thuật khai thác các luật kết hợp đa cấp và cross-level sử dụng dàn tập đóng, dựa trên việc khai thác hiệu quả các hành vi của dàn.

Qua đó, luận văn đề xuất một hướng tiếp cận mới hiệu quả hơn dựa vào kỹ thuật đã tìm hiểu.

Phương pháp đề xuất hiệu quả hơn vì không phải tốn không gian lưu trữ các dàn ứng viên, vì dàn tập phổ biến đóng cross-level được tạo ra từ các tập phổ biến đóng cross-level bằng thuật toán xây dựng dàn tập phổ biến đóng hiệu quả. Ngoài ra, phương pháp đề xuất không tốn thời gian để duyệt dàn theo DFS để sinh các tập đóng ứng viên.

Phương pháp đề xuất đã được thực nghiệm trên các CSDL thực với số mức phân cấp là 3 và đã khai thác thành công các luật kết hợp tối thiểu đa cấp và cross- level, chỉ với số ít luật nhưng cung cấp rất nhiều thông tin.

Các luật kết hợp khai thác được trong phương pháp đề xuất cũng có ảnh hưởng lớn trong các lĩnh vực ứng dụng thực tế đầy thách thức như: máy học, sinh học, trí tuệ nhân tạo, thống kê, ….

2. Hướng nghiên cứu tiếp theo

Các hướng nghiên cứu trong tương lai sẽ tập trung khai thác luật kết hợp tối thiểu đa cấp và cross -level trên CSDL lớn, ngoài ra, sẽ mở rộng số mức phân cấp cao hơn. Bên cạnh đó cũng tiếp tục nghiên cứu áp dụng vào CSDL thực tế để thấy được đóng góp của đề tài vào thực tiễn.

Mặc dù bản thân đã cố gắng tập trung nghiên cứu và tham khảo các tài liệu, bài báo, tạp chí khoa học trong và ngoài nước, nhưng do trìnhđộ còn n hiều hạn chế nên không thể tránh khỏi những thiếu sót. Rất mong nhận được sự đóng góp của các quý thầy cô và các nhà khoa học để luận văn được hoàn thiện hơn.