CHƯƠNG 1 TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU
1. NHỮNG KẾT QUẢ ĐẠT ĐƯỢC
- Tìm hiểu một số thuật tốn trong khai phá luật kết hợp như: AIS, Apriori, DIC, FP_Tree, RARM, …
- Đóng góp chính của luận văn là đề xuất phương án phân lớp cơ sở dữ liệu giao tác bằng cách thêm “trọng số” cho mục dữ liệu nhằm rút gọn không gian xử lý và lưu trữ. Việc phân lớp dữ liệu được thực hiện qua bốn bước: Tính độ hỗ trợ của mục dữ liệu, sắp xếp các mục dữ liệu trong các giao tác theo thứ tự giảm dần của độ hỗ trợ, xây dựng cây W_Tree và bước cuối cùng là chuyển dữ liệu trên cây W_Tree thành thành một cơ sở dữ liệu giao tác có trọng số rút gọn. Với một cơ sở dữ liệu giao tác cố định, chỉ một lần thực hiện bước một, khi tìm tập thường xuyên ta chỉ cần
thực hiện bước hai.
Tác giả cũng đưa ra thuật toán cải tiến thuật toán Apriori và FP_Growth để tìm tập thường xuyên dựa vào CSDL đã phân lớp. Xây dựng chương trình phân lớp dữ liệu bằng ngơn ngữ lập trình Delphi.
1. Cải tiến thuật toán Apriori: Với thuật toán này, chi phí nhiều nhất là duyệt qua CSDL để tính độ hỗ trợ của các tập ứng viên. Với CSDL giao tác có trọng số đã phân lớp, số giao tác đã rút gọn rất nhiều lần nên thời gian thực hiện giảm đi rất nhiều lần.
2. Cải tiến thuật toán FP_Growth: Thuật toán xây dựng FP-Tree trên cơ sở dữ liệu giao tác có trọng số chia làm hai bước: Bước một là phân lớp dữ liệu bằng cách biến đổi một cơ sở dữ liệu giao tác thành một cơ sở dữ liệu giao tác có trọng số
rút gọn, bước hai là xây dựng FP-Tree. Với một cơ sở dữ liệu giao tác cố định chỉ một lần thực hiện bước một, khi tìm tập thường xuyên ta chỉ cần thực hiện bước hai. Ở