Một luật quyết định có dạng : nếu X thì Y với X là điều kiện, Y là kết quả. Đó là một cách biểu diễn quyết định thông thường có tính giải thích cao. Điều kiện của luật là một biểu thức logic, kết qủa là một giá trị hoặc một lớp. Không giống như cấu trúc cây, các luật quyết định không cần phải loại trừ nhau, do đó cần các cơ chế để kết hợp các luật hoặc lựa chọn một luật đơn. Một kỹ thuật thường dùng là sắp xếp các luật theo thứ tự, luật thỏa mãn đầu tiên trong danh sách là luật được chọn.[4]
Mỗi luật quyết định là một sự kết nối (AND) của các mệnh đề đúng-sai. Các luật liên kết với nhau bằng phép hoặc (OR). Kiểu biểu diễn logic này được gọi là dạng chuẩn.
Bất kỳ câu quyết định nào cũng có thể được biểu diễn dưới dạng các luật quyết định trong đó các luật không trùng nhau. Điều này có thể thực hiện bằng cách chuyển đường đi đến một nút lá thành một luật với điều kiện là kết hợp của các nút trên đường trừ nút cuối và kết quả là nhãn của nút cuối. Bằng việc loại bỏ sự trùng hợp giữa các luật, mô hình luật quyết định nhìn chung đơn giản và hiệu quả hơn mô hình cây quyết định.
Việc chuẩn bị dữ liệu cho kỹ thuật luật quyết định không khác mấy so với kỹ thuật cây quyết định. Thích hợp nhất là dạng bảng chuẩn, ngoài ra một số kỹ thuật còn có các cơ chế đặc biệt để xử lý các thuộc tính cùng nhóm mà không cần biến đổi chúng về dạng nhiều thuộc tính đúng-sai. Một số kỹ thuật dựa vào luật quyết định đòi hỏi các thuộc tính có giá trị số phải được rời rạc hoá thành các thuộc tính đúng-sai bao quát một khoảng giá trị xác định.
Mục đích của kỹ thuật là xác định các luật và các phần tử của nó. Tập các luật thu được phải kiểm soát được tất cả các trường hợp của bộ dữ liệu
và có khả năng khái quát hoá dữ liệu đó. Tập này thu được bằng cách sử dụng các kỹ thuật tạo luật, hoặc một cây quyết định, là cơ sở dữ liệu cho các bước xử lý tiếp theo. Tập luật với hiệu quả kiểm thử cao nhất được lựa chọn. Do tập luật có thể trùng lặp nên hầu hết các thuật toán luật quyết định có độ phức tạp cao hơn so với cây quyết định. Ví dụ như độ hiệu quả của việc tách một luật không phụ thuộc vào các luật còn lại. Một số hệ thống sinh luật kết hợp cả quá trình tối ưu để nâng cao độ ổn định của kết quả.
Các luật quyết định là một cách biểu diễn tự nhiên các tri thức được lưu trong cơ sở dữ liệu. Một mô hình logic tương tự là luật liên kết đã được phát triển cho hệ thống cơ sở dữ liệu. Quá trình khai phá dữ liệu tìm kiếm các luật bao quát tất cả các trường hợp, nhờ đó tạo thành một mô tả của tất cả dữ liệu hiện có cho mục đích khai phá. Điều này đòi hỏi sự ước lượng hiệu quả của các quá trình sinh luật và kết quả mà chúng đem lại. Thông thường, các luật liên kết thường được đánh giá dựa vào một mục tiêu xác định, do đó một tâp bao phủ tất cả các trường hợp là không cần thiết. Do đó trong quá trình khai phá dữ liệu, yêu cầu đặt ra với hệ thống là tìm ra tất cả các luật có dạng là hợp của các mệnh đề đúng-sai, với điều kiện phải thoả mãn một ngưỡng tin cậy nào đó. Ví dụ, tìm tất cả các luật trong đó khả năng nợ đọng sẽ được trả đúng hạn có độ tin cậy lớn hơn 90%.
Các kỹ thuật tìm kiếm luật liên kết rất có ích trong trường hợp phát hiện các mối liên hệ trong kinh doanh hàng hoá, giúp đỡ đưa ra quyết định về chiến lược kinh doanh. Các kỹ thuật luật liên kết hiện nay đã được mở rộng để xử lý cả những dữ liệu liên tục như dữ liệu liên quan đến thời gian. Với dữ liệu này, các hạn chế sẽ được thêm vào luật để đảm bảo các sự kiện liên quan sẽ xảy ra trong một khoảng thời gian. Ví dụ như tìm tất cả các sự kiện có khả năng xảy ra trước hạn trả nợ.
Các kỹ thuật sinh luật thường thực hiện lựa chọn động các thuộc tính và xử lý hiệu quả với rất nhiếu thuộc tính. Các quá trình lặp cũng được sử dụng do đó số mệnh đề được kiểm tra tăng lên rất nhiều so với phương Nguyễn Tiến Thành – Công nghệ phần mềm K44
Kỹ thuật khai phá dữ liệu và ứng dụng xây dựng cơ sở tri thức
pháp cây quyết định. Vì vậy cần phải có các biện pháp làm giảm giá trị và làm mịn dữ liệu để tăng độ hiệu quả.
Tổng số các mệnh đề trong tập toàn bộ các luật có thể coi là số đo độ phức tạp của phương pháp này. Độ phức tạp được tính bằng cách xén tỉa các luật gồm nhiều mệnh đề thành các luật con cho đến khi chỉ còn các luật đơn dạng a→b. Quá trình này bao gồm việc xoá bỏ các luật hoặc các mệnh đề độc lập. Với một tập luật lớn, tổng số luật có thể lên tới hàng nghìn. Khi mà các mệnh đề trong luật không được sắp theo trật tự, việc đánh giá các mệnh đề cần bỏ đi sẽ cần nhiều năng lực tính toán của máy.
Việc xóa bỏ một luật sẽ có liên quan đến nhiều bản ghi trong khi nếu xoá một mệnh đề từ một luật gồm nhiều mệnh đề còn có ảnh hưởng rộng hơn nữa. Do đó xén tỉa là một quá trình không ổn định, đòi hỏi phải có bước sàng lọc và tối ưu tập luật, đặc biệt khi tập luật có tương đối ít phần tử.
Quá trình sinh luật liên kết có độ phức tạp tính toán cao hơn so với cây quyết định. Việc thu nhỏ giá trị và tiền sắp xếp có tác dụng làm giảm thời gian tính toán đáng kể, đặc biệt với các bước lặp. Với các bộ dữ liệu có ít thuộc tính, hiệu quả thời gian là khá tốt cho dù kích thước dữ liệu lớn. Tổng số luật tăng lên theo kích thước của mẫu, có thể lên tới hàng nghìn luật. Do đó, thời gian chạy của chương trình có thể tăng lên rất nhiều vì các quá trình xén tỉa, tối ưu chậm hơn nhiều so với cây quyết định.Tuy nhiên phương pháp luật liên kết có ưu thế hơn cây quyết định trong việc giải thích và dự đoán, mặc dù đòi hỏi nhiều kỹ thuật phức tạp. Chi tiết về các kỹ thuật khai phá luật liên kết sẽ được trình bày trong chương IV.
CHƯƠNG IV: MỘT SỐ GIẢI THUẬT KHAI PHÁ LUẬT LIÊN KẾT
Công đoạn chính trong việc xây dựng cơ sở tri thức là việc xây dựng tập luật. Dưới đây là các kỹ thuật khai phá các luật liên kết từ cơ sở dữ liệu nhằm mục đích xây dựng cơ sở tri thức.