+ Định nghĩa hệ luật dẫn : Một modul chương trình xử lý các thông tin của vấn đề đang nằm trong bộ nhớ tạm thời thông qua một CSDL chứa các thông các luật dẫn và bộ phận suy diễn để suy ra thông tin mới.
Mô hình hệ luật dẫn bao gồm 3 bộ phận chính:
Cơ sở tri thức: tập hợp các luật dẫn, mô hình bộ nhớ lâu bền của con người.
Bộ nhớ tạm thời( bộ nhớ hoạt động): chứa đựng các sự kiện khởi đầu của vấn đề và các sự kiện có từ suy diễn, mô hình bộ nhớ tạm thời của con người.
Động cơ suy diễn: mô hình hoá lập luận của con người bằng cách kết hợp các sự kiện của vấn đề với các luật trong CSTT để suy diễn ra thông tin mới.
Trong CSTT với các trạng thái chính là các sự kiện trong bộ nhớ hoạt động và bộ phận lập luận chính là động cơ suy diễn. Khi các luật được phát tác thì các kết luận được đưa vào bộ nhớ hoạt động thành các sự kiện mới và quá trình lặp lại liên tục đến khi gặp điều kiện dừng của hệ thống (không có luật nào thoả điều kiện đang có, hay không phát sinh thêm được tập mục phổ biến, thông tin mới nào cả,...)
Mô tả một hệ luật dẫn: các luật dẫn hoặc còn gọi là luật IF – THEN là những mệnh đề có dạng LHS=>RHS trong đó LHS xác định các điều kiện hoặc hoàn cảnh phải được thoả mãn cho luật được áp dụng; RHS là những tác động phải xảy ra khi luật được áp dụng.
Với mỗi X c, kiểm tra độ tin cậy của tất cả các luật X\Y=>Y, Y X,
YX và bỏ những luật không thoả minconf. Theo định nghĩa, nó đủ biết tất cả các giá trị hỗ trợ của các tập con của X để tính độ tin cậy của một luật.
Tri thức về các giá trị hỗ trợ của tất cả các tập con của X được bảo đảm bằng thuộc tính chặn dưới đóng của tập mục thoả mãn ngưỡng minsup( tính chất tất cả các tập con của một tập phổ biến cũng phổ biến).
Với lý thuyết này, khai phá luật kết hợp có thể chuyển thành hai bài toán tìm tất cả các tập phổ biến với một ngưỡng tối thiểu minsupp cho trước.
Khai phá luật kết hợp có thể mở rộng để phân tích sự tương đương (nhiều chiều) với sự có mặt của các mối tuơng quan của các mục và tập mục. Từ đó mở rộng để khai phá các mẫu phổ biến cực đại và các tập mục phổ biến đóng.
+ Định nghĩa về luật kết hợp: Giả sử tập L={l1,l2,...,lm} là tập các ký hiệu. Còn G=(U,V,E) là một đồ thị có hướng(hai phía) không có chu trình có các đỉnh được gián nhãn bởi các ký hiệu trong L. Trong đó U V= và tập cạnh E={(u,v)|u U và v V}
Mỗi một cung(u,v) trong G biểu diễn một mối quan hệ giữa hai ký hiệu nào đó của L. Còn B là một biểu thức logic với các biến là các ký hiệu của L (có thể con B là dạng chuẩn tắc tuyển, tức là B có dạng: B= D1D2...Dm để dễ dàng cho việc tính giá trị của B).
Nếu như có một cung(u,v) của G nối 2 đỉnh từ A đến B thì ta nói rằng A là cha của B và B là con của A.
Nếu như có một đường đi từ C đến D thì ta nói rằng C là tổ tiên của D và D là cháu chắt của C.
Mỗi một tập con có thứ tự TL được gọi là một phiên giao dịch
Một phiên T được gọi là xuất hiện ký hiệu x L nếu như x T hoặc x là tổ tiên của một vài phần tử nào đó của T.
Một phiên T được gọi là xuất hiện tập ký hiệu XL nếu như T xuất hiện tất cả các phần tử của tập X.
Bài toán khai phá các luật kết hợp thoả mãn một rằng buộc cho trước chính là việc tìm ra các luật kết hợp thoả mãn rằng buộc B với hệ số tin cậy c>c0 và s> s0( trong đó c0 và s0 là các hằng số được đưa ra bởi người sử dụng).
+ Ta ký hiệu Lk= tập các mẫu hay xuất hiện với k phần tử. Còn Ck= tập các mẫu k phần tử có khả năng là mẫu hay xuất hiện. Rõ ràng rằng Ck Lk
+ Một đồ thị lai trên {I} là họ H={E1,E2,...,En} các cạnh hay các tập con của I, với Ei và tập T I là transversal của H nếu nó giao với tất cả các cạnh, nghĩa là TEi) với Ei.
+ Với mỗi luật kết hợp X=>Y, hệ số hỗ trợ là tỷ số giữa tổng số bản ghi có chứa tập các thuộc tính XY và tổng số phần tử trong CSDL
+ Với mỗi luật kết hợp X=>Y, hệ số tin cậy của luật đó là tỷ số |XY|/|X| trong đó |XY| là tổng số bản ghi có chứa tập các thuộc tính X và Y,|X| là tổng số bản ghi chứa tập thuộc tính X.
+ Giả sử T là một kho dữ liệu, X và Y là các tập giá trị của mẫu dữ liệu nhiều chiều. Còn Z là một biểu thức gán các giá trị cụ thể cho các thuộc tính của mẫu dữ liệu. Khi đó, một luật kết hợp mở rộng là một biểu thức dạng X=>Y(Z), có nghĩa là: các bản ghi hay các tác vụ thoả mãn điều kiện Z nếu như chứa X thì thường chứa Y.