Module này thực hiện việc khai phá dữ liệu trên dữ liệu đã được rút gọn và tiêu chuẩn hoá. Các thuật toán được cài đặt là thuật toán FP-growth và Apriori.
Module này bao gồm các lớp chính sau
- Lớp FrequentItemsetsMiner : cài đặt các phương thức truy nhập dữ liệu, thiết lập các thông số cho thuật toán tìm tập phần tử lớn
protected DBReader dbReader; /* Đối tượng truy nhập dữ liệu */
protected double minsupport; // Ngưỡng hỗ trợ nhỏ nhất Các phương thức cài đặt :
public void findFrequentItemsets( DBReader dbReader, double minSupport); // tìm kiếm các tập thường xuyên
public void getResult(); // lấy về kết quả
public void setParameters(DBReader dbReader, double minSupport); /* thiết lập các tham số cho thuật toán */ - Lớp Apriori : là dẫn xuất của lớp FrequentItemsetMiner, cài đặt
phương thức tìm kiếm tập phần tử lớn sử dụng các tập ứng cử (thuật toán Apriori)
Các đối tượng dữ liệu:
private ArrayList candidates; // Danh sách các tập ứng cử private ArrayList k_frequent; /* Danh sách các tập phần tử lớn */
Các phương thức cài đặt:
private void generateCandidates() // tạo các tập ứng cử
private void evaluateCandidates() /* đánh giá các tập ứng cử nhằm lựa chọn ra những tập thường xuyên */
- Lớp FP-growth : là dẫn xuất của lớp FrequentItemsetMiner, cài đặt phương thức tìm kiếm tập phần tử lớn sử dụng cây FP (thuật toán FP-growth)
Các đối tượng dữ liệu :
private static class FPTreeNode // nút trong cây FP Các phương thức cài đặt
private FPTree constructFPTree() // xây dựng cây FP
private void fp_growth() /* tìm kiếm các tập thường xuyên trên cây FP*/
- Lớp Itemset : lưu trữ thông tin của tập các phần tử private int[] set; // tập phần tử
private double support; // độ hỗ trợ của tập phần tử Các phương thức cài đặt
public Itemset() // tạo một đối tượng tập phần tử Nguyễn Tiến Thành – Công nghệ phần mềm K44
Kỹ thuật khai phá dữ liệu và ứng dụng xây dựng cơ sở tri thức
public double getSupport() /* lấy giá trị độ hỗ trợ của tập phần tử */
- Lớp AssociationRules : lưu trữ thông tin về các luật liên kết và các phương thức xử lý
Các đối tượng dữ liệu :
private Itemset antecedent; // điều kiện của luật private Itemset consequent; // kết quả của luật private double support; // độ hỗ trợ của luật private double confidence; // độ tin cậy của luật Các phương thức cài đặt
public Itemset getAntecedent(); /* trả về điều kiện của luật */
public Itemset getConsequent(); // trả về kết quả của luật public double getSupport(); // trả về độ hỗ trợ của luật
public double computeConfidence(); /* tính toán độ tin cậy của luật */
- Lớp AssociationsMiner : cài đặt phương thức tìm kiếm các luật liên kết theo điều kiện đã cho từ tập các phần tử lớn.
Các đối tượng dữ liệu:
protected double min_support; // ngưỡng hỗ trợ của luật protected double min_confidence; // ngưỡng tin cậy của luật Các phương thức cài đặt
public ArrayList findAssociations(double minSupport, double minConfidence); //tìm kiếm các luật liên kết theo điều kiện public ArrayList getResult(); /* trả về kết quả các luật liên kết thu được */