Trước khi tiến hành phân tích các tập dữ liệu thực sự, một điều rất quan trọng là chúng ta phải lựa chọn được một phương pháp dự báo phù hợp, bởi vì điều đó sẽ ảnh hưởng đến hiệu quả và giá trị việc phân tích. Phương pháp Bayesian hay lan truyền ngược (Backpropagation) là những phương pháp phân lớp phổ biến. Nhưng để cho việc tính toán được đơn giản, phương pháp phân lớp Bayesian cho rằng các lớp độc lập điều kiện với nhau, tức là, cho một nhãn lớp của một mẫu, các giá trị của thuộc tính là độc lập điều kiện với các thuộc tính khác [11]. Nhưng trong bài toán của chúng ta, tồn tại các quan hệ phức tạp giữa các thuộc tính của tập dữ liệu
79
và lớp độc lập điều kiện không phải lúc nào cũng được thỏa mãn, do đó chúng ta không sử dụng phương pháp phân lớp Bayesian.
Phương pháp phân lớp Backpropagation có thời gian huấn luyện dài, đòi hỏi các tham số đặc trưng mà giá trị các tham số này có được chỉ bằng kinh nghiệm, hơn nữa lại rất khó hiểu. Với một ứng dụng thì những đặc điểm này làm cho người ra quyết định thao tác rất khó khăn [11]. Vì thế trong bài toán của chúng ta cũng không lựa chọn phương pháp phân lớp này.
Quy nạp cây quyết định là một hình thức phân tích dữ liệu được sử dụng để lấy ra các mô hình miêu tả các lớp dữ liệu quan trọng, hoặc để dự đoán xu thế của dữ liệu trong tương lai. Ở trong Chương III chúng ta đã thảo luận các vấn đề liên quan đến quy nạp cây quyết định. Đây là phương pháp phân lớp có ý tưởng đơn giản và dễ hiểu, đặc biệt mô hình được xây dựng bằng cây quyết định có thể dễ dàng được biến đổi thành những hình thức thể hiện khác có lợi cho người ra quyết định. Vì thế trong bài toán của chúng ta sẽ sử dụng phương pháp quy nạp cây quyết định, đây là phương pháp chính được ODM sử dụng trong thuật toán xây dựng cây quyết định của mình. Ngoài ra chúng ta sẽ sử dụng công cụ Oracle Data Miner, có giao diện đồ họa để minh họa thực hiện bài toán.