Hầu hết các thuật toán khai phá dữ liệu đều có thể chia thành kỹ thuật “học có giám sát” và “học không giám sát”. Kỹ thuật học có giám sát yêu cầu nhà phân tích dữ liệu xác định một thuộc tính đích hay biến phụ thuộc. Kỹ thuật học có giám sát sau đó xem xét toàn bộ dữ liệu để cố gắng tìm ra những mẫu hoặccác mối quan hệ giữa các thuộc tính độc lập (dự báo) và thuộc tính phụ thuộc.
Định nghĩa vấn đề Chuẩn bị và tập hợp dữliệu Triển khai tri thức Xây dựng và đánh giá mô hình - Truy nhập dữ liệu - Lấy mẫu dữ liệu - Chuyển đổi dữ liệu
- Tạo mô hình - Kiểm thử và đánh giá mô hình - Thể hiện mô hình
- Ứng dụng mô hình - Tùy biến các báo cáo - Triển khai các ứng dụng bên ngoài.
Quá trình khai phá dữ liệu bao gồm một số các bước nhằm định nghĩa một nhiệm vụ phải làm, thu thập và chuẩn bị dữ liệu, xây dựng và đánh giá mô hình khai phá, áp dụng mô hình và phổ biến thông tin mới
70
Kỹ thuật học có giám sát sử dụng dữ liệu trong quá khứ để xây dựng mô hình và sử dụng mô hình này để phân lớp dữ liệu mới và dự báo về các lớp thành viên hay lớp giá trị.
Trong những ứng dụng học có giám sát, một thuộc tính đích được định nghĩa để miêu tả, ví dụ, khách hàng nào gần đây đã mua một ôtô mới, giá trị được đặt là “1” cho “Có” và “0” cho “Không”. Kỹ thuật học này xem xét toàn bộ dữ liệu để tìm ra và xây dựng một mô hình miêu tả tốt nhất hàm quan hệ. Thông thường, trong quá trình khai phá dữ liệu, dữ liệu được chia làm hai phần, một phần dùng để huấn luyện, có kích thước lớn hơn, một phần còn lại, nhỏ hơn dùng để kiểm tra. Mô hình ban đầu được xây dựng bằng sử dụng tập dữ liệu thứ nhất và sau đó mô hình này được áp dụng với tập dữ liệu thứ hai để đánh giá độ chính xác của mô hình dự đoán. Bởi vì chúng ta đã biết kết quả-ai mua ôtô và ai không mua- nên chúng ta có thể đánh giá độ chính xác của mô hình và ra quyết định về tính hữu dụng của mô hình. ODM cũng cung cấp một số tiện ích để đánh giá mô hình dưới dạng mô hình chính xác
ODM cung cấp một số thuật toán học có giám sát sau đây [8], [9]:
4.3.1.1 Naïve Bayes (NB)
Là một thuật toán dùng để phân lớp và dự đoán, NB xây dựng mô hình có thể dự đoán khả năng xuất hiện một kết quả đầu ra nào đó, nó tìm ra các mẫu và những quan hệ trong dữ liệu bằng cách đếm số lần quan sát với những điều kiện khác nhau, sau đó xây dựng một mô hình khai phá dữ liệu để biểu diễn những mẫu và những quan hệ này. Sau khi NB xây dựng được mô hình, mô hình này có thể được sử dụng để dự đoán, NB cho phép người phát triển ứng dụng xây dựng mô hình khai phá dữ liệu để phân lớn và dự đoán cho nhiều mục đích khác nhau.
Thuật toán NB của ODM thực hiện dự báo bằng cách sử dụng định lý Bayes, nó cho rằng mỗi thuộc tính đều độc lập có điều kiện đối với các thuộc tính khác. NB thực hiện việc xây dựng và áp dụng mô hình, có thể sử dụng cho cả hai loại bài toán phân chia đa lớp và nhị phân. NB cross-validation, được cung cấp như là một tùy
71
chọn để áp dụng NB, cho phép người dùng kiểm tra tính chính xác của mô hình trên cùng bộ dữ liệu đã được sử dụng để xây dựng mô hình, chứ không phải là xây dựng mô hình trên một phần dữ liệu và kiểm tra nó trên một phần dữ liệu khác. Việc không phải giữ lại một phần dữ liệu để kiểm tra sẽ đặc biệt hiệu quả nếu như lượng dữ liệu dùng để xây dựng mô hình tương đối nhỏ.
4.3.1.2 Mạng tương thích Bayes (ABN)
Thuật toán ABN của ODM tương tự như thuật toán NB và tùy thuộc vào dữ liệu nào đang được phân tích sẽ có thể cho ra các mô hình tốt hơn. ABN kết hợp được cả hai lợi thế, đó là: mô hình dựa trên quy tắc, nó vừa chi tiết vừa dễ hiểu và suy luận Bayesian.
Một dự báo và quy tắc điển hình có thể dưới dạng sau: Dự đoán: BMW=”YES”
Quy tắc ABN: 30<AGE <40 và INCOME = High
Độ tin cậy = 85% (634 trường hợp thỏa mãn điều kiện thì có 539 trường hợp mua ôtô)
Độ hỗ trợ=0.00543 (539 trường hợp mua ôtô trên tổng số 99.263 bản ghi)
4.3.1.3 Cây quyết định
ODM đưa ra một đặc trưng cây quyết định kinh điển, dựa trên thuật toán hồi quy và phân lớp nổi tiếng. Mô hình cây quyết định của ODM chứa đựng đầy đủ thông tin về mỗi nút, bao gồm Độ tin cậy, Độ hỗ trợ và Tiêu chuẩn phân chia. Quy tắc đầy đủ cho mỗi nút có thể được thể hiện, và hơn nữa, một thuộc tính thay thế được cung cấp cho mỗi nút, thuộc tính này sẽ được sử dụng để thay thế khi áp dụng mô hình cho những ca bị mất dữ liệu.
72
Cây quyết định phổ biến bởi vì chúng phù hợp với mọi nơi, dễ dàng áp dụng và dễ hiểu. Cây quyết định xem xét từng khả năng của thuộc tính đưa vào để tìm kiếm sự phân chia tốt nhất, đó là, điểm chia cắt thuộc tính. Sau mỗi quyết định phân tách, ODM lặp lại quá trình này cho toàn cây và tạo ra các lá nút lá đại diện cho các nhóm bản ghi. Đứng từ gốc cây nhìn xuống, cây quyết định đưa ra các quy tắc mà con người có thể hiểu được dưới dạng các mệnh đề “Nếu A, thì B”. Các quy tắc cây quyết định này cũng thể hiện tỉ lệ ủng hộ và tin cậy của mỗi nút. Trong khi các mạng tương thích Bayes cũng có thể cung cấp các quy tắc đơn giản và hiệu quả trong việc đưa ra các thông tin giải thích cho mỗi dự báo thì cây quyết định cung cấp các quy tắc chi tiết cho mỗi quyết định phân tách.
4.3.1.4 Thuộc tính quan trọng (Attribute Importance)
Thuật toán xác định các thuộc tính quan trọng của ODM giúp xác định các thuộc tính có ảnh hưởng (tác động) nhất đến thuộc tính đích. Thông thường, biết được những thuộc tính nào ảnh hưởng nhất sẽ giúp bạn hiểu rõ, quản lý kinh doanh tốt hơn và giúp bạn đơn giản hóa các hoạt động mô hình. Thêm vào đó, các thuộc tính này có thể chỉ ra các kiểu dữ liệu mà bạn có thể bổ sung vào dữ liệu để làm tăng thêm hiệu quả của các mô hình.
Thuật toán thuộc tính quan trọng của ODM tìm ra các thuộc tính có tác động nhiều nhất thuộc tính đích.
73
Xác định các thuộc tính quan trọng có thể được sử dụng để tìm các thuộc tính xử lý có liên quan nhất đến việc dự báo chất lượng của một bộ phận sản xuất, các nhân tố dẫn đến việc phản đối, hoặc các gen có khả năng liên quan nhất đến cách điều trị một căn bệnh nào đó.