Phân lớp và dự báo

Cơ sở dữ liệu có nhiều thông tin bị che lấp có thể được sử dụng để ra các quyết định thông minh. Phân lớp và dự đoán là hai hình thức phân tích dữ liệu được sử dụng để rút ra những mô hình miêu tả lớp dữ liệu quan trọng hoặc dự báo xu thế dữ liệu trong tương lai. Trong khi phân lớp dự đoán các nhãn lớp đã được xác định rõ ràng (rời rạc) thì mô hình dự báo thực hiện chức năng trên những giá trị liên tục. Lấy ví dụ, một mô hình phân lớp được xây dựng để phân loại ứng dụng cho vay ngân hàng là an toàn hay mạo hiểm, trong khi một mô hình dự báo được xây dựng để dự báo lượng thiết bị máy tính được mua bởi các khách hàng tiềm năng dựa vào thu nhập và nghề nghiệp của họ.

Nhiều phương pháp phân lớp và dự báo đã được giới thiệu bởi các nhà nghiên cứu trong các lĩnh vực học máy, hệ chuyên gia, thống kê…. Hầu hết các thuật toán sử dụng bộ nhớ thường trú, nên chỉ áp dụng với dữ liệu có kích thước nhỏ. Gần đây những nghiên cứu khai phá dữ liệu đã phát triển những kỹ thuật phân lớp và dự báo có khả năng làm chủ được dữ liệu có kích thước lớn, thường trú trên đĩa. Những kỹ thuật này thường liên quan đến xử lý song song và phân tán.

Chúng ta sẽ làm quen với những kỹ thuật cơ bản để phân lớp dữ liệu như quy nạp cây quyết định, xây dựng cây quyết định bằng phụ thuộc hàm và việc tích hợp kỹ thuật kho dữ liệu cũng được thảo luận

3.1.1 Phân lớp và dự báo.

Phân lớp dữ liệu là một quá trình gồm hai bước [4], hình 3.1. Trong bước thứ nhất, một mô hình được xây dựng để miêu tả một tập các lớp dữ liệu hay các khái niệm đã định trước. Mô hình này được xây dựng bằng cách phân tích các bản ghi cơ

sở dữ liệu được mô tả bằng những thuộc tính. Mỗi bản ghi được xem như thuộc về một lớp được định nghĩa trước, vì được quyết định bằng một trong những thuộc tính nên gọi là thuộc tính nhãn lớp. Trong phạm vi phân lớp, các bản ghi dữ liệu cũng được xem là những ví dụ, mẫu hay đối tượng. Việc phân tích các bản ghi dữ liệu để xây dựng mô hình chung hình thành nên tập dữ liệu huấn luyện. Tập huấn luyện hình thành từ các bản ghi riêng biệt cũng xem như một mẫu huấn luyện và được lựa chọn ngẫu nhiên. Vì nhãn lớp của mỗi mẫu huấn luyện được cung cấp trước nên bước này được hiểu như là học có giám sát (tức là, việc học một mẫu là “được giám sát” trong đó nói lên mỗi mẫu huấn luyện thuộc về lớp nào). Phương pháp này đối lập với học không giám sát (phân cụm), trong đó nhãn lớp của mỗi mẫu huấn luyện là chưa biết và số lượng hoặc tập các lớp có thể cũng không biết trước.

Thông thường, mô hình đã học được biểu diễn dưới dạng quy tắc phân lớp cây quyết định, hoặc công thức toán học. Lấy ví dụ, cho một cơ sở dữ liệu về thông tin tiền gửi của khách hàng, quy tắc phân lớp có thể được học để phân biệt khách hàng có loại tiền gửi được đánh giá tốt hay rất tốt (hình 3.1 a). Quy tắc có thể được sử dụng để phân loại các mẫu dữ liệu về sau, cũng như cung cấp những hiểu biết tốt hơn về nội dung của cơ sở dữ liệu.

Trong bước thứ hai (hình 3.1 b), mô hình được sử dụng để phân lớp. Đầu tiên chúng ta phải đánh giá tính chính xác của mô hình dự báo. Có một kỹ thuật đơn giản để làm việc này đó là sử dụng một tập thử gồm các mẫu đã được gán nhãn, những mẫu này được lựa chọn ngẫu nhiên và độc lập với những mẫu huấn luyện. Độ chính xác của một mô hình trên tập thử là tỷ lệ phần trăm của các mẫu trong tập thử được phân lớp chính xác bằng mô hình đó. Với mỗi mẫu thử, nhãn lớp đã biết được so sánh với nhãn lớp mà mô hình dự báo cho mẫu đó.

Tên Tuổi Thu nhập Đ.giá tiền gửi

Sandy Jones Bill Lee Coutnay fox Susan Lake Claire Phips … <=30 <=30 31…40 >40 31…40 …. thấp thấp cao trung bình trung bình … tốt rất tốt rất tốt tốt tốt … Dữ liệu đào tạo

Nếu tuổi = “31..40” và thu nhập = “cao” đánh giá tiền gửi= “rất tốt”

Quy tắc phân lớp Thuật toán

phân lớp

Tên Tuổi Thu nhập Sự tín nhiệm

Frank Jones Sylvia Crest Anne Yee … > 40 <=30 31…40 …. cao thấp cao … tốt tốt rất tốt …

Dữ liệu đào tạo phân lớp Quy tắc

Dữ liệu mới

John Henri, 31…40,high Đánh giá tiền gửi?

rất tốt

(a)

(b)

Nếu độ chính xác của mô hình được xem là chấp nhận được, thì nó có thể được sử dụng về sau để phân lớp những bản ghi dữ liệu hoặc các đối tượng mà chúng ta chưa biết nhãn lớp. Lấy ví dụ, quy tắc phân lớp đã học được từ việc phân tích dữ liệu khách hàng đã tồn tại có thể được sử dụng để dự báo loại tiền gửi của khách hàng mới hoặc khách hàng về sau (hình 3.1 a ).

“Dự báo khác biệt với phân lớp ở chỗ nào?”. Dự báo có thể xem như việc xây dựng và sử dụng một mô hình để đánh giá một lớp ví dụ chưa được gán nhãn, hoặc để đánh giá giá trị hay khoảng giá trị của một thuộc tính trong một ví dụ đã cho có thể có [4]. Theo cách này, phân lớp và hồi quy là hai loại quan trọng của dự báo vấn đề, phân lớp được sử dụng để dự báo những giá trị rời rạc hoặc dùng vào việc chỉ tên, trong khi hồi quy được sử dụng để dự báo những giá trị liên tục hoặc đã được sắp xếp. Tuy nhiên, theo quan điểm của chúng ta, việc sử dụng dự báo để

tiên đoán những nhãn lớp như là phân lớp, và sử dụng dự báo để dự đoán những giá trị liên tục (tức là sử dụng kỹ thuật hồi quy) vẫn hay được sử dụng hơn. Quan điểm này thường cũng được chấp nhận trong khai phá dữ liệu.

Phân lớp và dự đoán có nhiều ứng dụng bao gồm chuẩn đoán y học, dự báo hiệu suất, lựa chọn thị trường …

Quy nạp cây quyết định

Quá trình khai phá dữ liệu của Oracle