Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 64 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
64
Dung lượng
1,33 MB
Nội dung
PHÂN LỚP VÀ DỰ ĐOÁN TS. Võ Đình Bảy bayvodinh@gmail.com NỘI DUNG Phân lớp và dự đoán? Các vấn đề về phân lớp và dự đoán Quy nạp trên cây quyết định Phân lớp Bayes Các phƣơng pháp phân lớp khác 2 TS. Võ Đình Bảy PHÂN LỚP LÀ GÌ ? DỰ ĐOÁN LÀ GÌ? Có thể dùng phân lớp và dự đoán để xác lập mô hình nhằm mô tả các lớp quan trọng hay dự đoán khuynh hƣớng dữ liệu trong tƣơng lai. Phân lớp(classification): Tạo ra bộ phân lớp/ mô hình phân lớp từ dữ liệu. Dự đoán (prediction): Dựa vào bộ phân lớp để dự đoán nhãn của các mẫu chƣa biết nhãn. 3 TS. Võ Đình Bảy Phân lớp dữ liệu là tiến trình có 2 bƣớc Huấn luyện: Dữ liệu huấn luyện đƣợc phân tích bởi thuật tóan phân lớp ( có thuộc tính nhãn lớp) để tạo ra bộ phân lớp Phân lớp: Dữ liệu kiểm tra đƣợc dùng để ƣớc lƣợng độ chính xác của bộ phân lớp. Nếu độ chính xác là chấp nhận đƣợc thì có thể dùng bộ phân lớp để phân lớp các mẫu dữ liệu mới. Phân lớp là gì? Dự đoán là gì ? 4 TS. Võ Đình Bảy Mô hình phân lớp 5 TS. Võ Đình Bảy dataset Classifier alg. Classifier Training Test Accuracy New case class Độ chính xác (accuracy) của bộ phân lớp trên tập kiểm tra cho trước là phần trăm của các mẫu trong tập kiểm tra được bộ phân lớp xếp lớp đúng Phân lớp là gì? Dự đoán là gì ? sampletest ofnumber total sampletest classifiedcorrectly Accuracy 6 TS. Võ Đình Bảy CHUẨN BỊ DỮ LIỆU Làm sạch dữ liệu Nhiễu Thiếu giá trị Phân tích liên quan (chọn đặc trƣng) Các thuộc tính không liên quan Các thuộc tính dƣ thừa Biến đổi dữ liệu 7 TS. Võ Đình Bảy SO SÁNH CÁC PHƢƠNG PHÁP PHÂN LỚP Độ chính xác của dự đoán: khả năng bộ phân lớp dự đoán đúng dữ liệu chƣa biết trƣớc nhãn Tính bền vững: khả năng của bộ phân lớp thực hiện dự đoán đúng với dữ liệu nhiễu hay thiếu giá trị Tính kích cỡ (scalability): khả năng tạo bộ phân lớp hiệu quả với số lƣợng dữ liệu lớn Khả năng diễn giải: bộ phân lớp cung cấp tri thức có thể hiểu đƣợc 8 TS. Võ Đình Bảy PHƯƠNG PHÁP CÂY QUYẾT ĐỊNH CÂY QUYẾT ĐỊNH Cây quyết định là cấu trúc cây sao cho: Mỗi nút trong ứng với một phép kiểm tra trên một thuộc tính Mỗi nhánh biểu diễn kết quả phép kiểm tra Các nút lá biểu diễn các lớp hay các phân bố lớp Nút cao nhất trong cây là nút gốc. 10 TS. Võ Đình Bảy [...]... bng 0) TS Vừ ỡnh By 1 Tng thuc tớnh ó c a vo dc theo con ng trờn cõy Lu ý: Thut toỏn ID3 dựng Information Gain v C4.5, thut toỏn c phỏt trin sau nú, dựng Gain Ratio (mt bin th ca Information Gain) 28 Cỏc thuc tớnh vi nhiu giỏ tr Nu thuc tớnh cú nhiu giỏ tr (vớ d, cỏc ngy trong thỏng) TS Vừ ỡnh By ID3 s chn nú C4.5 dựng GainRatio Gain(S, A) GainRatio( S, A) SplitInformation(S, A) SplitInformation(S,... TS Vừ ỡnh By Bt u t nỳt n biu din tt c cỏc mu Nu cỏc mu thuc v cựng mt lp, nỳt tr thnh nỳt lỏ v c gỏn nhón bng lp ú Ngc li, dựng o thuc tớnh chn thuc tớnh s phõn tỏch tt nht cỏc mu vo cỏc lp Mt nhỏnh c to cho tng giỏ tr ca thuc tớnh c chn v cỏc mu c phõn hoch theo Dựng quy cựng mt quỏ trỡnh to cõy quyt nh Tin trỡnh kt thỳc ch khi bt k iu kin no sau õy l ỳng Tt c cỏc mu cho mt nỳt cho trc . PHÂN LỚP VÀ DỰ ĐOÁN TS. Võ Đình Bảy bayvodinh@gmail.com NỘI DUNG Phân lớp và dự đoán? Các vấn đề về phân lớp và dự đoán Quy nạp trên cây quyết định Phân lớp Bayes. Phân lớp( classification): Tạo ra bộ phân lớp/ mô hình phân lớp từ dữ liệu. Dự đoán (prediction): Dựa vào bộ phân lớp để dự đoán nhãn của các mẫu chƣa biết nhãn. 3 TS. Võ Đình Bảy Phân. Các phƣơng pháp phân lớp khác 2 TS. Võ Đình Bảy PHÂN LỚP LÀ GÌ ? DỰ ĐOÁN LÀ GÌ? Có thể dùng phân lớp và dự đoán để xác lập mô hình nhằm mô tả các lớp quan trọng hay dự đoán khuynh hƣớng