1. Trang chủ
  2. » Giáo Dục - Đào Tạo

Mô hình cây phân loại sử dụng CARET

21 39 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 21
Dung lượng 1,23 MB

Nội dung

Mơ hình phân loại sử dụng CARET Bs Lê Ngọc Khả Nhi 1 Giới thiệu caret viết tắt Classification And REgression Training Đây công cụ đặc biệt với ứng dụng chính: Mơ hình dự báo Machine learning (Máy học) caret giống cỗ máy lớn tích hợp bên hàng trăm phận nhỏ, package chuyên dụng cho mơ hình hồi quy phân loại Caret hỗ trợ tới 217 kiểu mơ hình khác nhau, bao gồm 92 mơ hình phân loại (bao gồm logistic, naive Bayes, kNN, decision tree… ) 52 mơ hình hồi quy (bao gồm robust linear, quantile, neural network, fuzzy, …) 73 mô hình lưỡng dụng (bao gồm glm, gam, random forest, pls, vector machine…) Caret cung cấp giao thức chung, tổng qt cho tồn mơ hình Caret cho phép thực hiện: Huấn luyện (training), Tinh chỉnh (tuning), Kiểm định (testing) kiểu mơ hình mà hỗ trợ Ngồi caret cung cấp số hàm đặc biệt hỗ trợ việc dựng mơ hình dự báo, ví dụ chuẩn bị , thăm dò xử lý số liệu trước dựng mơ hình 1 Mục tiêu chung series caret Các hướng dẫn series CARET giúp bạn thực được: Các thao tác caret Quy trình huấn luyện (thí dụ: kiểm chứng chéo) Kiểm định phâm chất mơ hình, so sánh Cho kiểu mơ hình thuộc dạng: hồi quy phân loại Những serie không đề cập: Lý thuyết nguyên tắc loại mơ hình Cách diễn giải mơ hình Series dành cho bạn có kiến thức kỹ định mơ hình dự báo và/hoặc mơ hình phân loại; chưa sử dụng qua caret Ghi chú: Mơ hình có mục đích minh họa 1 Mục tiêu riêng Bài đề cập dạng Mơ hình CÂY (CART) dựa theo phương pháp Breiman, Friedman, Olshen and Stone (1984) Package caret triệu hồi rpart tác giả Terry Therneau (2015) CART kiểu mô hình lưỡng dụng (cả hồi quy phân loại), áp dụng vào mục đích phân loại biến kết nhị phân Nội dung bao gồm: Chuẩn bị liệu Huấn luyện mơ hình kiểm chứng chéo Trích xuất nội dung mơ hình Kiểm định khả phân loại mơ hình Mục tiêu quan trọng là: tạo cảm hứng tò mò cho tất bạn chưa biết đến package caret 2 Lộ trình tổng quát cho kiểm chứng chéo / caret Chuẩn bị số liệu Pha trộn phân chia Thiết lập chế độ huấn luyện tinh chỉnh Huấn luyện tinh chỉnh mơ hình Hàm train Hàm trainControl Hàm expand.grid Kiểm định mô hình Hàm predict, confusionMatrix multiClassSummary 2 Sơ đồ Kiểm chứng chéo Mẫu nguyên thủy (N) 20% 80% Phân dùng để huấn luyện (Train) Phân chia Huấn luyện Phần dùng để kiểm định (Test) TRAIN TEST Phân loại thực tế (Xác suất = 1) Kiểm chứng chéo lặp lại (k=5,n=10) Confusion matrix Kappa coefficient (tương hợp) Mc-Nemar test Sensitivity (độ nhạy) Specificity (độ đặc hiệu) Accuracy (độ xác chung) … Phân chia ngẫu nhiên mẫu Huấn luyện thành khối 4 khối để dựng mơ hình Kiểm định mơ hình Trên mẫu « Test » khối kiểm chứng Tinh chỉnh Kiểm chứng Log-Loss (sai biệt dự báo) ROC Mơ hình Dự báo xác suất Lặp lại quy trình 10 lần, ngẫu nhiên Phân loại dự báo Mơ hình sau Kiểm tra ROC, Kappa, độ xác Kết luận Khả phân loại mơ hình Chuẩn bị số liệu data=read.csv("http://vincentarelbundock.github.io/Rdatasets/csv/MASS/biopsy.csv") data=data[,c(3:12)] V1: clump thickness V2: uniformity of cell size V3 : uniformity of cell shape V4: marginal adhesion V5: single epithelial cell size V6:bare nuclei (16 values are missing) V7:bland chromatin V8:normal nucleoli V9:mitoses class: "benign" or "malignant" Dataset biopsy bao gồm : Class biến kết quả: phân loại khối u vú: lành tính hay ác tính V1 tới V9 thang điểm tế bào học mẫu sinh thiết theo tiêu chí, biến kiểu số, thứ hạng Mục tiêu xây dựng mơ hình CART cho phép phân loại khối u vú dựa vào giá trị hay nhiều tiêu chí tế bào học Chuẩn bị số liệu splitdata=function(dataframe, seed=NULL,ratio=NULL) { if (!is.null(seed)) set.seed(seed) dataframe2 NIR] : : : : 0.964 (0.9181, 0.9882) 0.6547

Ngày đăng: 04/08/2019, 08:20

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w