Pha 1: Học (learning): tìm hàm xấp xỉ cho mục tiêu (Target Function) g(X)>Nhãn

Một phần của tài liệu BÀI GIẢNG HỌC MÁY Ngành Khoa học Máy tính (Trang 41 - 42)

(thường mô tả theo bộ luật): Phân loại dựa trên Tập dữ liệu Huấn luyện/học hay các ví dụ. - Pha2: Pha thử (Tets) DỰ ĐOÁN, PHỎNG ĐOÁN.

2. Dữ liệu thử nghiệm ứng với 2 cơng đoạn đó là E=(Data)training +(Data)Test Có 2 cách phân chia dữ liệu chính cho hai cơng đoạn: Có 2 cách phân chia dữ liệu chính cho hai cơng đoạn:

- Cách 1: Percentage Split (Phân chia %) (Data)E [100%]=(Data)training [70%] +(Data)Test[30%] - Cách 2: Cross-Validation (Xác thực chéo): Chia (Split) (Data)E thành k-Folds (k-tập); kinh

nghiệm, nếu dữ liệu lớn hơn 300 bản ghi (hay 300 mẫu) chọn k=10 phần bằng nhau;

 Thực hiện Học máy k-lần. Mỗi lần (k=1, 2, ...), trong đó lấy 9 phần học, 1 phần để thử, theo kiểu hốn vị. Và tính độ chính xác (độ đo P) như: Accuracy, Racall, Precision, F1...

 Sau k-lần như vây, Độ chính xác tổng thể của các độ đo như: Accuracy, Racall, Precission, F1,... được cộng lai và chia cho k lần để lấy trung bình cộng của k-lần.

3. Phương pháp cây của ơng Quinlan cịn cải tiến với tên gọi C5.0 tương đương với thuật tóanCART ở đó sử dụng chỉ số GINI, với tiêu chuẩn Min(GINI). Đọc thêm: Lê Thanh Nghị (ĐH CART ở đó sử dụng chỉ số GINI, với tiêu chuẩn Min(GINI). Đọc thêm: Lê Thanh Nghị (ĐH Cần Thơ) dùng ngôn ngữ R.

4. Các phương pháp nêu trên sử dụng rộng rãi, và là họ thuật toán đứng đầu trong Top 10 thuậttoán được sử dụng nhiều nhất trong Học máy và Khai phá dữ liệu; 1) Quinlan (dùng phương toán được sử dụng nhiều nhất trong Học máy và Khai phá dữ liệu; 1) Quinlan (dùng phương pháp Thống kê); 2) Độ lộn xộn. 3) ID3. 4)C4.5 (dùng Entropy có gốc Xác suất); 5)C.5.0.

5. Phương pháp cây quyết (TREE) đồng nghĩa với phương chia để trị (DEVIDE & CONQUER) Có hai cách chia dữ liệu huấn luyện: cách chia theo đầu vào (ví dụ như phương pháp cây Có hai cách chia dữ liệu huấn luyện: cách chia theo đầu vào (ví dụ như phương pháp cây quyết định chia thành các đặc trưng (gọi là gốc). Cách chia thứ 2: cách chia theo giá trị đầu ra (gọi là nhãn. Trong bài tốn “Weather” có 2 giá trị đầu ra gồm {yes, no} hay cịn gọi là NHÃN (Label). Cây

quyết định, thì Quyết định ở đây đúng nghĩa là: “có (yes) đi chơi Tennis khơng?”. Tuy nhiên, trong các bài tốn và ngữ cảnh khác thì ví dụ trong dữ liệu “Có rám hay khơng”, do đó, Quyết định ở đây được hiểu khác nghĩa ví dụ bị ảnh hưởng, tác động...

Thuật tốn mà cây được chia theo các giá trị đầu ra (hay nhãn) được giới thiệu sau đây và

dược gọi là thuật tóan ILA. Bài tâp: dùng C4.5 giải bài tốn “Rám nắng”. Đọc thêm C5.0

3.6. Thuật toán học cây quyết định quy nạp: ILA

- Machine Learning: chia làm 3 loại: Giám sát hay học có thầy (super-visedlearning? Siêu-), khơng giám sát, tăng cường. Ví dụ mạch Nơ ron AND

Một phần của tài liệu BÀI GIẢNG HỌC MÁY Ngành Khoa học Máy tính (Trang 41 - 42)