.2 Quá trình phân lớp dữ liệ u (a) Bước xây dựng m- 123docz.net

• Bước thứ hai (classification)

Bước thứ hai dùng mô hình đã xây dựng ở bước trước để phân lớp dữ

liệu mới. Trước tiên độ chính xác mang tính chất dự đoán của mô hình phân lớp vừa tạo ra được ước lượng. Holdout là một kỹ thuật đơn giản để ước lượng độ

chính xác đó. Kỹ thuật này sử dụng một tập dữ liệu kiểm tra với các mẫu đã

được gán nhãn lớp. Các mẫu này được chọn ngẫu nhiên và độc lập với các mẫu trong tập dữ liệu đào tạo. Độ chính xác của mô hình trên tập dữ liệu kiểm tra đã

đưa là tỉ lệ phần trăm các các mẫu trong tập dữ liệu kiểm tra được mô hình phân lớp đúng (so với thực tế). Nếu độ chính xác của mô hình được ước lượng dựa trên tập dữ liệu đào tạo thì kết quả thu được là rất khả quan vì mô hình luôn có xu hướng “quá vừa” dữ liệu. Quá vừa dữ liệu là hiện tượng kết quả phân lớp trùng khít với dữ liệu thực tế vì quá trình xây dựng mô hình phân lớp từ tập dữ

liệu đào tạo có thể đã kết hợp những đặc điểm riêng biệt của tập dữ liệu đó. Do vậy, cần sử dụng một tập dữ liệu kiểm tra độc lập với tập dữ liệu đào tạo. Nếu

độ chính xác của mô hình là chấp nhận được, thì mô hình được sử dụng để phân lớp những dữ liệu tương lai, hoặc những dữ liệu mà giá trị của thuộc tính phân lớp là chưa biết. T u ô ?i Ng o a ?i n g u C h o ?n Ð T 2 5 Anh O K 3 5 Anh O K 4 0 Anh L o s t 2 7 F ra nc e L o s t 3 2 C hine s e L o s t 3 0 Anh O K 3 2 Anh O K 4 0 F ra nc e L o s t Training data Classification algorithm Classifier (model) if tuổi <= 35 or Ngoại ngữ =Anh then Chọn ĐT = OK a)

Hình 3.3 Quá trình phân lớp dữ liệu - (b1)Ước lượng độ chính xác của mô hình

.2 Quá trình phân lớp dữ liệ u (a) Bước xây dựng mô hình phân lớp

Phân tích số liệu bằng R: 38

.6 Liệt kê kết quả phân lớp