Đánh giá độ chính xác classifier

Một phần của tài liệu (LUẬN văn THẠC sĩ) nghiên cứu một số phương pháp phân lớp và ứng dụng trong phân lớp dữ liệu protein sumo hóa (Trang 55 - 56)

Holdout và đánh giá chéo là hai kỹ thuật phổ biến để đánh giá độ chính xác classifier dựa trên các phân chia lấy mẫu ngẫu nhiên từ dữ liệu cho trước.

Trong phương pháp holdout, dữ liệu đã cho được phân chia ngẫu nhiên vào trong hai tập độc lập: một tập huấn luyện và một tập kiểm định. Hai phần ba dữ liệu được chỉ định là tập huấn luyện và cịn lại một phần ba được chỉ định là tập kiểm định. Tập huấn luyện được dùng để thu classifier, độ chính xác của nĩ được đánh giá với tập kiểm định (Hình 2.14). Việc đánh giá này là lạc quan bởi chỉ một phần dữ liệu ban đầu được dùng để thu classifier. Lấy mẫu con ngẫu nhiên là một sự thay đổi của phương pháp holdout trong

đĩ phương pháp holdout được lặp lại k lần. Độ chính xác classifier bằng giá trị trung bình của các độ chính xác cĩ được từ mỗi lần lặp.

Trong đánh giá chéo k-mặt (k-fold cross validation), dữ liệu ban đầu được phân chia ngẫu nhiên vào trong k tập con riêng biệt ("các fold") 𝑆1, 𝑆2,,..., 𝑆𝑘,, chúng cĩ kích thước xấp xỉ bằng nhau. Huấn luyện và kiểm định được thực hiện k lần. Trong lần lặp thứ i, tập con Si đĩng vai trị như một tập kiểm định và các tập con cịn lại được dung chung để huấn luyện classifier. Tức là classifier của lần lặp đầu tiên được huấn luyện trên các tập con

𝑆2,, 𝑆3,,..., 𝑆𝑘, và được kiểm định trên S1; classifier của lần lặp thứ 2 được huấn luyện trên các tập con 𝑆1,, 𝑆3,,..., 𝑆𝑘, và được kiểm định trên 𝑆2,, v.v... Độ chính xác classifier là tồn bộ số lượng các phân lớp chính xác từ k lần lặp chia cho tổng số lượng các mẫu trong dữ liệu ban đầu. Trong đánh giá chéo chéo phân tầng, các fold được phân tầng để sự phân bố lớp của các mẫu trong mỗi fold xấp xỉ như sự phân bố lớp trong dữ liệu ban đầu.

Nhìn chung, phân tầng đánh giá chéo chéo 10-fold được đề nghị để đánh giá độ chính xác classifier (thậm chí nếu khả năng tính tốn cho phép thì cĩ thể sử dụng nhiều fold hơn).

Sử dụng các kỹ thuật này để đánh giá độ chính xác classifier, làm tăng tổng số lần tính tốn, tuy nhiên nĩ lại hữu ích cho việc lựa chọn classifier.

Một phần của tài liệu (LUẬN văn THẠC sĩ) nghiên cứu một số phương pháp phân lớp và ứng dụng trong phân lớp dữ liệu protein sumo hóa (Trang 55 - 56)

Tải bản đầy đủ (PDF)

(82 trang)