Phõn lớp dữ liệu

Một phần của tài liệu Nghiên cứu phương pháp nhận dạng chữ viết tay hạn chế bằng mô hình SVM (Support Vector Machines) (Trang 44 - 47)

í nghĩa của bài toỏn phõn lớp là phõn một điểm mới vào một lớp thớch hợp nhất dựa trờn sự tƣơng đồng giữa cỏc đặc trƣng của những điểm mẫu và điểm mới.

Vớ dụ: Giả sử ta cú ba lớp mẫu gồm lớp cỏc chữ cỏi khụng dấu: A, B, C, D, …, lớp cỏc chữ cỏi cú một dấu: Â, ễ, Ơ, Ă, À, Ạ, ấ…, và lớp cỏc chữ cỏi cú ba dấu: Ậ, Ồ, Ờ, Ế,….

Số húa bởi Trung tõm Học liệu http://www.lrc-tnu.edu.vn/

Phõn lớp dữ liệu gồm hai bƣớc xử lý chớnh:

Bƣớc 1: Học (Training), mục đớch của bƣớc này là xõy dựng một mụ hỡnh xỏc định một tập cỏc lớp dữ liệu. Mụ hỡnh này đƣợc xõy dựng bằng cỏch phõn tớch cỏc bộ dữ liệu của một cơ sở dữ liệu, mỗi bộ dữ liệu đƣợc xỏc định bởi giỏ trị của cỏc thuộc tớnh. Giả sử mỗi bộ dữ liệu đó thuộc về một trong cỏc lớp đó đựơc định nghĩa trƣớc, điều này đƣợc xỏc định bởi một trong cỏc thuộc tớnh, gọi là thuộc tớnh phõn lớp. Trong ngữ cảnh của bài toỏn phõn lớp, mỗi bộ dữ liệu đƣợc xem nhƣ là một mẫu, một vớ dụ, hay một đối tƣợng. Những bộ dữ liệu đƣợc phõn tớch để xõy dựng mụ hỡnh phõn lớp đƣợc lấy từ trong tập dữ liệu học hay dữ liệu huấn luyện (training data set). Những bộ dữ liệu riờng lẻ tạo thành tập dữ liệu huấn luyện cũn gọi là những mẫu huấn luyện (training samples) và đƣợc chọn ngẫu nhiờn từ một kho cỏc mẫu. Bƣớc này đƣợc xem là học cú giỏm sỏt, ngƣợc lại với học cú giỏm sỏt là học khụng cú giỏm sỏt (unsupervised learing), tiờu biểu là bài toỏn gom cụm (clustering) trong đú cỏc lớp mà cỏc mẫu huấn luyện thuộc về là khụng biết trƣớc và số lớp dữ liệu cũng khụng đƣợc biết trƣớc.

Hỡnh 2.9. Bước 1- Học để xõy dựng mụ hỡnh phõn lớp.

Mụ hỡnh đƣợc đƣa ra sau khi đó phõn tớch xong tập dữ liệu huấn luyện thƣờng cú dạng là những quy tắc phõn lớp, cõy quyết định hay cỏc cụng thức toỏn học. Vớ dụ, hỡnh 2.9 cú một cơ sở dữ liệu về thụng tin cỏc ký tự chữ cỏi, một mụ hỡnh phõn lớp (hay luật phõn lớp) đƣợc xõy dựng sau quỏ trỡnh học ở bƣớc 1 cú thể xỏc định những

Số húa bởi Trung tõm Học liệu http://www.lrc-tnu.edu.vn/

ký tự thuộc mỗi nhúm. Luật phõn lớp này cú thể đƣợc sử dụng để phõn loại cỏc mẫu dữ liệu liệu trong tƣơng lai, cũng nhƣ nú cung cấp một tri thức hữu ớch chứa trong cơ sở dữ liệu.

Bƣớc 2: Kiểm tra và đỏnh giỏ, bƣớc này sử dụng mụ hỡnh phõn lớp đó đƣợc xõy dựng ở bƣớc 1 vào việc phõn lớp.

Hỡnh 2.10. Bước 2 - Kiểm tra và đỏnh giỏ.

Đầu tiờn, đỏnh giỏ độ chớnh xỏc của mụ hỡnh hay bộ phõn lớp này, bằng cỏch sử dụng một tập cỏc mẫu đó đƣợc phõn lớp để thử (test) gọi là bộ thử (test set). Những mẫu này đƣợc chọn ngẫu nhiờn và độc lập với cỏc mẫu đó đƣợc học ở bƣớc 1 gọi là mẫu thử (test sample). Độ chớnh xỏc của một mụ hỡnh phõn lớp dựa trờn bộ thử là tỷ lệ những mẫu thử đƣợc phõn lớp đỳng bằng mụ hỡnh phõn lớp đú. Nghĩa là với mỗi mẫu thử, so sỏnh lớp đỳng mà mẫu thử đú thuộc về với lớp mà mụ hỡnh phõn lớp này dự đoỏn cho mẫu thử đú.

Lƣu ý: nếu độ chớnh xỏc của mụ hỡnh này dựa trờn tập dữ liệu huấn luyện, thỡ mụ hỡnh này đƣợc đỏnh giỏ là tối ƣu, nú phõn lớp đỳng hoàn toàn trờn cỏc mẫu đó đƣợc học, trong trƣờng hợp này, mụ hỡnh hƣớng tới sự quỏ khớt (overfitting) của dữ liệu. Vỡ vậy phải sử dụng một bộ dữ liệu liệu thử. Nếu độ chớnh xỏc của một mụ hỡnh đƣợc xem xột cú thể chấp nhận đƣợc thỡ mụ hỡnh đú đƣợc dựng để phõn lớp cho cỏc bộ dữ liệu hoặc cỏc đối tƣợng trong tƣơng lai.

Số húa bởi Trung tõm Học liệu http://www.lrc-tnu.edu.vn/

Vớ dụ mụ hỡnh phõn lớp đƣợc xõy dựng trong bƣớc 1 bằng cỏch phõn tớch dữ liệu của cỏc ký tự đó biết, đƣợc dựng để dự đoỏn cỏc ký tự mới trong tƣơng lai ở hỡnh 2.10.

Một phần của tài liệu Nghiên cứu phương pháp nhận dạng chữ viết tay hạn chế bằng mô hình SVM (Support Vector Machines) (Trang 44 - 47)