Thử nghiện chƣơng trình

Để đánh giá hiệu quả của thuật toán SVM và các hàm nhân của nó, việc lựa chọn các bƣớc thử nghiệm, số lƣợng mẫu huấn luyện cũng rất quan trọng. Ta có thể thử nghiệm chƣơng trình qua từng bƣớc nhƣ sau:

 Đánh giá và tìm ra tham số thích hợp trong một khoảng giá trị đƣợc xác định trƣớc của từng hàm nhân: Với cùng một lƣợng dữ liệu mẫu huấn luyện, ta sẽ lần lƣợt thử nghiệm từng hàm nhân với giá trị các tham số khác nhau có sử dụng thẩm định chéo, và thử nghiệm trên tập dữ liệu thực tế để đƣa ra giá trị thích hợp nhất với các tham số.

 So sánh hiệu quả của các hàm nhân: Với cùng mội lƣợng dữ liệu mẫu huấn luyện, ta sẽ lần lƣợt thử nghiệm với từng hàm nhân khác nhau với tham số tối ƣu đã có ở bƣớc trên để đánh giá và so sánh hiệu quả của từng hàm nhân.

 So sánh hiệu quả của SVM với lƣợng mẫu khác nhau: Từ hàm nhân đƣợc đánh giá cao ở bƣớc trên và tham số tối ƣu của nó, ta sẽ thử nghiệm chƣơng trình với số lƣợng mẫu dữ liệu huấn luyện tăng dần để đánh giá đƣợc hiệu quả và thời gian tính toán của SVM.

Để lấy dữ liệu huấn luyện và kiểm thử, chúng tôi đã sử dụng kho dữ liệu MNIST tại website http://yann.lecun.com/exdb/mnist/, đây là một kho dữ liệu chữ số viết tay mẫu chuẩn, đƣợc sử dụng để kiểm chứng nhiều ứng dụng trên thực tế. Các ký tự mẫu đƣợc mã hóa dƣới dạng ma trận 28x28 bit nhị phân. Để thuận tiện cho việc sử dụng, chúng tôi đã chuyển ký tự mã hóa này thành ký tự đƣợc biểu diễn bằng ma trận 32x32 bit nhị phân, trong đó sử dụng 5000 mẫu làm mẫu huấn luyện và 2000 mẫu làm mẫu kiểm thử.

Cùng với dữ liệu đánh giá ở trên, dữ liệu báo cáo ở dƣới đây đƣợc chạy trên máy tính cá nhân, có cấu hình ở mức trung bình nhƣ sau:

 Hệ điều hành: Windows 7

 Phần mềm: Đƣợc viết trên Visual Studio 10, ngôn ngữ C#

 Bộ vi xử lý: Intel Core i3

 Bộ nhớ RAM: 4GB

Các bảng kết quả thử nghiệm dƣới đây đều đề cập đến tỷ lệ nhận dạng đúng, đây chính là tỷ lệ phần trăm các ký tự đƣợc nhận dạng đúng trên 2000 ký tự đƣợc đƣa ra thử nghiệm sau khi áp dụng mô hình huấn luyện.

Trích chọn đặc trƣng

Huấn luyện và nhận dạng