Hiện nay, có rất nhiều các thuật toán đƣợc cài đặt và thử nghiệm trên tập dữ liệu MNIST cho kết quả nhận dạng rất khả quan. Các kết quả thử nghiệm này đƣợc thực hiện đầy đủ trên 60000 mẫu huấn luyện và 10000 mẫu kiểm thử có kết quả nhƣ sau [11]:
Phƣơng pháp Tiền xử lý Tỷ lệ lỗi (%)
Phân lớp tuyến tính (1-lớp NN) --- 12
Phân lớp tuyến tính theo cặp Deskewing 7,6
K-láng giềng gần nhất, Euclid (L2) --- 5,0 K-NN, phù hợp ngữ cảnh hình dáng Trích chọn đặc trƣng ngữ cảnh hình dáng 0,63 Mạng Nơ-ron 2 lớp, 1000 đơn vị ẩn --- 4,5 Mạng Nơ-ron 2 lớp, 800 đơn vị ẩn, Cross-Entropy --- 1,6
Bảng 4.6: Một số kết quả thực nghiệm trên tập dữ liệu MNIST [11].
Từ bảng kết quả trên cùng nhiều nghiên cứu, thử nghiệm khác ta có thể thấy các thuật toán tiên tiến nhƣ mạng nơ-ron nhiều tầng, học sâu (deep learning),... có thể nhận dạng với tỷ lệ lỗi thấp nhất.
Kết chƣơng
Qua dữ liệu thử nghiệm của chƣơng trình, ta có thể thấy việc sử dụng hàm nhân trong máy vector hỗ trợ có tỷ lệ nhận dạng đúng với kết quả khá cao. Trong đó, với mỗi một hàm nhân và các tham số thích hợp tƣơng ứng của nó cũng đƣa ra những kết quả nhận dạng khác nhau để ta có thể đánh giá và đƣa ra kết luận lựa chọn tham số phù hợp nhất cho bài toán nhận dạng chữ số viết tay. Việc cài đặt thuật toán tìm kiếm dạng lƣới cũng giúp ích cho chúng ta khá nhiều khi kiểm tra một dãy giá trị các tham số. Bên cạnh đó, khi sử dụng thẩm định chéo, ta cũng thấy đƣợc tỷ lệ thẩm định đúng khá sát khi kiểm tra trên dữ liệu thực tế.
KẾT LUẬN
Luận văn đi sâu vào tìm hiểu các hàm nhân trong thuật toán máy vector hỗ trợ và ứng dụng của nó trong bài toán nhận dạng chữ số viết tay.
Kết quả đạt đƣợc của luận văn
1. Tìm hiểu về lý thuyết học máy, nội dung của thuật toán máy vector hỗ trợ. 2. Tìm hiểu các hàm nhân trong máy vector hỗ trợ và một số phƣơng pháp
tìm tham số cho hàm nhân để đạt đƣợc hiệu quả cao nhất.
3. Tìm hiểu bài toán nhận dạng chữ viết tay, các bƣớc áp dụng máy vector hỗ trợ và hàm nhân trong bài toán nhận dạng chữ số viết tay.
4. Cài đặt thuật toán tìm kiếm dạng lƣới và thẩm định chéo dựa trên Accord.net Framework, từ đó đƣa ra kết luận tham số tốt nhất trong một khoảng giá trị cho hàm nhân Gaussian khi áp dụng thẩm định chéo. Đồng thời, thử nghiệm các hàm nhân khác nhau với các tham số khác nhau để đánh giá hiệu quả của thuật toán trên tập dữ liệu MNIST với 5000 mẫu huấn luyện và 2000 mẫu thử nghiệm.
Hƣớng phát triển của luận văn
Với kết quả nhận dạng khá tốt khi sử dụng máy vector hỗ trợ trong nhận dạng chữ số viết tay có thể cho ta thấy đây là thuật toán có thể áp dụng hiệu quả trong thực tế. Trong đó, việc sử dụng các hàm nhân khác nhau cũng nhƣ các tham số tƣơng ứng khác nhau cũng đem lại kết quả khác nhau giúp ta có thể đƣa ra một lựa chọn hàm nhân tối ƣu nhất cho từng trƣờng hợp cụ thể. Tuy nhiên, hiệu suất tính toán khi xử lý với tập dữ liệu lớn để huấn luyện vẫn chƣa cao. Do đó, hƣớng phát triển tiếp theo của đề tài là tối ƣu hóa thuật toán để có thể rút ngắn thời gian huấn luyện với tập dữ liệu lớn. Đồng thời, có thể đƣa tự động ra lựa chọn hàm nhân tối ƣu nhất cho hệ thống.
Ngoài ra, hƣớng nghiên cứu tiếp theo của đề tài là áp dụng đƣợc thuật toán máy vector hỗ trợ trong nhận dạng chữ viết tay trong đó có Tiếng Việt, để đƣa ra đƣợc một phần mềm nhận dạng chữ viết tay một cách trọn vẹn nhất.
TÀI LIỆU THAM KHẢO Tiếng Việt
[1] Trần Uyên Trang, Giáo trình Trí tuệ nhân tạo, 2013
[2] Nguyễn Thị Thảo, Phương pháp phân lớp sử dụng máy vector hỗ trợ ứng dụng trong tin sinh học, Tạp chí Khoa học và Phát triển, 2011.
[3] Phạm Anh Phƣơng, “Nghiên cứu ứng dụng phương pháp máy véc tơ tựa trong nhận dạng chữ Việt viết tay rời rạc”, Luận án Tiến sĩ, 2010.
Tiếng Anh
[4] Henok Girma, “A tutorial on Support Vector Machine”, 2009.
[5] Cesar de Souza, “Handwriting Recognition Revisited: Kernel Support Vector Machine”, 2012.
[6] Colin Campbell, “Kernel methods: a survey of current techniques”, 2001. [7] Alexandros Karatzoglou, David Meyer, Kurt Hornik “Support Vector Machines in R”, Journal of Statistical Software, 2006.
[8] Olivier Chapelle, Vladimir Vapnik, “Choosing Multiple Parameters for Support Vector Machines”, 2001.
[9] Ching-Yinn Lee, Shuh-Gi Chern, “Application of a support vector machine for liquefaction assessment”, Journal of Marine Science and Technology, Vol.21, No.3, pp.318-324, 2013.
[10] Chih-Wei Hsu, Chih-Chung Chang, and Chih-Jen Lin, “A Practical Guide to Support Vector Classification”, 2010.
[11] Y. LeCun, L. Bottou, Y. Bengio, and P. Haffner. "Gradient-based learning applied to document recognition.", Proceedings of the IEEE, 86(11): 2278-2324, 1998.