Khóa luận này đã giới thiệu một cách tổng quan về lĩnh vực nhận dạng chữ viết, cho đến nay vẫn thu hút sự quan tâm của nhiều nhà nghiên cứu học máy. Hiện nay, một phương án có thể nghĩ đến đề phát triển hơn thuật toán phân cụm Kmeans đó là kết hợp giảm chiều các đặc trưng bằng thuật toán PCA (Principle Component Analysis) trước khi thực hiện việc nhận dạng.
Kết hợp thuật toán phân cụm Kmeans với các thuật toán khác như Elbow method (phương pháp khuỷu tay) để xác định số lượng cụm trong tập dữliệu đểgiải quyết vấn đềlựa chọn số lượng trọng tâmK ban đầu sao cho hợp lí.
Kết hợp thuật toán phân cụm Kmeans với thuật toán K-means++ (thuật toán cải thiện vịtrí khởi tạo trọng tâm K ban đầu) để tránh tình trạng khởi tạo trọng tâm K ban đầu khiến thuật toán có tốc độchạy chậm hoặc cho ra nghiệm không chính xác (local minium– điểm cực tiểu nhưng không phải giá trịnhỏnhất).
TÀI LIỆU THAM KHẢO
1. Bishop C.M. (2006), Pattern recognition and machine learning, Springer, New
York.
2. Alpaydin E. (2010), Introduction to machine learning, MIT Press, Cambridge,
Mass.
3. Vũ Hữu Tiệp (2018), Machine Learning cơ bản, Nhà Xuất Bản Khoa Học và Kỹ Thuật.
4. Bousquet O., von Luxburg U., và Raetsch G. (2004), Advanced Lectures on Machine Learning, Springer-Verlag.
5. Kriegel H., Kröger P., Sander J. và cộng sự. (2011). Density‐based clustering.
WIREs Data Mining Knowl Discov,1(3), 231–240.
6. Lauretto M., Nakano F., Pereira C.A.B. và cộng sự. (2008). Hierarchical
Forecasting with Functional Trees. AIP Conference Proceedings, Boraceia, Sao
Paulo (Brazil), AIP, 317–324.
7. Rokach L. và Maimon O. (2005). Clustering Methods. Data Mining and Knowledge Discovery Handbook. Springer-Verlag, New York, 321–352.
8. Coope I.D. và Price C.J. (2001). On the Convergence of Grid-Based Methods for
Unconstrained Optimization. SIAM J Optim,11(4), 859–869.
9. Shafeeq A. (2012). Dynamic Clustering of Data with Modified K-Means Algorithm. .
10. Garbade D.M.J. (2018). Understanding K-means Clustering in Machine Learning. Towards Data Science, <https://towardsdatascience.com/understanding-k- means-clustering-in-machine-learning-6a6e67336aa1?fbclid=IwAR2WIL4NY- CVbMrb9ZvdZSyYjHu8B_aG3Le59orQkjb_wnsRhq_TXlpiLp4>, accessed: 01/05/2019.
11. Li L. và Lin H. (2007). Ordinal Regression by Extended Binary Classification.
Advances in Neural Information Processing Systems 19. MIT Press, 865–872. 12. Aly M. (2005), Survey on Multiclass Classification Methods, .
13. Kleinbaum D.G. và Klein M. (2010), Logistic Regression, Springer New York,
New York, NY.
14. Chakrabarty N. (2019). Decision Boundary Visualization(A-Z). Towards Data Science, <https://towardsdatascience.com/decision-boundary-visualization-a-z- 6a63ae9cca7d?fbclid=IwAR2r-XJ3p3dHh9l7G_hop_Ty3rW7MyrNOb-
yUjlj6zKDQBIX83xq3HLDqWc>, accessed: 01/05/2019.
15. Knofczynski G.T. Sample Sizes for Predictive Regression Models and Their Relationship to Correlation Coefficients. 8.
16. Kim D. và Fessler J.A. (2016). Optimized first-order methods for smooth
convex minimization. Mathematical Programming, 159(1–2), 81–107.
17. Domingos P. Bayesian Averaging of Classifiers and the Overfitting Problem.8. 18. Neumaier A. (1998). Solving Ill-Conditioned and Singular Linear Systems: A
Tutorial on Regularization. SIAM Rev,40(3), 636–666.
19. Scott D. và ConnellaPen (2000). K-Means Clustering for Hidden Markov. .
20. Pourmohammad S., Soosahabi R., và Maida A.S. (2013). An efficient character
recognition scheme based on k-means clustering. 2013 5th International Conference on Modeling, Simulation and Applied Optimization (ICMSAO), Hammamet, IEEE,
1–6.
21. Hoàng Thị Ly Na (2019), Phương pháp Gradient Descent và ứng dụng trong bài toán dự đoán và bài toán nhận dạng, .
22. Mai Phương Đông (2019), Tìm hiểu vê thuật toán BFGS và ứng dụng vào các bài toán phân loại, .