8 Tổng kết
7.5 Một số ảnh kết quả của mô hình
Tuy việc gán nhãn theo cách rút gọn này giúp mô hình có thể học tốt hơn, đúng hơn so với nhãn được đưa vào. Thế nhưng có một vấn đề gặp phải, là những nhãn Giá trị khi bị đè lên nhau (overlap) sẽ có hiện tượng gộp chung thành một miền giá trị, và khi học sẽ bị đi cùng với nhau như hình 7.5
Chương 8 Tổng kết
8.1 Kết quả đạt được
Kết thúc giai đoạn Luận văn tốt nghiệp, tôi đã học hỏi, trang bị được rất nhiều kiến thức trong lĩnh vực Thị giác máy tính nói riêng, lĩnh vực Học máy, học sâu nói chung. Khi bước chân vào giai đoạn Đề cương cho tới khi kết thúc Luận văn, tôi đã có thể nắm được những cơ bản về ngành Trí tuệ nhân tạo, hiểu cách thức hoạt động của những mô hình. Từ đó, tôi cũng đã thực hiện được mô-đun nhận dạng khung và vùng văn bản trong tài liệu có bố cục cố định có kết quả khá tốt. Mô hình mà tôi xây dựng đã đáp ứng được đầy đủ các yêu cầu của bài toán đặt ra:
• Phát hiện được vùng khung, vùng văn bản.
• Tách vùng văn bản thành từng dòng văn bản để có thể phục vụ cho mô hình OCR. Tôi đã tìm hiệu và có thể đánh giá được những điểm mạnh yếu riêng của từng cách tiếp cận bài toán, cũng như những mô hình mạng nơ-ron khác nhau. Tuy chưa hiểu sâu và phân biệt rõ ràng được những biến thể của U-Net để có thể có những bước cải tiến riêng cho bài toán, nhưng tôi cũng đã tìm ra cách để đánh nhãn, hậu xử lý để đưa ra kết quả tốt.
Ngoài ra tôi cũng đã xây dựng được một bộ dữ liệu về tờ đơn của Viettel Post(VTP) gồm 251 ảnh với bộ nhãn đầy đủ và có thể tùy chỉnh theo nhu cầu bài toán, góp phần đóng góp cho cộng đồng những người đam mê lĩnh vực Thị giác máy tính (Computer Vision) ở Việt Nam và thế giới có cơ hội được nghiên cứu, phát triển các hệ thống.
8.2 Những hạn chế và định hướng phát triển trongtương lai tương lai
8.2.1 Hạn chế
• Tập dữ liệu được tôi gán nhãn còn khá nhỏ, và mất rất nhiều thời gian để gán nhãn do lượng nhãn quá lớn trên một ảnh, ngoài ra do chỉ có một mình tôi thực hiện cũng như có một vài lần thay đổi cách gán nhãn nên không tránh khỏi những sai sót trong quá trình gán nhãn như: gán sai nhãn, gán nhầm nhãn, vùng khoanh nhãn chưa được tối ưu.
• Cách tiếp cận của mô hình hiện tại còn đơn sơ, chưa sử dụng được hết khả năng cũng như tài nguyên, những nhãn Khóa chưa được sử dụng để hỗ trợ việc nhận diện nhãn Giá trị.
• Phần hậu xử lý chỉ mang tính thử nghiệm, chưa có những phương pháp đánh giá chính xác, tốc độ xử lý chưa được nhanh.
• Chưa thể xây dựng một hệ thống hay ứng dụng hoàn thiện end-to-end, hiện tại chỉ là những mô-đun rời rạc.
• Mô hình sau huấn luyện chỉ hoạt động tốt trên tập dữ liệu VTP, chưa có tính phổ quát.
8.2.2 Hướng phát triển
Dựa trên những hạn chế đã trình bày, để hoàn thiện và cải thiện mô hình, tôi dự kiến sẽ phát triển tiếp với những ý sau:
• Làm giàu thêm tập dữ liệu hiện có, xử lý những dữ liệu đang bị sai nhãn cũng như đánh nhãn chưa tốt, sau đó tiến hành huấn luyện lại mô hình cũng như đánh giá lại hệ thống.
• Xây dựng hệ thống, ứng dụng hoàn thiện từ những mô-đun đang có.
• Nghiên cứu, phát triển tiếp các mô-đun OCR, trích xuất thông tin để hoàn thiện một hệ thống trích xuất thông tin từ văn bản chữ viết tay.
Phụ lục A
Kệ hoạch thực hiện luận văn
Từ những ngày đầu giai đoạn đề cương đến nay, tôi đã xây dựng kế hoạch cụ thể cho từng giai đoạn để đảm bảo cho luận văn hoàn thành một cách tốt nhất. Mặc dù ảnh hưởng việc học, việc làm cũng như tình hình dịch bệnh căng thẳng của Covid-19 có làm chậm tiến độ đã được đề ra. Song kế hoạch thực hiện vẫn được đảm bảo hoàn thành, bản kế hoạch thực hiện luận văn được tôi trình bày trong hình A.1 dưới đây.