3 Các công trình liên quan
5.2.3 Tập dữ liệu phiếu gửi Viettel post
Dữ liệu cho chữ viết tay tiếng Việt hiện tại cịn rất hạn chế, ngồi tập VNOnDB (Tiểu mục 5.2.1) được sử dụng nhiều trong việc nghiên cứu và tập dữ liệu của Cin- namon (Tiểu mục 5.2.2) mang tính chất cơng nghiệp thì hầu như khơng thể tìm thấy dữ liệu về chữ viết tay tiếng Việt nào khác. Vì vậy ngồi việc kế thừa, sử dụng những tập dữ liệu đã có thì chúng tơi đã tiến hành thu thập thêm tập dữ liệu “Phiếu gửi Viettel Post”, đầu tiên là để xây dựng một tập dữ liệu chữ viết tay tiếng Việt phù hợp
với mục tiêu nghiên cứu của đề tài, tiếp theo hướng đến việc góp phần làm giàu kho dữ liệu chữ viết tay tiếng Việt nhằm đáp ứng được các nhu cầu nghiên cứu cũng như ứng dụng thực tế vì dữ liệu chữ viết tay tiếng Việt trong cộng đồng hiện nay cịn ít. Và đây là tập dữ liệu chính được sử dụng trong luận văn này.
Tập dữ liệu được thu thập và gán nhãn gồm 243 mẫu đơn phiếu gửi của viettel post. Trong đó 201 ảnh được sử dụng cho tập huấn luyện và tập đánh giá, 42 ảnh còn lại được đưa vào tập kiểm tra để sử dụng cho quá trình kiểm tra kết quả cuối cùng của mơ hình. Mẫu gán nhãn các vùng chữ viết tay và thống kê số lượng biểu mẫu viettel post được thể hiện ở Hình 5.4 và Bảng 5.5.
Hình 5.4: Mẫu gán nhãn phiếu gửi Viettel post
Sau khi gán nhãn và tiến hành cắt các vùng chữ viết tay (textline) thì chúng tơi thu thập được tổng cộng 2742 hình ảnh thuộc 16 trường giá trị khác nhau. Hình ảnh các vùng chữ viết tay sau khi được cắt ra để làm dữ liệu đầu vào cho bài tốn được thể hiện ở Hình 5.5 và thống kê số lượng được thể hiện ở Bảng 5.6. Bảng 5.4 liệt kê
Thí nghiệm 58
các nhãn đang được sử dụng cũng như ý nghĩa của chúng, đối với các textline cùng trường nhưng rơi ra hai dịng thì sẽ được đánh số vào sau nhãn đó để thuận tiện cho quá trình gộp lại sau này.
Bảng 5.4: Các loại nhãn được sử dụng trong quá trình gán nhãn ngữ nghĩa textline.
Index Tên lớp Ý nghĩa
0 V_SN Tên người gửi
1 V_SPHONE Số điện thoại người gửi 2 V_SA Địa chỉ người gửi 3 V_RN Tên người nhận 4 V_RA Địa chỉ người nhận 5 V_RW Phường, xã người nhận 6 V_RD Quận, huyện người nhận 7 K_RP Tỉnh, thành phố người nhận 8 V_RPHONE Số điện thoại người nhận 9 V_SC Mã khách hàng gửi 10 V_MC Cước chính
11 V_PC Nội dung hàng hóa
12 DATE1 Ngày
13 DATE2 Tháng
14 DATE3 Năm
15 SIGN_NAME Tên ở phần ký tên
Bảng 5.5: Thống kê số lượng biểu mẫu trên tập dữ liệu Viettel post
Huấn luyện + Đánh giá Kiểm tra Tổng cộng
201 42 243
Bảng 5.6: Thống kê số lượng textline trên tập dữ liệu Viettel post
Tập huấn luyện Tập đánh giá Tập kiểm tra Tổng cộng
Thí nghiệm 59
Hình 5.5: Các textline sau khi được cắt từ mẫu tài liệu ban đầu
Thí nghiệm 60
Nhìn chung dữ liệu chữ viết tay tiếng Việt được lấy từ biểu mẫu của Viettel post tổng hợp các nét chữ đa dạng, mỗi biểu mẫu là một nét chữ khác nhau, tuy nhiên số lượng dữ liệu thu thập được vẫn chưa đủ nhiều. Nền của chữ đa phần là nền trắng hơi ngã vàng, có dịng dấu chấm. Độ khó để nhận dạng chữ viết đối với dữ liệu này cao, bởi vì nhiều nét chữ nguệch ngoạc khơng rõ ràng, nhiều từ viết tắt và đặt dấu câu khơng chính xác, nhiều hàng bị xếp chồng lên nhau dẫn đến bị nhiễu. Hình 5.6 tổng hợp một số trường hợp dữ liệu dòng được cắt ra từ tờ gửi Viettel post.