4 Kết quả
4.1 Tái lập các cơng trình tham khảo
Cơng trình CROHME 2019 CROHME 2014 CROHME 2016
MultiScale WAP 65.73 41.36 41.76
WAP 53.93 20.83 20.58
Bảng 5: Kết quả huấn luyện, đánh giá từ việc tái lập các cơng trình tham khảo[13], [14]. Bảng [5] trình bày đánh giá dựa theo độ đo ExpRate của 2 cơng trình WAP[13] và MultiScale WAP[14] được tái lập trên các tập dữ liệu Valid (CROHME 2019) và
Test (CROHME 2014, CROHME 2016). Dựa vào các chỉ số đánh giá ta có thể thấy
rõ ràng được sự cải thiện về mặt điểm số rõ rệt giữa 2 cơng trình. Mặc dù khoảng cách điểm số trên tập Valid giữa 2 cơng trình chỉ khoảng10điểm ExpRate nhưng khi đánh giá kết quả trên tập Valid thì khoảng cách ấy tăng lên thành 20 điểm cách biệt. Qua đó cho ta thấy được việc thêm cơ chế tập trung đa phân giải16 đã tạo nên hiệu quả lớn, cải thiện hiệu năng của mơ hình.
Bên cạnh đó, một điểm khác ta có thể nhận thấy ở đây chính là việc điểm số chênh lệch giữa việc đánh giá trên tập Valid và tập Test là rất lớn, khoảng 24điểm ở MultiScale WAP và 33điểm ở WAP. Điều này cho thấy có một sự khác nhau lớn giữa phân phối của 2 tập dữ liệu. Sự khác biệt này cũng dễ hiểu vì CROHME là một cuộc thi về Khoa học Dữ liệu và cũng như các cuộc thi khác, để tăng tính cạnh tranh và độ khó cho cuộc thi, các nhà tổ chức thường tạo ra sự khác biệt này. Vấn đề này nên được nghiên cứu một cách chi tiết như một đề tài riêng lẻ để đánh giá mức độ khác nhau giữa 2 tập dữ liệu cũng như đánh giá việc chia dữ liệu thành các tập Train-Valid-Test.
CROHME 2014 CROHME 2016
Cơng trình Tái lập Cơng bố Tái lập Công bố MultiScale WAP 41.36 52.80 41.76 50.10
WAP 20.83 46.55 20.58 44.55
Bảng 6:Kết quả đánh giá các cơng trình tham khảo[13], [14] được tái lập so với kết quả đã được công bố ở bài báo gốc.
Bảng [6] đặt kết quả tái lập được vào trong ngữ cảnh so sánh với những công bố ở các paper gốc[13], [14] trên các tập dữ liệu test CROHME 2014 và CROHME 2016. Trong bảng, đánh giá cho mỗi cơng trình được thể hiện ở từng hàng, với mỗi cặp cột thể hiện đánh giá cho mỗi tập dữ liệu riêng biệt lần lượt làCROHME 2014vàCROHME 2016.
Hai tập dữ liệu này cũng là những tập dữ liệu được sử dụng cho việc đánh giá ở paper gốc của mỗi cơng trình. Mỗi cặp cột sẽ gồm cột "Tái lập" cho biết đánh giá mơ hình tái lập lại cơng trình và cột"Cơng bố" là điểm số được cơng bố ở paper gốc.
Ta có thể thấy được từ Bảng [6] rằng dù ở tập dữ liệu CROHME 2014 hay CROHME 2016 thì kết quả được cơng bố ở paper gốc đều cao hơn rõ rệt so với đánh giá khi tái lập
lại các cơng trình đó. Để giải thích về sự khác biệt này, ta có thể kể đến một số yếu tố cũng như sự khác biệt giữa quá trình tái lập và cơng trình gốc như:
• Kích cỡ dữ liệu ảnh đầu vào Như đã đề cập ở Mục 1, đến năm 2019 thì cuộc thi CROHME mới đưa ra một quy chuẩn chính thức về việc trực quan hóa dữ liệu thành ảnh đầu vào cho các mơ hình, hệ thống. Vì vậy ở các cơng trình WAP[13] và MultiScale WAP[14] thì các tác giả đã sử dụng cách trực quan hóa dữ liệu thành các ảnh với kích thước khơng cố định, mà thay vào đó các tác giả thực hiện trực quan hóa với ràng buộc về kích thước của các kí tự xuất hiện trong biểu thức. Cách thức trực quan hóa đó có thể vơ tình khiến cho độ khó của bài tốn giảm đi ít nhiều, đặc biệt với các biểu thức có nhiều kí tự thì với cách quy chuẩn sẽ làm cho các kí tự có kích thức rất nhỏ.
Bên cạnh đó, khi nhìn nhận vào thực tế thì ta thấy được thường dữ liệu sẽ được thu thập từ những thiết bị như máy ảnh, máy qt,... Do đó mà kích thước ảnh đầu vào cho các mơ hình, hệ thống thường sẽ có những kích thước cụ thể nên việc cố định kích thước ảnh trực quan hóa giúp bài tốn gần gũi với hiện thực khách quan hơn.
• Mơ hình tổ hợp17 Trong cả 2 cơng trình[13], [14], các tác giả sử dụng kĩ thuật Mơ hình tổ hợp thơng qua việc tổ hợp 5 mơ hình với nhau để đạt được điểm số như đã công bố. Kỹ thuật này là một kỹ thuật thông dụng thường được sử dụng ở các cuộc thi Khoa học Dữ liệu nhằm tăng tính tổng qt hóa cũng như điểm số cuối cùng. Tuy nhiên với việc muốn tập trung vào nghiên cứu, phân tích các phương pháp cũng như kiến trúc mạng và ảnh hưởng của những đề xuất về mặt thiết kế nên việc ứng dụng kỹ thuật này theo nhận định cá nhân của tôi là khơng cần thiết.
Một lần nữa nhìn nhận vào thực tế thì dù kỹ thuật này được sử dụng nhiều ở các cuộc thi nhưng khó để ứng dụng vào thực tiễn do yêu cầu về việc có nhiều bản thể mơ hình cùng chạy sẽ gây ra khó khăn về u cầu phần cứng thiết bị cũng như tốc độ dự đốn.
Ngồi các lý do khách quan nêu trên thì có thể tồn đọng lý do chủ quan về khả năng huấn luyện mơ hình của người thực hiện đề tài có thể cịn nhiều thiếu sót. Tuy nhiên, do cả 2 mơ hình được tái lập một cách cơng bằng nên ta vẫn có thể nhận định được tác động tích cực của cơ chế MultiScale Attention là đúng đắn và có kiểm chứng, cũng như phần nào hỗ trợ giải quyết bài tốn về các kí tự có kích thước đa dạng trong một ảnh biểu thức, cụ thể hơn là với những kí tự có kích thức nhỏ.
Như vậy ta có thể thấy được q trình tái lập và đánh giá các cơng trình tham khảo được thực hiện theo một quy trình đánh giá công bằng. Tuy không đạt được các điểm số như ở các cơng bố gốc nhưng ta vẫn có thể sử dụng quy trình đánh giá này để áp dụng vào đánh giá các phương pháp đề xuất cũng như khi so sánh với các cơng trình tham khảo, nghiên cứu và bàn luận trên những kết quả đánh giá thơng qua quy trình cơng bằng này.
17
4.2 Phương pháp đề xuất
Ở phần này ta sẽ đánh giá ý tưởng đề xuất dựa trên việc cải tiến cơng trình WAP[13] và MultiScale WAP[14] bằng cách sử dụng mạng rút trích đặc trưng đa phân giải với những biến thể của chúng như đã trình bày ở Chương 3 Mục 3.
Phiên bản CROHME 2019 CROHME 2014 CROHME 2016
WAP+IF 5b 57.18 24.90 25.46
WAP+IF 4d 60.88 32.11 33.39
WAP+IF 3b 61.63 34.35 37.14
Bảng 7: Kết quả đánh giá các phiên bản của phương pháp đề xuất cải tiến WAP[13]. Bảng [7] trình bày kết quả đánh giá các phiên bản của phương pháp đề xuất cải tiến WAP[13]. Các phiên bản được đánh giá trên các tập dữ liệu Valid (CROHME 2019) và Test (CROHME 2014 và CROHME 2016). Như đã trình bày ở Chương 3 Mục 3, ta
sẽ nghiên cứu cải tiến này với 3 phiên bản đặc trưng đa phân giải được rút trích ra với thứ tự mức độ dung hợp toàn cục và cục bộ tăng dần là 5b, 4d và 3b. Kết quả đánh giá từ
Bảng [7] cho thấy với việc tăng mức độ toàn cục và cục bộ để tạo ra đặc trưng đa phân giải thì mơ hình hoạt động được tốt hơn thể hiện thông qua điểm ExpRate theo các phiên bản tăng rõ rệt.
Cụ thể là phiên bản 5bthì chỉ đạt điểm số khiêm tốn ở mức 57.18trên tập CROHME 2019,24.90trên tập CROHME 2014 và25.46trên tập CROHME 2016. Đây chính là phiên bản đơn giản nhất và khơng thực sự có sự dung hợp gì giữa đặc trưng tồn cục và cục bộ với đặc trưng xuất ra có mức độ phân giải nhỏ nhất trong các biến thể.
Phiên bản 4d cho thấy sự cải thiện rõ rệt ở mặt điểm số ExpRate so với phiên bản5b
khi đạt 60.88 trên tập CROHME 2019, 32.11 trên tập CROHME 2014 và 33.39 trên tập CROHME 2016. Như vậy phiên bản4d đã tăng so với 5b 3.81 trên CROHME 2019,7.21
trên CROHME 2014 và 7.93 trên tập CROHME 2016. Qua đó cho thấy với việc bước đầu ứng dụng kết hợp đặc trưng cục bộ đã cho thấy sự hiệu quả.
Cuối cùng, phiên bản 3b cũng chính là phiên bản có mức độ kết hợp giữa đặc trưng tồn cục và cục bộ lớn nhất, qua đó tạo ra bộ đặc trưng đa phân giải với kích thước phân giải cao nhất. Với việc sử dụng đặc trưng đa phân giải mức độ cao hơn phiên bản 4d, tuy
sự khác biệt trên tập CROHME 2019 là không quá cao khi đạt 61.63 (tăng0.75) nhưng ở
lần lượt 2 tập Test là CROHME 2014 và CROHME 2016 thì phiên bản 3b đạt được kết quả cải thiện rõ rệt với 34.35 (tăng2.24) và37.14 (tăng3.75). Ta có thể thấy sự cải thiện
này đến từ việc kết hợp thêm nhiều mức độ cục bộ hơn vào việc tạo ra đặc trưng đa phân giải, qua đó bản đồ đặc trưng được xuất ra bởi bộ rút trích đặc trưng cũng được nâng cao về kích thước, qua đó giúp cho các cơ chế tập trung có thể xét những kí tự, chi tiết một cách nhuyễn hơn. Đáng chú ý hơn là khi so sánh với phiên bản 5b, như là một phiên bản
khơng có đặc trưng đa phân giải, phiên bản 3b đạt kết quả vượt trội một cách rõ rệt với khoảng cách lần lượt trên tập test CROHME 2014 và 2016 là9.45và11.68điểm ExpRate. Như vậy với việc sử dụng cơng trình WAP[13] làm nền tảng và kết hợp các ý tưởng đề xuất thì ta nhận thấy phiên bản tốt nhất chính là phiên bản sử dụng đặc trưng đa phân
giải có mức độ kết hợp cao nhất,3b.
Phiên bản 2019 2014 2016
MultiScale WAP + IF 5b+4d 59.43 30.89 30.95 MultiScale WAP + IF 5b+3b 62.33 34.76 38.53 MultiScale WAP + IF 4d+3b 62.83 38.41 39.49
Bảng 8: Kết quả đánh giá các phiên bản của phương pháp đề xuất cải tiến MultiScale WAP[14]. Tương tự như ở Bảng [7], Bảng [8] trình bày kết quả đánh giá các đề xuất cải tiến dựa trên nền tảng MultiScale WAP[14] qua các tập dữ liệu: valid CROHME 2019 ở cột "2019", test CROHME 2014 và CROHME 2016 lần lượt ở các cột "2014" và "2016".
Ta quan sát được hiện tượng tương tự, với việc sử dụng đặc trưng đang phân giải với mức kết hợp tồn cục và cục bộ càng cao thì ta càng thu được các kết quả đánh giá điểm càng cao. Ở đó đặc trưng 3b có vai trị lớn, đóng góp được nhiều thơng tin cũng như hỗ trợ mơ hình hoạt động tốt hơn. Điều đó được thể hiện qua việc từ phiên bản 5b+4d khi cải tiến thay đặc trưng 4dbằng 3b, tạo ra phiên bản5b+4d, ta thu được cải thiện đáng
kể với tập valid CROHME 2019 tăng2.9và3.87,7.58lần lượt ở 2 tập test CROHME 2014 và 2016 nhưng sự cải thiện điểm số không quá mạnh mẽ khi ta thay thế đặc trưng5bbằng
4d, ở phiên bản 4d+3b, với khoảng cách điểm lần lượt là 0.5, 3.65 và 0.96, ngoại trừ cải
thiện ở tập CROHME 2014 thì ở 2 tập dữ liệu cịn lại sự cải thiện chưa thật sự đáng chú ý.
Như vậy việc thay đổi mức kết hợp để tạo ra đặc trưng đa phân giải cũng cho thấy sự cải thiện về điểm đánh giá khi sử dụng trên nền tảng kiến trúc MultiScale WAP[14] cũng như phiên bản 4d+3b cũng là phiên bản mạnh nhất ở đề xuất này.
Mơ hình 2019 2014 2016
WAP + IF 3b 61.63 34.35 37.14
MultiScale WAP + IF 4d+3b 62.83 38.41 39.49
Bảng 9: Kết quả đánh giá phương pháp đề xuất cải tiến dựa trên WAP[13] so với MultiScale WAP[14] trên tập dữ liệu valid CROHME 2019, tập test CROHME 2014 và CROHME 2016.
Bảng [9] so sánh 2 phiên bản tốt nhất của các phương pháp đề xuất dựa trên cải tiến 2 cơng trình tham khảo WAP[13] và MultiScale WAP[14]. Qua đó ta thấy được việc thay đổi kiến trúc nền tảng từ WAP[13] sang MultiScale WAP[14] cũng tạo nên sự cải thiện về mặt điểm số lần lượt ở 3 tập dữ liệu CROHME 2019 (valid), 2014 và 2016 là 1.2, 4.06và
2.35tuy rằng khoảng cách khơng cịn lớn như khi so sánh giữa 2 cơng trình gốc đã trình bày ở Mục 4.1.
Từ những thí nghiệm này ta có thể rút ra nhận xét rằng với việc tăng mức độ kết hợp cục bộ và toàn cục trong việc tạo ra đặc trưng đa phân giải, ta thu được mơ hình đạt được những kết quả cải thiện rõ rệt.