Phương hướng & Kết quả dự kiến Đôi với giai đoạn tìm hiéu tông quan về bai toán phân loại hình ảnh văn bản: - _ Phương pháp: Tham khảo các tài liệu, bài báo khoa học liên quan về bài toá
MụctiêU ee ee ee 6
Nhóm tập trung giải quyết bài toán phân loại hình ảnh văn bản báo cáo tài chính ngân hàng Dé hoàn thành công việc, nhóm đã dé ra mục tiêu cụ thể sau:
* Tìm hiểu tổng quan về bài toán phân loại hình anh văn bản, các hướng tiếp cận. s Xây dựng bộ dữ liệu báo cáo tài chính ngân hàng phục vụ cho việc đào tao và đánh giá các mô hình phân loại hình ảnh văn bản. ¢ Thử nghiệm các phương pháp tiên tiến cho bài toán phân loại hình ảnh van bản. ô Xõy dựng một hệ thống hỗ trợ việc phõn loại hỡnh ảnh văn bản.
Phạmvl ee ee ee es 6
Trong khuôn khổ giới hạn của khóa luận, nhóm tập trung thực hiện hoàn thành các công việc sau:
* Tim hiểu tổng quan về bài toán phân loại hình ảnh văn, các hướng tiếp cận.
* Xây dựng bộ dữ liệu báo cáo tài chính ngân hàng của các ngân hàng bằng
Tiếng Việt. ¢ Thử nghiệm các phương pháp Visual and Textual Feature[1], Vision Transformer[2] đại diện cho hướng tiếp cận dựa trên đặc trưng hình ảnh. ô Thử nghiệm phương phỏp BERT[3] đại diện cho hướng tiếp cận dựa trờn đặc trưng ngôn ngữ. ô Thử nghiệm phương phỏp LayoutLM[4] đại diện cho hướng tiếp cận sử dụng cả 2 đặc trưng trên. ằ Xõy dựng một chương trỡnh phõn loại hỡnh anh văn bản Bỏo cỏo Tài chớnh
13 Thách thức: ằ Về dữ liệu:
— Các bộ dif liệu phục vụ cho bài toán phân loại hình ảnh văn ban bằng
Tiếng Việt còn ít Một số bộ dữ liệu được công bé vẫn còn hạn chế về số lượng và sự đa dạng của các mẫu dữ liệu.
— Các văn bản báo cáo tài chính ngân hang là các văn ban có nội dung và hình thức gần giống nhau, các mẫu văn bản đều là mẫu có nền trắng chữ đem, hoặc một số mẫu văn bản giống nhau về cấu trúc văn bản.
— Các dữ liệu báo cáo tài chính ngân hàng có da dạng về cách trình bày và mẫu văn bản, điều này là do sự khác biệt giữa các ngân hàng khác nhau.
— Các bộ dữ liệu báo cáo tài chính ngân hàng hoặc các bộ dữ liệu liên quan đến báo cáo tài chính ngân hàng hiện nay còn khá hạn chế hoặc chưa được công bồ. ằ Về phương phỏp:
— Các pương pháp phân loại hình ảnh văn ban trong lĩnh vực Thị giác
Máy tính còn khá nhiều nhược điểm và thường chỉ áp dụng cho các loại tài liệu văn bản có độ khác biệt cao (các loại tài liệu như căn cước công dân và sổ hộ khẩu, giấy hôn thú và bằng lái xe, ) Còn đối với loại dữ liệu có độ khó cao như báo cáo tài chính ngân hàng có khá ít phương pháp giải quyết.
— Các phương pháp phân loại van bản trong lĩnh vực Xử lý Ngôn ngữ Tự nhiên mặc dù có thể phân biệt các loại văn bản thuần tuý tốt, nhưng lại không thực sự hiệu quả đối với các loại văn bản được biểu diễn dưới dạng bảng hoặc có cấu trúc khác Vì khi thực hiện OCR hình ảnh tài liệu để thu được văn bản, cấu trúc của văn bản thường sẽ bị thay đổi dẫn đến việc ngữ nghĩa thay đổi.
— Ngoài ra, việc cân bằng giữa độ chính xác và thời gian xử lý của các mô hình cũng là một yếu tố rất quan trọng để đánh giá một mô hình ° Vé tài nguyên:
— Các mô hình, phương pháp phục vụ cho bài toán phân loại hình ảnh văn bản thường là những mô hình học sâu, chính vì vậy chúng đòi hỏi một lượng tài nguyên về phần cứng đủ lớn để có thể huấn luyện, đánh giá và triển khai thành một ứng dụng thực tế.
1.4 Đóng góp của khóa luận
Sau đây là một số đóng góp mà nhóm thực hiện có được sau quá trình thực hiện khóa luận: ô Hệ thống lại cỏc kiến thức, hướng tiếp cận và giải quyết bài toỏn phõn loại hình ảnh văn bản. s Xây dựng một bộ dữ liệu báo cáo tài chính ngân hàng phục vụ cho việc đào tạo và đánh giá mô hình phân loại hình ảnh văn bản. ô Đỏnh giỏ cỏc phương phỏp, hướng tiếp cận của bài toỏn phõn loại hỡnh ảnh văn bản:
- Đối với hướng tiếp cận phân loại hình ảnh văn bản bằng đặc trưng hình ảnh là phương pháp Visual and Textual Feature[1] với 3 back- bone khác nhau là VGG16[5], ResNet50[6], Xception[7] và Vision Transformer[2].
- Đối với hướng tiếp cận phân loại hình ảnh văn bản bằng đặc trưng ngôn ngữ là phương pháp BERT[3].
— Đối với hướng tiếp cận sử dụng cả 2 đặc trưng trên là phương pháp
LayoutLM[4] (độ chính xác 98.07%). ¢ Xây dựng chương trình cho phép người dùng sử dung để phân loại hình ảnh văn bản báo cáo tài chính ngân hàng.
Cấutrúckhóaluận
Chương 1: Giới thiệu tổng quan đề tài.
Chương 2: Trình bày các nghiên cứu liên quan và hướng tiếp cận của đề tài. Chương 3: Trình bày các kiến thức về các mô hình mạng Deep Learning được áp dụng cho bài toán.
Chương 4: Trình bày quá trình xây dựng bộ dữ liệu, kết quả đánh giá các mô hình, ứng dụng phân loại hình ảnh văn bản.
Chương 5: Trình bày kết luận và hướng phát triển của đề tài.
CÁC NGHIÊN CỨU LIÊN QUAN
2.1 Mở đầu Để hiểu rõ hệ thống phân loại hình ảnh văn bản, ta cần làm rõ các khái niệm liên quan đồng thời tìm hiểu một số hướng tiếp cận phổ biến hiện nay Vì vậy, trong chương này, nhóm sẽ giới thiệu một số khái niệm cơ bản, đồng thời khảo sát một số phương pháp nghiên cứu đã từng được áp dụng từ trước đến nay để giải quyết bài toán phân loại hình ảnh văn bản, nêu ra những thành công và thất bại trong từng phương pháp.
Một hệ thống phân loại hình ảnh văn bản thường có 2 phần chính bao gồm s Trích xuất thông tin đặc trưng từ dif liệu đầu vào ¢ Phân loại thông tin đặc trưng.
Và đây cũng chính là luồng xử lý mà nhóm sẽ thực hiện trong xuyên suốt khóa luận lần này (Hình 2.1)
2 Các nghiên cứu liên quan
INPUT Feature Extraction Classification OUTPUT
Hình 2.1: Luồng xử lý của hệ thống phân loại hình ảnh văn ban
Giới thiệu về bài toán phân loại hình ảnh van bản
Hiện nay dữ liệu văn bản xuất hiện rất nhiều trên internet, chúng được lưu trữ với rất nhiều định dạng khác nhau và hình ảnh văn bản cũng là một trong số đó Tuy nhiên, khi dif liệu quá lớn, việc quản lý và phân loại tốn rất nhiều thời gian, chi phí và nhân lực Vì vậy, các giải pháp tự động hóa quá trình này đã trở thành một vấn đề nhận được rất nhiều sự quan tâm từ cộng đồng nghiên cứu và các doanh nghiệp Bài toán phân loại hình ảnh văn bản đã được ra đời nhằm giải quyết vấn đề trên.
* Dữ liệu đầu vào: Hình ảnh tài liệu/văn bản (Hình 2.2) ° Du liệu đầu ra: Loại tài liệu (văn bản thông báo, văn bản tổng kết, ).
Về cơ bản thì đây là một bài toán thuộc lĩnh vực xử lý ngôn ngữ tự nhiên (Natural Language Processing - NLP), ta có thể sử dụng các phương pháp nhận diện ký tự quang học (Optical Character Recognition - OCR) để trích xuất các ký tự từ hình ảnh, từ đó áp dụng các kĩ thuật NLP để thực hiện việc rút trích các thông tin và phân loại văn bản, tuy nhiên những nghiên cứu gần đây đã chỉ ra rằng ngoài nội dung của văn bản thì các yếu tố như bố cục văn bản, vị trí các câu đối với toàn cục cũng là những yếu tố góp phần rất quan trọng để có thể rút trích các thông tin từ văn bản [8] [9] [10] [11] [12] [13] [14] [15] Các nghiên cứu áp dụng các cơ chế Attention phối hợp với các đặc trưng hình ảnh cũng như đặc trưng văn bản cũng mang lại những kết quả rất khả quan, thêm vào đó với sự
2 Các nghiên cứu liên quan
He LAU CHUVEN TIEN THAN TE
LA CHÍ YÊN THEN TH OST ĐỘNG TÂY CHINE mm 33CHLYÊXTIÊNTHRIANTỈ
IV 3410CHLYÊN TIÊN THUAN THONG NAM
V TIEN VACAC KIO FƯƠNG ĐƯƠNG
THEN TẠI THC ĐEÊM DAU RADE
VI BIEU CHÍNH ANE MUONG CỦA TIEAY
VỤ THN VẢ CÁC KHOẢN TƯƠNG DƯƠNG
THEN TẠI THEM Dee CUO XÂY
(Cie hap sánh Nk đâm dò Mộ po hp aed cản hóc
E> Báo cáo lưu chuyển tiền tệ
Hình 2.2: Đầu vào - đầu ra của bài toán phân loại hình ảnh văn bản phát triển của các mô hình học sâu cũng đã mở ra một hướng phát triển mới cho bài toán trên Trong dé tài này, sinh viên chú trọng việc áp dụng các mô hình trích xuất thông tin và phân loại tiên tiến lên bộ dif liệu văn bản tiếng Việt cụ thể hơn là văn bản báo cáo tài chính ngân hàng.
Một số nghiên cứu và hướng tiếp cận
Hướng tiếp cận sử dụng đặc trưng hìnhảnh
Khi nhắc đến phân loại hình ảnh thì đây là một bài toán kinh điển trong lĩnh vực Thị giác Máy tính Bài toán này đã có nhiều phương pháp nhằm thực hiện phân loại hình ảnh văn bản Tiêu biểu có thể kể đến các phương pháp như Visual and Textual Feature, Vision Transformer.
Visual and Textual Feature[1]: Đây là một phương pháp phổ biến khi thực hiện phân loại hình ảnh văn bản Mô hình thực hiện việc trích xuất thông tin hình ảnh thông qua một số mô hình đào tạo trước và sử dụng các đặc trưng này để phân loại hình ảnh Đây là một hướng tiếp cận phổ biến và đơn giản nhưng đã dem lại nhiều hiệu quả trên các bộ dữ liệu lớn Ưu điểm:
* Phương pháp trên có tốc độ xử lý nhanh chóng.
* Độ chính xác trên bộ dữ liệu hình ảnh văn ban còn khá khiêm tốn.
Vision Transformer[2]: Vision Transformer là một mô hình phân loại hình ảnh lấy ý tưởng từ Transformer[ 16] Transformer ban đầu được sử dụng trong lĩnh vực NLP để xử lý các chuỗi văn bản hoặc chuỗi âm thanh vì các loại dữ liệu như vậy có tính liên tục Tuy nhiên, mô hình Vision Transformer ra đời như một bước phát triển mới khi ứng dụng Transformer vào các bài toán Thị giác Máy tính Lấy ý tưởng xử lý hình ảnh đầu vào như một chuỗi hình ảnh, mô hình đã m6 ra một hướng phát triển mới trong lĩnh vực Thị giác Máy tinh.
Uu điểm: ¢ Phương pháp trên có tốc độ xử lý nhanh chóng.
* Có khả năng tiếp cận các đặc trưng của từng khu vực hình ảnh và hiểu mối quan hệ giữa các khu vực hình ảnh.
2 Các nghiên cứu liên quan
Nhược điểm: ° Mô hình này không thể hiểu các đặc trưng cấp thấp cũng như không thé phân biệt rõ khi 2 mẫu tài liệu có cấu trúc giống nhau. ô Độ chớnh xỏc vẫn cũn khỏ thấp
Hướng tiếp cận sử dụng đặc trưng ngôn ngữ
Bài toán phân loại hình ảnh văn bản có thể được tiếp cận theo hướng Xử lý
Ngôn ngữ Tự nhiên Ta có thể sử dụng các mô hình đào tạo trước cho tác vụ
OCR (tiêu biểu có VietOCR) để thực hiện trích xuất văn bản từ hình ảnh, sau đó sử dụng kết quả OCR để thực hiện phân loại văn bản Bài toán phân loại văn bản là bài toán phổ biến trong lĩnh vực Xử lý Ngôn ngữ Tự nhiên với các mô hình tiên tiến Tiêu biểu có mô hình BERT[3] và các biến thé của nó là các mô hình hiện đại đem lại kết quả tốt.
BERTI3]: BERT - Bidirectional Encoder Representations from Transformers là một mô hình được tạo ra nhằm giải quyết các bài toán Xử lý Ngôn ngữ Tự nhiên Mô hình này được phát triển dựa trên Transformer Trong các nghiên cứu trước đó, việc đào tạo các chuỗi được thực hiện từ trái sang phải hoặc từ phải sang trái Tuy nhiên, trong mô hình BERT, tác giả đã đề xuất việc sử dụng Transformer để đào tạo các chuỗi theo 2 hướng mà các mô hình trước đó không thể thực hiện được, đồng thời dé xuất 2 cơ chế đào tạo mới là Masked LM và
Next Sentence Prediction giúp cho mô hình hiểu rõ ngữ cảnh của văn bản hơn. Ưu điểm:
* Có thể hiểu rõ được văn ban vì thế áp dụng được cho các văn bản thuần tuý.
2 Các nghiên cứu liên quan
* Mô hình này không thực sự hiệu quả đối với các hình ảnh tài liệu có bảng hoặc có cau trúc khác Vì khi thực hiện OCR, cấu trúc văn bản sẽ bi thay đổi khiến cho ngữ nghĩa bị thay đổi.
2.3.3 Hướng tiếp cận sử dụng cả đặc trưng hình ảnh và đặc trưng ngôn ngữ
Với hai hướng tiếp cận trên, mỗi hướng tiếp cận đều có nhược điểm và không thể đạt kết quả tốt nhất Từ đó, những nghiên cứu mới được phát triển nhằm mục đích kết hợp ưu điểm của cả 2 phương pháp trên Một trong số đó chính là
LayoutLM[4]: Tương tự như Vision Transformer va BERT, LayoutLM cũng là mô hình được phát triển từ Transformer Tuy nhiên, thay vì chi nhận đầu vào là chuỗi hình ảnh hoặc chuỗi văn bản, mô hình nhận đầu vào chính là sự kết hợp của thông tin văn bản, thông tin hình ảnh, và thông tin vị trí của văn bản Điều này đã tạo ra một bước đột phá trong lĩnh vực Thị giác Máy tính, đặc biệt là bài toán phân loại hình ảnh văn bản.
Uu điểm: ô Mụ hỡnh sử dụng đặc trưng hỡnh ảnh nờn cú thộ phõn biệt được cỏc loại hình ảnh văn bản có câu trúc khác nhau. ¢ Mô hình sử dụng đặc trưng ngôn ngữ nên có thé phân biệt được các loại hình ảnh văn bản có câu trúc giỗng nhau nhưng khác nội dung.
Hướng tiếp cận sử dung cả đặc trưng hình ảnh và đặc trưng ngônngữ ee 16
Nhược điểm: ằ Vỡ sử dụng nhiều thụng tin để xử lý nờn mụ hỡnh này cần khỏ nhiều thời gian và tài nguyên để đào tạo và xử lý.
TransfOrmer cee HH Ho 17
Ý tưởng cốt lõi trong TransfOormer
Transformer giải quyết được nhược điểm của mô hình tuần tự truyền thống chủ yếu nhờ vào hai cấu trúc là Multi-head attention va Positional encoding
Về kiến trúc, Transformer cũng giống với các mô hình sequence-to-sequence khác, nó bao gồm hai phan là encoder và decoder. ¢ Encoder Gồm 6 khối, mỗi khối bao gồm hai sub-layer: Multi-Head At- tention va Feed forward network Tác gia dùng một residual connection va một lớp Layer Norm sau mỗi sub-layer giúp mô hình có thé hoc sâu hơn nhờ vào việc giảm tác động của vanishing gradient.
2 Các nghiên cứu liên quan
* Decoder gồm 6 block, mỗi block gồm 2 sub-layer Tuy nhiên, nó có một lớp Masked Multi-Head Attention Lớp này có cấu trúc tương tự như lớp Multi-Head Attention Tuy nhiên, nó chỉ có chức năng chú ý đến toàn bộ những decoder hidden state trước Nhiệm vụ của nó khi huấn luyện Transformer là khi ta đưa toàn bộ câu vào cùng một lúc nên nếu ta đưa toàn bộ target sentence cho decoder trước thì mô hình sẽ chẳng học được gì cả Do đó phải che (mask) bớt một phần token ở decoder hidden state sau trong quá trình decode.
Positional Encoding é-e © EY Encoding Positional
Hình 2.3: Kiến trúc tổng thé của Transformer Nguồn Attention Is All You Need[16]
2 Các nghiên cứu liên quan
Câu đầu vào sẽ được nhân tuyến tính với ba ma trận để sinh ra ba giá trị Keys, Values, Queries Keys và Queries gan giống nhau Values chính là giá trị của từ Ta có thể vi du, Keys chính là một mã một từ, Queries là truy van dé tìm mã của từ đó và Values chính là nghĩa của từ Dựa trên ba giá tri này, ta tính được attention score Attention score thể hiện được mức độ liên quan giữa các values với nhau hay các nghĩa của từ với nhau Nếu trong mô hình các giá trị được kí hiệu lần lượt là: Values: V, Keys: K, Query: Q
Hinh 2.4: Multi-Head Attention N guỗồn Attention Is All You Need[16]
Có một khó khăn trong các mô hình truyền thống đó là rất khó khái quát được đầu vào theo nhiều góc độ khác nhau vi chỉ có duy nhất một cơ chế attention.
Ví dụ xử lý một câu "Nam không đi với Tuấn, bởi vì cậu ấy ngủ quên rồi" Nếu ta chỉ có duy nhất một trọng số attention, attention có khả năng chỉ chú ý đến
"Nam" hay "Tuấn" Tuy nhiên, "cậu ấy" trong câu là để chỉ "Nam" hay "Tuấn".
Do đó để nắm bắt đa chú ý, Transformer thay vì sử dụng self-attention (1 head) đã sử dụng nhiều linear attention cùng một lúc (multi-head) để học được nhiều trọng số attention khác nhau giúp chú ý đến nhiều chỗ khác nhau trong cùng một câu Các giá trị V, K, Q cùng một lúc được biến đổi tuyến tính sau đó ta dùng
2 Các nghiên cứu liên quan một cơ chế attention có tên là Sealed Dot-Product Attention để tổng hợp trọng số attention của cả V, Ó, K Công thức tinh của Scaled Dot-Product Attention như sau:
Attention(Q,K,V) = soƒtmax( vá ) trong đó đ chính là kích thước của K và V. Ý tưởng đằng sau công thức này đơn giản chỉ là nhân query với key Kết quả sẽ cho ra độ liên quan giữa các từ với nhau Tuy nhiên kết quả này sẽ tăng phi mã theo kích thước (dimension) của query và key Do đó cần phải chia cho căn bậc hai kích thước của keys để ngăn chặn hiện tượng số quá lớn Hàm softmax để tính phân bố xác suất liên quan giữa các từ Cuối cùng ta nhân thêm value dé loại bỏ những từ không cần thiết trong câu (có xác suất qua hàm softmax nhỏ).
Sau khi tính từng trọng số attention bằng cơ chế Scaled Dot-Product Atten- tion, chúng ta dùng concat nối chúng lại với nhau thành một ma trận rồi nhân tuyến tính với một ma trận W0 để đưa ma trận về kích thước ban đầu.
2.4.3 Positional Encoding (Mã hóa vi tri)
Vi trí và thứ tự của các từ trong một câu là điều cần thiết đối với mọi mô hình ngôn ngữ Các mô hình như RNN hay LSTM sử dụng tính tuần tự để học được vị trí của các câu trong văn bản Nhưng như nhóm đã vừa đề cập ở trên, để khắc phục thời gian huấn luyện quá lâu do tính tuần tự gây ra, Transfomer đã hoàn toàn loại bỏ điều này Vậy làm thế nào để mô hình có thể học được thông tin về vị trí? Đó chính là mã hóa thêm thông tin biểu diễn vị trí vào từng từ Và người ta gọi đó là Positional Encoding. Để đánh giá được một Positional Encoding cần phải quan tâm tới những điểm sau:
* Mỗi time-step phải có một mã hóa (encoding) duy nhất: Nếu hai time- step khác nhau mà có cùng một mã hóa sẽ gây ra nhầm lẫn vị trí giữa các
2 Các nghiên cứu liên quan từ với nhau. ° Khoảng cách giữa hai vi trí được embedding của hai time-step giữa hai câu có độ dài khác nhau phải bằng nhau. ô Cú khả năng biểu diễn được vị trớ cho những cõu dài hơn khi huấn luyện.
Cách mà transformer mã hóa vị trí đã đáp ứng được hết tất cả những điều mà ta mong đợi của một positional encoding Công thức mà trong paper, tác giả da dé xuất như sau:
PE|pos, 2i] = sin( pos /10007!/4mode )
Trong đó pos là vi trí hiện tại, đ„„z„¡ là kích thước cố định của mô hình, i là vị tri trong đ„saet.
PE|pos, 2i] = sin(pos * pos)
PE|pos, 2i+ 1] = cos(pos * pos)
Với những công thức va những tiêu chí đã được nêu ở bên trên chúng ta sẽ thu được nhưng tiêu chí dựa theo những công thức đó như sau:
* Mỗi time-step phải có một mã hóa (encoding) duy nhất: Khi giá trị i càng lớn, càng sâu thì giá trị w giảm dần và dan tiền về 0 Do đó mỗi vị trí
1 sẽ có một cách biểu diễn khác nhau do pos khác nhau và mặc dù là các hàm sin, cos có chu kỳ nhưng w giảm dần không phải cố định nên ta sẽ nhận được giá trị khác nhau đối với mỗi giá trị i Hơn nữa, nếu pos giống nhau trong hai câu có độ dài khác nhau vẫn có vị trí trong embedding giống nhau.
Positional Encoding (Mãhóavịtr)
Vi trí và thứ tự của các từ trong một câu là điều cần thiết đối với mọi mô hình ngôn ngữ Các mô hình như RNN hay LSTM sử dụng tính tuần tự để học được vị trí của các câu trong văn bản Nhưng như nhóm đã vừa đề cập ở trên, để khắc phục thời gian huấn luyện quá lâu do tính tuần tự gây ra, Transfomer đã hoàn toàn loại bỏ điều này Vậy làm thế nào để mô hình có thể học được thông tin về vị trí? Đó chính là mã hóa thêm thông tin biểu diễn vị trí vào từng từ Và người ta gọi đó là Positional Encoding. Để đánh giá được một Positional Encoding cần phải quan tâm tới những điểm sau:
* Mỗi time-step phải có một mã hóa (encoding) duy nhất: Nếu hai time- step khác nhau mà có cùng một mã hóa sẽ gây ra nhầm lẫn vị trí giữa các
2 Các nghiên cứu liên quan từ với nhau. ° Khoảng cách giữa hai vi trí được embedding của hai time-step giữa hai câu có độ dài khác nhau phải bằng nhau. ô Cú khả năng biểu diễn được vị trớ cho những cõu dài hơn khi huấn luyện.
Cách mà transformer mã hóa vị trí đã đáp ứng được hết tất cả những điều mà ta mong đợi của một positional encoding Công thức mà trong paper, tác giả da dé xuất như sau:
PE|pos, 2i] = sin( pos /10007!/4mode )
Trong đó pos là vi trí hiện tại, đ„„z„¡ là kích thước cố định của mô hình, i là vị tri trong đ„saet.
PE|pos, 2i] = sin(pos * pos)
PE|pos, 2i+ 1] = cos(pos * pos)
Với những công thức va những tiêu chí đã được nêu ở bên trên chúng ta sẽ thu được nhưng tiêu chí dựa theo những công thức đó như sau:
* Mỗi time-step phải có một mã hóa (encoding) duy nhất: Khi giá trị i càng lớn, càng sâu thì giá trị w giảm dần và dan tiền về 0 Do đó mỗi vị trí
1 sẽ có một cách biểu diễn khác nhau do pos khác nhau và mặc dù là các hàm sin, cos có chu kỳ nhưng w giảm dần không phải cố định nên ta sẽ nhận được giá trị khác nhau đối với mỗi giá trị i Hơn nữa, nếu pos giống nhau trong hai câu có độ dài khác nhau vẫn có vị trí trong embedding giống nhau.
2 Các nghiên cứu liên quan ° Khoảng cách giữa hai vị trí được embedding của hai time-step giữa hai câu có độ dài khác nhau phải bằng nhau: Bởi vì mỗi vị trí ¡ có vị trí embedding khác nhau trong cùng một câu và giống nhau trong hai câu có độ dài khác nhau nên khoảng cách giữa chúng sẽ bằng nhau không phụ thuộc độ dài câu.
* Có khả năng biểu diễn được vị trí cho những câu dài hơn khi huấn luyện: Do hàm sin, cos là hai hàm lượng giác có chu kì 2k mà chúng ta có thể dễ dàng được w và xác định giá trị pos nên có khả năng biểu diễn được những vị trí xa hơn kể cả chưa được huấn luyện.
Qua chương này, nhóm hiểu được các van dé gặp phải ở bài toán phân loại hình ảnh văn bản và các hướng tiếp cận của nó Thêm vào đó là biết cách chọn ra hướng tiếp cận và giải quyết phù hợp đối với bài toán đang giải quyết Để từ đó chọn ra được các phương pháp hiệu quả.
Về bài toán phân loại hình ảnh văn bản, chúng ta có khá nhiều phương pháp để hiện thực Mỗi phương pháp, thuật toán lại có những ưu điểm và nhược điểm riêng, không phải phương pháp nào cũng hoàn hảo để cho ra mô hình phân loại hình ảnh văn bản tốt Tuỳ vào mục đích sử dụng mà chúng ta có thể chọn ra phương pháp phù hợp nhất đối với bài toán chúng ta giải quyết Theo đó, trong phạm vi đề tài khoá luận, nhóm tập trung xử lý, phân loại dữ liệu hình ảnh văn bản hành chính, vì vậy việc tận dụng các thông tin về bố cục cũng như hình ảnh là rất cần thiết LayoutLM là phương pháp phù hợp nhất cho bài toán vì có cơ chế học sâu sẽ làm mô hình tổng quát hơn, ngoài ra tận dụng được các thông tin trực quan cũng như nội dung văn bản Bên cạnh đó, để đánh giá mô hình một cách tổng quát hơn, nhóm còn thực hiện so sánh đánh giá giữa LayoutLM và các
2 Các nghiên cứu liên quan phương pháp trước đó để đưa ra sự khác biệt.
Chương 3 Áp dụng các phương pháp phân loại hình ảnh
Trong chương này, nhóm thực hiện sẽ trình bày tổng quan một số các kiến thức và phương pháp có liên quan tới các hướng tiếp cận cũng như là mô hình mà nhóm đã áp dụng vào trong hệ thống phân loại hình ảnh văn bản Báo cáo Tài chính Ngân hàng.
3.2 Một số mô hình phân loại hình ảnh van bản
Như đã đề cập ở trên trong khoá luận lần này, nhóm thực hiện sẽ tập trung vào việc xây dựng các mô hình từ việc huấn luyện qua các phương pháp học sâu Cụ thể là các mô hình như Visual and Textual Feature[1], Vision Transformer[2],
Visual and Textual Feature[1] là một phương pháp phân loại hình anh (Image
Classification) được Sammed S Admuthe , Hemlata P Channe đề xuất năm
2021 và được đăng tại MERT 2021 Day là một phương pháp phổ biến và hiệu quả trong việc giải quyết các bài toán phân loại hình ảnh. Ý tưởng của Visual and Textual Feature: Ý tưởng của Visual and Textual Fea- ture là sử dụng các mô hình đào tạo trước để trích xuất đặc trưng hình ảnh sau đó sử dụng các đặc trưng này để phân loại hình ảnh (Hình 3.1)
Hình 3.1: Quy trình của Visual and Textual Feature
Như đã nói, tác giả đã sử dụng các mô hình đào tạo trước làm backbone để thực hiện trích xuất đặc trưng hình ảnh Các mô hình được sử dụng để làm backbone trích xuất thông tin hình anh là VGG16[5], ResNet50[6], Xception[7] (trong bài viết gốc là VGG16) :
Mô hình VGG16: VGG16[5] là một mô hình CNN để thực hiện tác vu phân loại hình ảnh do Karen Simonyan và Andrew Zisserman tại Dai hoc Oxford dé xuất, mô hình này được xem là một trong những mô hình thị giác máy tính tốt nhất hiện nay Mô hình VGG16 được xây dựng từ 13 lớp Convolution, 5 lớp Max Pooling và 3 lớp Fully Connected Dù có tất cả 21 lớp trong mô hình nhưng chỉ có 16 lớp có thông số học được (Đây là nguyên nhân mô hình có tên là VGG16). Ý tưởng của VGG16 có một bước cải tiền so với các mô hình trước đó (AlexNet,
Một số mô hình phân loại hình anh van ban
Visual and TextualFeature
Visual and Textual Feature[1] là một phương pháp phân loại hình anh (Image
Classification) được Sammed S Admuthe , Hemlata P Channe đề xuất năm
2021 và được đăng tại MERT 2021 Day là một phương pháp phổ biến và hiệu quả trong việc giải quyết các bài toán phân loại hình ảnh. Ý tưởng của Visual and Textual Feature: Ý tưởng của Visual and Textual Fea- ture là sử dụng các mô hình đào tạo trước để trích xuất đặc trưng hình ảnh sau đó sử dụng các đặc trưng này để phân loại hình ảnh (Hình 3.1)
Hình 3.1: Quy trình của Visual and Textual Feature
Như đã nói, tác giả đã sử dụng các mô hình đào tạo trước làm backbone để thực hiện trích xuất đặc trưng hình ảnh Các mô hình được sử dụng để làm backbone trích xuất thông tin hình anh là VGG16[5], ResNet50[6], Xception[7] (trong bài viết gốc là VGG16) :
Mô hình VGG16: VGG16[5] là một mô hình CNN để thực hiện tác vu phân loại hình ảnh do Karen Simonyan và Andrew Zisserman tại Dai hoc Oxford dé xuất, mô hình này được xem là một trong những mô hình thị giác máy tính tốt nhất hiện nay Mô hình VGG16 được xây dựng từ 13 lớp Convolution, 5 lớp Max Pooling và 3 lớp Fully Connected Dù có tất cả 21 lớp trong mô hình nhưng chỉ có 16 lớp có thông số học được (Đây là nguyên nhân mô hình có tên là VGG16). Ý tưởng của VGG16 có một bước cải tiền so với các mô hình trước đó (AlexNet,
ZFNet) là mô hình VGG16 sử dụng đồng nhất các bộ lọc 3x3 với bước nhảy 1. Cải tiến này cho phép mô hình có thể hiểu được đặc trưng của hình ảnh chỉ tiết hơn trong một khu vực hình ảnh Cùng với việc thay thế một lớp tích 7x7 thành
3 lớp 3x3 thì sẽ có 3 lớp kích hoạt phi tuyến thay vì 1 lớp, từ đó khiến cho các hàm quyết định hoạt động hiệu quả hơn, đem lại tốc độ hội tụ nhanh hơn Ngoài ra, việc giảm kích thước của bộ lọc sẽ giảm một lượng lớn các thông số trọng lượng và sự phi tuyến tính được tạo ra giữa các lớp bằng hàm kích hoạt ReLU. Điều này sẽ giảm thiểu khả năng mô hình học quá sát với dữ liệu Có thể thấy việc giảm kích thước của bộ lọc đem lại hiệu quả đối với mô hình CNN Tuy nhiên chúng ta không thể giảm nó thấp hơn nữa vì 3x3 được xem như là kích thước nhỏ nhất để chứa thông tin không gian (thông tin từ trái sang phải, từ trên xuống dưới, ) Vì vậy nếu giảm kích thước bộ lọc nhỏ hơn 3x3 có thể gây ảnh hưởng xấu đến việc hiểu về dữ liệu của mô hình trong quá trình đào tạo.(Hình
Hinh 3.2: Kién tric cia VGG16 ze:28 size:14 size;7 size:112 si size:224
Pecl/2 Pool/2 Pool/2 | Pool/2 Pool/2
Mô hình VGG16 nhận dau vào là ma trận hình ảnh có kích thước 224x224x3. Đầu tiên, ma trận hình ảnh được đi qua 2 lớp tích chập kích thước 3x3 với 64 bộ lọc mỗi lớp cùng với hàm kích hoạt phi tuyến ReLU Lớp tích chập được sử dụng với bước nhảy 1 và lớp đệm 1 nhằm đảm bảo kích thước đầu vào và đầu ra là đồng nhất Kết quả sau đó được đưa qua một lớp Max Pooling với cửa sổ có
3 Cơ sở lý thuyết. kích thước 2x2 và bước nhảy 2, điều này làm giảm một nửa kích thước của ma trận hình ảnh Tương tự đó, mô hình sau khi di qua 13 lớp Convolution và 5 lớp
Max Pooling sẽ có kích thước 7x7x512 Sau đó, ma trận được làm phẳng và đi qua 2 lớp kết nối đầy đủ 4096 node và 1 lớp kết nối đầy đủ 1000 node có vai trò như một đầu ra Kiến trúc này đã đem lại hiệu quả thực tế khi đạt kết quả cao
(92.7%) trên bộ dữ liệu 1000 lớp của ImageNet.
ResNet50: ResNet50[6] là một mô hình CNN phân loại hình ảnh được biến thể từ mô hình ResNet được giới thiệu tại cuộc thi LSVRC2012 và trở thành một bước ngoặc mới trong lĩnh vực CV với khả năng đào tạo mô hình cực sâu.
Các mô hình CNN trước đó là sự xếp chồng của nhiều lớp khác nhau để trích xuất và hiểu hình ảnh Điều này đã thực sự đem lại hiệu quả, tuy nhiên việc xếp chồng các lớp convolution này là có giới hạn Khi số lượng của các lớp quá nhiều, thông tin ban đầu bị thay đổi khiến cho mô hình xảy ra các vấn dé như bùng nổ / biến mất đạo hàm Khiến cho mô hình không thể hiểu được hình ảnh.
Mô hình ResNet50 giải quyết các van đề đó bằng các kết nối tắt, các kết nối này có nhiệm vụ kết hợp kết quả đầu vào và đầu ra của một khối Convolution Điều này đã thực sự hoạt động và đem lại hiệu quả tuyệt với.(Hình 3.3)
Hình 3.3: Kiến trúc của ResNet
Kiên trúc của ResNet có các phan chính như sau:
* Một lớp tích chập với 64 filter có kích thước 7x7, tất cả đều có bước nhảy
3 Cơ sở lý thuyết. là 2.
* Tiếp theo là Max Pooling layer cũng với bước nhảy là 2. ô Trong phộp chập tiếp theo cú 1 lớp 64 filter 1x1, theo sau là 1 lớp 64 filter
3x3 và cuối cùng là 1 lớp 256 filter 1x1, Ba lớp này được lặp lại tổng cộng
3 lần, do đó, chúng ta có 9 lớp trong bước này. s Tiếp theo, chúng ta có 1 lớp 128 filter là 1x1, sau đó là 1 lớp 128 filter 3x3 và cuối cùng là 1 lớp 512 filter 1x1, bước này được lặp lại 4 lần để cho chúng ta 12 lớp trong bước này. ¢ Sau đó, có | lớp 256 filter 1x1, 1 lớp 256 filter 3x3 va 1 lớp 1024 filter
3x3, điều này được lặp lại 6 lần cho chúng ta tổng cộng 18 lớp. ¢ Và sau đó lại là 1 lớp 512 filter 1x1, 1 lớp 512 filter 3x3 và 1 lớp 2048 filter 3x3, điều này được lặp lại 3 lần cho chúng ta tổng cộng 9 lớp
* Sau đó là một lớp Average Pooling và kết thúc nó bằng một lớp Fullycon- nected có hàm kích hoạt softmax với 1000 nút sau cùng. ôVới mỗi lần thực hiện một khối convolution, kết quả sẽ được cộng với dau vào Điều này khiến cho giá trị lỗi của mô hình ổn định, hạn chế xảy ra tình trạng bùng nổ /biến mất đạo hàm
ResNet50 đã cho thấy tính hiệu quả của mình khi đạt tỷ lệ lỗi 5.71 (tỷ lệ lỗi của VGG16 là 9.33) giảm gần 1/2 so với VGG16 Mô hình này cũng mở ra một hướng phát triển mới trong lĩnh vực thị giác máy tính khi có thể đào tạo các mạng CNN với rất nhiều lớp convolution.
Vision TransfOrmer
Nhận diện chữ bằng VieOCR
Trong dé tài này, nhóm có sử dụng các đặc trưng văn bản để đào tạo và đánh giá các mô hình phân loại Tuy nhiên, việc gán nhãn các văn bản này tiêu tốn rất nhiều thời gian và công sức Vì vậy, nhóm sẽ sử dụng một mô hình pretrain OCR cho tác vụ trích xuất văn bản từ hình ảnh Phương pháp được sử dụng ở đây là VietOCR VietOCR (Vietnamese Optical Character Recognition) ! là một phương pháp nhận diện ký tự quang học đầu cuối trong hình ảnh cảnh (Scene
Text Recognition) được đề xuất bởi tác giả Phạm Bá Cường Quốc trong cuộc thi Cinnamon, đây là một mô hình nhận diện ký tự tiếng Việt trong ảnh cảnh áp dụng TransformerOCR hoặc AttentionOCR Mô hình gồm một kiến trúc CNN cơ bản để trích xuất các đặc trưng từ đầu vào sau đó đưa các thông tin đó qua một mô hình Transformer hoặc Attention để có thể học và phân tích các thông tin đó để cho ra kết quả là các ký tự đã được mô hình nhận diện được có trong dau vào là một tâm hình.
!https://pbcquoc.github.io/vietocr/
Viêm da khác LÊVin nức = payin Thị Hồng Hiến.
Viờm dakhỏc '“ œsse #yyy/Nu°ỉ' Neuyộa Thj Hong Huế
TRONG Đó Có TONG BINH
Hình 3.6: Ví dụ về chữ được nhận diện trong VietOCR Nguén VietOCR! Ý tưởng của mô hình VietOCR: ° Ap dụng TransformerOCR (Hình 3.7): VietOCR lúc này bao gồm hai thành phần chính một là một kiến trúc CNN cơ bản để có thể lấy được những thông tin cơ bản từ hình ảnh đầu vào và thứ hai là Transformer để nhận diện nội dung chữ trong hình ảnh Phương pháp tách biệt nhiệm vụ lớn thành hai phần tách biệt Hình ảnh sẽ được đưa vào cho mô hình CNN xử lý và lấy các thông tin cần thiết sau đó đưa các thông tin về hình ảnh đó vào một mô-đun encoder của transformer, bên cạnh đó về phía transformer đồng thời nhận hai luồng đầu vào là từ hình ảnh và từ nhãn là các ký tự có trong hình ảnh đó, sau đó transformer sẽ tiến hành mã hoá các thông tin ký tự thành vector để mô hình có thể học được các thông tin từ các ký tự trong văn bản.
Feedforward a Muli-Head Attention ship connection“ skip connec
Mult-Head Attention 4 Masked MultiHead Attention
Hình 3.7: Kiến trúc TransformerOCR trong VietOCR Nguồn VietOCR ° Áp dụng AttentionOCR (Hình 3.8): VietOCR lúc này cũng sẽ bao gồm hai thành phần chính một là một kiến trúc CNN cơ bản để có thể lấy được những thông tin cơ bản từ hình ảnh đầu vào và thứ hai là một At- tention Seq2Seq VietOCR trong bước đầu tiên sẽ dùng mạng CNN để rút trích ra các đặc trưng và thu được một feature maps có kích thước channelxheightxwidth, feature maps này sẽ trở thành đầu vào cho mô hình LSTM, tuy nhiên, mô hình LSTM chỉ nhận chỉ nhận đầu vào có kích thước là hiddenxtimestep Một cách đơn giản và hợp lý là 2 chiều cuối cùng heightxwidth của feature maps sẽ được duỗi thẳng ra.
Hình 3.8: Kiến trúc Attentionocr trong VietOCR Nguồn VietOCR!
Việc huấn luyện các mô hình như AttentionOCR hay TransformerOCR đều hoàn toàn giống với luyện mô hình sequence-to-sequence, chúng đều sử dụng cross-entropy loss để tối ưu thay vì sử dụng CTCLoss như mô hình CRNN, tức là tại mỗi thời điểm mô hình dự đoán một từ sau đó so sánh với nhãn để tính chi phí mất mát và cập nhật lại trọng số của mô hình Đối với mô hình CRNN sử dung CTCloss để làm hàm mục tiêu, số lượng ký tự đối da có thể dự đoán bằng với width x height của bản đồ đặc trưng Do đó, nhóm sẽ cần phải cẩn thận điều chỉnh kiến trúc mô hình để có thể dự đoán được số ký tự phù hợp với từng bộ dữ liệu Đối với mô hình AttentionOCR hoặc Trans- formerOCR sé không gap vấn dé này, từ đó có thể dé dang sử dụng lại các mô hình đã được huấn luyện trước đó cho các loại dữ liệu khác nhau Bên cạnh đó, AttentionOCR hoặc TransformerOCR đều có kiến trúc của mô hình dịch này sequence-to-sequence, do đó các thủ thuật của mô hình này đều có thể ứng dụng cho mô hình chung của VietOCR.
BERT - Bidirectional Encoder Representations from Transformers[3] là một mô hình được tao ra nhằm giải quyết các bài toán Xử ly Ngôn ngữ Tự nhiên Mô hình này đươc phát triển dựa trên Transformer Trong các nghiên cứu trước đó, việc đào tạo các chuỗi được thực hiện từ trái sang phải và từ phải sang trái Tuy nhiên trong mô hình BERT, các chuỗi đầu vào được đào tạo theo 2 hướng mà các mô hình trước đó không thể thực hiện được. Ý tưởng của mô hình BERT: M6 hình BERT sử dung Encoder của Transformer để có thể sử dụng cơ chế attention của Transformer trong việc xử lý các đầu vào cùng lúc, vì vậy có thể được xem là đào tạo từ 2 hướng (chính xác hơn là không định hướng) Từ đó cho phép mô hình đào tạo các chuỗi văn bản để khiến các
3 Cơ sở lý thuyết. từ trong đó hiểu về các từ xung quanh và ngược lại Tính năng này được gọi là ngữ cảnh, đây là một bước phát triển lớn trong lĩnh vực Xử lý Ngôn ngữ Tự nhiên khi các mô hình trước đó không thể hiểu về các từ cách nó quá xa Một cải tiến của BERT là sử dụng các chiến lược cải tiến Masked LM và Next Sentence
Prediction Các mô hình trước đó thường tập trung vào việc dự đoán các từ sau một chuỗi, cách tiếp cận này có nhiều hạn chế về việc hiểu ngữ cảnh.
Masked LM: Ở chiến lược này, một số từ trong chuỗi đầu vào được ẩn đi và thay thé bằng [MASK]-token Sau đó, mô hình sẽ cố gắng dự đoán các từ bi ẩn đó.(Hình 3.9) to vocab + t i ĩ ù softmax
Classification Layer: Fully-connected layer + GELU + Norm nà | j i
| hái } | We ) | Ws ) {mas ) | Ws Ỉ Ỉ i T T m„ w Ws Ws Ws
Hinh 3.9: Co ché Masked LM Để thực hiện chiến lược này, kết quả đầu ra sau khi di qua Encoder Trans- former sẽ được đi qua một lớp phân loại để tìm được vector xác suất cho mỗi đầu ra, sau đó các vector này được nhân với word embedding để tìm ra từ có xác suất cao nhất Ham mat mát của chiến lược này tập trung và tính toán lỗi của các từ bị ẩn và bỏ qua các từ không bị ẩn Chiến lược này khiến cho mô hình hiểu ngữ cảnh của mô hình theo 2 hướng một cách tốt nhất dù các từ có cách xa nhau.
Next Sentence Prediction: Trong chiến lược này, mô hình sẽ nhận đầu vào là cặp câu và mô hình cần xác định xem câu thứ hai có phải là câu tiếp theo của câu thứ nhất hay không.(Hình 3.10)
Input [CLS] my dog is cute | [SEP] he | likes | play | ##ing | [SEP]
Embeddings Eas Eny Fass E cote Etsep) Ene Esta Epiay Euing Elser)
Embedding Eạ E, Ea Eạ Eạ Ea Eạ ES Es ES | Ee
Embedding E, || Fi |[E; |[E: || Es |[ Fs |[ Es || E; || Es E, Eịo
Hình 3.10: Cơ chế Next Sentence Prediction Nguồn: BERT: Pre-training of Deep Bidi- rectional Transformers for Language Understanding [3] Để thực hiện điều này, đầu vào là một cặp câu sẽ được chuyển thành các token, token [CLS] sẽ được thêm vào phía trước để thể hiện câu thứ hai có phải câu tiếp theo của câu thứ nhất hay không và cuối mỗi câu sẽ được thêm token
[SEP], sau đó các token embebdding sẽ được cộng với sentence embedding (thể hiện token của câu thứ nhất hay câu thứ hai) và token positional (thể hiện vị trí của token trong chuỗi đầu vào) Kết quả đầu ra của token [CLS] được tính toán xác suất để xác định xem 2 câu đầu vào có phải là liên tiếp hay không.
Trong quá trình đào tạo BERT, 2 chiến lược Masked LM và Next Sentence Prediction được đào tao cùng lúc để giảm thiểu lỗi kết hợp của 2 chiến lược trên. Đây là một mô hình có bước phát triển lớn trong lĩnh vuc Xử lý Ngôn ngữ Tự nhiên khi áp dung Transformer để khiến cho mô hình hiểu đươc ngữ nghĩa của văn bản.
LayouLM: Ặ Ặ Ặ 37
Tiền xử lý dữ liệu
Quá trình tiền xử lý dữ liệu bao gồm các bước: ô Chuyển đổi cỏc tệp pdf thành cỏc tệp hỡnh ảnh.
* Loại bỏ các hình ảnh bị mờ, nhoè, lỗi, hoặc không có thông tin. ¢ Thực hiện phân loại các hình ảnh thành các thư mục tài liệu khác nhau.
Sau khi thực hiện tiền xử lý dữ liệu, ta thu được bộ dữ liệu bao gồm 7 lớp văn bản: ằ Bia ¢ Thông tin quản lý ° Bản cam kết
* Bảng cân đối kế toán ô Kết quả hoạt động ô Thuyết minh bỏo cỏo
Mỗi lớp bao gồm 800 hình ảnh được sử dung cho quá trình đào tạo và 200 hình ảnh được sử dụng cho quá trình kiểm thử (Hình 4.1)
4 THỰC NGHIỆM VÀ ĐÁNH GIÁ
Hình 4.1: Mẫu dữ liệu trên văn bản ma nhóm xử lý.
4.3 Một số độ đo đánh giá
4.3.1 Một số khái niệm co bản
Confusion matrix 14 một bảng có bố cục cụ thé để trực quan hóa hiệu suất của thuật toán Trong đó, mỗi hàng của ma trận thường là các đối tượng trong một lớp được dự đoán, còn cột là các đối tượng trong một lớp trong thực tế.
* True Positive: Số lượng mẫu thuộc lớp a và được mô hình dự đoán cũng thuộc lớp a.
* True Negative: Số lượng mẫu không thuộc lớp a và cũng được dự đoán không thuộc lớp a.
* False Positive: Số lượng mau thuộc lớp khác a và được dự đoán là lớp a.
* False Negative: Số lượng mẫu thuộc lớp a và được dự đoán là lớp khác a.
4 THỰC NGHIỆM VÀ ĐÁNH GIÁ
Hinh 4.2: Minh hoa cho Confusion matrix (N guon Internet!).
Trong bài toán thị giác máy tính, để xác định các giá trị trên có phải là
Positive hay False Positive thì thường dùng một ngưỡng threshold để quyết định chúng thuộc loại nào.
Precision: Trong bài toán thi giác máy tinh, precision dùng để xác định trong các dự đoán của mô hình thì thực chất có bao nhiêu dự đoán trên tổng số các dự đoán của mô hình là chính xác Và để xác định được điều này, Precision dùng phép toán sau để xác định:
Recall: Còn về recall, dùng để xác định được tỉ lệ dự đoán trong mô hình so với tổng số lượng đối tượng thực chất có trong dữ liệu Và phép toán được Recall dùng là:
'https://jkmsmkj.blogspot.com/2018/10/confusion-matrix.html
4 THỰC NGHIỆM VÀ ĐÁNH GIÁ
Hình 4.3 biểu diễn cách tinh Precision va Recall một cách trực quan hơn. actually positive actually negative