Phát hiện và phân loại các component trong ảnh- 123docz.net

2 Nền tảng và các cơng trình liên quan

4.11 Phát hiện và phân loại các component trong ảnh

thường sẽ nghe tới các khái niệm về True/False Positive/Negative:

• True Positive(TP): Trường hợp kết quả nhận diện là một component với chỉ IOU lớn hơn hoặc bằng một ngưỡng định sẵn.

• False Positive(FP): Trường hợp kết quả đối tượng nhận diện khơng phải là component với IOU nhỏ hơn ngưỡng.

• False Negative(FN): Trường hợp là component trong ảnh gốc nhưng không được hệ thống nhận diện.

• True Negative(TN): Ở đây chúng ta sẽ khơng sử dụng bởi vì ý nghĩa True Negative là không phải component và không nhận diện. Nếu như không phải là component thì sẽ khơng có bouding box để tính IOU. Vì vậy metric này sẽ khơng dùng

Các giá trị ngưỡng đặt ra thông thường là 50, 75, 95 tùy vào mục đích đánh giá các metrics. Cách tính Accuracy: Accuracy = T P+T N

Như đã trình bày ở phần hiện thực, nhóm chia việc nhận diện component thành nhận diện Text và Non-text component cho nên khi đánh giá sẽ đánh giá riêng giữa 2 loại component.

Non-text component Text component Accuracy 0.82 0.89

Để đánh giá xem một mơ hình phân loại có tốt hay khơng thơng thường ta sẽ sử dụng 2 metrics sau:

• Precision: là khả năng của mơ hình nhận diện được các vật thể là component. Chỉ số được tính bằng phần trăm các kết quả TP trên tất cả kết quả dự đoán. P recision = T PT P+F P. Chỉ số thường được dùng khi cái giá phải trả cho việc một dự đốn là False Positive là rất lớn và có thể ảnh hưởng tới hệ thống. Ví dụ bài tốn phân loại email spam, một dự đoán False Positve là một email khơng phải spam được dự đốn là spam. Việc dự đoán sai sẽ khiến ta mất đi một email có thể là quan trong.

• Recall: Là khả năng của mơ hình nhận diện được tất cả các vật thể là component. Chỉ số này được tính bằng phần trăm các kết quả TP trên tất cả các ground-truth component. Recall = T P

T P+F N. Chỉ số thường được dùng khi cái giá phải trả cho việc một dự đoán là False Negative là rất lớn và có thể ảnh hưởng tới hệ thống. Lấy ví dụ bài toán phát hiện gian lận trong giao dịch, nếu một giao dịch là gian lận được dự đốn là khơng gian lận sẽ gây ra tổn thất lớn cho ngân hàng.

Khi áp dụng vào bài tốn của nhóm, việc một kết quả được dự đốn là False Positive hay False Negative không gây ảnh hưởng lớn tới kết quả đưa ra. Thay vì đó đối với bài tốn này, vấn đề nhóm gặp phải là sự phân phối khơng đều giữa các lớp component. Chính vì vậy nhóm quyết định sử dụng chỉ số F1.

lượng này khác khơng). F1-score có giá trị nằm trong khoảng giữa 0 và 1. F1 càng cao, bộ phân lớp càng tốt. Khi cả recall và precision đều bằng 1 (tốt nhất có thể) thì F1-score bằng 1. Bằng cách sử dụng F1-score, nhóm sẽ cân bằng được giữa 2 chỉ số Precison và Recall để cho ra kêt quả tốt hơn.

Tương tự như phần nhận diện, phần phân loại cũng chia ra đánh giá trên component dạng text và non-text

Non-text Component Text-Component

Precision Recall F1-score Precision Recall F1-score 0.431 0.469 0.449 0.490 0.557 0.524

4.4 Thiết kế và xây dựng hệ thống 4.4.1 Phân tích và thiết kế

Để người dùng có thể dễ dàng thao tác và sử dụng, nhóm tiến hành thiết kế và xây dựng một ứng dụng Web để trực quan hóa các thao tác cũng như hiển thị kết quả đến cho người sử dụng một cách sinh động. Nhóm đặt ra những chức năng sau:

• Đăng nhập, đăng ký.

• Cho phép trãi nghiệm nhanh với những ảnh chụp màn hình có sẵn. • Nhận diện các thành phần giao diện trong ảnh người dùng upload. • Người dùng liên hệ với người quản trị qua email.

Tiếp theo, nhóm thiết kế lược đồ Use-case(hình 4.12) dựa theo những chức năng kể trên:

Phát hiện và phân loại các component trong ảnh

Kết nối tắt của Resnet

Các nghiên cứu liên quan