1. Trang chủ
  2. » Luận Văn - Báo Cáo

Số hóa phiếu xét nghiệm sử dụng kỹ thuật trí tuệ nhân tạo 2

64 6 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Số Hóa Phiếu Xét Nghiệm Sử Dụng Kỹ Thuật Trí Tuệ Nhân Tạo 2
Định dạng
Số trang 64
Dung lượng 5,75 MB

Nội dung

CƠ SỞ LÝ THUYẾT 2.1 Nhận dạng đối tượng, nhận dạng ký tự OCR 2.1.1 Nhận dạng đối tượng Nhận dạng đối tượng một thuật ngữ chung để mô tả một tập hợp nhiệm vụ thị giác máy tính có liên quan liên quan đến việc xác định đối tượng ảnh kỹ thuật số : - Phân loại hình ảnh liên quan đến việc dự đốn lớp mợt đối tượng mợt hình ảnh - Định vị, xác định vị trí mợt nhiều đối tượng mợt hình ảnh vẽ bounding box (là hình chữ nhật vẽ bao quanh đối tượng nhằm xác định vị trí đối tượng) - Phát đối tượng kết hợp hai nhiệm vụ thực cho một nhiều đối tượng hình ảnh Phân biệt giữa ba lĩnh vực thị giác máy tính thơng qua input output sau: - Phân loại hình ảnh: dự đốn nhãn mợt đối tượng mợt hình ảnh [3] o Input: mợt hình ảnh với mợt đối tượng, chẳng hạn mợt bức ảnh hình vật o Output: Nhãn lớp một nhiều số nguyên ánh xạ tới nhãn lớp - Định vị đối tượng: Xác định vị trí diện đối tượng ảnh cho biết vị trí chúng bounding box [3] o Input: Mợt hình ảnh có mợt nhiều đối tượng, chẳng hạn một bức ảnh o Output: Một nhiều bounding box xác định tọa độ tâm, chiều rộng chiều cao - Phát đối tượng: Xác định vị trí diện đối tượng bounding box nhãn đối tượng nằm mợt hình ảnh [3] o Input: Mợt hình ảnh có mợt nhiều đối tượng, chẳng hạn một bức ảnh o Output: Một nhiều bounding box nhãn cho bounding box Một hệ thống nhận diện đối tượng thường bao gồm bốn bước : - Thu nhận tín hiệu (input) tiền xử lý (preprocessing) - Trích xuất đặc trưng (feature extraction) - Phát đối tượng (detection) - Phân lớp đối tượng (classification) Hình 2.1 Quy trình chung tốn nhận diện đối tượng Ảnh đầu vào tiền xử lý nhằm tăng đợ xác cho hệ thống Các ảnh sau đó trích xuất đặc trưng tạo vectơ dữ liệu đặc trưng Những vectơ đặc trưng dữ liệu đầu vào cho mô hình h́n luyện trước Mơ hình dị tìm định vị những vị trí đối tượng xuất ảnh video Những đối tượng xác định phân lớp thành lớp riêng biệt để nhận dạng [3] 2.1.2 Nhận dạng ký tự OCR thuật ngữ viết tắt cụm từ Optical Character Recognition (nhận dạng ký tự quang học) Là kỹ thuật sử dụng để chuyển đổi hình ảnh văn sang dạng văn số có thể chỉnh sửa máy tính OCR nhận đầu vào ảnh có kí tự xử lý cho kết kí tự văn tương ứng OCR biết đến từ những năm 1974, Ray Kurzweil bắt đầu phát triển một công nghệ có thể nhận kí tự hình ảnh văn bản, công nghệ ứng dụng vào thiết bị hỗ trợ đọc cho người khiếm thị Cơng nghệ OCR ngày hồn thiện phát triển, ngày cơng nghệ ứng dụng rất nhiều lĩnh vực cuộc sống từ ứng dụng nhận dạng chữ viết, văn bản, phần mềm hệ thống ứng dụng nhận diện biển số xe [1]… Tương tự với toán nhận diện đối tượng, toán nhận diện ký tự bất kỳ gồm bước sau: - Thu nhận tín hiệu (input) tiền xử lý (preprocessing) - Trích xuất đặc trưng (feature extraction) - Phát đối tượng chữ/ ký tự (text detection) - Nhận dạng văn (text recognition) Hình 2.2 Quy trình chung toán nhận diện ký tự OCR 2.2 Các khái niệm, phương pháp tiền xử lý liệu - Mức xám điểm ảnh cường độ sáng nó gán giá trị số điểm đó 10 o Ảnh nhị phân : tên nó cho thấy nó chứa hai phần tửlà 1, đó đề cập đến màu đen đề cập đến màu trắng Ảnh gọi ảnh đơn sắc o Ảnh đen trắng : ảnh bao gồm màu đen màu trắng o Ảnh bit: Đây định dạng ảnh tiếng nhất Nó có 256 màu khác thường gọi ảnh xám Trong định dạng này, đại diện màu đen, 255 đại diện màu trắng 127 đại diện màu xám - CutMix data augmentation: o Loại bỏ một vùng ảnh để model không thể overfit một đặc trưng đặc biệt đó tập huấn luyện o Vùng ảnh bị loại bỏ thay giá trị  khơng làm ảnh hưởng q trình xử lý o CutMix thay vùng ảnh bị loại bỏ một phần ảnh ảnh khác dataset, hình 2.3 Hình 2.3 Ví dụ minh họa Cutmix o Vùng bị thay giúp bộ object detector học với nhiều đặc trưng - Mosaic data augmentation: o Thay ảnh đầu vào sự kết hợp ảnh Mosaic sử dụng kết hợp ảnh Giúp cho bối cảnh ảnh phong phú 11 Hình 2.4 Ví dụ minh họa Mosaic data augmentation [4] - DropBlock regularization: Dropout điểm gần thường có đặc điểm giống nhau, loại bỏ điểm cách set weight=0 mợt số vị trí feature map Trong DropBlock, vị trí chọn khơng phân bố ngẫu nhiên nữa mà tập trung thành block [5] (hình 2.5 hình bên phải) Hình 2.5 Ví dụ minh họa Dropblock [5] - One-hot encoding trình biến đổi giá trị thành đặc trưng nhị phân chứa giá trị Mỗi mẫu đặc trưng phân loại biến đổi thành một vector có kích thước m với mợt giá trị (biểu thị nó active) 12 Hình 2.6 ví dụ One-hot encoding - Gaussian Filter: Bợ lọc Gauss cho bộ lọc thường sử dụng, thực cách nhân chập ảnh đầu vào với một ma trận lọc Gauss sau đó cộng chúng lại để tạo thành ảnh đầu Ý tưởng chung giá trị điểm ảnh phụ thuộc nhiều vào điểm ảnh gần điểm ảnh xa Trọng số sự phụ thuộc lấy theo hàm Gauss (cũng sử dụng quy luật phân phối chuẩn) Hình 2.7 Ma trận Gauss Giả sử ảnh một chiều Điểm ảnh trung tâm có trọng số lớn nhất Các điểm ảnh xa trung tâm có trọng số giảm dần khoảng cách từ chúng tới điểm trung tâm tăng lên Như điểm gần trung tâm đóng góp nhiều vào giá trị điểm trung tâm 13 2.2 YOLO YOLO viết tắt từ “You only look once” Ý nghĩa “chúng ta cần nhìn lần có thể phát vật thể” Về đợ xác YOLO có thể khơng phải thuật tốn tốt nhất nó thuật tốn nhanh nhất mơ hình nhận dạng đối tượng Tốc độ nhận diện YOLO tiệm cận thời gian thực đợ xác cao nằm mơ hình tḥc top đầu YOLO có thể phát nhiều vật thể có nhãn khác mợt bức ảnh thay phân loại nhất mợt nhãn cho mợt bức ảnh [6] YOLO có phiên phát triển YOLOv1 – YOLOv3 Joseph Redmon YOLOv4 Alexey Bochkovskiy YOLOv5 phát triển hoàn thiện 2.2.1 Các phiên YOLO - YOLOv1 Joseph Redmon Ali Farhadi công bố vào tháng năm, năm 2016 Ý tưởng YOLOv1 chia ảnh thành mợt lưới (grid cell) với kích thước SxS (mặc định 7x7) Với grid cell, mô hình đưa dự đốn cho B bounding box Ứng với box B bounding box tham số x, y, w, h, confidence, tọa độ tâm (x, y), chiều rộng, chiều cao đợ tin cậy dự đốn [7] Nhược điểm YOLOv1: YOLOv1 bị ràng buộc về không gian những bounding box, grid cell có thể dự đốn rất bounding box (B) nhất một lớp Ràng buộc hạn chế khả nhận biết số đối tượng nằm gần đối tượng có kích thước nhỏ Trong q trình huấn luyện, loss function không có sự đánh giá riêng biệt giữa bounding box kích thước nhỏ so với bounding box kích thước lớn làm ảnh hưởng đến đợ xác toàn cục mạng [7] - YOLOv2 đặt tên YOLO9000 Joseph Redmon Ali Farhadi công bố vào cuối năm 2016 Phiên cải tiến tốt hơn, nhanh hơn, tiên tiến hơn, xử lý những nhược điểm gặp phải YOLOv1 Các cải tiến YOLO v2: batch normalization, high resolution classifier, sử dụng kiến trúc anchorbox để đưa dự đoán, sử dụng K-mean clustering cho lựa chọn anchor, add fine-grained features, multi-scale training, light-weight backbone Điểm cải tiến YOLOv2 14 khung kiến trúc backbone Darknet-19 Mạng bao gồm 19 lớp convolution lớp maxpooling cải tiến tốc độ nhanh phiên YOLOv1 [8] - YOLOv3 Joseph Redmon Ali Farhadi giới thiệu vào tháng 4, năm 2018 YOLOv3 có kiến trúc giống YOLOv2 Cải tiến YOLOv3 bao gồm : logistic regression cho confidence score, thay softmax logistic classifier rời rạc, backbone - Darknet-53, multi-scale prediction, skip-layer concatenation YOLOv3 bổ sung thêm liên kết giữa lớp dự đoán Sử dụng mơ hình upsample lớp dự đốn tầng sau sau đó kết hợp với lớp dự đốn tầng trước đó, giúp tăng đợ xác dự đốn đối tượng nhỏ [9] - YOLOv4 Alexey Bochkovskiy, Chien-Yao Wang, Hong-Yuan Mark Liao giới thiệu vào tháng 4, năm 2020 YOLOv4 một cải tiến lớn so với YOLOv3 Kiến trúc YOLOv4 đưa toán nhận diện đối tượng dễ tiếp cận hơn, khơng cần máy tính cấu hình mạnh YOLOv4 có thể huấn luyện một mạng phát đối tượng với đợ xác rất cao với GPU 1080ti 2080ti [4] 2.2.2 Kiến trúc YOLOv4 Kiến trúc YOLOv4 chia làm ba phần chính: Backbone, Neck, Head (hình 2.8) Hình 2.8 Kiến trúc YOLOv4 [4] 15 - Backbone: sử dụng kiến trúc CSPDarknet53 CSPDarknet53 cấu tạo từ CSP Darknet53 o CSP ( Cross-Stage-Partial connections) dựa kiến trúc DenseNet, CPS làm nhiệm vụ chia đầu vào khối thành phần, một phần qua khối tính tích chập, phần cịn lại khơng qua tính tốn tích chập mà thẳng tới cuối Sau đó hai phần cộng lại đưa vào khối  cải thiện việc huấn luyện cách kết hợp giữa feature maps tính tốn với feature maps chưa tính tốn [10] Hình 2.9 Cấu trúc CSP [10] o DenseNet (Dense connected convolutional network) một những network nhất cho visual object recognition Kiến trúc giống với Resnet có một vài điểm khác biệt Densenet có kiến trúc gồm dense block transition layers (hình 2.21) Với CNN truyền thống có L layer có L connection, với Densenet có L(L+1)/2 connection (tức lớp phía trước liên kết với tất lớp phía sau nó) [10] Hình 2.10 Cấu trúc DenseNet [11] 16 o Darknet53: YOLOv4 sử dụng CSPDarknet53 để làm backbone CSPDarknet53 có đợ xác cao so với ResNet [4] - Neck: Neck kết hợp đặc trưng q trình trích x́t đặc trưng trình nhận dạng Với lần thực nhận dạng, ảnh rescale khác theo bottom-up top-down trước đưa vào head, đó trình nhận dạng chứa thông tin phong phú [4] - Head: Head (Dense prediction) sử dụng để định vị bounding boxes phân loại Quá trình giống quy trình mơ tả cho YOLOv3, tọa độ bounding boxes :x, y, height width, score [4] Mợt số kỹ thuật thuật tốn YOLOv4 sử dụng để cải thiện đợ xác q trình h́n luyện bag of freebies bag of specials [4] - Bag of freebies có kỹ thuật: o Bag of freebies for backbone: sử dụng phương pháp CutMix and Mosaic data augmentation, DropBlock regularization, Class label smoothing [4] o Bag of freebies for detector: sử dụng phương pháp CIoU-loss, CmBN, DropBlock regularization, Mosaic data augmentation, Self-Adversarial Training, Eliminate grid sensitivity, Using multiple anchors for a single ground truth, Cosine annealing scheduler, Optimal hyperparameters, Random training shapes [4] - Bag of specials có kỹ thuật: o Bag of specials for backbone: sử dụng hàm kích hoạt mish (Mish activation), Cross-stage partial connections (CSP), Multiinput weighted residual connections (MiWRC) [4] o Bag of specials for detector: sử dụng kỹ thuật Mish activation, SPP-block, SAM-block, PAN path-aggregation block, DIoU-NMS [4] - Class label smoothing: thay giá trị 1.0  0.9 one-hot coding giúp đoán nhẵn lớp mợt bức ảnh có loss Do đó model phải điều chỉnh trọng số, giúp tránh việc overconfident vào kết dự đốn  tránh bị overfitting [4] 17 Quá trình huấn luyện Thời gian huấn luyện 50000 iteration ~ 48h Hình 4.11 Quá trình huấn luyện CTPN Bảng 4.2 Kết trình huấn luyện CTPN Info Score 87% mAP Kết thực nghiệm: Chuyển sang ảnh trắng đen Sử dụng CTPN phát vũng chứa văn Hình 4.12 Nhận diện câu chữ CTPN đối tượng method 57 Hình 4.13 Nhận diện câu chữ CTPN đối tượng target_name Hình 4.14 Nhận diện câu chữ CTPN đối tượng result Các đối tượng văn cắt tương ứng với class đối tượng: id, target_name, method, result Hình 4.15 Kết trích x́t câu chữ từ đối tượng 58 Hình 4.16 Kết trích xuất câu chữ từ đối tượng - Đối tượng method Hình 4.17 Kết trích x́t ảnh văn đối tượng method - Đối tượng target_name Hình 4.18 Kết trích xuất ảnh văn đối tượng target_name - Đối tượng result Hình 4.19 Kết trích x́t ảnh văn đối tượng result 59 4.3 Nhận dạng ký tự tiếng việt Transformer OCR Công cụ: Laptop lenovo Legion y540 Hình 4.20 Thơng tin máy tính h́n luyện Quá trình huấn luyện Thời gian huấn luyện 30000 iteration ~ 48h Hình 4.21 Kết huấn luyện Tranformer OCR Bảng 4.3 Kết trình huấn luyện Tranformer OCR 60 Info acc full seq acc per char Score 93.82% 98,9% Loss diagram Hình 4.22 Biểu đồ loss diagram Trích xuất ký tự từ ảnh văn từ đối tượng phiếu xét nghiệm 61 Hình 4.23 Kết nhận diện ký tự Tranformer OCR 62 SO SÁNH VỚI TESSERACT OCR TRANFORMER OCR TESSERACT OCR 63 64 Kết cho thấy Tranformer OCR hiệu Tesseract OCR về độ xác nhận trích xuất câu chữ, ký tự 4.4 Đánh giá Từ kết ta đưa đánh giá sau: - Đối với việc phát đối tượng YOLO trên phiếu xét nghiệm, tỷ lệ xác chưa cao ảnh đầu vào bị nghiêng, xéo Vì tập dữ liệu cịn ít, đa phần mẫu rời rạc không đồng nhất Bên cạnh đó ảnh đầu vào tốt, YOLO xác định vị trí đối tượng dễ dàng phát nhiều vật thể có nhãn khác một bức ảnh thay phân loại nhất mợt nhãn cho một bức ảnh - Đối với việc phát đối tượng văn CTPN tỷ lệ xác rất cao, vùng văn bao trùm trọn văn bản, không bị bắt ký tự vùng biên (phụ thuộc vào ảnh đối tượng nhận dạng từ YOLO) - Đối với việc nhận dạng dòng text đánh máy Tranformer OCR tỷ lệ xác cao nên đáp ứng yêu cầu toán Tuy nhiên, ảnh có ký tự bị khuất vùng biên ảnh hưởng lớn đến kết nhận dạng 65 - Một số mẫu cho tỷ lệ nhận dạng ký tự xác cao 93 % có mẫu không thể nhận dạng không thành công Đây có thể ảnh hưởng chất lượng ảnh đầu vào 66 KẾT LUẬN VÀ KIẾN NGHỊ Kết luận: Luận văn trình bày khái quát vấn đề liên quan đến toán số hóa phiếu xét nghiệm sử dụng kỹ thuật Trí Tuệ Nhân Tạo, hiểu rõ kỹ thuật nhận dạng đối tượng, nhận dạng ký tự Trên sở phân tích, kế thừa ứng dụng nghiên cứu liên quan, luận văn tập trung nghiên cứu, giải toán số hóa phiếu xét nghiệm gồm ba bước: phát đối tượng phiếu xét nghiệm, trích xuất ảnh chứa văn từ đối tượng phiếu xét nghiệm nhận dạng ký tự văn Một số kết đạt luận văn cụ thể sau: - Sử dụng YOLOv4 nhận dạng với tốc độ nhanh với đợ xác tốt, xác định vị trí đối tượng dễ dàng phát nhiều vật thể có nhãn khác một bức ảnh thay phân loại nhất mợt nhãn cho một bức ảnh Làm giảm tải việc số hóa lấy dữ liệu cần thiết so với số hóa dữ liệu tồn bợ phiếu xét nghiệm - CTPN hoạt đợng tốt những ảnh thiếu sáng, ảnh mờ, có thể xử lý đa ngôn ngữ hiệu - Tranformer OCR xử lý song song cho từ so với mô hình LSTM từ phải xử lý tuần tự Vị trí từ mã hóa Positional Encoding mợt vector có kích thước word embedding cộng trực tiếp vào word embedding  việc nhận diện ký tự xác Tuy nhiên, luận văn cịn mợt số hạn chế: - Bợ dữ liệu phiếu xét nghiệm covid19 cho YOLO Lý phiếu xét nghiệm covid19 mang thông tin cá nhân nên việc thu thập mẫu phiếu hạn chế - Chưa đề x́t mơ hình đầu cuối tốt nhất cho toán số hóa phiếu xét nghiệm Đề xuất: - Nghiên cứu phương pháp nhận dạng văn bản, nhận dạng ký tự hiệu để đề xuất mô hình tốt nhất cho tốn số hóa 67 TÀI LIỆU THAM KHẢO [1] P T Tài "Tìm hiểu về cơng nghệ nhận dạng kí tự quang học (OCR - Optical Character Recognition) ứng dụng phần mềm phát xử lý vi phạm luật giao thông thông qua hệ thống camera giám sát." Internet: http://congan.travinh.gov.vn/ch26/351.prt, 30 Agu 2017 [2] N Laodongxahoi.net, "Ảnh hưởng dịch Covid 19 những sách bảo đảm an sinh xã hợi đại dịch," Internet: https://phutho.gov.vn/vi/anhhuong-cua-dich-covid-19-va-nhung-chinh-sach-bao-dam-sinh-xa-hoi-trongdai-dich, 22 Nov 2021 [3] Phạm Đình Khanh "Các thuật tốn Object Detection." Internet: https://phamdinhkhanh.github.io/2019/09/29/OverviewObjectDetection.html, 29 Sep 2019 [4] A Bochkovskiy et al "YOLOv4: Optimal Speed and Accuracy of Object Detection," 2020 [5] G Ghiasi et al "DropBlock: A regularization method for convolutional networks In Advances in Neural Information Processing Systems (NIPS)," pp 10727–10737, 2018 [6] M Chablani "YOLO — You only look once, real time object detection explained." Internet: https://towardsdatascience.com/yolo-you-only-lookonce-real-time-object-detection-explained-492dc9230006, 21 Aug 2017 [7] Joseph Redmon et al "You Only Look Once: Unified, Real-Time Object Detection," May 2016 [8] J Redmon and A Farhadi, "YOLO9000:Better, Faster, Stronger," Dec 2016 [9] J Redmon and A Farhadt, "YOLOv3: An Incremental Improvement," YOLOv3: An Incremental Improvement, Sep 2018 [10] C.-Y Wang et al "CSPNET: A NEW BACKBONE THAT CAN ENHANCE LEARNING," 27 Nov 2019 [11] G Huang et al "Densely Connected Convolutional Networks," 28 Jan 2018 [12] L Wright "Meet Mish — New State of the Art AI Activation Function The successor to ReLU?" Internet: https://lessw.medium.com/meet-mish-newstate-of-the-art-ai-activation-function-the-successor-to-relu846a6d93471f#:~:text=ReLU%20has%20some%20known%20weaknesses,bo th%20training%20stability%20and%20accuracy, 27 Agu 2019 [13] n Phung "Tìm hiểu về CTPN - Connectionist Text Proposal Network." Internet: https://nerophung.github.io/2019/07/25/tim-hieu-ctpn, 24 Jul 2019 68 [14] Z Tian et al "Detecting Text in Natural Image with Connectionist Text Proposal Network," 2016 [15] Epshtein et al "Detecting text in natural scenes with stroke," 2010 [16] Pan, Y Hou and X Liu, "Hybrid approach to detect and localize texts in natural," pp 800-813, 2011 [17] Mao et al "Scale based region growing for scene text detection," ACM International Conference on Multimedia, 2013 [18] Yin et al "Multi-orientation scene text detection with adaptive clustering," EEE Trans Pattern Analysis and Machine Intelligence, pp 1930 - 1937, 2015 [19] Zhang et al "Symmetry-based text line detection in natural scenes," IEEE Computer Vision and Pattern Recognition, 2015 [20] Tian et al "Text flow: A unified text detection system in natural scene images," IEEE International Conference on Computer Vision, 2015 [21] A Vaswani et al "Attention Is All You Need," 2017 [22] J Alammar "The Illustrated Transformer." http://jalammar.github.io/illustrated-transformer, 27 June 2018 69 Internet: PHỤ LỤC 70 LÝ LỊCH TRÍCH NGANG CỦA HỌC VIÊN I LÝ LỊCH SƠ LƯỢC: Họ tên: NGUYỄN NGỌC DUY Giới tính: NAM Ngày, tháng, năm sinh: 25/09/1991 Nơi sinh: ĐỒNG THÁP Email: quylekubota@gmail.com Điện thoại: 0764428347 II QUÁ TRÌNH ĐÀO TẠO: 2009 - 2012 Sinh viên Cao Đẳng trường Đại Học Khoa Học Tự Nhiên 2012 - 2014 Sinh viên Đại Học trường Đại Học Khoa Học Tự Nhiên 2019 – Học viên cao học trường Đại Học Cơng Nghiệp TP.HCM III Q TRÌNH CƠNG TÁC CHUN MƠN: Thời gian Từ 10/2014 đến 05/2016 Từ 05/2016 đến 11/2019 Từ 11/2019 đến Nơi công tác Công việc đảm nhiệm Trung tâm Tin học tỉnh Đồng Tháp Trung tâm Công nghệ Thông tin Truyền thông tỉnh Đồng Tháp Viễn thơng tỉnh Đồng Tháp Chun viên phịng Nghiên cứu Phát triển – Trung tâm Tin học Tỉnh Chuyên viên phòng Nghiên cứu Phát triển – Trung tâm Công nghệ Thông tin Truyền thông tỉnh Đồng Tháp Nhân viên giải pháp Trung tâm Công nghệ Thông tin – VNPT Đồng Tháp Tp HCM, ngày 30 tháng 11 Năm 2021 Người khai (Ký tên) Nguyễn Ngọc Duy 71 ... xác suất từ [22 ] (hình 2. 25) Hình 2. 26 Quá trình encode [22 ] 31 Hình 2. 27 Quá trình decode [22 ] 2. 5 Luận văn thạc sĩ “Đề tài Trí tuệ nhân tạo chuyển đổi số: ứng dụng hỗ trợ thu thập số đường huyết... phiếu xét nghiệm 46 Hình 3 .22 Bợ dữ liệu kết hợp trích x́t từ phiếu xét nghiệm - Bợ dữ liệu dán nhẵn sẵn Hình 3 .23 Dán nhãn dữ liệu - Kết hợp thêm 600 ảnh trích xuất từ tập dữ liệu phiếu. .. từ tập dữ liệu đối tượng phiếu xét nghiệm Hình 3. 12 Tập dữ liệu văn phiếu xét nghiệm 42 - Gộp bộ dữ liệu ICDAR 20 13 với bộ dữ liệu ảnh văn đối tượng phiếu xét nghiệm, dán nhãn text công

Ngày đăng: 06/10/2022, 13:00

HÌNH ẢNH LIÊN QUAN

Hình 2.5 Ví dụ minh họa Dropblock [5]. - Số hóa phiếu xét nghiệm sử dụng kỹ thuật trí tuệ nhân tạo 2
Hình 2.5 Ví dụ minh họa Dropblock [5] (Trang 5)
Hình 2.4 Ví dụ minh họa Mosaic data augmentation [4] - Số hóa phiếu xét nghiệm sử dụng kỹ thuật trí tuệ nhân tạo 2
Hình 2.4 Ví dụ minh họa Mosaic data augmentation [4] (Trang 5)
Kiến trúc của YOLOv4 chia làm ba phần chính: Backbone, Neck, Head (hình 2.8). - Số hóa phiếu xét nghiệm sử dụng kỹ thuật trí tuệ nhân tạo 2
i ến trúc của YOLOv4 chia làm ba phần chính: Backbone, Neck, Head (hình 2.8) (Trang 8)
Hình 2.11 Mish Activation Function [12]. Mợt số tḥc tính quan trọng của Mish:  - Số hóa phiếu xét nghiệm sử dụng kỹ thuật trí tuệ nhân tạo 2
Hình 2.11 Mish Activation Function [12]. Mợt số tḥc tính quan trọng của Mish: (Trang 11)
Hình 2.12 Kết quả so sánh YOLOv4 với các SOTA (state-of the-art object detection) trên COCO dataset [4]  - Số hóa phiếu xét nghiệm sử dụng kỹ thuật trí tuệ nhân tạo 2
Hình 2.12 Kết quả so sánh YOLOv4 với các SOTA (state-of the-art object detection) trên COCO dataset [4] (Trang 12)
Hình 2.14 Ví dụ chọn text trên ảnh [13]. - Số hóa phiếu xét nghiệm sử dụng kỹ thuật trí tuệ nhân tạo 2
Hình 2.14 Ví dụ chọn text trên ảnh [13] (Trang 13)
Hình 2.15 Ví dụ minh họa ý tưởng CTPN [13]. - Số hóa phiếu xét nghiệm sử dụng kỹ thuật trí tuệ nhân tạo 2
Hình 2.15 Ví dụ minh họa ý tưởng CTPN [13] (Trang 14)
Hình 2.16 Kiến trúc CTPN [14] - Số hóa phiếu xét nghiệm sử dụng kỹ thuật trí tuệ nhân tạo 2
Hình 2.16 Kiến trúc CTPN [14] (Trang 14)
Hình 2.18 Kết quả phát hiện CTPN trong các trường hợp phạm vi cực nhỏ (trong khung màu đỏ) [14] - Số hóa phiếu xét nghiệm sử dụng kỹ thuật trí tuệ nhân tạo 2
Hình 2.18 Kết quả phát hiện CTPN trong các trường hợp phạm vi cực nhỏ (trong khung màu đỏ) [14] (Trang 19)
Hình 2.26 Quá trình encode [22]. - Số hóa phiếu xét nghiệm sử dụng kỹ thuật trí tuệ nhân tạo 2
Hình 2.26 Quá trình encode [22] (Trang 24)
Hình 3.3 Phiếu xét nghiệm covid dương tính - Số hóa phiếu xét nghiệm sử dụng kỹ thuật trí tuệ nhân tạo 2
Hình 3.3 Phiếu xét nghiệm covid dương tính (Trang 30)
Hình 3.6 Kết quả file ảnh đã dán nhẵn trong labelimg. - Số hóa phiếu xét nghiệm sử dụng kỹ thuật trí tuệ nhân tạo 2
Hình 3.6 Kết quả file ảnh đã dán nhẵn trong labelimg (Trang 31)
Hình 3.7 Các đối tượng được dáng nhẵn - Số hóa phiếu xét nghiệm sử dụng kỹ thuật trí tuệ nhân tạo 2
Hình 3.7 Các đối tượng được dáng nhẵn (Trang 32)
Hình 3.11 Tập dữ liệu ICDAR 2013 - Số hóa phiếu xét nghiệm sử dụng kỹ thuật trí tuệ nhân tạo 2
Hình 3.11 Tập dữ liệu ICDAR 2013 (Trang 35)
Hình 3.13 Đối tượng văn bản được dán nhẵn Tiền xử lý dữ liệu  - Số hóa phiếu xét nghiệm sử dụng kỹ thuật trí tuệ nhân tạo 2
Hình 3.13 Đối tượng văn bản được dán nhẵn Tiền xử lý dữ liệu (Trang 36)
Hình 3.14 Dán nhẵn bộ dữ liệu phiếu xét nghiệm. - Số hóa phiếu xét nghiệm sử dụng kỹ thuật trí tuệ nhân tạo 2
Hình 3.14 Dán nhẵn bộ dữ liệu phiếu xét nghiệm (Trang 36)
Hình 3.18 Chuyển đổi tọa độ 4 góc thành dữ liệu đầu vào CTPN - Số hóa phiếu xét nghiệm sử dụng kỹ thuật trí tuệ nhân tạo 2
Hình 3.18 Chuyển đổi tọa độ 4 góc thành dữ liệu đầu vào CTPN (Trang 38)
Hình 3.21 Bợ dữ liệu ảnh Tiếng việt. - Số hóa phiếu xét nghiệm sử dụng kỹ thuật trí tuệ nhân tạo 2
Hình 3.21 Bợ dữ liệu ảnh Tiếng việt (Trang 39)
Hình 3.22 Bợ dữ liệu kết hợp trích xuất từ phiếu xét nghiệm - Bộ dữ liệu đã được dán nhẵn sẵn - Số hóa phiếu xét nghiệm sử dụng kỹ thuật trí tuệ nhân tạo 2
Hình 3.22 Bợ dữ liệu kết hợp trích xuất từ phiếu xét nghiệm - Bộ dữ liệu đã được dán nhẵn sẵn (Trang 40)
Hình 3.23 Dán nhãn dữ liệu - Số hóa phiếu xét nghiệm sử dụng kỹ thuật trí tuệ nhân tạo 2
Hình 3.23 Dán nhãn dữ liệu (Trang 40)
Hình 3.24 Dán nhãn dữ liệu phiếu xét nghiệm. -  Dữ liệu được chia ra 300.617 ảnh train và 44.126 ảnh test - Số hóa phiếu xét nghiệm sử dụng kỹ thuật trí tuệ nhân tạo 2
Hình 3.24 Dán nhãn dữ liệu phiếu xét nghiệm. - Dữ liệu được chia ra 300.617 ảnh train và 44.126 ảnh test (Trang 41)
Hình 4.2 Kết quả quá trình huấn luyện Yolov4. - Số hóa phiếu xét nghiệm sử dụng kỹ thuật trí tuệ nhân tạo 2
Hình 4.2 Kết quả quá trình huấn luyện Yolov4 (Trang 44)
Hình 4.3 Biểu đồ loss diagram Yolov4. Bảng 4.1 Kết quả quá trình huấn luyện YOLOv4.  - Số hóa phiếu xét nghiệm sử dụng kỹ thuật trí tuệ nhân tạo 2
Hình 4.3 Biểu đồ loss diagram Yolov4. Bảng 4.1 Kết quả quá trình huấn luyện YOLOv4. (Trang 45)
Hình 4.4 Kết quả nhận diện Yolov 41 - Số hóa phiếu xét nghiệm sử dụng kỹ thuật trí tuệ nhân tạo 2
Hình 4.4 Kết quả nhận diện Yolov 41 (Trang 46)
Hình 4.7 Kết quả nhận diện Yolov 44 - Số hóa phiếu xét nghiệm sử dụng kỹ thuật trí tuệ nhân tạo 2
Hình 4.7 Kết quả nhận diện Yolov 44 (Trang 48)
Hình 4.12 Nhận diện câu chữ bằng CTPN trên đối tượng method - Số hóa phiếu xét nghiệm sử dụng kỹ thuật trí tuệ nhân tạo 2
Hình 4.12 Nhận diện câu chữ bằng CTPN trên đối tượng method (Trang 50)
Hình 4.11 Quá trình huấn luyện CTPN Bảng 4.2 Kết quả quá trình huấn luyện CTPN.  - Số hóa phiếu xét nghiệm sử dụng kỹ thuật trí tuệ nhân tạo 2
Hình 4.11 Quá trình huấn luyện CTPN Bảng 4.2 Kết quả quá trình huấn luyện CTPN. (Trang 50)
Hình 4.16 Kết quả trích x́t câu chữ từ các đối tượng 2. -  Đối tượng method  - Số hóa phiếu xét nghiệm sử dụng kỹ thuật trí tuệ nhân tạo 2
Hình 4.16 Kết quả trích x́t câu chữ từ các đối tượng 2. - Đối tượng method (Trang 52)
Hình 4.21 Kết quả huấn luyện Tranformer OCR. Bảng 4.3 Kết quả quá trình huấn luyện Tranformer OCR - Số hóa phiếu xét nghiệm sử dụng kỹ thuật trí tuệ nhân tạo 2
Hình 4.21 Kết quả huấn luyện Tranformer OCR. Bảng 4.3 Kết quả quá trình huấn luyện Tranformer OCR (Trang 53)
Hình 4.23 Kết quả nhận diện ký tự bằng Tranformer OCR - Số hóa phiếu xét nghiệm sử dụng kỹ thuật trí tuệ nhân tạo 2
Hình 4.23 Kết quả nhận diện ký tự bằng Tranformer OCR (Trang 55)

TRÍCH ĐOẠN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN