BỘ CÔNG THƯƠNG TRƯỜNG ĐẠI HỌC CÔNG NGHIỆP THÀNH PHỐ HỒ CHÍ MINH NGUYỄN NGỌC DUY SỐ HÓA PHIẾU XÉT NGHIỆM SỬ DỤNG KỸ THUẬT TRÍ TUỆ NHÂN TẠO Chuyên ngành KHOA HỌC MÁY TÍNH Mã chuyên ngành 8480101 LUẬN VĂN THẠC SĨ THÀNH PHỐ HỒ CHÍ MINH, NĂM 2022 Công trình được hoàn thành tại Trường Đại học Công nghiệp TP Hồ Chí Minh Người hướng dẫn khoa học PGS TS Huỳnh Trung Hiếu Luận văn thạc sĩ được bảo vệ tại Hội đồng chấm bảo vệ Luận văn thạc sĩ Trường Đại học Công nghiệp thành phố Hồ Chí Minh ngày 02 tháng.
BỘ CÔNG THƯƠNG TRƯỜNG ĐẠI HỌC CÔNG NGHIỆP THÀNH PHỐ HỒ CHÍ MINH NGUYỄN NGỌC DUY SỐ HĨA PHIẾU XÉT NGHIỆM SỬ DỤNG KỸ THUẬT TRÍ TUỆ NHÂN TẠO Chuyên ngành: KHOA HỌC MÁY TÍNH Mã chuyên ngành: 8480101 LUẬN VĂN THẠC SĨ THÀNH PHỐ HỒ CHÍ MINH, NĂM 2022 Cơng trình hồn thành Trường Đại học Cơng nghiệp TP Hồ Chí Minh Người hướng dẫn khoa học: PGS.TS Huỳnh Trung Hiếu Luận văn thạc sĩ bảo vệ Hội đồng chấm bảo vệ Luận văn thạc sĩ Trường Đại học Cơng nghiệp thành phố Hồ Chí Minh ngày 02 tháng 03 năm 2022 Thành phần Hội đồng đánh giá luận văn thạc sĩ gồm: PGS TS Nguyễn Hòa - Chủ tịch Hội đồng TS Lê Thành Sách - Phản biện TS Đặng Thị Phúc - Phản biện TS Phạm Thị Thiết - Ủy viên TS Lê Nhật Duy - Thư ký (Ghi rõ họ, tên, học hàm, học vị Hội đồng chấm bảo vệ luận văn thạc sĩ) CHỦ TỊCH HỘI ĐỒNG TRƯỞNG KHOA/VIỆN CƠNG NGHỆ THƠNG TIN PGS TS NGUYỄN HỊA PGS TS HUỲNH TRUNG HIẾU BỘ CÔNG THƯƠNG TRƯỜNG ĐẠI HỌC CƠNG NGHIỆP THÀNH PHỐ HỒ CHÍ MINH CỘNG HỊA XÃ HỘI CHỦ NGHĨA VIỆT NAM Độc lập - Tự - Hạnh phúc NHIỆM VỤ LUẬN VĂN THẠC SĨ Họ tên học viên: NGUYỄN NGỌC DUY MSHV: 19000111 Ngày, tháng, năm sinh: 25/09/1991 Nơi sinh: Đồng Tháp Chuyên ngành: Khoa học Máy tính Mã chuyên ngành: 8480101 I TÊN ĐỀ TÀI: SỐ HÓA PHIẾU XÉT NGHIỆM SỬ DỤNG KỸ THUẬT TRÍ TUỆ NHÂN TẠO ………………………………………………………………… NHIỆM VỤ VÀ NỘI DUNG: - Nghiên cứu giải pháp số hóa dữ liệu Tiền xử lý dữ liệu dựa yêu cầu bước thực bước theo giải pháp Ứng dụng công cụ xử lý số hóa dữ liệu phiếu xét nghiệm covid19 Phân tích kết đưa hướng phát triển II NGÀY GIAO NHIỆM VỤ: Theo Quyết định số 1032/QĐ-ĐHCN ngày 09/8/2021 về việc giao đề tài cử người hướng dẫn luận văn thạc sĩ III NGÀY HOÀN THÀNH NHIỆM VỤ: 09/02/2022 IV NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS TS Huỳnh Trung Hiếu Tp Hồ Chí Minh, ngày … tháng năm 2022 NGƯỜI HƯỚNG DẪN CHỦ NHIỆM BỘ MÔN ĐÀO TẠO (Họ tên chữ ký) (Họ tên chữ ký) PGS TS HUỲNH TRUNG HIẾU TRƯỞNG KHOA/VIỆN ….……… (Họ tên chữ ký) LỜI CẢM ƠN Trong trình thực luận văn những năm học vừa qua, Tôi nhận sự bảo hướng dẫn tận tâm thầy PGS TS Huỳnh Trung Hiếu Lời đầu tiền xin gửi tới thầy lời cảm ơn chân thành sâu sắc nhất Tôi xin chân thành cảm ơn tới thầy, cô Khoa Công nghệ Thông tin, trường Đại học Cơng Nghiệp TP HCM tận tình dạy dỗ truyền đạt cho những kiến thức chuyên sâu về chuyên ngành suốt thời gian học tập để tơi có nền tảng kiến thức hỗ trợ rất lớn cho tơi q trình làm luận văn thạc sĩ Tôi xin gửi lời cảm ơn chân thành đến thầy Lê Nhật Duy – Phó khoa Cơng nghệ thông tin hướng dẫn giúp đỡ biểu mẫu quy trình hồn thành đề tài luận văn từ bắt đầu đăng ký đề cương đến bảo vệ luận văn Xin gửi lời cảm ơn đến thầy cơ, cán bợ phịng Quản lý sau đại học tận tình giúp đỡ, hỗ trợ tơi q trình làm luận văn Trong trình thực hiện, hạn chế về kiến thức, kinh nghiệm thời gian nghiên cứu cịn hạn chế, luận văn khơng thể tránh khỏi những sai sót Tơi rất mong nhận những ý kiến đóng góp q Thầy, Cơ để luận văn hoàn thiện Trân Trọng cảm ơn i TÓM TẮT LUẬN VĂN THẠC SĨ Trong luận văn, tác giả nghiên cứu tiếp cận số hóa mẫu phiếu xét nghiệm Tiếp cận đề x́t dựa mơ hình học sâu sử dụng một số kỹ thuật đại, luận văn bao gồm bước: Bước - Sử dụng thuật toán Yolov4 (You only look once version 4) xây dựng cơng cụ trích x́t đối tượng id, tên xét nghiệm, phương pháp, kết xét nghiệm đối tượng phiếu xét nghiệm Bước - Sử dụng tiếp cận CTPN (Connectionist Text Proposal Network) trích xuất ảnh chứa văn từ những đối đượng id, tên xét nghiệm, phương pháp, kết Bước - Sau có đối tượng ảnh chứa văn bản, tác giả sử dụng tiếp cận Tranformer OCR để nhận dạng ký tự từ đối tượng ảnh text ii ABSTRACT In this thesis, author investgated in digitailizing medical test The proposed approach is based on deep learning model and using modern techniques, it includes steps: Step - Using Yolov4 (You only look once version 4) to detection object id, test name, method, test result on the test form object Step - Using the CTPN (Connectionist Text Proposal Network) to extract text images from the id, test names, methods, and results Step - After having the text image object, use the Transformer OCR algorithm is applied to recognize characters from the text image objects iii LỜI CAM ĐOAN Tôi xin cam đoan cơng trình nghiên cứu thân Các kết nghiên cứu kết luận luận văn trung thực, không chép từ bất kỳ một nguồn bất kỳ hình thức Việc tham khảo nguồn tài liệu (nếu có) thực trích dẫn ghi nguồn tài liệu tham khảo quy định Học viên (Chữ ký) NGUYỄN NGỌC DUY iv MỤC LỤC LỜI CẢM ƠN i TÓM TẮT LUẬN VĂN THẠC SĨ ii ABSTRACT iii LỜI CAM ĐOAN iv MỤC LỤC v DANH MỤC HÌNH ẢNH viii DANH MỤC BẢNG BIỂU xi DANH MỤC TỪ VIẾT TẮT xii MỞ ĐẦU .1 Đặt vấn đề Mục tiêu nghiên cứu 2.1 Mục tiêu nghiên cứu tổng quát 2.2 Mục tiêu nghiên cứu cụ thể Đối tượng phạm vi nghiên cứu .2 3.1 Đối tượng 3.2 Phạm vi nghiên cứu .2 Cách tiếp cận phương pháp nghiên cứu 4.1 Cách tiếp cận 4.2 Thời gian nghiên cứu 4.3 Địa điểm nghiên cứu .3 4.4 Vật liệu nghiên cứu .3 4.5 Phương pháp Ý nghĩa thực tiễn đề tài .3 TỔNG QUAN VỀ LĨNH VỰC NGHIÊN CỨU 1.1 Tổng quan về đề tài 1.2 Khó khăn thách thức 1.3 Đề xuất hướng giải CƠ SỞ LÝ THUYẾT v 2.1 Nhận dạng đối tượng, nhận dạng ký tự OCR 2.1.1 Nhận dạng đối tượng 2.1.2 Nhận dạng ký tự .10 2.2 Các khái niệm, phương pháp tiền xử lý dữ liệu 10 2.2 YOLO 14 2.2.1 Các phiên YOLO .14 2.2.2 Kiến trúc YOLOv4 15 2.2.3 So sánh với mô hình khác 18 2.3 CTPN .19 2.3.1 Kiến trúc CTPN 21 2.3.2 So sánh với phương pháp khác 24 2.4 Tranformer OCR .26 2.4.1 Kiến trúc Tranformer OCR 27 2.5 Luận văn thạc sĩ “Đề tài Trí tuệ nhân tạo chuyển đổi số: ứng dụng hỗ trợ thu thập số đường huyết thai phụ” học viên Nguyễn Phạm Thanh Tâm 32 PHƯƠNG PHÁP ĐỀ XUẤT .35 3.1 Mơ hình tổng qt 35 3.2 Thu thập dữ liệu 36 3.2.1 Tập dữ liệu phiếu xét nghiệm 36 3.2.2 Tập dữ liệu cho phát văn 42 3.2.3 Tập dữ liệu cho OCR .46 3.2 Các bước xây dựng phương pháp 48 3.2.1 Phát đối tượng phiếu xét nghiệm 48 3.2.2 Sử dụng CTPN phát vùng chứa văn ảnh 49 3.2.3 Sử dụng Transformer OCR trích xuất văn 49 3.2.4 Quy trình thực nghiệm .50 THỰC NGHIỆM ĐÁNH GIÁ KẾT QUẢ 51 4.1 Phát đối tượng phiếu xét nghiệm YOLOv4 51 4.2 Phát ảnh chứa văn CTPN 56 4.3 Nhận dạng ký tự tiếng việt Transformer OCR .60 vi 4.4 Đánh giá 65 TÀI LIỆU THAM KHẢO 68 PHỤ LỤC 70 LÝ LỊCH TRÍCH NGANG CỦA HỌC VIÊN 71 vii DANH MỤC HÌNH ẢNH Hình 2.1 Quy trình chung tốn nhận diện đối tượng Hình 2.2 Quy trình chung toán nhận diện ký tự OCR 10 Hình 2.3 Ví dụ minh họa Cutmix 11 Hình 2.4 Ví dụ minh họa Mosaic data augmentation [3] 12 Hình 2.5 Ví dụ minh họa Dropblock [4] 12 Hình 2.6 ví dụ One-hot encoding 13 Hình 2.7 Ma trận Gauss 13 Hình 2.8 Kiến trúc YOLOv4 [3] 15 Hình 2.9 Cấu trúc CSP [9] 16 Hình 2.10 Cấu trúc DenseNet [10] 16 Hình 2.11 Mish Activation Function [11] 18 Hình 2.12 Kết so sánh YOLOv4 với SOTA (state-of the-art object detection) COCO dataset [3] 19 Hình 2.13 Ví dụ captcha [12] 20 Hình 2.14 Ví dụ chọn text ảnh [12] 20 Hình 2.15 Ví dụ minh họa ý tưởng CTPN [12] 21 Hình 2.16 Kiến trúc CTPN [13] 21 Hình 2.17 Kết nhận dạng CTPN điều kiện ảnh thiếu sáng [13] .25 Hình 2.18 Kết phát CTPN trường hợp phạm vi cực nhỏ (trong khung màu đỏ) [13] 26 Hình 2.19 Kiến trúc OCR phổ biến 26 Hình 2.20 Kiến trúc Transformer [20] 28 Hình 2.21 Ví dụ input embedding [21] .28 Hình 2.22 Minh họa Positional Encoding [21] 29 Hình 2.23 Ví dụ trích x́t self-Attention [21] 29 Hình 2.24 Minh họa tính ma trận Wo [21] 30 Hình 2.25 Masked Multi-head Attention [21] .31 Hình 2.26 Quá trình encode [21] 31 Hình 2.27 Quá trình decode [21] 32 Hình 2.28 Mơ hình hệ thống đề tài .32 Hình 3.1 Quy trình thực số hóa luận văn 35 Hình 3.2 Phiếu xét nghiệm covid âm tính 37 Hình 3.3 Phiếu xét nghiệm covid dương tính 37 Hình 3.4 Tập dữ liệu thu thập 37 Hình 3.5 Sử dụng labelimg dán nhẵn 38 Hình 3.6 Kết file ảnh dán nhẵn labelimg 38 viii Hình 3.7 Các đối tượng dáng nhẵn 39 Hình 3.8 Kết file txt dán nhẵn 39 Hình 3.9 Kết file txt dán nhẵn 40 Hình 3.10 Thư mục chứa mẫu dán nhẵn 41 Hình 3.11 Tập dữ liệu ICDAR 2013 42 Hình 3.12 Tập dữ liệu văn phiếu xét nghiệm .42 Hình 3.13 Đối tượng văn dán nhẵn 43 Hình 3.14 Dán nhẵn bợ dữ liệu phiếu xét nghiệm .43 Hình 3.15 Kết dán nhẵn bợ dữ liệu phiếu xét nghiệm 44 Hình 3.16 Chuyển đổi dữ liệu dán nhẵn từ số thực sang tọa đợ kiểu ngun 44 Hình 3.17 Chủn đổi tọa độ góc .44 Hình 3.18 Chủn đổi tọa đợ góc thành dữ liệu đầu vào CTPN 45 Hình 3.19 Biểu diễn hình ảnh kết sau chuyển đổi 45 Hình 3.20 Bộ dữ liệu sau chuyển đổi .46 Hình 3.21 Bợ dữ liệu ảnh Tiếng việt 46 Hình 3.22 Bợ dữ liệu kết hợp trích xuất từ phiếu xét nghiệm 47 Hình 3.23 Dán nhãn dữ liệu 47 Hình 3.24 Dán nhãn dữ liệu phiếu xét nghiệm 48 Hình 4.1 Thơng tin máy tính sử dụng 51 Hình 4.2 Kết trình huấn luyện Yolov4 51 Hình 4.3 Biểu đồ loss diagram Yolov4 52 Hình 4.4 Kết nhận diện Yolov4 53 Hình 4.5 Kết nhận diện Yolov4 53 Hình 4.6 Kết nhận diện Yolov4 54 Hình 4.7 Kết nhận diện Yolov4 55 Hình 4.8 Kết nhận diện Yolov4 55 Hình 4.9 Ảnh đối tượng phiếu xét nghiệm sau nhận dạng .56 Hình 4.10 Thơng tin máy tính sử dụng .56 Hình 4.11 Quá trình huấn luyện CTPN .57 Hình 4.12 Nhận diện câu chữ CTPN đối tượng method 57 Hình 4.13 Nhận diện câu chữ CTPN đối tượng target_name 58 Hình 4.14 Nhận diện câu chữ CTPN đối tượng result 58 Hình 4.15 Kết trích x́t câu chữ từ đối tượng 58 Hình 4.16 Kết trích x́t câu chữ từ đối tượng 59 Hình 4.17 Kết trích x́t ảnh văn đối tượng method 59 Hình 4.18 Kết trích xuất ảnh văn đối tượng target_name 59 Hình 4.19 Kết trích x́t ảnh văn đối tượng result 59 Hình 4.20 Thơng tin máy tính h́n luyện 60 Hình 4.21 Kết huấn luyện Tranformer OCR 60 ix Hình 4.22 Biểu đồ loss diagram 61 Hình 4.23 Kết nhận diện ký tự Tranformer OCR 62 x DANH MỤC BẢNG BIỂU Bảng 2.1 Đánh giá CPTN bộ dữ liệu ICDAR 2013, 25 Bảng 4.1 Kết trình huấn luyện YOLOv4 52 Bảng 4.2 Kết trình huấn luyện CTPN 57 Bảng 4.3 Kết trình huấn luyện Tranformer OCR 60 xi DANH MỤC TỪ VIẾT TẮT AI Artificial Intelligence ANN Artificial Neural Network AP Average Precision CNN Convolutional Neural Network CPS Cross-stage partial connections CTPN Connectionist Text Proposal Network FPN Feature Pyramid Network GPU graphics processing unit IOU Intersection over Union mAP mean Average Precision ML Machine Learning NN Neural Network OCR Optical Character Recognition R-CNN Region-based Convolutional Neural Networks RNN Recurrent Neural Network SOTA State-Of-The-Art SSD Single Shot Multibox Detector YOLO You only look once xii MỞ ĐẦU Đặt vấn đề Số hóa phiếu xét nghiệm có tầm quan trọng rất lớn việc xử lý, lưu trữ dữ liệu bệnh nhân Khắc phục tình trạng nhập liệu tải sở khám chữa bệnh, nâng cao hiệu công tác chăm sóc sức khỏe người dân nền tảng ứng dụng Công nghệ thông tin vào công tác quản lý Dữ liệu phiếu xét nghiệm số hóa có thể dễ dàng truy cập chia sẻ hơn, không bị mất mát theo thời gian qua lần chép dữ liệu Ứng dụng Trí tuệ Nhân tạo để Số hóa phiếu xét nghiệm q trình sử dụng thuật tốn Trí tuệ Nhân tạo nhận dạng chủn đổi thơng tin phiếu xét nghiệm thành định dạng kỹ thuật số Ví dụ: quét mợt bức ảnh phiếu xét nghiệm chuyển đổi một phiếu giấy, hay định dạng PDF thành văn kỹ thuật số lưu trữ thông tin xuống Cơ sở dữ liệu Hỗ trợ cho việc truy x́t, phân tích mợt cách dễ dàng Mục tiêu nghiên cứu 2.1 Mục tiêu nghiên cứu tổng quát - Nhận dạng đối tượng phiếu xét nghiệm với dữ liệu đầu vào bộ sở dữ liệu phiếu xét nghiệm, sử dụng mợt mơ hình mạng nơ-ron nhận dạng đối tượng phiếu xét nghiệm - Nhận dạng ảnh chứa văn từ đối tượng trích xuất từ phiếu xét nghiệm - Trích xuất ký tự từ đối tượng ảnh chứa văn đối tượng phiếu xét nghiệm 2.2 Mục tiêu nghiên cứu cụ thể - Nghiên cứu mạng nơ-ron nhân tạo - Nghiên cứu phương pháp nhận diện ảnh - Nghiên cứu phương pháp nhận diện ảnh chứa văn - Nghiên cứu phương pháp nhận dạng ký tự quang học - Áp dụng phương pháp vào việc số hóa phiếu xét nghiệm Đối tượng phạm vi nghiên cứu 3.1 Đối tượng - Lý thuyết về nhận dạng đối tượng, ký tự - Các vấn đề liên quan đến phương pháp nhận dạng đối tượng – phiếu xét nghiệm - Phương pháp nhận dạng phiếu xét nghiệm YOLO (You only look once) - Phương pháp nhận dạng ảnh chứa văn CTPN (Connectionist Text Proposal Network) - Phương pháp nhận dạng ký tự Transformer OCR (Optical Character Recognition) 3.2 Phạm vi nghiên cứu - Lĩnh vực: Deep learning - Không gian: Cài đặt thực máy tính - Dữ liệu phiếu xét nghiệm thu thập mạng 500 mẫu - Dữ liệu sử dụng cho toán nhận dạng ảnh chứa văn bộ dữ liệu ICDAR 2013 3422 mẫu - Dữ liệu sử dụng nhận diện ký tự thu thập mạng 344.743 mẫu Cách tiếp cận phương pháp nghiên cứu 4.1 Cách tiếp cận - Tìm hiểu tổng quan về cơng trình nghiên cứu có liên quan thành tựu hoàn thành trước - Phân loại, nhận dạng ảnh đối tượng sử dụng CNN (Convolution Neural Networks) - Các phương pháp nhận dạng ký tự quang học - Phân loại, nhận dạng ảnh đối tượng sử dụng YOLO v4 (You Look Only Once version 4) - Nhập dạng ảnh chứa văn sử dụng CTPN - Nhận dạng ký tự sử dụng Tranformer OCR - Xây dựng cơng cụ nhận dạng nhằm mục đích kiểm tra giải pháp đánh giá hiệu hệ thống 4.2 Thời gian nghiên cứu - Thời gian nghiên cứu từ 09/08/2021 đến 09/02/2022 4.3 Địa điểm nghiên cứu - Nghiên cứu thực trường Đại học Công nghiệp thành phố Hồ Chí Minh 4.4 Vật liệu nghiên cứu - Máy tính, ảnh, nguồn thơng tin thu thập từ mạng Internet, tài liệu tham khảo 4.5 Phương pháp - Phương pháp nghiên cứu dựa tài liệu: thu thập, phân tích, xử lý thơng tin dựa tài liệu sách, báo, tạp chí,…đã in ấn công bố internet liên quan đến đề tài - Phương pháp nghiên cứu dựa thực nghiệm: thông qua việc thử nghiệm dữ liệu đối sánh với kết công bố Ý nghĩa thực tiễn đề tài Số hóa phiếu xét nghiệm có tầm quan trọng rất lớn việc xử lý, lưu trữ dữ liệu bệnh nhân Số hóa phiếu xét nghiệm phương pháp hiệu giúp: - Kéo dài tuổi thọ tài liệu gốc, không bị mất mát qua thời gian qua lần chép dữ liệu - Quản lý, lưu trữ khai thác tập trung môi trường số - Cắt giảm chi phí quản lý, nhập liệu thủ cơng, giảm thiểu diện tích khơng gian lưu trữ tài liệu giấy - Tăng cường khả bảo mật thông tin tài liệu - Khắc phục tình trạng tải sở khám chữa bệnh, nâng cao hiệu công tác chăm sóc sức khỏe người dân nền tảng ứng dụng Công nghệ thông tin vào công tác quản lý - Tiết kiệm thời gian tìm kiếm thơng tin, dễ dàng chia sẻ, tự động hóa quy trình cho phép khả truy cập tốt Với những lý trên, định thực đề tài “Số hóa phiếu xét nghiệm sử dụng kỹ thuật Trí Tuệ Nhân Tạo” TỔNG QUAN VỀ LĨNH VỰC NGHIÊN CỨU 1.1 Tổng quan đề tài Số hóa tài liệu xu hướng chung nhiệm vụ ưu tiên hàng đầu Số hóa giúp việc lưu trữ, chỉnh sửa, lập mục tìm kiếm thông tin tài liệu kỹ thuật số dễ dàng so với việc bỏ hàng để duyệt qua tài liệu in / viết tay / đánh máy Hơn nữa, việc tìm kiếm mợt tài liệu với số lượng nội dung lớn không tốn thời gian mà có khả bỏ lỡ thông tin xem, duyệt tài liệu theo cách thủ công OCR thuật ngữ viết tắt cụm từ Optical Character Recognition (nhận dạng ký tự quang học) Là kỹ thuật nhận đầu vào ảnh có kí tự sau đó xử lý cho kết kí tự văn tương ứng OCR biết đến từ những năm 1974, Ray Kurzweil bắt đầu phát triển một công nghệ có thể nhận kí tự hình ảnh văn bản, công nghệ ứng dụng vào thiết bị hỗ trợ đọc cho người khiếm thị Công nghệ OCR ngày hoàn thiện phát triển, ngày cơng nghệ ứng dụng rất nhiều vào lĩnh vực cuộc sống từ ứng dụng nhận dạng chữ viết, văn bản, phần mềm hệ thống ứng dụng nhận diện biển số xe,… [1] Trong lĩnh vực y tế, chuyên gia cần quản lý lượng lớn dữ liệu bệnh nhân dữ liệu đó tăng liên tục Sẽ rất hữu ích thơng tin lưu trữ sở dữ liệu Với công cụ xử lý OCR, có thể trích xuất dữ liệu văn từ ảnh, video lưu trữ chúng vào sở dữ liệu, từ đó giúp cho việc truy x́t, tìm kiếm, phân tích dễ dàng cho công việc về sau Trong luận văn này, kết hợp tiếp cận AI để hỗ trợ việc trích x́t thơng tin, chủn đổi dữ liệu từ dạng ảnh sang dạng văn số Mục tiêu nghiên cứu phát triển cơng cụ tích hợp trí tuệ nhân tạo việc rút trích thơng tin từ phiếu xét nghiệm covid19, nhằm tăng tính tự động giảm tải không gian lưu trữ, nâng cao hiệu trình số hóa dữ liệu thu thập lĩnh vực y tế Đề tài hoàn thành giúp chuyên gia thực dự án nghiên cứu có yêu cầu thu thập, phân tích theo dõi, tiết kiệm thời gian nhập liệu thủ công Sự bùng phát dịch COVID-19 mang lại những thách thức chưa có Đến thời điểm 400 triệu người nhiễm bệnh giới, đó có triệu người tử vong Kể từ dịch bùng phát từ đầu 2020 đến nay, Việt Nam trải qua bốn đợt bùng phát đến chưa chấm dứt Ghi nhận triệu ca nhiễm, triệu người khỏi bệnh, gần 40 nghìn ca tử vong Covid19 tác đợng đáng kể đến sự phát triển nền kinh tế Việt Nam Tuy đánh giá mợt số quốc gia ứng phó tốt với dịch bệnh, thị trường lao động – việc làm Việt Nam bị ảnh hưởng nghiêm trọng, việc lưu thông, vận chuyển hàng hóa giữa tỉnh, thành phố bị hạn chế tối đa, chí loại hình vận tải phải ngưng hoạt động tỉnh giãn cách xã hội Hoạt động du lịch, nông, lâm nghiệp thủy sản gặp nhiều khó khăn Thêm vào đó, nhiều doanh nghiệp, sở kinh phải đóng cửa, hoạt động cầm chừng để trì khơng rơi vào tình trạng phá sản Trong tháng đầu năm 2021, 19 tỉnh, thành phố phía Nam, nơi chiếm 48% số doanh nghiệp nước có tới 79.673 doanh nghiệp rút lui khỏi thị trường, tăng 25,5% so với kỳ năm 2020 Đặc biệt, đợt dịch tác động mạnh vào khu công nghiệp, khu chế xuất, những nơi tập trung lượng lớn lao động (khoảng triệu người), có doanh nghiệp lớn chuỗi giá trị toàn cầu, đóng góp nhiều cho phát triển kinh tế, thu ngân sách Tính tới thời điểm ngày 13/8/2021, theo báo cáo nhanh tỉnh, thành phố phía Nam, có khoảng 2,5 triệu lao động phải ngừng việc, chiếm 70% số lao động phải ngừng việc nước [2] Ở Đồng Tháp tình hình covid diễn biến rất phức tạp, liên tục tháng cuối năm 2021 số ca nhiễm Đồng Tháp liên tục nằm top nước Tỉnh liên tục đạo xét nghiệm hàng loạt tầm soát dịch bệnh Bên cạnh đó số lượng phiếu xét nghiệm covid rất nhiều, phải cần người nhập liệu phiếu xét nghiệm covid vào hệ thống, để thống kê, vẽ biểu đồ vùng dịch địa phương Trong nghiên cứu này, tác giả phát triển một công cụ số hỗ trợ việc số hóa phiếu xét nghiệm covid19 Công cụ nhận dữ liệu đầu vào hình ảnh phiếu xét nghiệm covid19 sử dụng kỹ thuật AI để số hóa thu thập dữ liệu Nghiên cứu giúp thu thập, lưu trữ số liệu phiếu xét nghiệm covid19 dạng số giúp giảm tải việc nhập liệu, từ đó có thể sử dụng để dự đoán, kiểm tra điều chỉnh lại số liệu dịch bệnh, đồ vùng dịch quản lý chặt chẽ vùng bùng phát đại dịch 1.2 Khó khăn thách thức Đề tài “số hóa phiếu xét nghiệm sử dụng kỹ thuật trí tuệ nhân tạo” sử dụng mẫu phiếu xét nghiệm covid19 thu thập mạng làm dữ liệu huấn luyện Thông tin phiếu xét nghiệm thông tin nhân, nên việc thu thập mẫu phiếu hạn chế Tuy nhiên để huấn luyện đạt kết tốt cần dữ liệu mẫu nhiều 1.3 Đề xuất hướng giải Tác giả dùng python tạo công cụ lấy ảnh từ internet, sau đó sử dụng phương pháp data augmentation để phát sinh thêm tập dữ liệu ... đề tài ? ?Số hóa phiếu xét nghiệm sử dụng kỹ thuật Trí Tuệ Nhân Tạo” TỔNG QUAN VỀ LĨNH VỰC NGHIÊN CỨU 1.1 Tổng quan đề tài Số hóa tài liệu xu hướng chung nhiệm vụ ưu tiên hàng đầu Số hóa giúp... chuyên ngành: 8480101 I TÊN ĐỀ TÀI: SỐ HÓA PHIẾU XÉT NGHIỆM SỬ DỤNG KỸ THUẬT TRÍ TUỆ NHÂN TẠO ………………………………………………………………… NHIỆM VỤ VÀ NỘI DUNG: - Nghiên cứu giải pháp số hóa dữ liệu Tiền xử lý dữ... tài ? ?số hóa phiếu xét nghiệm sử dụng kỹ thuật trí tuệ nhân tạo” sử dụng mẫu phiếu xét nghiệm covid19 thu thập mạng làm dữ liệu huấn luyện Thông tin phiếu xét nghiệm thông tin nhân,