TRƯỜNG ĐẠI HỌC QUY NHƠN KHOA CÔNG NGHỆ THÔNG TIN TIỂU LUẬN HỌC PHẦN XỬ LÝ NGÔN NGỮ TỰ NHIÊN Đề tài MÔ HÌNH ĐƯỜNG ỐNG DỮ LIỆU NLP DỰA TRÊN HỌC SÂU ĐỂ TRÍCH XUẤT THÔNG TIN TỪ TÀI LIỆU QUÉT EHR Người thự[.]
TRƯỜNG ĐẠI HỌC QUY NHƠN KHOA CÔNG NGHỆ THÔNG TIN TIỂU LUẬN HỌC PHẦN: XỬ LÝ NGÔN NGỮ TỰ NHIÊN Đề tài: MƠ HÌNH ĐƯỜNG ỐNG DỮ LIỆU NLP DỰA TRÊN HỌC SÂU ĐỂ TRÍCH XUẤT THƠNG TIN TỪ TÀI LIỆU QUÉT EHR Người thực hiện: Nguyễn Thị Ngân Vang Lớp: Khoa học máy tính- K24 Giảng viên hướng dẫn: TS Lê Quang Hùng Bình Định, tháng 8/2022 Deep learning-based NLP data pipeline for EHR-scanned document information extraction Contents I GIỚI THIỆU II TÓM TẮT III TỔNG QUAN CÔNG VIỆC LIÊN QUAN Trích xuất thơng tin từ tài liệu quét EHRs Kỹ thuật OCR PHƯƠNG PHÁP Nguồn liệu Xử lý trước hình ảnh Nhận dạng ký tự quang học .9 Phân đoạn văn 10 Phân loại văn 10 Mô hình túi từ 10 Mô hình trình tự dựa học sâu 11 Đào tạo đánh giá mô hình 14 Phân tích hiệu ứng kích thước tập huấn luyện 16 Phân tích xác thực độc lập .17 KẾT QUẢ 17 THẢO LUẬN 22 KẾT LUẬN 25 Deep learning-based NLP data pipeline for EHR-scanned document information extraction I GIỚI THIỆU Bài tiểu luận dịch từ báo khoa học: “Deep learning-based NLP data pipeline for EHR-scanned document information extraction”, tác giả Kirk Roberts, Tiến sĩ, Trường Tin học Y sinh, Trung tâm Khoa học Y tế Đại học Texas Houston, Houston, TX, Hoa Kỳ Link: https://academic.oup.com/jamiaopen/article/5/2/ooac045/6605916 II TÓM TẮT Khách quan: Các tài liệu quét hồ sơ sức khỏe điện tử (EHR) thách thức nhiều thập kỷ dự kiến tồn tương lai gần Các phương pháp xử lý bao gồm tiền xử lý hình ảnh, nhận dạng ký tự quang học (OCR) xử lý ngôn ngữ tự nhiên (NLP) Tuy nhiên, hạn chế việc đánh giá tương tác phương pháp tiền xử lý hình ảnh, mô hình NLP bố cục tài liệu Tài nguyên phương pháp: Chúng đánh giá số chứng ngưng thở ngủ: số ngưng thở ngủ (AHI) độ bão hòa oxy (SaO2), từ 955 báo cáo nghiên cứu giấc ngủ quét Các phương pháp xử lý trước hình ảnh bao gồm thang điểm xám, giãn nở, làm xói mịn tương phản OCR thực với Tesseract Bảy mô hình học máy truyền thống mô hình học sâu đánh giá Chúng đánh giá kết hợp phương pháp tiền xử lý hình ảnh cơng trình học sâu (có khơng có đầu vào có cấu trúc cung cấp thơng tin bố cục tài liệu), với mục tiêu tối ưu hóa hiệu suất từ đầu đến cuối Kết quả: Phương pháp đề xuất sử dụng ClinicalBERT đạt AUROC 0,9743 độ xác tài liệu 94,76% AHI AUROC 0,9523 độ xác tài liệu 91,61% SaO2 Thảo luận: Có nhiều bước liên quan đến để trích xuất thơng tin có ý nghĩa từ báo cáo quét Mặc dù không khả thi thử nghiệm với tất kết hợp tùy chọn có, chúng tơi thử nghiệm với số bước quan trọng để trích xuất thông tin, bao gồm xử lý hình ảnh NLP Do tài liệu quét Deep learning-based NLP data pipeline for EHR-scanned document information extraction phần việc chăm sóc sức khỏe nhiều năm tới, điều quan trọng phải phát triển hệ thống NLP để trích xuất thơng tin quan trọng từ liệu Kết luận: Chúng chứng minh việc sử dụng thích hợp xử lý trước hình ảnh bố cục tài liệu có lợi cho việc xử lý tài liệu quét Hồ sơ sức khỏe điện tử thường chứa tài liệu quét, thường kết báo cáo fax từ nhà cung cấp khác Tài liệu quét thách thức để xử lý, hình ảnh văn bản, chúng thường chứa thơng tin quan trọng Do đó, tự động trích xuất thơng tin từ tài liệu qt, không yêu cầu phương pháp xử lý ngôn ngữ tự nhiên (NLP) thơng thường mà cịn phải thực bước bổ sung nhận dạng ký tự quang học (OCR) để chuyển đổi hình ảnh thành văn Do tài liệu quét phần chăm sóc sức khỏe nhiều năm tới, điều quan trọng phải phát triển hệ thống NLP để trích xuất thơng tin quan trọng từ liệu Bài báo đánh giá loạt phương pháp trích xuất thơng tin từ báo cáo nghiên cứu giấc ngủ, phương pháp nên tổng quát hóa cho nhiều nhiệm vụ NLP lâm sàng khác liên quan đến tài liệu quét Đặc biệt, Chúng thử nghiệm với số phương pháp tiền xử lý hình ảnh mô hình NLP dựa máy học Phương pháp hoạt động tốt chúng tơi đạt độ xác cấp tài liệu 94,8% để xác định giá trị AHI 91,6% để xác định SaO2các giá trị Nhìn chung, chúng tơi chứng minh việc sử dụng thích hợp tiền xử lý hình ảnh bố cục tài liệu có lợi cho việc xử lý tài liệu quét III TỔNG QUAN Các tài liệu quét hồ sơ sức khỏe điện tử (EHR) từ lâu báo cáo có vấn đề Nói chung, tài liệu kết hồ sơ y tế fax, tài liệu giấy báo cáo bên ngồi phịng thí nghiệm Bất chấp nỗ lực giải pháp kỹ thuật, rõ ràng tương lai gần, tài liệu qt EHR tiếp tục đóng vai trị phổ biến hệ sinh thái hồ sơ y tế chúng tơi Do đó, điều quan trọng phải có phương pháp tiếp cận tin học để xử lý thông tin tài liệu quét Các cách tiếp cận phổ biến để xử lý tài liệu quét bao gồm xử lý trước hình ảnh, nhận dạng Deep learning-based NLP data pipeline for EHR-scanned document information extraction ký tự quang học (OCR) khai thác văn Các ấn phẩm trước báo cáo kết đầy hứa hẹn việc áp dụng khía cạnh quy trình làm việc cho thách thức giới thực Tuy nhiên, công việc đánh giá hạn chế: (1) lựa chọn phương pháp tiền xử lý hình ảnh, (2) lựa chọn mô hình NLP, (3) việc sử dụng bố cục tài liệu Tác động yếu tố tác động qua lại chúng chưa khám phá Hơn nữa, trình xử lý ngôn ngữ tự nhiên dựa học sâu (NLP) ngày phát triển mô hình ngôn ngữ đại Các nghiên cứu trích xuất thơng tin tài liệu qt khơng theo kịp phương pháp tiên tiến Do đó, nghiên cứu này, đề xuất đường ống liệu áp dụng mô hình NLP dựa Máy biến áp để trích xuất thơng tin tài liệu quét công trình đánh giá tác động phương pháp tiền xử lý hình ảnh, lựa chọn mô hình NLP sử dụng bố cục tài liệu xử lý tài liệu quét cho EHR Tập trung vào trường hợp sử dụng, đường ống liệu chúng tơi trích xuất phép đo cho chứng ngưng thở ngủ: Chỉ số ngưng thở (AHI) độ bão hòa oxy (SaO2), từ báo cáo nghiên cứu giấc ngủ quét AHI, định nghĩa số lần ngưng thở giảm thở trung bình tiêu chuẩn vàng để chẩn đoán ngưng thở ngủ phân loại mức độ nghiêm trọng SaO2 cung cấp thông tin lâm sàng bổ sung liên quan đến can thiệp Những hiểu biết sâu sắc nghiên cứu tóm tắt dựa việc đánh giá phương pháp tiền xử lý hình ảnh, mô hình bag-ofword dựa máy học, mô hình trình tự dựa học sâu bố cục tài liệu để lập mơ hình CƠNG VIỆC LIÊN QUAN Trích xuất thơng tin từ tài liệu quét EHRs Một số nghiên cứu xử lý tài liệu quét tập trung vào báo cáo bệnh lý hình ảnh có chứa khái niệm lâm sàng quan trọng giá trị số nhúng tường thuật văn tự định dạng không chuẩn Các nguồn tài liệu quét bao gồm biểu mẫu báo cáo ca bệnh giấy biểu mẫu giới thiệu bệnh nhân ngoại trú biểu mẫu bệnh viện liên quan đến chữ viết tay Tài liệu thường quét lưu trữ dạng hình ảnh Định dạng Tài liệu Di động (PDF) Các cách tiếp cận để xử lý tài liệu EHR quét thường bao gồm bước liên tục: OCR khai thác văn Deep learning-based NLP data pipeline for EHR-scanned document information extraction OCR trích xuất từ từ hình ảnh quét chuyển đổi chúng thành văn đọc máy khai thác văn trích xuất thêm thơng tin có liên quan mặt lâm sàng Nhiều công cụ OCR sử dụng bao gồm Adobe Acrobat Pro, FormScanner Tesseract Hầu hết nghiên cứu sử dụng thuật tốn dựa quy tắc mơ hình NLP dựa học sâu đại thử Nhận dạng chữ viết tay, trích xuất thơng tin biên nhận quét xử lý kiểm tra tự động số ứng dụng xử lý tài liệu quét Trong nhận dạng biên nhận quét, nghiên cứu gần phát triển quy trình xử lý sử dụng học sâu: Mạng đề xuất văn kết nối (CTPN) để phát văn Bộ mã hóa-giải mã dựa ý (AED) để nhận dạng văn Kỹ thuật OCR Các quy trình OCR phổ biến bắt đầu phân đoạn dịng từ, từ ký tự tách biệt khỏi hình ảnh Các ký tự biểu diễn dạng ma trận pixel theo sau bình thường hóa để giảm thiểu kích thước ma trận giảm nhiễu Sau đó, ma trận pixel, khai thác tính tạo vectơ đặc trưng để đại diện cho Nhờ vào học máy thống kê người phân loại sử dụng để phân loại vectơ đặc trưng để khớp với ký tự có xuất từ mà máy đọc Các cơng cụ OCR gần áp dụng kiến trúc học sâu Không giống lĩnh vực khác, việc phát triển đánh giá phương pháp OCR cho lĩnh vực y tế cịn hạn chế Một nghiên cứu trước đánh giá miền chung Công cụ OCR: tesseract 3.0, Nuance LEADTOOLS biểu mẫu viết tay EHR Trong nghiên cứu gần tập trung vào sửa lỗi tả sau OCR Tóm lại, thừa nhận tài liệu quét đặt thách thức kỹ thuật EHR, thách thức khoa học cách tốt để trích xuất thơng tin từ chúng Tuy nhiên, điều thiếu hiểu biết tác động lẫn cách thức trích xuất thơng tin này, đặc biệt sử dụng kỹ thuật NLP dựa máy học đại PHƯƠNG PHÁP Nguồn liệu Deep learning-based NLP data pipeline for EHR-scanned document information extraction Chúng sử dụng báo cáo nghiên cứu giấc ngủ xem xét thủ công từ nghiên cứu có Chi nhánh Y tế Đại học Texas (UTMB) (IRB 19- 0189) Trong nghiên cứu trước đó, UTMB EHR (Epic Systems) truy vấn liệu từ ngày tháng năm 2015 đến ngày 31 tháng năm 2018 Tổng số 3720 bệnh nhân có lần khám ngoại trú đến phòng khám phổi nhà cung cấp dịch vụ chăm sóc (PCP), 18 tuổi, có mã chẩn đốn rối loạn giấc ngủ có ghi số BMI Nghiên cứu lấy mẫu ngẫu nhiên 1200 bệnh nhân (800 từ phòng khám phổi 400 từ PCP) để xem xét biểu đồ thủ cơng, thực nhóm chuyên gia y học giấc ngủ Trong số bệnh nhân lấy mẫu, AHI SaO2(SaO tối thiểu2) giá trị từ 990 báo cáo nghiên cứu giấc ngủ tìm thấy ghi lại trang tính riêng biệt Một số giá trị số làm tròn thành số nguyên trình ghi Mỗi báo cáo xem xét lần người đánh giá khơng có thỏa thuận chuyên gia đánh giá đánh giá Nghiên cứu sử dụng 990 báo cáo đánh giá phê duyệt hội đồng đánh giá tổ chức (IRB # 20-0266) Chúng khôi phục giá trị số ban đầu cách tra cứu báo cáo quét Chúng loại trừ 35 báo cáo khơng có AHI SaO hồn chỉnh2Hồ chúng tơi chứa 2988 hình ảnh PDF quét (từ 955 báo cáo nhất) Xử lý trước hình ảnh Chúng tơi trích xuất trang hình ảnh từ tệp PDF, sau xử lý trước hình ảnh Thư viện Thị giác Máy tính Nguồn Mở (OpenCV, phiên 4.5.2) Đầu tiên, chuyển đổi hình ảnh màu kênh sang thang xám kênh để giảm độ phức tạp tính tốn, sau giãn làm xói mịn ký tự lần chuyển đổi lặp lại Quá trình giãn nở thu nhỏ đối tượng (ký tự) dẫn đến việc loại bỏ chấm nhiễu nhỏ, q trình xói mịn chuyển đổi hình ảnh trở lại tỷ lệ ban đầu Cuối cùng, tăng độ tương phản lên 20% để nhiễu trình quét loại bỏ thêm (Hình 1) Nhận dạng ký tự quang học Chúng áp dụng Tesseract OCR (phiên 4.0.0) thông quapytesseract để định vị trích xuất văn mà máy đọc từ hình ảnh xử lý trước Đầu cho Deep learning-based NLP data pipeline for EHR-scanned document information extraction hình ảnh ánh xạ từ vị trí trích xuất theo pixel Chúng thực kiểm tra trực quan chất lượng liệu cách lập trình vẽ đường viền từ lên hình ảnh gốc cách sử dụng vị trí với OpenCV (Hình 2) Xác định danh tính Để đảm bảo tính bảo mật thông tin bệnh nhân, xác định đầu từ OCR Chúng truy vấn EHR để tạo bảng tra cứu với ID báo cáo, tên bệnh nhân số hồ sơ y tế Tìm kiếm số văn trích xuất OCR báo cáo, kết phù hợp trình giữ chỗ (“[PATNAME],” “[MRN]”) Để loại trừ ngày sinh ngày thủ tục, từ đầu có định dạng ngày (“XX / XX / XXXX”) thay trình giữ chỗ (“[DATE]”) Phân đoạn văn Mỗi báo cáo nghiên cứu giấc ngủ trung bình có trang với nhiều đoạn văn tự Các từ ứng cử cho AHI SaO2 giá trị xác định cách sử dụng biểu thức quy cho từ khớp với “[0- 9%] thứ tự” Đối với giá trị số, phân đoạn gồm 10 từ bên ứng cử viên (tổng cộng 21 từ) sử dụng cho ngữ cảnh Phân loại văn Tại thời điểm này, vấn đề trích xuất thơng tin chuyển thành nhiệm vụ phân loại chiều: giá trị số ứng viên có phải giá trị AHI, SaO hay không Mỗi trường hợp có báo vị trí thu từ OCR, số trang mà từ giá trị số trích xuất, biểu diễn dấu phẩy động giá trị số đoạn gồm 21 từ Đánh giá người không bao gồm thông tin vị trí mà AHI SaO2 Chúng tơi định nhãn cách đối sánh AHI SaO2 ghi lại cho giá trị số tài liệu Do đó, có giới hạn, chúng tơi khơng thể loại trừ dương tính giả số giá trị số khác báo cáo xảy trùng với số AHI SaO2, nghi ngờ điều Trong thử nghiệm chúng tơi, chúng tơi xây dựng đào tạo loại mô hình NLP: mô hình bag-of-word mô hình trình tự dựa học sâu Mơ hình túi từ Deep learning-based NLP data pipeline for EHR-scanned document information extraction Mô hình nhiều từ xem xét tần suất thuật ngữ cách tiếp cận truyền thống để phân loại văn Chúng xóa tất từ dừng tiếng Anh chữ thường Bộ công cụ Ngôn ngữ Tự nhiên (phiên 3.6.2) Tần suất tài liệu nghịch (tfidf) tính cho 400 từ hàng đầu có tần suất thuật ngữ cao tập huấn luyện, theo sau chuẩn hóa vectơ Các tính cho phân loại là: 4 báo vị trí thu từ OCR, số trang, biểu diễn dấu phẩy động giá trị số tf-idf số 400 thuật ngữ hàng đầu Chúng đánh giá phân loại học máy thiết lập tốt bao gồm Hồi quy logistic, Hồi quy Ridge, Hồi quy Lasso, Máy hỗ trợ vectơ, k-Nearest Neighbor, Naı̈ veBayes Random Forest Mơ hình trình tự dựa học sâu Trong năm gần đây, việc áp dụng học sâu NLP lâm sàng phát triển đáng kể Để đánh giá hiệu mô hình nhiệm vụ chúng tôi, đánh giá nhớ ngắn hạn hai chiều (BiLSTM), Biểu diễn mã hóa hai chiều từ Máy biến áp (BERT), BERT liên tục đào tạo trước sử dụng liệu EHR (ClinicalBERT) Tất mô hình học sâu đánh thành phần kiến trúc mạng nơ-ron gốc hiển thị Hình Mạng bao gồm nhánh đầu vào cho tính có cấu trúc (chỉ báo vị trí, số trang, giá trị số float) Các đầu vào chuẩn hóa hàng loạt, với lớp mạng nơ-ron truyền tới (FFNN) với 100 nơ-ron tỷ lệ bỏ mạng lớp 20% Mạng bao gồm nhánh đầu vào cho phân đoạn (chuỗi) Trình tự có đầu vào với độ dài trình tự tối đa 32 mã thơng báo, mã hóa, xử lý (với BiLSTM, BERT ClinicalBERT), làm phẳng chuyển đến FFNN Các nhánh đầu vào có cấu trúc trình tự nối kết nối đầy đủ với lớp phân loại bao gồm FFNN với 200 nơ-ron tỷ lệ bỏ qua 20%, lớp đầu có chức kích hoạt sigmoid Kết đầu đa thức với xác suất cho loại: “AHI”, “SaO2," khác." Tất mô hình học sâu xây dựng với TensorFlow (phiên 2.2.0) Keras (2.4.3) Deep learning-based NLP data pipeline for EHR-scanned document information extraction Hình Hình ảnh tài liệu quét sau xử lý trước hình ảnh (A) Hình ảnh quét gốc (B) Hình ảnh tỷ lệ xám (C) Hình ảnh có độ tương phản tăng 20% (D) Hình ảnh có độ tương phản tăng 60% (E) Hình ảnh bị giãn nở xói mịn độ tương phản tăng 20% (F) hình ảnh bị giãn nở xói mòn tăng 60% độ tương phản 10 Deep learning-based NLP data pipeline for EHR-scanned document information extraction Đối với BiLSTM, sử dụng word2vec nhúng thực với Gensim (phiên 4.0.1) đào tạo trước tập huấn luyện cách sử dụng Bao chữ liên tục (CBOW) Chúng tơi áp dụng kích thước nhúng 100, sau nhập vectơ từ nhúng vào mô hình thông qua lớp BiLSTM nơi trạng thái ẩn cuối lớp thứ hai cung cấp cho lớp phân loại Chúng sử dụng mô hình BERT-base không phân biệt bên máy biến áp thư viện (phiên 4.6.1) với TensorFlow Các phân đoạn mã hóa nhúng nhúng WordPiece trước nhập vào mô hình BERT Chúng làm phẳng kết đầu từ BERT (một vectơ có 768 kích thước cho mã số 32 mã thông báo đầu vào) chuyển chúng đến FFNN, lớp phân loại 11 Deep learning-based NLP data pipeline for EHR-scanned document information extraction Hình Đầu OCR để kiểm tra trực quan Đào tạo đánh giá mơ hình Để kiểm tra mô hình NLP, chia báo cáo thành 70% (N =669) phát triển kiểm tra 30% (N=286) Đối với mô hình bag-of-words, thực xác thực chéo lần cách sử dụng tập hợp phát triển để tìm kiếm tập thơng số tối ưu nhằm tối đa hóa độ xác việc xác nhận Sau đó, chúng tơi đào tạo lại mô 12 Deep learning-based NLP data pipeline for EHR-scanned document information extraction hình với toàn bộ phát triển cung cấp tham số tối ưu Vì mô hình trình tự dựa học sâu, tính tốn cao, chúng tơi chia nhỏ tập hợp phát triển 70% với tỷ lệ 6: thành tập huấn luyện (N ¼ 574) tập xác nhận (N ¼ 95) Chúng tơi nghiên cứu điểm kiểm tra sau kỷ nguyên sử dụng xác thực để chọn điểm kiểm tra tốt làm mô hình cuối chúng tôi, dựa mát entropy chéo Các mô hình BiLSTM đào tạo cách sử dụng kích thước lơ 64, với tối ưu hóa Adam với tỷ lệ học tập 2e-4 100 kỷ nguyên BERT ClinicalBERT tinh chỉnh cách sử dụng kích thước lơ 64, với Adam tối ưu hóa với tỷ lệ học tập 2e-6 100 kỷ nguyên Sau đào tạo, mô hình cuối đánh giá với thử nghiệm Chúng đánh giá cấp độ phân khúc cách sử dụng thu hồi, độ xác khu vực đường cong đặc tính hoạt động máy thu (AUROC) cho AHI SaO2 Ví dụ: Lưu ý: Cột “Left” “Top” tọa độ pixel cho góc bên trái vùng từ Cột “Width” “Height” chiều rộng chiều cao tính pixel vùng từ Cột “Page” cho biết giá trị số trích xuất từ trang tài liệu Cột “Numeric” biểu diễn dấu phẩy động giá trị số Cột “Segment” chứa đoạn văn miễn phí gồm 21 từ Chúng tơi đánh dấu giá trị số in đậm Cột “Label” lấy từ việc xem xét biểu đồ thủ công sử dụng làm nhãn cho phân loại học tập có giám sát 13 Deep learning-based NLP data pipeline for EHR-scanned document information extraction Hình Kiến trúc mạng nơron mẹ Nhánh đầu vào có cấu trúc (trên bên trái) nhận báo vị trí, số trang giá trị số Nhánh nhập trình tự (trên bên phải) nhận phân đoạn mã hóa, xử lý kiến trúc học sâu cụ thể làm phẳng để loại bỏ bước thời gian Các lớp phân loại (dưới cùng) kết nối nhánh đầu vào có cấu trúc (màu xanh cây) nhánh đầu vào trình tự (màu xanh lam) đưa dự đoán Để đánh giá tốt mục tiêu cuối việc khai thác thơng tin, chúng tơi đánh giá cấp độ tài liệu Số giá trị tài liệu có xác suất cao cho AHI (hoặc SaO2) chọn để đại diện cho tài liệu Chúng tơi định nghĩa độ xác tài liệu là: Document accuracy ¿ ¿ of documents correctly extracted ¿ of documents ∈test set Chúng thực thử nghiệm DeLong để so sánh AUROC kiểm tra để so sánh độ xác tài liệu mô hình Tỷ lệ lỗi thông minh cho gia đình điều chỉnh cách sử dụng quy trình Bonferroni Phân tích hiệu ứng kích thước tập huấn luyện Để đánh giá ảnh hưởng kích thước tập huấn luyện lên hiệu suất mô hình, thử nghiệm thứ hai tập trung vào tập tập huấn luyện Chúng lấy mẫu độc lập từ tập huấn luyện (N=574) xây dựng tập gồm 10, 25, 50 100 báo cáo Chúng sử dụng tập hợp để đào tạo mô hình BiLSTM, BERT ClinicalBERT sử dụng tập hợp xác thực (N=95) để chọn mô hình cuối dựa mát entropy chéo Các mô hình cuối đánh giá với thử nghiệm (N=286) 14 Deep learning-based NLP data pipeline for EHR-scanned document information extraction Phân tích xác thực độc lập Để khám phá tác động việc xử lý trước hình ảnh hiệu suất cuối cùng, kiểm tra phương pháp tiền xử lý hình ảnh khác nhau: (1) thang xám (đường sở), (2) thang xám thứ tự giãn / xói mịn, (3) thang xám tăng độ tương phản lên 20%, (4) thang xám thứ tự tăng độ tương phản lên 60%, (5) thang xám thứ tựgiãn / xói mịn thứ tự tăng độ tương phản lên 20% (phương pháp đề xuất chúng tôi) (6) thang màu xám thứ tự giãn / xói mịn thứ tự tăng độ tương phản lên 60% Hình hiển thị hình ảnh đầu báo cáo quét Đối với phương pháp tiền xử lý, OCR thực theo ClinicalBERT để đánh giá hiệu suất Các mô hình trình tự đề xuất liên quan đến tính có cấu trúc trình tự Để đánh giá đóng góp tính có cấu trúc, chúng tơi kiểm tra kiến trúc có nhánh đầu vào trình tự (khơng bao gồm nhánh đầu vào có cấu trúc) ClinicalBERT sử dụng theo sau lớp phân loại KẾT QUẢ Các báo cáo nghiên cứu giấc ngủ tạo phịng thí nghiệm khác theo nhiều cấu trúc bố cục khác (Hình 5) Từ việc kiểm tra trực quan tài liệu gốc, hầu hết phát báo cáo dạng tường thuật văn in Các báo cáo bao gồm hình ảnh (ví dụ, biểu trưng bệnh viện, số liệu đồ thị), bảng chữ viết tay Có chữ ký bác sĩ ghi viết tay cạnh số báo cáo Một số báo cáo từ phịng thí nghiệm có cấu trúc đoạn văn câu tương tự nhau, cho thấy khả mẫu sử dụng 15 Deep learning-based NLP data pipeline for EHR-scanned document information extraction Hình Bộ sưu tập báo cáo nghiên cứu giấc ngủ quét Các hình ảnh làm mờ có chủ ý, mục đích chúng cung cấp cảm giác cấu trúc tổng thể tính quán (và thiếu) tài liệu quét 16 Deep learning-based NLP data pipeline for EHR-scanned document information extraction Việc kiểm tra sau OCR cho thấy hầu hết văn in, dạng đoạn văn dạng bảng, định vị Tuy nhiên, số liệu chữ viết tay thêm phức tạp Chúng nhận thấy số báo cáo, phần hình ảnh coi văn Ngoài ra, báo cáo nghiên cứu trước đây, chúng tơi nhận thấy số từ sai tả kết đầu Ví dụ: chữ “I” nhận dạng “!” ")" Các báo cáo quét có trung bình trang (Q1 – Q3= [2, 4], phạm vi = [1, 29]) giá trị trung bình 44 giá trị số (Q1 – Q3 = [38, 106]) trang Khoảng 52,8% báo cáo có nhiều giá trị số gắn nhãn AHI (trung bình=2, Q1 – Q3= [1, 2]); 45,9% báo cáo có nhiều giá trị số gắn nhãn SaO2 (Trung bình=1, Q1 – Q3= [1, 2]) ( Table 2) Giá trị AHI có mức trung bình 34,9 (Std Dev=31,3, trung vị=24,4, Q1 – Q3= [11.5, 48.9]) Giá trị trung bình SaO2 76,5 (Std Dev=15,6, trung vị=80, Q1 – Q3= [73,0, 85,8]) 17 Deep learning-based NLP data pipeline for EHR-scanned document information extraction Hinh Lưu đồ đường ống liệu 18 Deep learning-based NLP data pipeline for EHR-scanned document information extraction Trong thử nghiệm chúng tôi, mô hình trình tự dựa học sâu nói chung hoạt động tốt so với mơ hình bao gồm từ Để trích xuất AHI, hầu hết mơ hình bag-of-words có độ xác cấp độ phân đoạn cao (0,4367–0,9865) gần với mô hình chuỗi (0,8803–0,9843) Nhưng mô hình trình tự có số lần thu hồi cao nhiều (0,6454–0,7470) so với mô hình theo chuỗi (từ 0,4802 đến 0,6713) BERT ClinicalBERT cho thấy điểm F1 cao 0,8082 0,8126, AUROC cao 0,9705 0,9743, tương ứng Ở cấp độ tài liệu, mô hình bag-of-word tốt nhất, kNN Random Forest có độ xác khoảng 93,5% BERT ClinicalBERT đạt độ xác 94% –95% (bảng số Hình 6) Đối với SaO2 khai thác, tìm thấy mô hình tương tự AHI Các mô hình trình tự có mức thu hồi cấp phân khúc cao nhiều (0,6739– 0,7319) ClinicalBERT đạt AUROC cao 0,9523 Ở cấp độ tài liệu, mô hình trình tự có độ xác cao 91,61% độ xác mơ hình bag-of-words dao động từ 51,75% đến 89,51% (bảng số 3) So sánh mô hình trình tự, chiết xuất AHI, Clinical-BERT có AUROC cao đáng kể so với BiLSTM (P=.0008) Đối với SaO2 chiết xuất, ClinicalBERT đạt AUROC cao cao đáng kể so với BERT (P=.0029) BiLSTM (P