Một phương pháp xây dựng dữ liệu cho hệ thống học sâu trong chẩn đoán một số bệnh thông thường ở trẻ em

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang	6
Dung lượng	478,16 KB

Nội dung

Bài viết này đề xuất phương pháp dùng các mô hình học sâu cho việc chẩn đoán ban đầu giúp nhận định bệnh. Phương pháp mà bài báo đề xuất ứng dụng các kỹ thuật xử lý ngôn ngữ tự nhiên đối với tiếng Việt trong việc xây dựng kho dữ liệu huấn luyện hệ thống học sâu từ các bệnh án điện tử. Kết quả thử nghiệm với mô hình CNN, LSTM và CNN-LSTM kết hợp là khá tốt khi nhận định 3 loại bệnh phổi, tiêu hóa, da liễu.

Huỳnh Trung Trụ, Tân Hạnh MỘT PHƯƠNG PHÁP XÂY DỰNG DỮ LIỆU CHO HỆ THỐNG HỌC SÂU TRONG CHẨN ĐOÁN MỘT SỐ BỆNH THÔNG THƯỜNG Ở TRẺ EM * Huỳnh Trung Trụ*,1Tân Hạnh* Học Viện Công Nghệ Bưu Chính Viễn Thơng sở tại TP.HCM Tóm tắt— Chẩn đốn ban đầu có vai trị quan trọng q trình khám chữa bệnh Nếu xác định sớm trường hợp khám có dấu hiệu bệnh nặng việc chữa trị gặp thuận lợi Ngược lại, người khám không lo lắng cần khám sở ý tế nhỏ địa phương, tránh lãng phí góp phần giảm tải cho bệnh viện trung tâm Bài báo đề xuất phương pháp dùng mơ hình học sâu cho việc chẩn đốn ban đầu giúp nhận định bệnh Phương pháp mà báo đề xuất ứng dụng kỹ thuật xử lý ngôn ngữ tự nhiên tiếng Việt việc xây dựng kho liệu huấn luyện hệ thống học sâu từ bệnh án điện tử Kết thử nghiệm với mơ hình CNN, LSTM CNN-LSTM kết hợp tốt nhận định loại bệnh phổi, tiêu hóa, da liễu Từ khóa- Kho ngữ liệu, Học sâu, phân lớp, CNN, Mạng Neural Network, y tế, khám bệnh I GIỚI THIỆU Xây dựng hệ thống hỗ trợ chăm sóc sức khỏe thăm khám bệnh tự động mong muốn có từ lâu Với phát triển khoa học máy tính, phát triển phương pháp học sâu, nhu cầu trở nên quan tâm có sở thành cơng Trên giới có nhiều cơng trình nghiên cứu lĩnh vực [1] Các cơng trình nghiên cứu ứng dụng từ nhiều lĩnh vực khác khoa học máy tính thị giác máy tính, nhận dạng giọng nói xử lý ngơn ngữ tự nhiên cho tiếng Anh Những cơng trình xử lý tốn chun sâu theo chuyên ngành hẹp [5] [6] đòi hỏi công sức lớn thu kết tốt Việc thu thập kiến thức hiểu biết từ liệu y sinh phức tạp, nhiều chiều không đồng thách thức quan trọng việc xây dựng kho liệu để huấn luyện hệ thống deep learning Nhiều loại liệu khác xuất nghiên cứu y sinh đại, bao gồm hồ sơ sức khỏe điện tử, hình ảnh, liệu cảm biến … Đặc điểm chung loại liệu phức tạp, khơng đồng nhất, thích nói chung khơng có cấu trúc Việc xử lý liệu đòi hỏi tảng kiến thức miền đầy đủ Nhiều khái niệm mối quan hệ nằm liệu y tế như: tóm tắt xuất viện, kết xét nghiệm, công trình nghiên cứu khoa học… Những liệu tạo liên tục ngày lưu trữ với nhiều dạng khác như: âm thanh, hình ảnh văn Cụ thể, văn tường thuật (clinical arratives) chứa nhiều khái niệm đề cập đến điều kiện lâm sàng, vị trí giải phẫu thể, loại thuốc sử dụng trình điều trị thủ tục (thủ thuật) Việc rút trích khái niệm mối quan hệ chúng sở tảng để phát triển ứng dụng như: tìm kiếm thơng tin, hỏi đáp, tóm tắt văn hệ thống hỗ trợ định Nhiều hình thức mặt chữ (surface forms) biểu diễn khái niệm, việc rút trích ánh xạ khái niệm xuất tài liệu văn đến thuật ngữ định nghĩa từ vựng ontology (hay gọi chuẩn hóa) nhằm giúp cho người dùng dễ dàng nhận biết hiểu khái niệm mối quan hệ cách dễ dàng Trong lĩnh vực y học có nhiều nguồn tài nguyên từ vựng ontology phong phú, tận dụng để nhận diện khái niệm liên kết khái niệm chuẩn hóa Một nguồn tài nguyên UMLS (Unified Medical Language System), chứa 130 từ vựng (lexicons/thesauri) với thuật ngữ từ nhiều ngơn ngữ khác nhau, UMLS Metathesaurus tích hợp nguồn tài nguyên chuẩn như: SNOMED-CT, ICD9 RxNORMđược sử dụng rộng rãi giới chăm sóc lâm sàng, y tế cộng đồng dịch tể học Ngoài ra, UMLS cung cấp mạng ngữ nghĩa, khái niệm Metathesaurus biểu diễn ký hiệu nhận dạng khái niệm (CUI - Concept Unique Identifier) phân loại ngữ nghĩa [16] Trong phần báo, tác giả trình bày số cơng trình liên quan mục Mục trình bày phương pháp thực từ trình xử lý liệu đến cấu hình số giải thuật học sâu dùng thử nghiệm báo Mục tác giả trình bày kết đạt ý kiến thảo luận Các tác giả trình bày ý kiến kết quận hướng phát triển tiếp dựa kết đạt từ báo mục II CÁC CÔNG TRÌNH LIÊN QUAN Tác giả liên hệ: Huỳnh Trung Trụ, Email: truht@ptithcm.edu.vn Đến soạn: 10/2020, Chỉnh sửa:11/2020, Chấp nhận đăng:12/2020 SOÁ 04B (CS.01) 2020 Trong lĩnh vực y khoa, việc ứng dụng trí tuệ nhân tạo phát triển từ lâu Với phát triển giải TẠP CHÍ KHOA HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG 50 MỢT PHƯƠNG PHÁP XÂY DỰNG DỮ LIỆU CHO HỆ THỐNG HỌC SÂU TRONG CHẨN ĐOÁN …… thuật học sâu lĩnh vực điều kiện phát triển, với toán thuộc lĩnh vực thị giác máy tính (computer vision) Ở cơng trình [10] tác giả giới thiệu mơ hình học sâu phân loại trẻ em khỏe mạnh có khả mắc chứng tự kỷ Mơ hình tác giả sử dụng CNN kết hợp với mô hình MobileNet Kết đạt tốt, độ xác đạt 94,6% Trong đó, Amjad Rehman [11] cộng phân loại bệnh bạch cầu mãn tính dịng tế bào lympho sử dụng mơ hình CNN phân loại ảnh chụp tế bào đạt độ xác 97.78% Ở báo [12] tác giả sử dụng mô hình học sâu chẩn đốn ký sinh trùng đường ruột người, tác giả sử dụng mạng nơ-ron tính chập ConvNet với độ xác 96.49% Trong báo [13] tác giả phát chẩn đoán sâu cách sử dụng thuật toán mạng nơ-ron CNNs dựa mơ hình học sâu, với độ xác 95% Các cơng đạt độ xác cao giải toán xác định loại bệnh cụ thể Các giải thuật học sâu lĩnh vực xử lý ngôn ngữ tự nhiên tiếng Việt dùng nhiều cơng trình, cho lĩnh vực phân loại ý kiến đánh giá sản phẩm [14] [15] Kết đạt cơng trình tốt, độ xác 80% Ở cơng trình [14] tác giả thử nghiệm phân loại ý kiến cho tiếng Anh tiếng Việt để nhận thấy giải thuật học sâu không phụ thuộc vào ngôn ngữ lĩnh vực xử lý ngôn ngự tự nhiên Vấn đề sử dụng giải thuật học sâu cho lĩnh vực xử lý ngôn ngữ tự nhiên xây dựng kho ngữ liệu đầy đủ chất lượng để giải thuật học sâu học tốt tri thức lĩnh vực cần xử lý III PHƯƠNG PHÁP TIẾP CẬN Các bệnh án điện tử có nhiều yếu tố số đo huyết áp, thân nhiệt, xét nghiệm … giá trị có ý nghĩa quan trọng thuộc chuyên ngành khoa học sức khỏe Nếu xem giá trị từ cụm từ thông thường dẫn đến chẩn đoán nhận định sai khám chữa bệnh Tuy nhiên, số kết trình khám cận lâm sàng có tính chun mơn sâu y khoa, thơng số q trình khám tổng quát chiều cao, cân nặng, huyết áp … khơng địi độ xác cao Đây thơng số góp phần vào nhận định phân loại bệnh giai đoạn đầu trình khám chữa bệnh Trong báo tác giả trình bày phương pháp tiếp cận xử lý thông tin ban đầu thành sở tri thức nhằm khai thác khả hệ thống học sâu cho mục đích hỗ trợ phân loại số bệnh giai đoạn đầu trình khám chữa bệnh 3.1 Tiền xử lý dữ liệu 3.1.1 Xây dựng kho dữ liệu Dữ liệu mà tác giả thu thập bệnh án điện tử số bệnh viện phòng khám tư nhân Quá trình xử lý tạo kho liệu thực theo bước: Bước 1: Rút trích liệu theo ca khám kết luận bác sỹ Bước 2: Tạo văn cho ca khám bệnh Mỗi ca tạo thành văn Mỗi câu văn thông tin theo khía cạnh tiền sử bệnh, chẩn đốn, kết luận SỐ 04B (CS.01) 2020 Điều quan trọng thơng tin bệnh án chẩn đoán kết luận bác sĩ Vì thơng tin gán nhãn mẫu liệu Các bệnh án khơng có thơng tin chẩn đoán kết luận bác sĩ bị loại bỏ Các thơng tin khác bị khuyết Ví dụ: “17 tháng, cao 120 cm, nặng 16 kg, biểu hiện lâm sàng sốt, ho, ngủ ly bì, thở rít năm yên Chẩn đoán khả viêm phôi Kết luận viêm phổi nặng” Nhãn liệu này: viem_phoi (viêm phổi) Như vậy, cấu trúc kho liệu bệnh án gồm: - Thuộc tính xác định mẫu liệu - Văn nội dung mẫu liệu bệnh án - Nhãn bệnh cho bệnh án Sau trình xử lý tác giả thu kho liệu với số liệu bảng Các loại bệnh thu thập thử nghiệm bài báo là: da liễu, tiêu hóa bệnh liên quan đến phổi Đây bệnh thường gặp trẻ em Trong đó, bệnh da liễu loại bệnh có triệu chứng thuộc dạng đa dạng phức tạp Bảng 3.1: Số liệu kho dữ liệu bệnh án bằng tiếng việt Đặc tính Số bệnh nhân Số văn Số loại nhãn (loại bệnh) Sớ lượng 4027 8791 (da liễu, tiêu hóa, phởi) 3.1.2 Tạo dữ liệu cho mô hình học sâu Dữ liệu văn chuyển đổi dạng ma trận trọng số để sử dụng huấn luyện mơ hình học sâu Bài báo sử dụng công cụ word2vec [8] cho việc chuyển đởi Word2vec chứa mơ hình Continuous Bag-of-Words (CBOW) mơ hình Skip-Gram [9] Mơ hình CBOW dự đốn từ mục tiêu (ví dụ: từ “mặc” tìm dùng từ “kệ” kho ngữ liệu hai từ có mối quan hệ) từ từ ngữ cảnh với nó, mơ hình SkipGram thực ngược lại, dự đốn từ ngữ cảnh đưa từ mục tiêu 3.2 Sơ lược về phương pháp học sau CNN và LSTM 3.2.1 CNN CNN mơ hình học sâu tiên tiến giúp cho xây dựng hệ thống xử lý thông minh, cho kết có độ xác cao Mơ hình CNN hình có layer liên kết với thơng qua chế tích chập (convolution) Layer kết tích chập từ layer trước Nhờ vậy, ta có kết nối cục Tính kết hợp cục cho ta cấp độ biểu diễn thông tin từ mức độ thấp đến mức độ cao trừu tượng thơng qua tích chập (convolution) từ lọc TẠP CHÍ KHOA HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG 51 Huỳnh Trung Trụ, Tân Hạnh đưa hàm sigmoid tầng , gọi cổng quên (forget gate) Hàm lấy ℎt-1 (đầu từ lớp ẩn trước đó) xt (đầu vào tại) xuất số [0, 1], có nghĩa giữ hoàn toàn có nghĩa bỏ qua hoàn toàn công thức (2) ft = (Wfxt + Ufht-1) (2) Word embedding Layer Convolutional Layer Pooling Layer fullyconnected layer Hình 1: Mơ hình Convolutional Neural Network ch̉n [2] Sau LSTM định thông tin lưu trữ trạng thái tế bào Việc gồm hai bước Đầu tiên, hàm hay lớp sigmoid, gọi cổng đầu vào công thức (3), định giá trị LSTM cập nhật Tiếp theo, hàm lớp tạo vectơ ~ Với tốn xử lý ngơn ngữ tự nhiên, tầng Word embedding tạo từ cơng cụ word2vec Tầng gồm ma trận kích thước n x k, biểu diễn câu có n từ, từ biểu diễn vector k chiều Lớp mã hóa từ câu chọn thành vector từ Đặt l  R chiều dài câu, |D|  R kích thước từ vựng W(l)  Rkx|D| ma trận nhúng vector từ k chiều Từ thứ i câu chuyển thành vector k chiều wi cơng thức (1): wi = W(l)xi (1) xi biểu diễn one-hot vector cho từ thứ i Tầng Convolution sử dụng phép tích chập để xử lý liệu cách trượt cửa sổ trượt (slide windows) có kích thước cố định (cịn gọi kernel) ma trận liệu đầu vào để thu kết tinh chỉnh Trong đó, tầng Pooling tổng hợp vector kết tầng Convolution giữ lại vector quan trọng Tầng full-connected đơn giản neural network truyền thống sử dụng vector lại lớp làm đầu vào để tạo kết cuối thông qua trình huấn luyện 3.2.2 LSTM Mạng LSTM [7] thuộc nhóm phương pháp học sâu hồi quy (Recurrent Neural Networks – RNN) Mơ hình mạng LSTM hình LSTM có kết nối neural tạo thành dạng có hướng có tính chu kỳ có khả học phụ thuộc dài Tất RNN có dạng chuỗi module lặp lại Trong RNN tiêu chuẩn, mơ đun lặp thường có cấu trúc đơn giản Tuy nhiên, module lặp LSTM phức tạp Thay có tầng neural có bốn lớp tương tác theo cách đặc biệt Bên cạnh đó, có hai trạng thái: trạng thái ẩn trạng thái tế bào (cell state) Hình minh họa mơ hình LSTM Hình 2: Mơ hình Long Short Term Memory network [7] Tại thời điểm bước t, LSTM trước tiên định thông tin đở vào trạng thái tế bào Quyết định SỐ 04B (CS.01) 2020 giá trị ứng viên C it = (Wixt + Uiht-1) (3) ~ C = tanh(W n xt + U n ht −1 ) (4) Tiếp theo, cập nhật trạng thái tế bào cũ Ct-1 vào trạng thái tế bào Ct công thức (5) Cởng qn ft kiểm sốt độ dốc qua cho phép xóa cập nhật nhớ cách tường minh, giúp giảm bớt hao hụt độ dốc làm bùng nổ độ dốc RNN tiêu chuẩn ~ Ct = ft * Ct −1 + it * Ct (5) LSTM định đầu dựa trạng thái tế bào Trước tiên, LSTM chạy lớp sigmoid, định phần trạng thái tế bào xuất công thức (6), gọi ngõ (output gate) Sau đó, LSTM đặt trạng thái tế bào vào hàm nhân với đầu cởng sigmoid, để LSTM xuất phần mà định công thức (7) ot =  (W xt + U 0ht −1 ) (6) ht = ot * tanh(Ct ) (7) LSTM thường áp dụng cho liệu sử dụng cho liệu có cấu trúc 3.2.3 Mơ hình CNN-LSTM Phương pháp LSTM làm việc hiệu với loại liệu có kích thước lớn Với đặc trưng loại liệu bệnh án có số có tính chun mơn sâu Đặc trưng liệu phú hợp với mơ hình tích chập CNN trình bày mục 3.2.1 Bài báo thử nghiệm kết hợp mơ hình CNN LSTM nhằm khai thác ưu điểm mơ hình vấn đề học đặc trưng liệu y tế Mơ hình kết hợp thể Hình Tầng tích chập (Convolutional layer) mạng CNN tạo tập vector đặc trưng đối tượng Số vectơ đặc trưng số lọc sử dụng q trình tích chập Trong lớp tởng hợp số chiều (Pooling layer), giá trị giá trị đặc trưng tốt từ lớp chọn để thu đặc trưng quan trọng văn Các vectơ đặc trưng qua mạng CNN kết nối đầy đủ (Full connected layer) tạo tập hợp tham số đầu mạng CNN Bộ LSTM sử dụng tham số đầu CNN để thực trình phân loại văn TẠP CHÍ KHOA HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG 52 MỢT PHƯƠNG PHÁP XÂY DỰNG DỮ LIỆU CHO HỆ THỐNG HỌC SÂU TRONG CHẨN ĐOÁN …… Bảng 4.3: Thông số thử nghiệm mô hình CNN + LSTM Giai đoạn huấn luyễn Đặc tính Dữ liệu huấn luyện CNN Nhãn liệu kiểm tra Epoch LSTM Số lọc Hàm activation CNN Kích thước embedding word Số lọc Kích thước lọc Pool size Hàm activation Thơng số mơ hình LSTM LSTM Giá trị CNN Dữ liệu kiểm tra 500 200 softmax 300 sigmoid 4.2 Kết quả thử nghiệm Giai đoạn kiểm tra Kết thử nghiệm liệu trình bày phần Hình 3: Mô hình kết hợp CNN và LSTM [14] 3.1 Bảng 4.4: Độ chính xác (accuracy - %) của các thử nghiệm IV THỰC NGHIỆM 4.1 Cấu hình các mô hình học sâu Phương pháp a) LSTM Dựa thư viện Keras Các thông số chọn để thử nghiệm liệt kê bảng 4.1 Bảng 4.1: Thông số thử nghiệm mô hình LSTM Đặc tính Số neural ẩn dropout Recurrent_dropout Epoch Kích thước embedding w Hàm activation Giá trị 100, 200 0.2 0.2 500 300 sigmoid b) CNN Dựa thư viện Tensorflow Các thông số chọn để thử nghiệm liệt kê bảng 4.2 Bảng 4.2: Thông số thử nghiệm mô hình CNN Đặc tính Kích thước embedding word Số lọc Dropout Epoch L2 Hàm activation Kích thước lọc Giá trị 300 300 0.5 500 0.0008 Sigmoid 3,4,5 c) CNN – LSTM kết hợp Dựa thư viện Keras Các thông số chọn để thử nghiệm liệt kê bảng 4.3 SOÁ 04B (CS.01) 2020 CNN LSTM CNNLSTM Da liễu Phổi Tổng 61.57 60.64 67.43 67.57 66.99 66.66 65.42 65.06 68.73 73.60 71.64 71.38 Tiêu hóa Từ kết thu độ xác phương dùng thử nghiệm báo rút số nhận xét sau: - Sự kết hợp CNN LSTM có cải thiện đáng kể hiệu so với thực thi riêng giải thuật Mức chênh lệch cao lên đến 8% loại nhãn bệnh da liễu Như vậy, phức tạp triệu chứng bệnh da liễu, chuyển qua mơ hình ngơn ngữ, khiến cho giải thuật CNN LSTM học không hiệu Khi kết hợp hai mơ hình ưu điểm mơ hình bở sung cho làm tăng khả học tri thức từ liệu, đề cập phần 3.2.3 - Đối với kho liệu thử nghệm báo này, kết thu độ xác phương pháp CNN LSTM tương đương khả phân biệt ba nhãn bệnh đánh giá chung Chiều dài lớn mẫu liệu thử nghiệm báo 157 từ Đây kích thước khơng q lớn để giải thuật LSTM thể ưu điểm phân tích chuỗi liệu dài Tương tự, giải thuật CNN chưa thể ưu điểm kích thước liệu chưa đủ lớn, bảng 3.1 - Nhãn bệnh da liễu có kết thấp Điều lý giải triệu chứng da đa dạng, khó phân biệt khơng có hỗ trợ q trình khám cận lâm sàng Một yếu tố làm hạn chế độ xác loại bện kích thước liệu Với đa dạng triệu chứng, dệnh da liễu cần lượng mẫu huấn luyện lớn để thể lượng tri thức lĩnh vực phong phú - Các kết đạt khơng cao, nói có nhiều triển vọng việc ứng dụng phương TAÏP CHÍ KHOA HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG 53 Huỳnh Trung Trụ, Tân Hạnh pháp học sâu vào việc hỗ trợ phân loại ban đầu bệnh nhân Các kết cải thiện lượng tri thức lĩnh vực bổ sung cho phong phú V KẾT LUẬN Kết thu báo cho thấy phương pháp tiếp cận báo triển vọng Mơ hình nhận định bệnh báo có ưu điểm linh hoạt, dễ tiếp cận sử dụng với nhiều đối tượng người triển khai dạng website ứng dụng di động Tuy vậy, để đánh giá đầy đủ hiệu phương phái đề xuất báo, ứng dụng phương pháp vào thực tế, thời gian tới tác giả thu thập thêm liệu cho nhiều loại bệnh thử nghiệm với nhiều mơ hình học sâu khác using a deep learning-based convolutional neural network algorithm” Journal of dentistry, vol 77, 2018, pages 106111 [14] Duy Nguyen Ngoc, Tuoi Phan Thi and Phuc Do, “Preprocessing Improves CNN and LSTM in Aspect-Based Sentiment Analysis for Vietnamese” In Proceedings of Fifth International Congress on Information and Communication Technology ICICT 2020 Springer, Singapore, 2020 pages 175-185 [15] Duy Nguyen Ngoc, Tuoi Phan Thi and Phuc Do, “A Data Preprocessing Method to Classify and Summarize AspectBased Opinions using Deep Learning”, Asian Conference on Intelligent Information and Database Systems Springer, Cham, 2019 pages 115-127 [16] BODENREIDER, Olivier; MCCRAY, Alexa T “Exploring semantic groups through visual approaches” Journal of biomedical informatics, vol 36 issue 6, 2003, pages 414432 TÀI LIỆU THAM KHẢO [1] MIOTTO, Riccardo, et al Deep learning for healthcare: review, opportunities and challenges Briefings in bioinformatics, vol 19, isuue 6, 2018, pages 1236-1246 [2] Yoon Kim, “Convolutional neural networks for sentence classification”, in Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing, EMNLP 2014, pages 1746-1751 [3] FAUST, Oliver, et al Deep learning for healthcare applications based on physiological signals: A review Computer methods and programs in biomedicine, vol 161, 2018, pages 1-13 [4] BEAM, Andrew L.; KOHANE, Isaac S “Big data and machine learning in health care” Jama, vol 319, isuue 13, 2018, pages 1317-1318 [5] WANG, Dayong, et al Deep learning for identifying metastatic breast cancer arXiv preprint arXiv:1606.05718, 2016 [6] LIU, Saifeng, et al Prostate cancer diagnosis using deep learning with 3D multiparametric MRI In: Medical imaging 2017: computer-aided diagnosis International Society for Optics and Photonics, 2017 pages 1013428 [7] Lei Zhang, Suai Wang, and Bing Liu (2018), “Deep learning for sentiment analysis: A survey”, Wiley Interdisciplinary Reviews: Data Mining and Knowledge Discovery, Vol 8, Issue 4, 2018, page e1253 [8] Xin Rong, “word2vec parameter learning explained”, In arXiv preprint arXiv:1411.2738, 2014 [9] Tomas Mikolov, Ilya Sutskever, Kai Chen, Greg Corrado, and Jeffrey Dean, “Distributed representations of words and phrases and their compositionality” In Proceedings of the Annual Conference on Advances in Neural Information Processing Systems (NIPS 2013), 2013 [10] Madison Beary, Alex Hadsell, Ryan Messersmith, Mohammad-Parsa Hosseini, “Diagnosis of Autism in Children using Facial Analysis and Deep Learning” arXiv preprint arXiv:2008.02890, 2020 [11] Amjad Rehman, Naveed Abbas, Tanzila Saba, Syed Ijaz ur Rahman, Zahid Mehmood, HoshangKolivand “Classification of acute lymphoblastic leukemia using deep learning" Microscopy Research and Technique, cil 81, isuue 11, 2018, pages 1310-1317 [12] A.Z Peixinho, S.B Martins, J.E Vargas and A.X Falc ̃ao, J.F Gomes, C.T.N Suzuki, “Diagnosis of Human Intestinal Parasites by Deep Learning” In: Computational Vision and Medical Image Processing V: Proceedings of the 5th Eccomas Thematic Conference on Computational Vision and Medical Image Processing (VipIMAGE 2015, Tenerife, Spain 2015 pages 107 [13] Jae-Hong Leea, Do-Hyung Kima, Seong-Nyum Jeonga, Seong-Ho Choib, “Detection and diagnosis of dental caries SOÁ 04B (CS.01) 2020 A METHOD OF BUILDING DATA FOR THE FOLLOWING SYSTEMS IN MEASURING A NUMBER OF COMMON DISEASES IN CHILDREN Abstract— Initial diagnosis has an important role in the medical examination and treatment process If the examination case is identified early as having serious illness, the treatment will be favorable On the contrary, the examiners will no longer worry or just need to examine the small local medical facilities, avoiding waste and also helping to reduce the load of the central hospital This paper proposes a method to use deep learning models for primary diagnosis to help identify diseases The method that the paper proposes to apply natural language processing techniques to Vietnamese in building a database for training deep learning systems from electronic medical records The test results with the model CNN, LSTM and CNN-LSTM combined are quite good when identifying types of pneumonia, digestive, and dermatological diseases Keywords - Corpus, Deep Learning, classification, CNN, Convolution Neural Network, Healthcare, Medicine, Physical exam, Examination LỜI CẢM ƠN Trong trình thực nghiên cứu tác giả cảm ơn NCS Nguyễn Ngọc Duy, công tác khoa Công nghệ thông tin 2, Học viện Cơng nghệ Bưu Viễn Thơng sở TP.HCM hỗ trợ Bác sỉ chuyên khoa I Huỳnh Trung Quân, công tác bênh viện Đa Khoa Phúc Hưng Quảng Ngãi hỗ trợ SƠ LƯỢC TÁC GIẢ Huỳnh Trung Trụ, Nhận học vị Thạc sỹ năm 2016 Hiện công tác khoa Công nghệ thông tin 2, Học viện Công nghệ Bưu Viễn thơng sở TP.HCM Lĩnh vực nghiên cứu, học máy, khoa học liệu, xử lý ngôn ngữ tự nhiên TẠP CHÍ KHOA HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG 54 MỢT PHƯƠNG PHÁP XÂY DỰNG DỮ LIỆU CHO HỆ THỐNG HỌC SÂU TRONG CHẨN ĐOÁN …… Tân Hạnh, Phó giám đốc Học Viện Cơng Nghệ Bưu Chính Viễn Thơng sở TP.HCM Lĩnh vực nghiên cứu, học máy, truy xuất thông tin, khai phá liệu SỐ 04B (CS.01) 2020 TẠP CHÍ KHOA HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG 55 ... văn TẠP CHÍ KHOA HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG 52 MỢT PHƯƠNG PHÁP XÂY DỰNG DỮ LIỆU CHO HỆ THỐNG HỌC SÂU TRONG CHẨN ĐOÁN …… Bảng 4.3: Thông số thử nghiệm mô hình CNN +...MỘT PHƯƠNG PHÁP XÂY DỰNG DỮ LIỆU CHO HỆ THỐNG HỌC SÂU TRONG CHẨN ĐOÁN …… thuật học sâu lĩnh vực điều kiện phát triển, với toán thuộc... CHÍ KHOA HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG 54 MỘT PHƯƠNG PHÁP XÂY DỰNG DỮ LIỆU CHO HỆ THỐNG HỌC SÂU TRONG CHẨN ĐOÁN …… Tân Hạnh, Phó giám đốc Học Viện Cơng Nghệ Bưu Chính Viễn

Ngày đăng: 04/08/2021, 15:23