Bài viết này đề xuất phương pháp dùng các mô hình học sâu cho việc chẩn đoán ban đầu giúp nhận định bệnh. Phương pháp mà bài báo đề xuất ứng dụng các kỹ thuật xử lý ngôn ngữ tự nhiên đối với tiếng Việt trong việc xây dựng kho dữ liệu huấn luyện hệ thống học sâu từ các bệnh án điện tử. Kết quả thử nghiệm với mô hình CNN, LSTM và CNN-LSTM kết hợp là khá tốt khi nhận định 3 loại bệnh phổi, tiêu hóa, da liễu.
Huỳnh Trung Trụ, Tân Hạnh MỘT PHƯƠNG PHÁP XÂY DỰNG DỮ LIỆU CHO HỆ THỐNG HỌC SÂU TRONG CHẨN ĐOÁN MỘT SỐ BỆNH THÔNG THƯỜNG Ở TRẺ EM * Huỳnh Trung Trụ*,1Tân Hạnh* Học Viện Công Nghệ Bưu Chính Viễn Thơng sở tại TP.HCM Tóm tắt— Chẩn đốn ban đầu có vai trị quan trọng q trình khám chữa bệnh Nếu xác định sớm trường hợp khám có dấu hiệu bệnh nặng việc chữa trị gặp thuận lợi Ngược lại, người khám không lo lắng cần khám sở ý tế nhỏ địa phương, tránh lãng phí góp phần giảm tải cho bệnh viện trung tâm Bài báo đề xuất phương pháp dùng mơ hình học sâu cho việc chẩn đốn ban đầu giúp nhận định bệnh Phương pháp mà báo đề xuất ứng dụng kỹ thuật xử lý ngôn ngữ tự nhiên tiếng Việt việc xây dựng kho liệu huấn luyện hệ thống học sâu từ bệnh án điện tử Kết thử nghiệm với mơ hình CNN, LSTM CNN-LSTM kết hợp tốt nhận định loại bệnh phổi, tiêu hóa, da liễu Từ khóa- Kho ngữ liệu, Học sâu, phân lớp, CNN, Mạng Neural Network, y tế, khám bệnh I GIỚI THIỆU Xây dựng hệ thống hỗ trợ chăm sóc sức khỏe thăm khám bệnh tự động mong muốn có từ lâu Với phát triển khoa học máy tính, phát triển phương pháp học sâu, nhu cầu trở nên quan tâm có sở thành cơng Trên giới có nhiều cơng trình nghiên cứu lĩnh vực [1] Các cơng trình nghiên cứu ứng dụng từ nhiều lĩnh vực khác khoa học máy tính thị giác máy tính, nhận dạng giọng nói xử lý ngơn ngữ tự nhiên cho tiếng Anh Những cơng trình xử lý tốn chun sâu theo chuyên ngành hẹp [5] [6] đòi hỏi công sức lớn thu kết tốt Việc thu thập kiến thức hiểu biết từ liệu y sinh phức tạp, nhiều chiều không đồng thách thức quan trọng việc xây dựng kho liệu để huấn luyện hệ thống deep learning Nhiều loại liệu khác xuất nghiên cứu y sinh đại, bao gồm hồ sơ sức khỏe điện tử, hình ảnh, liệu cảm biến … Đặc điểm chung loại liệu phức tạp, khơng đồng nhất, thích nói chung khơng có cấu trúc Việc xử lý liệu đòi hỏi tảng kiến thức miền đầy đủ Nhiều khái niệm mối quan hệ nằm liệu y tế như: tóm tắt xuất viện, kết xét nghiệm, công trình nghiên cứu khoa học… Những liệu tạo liên tục ngày lưu trữ với nhiều dạng khác như: âm thanh, hình ảnh văn Cụ thể, văn tường thuật (clinical arratives) chứa nhiều khái niệm đề cập đến điều kiện lâm sàng, vị trí giải phẫu thể, loại thuốc sử dụng trình điều trị thủ tục (thủ thuật) Việc rút trích khái niệm mối quan hệ chúng sở tảng để phát triển ứng dụng như: tìm kiếm thơng tin, hỏi đáp, tóm tắt văn hệ thống hỗ trợ định Nhiều hình thức mặt chữ (surface forms) biểu diễn khái niệm, việc rút trích ánh xạ khái niệm xuất tài liệu văn đến thuật ngữ định nghĩa từ vựng ontology (hay gọi chuẩn hóa) nhằm giúp cho người dùng dễ dàng nhận biết hiểu khái niệm mối quan hệ cách dễ dàng Trong lĩnh vực y học có nhiều nguồn tài nguyên từ vựng ontology phong phú, tận dụng để nhận diện khái niệm liên kết khái niệm chuẩn hóa Một nguồn tài nguyên UMLS (Unified Medical Language System), chứa 130 từ vựng (lexicons/thesauri) với thuật ngữ từ nhiều ngơn ngữ khác nhau, UMLS Metathesaurus tích hợp nguồn tài nguyên chuẩn như: SNOMED-CT, ICD9 RxNORMđược sử dụng rộng rãi giới chăm sóc lâm sàng, y tế cộng đồng dịch tể học Ngoài ra, UMLS cung cấp mạng ngữ nghĩa, khái niệm Metathesaurus biểu diễn ký hiệu nhận dạng khái niệm (CUI - Concept Unique Identifier) phân loại ngữ nghĩa [16] Trong phần báo, tác giả trình bày số cơng trình liên quan mục Mục trình bày phương pháp thực từ trình xử lý liệu đến cấu hình số giải thuật học sâu dùng thử nghiệm báo Mục tác giả trình bày kết đạt ý kiến thảo luận Các tác giả trình bày ý kiến kết quận hướng phát triển tiếp dựa kết đạt từ báo mục II CÁC CÔNG TRÌNH LIÊN QUAN Tác giả liên hệ: Huỳnh Trung Trụ, Email: truht@ptithcm.edu.vn Đến soạn: 10/2020, Chỉnh sửa:11/2020, Chấp nhận đăng:12/2020 SOÁ 04B (CS.01) 2020 Trong lĩnh vực y khoa, việc ứng dụng trí tuệ nhân tạo phát triển từ lâu Với phát triển giải TẠP CHÍ KHOA HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG 50 MỢT PHƯƠNG PHÁP XÂY DỰNG DỮ LIỆU CHO HỆ THỐNG HỌC SÂU TRONG CHẨN ĐOÁN …… thuật học sâu lĩnh vực điều kiện phát triển, với toán thuộc lĩnh vực thị giác máy tính (computer vision) Ở cơng trình [10] tác giả giới thiệu mơ hình học sâu phân loại trẻ em khỏe mạnh có khả mắc chứng tự kỷ Mơ hình tác giả sử dụng CNN kết hợp với mô hình MobileNet Kết đạt tốt, độ xác đạt 94,6% Trong đó, Amjad Rehman [11] cộng phân loại bệnh bạch cầu mãn tính dịng tế bào lympho sử dụng mơ hình CNN phân loại ảnh chụp tế bào đạt độ xác 97.78% Ở báo [12] tác giả sử dụng mô hình học sâu chẩn đốn ký sinh trùng đường ruột người, tác giả sử dụng mạng nơ-ron tính chập ConvNet với độ xác 96.49% Trong báo [13] tác giả phát chẩn đoán sâu cách sử dụng thuật toán mạng nơ-ron CNNs dựa mơ hình học sâu, với độ xác 95% Các cơng đạt độ xác cao giải toán xác định loại bệnh cụ thể Các giải thuật học sâu lĩnh vực xử lý ngôn ngữ tự nhiên tiếng Việt dùng nhiều cơng trình, cho lĩnh vực phân loại ý kiến đánh giá sản phẩm [14] [15] Kết đạt cơng trình tốt, độ xác 80% Ở cơng trình [14] tác giả thử nghiệm phân loại ý kiến cho tiếng Anh tiếng Việt để nhận thấy giải thuật học sâu không phụ thuộc vào ngôn ngữ lĩnh vực xử lý ngôn ngự tự nhiên Vấn đề sử dụng giải thuật học sâu cho lĩnh vực xử lý ngôn ngữ tự nhiên xây dựng kho ngữ liệu đầy đủ chất lượng để giải thuật học sâu học tốt tri thức lĩnh vực cần xử lý III PHƯƠNG PHÁP TIẾP CẬN Các bệnh án điện tử có nhiều yếu tố số đo huyết áp, thân nhiệt, xét nghiệm … giá trị có ý nghĩa quan trọng thuộc chuyên ngành khoa học sức khỏe Nếu xem giá trị từ cụm từ thông thường dẫn đến chẩn đoán nhận định sai khám chữa bệnh Tuy nhiên, số kết trình khám cận lâm sàng có tính chun mơn sâu y khoa, thơng số q trình khám tổng quát chiều cao, cân nặng, huyết áp … khơng địi độ xác cao Đây thơng số góp phần vào nhận định phân loại bệnh giai đoạn đầu trình khám chữa bệnh Trong báo tác giả trình bày phương pháp tiếp cận xử lý thông tin ban đầu thành sở tri thức nhằm khai thác khả hệ thống học sâu cho mục đích hỗ trợ phân loại số bệnh giai đoạn đầu trình khám chữa bệnh 3.1 Tiền xử lý dữ liệu 3.1.1 Xây dựng kho dữ liệu Dữ liệu mà tác giả thu thập bệnh án điện tử số bệnh viện phòng khám tư nhân Quá trình xử lý tạo kho liệu thực theo bước: Bước 1: Rút trích liệu theo ca khám kết luận bác sỹ Bước 2: Tạo văn cho ca khám bệnh Mỗi ca tạo thành văn Mỗi câu văn thông tin theo khía cạnh tiền sử bệnh, chẩn đốn, kết luận SỐ 04B (CS.01) 2020 Điều quan trọng thơng tin bệnh án chẩn đoán kết luận bác sĩ Vì thơng tin gán nhãn mẫu liệu Các bệnh án khơng có thơng tin chẩn đoán kết luận bác sĩ bị loại bỏ Các thơng tin khác bị khuyết Ví dụ: “17 tháng, cao 120 cm, nặng 16 kg, biểu hiện lâm sàng sốt, ho, ngủ ly bì, thở rít năm yên Chẩn đoán khả viêm phôi Kết luận viêm phổi nặng” Nhãn liệu này: viem_phoi (viêm phổi) Như vậy, cấu trúc kho liệu bệnh án gồm: - Thuộc tính xác định mẫu liệu - Văn nội dung mẫu liệu bệnh án - Nhãn bệnh cho bệnh án Sau trình xử lý tác giả thu kho liệu với số liệu bảng Các loại bệnh thu thập thử nghiệm bài báo là: da liễu, tiêu hóa bệnh liên quan đến phổi Đây bệnh thường gặp trẻ em Trong đó, bệnh da liễu loại bệnh có triệu chứng thuộc dạng đa dạng phức tạp Bảng 3.1: Số liệu kho dữ liệu bệnh án bằng tiếng việt Đặc tính Số bệnh nhân Số văn Số loại nhãn (loại bệnh) Sớ lượng 4027 8791 (da liễu, tiêu hóa, phởi) 3.1.2 Tạo dữ liệu cho mô hình học sâu Dữ liệu văn chuyển đổi dạng ma trận trọng số để sử dụng huấn luyện mơ hình học sâu Bài báo sử dụng công cụ word2vec [8] cho việc chuyển đởi Word2vec chứa mơ hình Continuous Bag-of-Words (CBOW) mơ hình Skip-Gram [9] Mơ hình CBOW dự đốn từ mục tiêu (ví dụ: từ “mặc” tìm dùng từ “kệ” kho ngữ liệu hai từ có mối quan hệ) từ từ ngữ cảnh với nó, mơ hình SkipGram thực ngược lại, dự đốn từ ngữ cảnh đưa từ mục tiêu 3.2 Sơ lược về phương pháp học sau CNN và LSTM 3.2.1 CNN CNN mơ hình học sâu tiên tiến giúp cho xây dựng hệ thống xử lý thông minh, cho kết có độ xác cao Mơ hình CNN hình có layer liên kết với thơng qua chế tích chập (convolution) Layer kết tích chập từ layer trước Nhờ vậy, ta có kết nối cục Tính kết hợp cục cho ta cấp độ biểu diễn thông tin từ mức độ thấp đến mức độ cao trừu tượng thơng qua tích chập (convolution) từ lọc TẠP CHÍ KHOA HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG 51 Huỳnh Trung Trụ, Tân Hạnh đưa hàm sigmoid tầng , gọi cổng quên (forget gate) Hàm lấy ℎt-1 (đầu từ lớp ẩn trước đó) xt (đầu vào tại) xuất số [0, 1], có nghĩa giữ hoàn toàn có nghĩa bỏ qua hoàn toàn công thức (2) ft = (Wfxt + Ufht-1) (2) Word embedding Layer Convolutional Layer Pooling Layer fullyconnected layer Hình 1: Mơ hình Convolutional Neural Network ch̉n [2] Sau LSTM định thông tin lưu trữ trạng thái tế bào Việc gồm hai bước Đầu tiên, hàm hay lớp sigmoid, gọi cổng đầu vào công thức (3), định giá trị LSTM cập nhật Tiếp theo, hàm lớp tạo vectơ ~ Với tốn xử lý ngơn ngữ tự nhiên, tầng Word embedding tạo từ cơng cụ word2vec Tầng gồm ma trận kích thước n x k, biểu diễn câu có n từ, từ biểu diễn vector k chiều Lớp mã hóa từ câu chọn thành vector từ Đặt l R chiều dài câu, |D| R kích thước từ vựng W(l) Rkx|D| ma trận nhúng vector từ k chiều Từ thứ i câu chuyển thành vector k chiều wi cơng thức (1): wi = W(l)xi (1) xi biểu diễn one-hot vector cho từ thứ i Tầng Convolution sử dụng phép tích chập để xử lý liệu cách trượt cửa sổ trượt (slide windows) có kích thước cố định (cịn gọi kernel) ma trận liệu đầu vào để thu kết tinh chỉnh Trong đó, tầng Pooling tổng hợp vector kết tầng Convolution giữ lại vector quan trọng Tầng full-connected đơn giản neural network truyền thống sử dụng vector lại lớp làm đầu vào để tạo kết cuối thông qua trình huấn luyện 3.2.2 LSTM Mạng LSTM [7] thuộc nhóm phương pháp học sâu hồi quy (Recurrent Neural Networks – RNN) Mơ hình mạng LSTM hình LSTM có kết nối neural tạo thành dạng có hướng có tính chu kỳ có khả học phụ thuộc dài Tất RNN có dạng chuỗi module lặp lại Trong RNN tiêu chuẩn, mơ đun lặp thường có cấu trúc đơn giản Tuy nhiên, module lặp LSTM phức tạp Thay có tầng neural có bốn lớp tương tác theo cách đặc biệt Bên cạnh đó, có hai trạng thái: trạng thái ẩn trạng thái tế bào (cell state) Hình minh họa mơ hình LSTM Hình 2: Mơ hình Long Short Term Memory network [7] Tại thời điểm bước t, LSTM trước tiên định thông tin đở vào trạng thái tế bào Quyết định SỐ 04B (CS.01) 2020 giá trị ứng viên C it = (Wixt + Uiht-1) (3) ~ C = tanh(W n xt + U n ht −1 ) (4) Tiếp theo, cập nhật trạng thái tế bào cũ Ct-1 vào trạng thái tế bào Ct công thức (5) Cởng qn ft kiểm sốt độ dốc qua cho phép xóa cập nhật nhớ cách tường minh, giúp giảm bớt hao hụt độ dốc làm bùng nổ độ dốc RNN tiêu chuẩn ~ Ct = ft * Ct −1 + it * Ct (5) LSTM định đầu dựa trạng thái tế bào Trước tiên, LSTM chạy lớp sigmoid, định phần trạng thái tế bào xuất công thức (6), gọi ngõ (output gate) Sau đó, LSTM đặt trạng thái tế bào vào hàm nhân với đầu cởng sigmoid, để LSTM xuất phần mà định công thức (7) ot = (W xt + U 0ht −1 ) (6) ht = ot * tanh(Ct ) (7) LSTM thường áp dụng cho liệu sử dụng cho liệu có cấu trúc 3.2.3 Mơ hình CNN-LSTM Phương pháp LSTM làm việc hiệu với loại liệu có kích thước lớn Với đặc trưng loại liệu bệnh án có số có tính chun mơn sâu Đặc trưng liệu phú hợp với mơ hình tích chập CNN trình bày mục 3.2.1 Bài báo thử nghiệm kết hợp mơ hình CNN LSTM nhằm khai thác ưu điểm mơ hình vấn đề học đặc trưng liệu y tế Mơ hình kết hợp thể Hình Tầng tích chập (Convolutional layer) mạng CNN tạo tập vector đặc trưng đối tượng Số vectơ đặc trưng số lọc sử dụng q trình tích chập Trong lớp tởng hợp số chiều (Pooling layer), giá trị giá trị đặc trưng tốt từ lớp chọn để thu đặc trưng quan trọng văn Các vectơ đặc trưng qua mạng CNN kết nối đầy đủ (Full connected layer) tạo tập hợp tham số đầu mạng CNN Bộ LSTM sử dụng tham số đầu CNN để thực trình phân loại văn TẠP CHÍ KHOA HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG 52 MỢT PHƯƠNG PHÁP XÂY DỰNG DỮ LIỆU CHO HỆ THỐNG HỌC SÂU TRONG CHẨN ĐOÁN …… Bảng 4.3: Thông số thử nghiệm mô hình CNN + LSTM Giai đoạn huấn luyễn Đặc tính Dữ liệu huấn luyện CNN Nhãn liệu kiểm tra Epoch LSTM Số lọc Hàm activation CNN Kích thước embedding word Số lọc Kích thước lọc Pool size Hàm activation Thơng số mơ hình LSTM LSTM Giá trị CNN Dữ liệu kiểm tra 500 200 softmax 300 sigmoid 4.2 Kết quả thử nghiệm Giai đoạn kiểm tra Kết thử nghiệm liệu trình bày phần Hình 3: Mô hình kết hợp CNN và LSTM [14] 3.1 Bảng 4.4: Độ chính xác (accuracy - %) của các thử nghiệm IV THỰC NGHIỆM 4.1 Cấu hình các mô hình học sâu Phương pháp a) LSTM Dựa thư viện Keras Các thông số chọn để thử nghiệm liệt kê bảng 4.1 Bảng 4.1: Thông số thử nghiệm mô hình LSTM Đặc tính Số neural ẩn dropout Recurrent_dropout Epoch Kích thước embedding w Hàm activation Giá trị 100, 200 0.2 0.2 500 300 sigmoid b) CNN Dựa thư viện Tensorflow Các thông số chọn để thử nghiệm liệt kê bảng 4.2 Bảng 4.2: Thông số thử nghiệm mô hình CNN Đặc tính Kích thước embedding word Số lọc Dropout Epoch L2 Hàm activation Kích thước lọc Giá trị 300 300 0.5 500 0.0008 Sigmoid 3,4,5 c) CNN – LSTM kết hợp Dựa thư viện Keras Các thông số chọn để thử nghiệm liệt kê bảng 4.3 SOÁ 04B (CS.01) 2020 CNN LSTM CNNLSTM Da liễu Phổi Tổng 61.57 60.64 67.43 67.57 66.99 66.66 65.42 65.06 68.73 73.60 71.64 71.38 Tiêu hóa Từ kết thu độ xác phương dùng thử nghiệm báo rút số nhận xét sau: - Sự kết hợp CNN LSTM có cải thiện đáng kể hiệu so với thực thi riêng giải thuật Mức chênh lệch cao lên đến 8% loại nhãn bệnh da liễu Như vậy, phức tạp triệu chứng bệnh da liễu, chuyển qua mơ hình ngơn ngữ, khiến cho giải thuật CNN LSTM học không hiệu Khi kết hợp hai mơ hình ưu điểm mơ hình bở sung cho làm tăng khả học tri thức từ liệu, đề cập phần 3.2.3 - Đối với kho liệu thử nghệm báo này, kết thu độ xác phương pháp CNN LSTM tương đương khả phân biệt ba nhãn bệnh đánh giá chung Chiều dài lớn mẫu liệu thử nghiệm báo 157 từ Đây kích thước khơng q lớn để giải thuật LSTM thể ưu điểm phân tích chuỗi liệu dài Tương tự, giải thuật CNN chưa thể ưu điểm kích thước liệu chưa đủ lớn, bảng 3.1 - Nhãn bệnh da liễu có kết thấp Điều lý giải triệu chứng da đa dạng, khó phân biệt khơng có hỗ trợ q trình khám cận lâm sàng Một yếu tố làm hạn chế độ xác loại bện kích thước liệu Với đa dạng triệu chứng, dệnh da liễu cần lượng mẫu huấn luyện lớn để thể lượng tri thức lĩnh vực phong phú - Các kết đạt khơng cao, nói có nhiều triển vọng việc ứng dụng phương TAÏP CHÍ KHOA HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG 53 Huỳnh Trung Trụ, Tân Hạnh pháp học sâu vào việc hỗ trợ phân loại ban đầu bệnh nhân Các kết cải thiện lượng tri thức lĩnh vực bổ sung cho phong phú V KẾT LUẬN Kết thu báo cho thấy phương pháp tiếp cận báo triển vọng Mơ hình nhận định bệnh báo có ưu điểm linh hoạt, dễ tiếp cận sử dụng với nhiều đối tượng người triển khai dạng website ứng dụng di động Tuy vậy, để đánh giá đầy đủ hiệu phương phái đề xuất báo, ứng dụng phương pháp vào thực tế, thời gian tới tác giả thu thập thêm liệu cho nhiều loại bệnh thử nghiệm với nhiều mơ hình học sâu khác using a deep learning-based convolutional neural network algorithm” Journal of dentistry, vol 77, 2018, pages 106111 [14] Duy Nguyen Ngoc, Tuoi Phan Thi and Phuc Do, “Preprocessing Improves CNN and LSTM in Aspect-Based Sentiment Analysis for Vietnamese” In Proceedings of Fifth International Congress on Information and Communication Technology ICICT 2020 Springer, Singapore, 2020 pages 175-185 [15] Duy Nguyen Ngoc, Tuoi Phan Thi and Phuc Do, “A Data Preprocessing Method to Classify and Summarize AspectBased Opinions using Deep Learning”, Asian Conference on Intelligent Information and Database Systems Springer, Cham, 2019 pages 115-127 [16] BODENREIDER, Olivier; MCCRAY, Alexa T “Exploring semantic groups through visual approaches” Journal of biomedical informatics, vol 36 issue 6, 2003, pages 414432 TÀI LIỆU THAM KHẢO [1] MIOTTO, Riccardo, et al Deep learning for healthcare: review, opportunities and challenges Briefings in bioinformatics, vol 19, isuue 6, 2018, pages 1236-1246 [2] Yoon Kim, “Convolutional neural networks for sentence classification”, in Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing, EMNLP 2014, pages 1746-1751 [3] FAUST, Oliver, et al Deep learning for healthcare applications based on physiological signals: A review Computer methods and programs in biomedicine, vol 161, 2018, pages 1-13 [4] BEAM, Andrew L.; KOHANE, Isaac S “Big data and machine learning in health care” Jama, vol 319, isuue 13, 2018, pages 1317-1318 [5] WANG, Dayong, et al Deep learning for identifying metastatic breast cancer arXiv preprint arXiv:1606.05718, 2016 [6] LIU, Saifeng, et al Prostate cancer diagnosis using deep learning with 3D multiparametric MRI In: Medical imaging 2017: computer-aided diagnosis International Society for Optics and Photonics, 2017 pages 1013428 [7] Lei Zhang, Suai Wang, and Bing Liu (2018), “Deep learning for sentiment analysis: A survey”, Wiley Interdisciplinary Reviews: Data Mining and Knowledge Discovery, Vol 8, Issue 4, 2018, page e1253 [8] Xin Rong, “word2vec parameter learning explained”, In arXiv preprint arXiv:1411.2738, 2014 [9] Tomas Mikolov, Ilya Sutskever, Kai Chen, Greg Corrado, and Jeffrey Dean, “Distributed representations of words and phrases and their compositionality” In Proceedings of the Annual Conference on Advances in Neural Information Processing Systems (NIPS 2013), 2013 [10] Madison Beary, Alex Hadsell, Ryan Messersmith, Mohammad-Parsa Hosseini, “Diagnosis of Autism in Children using Facial Analysis and Deep Learning” arXiv preprint arXiv:2008.02890, 2020 [11] Amjad Rehman, Naveed Abbas, Tanzila Saba, Syed Ijaz ur Rahman, Zahid Mehmood, HoshangKolivand “Classification of acute lymphoblastic leukemia using deep learning" Microscopy Research and Technique, cil 81, isuue 11, 2018, pages 1310-1317 [12] A.Z Peixinho, S.B Martins, J.E Vargas and A.X Falc ̃ao, J.F Gomes, C.T.N Suzuki, “Diagnosis of Human Intestinal Parasites by Deep Learning” In: Computational Vision and Medical Image Processing V: Proceedings of the 5th Eccomas Thematic Conference on Computational Vision and Medical Image Processing (VipIMAGE 2015, Tenerife, Spain 2015 pages 107 [13] Jae-Hong Leea, Do-Hyung Kima, Seong-Nyum Jeonga, Seong-Ho Choib, “Detection and diagnosis of dental caries SOÁ 04B (CS.01) 2020 A METHOD OF BUILDING DATA FOR THE FOLLOWING SYSTEMS IN MEASURING A NUMBER OF COMMON DISEASES IN CHILDREN Abstract— Initial diagnosis has an important role in the medical examination and treatment process If the examination case is identified early as having serious illness, the treatment will be favorable On the contrary, the examiners will no longer worry or just need to examine the small local medical facilities, avoiding waste and also helping to reduce the load of the central hospital This paper proposes a method to use deep learning models for primary diagnosis to help identify diseases The method that the paper proposes to apply natural language processing techniques to Vietnamese in building a database for training deep learning systems from electronic medical records The test results with the model CNN, LSTM and CNN-LSTM combined are quite good when identifying types of pneumonia, digestive, and dermatological diseases Keywords - Corpus, Deep Learning, classification, CNN, Convolution Neural Network, Healthcare, Medicine, Physical exam, Examination LỜI CẢM ƠN Trong trình thực nghiên cứu tác giả cảm ơn NCS Nguyễn Ngọc Duy, công tác khoa Công nghệ thông tin 2, Học viện Cơng nghệ Bưu Viễn Thơng sở TP.HCM hỗ trợ Bác sỉ chuyên khoa I Huỳnh Trung Quân, công tác bênh viện Đa Khoa Phúc Hưng Quảng Ngãi hỗ trợ SƠ LƯỢC TÁC GIẢ Huỳnh Trung Trụ, Nhận học vị Thạc sỹ năm 2016 Hiện công tác khoa Công nghệ thông tin 2, Học viện Công nghệ Bưu Viễn thơng sở TP.HCM Lĩnh vực nghiên cứu, học máy, khoa học liệu, xử lý ngôn ngữ tự nhiên TẠP CHÍ KHOA HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG 54 MỢT PHƯƠNG PHÁP XÂY DỰNG DỮ LIỆU CHO HỆ THỐNG HỌC SÂU TRONG CHẨN ĐOÁN …… Tân Hạnh, Phó giám đốc Học Viện Cơng Nghệ Bưu Chính Viễn Thơng sở TP.HCM Lĩnh vực nghiên cứu, học máy, truy xuất thông tin, khai phá liệu SỐ 04B (CS.01) 2020 TẠP CHÍ KHOA HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG 55 ... văn TẠP CHÍ KHOA HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG 52 MỢT PHƯƠNG PHÁP XÂY DỰNG DỮ LIỆU CHO HỆ THỐNG HỌC SÂU TRONG CHẨN ĐOÁN …… Bảng 4.3: Thông số thử nghiệm mô hình CNN +...MỘT PHƯƠNG PHÁP XÂY DỰNG DỮ LIỆU CHO HỆ THỐNG HỌC SÂU TRONG CHẨN ĐOÁN …… thuật học sâu lĩnh vực điều kiện phát triển, với toán thuộc... CHÍ KHOA HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG 54 MỘT PHƯƠNG PHÁP XÂY DỰNG DỮ LIỆU CHO HỆ THỐNG HỌC SÂU TRONG CHẨN ĐOÁN …… Tân Hạnh, Phó giám đốc Học Viện Cơng Nghệ Bưu Chính Viễn