Bài viết này đề xuất phương pháp chẩn đoán bệnh từ thông tin mô tả triệu chứng bằng các phương pháp học sâu. Phương pháp bài báo này đề xuất dựa trên các kỹ thuật xử lý ngôn ngữ tự nhiên đối với tiếng Việt trong quá trình xây dựng kho dữ liệu huấn luyện hệ thống học sâu.
Hội nghị Quốc gia lần thứ 24 Điện tử, Truyền thông Công nghệ Thông tin (REV-ECIT2021) Khai Phá Thơng Tin Mơ Tả Bệnh Tiếng Việt Để Chẩn Đốn Một Số Bệnh Bằng Phương Pháp Học Sâu Huỳnh Trung Trụ Nguyễn Ngọc Duy Khoa Công Nghệ Thông Tin II, Học Viện Cơng Nghệ Bưu Chính Viễn Thơng Email: truht@ptithcm.edu.vn, duynn@ptithcm.edu.vn Tóm tắt — Thơng tin mơ tả triệu chứng người bệnh có nhiều ý nghĩa trình chẩn đốn chữa bệnh Xây dựng hệ thống dựa trí tuệ nhân tạo hiểu thông tin giúp việc phân luồng người bệnh vào khám chuyên khoa nhanh chóng hiệu Bài báo đề xuất phương pháp chẩn đoán bệnh từ thông tin mô tả triệu chứng phương pháp học sâu Phương pháp báo đề xuất dựa kỹ thuật xử lý ngôn ngữ tự nhiên tiếng Việt trình xây dựng kho liệu huấn luyện hệ thống học sâu Dữ liệu huấn luyện thu thập từ bệnh án dựa tư vấn bác sĩ chuyên môn Các giải thuật học sâu dùng thử nghiệm báo Convolutional Neural Network (CNN), Long short-term memory (LSTM), Bidirectional LSTM (Bi-LSTM), Bidirectional Encoder Representations from Transformers (BERT) kết hợp mơ hình CNN với LSTM Bi-LSTM Kết thử nghiệm đạt độ xác cao cho thấy triển vọng cao hướng tiếp cận đồng thách thức lớn việc xây dựng kho liệu để huấn luyện hệ thống học sâu Dữ liệu lĩnh vực y tế nhiều đa dạng Nhiều loại liệu khác xuất nghiên cứu y sinh đại, từ hồ sơ sức khỏe điện tử, hình ảnh, … liệu cảm biến Đặc điểm chung loại liệu phức tạp, khơng đồng nhất, thích khơng có cấu trúc Để xử lý tốt liệu cần tảng kiến thức miền đầy đủ chuyên sâu Từ khóa - Corpus, Deep Learning, Healthcare, Physical exam Phần báo trình bày số cơng trình liên quan học sâu y tế mục Mục trình bày phương pháp thực báo từ trình chuyển đổi xử lý liệu đến cấu hình số giải thuật học sâu dùng thử nghiệm để đánh giá phương pháp đề xuất Mục trình bày kết đạt ý kiến thảo luận Phần trình bày ý kiến kết quận hướng phát triển dựa kết đạt từ báo trình bày mục I Bài báo đề xuất phương pháp xử lý khai phá liệu khơng chun sâu Đó liệu mô tả triệu chứng người bệnh Thông thường, mô tả triệu chứng chưa phải sở cho bác sỹ nhận định bệnh Tuy nhiên, cũng thơng tin có nhiều ý nghĩa q trình chẩn đốn bệnh Vì vậy, nghiên cứu khai thác nguồn liệu động lực cho tác giả thực nhiện báo GIỚI THIỆU Các ứng dụng khám chữa bệnh dùng kỹ thuật trí tuệ nhân tạo lĩnh vựa y tế quan tâm từ lâu Mong muốn xây dựng hệ thống hỗ trợ chăm sóc sức khỏe thăm khám bệnh tự động có từ lâu, mong muốn lớn người Sự phát triển khoa học kỹ thuật, phát triển khoa học máy tính, với phương pháp học sâu, cơng trình nghiên cứu nhằm đáp ứng nhu cầu quan tâm có sở thành cơng Nhiều cơng trình nghiên cứu lĩnh vực giới công bố [1] Ứng dụng tiến khoa học máy tính cơng trình nghiên cứu đa dạng, từ thị giác máy tính, nhận dạng giọng nói xử lý ngơn ngữ tự nhiên cho tiếng Anh Khi xử lý liệu lĩnh vực y khoa, cơng trình xử lý tốn chun sâu theo chuyên ngành hẹp [6] [7] cần chi phí cơng sức lớn II Do quan tâm nhiều nên thử nghiệm dùng trí tuệ nhân tạo y học đa dạng Các công trình thường nghiên cứu chuyên sâu vào bệnh cụ thể Madison Beary cộng [14] giới thiệu mơ hình học sâu phân loại trẻ em khỏe mạnh có khả mắc chứng tự kỷ Madison Beary sử dụng CNN kết hợp với MobileNet [15] Độ xác đạt tốt, đến 94,6% Amjad Rehman [16] cộng phân loại bệnh bạch cầu mãn tính dòng tế bào lympho sử dụng mơ CNN phân loại ảnh chụp tế Độ xác mà Amjad Rehman cộng đạt lên đến 97.78% A.Z Peixinho [17] cộng thử nghiệm chẩn đoán ký sinh trùng đường ruột người phương pháp Học hiểu tri thức y sinh điều khó khăn quan trọng Quá trình thu thập tri thức, học để hiểu biết từ liệu chủ đề phức tạp, nhiều chiều khơng ISBN 978-604-80-5958-3 CÁC CƠNG TRÌNH LIÊN QUAN 261 Hội nghị Quốc gia lần thứ 24 Điện tử, Truyền thông Công nghệ Thông tin (REV-ECIT2021) học mạng nơ-ron tính chập ConvNet Độ xác thử nghiệm [17] đạt mức 96.49% Trong công trình [18], Jae-Hong Leea cộng thử nghiệm phát chẩn đoán sâu dựa vào mạng CNNs, độ xác đạt tốt, mức 95% A Xây dựng kho liệu mô tả bệnh Tiền xử lý liệu Dữ liệu thử nghiệm báo tác giả thu thập từ bệnh án số bệnh viện phòng khám tư nhân Các bệnh án thường lưu hệ quản trị sở liệu quan hệ, trường riêng biệt Để dùng liệu huấn luyện giải thuật học sâu, tác giả rút trích liệu kết hợp thành văn Quá trình xử lý tạo kho liệu thực theo bước: Các công đạt độ xác cao thử nghiệm giải toán xác định loại bênh cụ thể Ở khía cạnh khác vấn đề liên quan đến y tế, Adnan Muhammad Shah [2] cộng thử nghiệm phân tích tâm lý bệnh nhân chất lượng cung cấp dịch vụ chăm sóc sức khỏe dựa ý kiến hình ảnh giải thuật học sâu Độ xác tốt mà Adnan Muhammad Shah cộng thu lên đến 97.75% Bước 1: Rút trích liệu ca khám kết luận bác sỹ thực khám Bước 2: Tạo văn cho ca khám bệnh Dữ liệu ca khám tạo thành văn Trong đó, câu văn thơng tin theo khía cạnh tiền sử bệnh, chẩn đoán, kết luận … Với tiếng Việt, giải thuật học sâu lĩnh vực xử lý ngôn ngữ tự nhiên dùng nhiều cơng trình, cho lĩnh vực phân loại ý kiến đánh giá sản phẩm [19] [20] Độ xác đạt cơng trình tốt, mức 80% Ở công trình [19] Duy Nguyen Ngoc cộng thử nghiệm phân loại ý kiến cho tiếng Anh tiếng Việt để nhận thấy giải thuật học sâu khơng phụ thuộc vào ngơn ngữ chủ đề Vì vậy, vấn đề sử dụng giải thuật học sâu cho lĩnh vực xử lý ngôn ngữ tự nhiên cần xây dựng kho ngữ liệu chất lượng để chúng học tốt tri thức lĩnh vực cần xử lý Ví dụ 1: “Cao 165 cm, nặng 42 kg, huyết áp … Bị lao cách năm Hay chóng mặt, chống váng, mờ mắt, ngất, run tay, thiếu cân Khả bị hạ huyết áp” Ví dụ 2: “Cao 153 cm, nặng 56 kg Hay nôn, thường tiêu chảy, mạch lên dội, thừa cân Khả bị viêm đường ruột” Sau trình thu thập xử lý liệu trên, báo có kho liệu với số liệu bảng Số văn dùng làm liệu thử nghiệm chọn ngẫu nhiên theo hệ quản trị MS SQL Server 2014 Từ kết đạt nghiên cứu trên, báo đề xuất thử nghiệm phương pháp học sâu miền liệu mơ tả triệu chứng người bệnh, nhằm tìm kiếm khả hỗ trợ chẩn đoán bệnh Việc xây dựng hệ thống chẩn đoán bệnh góp phần mang lại lợi ích cho người bệnh lẫn sở y tế III Bảng Số liệu kho liệu bệnh án tiếng Việt Đặc tính Số bệnh nhân Số văn huấn luyện Số văn thử nghiệm Số loại nhãn (loại bệnh) PHƯƠNG PHÁP ĐỀ XUẤT Để chẩn đoán chữa bệnh, bác sỹ cần nhiều thông tin liên quan đến người bệnh Vì vậy, bệnh án thường tập hợp nhiều yếu tố số đo huyết áp, số xét nghiệm … Đây giá trị có ý nghĩa quan trọng thuộc chuyên ngành khoa học sức khỏe Các giá trị thường giá trị định lượng nên xem giá trị từ cụm từ ngơn ngữ tự nhiên dẫn đến chẩn đoán nhận định sai khám chữa bệnh Bên cạnh giá trị định lượng kết khám cận lâm sàng có tính chun môn sâu y khoa, thông số trình khám tổng quát chiều cao, cân nặng, huyết áp … khơng đòi độ xác cao Tuy nhiên, bỏ qua thông số chúng góp phần vào nhận định phân loại bệnh giai đoạn đầu trình khám chữa bệnh Bài báo đề xuất phương pháp tiếp cận xử lý thông tin mô tả bệnh thành sở tri thức cho giải thuật học sâu dạng ngơn ngữ tự nhiên Từ đó, khai thác khả hệ thống học sâu lĩnh vực cho mục đích hỗ trợ phân loại số bệnh giai đoạn đầu trình khám chữa bệnh ISBN 978-604-80-5958-3 Số lượng 7.123 11.794 3001 Tạo liệu cho mô hình học sâu Bài báo dùng phương pháp word2vec [12] tính tốn đặc trưng liệu để tạo ma trận liệu đầu vào cho mơ hình học sâu Word2vec chứa mơ hình Continuous Bag-of-Words (CBOW) Skip-Gram [13] Mơ hình CBOW dự đốn từ mục tiêu (ví dụ: từ “chẩn” tìm dùng từ “đốn” kho ngữ liệu có hai từ chúng xuất số ngữ cảnh) từ từ cùng ngữ cảnh với Mơ hình Skip-Gram thực tính toán độ tương quan từ kho ngữ liệu Tuy nhiên, Skip-Gram thực ngược lại CBOW, lấy từ làm đầu vào dự đoán tất từ khác đầu B Sơ lược số phương pháp học sâu CNN [3] CNN mơ hình học sâu tiên tiến nhiều nhà khoa học biết đến Mơ hình giúp cho xây dựng hệ thống xử lý thông minh, cho kết có độ xác cao nhiều lĩnh vực 262 Hội nghị Quốc gia lần thứ 24 Điện tử, Truyền thông Công nghệ Thông tin (REV-ECIT2021) LSTM Tại thời điểm t, trước hết, LSTM định thông tin đổ vào trạng thái tế bào Quyết định thực hàm sigmoid tầng , còn gọi cổng quên (forget gate) Hàm lấy ℎt-1 đầu từ lớp ẩn trước đó, xt, đầu vào tại, xuất số có giá trị đoạn [0, 1] Trong đó, giá trị có nghĩa giữ hồn tồn, giá trị có nghĩa bỏ qua hồn tồn theo cơng thức (2) thị giác máy tính xử lý ngơn ngữ tự nhiên Mơ hình CNN trình bày hình có layer liên kết với thông qua chế tích chập (convolution) Dữ liệu đầu vào layer kết tích chập từ layer trước nên có kết nối cục q trình tính tốn Sự kết hợp giúp biểu diễn thông tin từ mức độ thấp đến mức độ cao trừu tượng thông qua tích chập (convolution) từ lọc ft = (Wfxt + Ufht-1) (2) Bộ LSTM định thông tin lưu trữ trạng thái tế bào thông qua hai bước Ở bước thứ nhất, hàm, hay lớp sigmoid, gọi cổng đầu vào công thức (3), xác định giá trị LSTM cập nhật Bước thứ hai, hàm tạo Tầng Word embedding tập ma trận trọng số đặc trưng liệu Việc chuyển từ câu thành ma trận trọng số tốn xử lý ngơn ngữ tự nhiên dùng tầng tạo từ cơng cụ word2vec hay Glove Các ma trận tầng có kích thước n x k Trong đó, n số từ câu, từ biểu diễn vector k chiều Ma trận trọng số tầng sở biểu diễn từ câu chọn thành vector từ Đặt l R chiều dài câu, |D| R kích thước từ vựng W(l) Rkx|D| ma trận nhúng vector từ k chiều Từ thứ i câu chuyển thành vector k chiều wi cơng thức (1), xi biểu diễn one-hot vector cho từ thứ i wi = W(l)xi Word embedding Layer Convolutional Layer Pooling Layer ~ vectơ giá trị ứng viên C Tiếp theo, hệ thống cập nhật trạng thái tế bào cũ Ct-1 vào trạng thái tế bào Ct cơng thức (5) Cổng qn (forget gate) ft kiểm sốt độ dốc qua Cổng cho phép xóa cập nhật nhớ cách tường minh Điều giúp giảm bớt hao hụt độ dốc làm bùng nổ độ dốc RNN tiêu chuẩn (1) fullyconnected layer it = (Wixt + Uiht-1) (3) ~ C = tanh(W n xt +U n ht −1 ) (4) ~ Ct = ft *Ct −1 +it *Ct (5) ot = (W xt +U 0ht −1 ) (6) ht = ot * tanh( Ct ) (7) Hình Mơ hình Convolutional Neural Network Tầng Convolutional sử dụng cửa sổ trượt (slide windows) với kích thước cố định (cịn gọi kernel) thực xử lý tính tốn tích chập liệu ma trận liệu đầu vào để thu kết tinh chỉnh Tầng Pooling xử lý vector kết tầng Convolution, tổng hợp trả vector quan trọng Tầng full-connected mơ hình mạng nơ-ron truyền thống Tầng sử dụng vector kết đầu tầng Pooling làm đầu vào Đầu full-connected kết trình huấn luyện Hình Mơ hình Long Short Term Memory network Bộ LSTM định đầu dựa trạng thái tế bào qua bước sau: LSTM Mơ hình LSTM [8] thuộc nhóm phương pháp học sâu hồi quy (Recurrent Neural Networks – RNN) mô tả hình Mơ hình LSTM có kết nối neural tạo thành dạng có hướng có tính chu kỳ Mơ hình có khả học phụ thuộc dài liệu Cấu trúc module lặp RNN LSTM có bốn lớp tương tác theo chức riêng biệt Bên cạnh đó, có hai trạng thái: trạng thái ẩn trạng thái tế bào (cell state) Hình minh họa mơ hình ISBN 978-604-80-5958-3 Bước thứ nhất, LSTM chạy lớp sigmoid, định phần trạng thái tế bào xuất theo công thức (6) ngõ (output gate) Bước thứ hai, LSTM đặt trạng thái tế bào vào hàm nhân với đầu cổng sigmoid Điều nhằm mục đích giúp cho LSTM xuất phần mà định cơng thức (7) 263 Hội nghị Quốc gia lần thứ 24 Điện tử, Truyền thông Công nghệ Thông tin (REV-ECIT2021) Bidirectional LSTM (Bi_LSTM) Mơ hình Bi-LSTM [8] mơ tả hình Đầu thời điểm xem không phụ thuộc vào yếu tố trước chuỗi, mà chúng cịn phụ thuộc vào yếu tố chuỗi Ví dụ, để dự đốn mục từ cịn thiếu câu, cần phải xem xét mục từ theo ngữ cảnh bên trái bên phải mục từ CNN-LSTM Lớp Convolutional CNN tạo vectơ đặc trưng đối tượng Số vectơ đặc trưng số lọc sử dụng q trình tích chập Ở lớp Pooling, giá trị đặc trưng tốt từ lớp chọn để lấy đặc trưng quan trọng ý kiến Các vectơ đặc trưng qua lớp fully connected tạo tập hợp tham số đầu CNN Bộ LSTM sử dụng tham số đầu CNN để thực trình phân loại ý kiến CNN-Bi-LSTM Tương tự mơ hình CNN-LSTM, Bi-LSTM sử dụng tham số đầu CNN để thực trình phân loại ý kiến IV THỬ NGHIỆM Bài báo thực thử nghiệm phân loại bệnh dựa mô tả triệu chứng theo hai trường hợp: xác định loại bệnh phân loại bệnh Xác định loại bệnh: sử dụng mô hình phân loại nhị phân Một nhãn bệnh muốn xác định, nhãn lại dành cho loại bệnh khác Hình Mơ hình Bidirectional RNN [8] Một Bi-LSTM bao gồm hai RNN ngược hướng liên kết với hình Một RNN xử lý liệu đầu vào theo thứ tự ban đầu RNN xử lý liệu đầu vào đảo ngược Dữ liệu dầu tính tốn dựa trạng thái ẩn hai RNN Phân loại bệnh: trường hợp tương đương với toán phân loại đa nhãn Trong báo số nhãn lả ba, tương ứng với nhãn Hạ huyết áp, Viêm đường ruột Chưa xác định Các thử nghiệm thực máy tính có cấu sau: BERT BERT [9] mơ hình biểu diễn ngơn ngữ Devlin cộng giới thiệu BERT sử dụng mạng Bidirectional Transformer [10] để huấn luyện trước mơ hình ngơn ngữ kho ngữ liệu lớn tinh chỉnh mơ hình huấn luyện trước (pre-trained) tác vụ khác Phương pháp BERT xử lý liệu dựa phương pháp Wordpiece [11] tách từ ký tự đặc biệt ##, sử dụng token [CLS], [SEP] để phân biệt đầu chuỗi hay đầu câu, token [MASK] dùng để che dấu từ Trường hợp có hai câu ghép lại thành chuỗi chúng đánh dấu thành đoạn (segment) khác sau token [SEP] Hình ví dụ cho chuỗi gồm hai câu đánh dấu thành hai segment A B Câu cặp câu biểu diễn dạng chuỗi từ Với từ xác định, biểu diễn đầu vào xây dựng tổng từ (token embedding), sentence embedding Transformer position embedding Với toán phân loại, từ chuỗi xác định mã [CLS], lớp kết nối đầy đủ kết nối vị trí [CLS] tầng mã hóa cuối • • • • CPU: core i5 GPU: Tesla K80 24GB (2 nhân GPU) Bộ nhớ RAM: 48 GB Hệ điều hành: Ubuntu 20.04 LTS A Cấu hình thử nghiệm mơ hình học sâu LSTM: Dựa thư viện Keras Các thông số chọn để thử nghiệm liệt kê bảng Bảng Thông số thử nghiệm mơ hình LSTM Đặc tính Số neural ẩn dropout Recurrent_dropout Epoch Kích thước word embedding Hàm activation Giá trị 300 0.2 0.2 300 300 sigmoid CNN: Dựa thư viện Tensorflow Các thông số chọn để thử nghiệm liệt kê bảng Bảng Thông số thử nghiệm mơ hình CNN Đặc tính Kích thước embedding word Số lọc Hình Tiền xử lý liệu giải thuật BERT ISBN 978-604-80-5958-3 264 Giá trị 300 300 Hội nghị Quốc gia lần thứ 24 Điện tử, Truyền thông Công nghệ Thông tin (REV-ECIT2021) Dropout Epoch L2 Hàm activation Kích thước lọc Phương pháp BERT thực thử nghiệm với liệu hai nhãn (nhị phân) báo 0.5 300 0.0008 Sigmoid 3,4,5 Bảng Thông số thử nghiệm mơ hình BERT Đặc tính Giá trị Pre-trained model bert_uncased_L-12_H-768_A-12/1 Epoch 300 Batch size 64 Bi-LSTM: Dựa thư viện Keras Các thông số chọn để thử nghiệm liệt kê bảng B Kết thử nghiệm Kết thử nghiệm liệu trình bày phần A trình bày bảng Bảng Thơng số thử nghiệm mơ hình Bi-LSTM Đặc tính Số neural ẩn dropout Recurrent_dropout Epoch Kích thước word embedding Hàm activation Giá trị 100, 200 0.2 0.2 300 300 ReLU Xác định loại bệnh Bảng Độ xác (accuracy - %) tốt mơ hình thử nghiệm xác định loại bệnh Phương pháp CNN LSTM Bi_LSTM CNNBi_LSTM CNN-LSTM BERT base CNN-LSTM kết hợp: Dựa thư viện Keras Các thông số chọn để thử nghiệm liệt kê bảng Bảng Thơng số thử nghiệm mơ hình CNN + LSTM Đặc tính Epoch LSTM Số lọc Hàm activation CNN Kích thước embedding word Số lọc Kích thước lọc Pool size Hàm activation Giá trị 300 300 sigmoid Bảng Thông số thử nghiệm mơ hình CNN + Bi-LSTM Giá trị 300 300 softmax 91.30 82.36 89.69 81.32 Phân loại bệnh Bảng Độ xác (accuracy - %) tốt mơ hình thử nghiệm phân loại bệnh 300 sigmoid Phương pháp CNN LSTM Bi_LSTM CNN-Bi_LSTM CNN-LSTM BERT: Dựa thư viện Tensorflow Các thông số chọn để thử nghiệm liệt kê bảng ISBN 978-604-80-5958-3 88.63 80.01 Một số nhận xét từ kết thu độ xác phương dùng thử nghiệm xác định loại bệnh báo trình bày bảng 8: - Khơng có phương pháp học thể ưu rõ rệt với liệu thử nghiệm báo Sự kết hợp CNN LSTM, CNN Bi-LSTM, tạo cải thiện phần hiệu năng, so với thực thi riêng giải thuật Trong đó, giải thuật LSTM thể không tốt giải thuật khác, trừ giải thuật BERT - Mặc dù kết hợp hai LSTM theo hai chiều khác Bi-LSTM kết tốt LSTM thử nghiệm báo - Giải thuật BERT thu kết giải thuật học sâu khác nhiều, loại nhãn bệnh thử nghiệm Kết nguyên nhân liệu huấn luyện chưa đủ lớn, cấu hình phần cứng chưa đủ cho BERT đạt mức tốt 300 softmax CNN – Bi-LSTM kết hợp: Dựa thư viện Keras Các thông số chọn để thử nghiệm liệt kê bảng Đặc tính Epoch Bi-LSTM Số lọc Hàm activation CNN Kích thước embedding word Số lọc Kích thước lọc Pool size Hàm activation Hạ huyết Viêm đường Chưa xác áp ruột định 88.71 90.06 87.19 87.64 88.72 86.64 86.98 90.07 89.43 88.83 89.88 90.76 265 Độ xác 81.67 80.04 80.53 82.31 81.78 Hội nghị Quốc gia lần thứ 24 Điện tử, Truyền thông Công nghệ Thông tin (REV-ECIT2021) Kết thu trình bày bảng thử nghiệm thấp nhiều, xấp xỉ 10%, so với số liệu bảng Điều phù hợp kết phân loại nhiều nhãn Tuy nhiên, hiệu giải thuật phân loại tương đồng hai trường hợp thử nghiệm Sự kết hợp CNN LSTM, kết hợp CNN Bi-LSTM đạt độ xác tốt chúng thực thi riêng V [8] [9] [10] KẾT LUẬN [11] Kết thử nghiệm chẩn đoán bệnh dựa khai báo từ người bệnh báo cho thấy phương pháp tiếp cận báo có nhiều triển vọng Mơ hình định bệnh có ưu điểm linh hoạt, tương đối dễ xây dựng ứng dụng sở y tế Nếu ứng dụng xây dựng website ứng dụng di động dễ tiếp cận dễ sử dụng với nhiều đối tượng người bệnh Tuy nhiên, kết thử nghiệm liệu thu thập chưa quy mô lớn, số bệnh để xác định chưa nhiều Để đưa vào ứng dụng thực tế, việc thu thập liệu, nghiên cứu phân tích bệnh án cần thu thập quy mô lớn hơn, phân loại triệu chứng cho nhiều loại bệnh hơn, thử nghiệm với nhiều mơ hình học sâu khác [12] [13] [14] [15] TÀI LIỆU THAM KHẢO [1] [2] [3] [4] [5] [6] [7] Riccardo Miotto, Fei Wang, Shuang Wang, Xiaoqian Jiang, Joel T Dudley, “Deep learning for healthcare: review, opportunities and challenges Briefings in bioinformatics”, vol 19, isuue 6, pp 1236-1246, 2018 Adnan Muhammad Shah, Xiangbin Yan, Syed Asad Ali Shah, and Gulnara Mamirkulova “Mining patient opinion to evaluate the service quality in healthcare: a deep-learning approach”, Journal of Ambient Intelligence and Humanized Computing, pp 1-18, 2019 Yoon Kim, “Convolutional neural networks for sentence classification”, in Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing, EMNLP 2014, pp 1746-1751, 2014 Faust, Oliver, Hagiwara, Yuki, Hong, Tan Jen, Lin, Oh Shu and Acharya, U Rajendra, “Deep learning for healthcare applications based on physiological signals: A review”, Computer methods and programs in biomedicine, vol 161, pp 1-13, 2018 Beam, Andrew L.; Kohane, Isaac S., “Big data and machine learning in health care” Jama, vol 319, isuue 13, pp 13171318, 2018 Wang, Dayong, et al Deep learning for identifying metastatic breast cancer arXiv preprint arXiv:1606.05718, 2016 Saifeng Liu, Huaixiu Zheng, Yesu Feng, Wei Li, “Prostate cancer diagnosis using deep learning with 3D multiparametric MRI”, In: Medical imaging 2017: computer-aided diagnosis International Society for Optics and Photonics, pp 1013428, 2017 ISBN 978-604-80-5958-3 [16] [17] [18] [19] [20] 266 Lei Zhang, Suai Wang, and Bing Liu, “Deep learning for sentiment analysis: A survey”, Wiley Interdisciplinary Reviews: Data Mining and Knowledge Discovery, Vol 8, Issue 4, pp e1253, 2018 Devlin, Jacob, Ming-Wei Chang, Kenton Lee, Kristina Toutanova, “BERT: Pre-training of deep bidirectional transformers for language understanding”, arXiv preprint arXiv:1810.04805, 2019 A Vaswani, N Shazeer, N Parmar, J Uszkoreit, L Jones, A N Gomez, et al., "Attention is all you need", Proc Adv Neural Inf Process Syst., pp 5998-6008, 2017 Yonghui Wu, Mike Schuster, Zhifeng Chen, Quoc V Le, Mohammad Norouzi, Wolfgang Macherey, Maxim Krikun, Yuan Cao, Qin Gao, Klaus Macherey, et al "Google’s neural machine translation system: Bridging the gap between human and machine translation” In arXiv preprint arXiv:1609.08144, 2016 Xin Rong, “word2vec parameter learning explained”, In arXiv preprint arXiv:1411.2738, 2014 Tomas Mikolov, Ilya Sutskever, Kai Chen, Greg Corrado, and Jeffrey Dean, “Distributed representations of words and phrases and their compositionality” In Proceedings of the Annual Conference on Advances in Neural Information Processing Systems (NIPS 2013), 2013 Madison Beary, Alex Hadsell, Ryan Messersmith, Mohammad-Parsa Hosseini, “Diagnosis of Autism in Children using Facial Analysis and Deep Learning” arXiv preprint arXiv:2008.02890, 2020 Andrew G Howard., Menglong Zhu, Bo Chen, Dmitry Kalenichenko, Weijun Wang, Tobias Weyand, Marco Andreetto, Hartwig Adam “Mobilenets: Efficient convolutional neural networks for mobile vision applications” arXiv preprint arXiv:1704.04861, 2017 Amjad Rehman, Naveed Abbas, Tanzila Saba, Syed Ijaz ur Rahman, Zahid Mehmood, HoshangKolivand “Classification of acute lymphoblastic leukemia using deep learning" Microscopy Research and Technique, cil 81, isuue 11, pp 1310-1317, 2018 A.Z Peixinho, S.B Martins, J.E Vargas and A.X Falc ã o, J.F Gomes, C.T.N Suzuki, “Diagnosis of Human Intestinal Parasites by Deep Learning” In: Computational Vision and Medical Image Processing V: Proceedings of the 5th Eccomas Thematic Conference on Computational Vision and Medical Image Processing (VipIMAGE 2015, Tenerife, Spain, pp 107, 2015 Jae-Hong Lee, Do-Hyung Kima, Seong-Nyum Jeonga, SeongHo Choib, “Detection and diagnosis of dental caries using a deep learning-based convolutional neural network algorithm” Journal of dentistry, vol 77, pp 106-111, 2018 Duy Nguyen Ngoc, Tuoi Phan Thi and Phuc Do, “Preprocessing Improves CNN and LSTM in Aspect-Based Sentiment Analysis for Vietnamese” In Proceedings of Fifth International Congress on Information and Communication Technology ICICT 2020 Springer, Singapore, pp 175-185, 2020 Duy Nguyen Ngoc, Tuoi Phan Thi and Phuc Do, “A Data Preprocessing Method to Classify and Summarize AspectBased Opinions using Deep Learning”, Asian Conference on Intelligent Information and Database Systems Springer, Cham, pp 115-127, 2019 ... tính Số bệnh nhân Số văn huấn luyện Số văn thử nghiệm Số loại nhãn (loại bệnh) PHƯƠNG PHÁP ĐỀ XUẤT Để chẩn đoán chữa bệnh, bác sỹ cần nhiều thông tin liên quan đến người bệnh Vì vậy, bệnh án... thơng số chúng góp phần vào nhận định phân loại bệnh giai đoạn đầu trình khám chữa bệnh Bài báo đề xuất phương pháp tiếp cận xử lý thông tin mô tả bệnh thành sở tri thức cho giải thuật học sâu. .. chứng người bệnh, nhằm tìm kiếm khả hỗ trợ chẩn đoán bệnh Việc xây dựng hệ thống chẩn đốn bệnh góp phần mang lại lợi ích cho người bệnh lẫn sở y tế III Bảng Số liệu kho liệu bệnh án tiếng Việt Đặc