Bài viết Khai thác yếu tố tần suất triệu chứng trong chẩn đoán giai đoạn ban đầu bằng các giải thuật học sâu y đề xuất phương pháp chẩn đoán bệnh từ thông tin mô tả triệu chứng từ người bệnh bằng tiếng Việt, có chú ý khai thác yếu tố tần suất xuất hiện của các triệu chứng dựa trên các phương pháp học sâu. So với các công trình trước đây không chú ý đến yếu tố tần suất, độ chính xác đạt được của bài báo này cải thiện được trên 2%. Kết quả thử nghiệm đạt độ chính xác cao là rất đáng khích lệ cho hướng tiếp cận này. Mời các bạn cùng tham khảo!
Hội nghị Quốc gia lần thứ 25 Điện tử, Truyền thông Công nghệ Thông tin (REV-ECIT2022) Khai thác yếu tố tần suất triệu chứng chẩn đoán giai đoạn ban đầu giải thuật học sâu Huỳnh Trung Trụ Nguyễn Trung Hiếu Khoa Công Nghệ Thông Tin II, Học Viện Cơng Nghệ Bưu Chính Viễn Thơng Email: truht@ptithcm.edu.vn, hieunt.tg@ptithcm.edu.vn Abstract— Các triệu chứng người bệnh mô tả có nhiều ý nghĩa q trình chẩn đốn chữa bệnh Trong đó, tần suất xuất triệu chứng yếu tố quan trọng bỏ qua Xây dựng hệ thống thông minh hiểu thơng tin nhằm chẩn đốn bệnh ban đầu giúp việc phân luồng người bệnh vào khám chuyên khoa nhanh chóng hiệu Bài báo đề xuất phương pháp chẩn đốn bệnh từ thơng tin mô tả triệu chứng từ người bệnh tiếng Việt, có ý khai thác yếu tố tần suất xuất triệu chứng dựa phương pháp học sâu So với cơng trình trước khơng ý đến yếu tố tần suất, độ xác đạt báo cải thiện 2% Kết thử nghiệm đạt độ xác cao đáng khích lệ cho hướng tiếp cận Keywords- Corpus, Physical exam I Deep Learning, liệu cảm biến Đặc điểm chung loại liệu phức tạp, không đồng nhất, thích khơng có cấu trúc Để xử lý tốt liệu cần tảng kiến thức miền đầy đủ chuyên sâu Bài báo đề xuất phương pháp xử lý khai phá liệu khơng chun sâu Đó liệu mô tả triệu chứng người bệnh Thông thường, mô tả triệu chứng chưa thể sở cho bác sỹ nhận định bệnh Tuy nhiên, cũng thơng tin có nhiều ý nghĩa q trình chẩn đốn bệnh Vì vậy, nghiên cứu khai thác nguồn liệu động lực cho tác giả thực báo Phần báo trình bày số cơng trình liên quan học sâu y tế mục Mục trình bày phương pháp thực báo từ trình chuyển đổi xử lý liệu đến cấu hình số giải thuật học sâu dùng thử nghiệm để đánh giá phương pháp đề xuất Mục trình bày kết đạt ý kiến thảo luận Phần trình bày ý kiến kết luận hướng phát triển tiếp dựa kết đạt từ báo trình bày mục Healthcare, GIỚI THIỆU Ứng dụng kỹ thuật tuệ nhân tạo lĩnh vực y tế quan tâm từ lâu Mong muốn xây dựng hệ thống hỗ trợ chăm sóc sức khỏe thăm khám bệnh tự động mong muốn lớn người không nhà khoa học Khoa học kỹ thuật công nghệ phát triển, phát triển khoa học máy tính, với phương pháp học sâu Nhiều cơng trình nghiên cứu lĩnh vực giới với kết tốt công bố [1] Ứng dụng tiến khoa học máy tính cơng trình nghiên cứu đa dạng, từ thị giác máy tính, nhận dạng giọng nói xử lý ngôn ngữ tự nhiên cho tiếng Anh Khi xử lý liệu lĩnh vực y khoa, cơng trình xử lý tốn chun sâu theo chun ngành hẹp [6] [7] cần chi phí công sức lớn Học hiểu tri thức y sinh điều khó khăn quan trọng Q trình thu thập tri thức, học để hiểu biết từ liệu chủ đề phức tạp, nhiều chiều không đồng thách thức lớn việc xây dựng kho liệu để huấn luyện hệ thống học sâu Dữ liệu lĩnh vực y tế nhiều đa dạng Nhiều loại liệu khác xuất nghiên cứu y sinh đại, từ hồ sơ sức khỏe điện tử, hình ảnh, … ISBN 978-604-80-7468-5 II CÁC CƠNG TRÌNH LIÊN QUAN Do quan tâm nhiều nên thử nghiệm dùng trí tuệ nhân tạo y học đa dạng Các cơng trình thường nghiên cứu chun sâu vào bệnh cụ thể Madison Beary cộng [14] giới thiệu mơ hình học sâu phân loại trẻ em khỏe mạnh có khả mắc chứng tự kỷ Mơ hình Madison Beary sử dụng CNN kết hợp với mơ hình MobileNet [15] Kết Madison Beary đạt tốt, độ xác đạt đến 94,6% Tác giả Amjad Rehman [16] cộng phân loại bệnh bạch cầu mãn tính dòng tế bào lympho sử dụng mơ CNN phân loại ảnh chụp tế Độ xác mà Amjad Rehman cộng đạt lên đến 97.78% Tác giả A.Z Peixinho [17] cộng thử nghiệm chẩn đoán ký sinh trùng đường ruột người phương pháp học mạng nơ-ron tính chập ConvNet Độ xác thử nghiệm [17] đạt mức 96.49% Trong cơng trình [18], Jae- 409 Hội nghị Quốc gia lần thứ 25 Điện tử, Truyền thông Công nghệ Thông tin (REV-ECIT2022) bỏ qua thơng số chúng góp phần vào nhận định phân loại bệnh giai đoạn đầu trình khám chữa bệnh Bài báo đề xuất phương pháp tiếp cận xử lý biến đổi thông tin mô tả bệnh thành sở tri thức cho giải thuật học sâu dạng ngôn ngữ tự nhiên Hong Leea cộng thử nghiệm phát chẩn đoán sâu dựa vào thuật toán hoạc sâu mạng nơ-ron CNNs, kết đạt tốt, độ xác mức 95% Các cơng trình đề cập phần đạt độ xác cao thử nghiệm giải toán xác định loại bênh cụ thể Ở khía cạnh khác vấn đề liên quan đến y tế, Adnan Muhammad Shah [2] cộng thử nghiệm phân tích tâm lý bệnh nhân chất lượng cung cấp dịch vụ châm sóc sức khỏe dựa ý kiến hình ảnh Khả hiểu liệu giải thuật học sâu lĩnh vực tốt Độ xác tốt mà Adnan Muhammad Shah với cộng thu lên đến 97.75% Với tiếng Việt, giải thuật học sâu lĩnh vực xử lý ngôn ngữ tự nhiên dùng nhiều cơng trình, cho lĩnh vực phân loại ý kiến đánh giá sản phẩm [19] [20] Độ xác đạt cơng trình tốt, mức 80% Ở cơng trình [19] Duy Nguyen Ngoc cộng thử nghiệm phân loại ý kiến cho tiếng Anh tiếng Việt để nhận thấy giải thuật học sâu không phụ thuộc vào ngôn ngữ chủ đề Nhóm tác giả [21] đề xuất phương pháp khai phá thông tin mô tả bệnh tiếng Việt để chẩn đoán số bệnh phương pháp học sâu Phương pháp báo đề xuất dựa kỹ thuật xử lý ngôn ngữ tự nhiên tiếng Việt, chưa ý khai thác yếu tố tần suất triệu chứng, trình xây dựng kho liệu huấn luyện hệ thống học sâu, độ xác đạt 82.31% Vì vậy, vấn đề sử dụng giải thuật học sâu cho lĩnh vực xử lý ngôn ngữ tự nhiên cần xây dựng kho ngữ liệu chất lượng để chúng học tốt tri thức lĩnh vực cần xử lý Từ kết đạt nghiên cứu trên, báo đề xuất thử nghiệm phương pháp học sâu miền liệu mô tả triệu chứng người bệnh, nhằm tìm kiếm khả hỗ trợ chẩn đoán bệnh Việc xây dựng hệ thống chẩn đốn bệnh góp phần mang lại lợi ích cho người bệnh lẫn sở y tế III A Xây dựng kho liệu mô tả bệnh Tiền xử lý liệu Dữ liệu thử nghiệm báo tác giả thu thập từ bệnh án số bệnh viện phòng khám tư nhân Các bệnh án thường lưu hệ quản trị sở liệu quan hệ, trường riêng biệt Để liệu huấn luyện giải thuật học sâu, tác giả rút trích liệu kết hợp thành văn Quá trình xử lý tạo kho liệu thực theo bước: Bước 1: Rút trích liệu ca khám kết luận bác sỹ thực khám Bước 2: Tạo văn cho ca khám bệnh Dữ liệu ca khám tạo thành văn Trong đó, câu văn thơng tin theo khía cạnh tiền sử bệnh, chẩn đốn, kết luận … Ví dụ 1: “Cao 165 cm, nặng 42 kg, huyết áp … Đã bị lao cách năm Hay chóng mặt, chống váng, mờ mắt, ngất, run tay, thiếu cân Khả bị hạ huyết áp” Sau xử lý yếu tố tần suất, ví dụ mơ tả bệnh trở thành: “Cao 165 cm, nặng 42 kg, huyết áp … Đã bị lao cách năm Hay chóng mặt, chống váng, mờ mắt, đơi ngất, thường xuyên run tay, thiếu cân Khả bị hạ huyết áp” Ví dụ 2: “Cao 153 cm, nặng 56 kg Hay nôn, thường tiêu chảy, mạch lên dội, thừa cân Khả bị viêm đường ruột” Sau xử lý yếu tố tần suất, ví dụ mô tả bệnh trở thành: “Cao 153 cm, nặng 56 kg Hay nôn, thường tiêu chảy, mạch lên dội, thừa cân Khả bị viêm đường ruột” Sau trình thu thập xử lý liệu trên, báo có kho liệu với số liệu bảng Số văn dùng làm liệu thử nghiệm chọn ngẫu nhiên giải thuật hệ quản trị MS SQL Server 2014 PHƯƠNG PHÁP ĐỀ XUẤT Để chẩn đoán chữa bệnh, bác sỹ cần nhiều thông tin liên quan đến người bệnh Vì vậy, bệnh án thường tập hợp nhiều yếu tố số đo huyết áp, thân nhiệt, số xét nghiệm … Đây giá trị có ý nghĩa quan trọng thuộc chuyên ngành khoa học sức khỏe Các giá trị thường giá trị định lượng nên xem giá trị từ cụm từ ngôn ngữ tự nhiên dẫn đến chẩn đốn nhận định sai khám chữa bệnh Tuy nhiên, bên cạnh giá trị định lượng kết khám cận lâm sàng có tính chun mơn sâu y khoa, thơng số q trình khám tổng qt chiều cao, cân nặng, huyết áp … không đòi độ xác cao Tuy nhiên, ISBN 978-604-80-7468-5 Bảng Số liệu kho liệu bệnh án tiếng Việt Đặc tính Số bệnh nhân Số văn huấn luyện Số văn thử nghiệm Số loại nhãn (loại bệnh) Số lượng 7.123 11.794 3001 Tạo liệu cho mô hình học sâu Bài báo sử dụng phương pháp word2vec [12] tính tốn đặc trưng liệu để tạo ma trận liệu đầu vào cho mơ hình học sâu Word2vec chứa mơ hình Continuous Bag-of-Words (CBOW) mơ hình 410 Hội nghị Quốc gia lần thứ 25 Điện tử, Truyền thông Công nghệ Thơng tin (REV-ECIT2022) Skip-Gram [13] Mơ hình CBOW dự đốn từ mục tiêu (ví dụ: từ “chẩn” tìm dùng từ “đoán” kho ngữ liệu có hai từ, hai từ xuất số ngữ cảnh) từ từ cùng ngữ cảnh với Tương tự CBOW, mơ hình Skip-Gram thực tính tốn độ tương quan từ kho ngữ liệu Tuy nhiên, Skip-Gram thực ngược lại, lấy từ làm đầu vào dự đoán tất từ khác đầu full-connected kết cuối trình huấn luyện LSTM: Mơ hình LSTM [8] thuộc nhóm phương pháp học sâu hồi quy (Recurrent Neural Networks – RNN) mơ tả hình Mơ hình LSTM có kết nối neural tạo thành dạng có hướng có tính chu kỳ Mơ hình có khả học phụ thuộc dài liệu Cấu trúc module lặp RNN LSTM có bốn lớp tương tác theo chức riêng biệt Bên cạnh đó, có hai trạng thái: trạng thái ẩn trạng thái tế bào (cell state) Hình minh họa mơ hình LSTM Tại thời điểm t, trước hết, LSTM định thông tin đổ vào trạng thái tế bào Quyết định thực hàm sigmoid tầng , gọi cổng quên (forget gate) Hàm lấy ℎt-1 đầu từ lớp ẩn trước đó, xt, đầu vào tại, xuất số có giá trị đoạn [0, 1] Trong đó, giá trị có nghĩa giữ hồn tồn, giá trị có nghĩa bỏ qua hồn tồn theo cơng thức (2) ft = (Wfxt + Ufht-1) (2) Bộ LSTM định thông tin lưu trữ trạng thái tế bào thông qua hai bước Ở bước thứ nhất, hàm, hay lớp sigmoid, gọi cổng đầu vào công thức (3), xác định giá trị LSTM cập nhật Bước thứ hai, hàm tạo B Sơ lược số phương pháp học sâu CNN [3]: CNN mơ hình học sâu tiên tiến nhiều nhà khoa học biết đến Mơ hình giúp cho xây dựng hệ thống xử lý thông minh, cho kết có độ xác cao nhiều lĩnh vực thị giác máy tính xử lý ngơn ngữ tự nhiên Mơ hình CNN trình bày hình có layer liên kết với thơng qua chế tích chập (convolution) Dữ liệu đầu vào layer kết tích chập từ layer trước nên có kết nối cục q trình tính tốn Sự kết hợp giúp biểu diễn thông tin từ mức độ thấp đến mức độ cao trừu tượng thơng qua tích chập (convolution) từ lọc Tầng Word embedding tập ma trận trọng số đặc trưng liệu Việc chuyển từ câu thành ma trận trọng số tốn xử lý ngơn ngữ tự nhiên dùng tầng tạo từ cơng cụ word2vec hay Glove Các ma trận tầng có kích thước n x k Trong đó, n số từ câu, từ biểu diễn vector k chiều Ma trận trọng số tầng sở biểu diễn từ câu chọn thành vector từ Đặt l R chiều dài câu, |D| R kích thước từ vựng W(l) Rkx|D| ma trận nhúng vector từ k chiều Từ thứ i câu chuyển thành vector k chiều wi công thức (1): wi = W(l)xi (1) xi biểu diễn one-hot vector cho từ thứ i Word embedding Layer Convolutional Layer Pooling Layer ~ vectơ giá trị ứng viên C Tiếp theo, hệ thống cập nhật trạng thái tế bào cũ Ct-1 vào trạng thái tế bào Ct công thức (5) Cổng quên (forget gate) ft kiểm sốt độ dốc qua Cổng cho phép xóa cập nhật nhớ cách tường minh Điều giúp giảm bớt hao hụt độ dốc làm bùng nổ độ dốc RNN tiêu chuẩn fullyconnected layer it = (Wixt + Uiht-1) (3) ~ C = tanh(W n xt +U n ht −1 ) (4) ~ Ct = ft *Ct −1 +it *Ct (5) ot = (W xt +U 0ht −1 ) (6) ht = ot * tanh( Ct ) (7) Hình Mơ hình Convolutional Neural Network Tầng Convolutional sử dụng cửa sổ trượt (slide windows) với kích thước cố định (cịn gọi kernel) thực xử lý tính tốn tích chập liệu ma trận liệu đầu vào để thu kết tinh chỉnh Tầng Pooling xử lý vector kết tầng Convolution, tổng hợp trả vector quan trọng Tầng full-connected mô hình mạng nơ-ron truyền thống Tầng sử dụng vector kết đầu tầng Pooling làm đầu vào Đầu ISBN 978-604-80-7468-5 Hình Mơ hình Long Short Term Memory network 411 Hội nghị Quốc gia lần thứ 25 Điện tử, Truyền thông Công nghệ Thông tin (REV-ECIT2022) Bộ LSTM định đầu dựa trạng thái tế bào qua bước sau: Bước thứ nhất, LSTM chạy lớp sigmoid, định phần trạng thái tế bào xuất theo công thức (6) ngõ (output gate) Bước thứ hai, LSTM đặt trạng thái tế bào vào hàm nhân với đầu cổng sigmoid Điều nhằm mục đích giúp cho LSTM xuất phần mà định cơng thức (7) Bidirectional LSTM (Bi_LSTM): Mơ hình BiLSTM [8] mơ tả hình Đầu thời điểm xem khơng phụ thuộc vào yếu tố trước chuỗi, mà chúng phụ thuộc vào yếu tố chuỗi Ví dụ, để dự đốn mục từ cịn thiếu câu, cần phải xem xét mục từ theo ngữ cảnh bên trái bên phải mục từ Với từ vựng xác định, biểu diễn đầu vào xây dựng cách tính tổng từ vựng (token embedding), sentence embedding Transformer position embedding Với toán phân loại, từ chuỗi xác định mã thông báo [CLS], lớp kết nối đầy đủ kết nối vị trí [CLS] tầng mã hóa cuối CNN-LSTM: Lớp Convolutional CNN tạo vectơ đặc trưng đối tượng Số vectơ đặc trưng số lọc sử dụng q trình tích chập Ở lớp Pooling, giá trị đặc trưng tốt từ lớp chọn để lấy đặc trưng quan trọng ý kiến Các vectơ đặc trưng qua lớp fully connected tạo tập hợp tham số đầu CNN Bộ LSTM sử dụng tham số đầu CNN để thực trình phân loại ý kiến CNN-Bi-LSTM: Tương tự mơ hình CNNLSTM, Bi-LSTM sử dụng tham số đầu CNN để thực trình phân loại ý kiến IV Hình Mơ hình Bidirectional RNN [8] Như mơ tả hình 3, Bi-LSTM bao gồm hai RNN ngược hướng liên kết với Một RNN xử lý chuỗi liệu đầu vào theo thứ tự ban đầu RNN xử lý chuỗi liệu đầu vào đảo ngược Dữ liệu dầu tính tốn dựa trạng thái ẩn hai RNN BERT: BERT [9] mơ hình biểu diễn ngơn ngữ Devlin cộng nhóm nghiên cứu Google AI Language giới thiệu BERT sử dụng mạng Bidirectional Transformer [10] để huấn luyện trước mơ hình ngôn ngữ kho ngữ liệu lớn tinh chỉnh mơ hình huấn luyện trước (pre-trained) tác vụ khác Phương pháp BERT xử lý liệu dựa phương pháp Wordpiece [11] tách từ ký tự đặc biệt ##, sử dụng token [CLS], [SEP] để phân biệt đầu chuỗi hay đầu câu, token [MASK] dùng để che dấu từ Trường hợp có cặp câu ghép lại thành chuỗi chúng đánh dấu thành đoạn (segment) khác sau token [SEP] Hình ví dụ cho chuỗi gồm hai câu đánh dấu thành hai segment A B Câu cặp câu biểu diễn dạng chuỗi từ vựng THỬ NGHIỆM Bài báo thực thử nghiệm phân loại bệnh dựa mô tả triệu chứng theo hai trường hợp: xác định loại bệnh phân loại bệnh Xác định loại bệnh: trường hợp tương đương với toán phân loại nhị phân Một nhãn bệnh muốn xác định, nhãn lại dành cho loại bệnh khác Phân loại bệnh: trường hợp tương đương với toán phân loại đa nhãn Trong báo số nhãn ba, tương ứng với nhãn Hạ huyết áp, Viêm đường ruột Chưa xác định Các thử nghiệm thực máy tính có cấu sau: CPU: core i5; GPU: Tesla K80 24GB (2 nhân GPU); Bộ nhớ RAM: 48 GB; Hệ điều hành: Ubuntu 20.04 LTS A Cấu hình mơ hình học sâu dùng cho thử nghiệm LSTM: Dựa thư viện Keras Các thông số chọn để thử nghiệm liệt kê bảng Bảng Thông số thử nghiệm mô hình LSTM Đặc tính Giá trị Số neural ẩn dropout Recurrent_dropout Epoch Kích thước word embedding 300 0.2 0.2 300 300 Hàm activation sigmoid CNN: Dựa thư viện Tensorflow Các thông số chọn để thử nghiệm liệt kê bảng Bảng Thông số thử nghiệm mơ hình CNN Đặc tính Hình Tiền xử lý liệu giải thuật BERT ISBN 978-604-80-7468-5 412 Giá trị Hội nghị Quốc gia lần thứ 25 Điện tử, Truyền thơng Cơng nghệ Thơng tin (REV-ECIT2022) Kích thước embedding word 300 Số lọc Dropout Epoch L2 Hàm activation Kích thước lọc 300 0.5 300 0.0008 Sigmoid 3,4,5 BERT: Dựa thư viện Tensorflow Các thông số chọn để thử nghiệm liệt kê bảng Phương pháp BERT thực thử nghiệm với liệu hai nhãn (nhị phân) báo Bảng Thơng số thử nghiệm mơ hình BERT Bi-LSTM: Dựa thư viện Keras Các thông số chọn để thử nghiệm liệt kê bảng 100, 200 0.2 0.2 300 300 Hàm activation Phương pháp ReLU CNN LSTM Bi_LSTM CNNBi_LSTM CNN-LSTM BERT base Bảng Thơng số thử nghiệm mơ hình CNN + LSTM Giá trị Epoch LSTM Số lọc Hàm activation CNN Kích thước embedding word Số lọc Kích thước lọc Pool size Hàm activation 300 softmax 300 300 sigmoid Bảng Thông số thử nghiệm mô hình CNN + Bi-LSTM Giá trị Epoch Bi-LSTM Số lọc Hàm activation CNN Kích thước embedding word 300 softmax Số lọc Kích thước lọc Pool size Hàm activation 300 sigmoid ISBN 978-604-80-7468-5 300 64 Hạ huyết áp 89.79 88.91 88.78 90.03 Viêm đường ruột 92.02 89.79 91.77 90.97 Chưa xác định 88.95 88.78 91.12 92.53 89.23 81.41 93.34 84.26 90.73 82.37 Từ kết thu độ xác phương dùng thử nghiệm xác định loại bệnh báo trình bày bảng 8, số nhận xét rút sau: - Khơng có phương pháp học thể ưu rõ rật với liệu thử nghiệm báo Sự kết hợp CNN LSTM, CNN Bi-LSTM, tạo cải thiện phần hiệu năng, so với thực thi riêng giải thuật Trong đó, giải thuật LSTM thể khơng tốt giải thuật khác, trừ giải thuật BERT - Mặc dù kết hợp hai LSTM theo hai chiều khác Bi-LSTM kết tốt LSTM trường hợp thử nghiệm liệu báo - Giải thuật BERT thu kết giải thuật học sâu khác nhiều, loại nhãn bệnh thử nghiệm Kết nguyên nhân liệu huấn luyện chư đủ lớn, cấu hình phần cứng chưa giúp cho cấu hình BERT đạt mức tốt BERT base - So với kết Trụ cộng [21], hầu hết mơ hình có cải thiện Mức cải thiện tốt CNN-LSTM cải thiện khoảng 2% Phân loại bệnh 300 CNN – Bi-LSTM kết hợp Dựa thư viện Keras Các thông số chọn để thử nghiệm liệt kê bảng Đặc tính bert_uncased_L-12_H-768_A-12/1 Bảng Độ xác (accuracy - %) tốt mơ hình thử nghiệm xác định loại bệnh CNN-LSTM kết hợp Dựa thư viện Keras Các thông số chọn để thử nghiệm liệt kê bảng Đặc tính Pre-trained model Kết thử nghiệm Kết thử nghiệm liệu trình bày phần A trình bày bảng Xác định loại bệnh Giá trị Số neural ẩn dropout Recurrent_dropout Epoch Kích thước word embedding Giá trị Epoch Batch size Bảng Thông số thử nghiệm mơ hình Bi-LSTM Đặc tính Đặc tính 300 300 Bảng Độ xác (accuracy - %) tốt mơ hình thử nghiệm phân loại bệnh Phương pháp CNN 413 Độ xác 81.26 Hội nghị Quốc gia lần thứ 25 Điện tử, Truyền thông Công nghệ Thông tin (REV-ECIT2022) LSTM Bi_LSTM CNN-Bi_LSTM CNN-LSTM 79.44 82.23 84.19 82.18 [8] Các kết thu trình bày bảng thử nghiệm thấp nhiều, xấp xỉ 10%, so với số liệu bảng Tuy nhiên, so với kết đạt Trụ cộng [21] phương pháp đề xuất báo cải thiện gần 2% Cũng có trường hợp ngoại lệ, trường hợp mơ hình LSTM giảm độ xác khoảng 1% Tuy nhiên, hiệu giải thuật phân loại tương đồng hai trường hợp thử nghiệm Sự kết hợp CNN LSTM, kết hợp CNN Bi-LSTM đạt độ xác tốt để học sâu thực thi riêng V [9] [10] [11] KẾT LUẬN [12] Kết thử nghiệm chẩn đoán bệnh dựa khai báo từ người bệnh có khai thác yếu tố tần suất triệu chứng báo cho thấy phương pháp tiếp cận báo có nhiều triển vọng Mơ hình định bệnh có ưu điểm linh hoạt, tạo thuận lợi cao cho việc xây dựng ứng dụng sở y tế Nếu ứng dụng xây dựng website ứng dụng di động dễ tiếp cận dễ sử dụng với nhiều đối tượng người bệnh sở y tế Kết nghiên cứu kết thử nghiệm liệu thu thập chưa quy mô lớn, số bệnh để xác định chưa nhiều Để đưa mơ hình vào ứng dụng thực tế, việc thu thập liệu, nghiên cứu phân tích bệnh án cần thu thập quy mơ lớn hơn, phân loại triệu chứng cho nhiều loại bệnh hơn, thử nghiệm với nhiều mơ hình học sâu khác [13] [14] [15] [16] [17] TÀI LIỆU THAM KHẢO [1] [2] [3] [4] [5] [6] [7] Riccardo Miotto, Fei Wang, Shuang Wang, Xiaoqian Jiang, Joel T Dudley, “Deep learning for healthcare: review, opportunities and challenges Briefings in bioinformatics”, vol 19, isuue 6, pp 1236-1246, 2018 Adnan Muhammad Shah, Xiangbin Yan, Syed Asad Ali Shah, and Gulnara Mamirkulova “Mining patient opinion to evaluate the service quality in healthcare: a deep-learning approach”, Journal of Ambient Intelligence and Humanized Computing, pp 1-18, 2019 Yoon Kim, “Convolutional neural networks for sentence classification”, in Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing, EMNLP 2014, pp 1746-1751, 2014 Faust, Oliver, Hagiwara, Yuki, Hong, Tan Jen, Lin, Oh Shu and Acharya, U Rajendra, “Deep learning for healthcare applications based on physiological signals: A review”, Computer methods and programs in biomedicine, vol 161, pp 1-13, 2018 Beam, Andrew L.; Kohane, Isaac S., “Big data and machine learning in health care” Jama, vol 319, isuue 13, pp 13171318, 2018 Wang, Dayong, et al Deep learning for identifying metastatic breast cancer arXiv preprint arXiv:1606.05718, 2016 Saifeng Liu, Huaixiu Zheng, Yesu Feng, Wei Li, “Prostate cancer diagnosis using deep learning with 3D multiparametric ISBN 978-604-80-7468-5 [18] [19] [20] [21] 414 MRI”, In: Medical imaging 2017: computer-aided diagnosis International Society for Optics and Photonics, pp 1013428, 2017 Lei Zhang, Suai Wang, and Bing Liu, “Deep learning for sentiment analysis: A survey”, Wiley Interdisciplinary Reviews: Data Mining and Knowledge Discovery, Vol 8, Issue 4, pp e1253, 2018 Devlin, Jacob, Ming-Wei Chang, Kenton Lee, Kristina Toutanova, “BERT: Pre-training of deep bidirectional transformers for language understanding”, arXiv preprint arXiv:1810.04805, 2019 A Vaswani, N Shazeer, N Parmar, J Uszkoreit, L Jones, A N Gomez, et al., "Attention is all you need", Proc Adv Neural Inf Process Syst., pp 5998-6008, 2017 Yonghui Wu, Mike Schuster, Zhifeng Chen, Quoc V Le, Mohammad Norouzi, Wolfgang Macherey, Maxim Krikun, Yuan Cao, Qin Gao, Klaus Macherey, et al "Google’s neural machine translation system: Bridging the gap between human and machine translation” In arXiv preprint arXiv:1609.08144, 2016 Xin Rong, “word2vec parameter learning explained”, In arXiv preprint arXiv:1411.2738, 2014 Tomas Mikolov, Ilya Sutskever, Kai Chen, Greg Corrado, and Jeffrey Dean, “Distributed representations of words and phrases and their compositionality” In Proceedings of the Annual Conference on Advances in Neural Information Processing Systems (NIPS 2013), 2013 Madison Beary, Alex Hadsell, Ryan Messersmith, Mohammad-Parsa Hosseini, “Diagnosis of Autism in Children using Facial Analysis and Deep Learning” arXiv preprint arXiv:2008.02890, 2020 Andrew G Howard., Menglong Zhu, Bo Chen, Dmitry Kalenichenko, Weijun Wang, Tobias Weyand, Marco Andreetto, Hartwig Adam “Mobilenets: Efficient convolutional neural networks for mobile vision applications” arXiv preprint arXiv:1704.04861, 2017 Amjad Rehman, Naveed Abbas, Tanzila Saba, Syed Ijaz ur Rahman, Zahid Mehmood, HoshangKolivand “Classification of acute lymphoblastic leukemia using deep learning" Microscopy Research and Technique, cil 81, isuue 11, pp 1310-1317, 2018 A.Z Peixinho, S.B Martins, J.E Vargas and A.X Falc ã o, J.F Gomes, C.T.N Suzuki, “Diagnosis of Human Intestinal Parasites by Deep Learning” In: Computational Vision and Medical Image Processing V: Proceedings of the 5th Eccomas Thematic Conference on Computational Vision and Medical Image Processing (VipIMAGE 2015, Tenerife, Spain, pp 107, 2015 Jae-Hong Leea, Do-Hyung Kima, Seong-Nyum Jeonga, Seong-Ho Choib, “Detection and diagnosis of dental caries using a deep learning-based convolutional neural network algorithm” Journal of dentistry, vol 77, pp 106-111, 2018 Duy Nguyen Ngoc, Tuoi Phan Thi and Phuc Do, “Preprocessing Improves CNN and LSTM in Aspect-Based Sentiment Analysis for Vietnamese” In Proceedings of Fifth International Congress on Information and Communication Technology ICICT 2020 Springer, Singapore, pp 175-185, 2020 Duy Nguyen Ngoc, Tuoi Phan Thi and Phuc Do, “A Data Preprocessing Method to Classify and Summarize AspectBased Opinions using Deep Learning”, Asian Conference on Intelligent Information and Database Systems Springer, Cham, pp 115-127, 2019 Huỳnh Trung Tru, Nguyễn Ngọc Duy,”Khai phá thông tin mô tả bệnh tiếng việt để chẩn đoán số bệnh phương pháp học sâu”, National Conference on Electronics, Communications and Information Technology - REV-ECIT, p p 261-266, 2021 ... pháp khai phá thông tin mô tả bệnh tiếng Việt để chẩn đoán số bệnh phương pháp học sâu Phương pháp báo đề xuất dựa kỹ thuật xử lý ngôn ngữ tự nhiên tiếng Việt, chưa ý khai thác yếu tố tần suất triệu. .. dựa ý kiến hình ảnh Khả hiểu liệu giải thuật học sâu lĩnh vực tốt Độ xác tốt mà Adnan Muhammad Shah với cộng thu lên đến 97.75% Với tiếng Việt, giải thuật học sâu lĩnh vực xử lý ngôn ngữ tự nhiên... pháp học thể ưu rõ rật với liệu thử nghiệm báo Sự kết hợp CNN LSTM, CNN Bi-LSTM, tạo cải thiện phần hiệu năng, so với thực thi riêng giải thuật Trong đó, giải thuật LSTM thể không tốt giải thuật