Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 20 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
20
Dung lượng
1,18 MB
Nội dung
ĐẠI HỌC ĐÀ NẴNG TRƯỜNG ĐẠI HỌC KINH TẾ ––––––––––––––––––––––––––––––– BÁO CÁO TĨM TẮT ĐỀ TÀI KHOA HỌC VÀ CƠNG NGHỆ CẤP ĐẠI HỌC ĐÀ NẴNG ho D cD ỨNG DỤNG DEEP LEARNING ĐỂ DỰ ĐOÁN an aN BỆNH UNG THƯ GAN Mã số: B2019-DN04-26 g Chủ nhiệm đề tài: TS Phan Đình Vấn Đà Nẵng, 6/2021 g an aN cD ho D DANH SÁCH NHỮNG THÀNH VIÊN THAM GIA NGHIÊN CỨU TT Họ tên Đơn vị công tác Nhiệm vụ Khoa Thống kê - Tin học, TS Phan Đình Vấn Trường Đại họcKinh tế, Chủ nhiệm ĐHĐN Khoa Thương mại điện tử, ThS Nguyễn Văn Chức Trường Đại học Kinh tế, Thành viên ĐHĐN Khoa Thống kê – Tin học, ThS Phan Thị Bích Vân Trường Đại học Kinh tế, Thư ký ĐHĐN g an aN cD ho D i MỤC LỤC MỤC LỤC ii DANH MỤC HÌNH ẢNH iii DANH MỤC BẢNG BIỂU iii DANH MỤC CÁC TỪ VIẾT TẮT iii LỜI MỞ ĐẦU .1 CHƯƠNG TỔNG QUAN VỀ BỆNH VIÊM GAN SIÊU VI VÀ UNG THƯ GAN 1.1 Bệnh viêm gan siêu vi bệnh ung thư gan 1.1.1 Bệnh viêm gan siêu vi bệnh ung thư gan 1.1.2 Bệnh ung thư gan D 1.2 Các phương pháp chẩn đoán bệnh viêm gan siêu vi bệnh ung thư gan 1.3 Tình hình mắc bệnh viêm gan siêu vi ung thư gan giới Việt Nam CHƯƠNG CƠ SỞ LÝ THUYẾT VỀ TRÍ TUỆ NHÂN TẠO, MACHINE LEARNING VÀ DEEP LEARNING 2.1 Trí tuệ nhân tạo (Artificial Intelligent - AI) 2.2 Machine learning, Deep learning g an aN cD ho 2.3 Deep learning (DL) 2.3.1 Hàm kích hoạt 2.3.2 Hàm mát 2.3.3 Đánh giá mơ hình dự đốn 2.4 Các cơng cụ hỗ trợ xây dựng mơ hình CHƯƠNG TRIỂN KHAI XÂY DỰNG MƠ HÌNH DEEP LEARNING ĐỂ DỰ ĐOÁN BỆNH UNG THƯ 3.1 Phân tích mơ tả liệu 3.2 Tiền xử lý liệu 3.3 Chuyển đổi liệu để áp dụng cho RNN, LSTM, GRU 3.4 Chuyển đổi liệu sang ma trận để áp dụng cho mạng CNN CHƯƠNG KẾT QUẢ CỦA CÁC MƠ HÌNH DỰ ĐỐN BỆNH UNG THƯ GAN 10 4.1 Mơ hình RNN 10 4.2 Mơ hình LSTM .10 4.3 Mơ hình GRU 10 4.4 Mơ hình CNN 10 4.5 Kết dự đốn mơ hình đề xuất 10 4.6 Đánh giá kết 11 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 12 ii DANH MỤC HÌNH ẢNH Hình 2.1 Artificial Intelligence, Machine Learning, and Deep Learning Hình 2.2 Mạng Neural nhiều lớp Hình 2.3 Hàm kích hoạt Hình 3.1 Tiền xử lý liệu DANH MỤC BẢNG BIỂU Bảng 2.1 Ma trận so sánh kết dự đoán thực tế Bảng 3.1 Số lượng người nhiễm viêm gan siêu vi Đài Loan giai đoạn 2002–2010 Bảng 3.2 Đoàn hệ viêm gan siêu vi ung thư gan giai đoạn 2002−2010 Bảng 3.3 Phân phối lần-bệnh đoàn hệ nhiễm viêm gan siêu vi giai đoạn 2002 – 2010 Bảng 3.4 Ví dụ lịch sử bệnh D Bảng 3.5 Chuyển lịch sử bệnh sang chuỗi gán nhãn ho Bảng 4.1 Kết mơ hình dự đoán 11 DANH MỤC CÁC TỪ VIẾT TẮT : False Positive : Graphic Processing Unit : Gated Recurrent Unit HAV HBV HCV HDV : Hepatitis A Virus : Hepatitis B Virus : Hepatitis C Virus : Hepatitis D Virus HEV ICD : Hepatitis E Virus : International Classification of Diseases g FP GPU GRU LSTM : Long Short-Term Memory MCC : Matthew’s Correlation Coefficienct ML : Machine Learning NHI : National Health Insurance NHIRD : National Health Insurance Research Database NHRI : National Health Research Institute an : Artificial Intelligence : Area Under Curve : Convolution Neural Network : Central Processing Unit : Confidence Interval : Deep Learning : False Negative aN cD AI AUC CNN CPU CI DL FN RNN SVM TN : Recurrent Neural Network : Support Vector Machine : True Negative TP TPU WHO : True Positive : Tensor Processing Unit : World Health Organization iii LỜI MỞ ĐẦU Tính cấp thiết đề tài Hiện chịu ảnh hưởng lớn ô nhiễm môi trường ngày trầm trọng Như ô nhiễm từ nhà máy công nghiệp, từ phương tiện giao thơng, từ biến đổi khí hậu toàn cầu; ảnh hưởng từ vệ sinh an toàn thực phẩm… Do đó, nhiều vấn đề sức khỏe, bệnh tật ngày trở nên trầm trọng Trong số đó, khơng thể khơng nhắc đến bệnh ung thư mà người phải đối mặt Mối nguy hại bệnh ung thư lớn biết, phải lo lắng Tuy nhiên, việc chẩn đoán phát sớm bệnh ung thư gặp nhiều khó khăn lý kỹ thuật ý thức người dân Đa số trường hợp chẩn đoán bệnh trở nên trầm trọng giai đoạn cuối nên khó điều trị khơng thể chữa trị Vì vậy, việt tìm phương pháp chẩn đốn, hỗ trợ chẩn đoán hay dự đoán bệnh ung thư sớm vấn đề cấp thiết Việt Nam mà giới, đặc biệt cho đối tượng có nguy ung thư cao Tình hình nghiên cứu đề tài aN cD ho D Theo Tổ chức Y tế giới (WHO), năm 2018, Việt Nam xếp vị trí 99/185 quốc gia vùng lãnh thổ với tỉ lệ mắc ung thư (151,4 / 100.000 dân), xếp thứ 19 châu Á thứ khu vực Đông Nam Á Trong năm 2015, Việt Nam xếp vị trí 107 thời điểm 2013 xếp vị trí 108 Trong năm gần đây, đề cập đến kỷ nguyên cách mạng công nghiệp lần thứ tư với quy trình sản xuất thơng minh, nhiều công nghệ thông minh lĩnh vực khoa học liệu lớn, IOT (Internet-of-Thing), trí tuệ nhân tạo ứng dụng công nghệ cao chăm sóc sức khỏe Mục tiêu nghiên cứu đề tài g an Đề tài nghiên cứu mơ hình mạng neural nhiều lớp (deep learning - DL) mạng neural hồi quy (Recurrent Neural Network – RNN), Long Short-Term Memory (LSTM), Gated Recurrent Unit (GRU), Mạng neural tích chập (Convolution Neural Network – CNN) - Xây dựng mơ hình dự đốn bệnh ung thư gan dựa ngôn ngữ Python kết hợp với Keras Tensorflow Nhiệm vụ đề tài - Nghiên cứu sở liệu bảo hiểm Y tế Đài Loan; - Nghiên cứu mơ hình deep learning; - Xây dựng dựng mơ hình dự báo dựa liệu Y tế deep learning Phương pháp nghiên cứu - Đề tài thực nghiên cứu theo hướng khai thác liệu ứng dụng công nghệ qua bước cụ thể sau: - Nghiên cứu sở liệu bảo hiểm Y tế Đài Loan; Nghiên cứu mơ hình deep learning; Xử lý chuyển đổi liệu để áp dụng deep learning; Xây dựng mô hình dự báo bệnh ung thư gan CHƯƠNG TỔNG QUAN VỀ BỆNH VIÊM GAN SIÊU VI VÀ UNG THƯ GAN 1.1 Bệnh viêm gan siêu vi bệnh ung thư gan 1.1.1 Bệnh viêm gan siêu vi bệnh ung thư gan Theo tổ chức Y tế giới, viêm gan siêu vi (hepatitis) tình trạng viêm gan ảnh hưởng đến sức khỏe gây tử vong Đây bệnh truyền nhiễm virus gây Viêm gan siêu vi có năm loại loại A (HAV), B (HBV), C (HCV), D (HDV) E (HEV) Đây nguyên nhân phổ biến bệnh xơ gan, ung thư gan tử vong liên quan đến virus Một nghiên cứu tổ chức Y tế giới rằng, ước tính có khoảng 325 triệu người giới bị bệnh viêm gan B và/hoặc C Khoảng 4,5 triệu người bị chết sớm nước thu nhập thấp trung bình đến năm 2030 Mà đáng họ cịn sống thơng qua chiến dịch tiêm phịng, xét nghiệm chẩn đốn, thuốc giáo dục 1.1.2 Bệnh ung thư gan g an aN cD ho D Ung thư bệnh mà tế bào thể phát triển ngồi tầm kiểm sốt Khi bệnh xảy gan gọi ung thư gan Gan quan lớn thể người, có chức lưu trữ chất dinh dưỡng, lọc máu, đào thải độc tố, sản xuất mật giúp tiêu hóa thức ăn Khi gan bị tổn thương ảnh hưởng đến khả lọc máu, thải độc, gây tích tụ độc tố, giảm sức đề kháng thể Từ đó, dẫn đến ảnh hưởng hoạt động bình thường thể, chí nguy ảnh hưởng đến tính mạng Nguyên nhân dẫn đến ung thư gan từ xơ gan sử dụng rượu bia, gan nhiễm mỡ; sử dụng loại thực phẩm bị mốc lạc, đỗ có chứa chất Aflatoxin, Aspergillus; đặc biệt chủ yếu nhiễm HBV HCV Ngồi ra, cịn có yếu tố nguy khác giới tính, di truyền, ô nhiễm môi trường Người bị ung thư gan thường khơng có triệu chứng rõ ràng bệnh đến giai đoạn tiến triển có triệu chứng vàng da, vàng mắt; đau bụng, đau vùng xương bả vai, vùng lưng; sụt cân không rõ nguyên nhân; gan to, lách to; mệt mỏi; cảm giác mau no, ăn không ngon 1.2 Các phương pháp chẩn đoán bệnh viêm gan siêu vi bệnh ung thư gan Triệu chứng viêm gan siêu vi thể mệt mỏi, buồn nôn, đau bụng, tiểu đậm màu, vàng da Tuy nhiên, người bệnh HBV, HCV mạn tính thường khơng có triệu chứng biểu triệu chứng nhẹ; bệnh nhân thường không bị vàng da gan bị tổn thương Bệnh viêm gan siêu vi chẩn đốn dựa triệu chứng thực xét nghiệm máu (men gan, kháng thể virus, protein) Xét nghiệm men gan (aminotransferase) hình thức phổ biến, bao gồm aspartate aminotransferase (AST SGOT) alanine aminotransferase (ALT SGPT) Ung thư gan tiến triển qua bốn giai đoạn, nên bệnh nhân chẩn đốn sớm có nhiều khả chữa trị có hội sống sót cao Việc chẩn đốn thơng qua thăm hỏi tiền sử bệnh lý, khám thực thể Nếu bệnh nhân bị nghi ngờ ung thư gan yêu cầu xét nghiệm thêm 1.3 Tình hình mắc bệnh viêm gan siêu vi ung thư gan giới Việt Nam Một nghiên cứu tổ chức Y tế giới rằng, ước tính có khoảng 500 triệu người giới bị bệnh viêm gan B và/hoặc C Virus dẫn đến chết cho khoảng 1,5 triệu người năm Khoảng 4,5 triệu người bị chết sớm nước thu nhập thấp trung bình đến năm 2030 Mà đáng họ cịn sống thơng qua chiến dịch tiêm phịng, xét nghiệm chẩn đoán, thuốc giáo dục Cũng theo tổ chức Y tế giới, Việt Nam, có 7,8 triệu người sống chung với viêm gan B gần triệu người mắc viêm gan C Mỗi năm Viêm gan C gây gần 80.000 bệnh nhân bị ung thư gan 40.000 ca tử vong Hiện nhiều người bị viêm gan bệnh nhân khơng biết bị nhiễm bệnh Chỉ có khoảng 10% số người mắc viêm gan B C chẩn đoán 30% người chẩn đoán điều trị Nguồn liệu Chương trình bảo hiểm y tế quốc gia Đài Loan ngày 01 tháng năm 1995 Đến năm 2014, có 99,9% người dân tham gia Người nước đủ điều kiện phải tham gia chương trình bảo hiểm Cơ sở liệu bảo hiểm y tế bao gồm liệu đăng ký liệu quyền lợi chi trả ban đầu Cơ sở liệu lớn Cục bảo hiểm Y tế Quốc gia, Bộ Y tế phúc lợi Đài Loan quản lý cung cấp cho nhà khoa học Đài Loan với mục đích nghiên cứu Mỗi năm, Cục Bảo hiểm Y tế Quốc gia thu thập liệu từ chương trình bảo hiểm y tế quốc gia, thay đổi lại mã nhận dạng cho tất bệnh nhân sở y tế gửi đến Viện nghiên cứu Y tế Quốc gia ho D Trong nghiên cứu này, sử dụng phần liệu Bảo hiểm Y tế Quốc gia Đài Loan để huấn luyện mơ hình dự đốn bệnh ung thư gan đồn hệ bệnh nhân nhiễm virus viêm gan siêu vi (hepatitis cohort) Dữ liệu theo chiều dọc (Longitudinal), bao gồm triệu người lấy mẫu ngẫu nhiên từ 27,38 triệu người năm 2010 Dữ liệu thực hồi cứu giai đoạn 2000-2010 CHƯƠNG CƠ SỞ LÝ THUYẾT VỀ TRÍ TUỆ NHÂN TẠO, MACHINE cD LEARNING VÀ DEEP LEARNING g an aN 2.1 Trí tuệ nhân tạo (Artificial Intelligent - AI) Trí tuệ nhân tạo giới thiệu vào năm 1950, nhà khoa học đặt câu hỏi liệu máy tính “nghĩ” người khơng Hiện nay, có nhiều định nghĩa trí tuệ nhân tạo Ở đây, chúng tơi dùng định nghĩa ngắn gọn lĩnh vực là: “Trí tuệ nhân tạo nỗ lực để tự động hóa nhiệm vụ trí tuệ mà thường thực người” Trí tuệ nhân tạo lĩnh vực chung bao gồm machine learning deep learning Mặc dù đời từ sớm phải đến năm gần đây, AI ứng dụng rộng rãi vào hầu hết lĩnh vực đời sống khoa học kỹ thuật AI thực bùng nổ kể từ năm 2015 công nghệ xử lý liệu song song card đồ họa (Graphics Processing Unit – GPU) phát triển mạng mạnh Hình 2.1 Artificial Intelligence, Machine Learning, and Deep Learning 2.2 Machine learning, Deep learning Machine learning (ML) lĩnh vực nghiên cứu thuật tốn máy tính mà tự động cải tiến thông qua kinh nghiệm học từ liệu mà không cần phải lập trình cách rõ ràng ML phần lĩnh vực AI có quan hệ chặt chẽ với lý thuyết thống kê để xây dựng mơ hình dự đốn máy tính, khai phá liệu, phân tích liệu Các thuật tốn ML phân loại thành thuật tốn học có giám sát (supervised learning), học có giám sát phần (semi-supervised learning), học khơng có giám sát (unsupervised learning) học tăng cường (reinforcement learning) 2.3 Deep learning (DL) Deep learning (DL) lĩnh vực ML, có nhiều tài liệu dịch học sâu Tuy nhiên, từ học sâu rõ ý nghĩa DL, nên nghiên cứu này, tác giả sử dụng từ nguyên gốc tiếng anh deep learning ho D g an aN cD Hình 2.2 Mạng Neural nhiều lớp Cũng ML, DL giải tốn học có giáp sát, khơng giám sát, giám sát phần học tăng cường DL có nhiều loại mạng mạng hồi quy (Recurrent Neural Networks), mạng tích chập (Convolution Neural Networks)… DL vượt qua nhiều thuật tốn thơng thường với độ xác cao cho hầu hết loại liệu, giúp nhà khoa học liệu tiết kiệm khơng cơng sức chi phí 2.3.1 Hàm kích hoạt Các hàm kích hoạt (Activation function) quan trọng mạng neural, nhờ vào hàm kích hoạt mà mạng neural học dược mối quan hệ phức tạo liệu Hàm kích hoạt định giữ lại hay bỏ qua thông tin đầu vào, chuyển đổi thành thông tin đầu gửi đến lớp neural lớp mạng neural Y = Activation function ((weight * input) + bias) b Weighted sum x1 W1 x2 s Activation function Wm Hình 2.3 Hàm kích hoạt Nếu mạng neural khơng sử dụng hàm kích hoạt trở thành mạng biến đổi tuyến tính, khó trích xuất hay lưu giữ đặc trưng, mối quan hệ quan trọng liệu để tạo mơ hình tốt sử dụng để khai thác đặc trưng nguồn khác Một số hàm kích hoạt phổ biến Sigmoid, Tanh, ReLu (Rectified Linear unit), Softmax … 2.3.2 Hàm mát Hàm mát (loss function) hàm số vô hướng quan trọng sử dụng để đánh giá mơ hình Giá trị hàm mát giá trị không âm, thể sai khác kết dự đốn mơ hình với giá trị thực tế Hàm mát có giá trị nhỏ tốt, tức mơ hình dự đốn với thực tế, thể hiệu mơ hình Hàm mát thường tính dựa trung bình bình phương sai số (mean square error), trung bình bình phương logarit sai số (mean square logarithmic error), trung bình sai số tuyệt đối (mean absolute error), trung bình tuyệt đối phần trăm sai số… ℒ(𝜃) = 𝑛 ∑𝑛𝑖=1 𝐿(𝑦 (𝑖) , 𝑓(𝑥 (𝑖) , 𝜃)) (2.1) f(x): hàm kích hoạt : tham số mơ hình (𝑖) (𝑖) (𝑖) 𝑥 (𝑖) = 𝑥1 , 𝑥2 , … , 𝑥𝑚 ∈ 𝑅 𝑚 : liệu huấn luyện ho D 2.3.3 Đánh giá mơ hình dự đốn Các mơ Machine learning deep learning thường đánh giá thông qua ma trận so sánh kết dự đoán thực tế (confusion matrix) Ma trận bao gồm: giá trị dự đốn dương tính thật (True Positive), dương tính giả (False positive), âm tính thật (True negative), âm tính giả (False negative) (Bảng 2.1) Bảng 2.1 Ma trận so sánh kết dự đốn thực tế cD Dương tính (Positive) Dương tính (Positive) Âm tính (Negative) Dương tính thật (True Positive - TP) Dương tính giả (False Negative - FN) Âm tính giả (False Positive - FP) Âm tính thật (True Negative - TN) aN Thực tế Dự đoán g an Âm tính (Negative) Ngồi ra, từ bốn số trên, thực tính tốn số khác dùng để đánh giá mơ hình hiệu Như độ xác (Accuracy), độ nhạy (Sensitivity), độ đặc hiệu (Specifility), số F1-score, số MCC (Matthew’s correlation coefficient), số AUC (Area Under the Curve): TP Sensitivity = TP+FN TN Specificity = TN+FP Accuracy = MCC = TP+TN TP+FP+TN+FN TP×TN−FP×FN √(𝑇𝑃+𝐹𝑃)(𝑇𝑃+𝐹𝑁)(𝑇𝑁+𝐹𝑁)(𝑇𝑁+𝐹𝑁) Precision = TP TP+FP (2.2) (2.3) (2.4) (2.5) (2.6) 2.4 Các công cụ hỗ trợ xây dựng mơ hình Hiện này, có nhiều cơng cụ phần cứng phần mềm để xây dựng phát triển mơ hình deep learning Như, xây dựng mơ hình dựa xử lý CPU, GPU, Tensor Processing Unit (TPU), hay Theano, Tensorflow… Tuy nhiên, sử dụng CPU để xây dựng mơ hình nhiều thời gian để huấn luyện mơ hình liệu đầu vào lớn Trong nghiên cứu này, chúng tơi xây dựng mơ hình dựa ngôn ngữ Python 3.7 (mã nguồn mở), Anaconda 1.9.7, TensorFlow 2.1.0, Keras 2.3.1 GPU: NVIDIA GeForce RTX 2080 Ti, CPU: Intel(R) Core i99900K Ngoài ra, nghiên cứu dụng thư viện hỗ trợ khác Scikit-learn 0.21.3, Matplotlib 3.2.2 TensorFlow tảng mã nguồn mở đầu cuối “end-to-end” dùng cho machine learning Nó bao gồm hệ sinh thái linh hoạt, tồn diện cơng cụ, thư viện nguồn lực cộng đồng; cho phép nhà nghiên cứu phát triển ứng dụng DL đại TensorFlow chạy CPU, GPU, TPU tảng Hệ điều hành Linux, Mac, Windows Keras thư viện lập trình ứng dụng cấp cao (Application Programming Interface – API) Nó hỗ trợ cho việc phát triển mơ hình deep learning nhanh chóng dễ dàng Keras chạy TensorFlow, Theano, Microsoft Cognitive Toolkit (CNTK) Keras hỗ trợ xây dựng mơ hình dựa CNN RNN, kết hợp hai loại mạng Nó chạy tốt GPU CPU CHƯƠNG TRIỂN KHAI XÂY DỰNG MƠ HÌNH DEEP LEARNING ĐỂ DỰ ĐỐN BỆNH UNG THƯ g an aN cD ho D 3.1 Phân tích mô tả liệu Nghiên cứu sử dụng liệu triệu bệnh nhân lấy mẫu ngẫu nhiên năm 2010 liệu Bảo hiểm Y tế Quốc gia Đài Loan Một triệu bệnh nhân truy xuất hồi cứu giai đoạn 2000 – 2010 Trước tiên nghiên cứu đánh giá tình hình nhiễm viêm gan siêu vi Đài Loan cách xác định số người nhiễm viêm gan siêu vi qua năm 20022010 tính tỷ lệ nhiễm viêm gan siêu vi (1/10.000) Đồng thời áp dụng số thay đổi phần trăm trung bình hàng năm (AAPC: Average Annual percentage change) phần mềm Joinpoint Regression Program version 4.7.0.0 tính độ tin 95% (95% CI) dựa mơ hình điểm chuyển tiếp log-linear Các phân tích mơ tả, kết phân tích đánh giá ý nghĩa lâm sàn bác sỹ bệnh viện Viễn Đông (Far Eastern Memorial), Đài Loan (Trung Quốc) Nghiên cứu hồi cứu triệu bệnh nhân lấy mẫu ngẫu nhiên năm 2010 cho thấy số ca viêm gan siêu vi Đài Loan tăng đáng kể từ 10.418 năm 2002 đến 18.918 năm 2010, với AAPC 7,6% (95% CI 6.1 – 9.1) Phân tích theo giới tính nhóm tuổi bệnh nhân viêm gan siêu vi cho thấy tỷ lệ bệnh nhân nam cao so với bệnh nhân nữ (khoảng 56% so với khoảng 43%) Số lượng bệnh nhân nam nữ hàng năm tăng đáng kể với AAPC 7,5% (95% CI: 6.0 – 9.1), nữ 7,6% (95% CI: 6.2 – 9.0) Kết phân tích cho thấy khác biệt số lượng bệnh nhân hàng năm nhóm tuổi, với tỷ lệ bệnh nhân nhóm trẻ (