Ứng dụng mô hình học máy trong dự đoán đáp ứng thuốc

60 13 0
Ứng dụng mô hình học máy trong dự đoán đáp ứng thuốc

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI LUẬN VĂN THẠC SĨ Ứng dụng mơ hình học máy dự đốn đáp ứng thuốc NGUYỄN XUÂN TÙNG tungxbk@gmail.com Ngành Công nghệ thông tin Giảng viên hướng dẫn: TS Ban Hà Bằng Viện: Công nghệ thông tin Truyền thông HÀ NỘI, 04/2021 Chữ ký GVHD CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM Độc lập – Tự – Hạnh phúc BẢN XÁC NHẬN CHỈNH SỬA LUẬN VĂN THẠC SĨ Họ tên tác giả luận văn: Nguyễn Xuân Tùng Đề tài luận văn: Ứng dụng mơ hình học máy dự đốn đáp ứng thuốc Chun ngành: Cơng nghệ thông tin Mã số SV: CA180146 Tác giả, Người hướng dẫn khoa học Hội đồng chấm luận văn xác nhận tác giả sửa chữa, bổ sung luận văn theo biên họp Hội đồng ngày 28/04/2021 với nội dung sau: Sửa lỗi soạn thảo Giải thích hình ảnh đưa vào luận văn Bổ sung giải thích lý lựa chọn tham số thử nghiệm Ngày 22 tháng 05 năm 2021 Giáo viên hướng dẫn Tác giả luận văn CHỦ TỊCH HỘI ĐỒNG Lời cảm ơn Để hoàn thành luận văn thạc sĩ này, xin bày tỏ cảm kích đặc biệt tới thầy giáo hướng dẫn tôi, Tiến sĩ Ban Hà Bằng - Người cho hội làm đề tài hướng dẫn suốt thời gian thực đề tài nghiên cứu khoa học Xin chân thành cảm ơn lời khuyên định hướng thầy giúp cho mở mang thêm nhiều kiến thức hữu ích thuật tốn phân loại phương pháp tiên tiến Một lần nữa, xin gửi lời cảm ơn đến thầy tất lịng biết ơn Tơi xin gửi lời cảm ơn chân thành đến chị Nguyễn Thị Thu Giang – Trung tâm mạng trường Đại học Bách Khoa Hà Nội truyền đạt cho kiến thức tin sinh học, kỹ mềm cho nhà nghiên cứu hội thảo thực hay ý nghĩa Sau cùng, tơi xin tỏ lịng biết ơn đến cha mẹ, người thân bạn bè bên cạnh ủng hộ, động viên sống thời gian hoàn thành luận văn thạc sĩ Xin chân thành cảm ơn tất người! Tóm tắt nội dung luận văn Đề tài: Ứng dụng mơ hình học máy dự đốn đáp ứng thuốc Tác giả luận văn: Nguyễn Xuân Tùng Khóa: 2018A Người hướng dẫn: TS Ban Hà Bằng Từ khóa (Keyword): Tin sinh học, machine learning, deep learning Nội dung tóm tắt: a) Lý chọn đề tài Hiện nay, mục tiêu quan trọng y học cá nhân hóa cung cấp phương pháp điều trị phù hợp cho bệnh nhân dựa đặc điểm sinh học họ Có số dự án lớn giới triển khai GDSC, CCLE tạo lượng lớn liệu sinh học người bệnh (omics data) liệu đáp ứng thuốc (drug response) cho dòng tế bào (cell lines – mang tất đặc tính sinh học bệnh nhân) Các dự án cung cấp nguồn liệu phong phú hữu ích liệu sinh học biểu gene (gene expression,) liệu đột biến gene (mutation), liệu độ đáp ứng thuốc với dòng tế bào bệnh khác nhau…, tạo điều kiện thuận lợi cho nghiên cứu tiền lâm sàng đến thử nghiệm lâm sàng người Tuy nhiên nguồn liệu chưa đầy đủ cịn lượng lớn loại thuốc dòng tế bào chưa tính tốn, thử nghiệm Ngồi ra, đa dạng, phức tạp, không đồng yếu tố gây bệnh, người bệnh khác nhau, hay chế sinh học gen, bệnh, thuốc cặp quan hệ ngày trở nên phong phú tạo nên thách thức khơng nhỏ cho việc tính tốn dự đốn liệu lâm sàng Bên cạnh đó, phát triển nhanh chóng cơng nghệ thơng tin phương pháp tính tốn, xử lý liệu lớn gần tạo điều kiện thúc đẩy việc phát triển phương pháp dự đoán đáp ứng thuốc nhằm hỗ trợ bác sĩ có thêm thơng tin q trình điều trị Để nâng cao hiểu biết ứng dụng phương pháp tính tốn khoa học máy tính vào lĩnh vực dự đốn đáp ứng thuốc Tôi định thực đề tài Ứng dụng mơ hình học máy dự đốn đáp ứng thuốc cho luận văn b) Mục đích, đối tượng, phạm vi nghiên cứu - Nghiên cứu liệu y sinh học liên quan đến đáp ứng thuốc - Nghiên cứu phương pháp tính tốn dự đốn đáp ứng thuốc - Áp dụng số mơ hình tính tốn cho tốn dự đốn đáp ứng thuốc c) Phương pháp nghiên cứu - Nghiên cứu lý thuyết: o Nghiên cứu, phân tích liệu y sinh học liên quan đến đáp ứng thuốc dòng tế bào o Nghiên cứu tài liệu liên quan đến học máy, học có giám sát, phân lớp liệu, rừng ngẫu nhiên, máy vector hỗ trợ; phương pháp học sâu - Nghiên cứu thực nghiệm: o Lựa chọn tập liệu thực nghiệm o Ứng dụng kỹ thuật học máy: Random forest, Support Vector Machine, Deep Learning… liệu thực nghiệm, thực so sánh hiệu phương pháp d) Bố cục luận văn Luận văn gồm chương chính: Chương 1: Trình bày tổng quan sở lý thuyết học máy việc ứng dụng học máy dự đoán đáp ứng thuốc Chương 2: Mơ tả tốn trình bày phương pháp giải toán Chương 3: Cài đặt thử nghiệm đánh giá Kết luận hướng phát triển HỌC VIÊN Ký ghi rõ họ tên MỤC LỤC CHƯƠNG TỔNG QUAN CƠ SỞ LÝ THUYẾT 1.1 1.2 1.2 Tổng quan phương pháp học máy 1.1.1 Học máy gì? 1.1.2 Phân loại toán học máy 1.1.3 Một số mơ hình học máy Học sâu (Deep learning) gì? 1.2.1 Mạng nơ-ron nhân tạo (ANN) 1.2.2 Mạng nơ ron tích chập (CNN) 12 Tổng quan liệu sinh học – omics data đáp ứng thuốc dòng tế bào 16 1.2.1 Dữ liệu omics 16 1.2.2 Định nghĩa đáp ứng thuốc 19 1.2.3 Nguồn liệu sinh học đáp ứng thuốc 21 CHƯƠNG BÀI TOÁN DỰ ĐOÁN ĐÁP ỨNG THUỐC VÀ CÁC PHƯƠNG PHÁP TRÊN HỌC MÁY 23 2.1 Giới thiệu toán dự đoán đáp ứng thuốc 23 2.2 Các phương pháp dự đoán đáp ứng thuốc 24 2.3 Các phương pháp đánh giá mơ hình dự đốn 27 2.4 2.3.1 k-fold Cross-validation 27 2.3.2 LOO-CV 28 2.3.3 Các phép tính tốn hiệu 28 Lựa chọn đề xuất mơ hình cho tốn dự đoán đáp ứng thuốc 29 CHƯƠNG CÀI ĐẶT THỬ NGHIỆM VÀ ĐÁNH GIÁ 30 3.1 3.2 Xây dựng chuẩn hóa liệu 30 3.1.1 Tập hợp liệu 30 3.1.2 Tiền xử lý liệu 32 Xây dựng mơ hình dự đoán dựa phương pháp đề xuất 32 3.2.1 3.3 Mơ hình huấn luyện 32 Kiểm thử kết 39 KẾT LUẬN 42 Kết luận 42 1.1 Các kết đạt 42 1.2 Hạn chế 42 Hướng phát triển 43 TÀI LIỆU THAM KHẢO 44 DANH MỤC HÌNH VẼ Hình 1.1 Phương pháp phân loại SVM Hình 1.2 Phương pháp hồi quy SVR Hình 1.3 Cấu trúc mơ hình Random Forest Hình 1.4 Mạng nơ-ron sinh học Hình 1.5 Kiến trúc mạng nơ-ron nhân tạo Hình 1.6 Mạng nơ-ron đầy đủ Hình 1.7 Mạng nơ-ron cục Hình 1.8 Mạng nơ-ron lan truyền thẳng 10 Hình 1.9 Mạng nơ-ron lan truyền ngược 10 Hình 1.10 Đồ thị hàm sigmoid 11 Hình 1.11 Đồ thị hàm ReLU 12 Hình 1.12 Kiến trúc mạng CNN 13 Hình 1.13 Minh họa tích chập 14 Hình 1.14 Minh họa mạng pooling 15 Hình 1.15 Minh họa đầu vào lớp liên kết đầy đủ 16 Hình 1.16 Minh họa ni cấy tế bào ung thư phịng thí nghiệm 17 Hình 1.17 Minh họa đo giá trị đáp ứng thuốc IC50 20 Hình 2.1 Các bước xây dựng mơ hình dự đốn đáp ứng thuốc 24 Hình 2.2 Xác thực chéo k-fold 27 Hình 3.1 Cấu trúc file PANCANCER_Genetic_feature.csv 31 Hình 3.2 Cấu trúc file PANCANCER_IC.csv 31 Hình 3.3 Biểu diễn thuốc 36 Hình 3.4 Biểu diễn dòng bệnh 37 Hình 3.5 Mơ hình dự đốn với mạng nơ-ron tích chập 37 Hình 3.6 Đồ thị hội tụ hàm sai số 38 Hình 3.7 Đồ thị biểu diễn hội tụ hàm pearson 39 Hình 3.8 Đồ thị độ sai số thử nghiệm mơ hình dự đốn đáp ứng thuốc 40 Hình 3.9 Đồ thị độ tương đồng mơ hình dự đốn đáp ứng thuốc 40 Độ sâu RMSE PEARSON Thời gian huấn luyện 0.062 0.295 175.627 0.060 0.388 272.021 10 0.057 0.487 432.204 20 0.052 0.605 723.063 Bảng 3.2 Kết thực nghiệm lựa chọn độ sâu Sau thay đổi độ sâu cây, nhận thấy sai số RMSE giảm độ tương đồng pearson tăng, thời gian huấn luyện tăng 1.67 lần Do đó, tơi lựa chọn độ sâu max_depth = 10 để phù hợp cho toán Sau lựa chọn độ sâu số lượng cây, thực thay đổi số lượng mẫu tối thiểu cần thiết để tách nút (min_samples_split), tham số lựa chọn gồm n_estimators = 100, max_depth = 10 Kết thể Bảng 3.3 Mẫu tối thiểu RMSE PEARSON Thời gian huấn luyện 0.5 0.057 0.489 433.001 1.0 0.065 Nan 1.225 0.057 0.487 432.204 0.057 0.491 442.086 Bảng 3.3 Kết thực nghiệm lựa chọn số lượng mẫu tối thiểu Dựa vào tham số trên, nhận thấy với số lượng mẫu tối thiểu cho kết độ tương đồng pearson cao hơn, thời gian huấn luyện tăng không đáng kể Cuối cùng, tơi thử nghiệm thay đổi số lượng thuộc tính tối đa (max_features), tham số lựa chọn gồm n_estimators = 100, max_depth = 10, min_samples_split = Kết thực nghiệm thể Bảng 3.4 34 Thuộc tính tối đa RMSE PEARSON Thời gian huấn luyện auto 0.057 0.491 442.086 log2 0.061 0.747 5.561 sqrt 0.058 0.720 15.525 Bảng 3.4 Kết thực nghiệm lựa chọn thuộc tính tối đa Nhận thấy, với số lương thuộc tính log2 đầu vào, kết pearson đạt chất lượng khác biệt, thời gian huấn luyện nhỏ nhiều so với auto Sau thử nghiệm thay đổi tham số, chọn tham số sau tham số đưa kết tốt nhất: - Số lượng rừng: 100 - Hàm tính sai số: mse - Độ sâu cây: 10 - Số lượng mẫu tối thiểu: - Hàm tính số lượng tối đa: log2 b) Máy vector hỗ trợ hồi quy (SVR) Tương tự với thuật tốn RFR, tơi xây dựng thực nghiệm sau Tôi lựa chọn tham số thay đổi phương pháp biến đổi kernel, loại hệ số biến đổi gamma Đầu tiên, sử dụng giá trị mặc định kernel rbf thực thay đổi hệ số biến đổi gamma, kết Bảng 3.5 Gamma RMSE PEARSON Thời gian huấn luyện scale 0.058 0.666 398.744 auto 0.058 0.666 406.462 Bảng 3.5 Kết thực nghiệm lựa chọn hệ số Gamma Từ Bảng 3.5, sai số RMSE độ tương đồng hàm số nhau, thời gian huấn luyện sử dụng Gamma scale lại nhanh hơn, 35 nhiên, chưa có thay đổi đáng kể Tiếp theo, lựa chọn phương pháp biến đổi kernel Tôi cố định Gamma scale thay đổi phương pháp biến đổi kernel Kết trình bày Bảng 3.6 Kernel RMSE PEARSON Thời gian huấn luyện linear 0.048 0.732 215.430 poly 0.060 0.696 649.063 rbf 0.058 0.666 398.744 sigmoid 0.054 0.0285 3408.236 Bảng 3.6 Kết thực nghiệm lựa chọn Kernel Từ kết trên, nhận thấy khác biệt hàm biến đổi linear Đặc biệt, hàm linear khơng có tham số Do đó, tơi lựa chọn hàm biến đổi linear làm hàm biến đổi phạm vi luận văn c) Mơ hình dự đốn với mạng nơ-ron tích chập (CNN) Tơi thử nghiệm với hai mơ hình học máy trên, dựa vào kết tìm được, tơi thực lựa chọn tham số tốt để đưa vào huấn luyện với liệu đầy đủ Tiếp sau đây, tơi trình bày mơ hình mạng tích chập để dự đoán độ đáp ứng thuốc bệnh Vẫn hai mơ hình trước, tơi sử sử dụng ma trận one-hot gồm 223 phần tử để biểu diễn định danh thuốc (Hình 3.3) Hình 3.3 Biểu diễn thuốc Bên cạnh đó, tơi sử dụng ma trận one-hot gồm 735 phần tử để biểu diễn thuộc tính dịng bệnh (Hình 3.4) Mỗi ô ma trận tương đương với loại đột biến Nếu dòng tế bào chứa loại đột biến vị trí 1, vị trí cịn lại 36 Hình 3.4 Biểu diễn dịng bệnh Sau mã hóa đầu vào, thực xây dụng kiến trúc mạng sau: - Đối với thuốc, sử dụng mạng nơ-ron sử dụng hàm kích hoạt Linear ReLU để mã hóa đầu vào thuốc - Đối với dịng tế bào, tơi sử dụng mạng nơ-ron tích chập chiều để trích chọn đặc trưng - Và sử dụng mạng nơ-ron hồi quy để đủ tổng hợp kết hai phần Hình 3.5 Mơ hình dự đốn với mạng nơ-ron tích chập Sau xây dựng xong kiến trúc mạng, thực chạy training máy server có cấu sau: - OS: ubuntu 18.04 - RAM: 32G - CPU: Intel® Xeon® Platinum 8380HL - VGA: NVIDIA GTX 2080 Ti – 11G - FRAMEWORK: PyTorch - Batch size: 256 37 Sau trình huấn luyện, tơi thực thay đổi tham số đầu vào tỉ lệ học, số lượng vòng lặp, có kết Bảng 3.7 sau: Tham số RMSE PEASON Thời gian 30_0.0001 0.0006 0.926 397.837 30_0.01 0.2070 Nan 398.679 300_0.0001 0.0006 0.928 4007.383 400_0.0001 0.0006 0.929 5190.119 300_0.000001 0.0010 0.882 3907.383 Bảng 3.7 Kết thực nghiệm tham số Từ kết quả, nhận thấy với learning rate 0.0001, số lượng vòng lặp huấn luyện 400 đưa kết tốt Tuy nhiên, dựa vào biểu đồ hội tụ, biểu đồ rằng, đến 400, đường sai số tập test (Hình 3.6) độ tương đồng (Hình 3.7) ngang dẫn đến hội tụ Hình 3.6 Đồ thị hội tụ hàm sai số Từ đồ thị, nhận thấy giá trị sai số giảm dần cách ổn định hội tụ sau 400 vịng huấn luyện 38 Ngồi ra, tơi có đồ thị biểu diễn trình hội tụ chương trình phương pháp pearson trình bày Hình 3.7 Đồ thị biểu diễn hội tụ hàm pearson Tương tự đồ thị hội tụ loss function, giá trị hàm hội tụ cuối, độ biến thiên đồ thị nhỏ Khác với hàm thất thoát, giá trị hàm pearson tiến tới gần độ xác cao 3.3 Kiểm thử kết Các mơ hình đề xuất tiến hành thử nghiệm cách phân chia liệu theo cặp thuốc – dòng tế bào biết thành liệu huấn luyện (training) đánh giá (validation) thử nghiệm (testing) theo tỉ lệ tương ứng 80/10/10 Kết dự đoán mơ hình RF có liệu dịng tế bào sau: RMSE = 0.0581, pearson = 0.4870 Kết dự đốn mơ hình SVR có liệu dòng tế bào sau: RMSE = 0.0558, pearson = 0.7182 Kết biểu diễn Bảng 3.8 sau 39 Mơ hình RMSE PEARSON RF 0.0581 0.4870 SVR 0.0558 0.7182 CNN 0.0006 0.9289 Bảng 3.8 Kết kiểm thử mơ hình học máy học sâu Để thể rõ ràng kết quả, sử dụng đồ thị để thể khác biệt độ sai số RMSE (Hình 3.8) độ tương đồng (Hình 3.9) phương pháp RMSE 0.07 0.06 0.0581 0.0558 Độ sai số 0.05 0.04 0.03 0.02 0.01 0.0006 RF SVR CNN Phương pháp học máy Hình 3.8 Đồ thị độ sai số thử nghiệm mơ hình dự đoán đáp ứng thuốc Độ tương đồng PEARSON 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0.9289 0.7182 0.487 RF SVR CNN Phương pháp học máy Hình 3.9 Đồ thị độ tương đồng mơ hình dự đốn đáp ứng thuốc 40 Kết mơ hình dự đoán dựa phương pháp học sâu cho thấy hiệu dự đốn cao so với mơ hình học máy truyền thống rừng ngẫu nhiên hồi quy (RF) máy vectơ hỗ trợ hồi quy (SVR) 41 KẾT LUẬN Kết luận 1.1 Các kết đạt Về mặt lý thuyết, luận văn nghiên cứu trình bày nội dung sau: (1) Các kiến thức học máy, giải thuật dự đoán dựa giải thuật rừng ngẫu nhiên hồi quy, máy vectơ hỗ trợ hồi quy, mạng nơron phương pháp học sâu mạng nơ-ron tích chập mạng đồ thị tích chập Luận văn tìm hiểu liệu sinh học, liệu đáp ứng thuốc phương pháp dự đoán nay, đồng thời phát biểu toán dự đoán đáp ứng thuốc dựa liệu DNA (genomic) liệu đáp ứng thuốc tập liệu thử nghiệm công khai GDSC (2) Đề xuất áp dụng phương pháp học sâu, liệu lớn nhằm tăng hiệu độ xác tốn Về mặt thực nghiệm, luận văn thu số kết quả: - Tiền xử lý liệu thu thập - Cài đặt thành công giải thuật đề xuất cho toán dự đoán: giải thuật rừng ngẫu nhiên giải thuật máy vector hỗ trợ để thử nghiệm với phương pháp học máy truyền thống - Cài đặt thành công phương pháp học sâu sử dụng mạng nơ-ron tích chập để học đặc tính dịng tế bào 1.2 Hạn chế Kết thực nghiệm cho thấy việc ứng dụng phương pháp tính tốn phù hợp cho kết tốt liệu Tuy nhiên, nhiều hạn chế mặt kiến thức, kinh nghiệm thân thời gian thực hiện, luận văn hạn chế: (1) chưa tối ưu tham số mơ hình học sâu để tăng độ xác, thời gian huấn luyện nhiều; (2) chưa tìm chứng sinh học cho liệu dự đoán 42 Hướng phát triển Trong trình thực đề tài, tơi nhận thấy cịn nhiều vấn đề khác liên quan đến dự đoán đáp ứng thuốc Từ điểm hạn chế nêu trên, đề xuất hướng phát triển đề tài sau: - Nghiên cứu sâu tốn dự đốn đáp ứng thuốc khơng dòng tế bào mà cho người bệnh; dự đoán cho bệnh khác - Cải tiến áp dụng kết hợp phương pháp học máy, học sâu khác để cải tiến hiệu dự đoán 43 TÀI LIỆU THAM KHẢO [1] A C Mu, “Introduction to Machine Learning with Python,” p 394 [2] “Học máy,” Wikipedia tiếng Việt Mar 13, 2021, Accessed: Apr 02, 2021 [Online] Available: https://vi.wikipedia.org/w/index.php?title=H%E1%BB%8Dc_m%C3%A1y &oldid=64592185 [3] Vũ Hữu Tiệp, Machine learning 2018 [4] K P Bennett and C Campbell, “Support vector machines: hype or hallelujah?,” ACM SIGKDD Explor Newsl., vol 2, no 2, pp 1–13, Dec 2000, doi: 10.1145/380995.380999 [5] A Goodspeed, L M Heiser, J W Gray, and J C Costello, “Tumor- Derived Cell Lines as Molecular Models of Cancer Pharmacogenomics,” Mol Cancer Res MCR, vol 14, no 1, pp 3–13, Jan 2016, doi: 10.1158/1541-7786.MCR-15-0189 [6] R H Shoemaker, “The NCI60 human tumour cell line anticancer drug screen,” Nat Rev Cancer, vol 6, no 10, pp 813–823, Oct 2006, doi: 10.1038/nrc1951 [7] W Yang et al., “Genomics of Drug Sensitivity in Cancer (GDSC): a resource for therapeutic biomarker discovery in cancer cells,” Nucleic Acids Res., vol 41, no Database issue, pp D955-961, Jan 2013, doi: 10.1093/nar/gks1111 [8] J Barretina et al., “The Cancer Cell Line Encyclopedia enables predictive modelling of anticancer drug sensitivity,” Nature, vol 483, no 7391, pp 603–607, Mar 2012, doi: 10.1038/nature11003 [9] T A Manolio et al., “Finding the missing heritability of complex diseases,” Nature, vol 461, no 7265, Art no 7265, Oct 2009, doi: 10.1038/nature08494 [10] N M O’Boyle, “Towards a Universal SMILES representation - A standard method to generate canonical SMILES based on the InChI,” J 44 Cheminformatics, vol 4, no 1, p 22, Sep 2012, doi: 10.1186/1758-2946-422 [11] J S Boehm and T R Golub, “An ecosystem of cancer cell line factories to support a cancer dependency map,” Nat Rev Genet., vol 16, no 7, pp 373–374, Jul 2015, doi: 10.1038/nrg3967 [12] G Caponigro and W R Sellers, “Advances in the preclinical testing of cancer therapeutic hypotheses,” Nat Rev Drug Discov., vol 10, no 3, Art no 3, Mar 2011, doi: 10.1038/nrd3385 [13] P Geeleher, N J Cox, and R S Huang, “Clinical drug response can be predicted using baseline gene expression levels and in vitrodrug sensitivity in cell lines,” Genome Biol., vol 15, no 3, p R47, Mar 2014, doi: 10.1186/gb-2014-15-3-r47 [14] A Daemen et al., “Modeling precision treatment of breast cancer,” Genome Biol., vol 14, no 10, p R110, 2013, doi: 10.1186/gb-2013-14-10r110 [15] T P Tran, E Ong, A P Hodges, G Paternostro, and C Piermarocchi, “Prediction of kinase inhibitor response using activity profiling, in vitro screening, and elastic net regression,” BMC Syst Biol., vol 8, no 1, p 74, Jun 2014, doi: 10.1186/1752-0509-8-74 [16] G R Blumenschein et al., “Comprehensive biomarker analysis and final efficacy results of sorafenib in the BATTLE trial,” Clin Cancer Res Off J Am Assoc Cancer Res., vol 19, no 24, pp 6967–6975, Dec 2013, doi: 10.1158/1078-0432.CCR-12-1818 [17] J Yang et al., “DIGRE: Drug-Induced Genomic Residual Effect Model for Successful Prediction of Multidrug Effects,” CPT Pharmacomet Syst Pharmacol., vol 4, no 2, Feb 2015, doi: 10.1002/psp4.1 [18] M Bansal et al., “A community computational challenge to predict the activity of pairs of compounds,” Nat Biotechnol., vol 32, no 12, Art no 12, Dec 2014, doi: 10.1038/nbt.3052 45 [19] Q Wan and R Pal, “An Ensemble Based Top Performing Approach for NCI-DREAM Drug Sensitivity Prediction Challenge,” PLOS ONE, vol 9, no 6, p e101183, Jun 2014, doi: 10.1371/journal.pone.0101183 [20] P Chen et al., “Identification of Prognostic Groups in High-Grade Serous Ovarian Cancer Treated with Platinum-Taxane Chemotherapy,” Cancer Res., vol 75, no 15, pp 2987–2998, Aug 2015, doi: 10.1158/00085472.CAN-14-3242 [21] G T T Nguyen, L Due Hoang, Q D Nguyen, T T Nguyen, H T T Dang, and D -H Le, “An investigation of cancer cell line-based drug response prediction methods on patient data,” in 2020 12th International Conference on Knowledge and Systems Engineering (KSE), Nov 2020, pp 306–311, doi: 10.1109/KSE50997.2020.9287633 [22] J C Costello et al., “A community effort to assess and improve drug sensitivity prediction algorithms,” Nat Biotechnol., vol 32, no 12, Art no 12, Dec 2014, doi: 10.1038/nbt.2877 [23] I Bayer, P Groth, and S Schneckener, “Prediction Errors in Learning Drug Response from Gene Expression Data – Influence of Labeling, Sample Size, and Machine Learning Algorithm,” PLOS ONE, vol 8, no 7, p e70294, Jul 2013, doi: 10.1371/journal.pone.0070294 [24] S B Amin et al., “Gene Expression Profile Alone Is Inadequate In Predicting Complete Response In Multiple Myeloma,” Leukemia, vol 28, no 11, pp 2229–2234, Nov 2014, doi: 10.1038/leu.2014.140 [25] N Stransky et al., “Pharmacogenomic agreement between two cancer cell line data sets,” Nature, vol 528, no 7580, Art no 7580, Dec 2015, doi: 10.1038/nature15736 [26] N Zhang, H Wang, Y Fang, J Wang, X Zheng, and X S Liu, “Predicting Anticancer Drug Responses Using a Dual-Layer Integrated Cell Line-Drug Network Model,” PLoS Comput Biol., vol 11, no 9, p e1004498, 2015, doi: 10.1371/journal.pcbi.1004498 46 [27] D.-H Le and V.-H Pham, “Drug Response Prediction by Globally Capturing Drug and Cell Line Information in a Heterogeneous Network,” J Mol Biol., vol 430, no 18, Part A, pp 2993–3004, Sep 2018, doi: 10.1016/j.jmb.2018.06.041 [28] A Cichonska et al., “Learning with multiple pairwise kernels for drug bioactivity prediction,” Bioinformatics, vol 34, no 13, pp i509–i518, Jul 2018, doi: 10.1093/bioinformatics/bty277 [29] M Ammad-ud-din et al., “Drug response prediction by inferring pathway-response associations with kernelized Bayesian matrix factorization,” Bioinformatics, vol 32, no 17, pp i455–i463, Sep 2016, doi: 10.1093/bioinformatics/btw433 [30] E C Neto, I S Jang, S H Friend, and A A Margolin, “The Stream algorithm: computationally efficient ridge-regression via Bayesian model averaging, and applications to pharmacogenomic prediction of cancer cell line sensitivity,” Pac Symp Biocomput Pac Symp Biocomput., pp 27–38, 2014 [31] G T T Nguyen and D.-H Le, “A matrix completion method for drug response prediction in personalized medicine,” in Proceedings of the Ninth International Symposium on Information and Communication Technology, New York, NY, USA, Dec 2018, pp 410–415, doi: 10.1145/3287921.3287974 [32] G Peddinti et al., “Early metabolic markers identify potential targets for the prevention of type diabetes,” Diabetologia, vol 60, no 9, pp 1740– 1750, Sep 2017, doi: 10.1007/s00125-017-4325-0 [33] D M Camacho, K M Collins, R K Powers, J C Costello, and J J Collins, “Next-Generation Machine Learning for Biological Networks,” Cell, vol 173, no 7, pp 1581–1592, Jun 2018, doi: 10.1016/j.cell.2018.05.015 47 [34] Y Chang et al., “Cancer Drug Response Profile scan (CDRscan): A Deep Learning Model That Predicts Drug Effectiveness from Cancer Genomic Signature,” Sci Rep., vol 8, no 1, p 8857, Jun 2018, doi: 10.1038/s41598-018-27214-6 48 ... 21 CHƯƠNG BÀI TOÁN DỰ ĐOÁN ĐÁP ỨNG THUỐC VÀ CÁC PHƯƠNG PHÁP TRÊN HỌC MÁY 23 2.1 Giới thiệu toán dự đoán đáp ứng thuốc 23 2.2 Các phương pháp dự đoán đáp ứng thuốc 24 2.3 Các... [31] dựa thuật toán softImpute dự đoán đáp ứng thuốc cho cell line chưa biết dựa liệu đáp ứng thuốc cho cell line biết Phương pháp không dự đoán cho loại thuốc mà dự đoán cho nhiều loại thuốc. .. Tơi định thực đề tài Ứng dụng mơ hình học máy dự đoán đáp ứng thuốc cho luận văn b) Mục đích, đối tượng, phạm vi nghiên cứu - Nghiên cứu liệu y sinh học liên quan đến đáp ứng thuốc - Nghiên cứu

Ngày đăng: 07/12/2021, 19:47

Hình ảnh liên quan

Hình 1.1 Phương pháp phân loại SVM - Ứng dụng mô hình học máy trong dự đoán đáp ứng thuốc

Hình 1.1.

Phương pháp phân loại SVM Xem tại trang 16 của tài liệu.
Hình 1.2 Phương pháp hồi quy SVR - Ứng dụng mô hình học máy trong dự đoán đáp ứng thuốc

Hình 1.2.

Phương pháp hồi quy SVR Xem tại trang 17 của tài liệu.
Hình 1.3 Cấu trúc của mô hình Random Forest - Ứng dụng mô hình học máy trong dự đoán đáp ứng thuốc

Hình 1.3.

Cấu trúc của mô hình Random Forest Xem tại trang 18 của tài liệu.
Hình 1.4 Mạng nơ-ron sinh học - Ứng dụng mô hình học máy trong dự đoán đáp ứng thuốc

Hình 1.4.

Mạng nơ-ron sinh học Xem tại trang 19 của tài liệu.
Hình 1.5 Kiến trúc mạng nơ-ron nhân tạo - Ứng dụng mô hình học máy trong dự đoán đáp ứng thuốc

Hình 1.5.

Kiến trúc mạng nơ-ron nhân tạo Xem tại trang 20 của tài liệu.
Hình 1.8 Mạng nơ-ron lan truyền thẳng - Ứng dụng mô hình học máy trong dự đoán đáp ứng thuốc

Hình 1.8.

Mạng nơ-ron lan truyền thẳng Xem tại trang 22 của tài liệu.
Hình 1.9 Mạng nơ-ron lan truyền ngược - Ứng dụng mô hình học máy trong dự đoán đáp ứng thuốc

Hình 1.9.

Mạng nơ-ron lan truyền ngược Xem tại trang 22 của tài liệu.
Hình 1.10 Đồ thị hàm sigmoid - Ứng dụng mô hình học máy trong dự đoán đáp ứng thuốc

Hình 1.10.

Đồ thị hàm sigmoid Xem tại trang 23 của tài liệu.
Hình 1.11 Đồ thị hàm ReLU - Ứng dụng mô hình học máy trong dự đoán đáp ứng thuốc

Hình 1.11.

Đồ thị hàm ReLU Xem tại trang 24 của tài liệu.
Hình 1.12 Kiến trúc mạng CNN - Ứng dụng mô hình học máy trong dự đoán đáp ứng thuốc

Hình 1.12.

Kiến trúc mạng CNN Xem tại trang 25 của tài liệu.
Convolved Feature. Như trong hình, đang là bước trượt thứ 8, kết quả của - Ứng dụng mô hình học máy trong dự đoán đáp ứng thuốc

onvolved.

Feature. Như trong hình, đang là bước trượt thứ 8, kết quả của Xem tại trang 26 của tài liệu.
Hình 1.14 Minh họa mạng pooling - Ứng dụng mô hình học máy trong dự đoán đáp ứng thuốc

Hình 1.14.

Minh họa mạng pooling Xem tại trang 27 của tài liệu.
Hình 1.15 Minh họa đầu vào lớp liên kết đầy đủ - Ứng dụng mô hình học máy trong dự đoán đáp ứng thuốc

Hình 1.15.

Minh họa đầu vào lớp liên kết đầy đủ Xem tại trang 28 của tài liệu.
Hình 1.16 Minh họa nuôi cấy tế bào ung thư trong phòng thí nghiệm - Ứng dụng mô hình học máy trong dự đoán đáp ứng thuốc

Hình 1.16.

Minh họa nuôi cấy tế bào ung thư trong phòng thí nghiệm Xem tại trang 29 của tài liệu.
Hình 1.17 Minh họa đo giá trị đáp ứng thuốc IC50 - Ứng dụng mô hình học máy trong dự đoán đáp ứng thuốc

Hình 1.17.

Minh họa đo giá trị đáp ứng thuốc IC50 Xem tại trang 32 của tài liệu.
Hầu hết các phương pháp chủ yếu được sử dụng để xây dựng mô hình dự đoán phản ứng thuốc được dựa trên mô hình học giám sát - Ứng dụng mô hình học máy trong dự đoán đáp ứng thuốc

u.

hết các phương pháp chủ yếu được sử dụng để xây dựng mô hình dự đoán phản ứng thuốc được dựa trên mô hình học giám sát Xem tại trang 36 của tài liệu.
2.3 Các phương pháp đánh giá mô hình dự đoán - Ứng dụng mô hình học máy trong dự đoán đáp ứng thuốc

2.3.

Các phương pháp đánh giá mô hình dự đoán Xem tại trang 39 của tài liệu.
Hình 3.1 Cấu trúc file PANCANCER_Genetic_feature.csv - Ứng dụng mô hình học máy trong dự đoán đáp ứng thuốc

Hình 3.1.

Cấu trúc file PANCANCER_Genetic_feature.csv Xem tại trang 43 của tài liệu.
= auto), kết quả thực nghiệm được trình bày trong Bảng 3.1 - Ứng dụng mô hình học máy trong dự đoán đáp ứng thuốc

auto.

, kết quả thực nghiệm được trình bày trong Bảng 3.1 Xem tại trang 45 của tài liệu.
Bảng 3.3 Kết quả thực nghiệm lựa chọn số lượng mẫu tối thiểu - Ứng dụng mô hình học máy trong dự đoán đáp ứng thuốc

Bảng 3.3.

Kết quả thực nghiệm lựa chọn số lượng mẫu tối thiểu Xem tại trang 46 của tài liệu.
Bảng 3.2 Kết quả thực nghiệm lựa chọn độ sâu của cây - Ứng dụng mô hình học máy trong dự đoán đáp ứng thuốc

Bảng 3.2.

Kết quả thực nghiệm lựa chọn độ sâu của cây Xem tại trang 46 của tài liệu.
Bảng 3.4 Kết quả thực nghiệm lựa chọn thuộc tính tối đa - Ứng dụng mô hình học máy trong dự đoán đáp ứng thuốc

Bảng 3.4.

Kết quả thực nghiệm lựa chọn thuộc tính tối đa Xem tại trang 47 của tài liệu.
Bảng 3.5 Kết quả thực nghiệm lựa chọn hệ số Gamma - Ứng dụng mô hình học máy trong dự đoán đáp ứng thuốc

Bảng 3.5.

Kết quả thực nghiệm lựa chọn hệ số Gamma Xem tại trang 47 của tài liệu.
Bảng 3.6 Kết quả thực nghiệm lựa chọn Kernel - Ứng dụng mô hình học máy trong dự đoán đáp ứng thuốc

Bảng 3.6.

Kết quả thực nghiệm lựa chọn Kernel Xem tại trang 48 của tài liệu.
Hình 3.5 Mô hình dự đoán với mạng nơ-ron tích chập - Ứng dụng mô hình học máy trong dự đoán đáp ứng thuốc

Hình 3.5.

Mô hình dự đoán với mạng nơ-ron tích chập Xem tại trang 49 của tài liệu.
Hình 3.6 Đồ thị hội tụ của hàm sai số - Ứng dụng mô hình học máy trong dự đoán đáp ứng thuốc

Hình 3.6.

Đồ thị hội tụ của hàm sai số Xem tại trang 50 của tài liệu.
Bảng 3.7 Kết quả thực nghiệm các tham số - Ứng dụng mô hình học máy trong dự đoán đáp ứng thuốc

Bảng 3.7.

Kết quả thực nghiệm các tham số Xem tại trang 50 của tài liệu.
Hình 3.7 Đồ thị biểu diễn hội tụ của hàm pearson - Ứng dụng mô hình học máy trong dự đoán đáp ứng thuốc

Hình 3.7.

Đồ thị biểu diễn hội tụ của hàm pearson Xem tại trang 51 của tài liệu.
Bảng 3.8 Kết quả kiểm thử các mô hình học máy và học sâu - Ứng dụng mô hình học máy trong dự đoán đáp ứng thuốc

Bảng 3.8.

Kết quả kiểm thử các mô hình học máy và học sâu Xem tại trang 52 của tài liệu.
Mô hình RMSE PEARSON - Ứng dụng mô hình học máy trong dự đoán đáp ứng thuốc

h.

ình RMSE PEARSON Xem tại trang 52 của tài liệu.

Mục lục

  • TÀI LIỆU THAM KHẢO

Tài liệu cùng người dùng

Tài liệu liên quan