1. Trang chủ
  2. » Luận Văn - Báo Cáo

Ứng dụng mô hình học máy trong dự đoán đáp ứng thuốc

60 16 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 60
Dung lượng 1,27 MB

Nội dung

TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI LUẬN VĂN THẠC SĨ Ứng dụng mơ hình học máy dự đốn đáp ứng thuốc NGUYỄN XUÂN TÙNG tungxbk@gmail.com Ngành Công nghệ thông tin Giảng viên hướng dẫn: TS Ban Hà Bằng Viện: Công nghệ thông tin Truyền thông HÀ NỘI, 04/2021 Chữ ký GVHD CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM Độc lập – Tự – Hạnh phúc BẢN XÁC NHẬN CHỈNH SỬA LUẬN VĂN THẠC SĨ Họ tên tác giả luận văn: Nguyễn Xuân Tùng Đề tài luận văn: Ứng dụng mơ hình học máy dự đốn đáp ứng thuốc Chun ngành: Cơng nghệ thông tin Mã số SV: CA180146 Tác giả, Người hướng dẫn khoa học Hội đồng chấm luận văn xác nhận tác giả sửa chữa, bổ sung luận văn theo biên họp Hội đồng ngày 28/04/2021 với nội dung sau: Sửa lỗi soạn thảo Giải thích hình ảnh đưa vào luận văn Bổ sung giải thích lý lựa chọn tham số thử nghiệm Ngày 22 tháng 05 năm 2021 Giáo viên hướng dẫn Tác giả luận văn CHỦ TỊCH HỘI ĐỒNG Lời cảm ơn Để hoàn thành luận văn thạc sĩ này, xin bày tỏ cảm kích đặc biệt tới thầy giáo hướng dẫn tôi, Tiến sĩ Ban Hà Bằng - Người cho hội làm đề tài hướng dẫn suốt thời gian thực đề tài nghiên cứu khoa học Xin chân thành cảm ơn lời khuyên định hướng thầy giúp cho mở mang thêm nhiều kiến thức hữu ích thuật tốn phân loại phương pháp tiên tiến Một lần nữa, xin gửi lời cảm ơn đến thầy tất lịng biết ơn Tơi xin gửi lời cảm ơn chân thành đến chị Nguyễn Thị Thu Giang – Trung tâm mạng trường Đại học Bách Khoa Hà Nội truyền đạt cho kiến thức tin sinh học, kỹ mềm cho nhà nghiên cứu hội thảo thực hay ý nghĩa Sau cùng, tơi xin tỏ lịng biết ơn đến cha mẹ, người thân bạn bè bên cạnh ủng hộ, động viên sống thời gian hoàn thành luận văn thạc sĩ Xin chân thành cảm ơn tất người! Tóm tắt nội dung luận văn Đề tài: Ứng dụng mơ hình học máy dự đốn đáp ứng thuốc Tác giả luận văn: Nguyễn Xuân Tùng Khóa: 2018A Người hướng dẫn: TS Ban Hà Bằng Từ khóa (Keyword): Tin sinh học, machine learning, deep learning Nội dung tóm tắt: a) Lý chọn đề tài Hiện nay, mục tiêu quan trọng y học cá nhân hóa cung cấp phương pháp điều trị phù hợp cho bệnh nhân dựa đặc điểm sinh học họ Có số dự án lớn giới triển khai GDSC, CCLE tạo lượng lớn liệu sinh học người bệnh (omics data) liệu đáp ứng thuốc (drug response) cho dòng tế bào (cell lines – mang tất đặc tính sinh học bệnh nhân) Các dự án cung cấp nguồn liệu phong phú hữu ích liệu sinh học biểu gene (gene expression,) liệu đột biến gene (mutation), liệu độ đáp ứng thuốc với dòng tế bào bệnh khác nhau…, tạo điều kiện thuận lợi cho nghiên cứu tiền lâm sàng đến thử nghiệm lâm sàng người Tuy nhiên nguồn liệu chưa đầy đủ cịn lượng lớn loại thuốc dòng tế bào chưa tính tốn, thử nghiệm Ngồi ra, đa dạng, phức tạp, không đồng yếu tố gây bệnh, người bệnh khác nhau, hay chế sinh học gen, bệnh, thuốc cặp quan hệ ngày trở nên phong phú tạo nên thách thức khơng nhỏ cho việc tính tốn dự đốn liệu lâm sàng Bên cạnh đó, phát triển nhanh chóng cơng nghệ thơng tin phương pháp tính tốn, xử lý liệu lớn gần tạo điều kiện thúc đẩy việc phát triển phương pháp dự đoán đáp ứng thuốc nhằm hỗ trợ bác sĩ có thêm thơng tin q trình điều trị Để nâng cao hiểu biết ứng dụng phương pháp tính tốn khoa học máy tính vào lĩnh vực dự đốn đáp ứng thuốc Tôi định thực đề tài Ứng dụng mơ hình học máy dự đốn đáp ứng thuốc cho luận văn b) Mục đích, đối tượng, phạm vi nghiên cứu - Nghiên cứu liệu y sinh học liên quan đến đáp ứng thuốc - Nghiên cứu phương pháp tính tốn dự đốn đáp ứng thuốc - Áp dụng số mơ hình tính tốn cho tốn dự đốn đáp ứng thuốc c) Phương pháp nghiên cứu - Nghiên cứu lý thuyết: o Nghiên cứu, phân tích liệu y sinh học liên quan đến đáp ứng thuốc dòng tế bào o Nghiên cứu tài liệu liên quan đến học máy, học có giám sát, phân lớp liệu, rừng ngẫu nhiên, máy vector hỗ trợ; phương pháp học sâu - Nghiên cứu thực nghiệm: o Lựa chọn tập liệu thực nghiệm o Ứng dụng kỹ thuật học máy: Random forest, Support Vector Machine, Deep Learning… liệu thực nghiệm, thực so sánh hiệu phương pháp d) Bố cục luận văn Luận văn gồm chương chính: Chương 1: Trình bày tổng quan sở lý thuyết học máy việc ứng dụng học máy dự đoán đáp ứng thuốc Chương 2: Mơ tả tốn trình bày phương pháp giải toán Chương 3: Cài đặt thử nghiệm đánh giá Kết luận hướng phát triển HỌC VIÊN Ký ghi rõ họ tên MỤC LỤC CHƯƠNG TỔNG QUAN CƠ SỞ LÝ THUYẾT 1.1 1.2 1.2 Tổng quan phương pháp học máy 1.1.1 Học máy gì? 1.1.2 Phân loại toán học máy 1.1.3 Một số mơ hình học máy Học sâu (Deep learning) gì? 1.2.1 Mạng nơ-ron nhân tạo (ANN) 1.2.2 Mạng nơ ron tích chập (CNN) 12 Tổng quan liệu sinh học – omics data đáp ứng thuốc dòng tế bào 16 1.2.1 Dữ liệu omics 16 1.2.2 Định nghĩa đáp ứng thuốc 19 1.2.3 Nguồn liệu sinh học đáp ứng thuốc 21 CHƯƠNG BÀI TOÁN DỰ ĐOÁN ĐÁP ỨNG THUỐC VÀ CÁC PHƯƠNG PHÁP TRÊN HỌC MÁY 23 2.1 Giới thiệu toán dự đoán đáp ứng thuốc 23 2.2 Các phương pháp dự đoán đáp ứng thuốc 24 2.3 Các phương pháp đánh giá mơ hình dự đốn 27 2.4 2.3.1 k-fold Cross-validation 27 2.3.2 LOO-CV 28 2.3.3 Các phép tính tốn hiệu 28 Lựa chọn đề xuất mơ hình cho tốn dự đoán đáp ứng thuốc 29 CHƯƠNG CÀI ĐẶT THỬ NGHIỆM VÀ ĐÁNH GIÁ 30 3.1 3.2 Xây dựng chuẩn hóa liệu 30 3.1.1 Tập hợp liệu 30 3.1.2 Tiền xử lý liệu 32 Xây dựng mơ hình dự đoán dựa phương pháp đề xuất 32 3.2.1 3.3 Mơ hình huấn luyện 32 Kiểm thử kết 39 KẾT LUẬN 42 Kết luận 42 1.1 Các kết đạt 42 1.2 Hạn chế 42 Hướng phát triển 43 TÀI LIỆU THAM KHẢO 44 DANH MỤC HÌNH VẼ Hình 1.1 Phương pháp phân loại SVM Hình 1.2 Phương pháp hồi quy SVR Hình 1.3 Cấu trúc mơ hình Random Forest Hình 1.4 Mạng nơ-ron sinh học Hình 1.5 Kiến trúc mạng nơ-ron nhân tạo Hình 1.6 Mạng nơ-ron đầy đủ Hình 1.7 Mạng nơ-ron cục Hình 1.8 Mạng nơ-ron lan truyền thẳng 10 Hình 1.9 Mạng nơ-ron lan truyền ngược 10 Hình 1.10 Đồ thị hàm sigmoid 11 Hình 1.11 Đồ thị hàm ReLU 12 Hình 1.12 Kiến trúc mạng CNN 13 Hình 1.13 Minh họa tích chập 14 Hình 1.14 Minh họa mạng pooling 15 Hình 1.15 Minh họa đầu vào lớp liên kết đầy đủ 16 Hình 1.16 Minh họa ni cấy tế bào ung thư phịng thí nghiệm 17 Hình 1.17 Minh họa đo giá trị đáp ứng thuốc IC50 20 Hình 2.1 Các bước xây dựng mơ hình dự đốn đáp ứng thuốc 24 Hình 2.2 Xác thực chéo k-fold 27 Hình 3.1 Cấu trúc file PANCANCER_Genetic_feature.csv 31 Hình 3.2 Cấu trúc file PANCANCER_IC.csv 31 Hình 3.3 Biểu diễn thuốc 36 Hình 3.4 Biểu diễn dòng bệnh 37 Hình 3.5 Mơ hình dự đốn với mạng nơ-ron tích chập 37 Hình 3.6 Đồ thị hội tụ hàm sai số 38 Hình 3.7 Đồ thị biểu diễn hội tụ hàm pearson 39 Hình 3.8 Đồ thị độ sai số thử nghiệm mơ hình dự đốn đáp ứng thuốc 40 Hình 3.9 Đồ thị độ tương đồng mơ hình dự đốn đáp ứng thuốc 40 Độ sâu RMSE PEARSON Thời gian huấn luyện 0.062 0.295 175.627 0.060 0.388 272.021 10 0.057 0.487 432.204 20 0.052 0.605 723.063 Bảng 3.2 Kết thực nghiệm lựa chọn độ sâu Sau thay đổi độ sâu cây, nhận thấy sai số RMSE giảm độ tương đồng pearson tăng, thời gian huấn luyện tăng 1.67 lần Do đó, tơi lựa chọn độ sâu max_depth = 10 để phù hợp cho toán Sau lựa chọn độ sâu số lượng cây, thực thay đổi số lượng mẫu tối thiểu cần thiết để tách nút (min_samples_split), tham số lựa chọn gồm n_estimators = 100, max_depth = 10 Kết thể Bảng 3.3 Mẫu tối thiểu RMSE PEARSON Thời gian huấn luyện 0.5 0.057 0.489 433.001 1.0 0.065 Nan 1.225 0.057 0.487 432.204 0.057 0.491 442.086 Bảng 3.3 Kết thực nghiệm lựa chọn số lượng mẫu tối thiểu Dựa vào tham số trên, nhận thấy với số lượng mẫu tối thiểu cho kết độ tương đồng pearson cao hơn, thời gian huấn luyện tăng không đáng kể Cuối cùng, tơi thử nghiệm thay đổi số lượng thuộc tính tối đa (max_features), tham số lựa chọn gồm n_estimators = 100, max_depth = 10, min_samples_split = Kết thực nghiệm thể Bảng 3.4 34 Thuộc tính tối đa RMSE PEARSON Thời gian huấn luyện auto 0.057 0.491 442.086 log2 0.061 0.747 5.561 sqrt 0.058 0.720 15.525 Bảng 3.4 Kết thực nghiệm lựa chọn thuộc tính tối đa Nhận thấy, với số lương thuộc tính log2 đầu vào, kết pearson đạt chất lượng khác biệt, thời gian huấn luyện nhỏ nhiều so với auto Sau thử nghiệm thay đổi tham số, chọn tham số sau tham số đưa kết tốt nhất: - Số lượng rừng: 100 - Hàm tính sai số: mse - Độ sâu cây: 10 - Số lượng mẫu tối thiểu: - Hàm tính số lượng tối đa: log2 b) Máy vector hỗ trợ hồi quy (SVR) Tương tự với thuật tốn RFR, tơi xây dựng thực nghiệm sau Tôi lựa chọn tham số thay đổi phương pháp biến đổi kernel, loại hệ số biến đổi gamma Đầu tiên, sử dụng giá trị mặc định kernel rbf thực thay đổi hệ số biến đổi gamma, kết Bảng 3.5 Gamma RMSE PEARSON Thời gian huấn luyện scale 0.058 0.666 398.744 auto 0.058 0.666 406.462 Bảng 3.5 Kết thực nghiệm lựa chọn hệ số Gamma Từ Bảng 3.5, sai số RMSE độ tương đồng hàm số nhau, thời gian huấn luyện sử dụng Gamma scale lại nhanh hơn, 35 nhiên, chưa có thay đổi đáng kể Tiếp theo, lựa chọn phương pháp biến đổi kernel Tôi cố định Gamma scale thay đổi phương pháp biến đổi kernel Kết trình bày Bảng 3.6 Kernel RMSE PEARSON Thời gian huấn luyện linear 0.048 0.732 215.430 poly 0.060 0.696 649.063 rbf 0.058 0.666 398.744 sigmoid 0.054 0.0285 3408.236 Bảng 3.6 Kết thực nghiệm lựa chọn Kernel Từ kết trên, nhận thấy khác biệt hàm biến đổi linear Đặc biệt, hàm linear khơng có tham số Do đó, tơi lựa chọn hàm biến đổi linear làm hàm biến đổi phạm vi luận văn c) Mơ hình dự đốn với mạng nơ-ron tích chập (CNN) Tơi thử nghiệm với hai mơ hình học máy trên, dựa vào kết tìm được, tơi thực lựa chọn tham số tốt để đưa vào huấn luyện với liệu đầy đủ Tiếp sau đây, tơi trình bày mơ hình mạng tích chập để dự đoán độ đáp ứng thuốc bệnh Vẫn hai mơ hình trước, tơi sử sử dụng ma trận one-hot gồm 223 phần tử để biểu diễn định danh thuốc (Hình 3.3) Hình 3.3 Biểu diễn thuốc Bên cạnh đó, tơi sử dụng ma trận one-hot gồm 735 phần tử để biểu diễn thuộc tính dịng bệnh (Hình 3.4) Mỗi ô ma trận tương đương với loại đột biến Nếu dòng tế bào chứa loại đột biến vị trí 1, vị trí cịn lại 36 Hình 3.4 Biểu diễn dịng bệnh Sau mã hóa đầu vào, thực xây dụng kiến trúc mạng sau: - Đối với thuốc, sử dụng mạng nơ-ron sử dụng hàm kích hoạt Linear ReLU để mã hóa đầu vào thuốc - Đối với dịng tế bào, tơi sử dụng mạng nơ-ron tích chập chiều để trích chọn đặc trưng - Và sử dụng mạng nơ-ron hồi quy để đủ tổng hợp kết hai phần Hình 3.5 Mơ hình dự đốn với mạng nơ-ron tích chập Sau xây dựng xong kiến trúc mạng, thực chạy training máy server có cấu sau: - OS: ubuntu 18.04 - RAM: 32G - CPU: Intel® Xeon® Platinum 8380HL - VGA: NVIDIA GTX 2080 Ti – 11G - FRAMEWORK: PyTorch - Batch size: 256 37 Sau trình huấn luyện, tơi thực thay đổi tham số đầu vào tỉ lệ học, số lượng vòng lặp, có kết Bảng 3.7 sau: Tham số RMSE PEASON Thời gian 30_0.0001 0.0006 0.926 397.837 30_0.01 0.2070 Nan 398.679 300_0.0001 0.0006 0.928 4007.383 400_0.0001 0.0006 0.929 5190.119 300_0.000001 0.0010 0.882 3907.383 Bảng 3.7 Kết thực nghiệm tham số Từ kết quả, nhận thấy với learning rate 0.0001, số lượng vòng lặp huấn luyện 400 đưa kết tốt Tuy nhiên, dựa vào biểu đồ hội tụ, biểu đồ rằng, đến 400, đường sai số tập test (Hình 3.6) độ tương đồng (Hình 3.7) ngang dẫn đến hội tụ Hình 3.6 Đồ thị hội tụ hàm sai số Từ đồ thị, nhận thấy giá trị sai số giảm dần cách ổn định hội tụ sau 400 vịng huấn luyện 38 Ngồi ra, tơi có đồ thị biểu diễn trình hội tụ chương trình phương pháp pearson trình bày Hình 3.7 Đồ thị biểu diễn hội tụ hàm pearson Tương tự đồ thị hội tụ loss function, giá trị hàm hội tụ cuối, độ biến thiên đồ thị nhỏ Khác với hàm thất thoát, giá trị hàm pearson tiến tới gần độ xác cao 3.3 Kiểm thử kết Các mơ hình đề xuất tiến hành thử nghiệm cách phân chia liệu theo cặp thuốc – dòng tế bào biết thành liệu huấn luyện (training) đánh giá (validation) thử nghiệm (testing) theo tỉ lệ tương ứng 80/10/10 Kết dự đoán mơ hình RF có liệu dịng tế bào sau: RMSE = 0.0581, pearson = 0.4870 Kết dự đốn mơ hình SVR có liệu dòng tế bào sau: RMSE = 0.0558, pearson = 0.7182 Kết biểu diễn Bảng 3.8 sau 39 Mơ hình RMSE PEARSON RF 0.0581 0.4870 SVR 0.0558 0.7182 CNN 0.0006 0.9289 Bảng 3.8 Kết kiểm thử mơ hình học máy học sâu Để thể rõ ràng kết quả, sử dụng đồ thị để thể khác biệt độ sai số RMSE (Hình 3.8) độ tương đồng (Hình 3.9) phương pháp RMSE 0.07 0.06 0.0581 0.0558 Độ sai số 0.05 0.04 0.03 0.02 0.01 0.0006 RF SVR CNN Phương pháp học máy Hình 3.8 Đồ thị độ sai số thử nghiệm mơ hình dự đoán đáp ứng thuốc Độ tương đồng PEARSON 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0.9289 0.7182 0.487 RF SVR CNN Phương pháp học máy Hình 3.9 Đồ thị độ tương đồng mơ hình dự đốn đáp ứng thuốc 40 Kết mơ hình dự đoán dựa phương pháp học sâu cho thấy hiệu dự đốn cao so với mơ hình học máy truyền thống rừng ngẫu nhiên hồi quy (RF) máy vectơ hỗ trợ hồi quy (SVR) 41 KẾT LUẬN Kết luận 1.1 Các kết đạt Về mặt lý thuyết, luận văn nghiên cứu trình bày nội dung sau: (1) Các kiến thức học máy, giải thuật dự đoán dựa giải thuật rừng ngẫu nhiên hồi quy, máy vectơ hỗ trợ hồi quy, mạng nơron phương pháp học sâu mạng nơ-ron tích chập mạng đồ thị tích chập Luận văn tìm hiểu liệu sinh học, liệu đáp ứng thuốc phương pháp dự đoán nay, đồng thời phát biểu toán dự đoán đáp ứng thuốc dựa liệu DNA (genomic) liệu đáp ứng thuốc tập liệu thử nghiệm công khai GDSC (2) Đề xuất áp dụng phương pháp học sâu, liệu lớn nhằm tăng hiệu độ xác tốn Về mặt thực nghiệm, luận văn thu số kết quả: - Tiền xử lý liệu thu thập - Cài đặt thành công giải thuật đề xuất cho toán dự đoán: giải thuật rừng ngẫu nhiên giải thuật máy vector hỗ trợ để thử nghiệm với phương pháp học máy truyền thống - Cài đặt thành công phương pháp học sâu sử dụng mạng nơ-ron tích chập để học đặc tính dịng tế bào 1.2 Hạn chế Kết thực nghiệm cho thấy việc ứng dụng phương pháp tính tốn phù hợp cho kết tốt liệu Tuy nhiên, nhiều hạn chế mặt kiến thức, kinh nghiệm thân thời gian thực hiện, luận văn hạn chế: (1) chưa tối ưu tham số mơ hình học sâu để tăng độ xác, thời gian huấn luyện nhiều; (2) chưa tìm chứng sinh học cho liệu dự đoán 42 Hướng phát triển Trong trình thực đề tài, tơi nhận thấy cịn nhiều vấn đề khác liên quan đến dự đoán đáp ứng thuốc Từ điểm hạn chế nêu trên, đề xuất hướng phát triển đề tài sau: - Nghiên cứu sâu tốn dự đốn đáp ứng thuốc khơng dòng tế bào mà cho người bệnh; dự đoán cho bệnh khác - Cải tiến áp dụng kết hợp phương pháp học máy, học sâu khác để cải tiến hiệu dự đoán 43 TÀI LIỆU THAM KHẢO [1] A C Mu, “Introduction to Machine Learning with Python,” p 394 [2] “Học máy,” Wikipedia tiếng Việt Mar 13, 2021, Accessed: Apr 02, 2021 [Online] Available: https://vi.wikipedia.org/w/index.php?title=H%E1%BB%8Dc_m%C3%A1y &oldid=64592185 [3] Vũ Hữu Tiệp, Machine learning 2018 [4] K P Bennett and C Campbell, “Support vector machines: hype or hallelujah?,” ACM SIGKDD Explor Newsl., vol 2, no 2, pp 1–13, Dec 2000, doi: 10.1145/380995.380999 [5] A Goodspeed, L M Heiser, J W Gray, and J C Costello, “Tumor- Derived Cell Lines as Molecular Models of Cancer Pharmacogenomics,” Mol Cancer Res MCR, vol 14, no 1, pp 3–13, Jan 2016, doi: 10.1158/1541-7786.MCR-15-0189 [6] R H Shoemaker, “The NCI60 human tumour cell line anticancer drug screen,” Nat Rev Cancer, vol 6, no 10, pp 813–823, Oct 2006, doi: 10.1038/nrc1951 [7] W Yang et al., “Genomics of Drug Sensitivity in Cancer (GDSC): a resource for therapeutic biomarker discovery in cancer cells,” Nucleic Acids Res., vol 41, no Database issue, pp D955-961, Jan 2013, doi: 10.1093/nar/gks1111 [8] J Barretina et al., “The Cancer Cell Line Encyclopedia enables predictive modelling of anticancer drug sensitivity,” Nature, vol 483, no 7391, pp 603–607, Mar 2012, doi: 10.1038/nature11003 [9] T A Manolio et al., “Finding the missing heritability of complex diseases,” Nature, vol 461, no 7265, Art no 7265, Oct 2009, doi: 10.1038/nature08494 [10] N M O’Boyle, “Towards a Universal SMILES representation - A standard method to generate canonical SMILES based on the InChI,” J 44 Cheminformatics, vol 4, no 1, p 22, Sep 2012, doi: 10.1186/1758-2946-422 [11] J S Boehm and T R Golub, “An ecosystem of cancer cell line factories to support a cancer dependency map,” Nat Rev Genet., vol 16, no 7, pp 373–374, Jul 2015, doi: 10.1038/nrg3967 [12] G Caponigro and W R Sellers, “Advances in the preclinical testing of cancer therapeutic hypotheses,” Nat Rev Drug Discov., vol 10, no 3, Art no 3, Mar 2011, doi: 10.1038/nrd3385 [13] P Geeleher, N J Cox, and R S Huang, “Clinical drug response can be predicted using baseline gene expression levels and in vitrodrug sensitivity in cell lines,” Genome Biol., vol 15, no 3, p R47, Mar 2014, doi: 10.1186/gb-2014-15-3-r47 [14] A Daemen et al., “Modeling precision treatment of breast cancer,” Genome Biol., vol 14, no 10, p R110, 2013, doi: 10.1186/gb-2013-14-10r110 [15] T P Tran, E Ong, A P Hodges, G Paternostro, and C Piermarocchi, “Prediction of kinase inhibitor response using activity profiling, in vitro screening, and elastic net regression,” BMC Syst Biol., vol 8, no 1, p 74, Jun 2014, doi: 10.1186/1752-0509-8-74 [16] G R Blumenschein et al., “Comprehensive biomarker analysis and final efficacy results of sorafenib in the BATTLE trial,” Clin Cancer Res Off J Am Assoc Cancer Res., vol 19, no 24, pp 6967–6975, Dec 2013, doi: 10.1158/1078-0432.CCR-12-1818 [17] J Yang et al., “DIGRE: Drug-Induced Genomic Residual Effect Model for Successful Prediction of Multidrug Effects,” CPT Pharmacomet Syst Pharmacol., vol 4, no 2, Feb 2015, doi: 10.1002/psp4.1 [18] M Bansal et al., “A community computational challenge to predict the activity of pairs of compounds,” Nat Biotechnol., vol 32, no 12, Art no 12, Dec 2014, doi: 10.1038/nbt.3052 45 [19] Q Wan and R Pal, “An Ensemble Based Top Performing Approach for NCI-DREAM Drug Sensitivity Prediction Challenge,” PLOS ONE, vol 9, no 6, p e101183, Jun 2014, doi: 10.1371/journal.pone.0101183 [20] P Chen et al., “Identification of Prognostic Groups in High-Grade Serous Ovarian Cancer Treated with Platinum-Taxane Chemotherapy,” Cancer Res., vol 75, no 15, pp 2987–2998, Aug 2015, doi: 10.1158/00085472.CAN-14-3242 [21] G T T Nguyen, L Due Hoang, Q D Nguyen, T T Nguyen, H T T Dang, and D -H Le, “An investigation of cancer cell line-based drug response prediction methods on patient data,” in 2020 12th International Conference on Knowledge and Systems Engineering (KSE), Nov 2020, pp 306–311, doi: 10.1109/KSE50997.2020.9287633 [22] J C Costello et al., “A community effort to assess and improve drug sensitivity prediction algorithms,” Nat Biotechnol., vol 32, no 12, Art no 12, Dec 2014, doi: 10.1038/nbt.2877 [23] I Bayer, P Groth, and S Schneckener, “Prediction Errors in Learning Drug Response from Gene Expression Data – Influence of Labeling, Sample Size, and Machine Learning Algorithm,” PLOS ONE, vol 8, no 7, p e70294, Jul 2013, doi: 10.1371/journal.pone.0070294 [24] S B Amin et al., “Gene Expression Profile Alone Is Inadequate In Predicting Complete Response In Multiple Myeloma,” Leukemia, vol 28, no 11, pp 2229–2234, Nov 2014, doi: 10.1038/leu.2014.140 [25] N Stransky et al., “Pharmacogenomic agreement between two cancer cell line data sets,” Nature, vol 528, no 7580, Art no 7580, Dec 2015, doi: 10.1038/nature15736 [26] N Zhang, H Wang, Y Fang, J Wang, X Zheng, and X S Liu, “Predicting Anticancer Drug Responses Using a Dual-Layer Integrated Cell Line-Drug Network Model,” PLoS Comput Biol., vol 11, no 9, p e1004498, 2015, doi: 10.1371/journal.pcbi.1004498 46 [27] D.-H Le and V.-H Pham, “Drug Response Prediction by Globally Capturing Drug and Cell Line Information in a Heterogeneous Network,” J Mol Biol., vol 430, no 18, Part A, pp 2993–3004, Sep 2018, doi: 10.1016/j.jmb.2018.06.041 [28] A Cichonska et al., “Learning with multiple pairwise kernels for drug bioactivity prediction,” Bioinformatics, vol 34, no 13, pp i509–i518, Jul 2018, doi: 10.1093/bioinformatics/bty277 [29] M Ammad-ud-din et al., “Drug response prediction by inferring pathway-response associations with kernelized Bayesian matrix factorization,” Bioinformatics, vol 32, no 17, pp i455–i463, Sep 2016, doi: 10.1093/bioinformatics/btw433 [30] E C Neto, I S Jang, S H Friend, and A A Margolin, “The Stream algorithm: computationally efficient ridge-regression via Bayesian model averaging, and applications to pharmacogenomic prediction of cancer cell line sensitivity,” Pac Symp Biocomput Pac Symp Biocomput., pp 27–38, 2014 [31] G T T Nguyen and D.-H Le, “A matrix completion method for drug response prediction in personalized medicine,” in Proceedings of the Ninth International Symposium on Information and Communication Technology, New York, NY, USA, Dec 2018, pp 410–415, doi: 10.1145/3287921.3287974 [32] G Peddinti et al., “Early metabolic markers identify potential targets for the prevention of type diabetes,” Diabetologia, vol 60, no 9, pp 1740– 1750, Sep 2017, doi: 10.1007/s00125-017-4325-0 [33] D M Camacho, K M Collins, R K Powers, J C Costello, and J J Collins, “Next-Generation Machine Learning for Biological Networks,” Cell, vol 173, no 7, pp 1581–1592, Jun 2018, doi: 10.1016/j.cell.2018.05.015 47 [34] Y Chang et al., “Cancer Drug Response Profile scan (CDRscan): A Deep Learning Model That Predicts Drug Effectiveness from Cancer Genomic Signature,” Sci Rep., vol 8, no 1, p 8857, Jun 2018, doi: 10.1038/s41598-018-27214-6 48 ... 21 CHƯƠNG BÀI TOÁN DỰ ĐOÁN ĐÁP ỨNG THUỐC VÀ CÁC PHƯƠNG PHÁP TRÊN HỌC MÁY 23 2.1 Giới thiệu toán dự đoán đáp ứng thuốc 23 2.2 Các phương pháp dự đoán đáp ứng thuốc 24 2.3 Các... [31] dựa thuật toán softImpute dự đoán đáp ứng thuốc cho cell line chưa biết dựa liệu đáp ứng thuốc cho cell line biết Phương pháp không dự đoán cho loại thuốc mà dự đoán cho nhiều loại thuốc. .. Tơi định thực đề tài Ứng dụng mơ hình học máy dự đoán đáp ứng thuốc cho luận văn b) Mục đích, đối tượng, phạm vi nghiên cứu - Nghiên cứu liệu y sinh học liên quan đến đáp ứng thuốc - Nghiên cứu

Ngày đăng: 07/12/2021, 19:47

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
[2] “Học máy,” Wikipedia tiếng Việt. Mar. 13, 2021, Accessed: Apr. 02, 2021. [Online]. Available:https://vi.wikipedia.org/w/index.php?title=H%E1%BB%8Dc_m%C3%A1y&oldid=64592185 Sách, tạp chí
Tiêu đề: Học máy,” "Wikipedia tiếng Việt
[4] K. P. Bennett and C. Campbell, “Support vector machines: hype or hallelujah?,” ACM SIGKDD Explor. Newsl., vol. 2, no. 2, pp. 1–13, Dec Sách, tạp chí
Tiêu đề: Support vector machines: hype or hallelujah?,” "ACM SIGKDD Explor. Newsl
[6] R. H. Shoemaker, “The NCI60 human tumour cell line anticancer drug screen,” Nat. Rev. Cancer, vol. 6, no. 10, pp. 813–823, Oct. 2006, doi:10.1038/nrc1951 Sách, tạp chí
Tiêu đề: The NCI60 human tumour cell line anticancer drug screen,” "Nat. Rev. Cancer
[7] W. Yang et al., “Genomics of Drug Sensitivity in Cancer (GDSC): a resource for therapeutic biomarker discovery in cancer cells,” Nucleic Acids Res., vol. 41, no. Database issue, pp. D955-961, Jan. 2013, doi:10.1093/nar/gks1111 Sách, tạp chí
Tiêu đề: et al.", “Genomics of Drug Sensitivity in Cancer (GDSC): a resource for therapeutic biomarker discovery in cancer cells,” "Nucleic Acids Res
[8] J. Barretina et al., “The Cancer Cell Line Encyclopedia enables predictive modelling of anticancer drug sensitivity,” Nature, vol. 483, no Sách, tạp chí
Tiêu đề: et al.", “The Cancer Cell Line Encyclopedia enables predictive modelling of anticancer drug sensitivity,” "Nature
[9] T. A. Manolio et al., “Finding the missing heritability of complex diseases,” Nature, vol. 461, no. 7265, Art. no. 7265, Oct. 2009, doi:10.1038/nature08494 Sách, tạp chí
Tiêu đề: et al.", “Finding the missing heritability of complex diseases,” "Nature
[10] N. M. O’Boyle, “Towards a Universal SMILES representation - A standard method to generate canonical SMILES based on the InChI,” J Sách, tạp chí
Tiêu đề: Towards a Universal SMILES representation - A standard method to generate canonical SMILES based on the InChI,”
[11] J. S. Boehm and T. R. Golub, “An ecosystem of cancer cell line factories to support a cancer dependency map,” Nat. Rev. Genet., vol. 16, no Sách, tạp chí
Tiêu đề: An ecosystem of cancer cell line factories to support a cancer dependency map,” "Nat. Rev. Genet
[12] G. Caponigro and W. R. Sellers, “Advances in the preclinical testing of cancer therapeutic hypotheses,” Nat. Rev. Drug Discov., vol. 10, no. 3, Art. no. 3, Mar. 2011, doi: 10.1038/nrd3385 Sách, tạp chí
Tiêu đề: Advances in the preclinical testing of cancer therapeutic hypotheses,” "Nat. Rev. Drug Discov
[13] P. Geeleher, N. J. Cox, and R. S. Huang, “Clinical drug response can be predicted using baseline gene expression levels and in vitrodrug sensitivity in cell lines,” Genome Biol., vol. 15, no. 3, p. R47, Mar. 2014, doi: 10.1186/gb-2014-15-3-r47 Sách, tạp chí
Tiêu đề: Clinical drug response can be predicted using baseline gene expression levels and in vitrodrug sensitivity in cell lines,” "Genome Biol
[14] A. Daemen et al., “Modeling precision treatment of breast cancer,” Genome Biol., vol. 14, no. 10, p. R110, 2013, doi: 10.1186/gb-2013-14-10- r110 Sách, tạp chí
Tiêu đề: et al.", “Modeling precision treatment of breast cancer,” "Genome Biol
[15] T. P. Tran, E. Ong, A. P. Hodges, G. Paternostro, and C. Piermarocchi, “Prediction of kinase inhibitor response using activity profiling, in vitro screening, and elastic net regression,” BMC Syst. Biol., vol. 8, no. 1, p. 74, Jun. 2014, doi: 10.1186/1752-0509-8-74 Sách, tạp chí
Tiêu đề: Prediction of kinase inhibitor response using activity profiling, in vitro screening, and elastic net regression,” "BMC Syst. Biol
[16] G. R. Blumenschein et al., “Comprehensive biomarker analysis and final efficacy results of sorafenib in the BATTLE trial,” Clin. Cancer Res.Off. J. Am. Assoc. Cancer Res., vol. 19, no. 24, pp. 6967–6975, Dec. 2013, doi: 10.1158/1078-0432.CCR-12-1818 Sách, tạp chí
Tiêu đề: et al.", “Comprehensive biomarker analysis and final efficacy results of sorafenib in the BATTLE trial,” "Clin. Cancer Res. "Off. J. Am. Assoc. Cancer Res
[17] J. Yang et al., “DIGRE: Drug-Induced Genomic Residual Effect Model for Successful Prediction of Multidrug Effects,” CPT Pharmacomet.Syst. Pharmacol., vol. 4, no. 2, Feb. 2015, doi: 10.1002/psp4.1 Sách, tạp chí
Tiêu đề: et al.", “DIGRE: Drug-Induced Genomic Residual Effect Model for Successful Prediction of Multidrug Effects,” "CPT Pharmacomet. "Syst. Pharmacol
[18] M. Bansal et al., “A community computational challenge to predict the activity of pairs of compounds,” Nat. Biotechnol., vol. 32, no. 12, Art.no. 12, Dec. 2014, doi: 10.1038/nbt.3052 Sách, tạp chí
Tiêu đề: et al.", “A community computational challenge to predict the activity of pairs of compounds,” "Nat. Biotechnol
[19] Q. Wan and R. Pal, “An Ensemble Based Top Performing Approach for NCI-DREAM Drug Sensitivity Prediction Challenge,” PLOS ONE, vol Sách, tạp chí
Tiêu đề: An Ensemble Based Top Performing Approach for NCI-DREAM Drug Sensitivity Prediction Challenge,” "PLOS ONE
[20] P. Chen et al., “Identification of Prognostic Groups in High-Grade Serous Ovarian Cancer Treated with Platinum-Taxane Chemotherapy,”Cancer Res., vol. 75, no. 15, pp. 2987–2998, Aug. 2015, doi: 10.1158/0008- 5472.CAN-14-3242 Sách, tạp chí
Tiêu đề: et al.", “Identification of Prognostic Groups in High-Grade Serous Ovarian Cancer Treated with Platinum-Taxane Chemotherapy,” "Cancer Res
[21] G. T. T. Nguyen, L. Due Hoang, Q. D. Nguyen, T. T. Nguyen, H. T. T. Dang, and D. -H. Le, “An investigation of cancer cell line-based drug response prediction methods on patient data,” in 2020 12th International Conference on Knowledge and Systems Engineering (KSE), Nov. 2020, pp Sách, tạp chí
Tiêu đề: An investigation of cancer cell line-based drug response prediction methods on patient data,” in "2020 12th International Conference on Knowledge and Systems Engineering (KSE)
[23] I. Bayer, P. Groth, and S. Schneckener, “Prediction Errors in Learning Drug Response from Gene Expression Data – Influence of Labeling, Sample Size, and Machine Learning Algorithm,” PLOS ONE, vol. 8, no. 7, p.e70294, Jul. 2013, doi: 10.1371/journal.pone.0070294 Sách, tạp chí
Tiêu đề: Prediction Errors in Learning Drug Response from Gene Expression Data – Influence of Labeling, Sample Size, and Machine Learning Algorithm,” "PLOS ONE
[24] S. B. Amin et al., “Gene Expression Profile Alone Is Inadequate In Predicting Complete Response In Multiple Myeloma,” Leukemia, vol. 28, no. 11, pp. 2229–2234, Nov. 2014, doi: 10.1038/leu.2014.140 Sách, tạp chí
Tiêu đề: et al.", “Gene Expression Profile Alone Is Inadequate In Predicting Complete Response In Multiple Myeloma,” "Leukemia

HÌNH ẢNH LIÊN QUAN

Hình 1.1 Phương pháp phân loại SVM - Ứng dụng mô hình học máy trong dự đoán đáp ứng thuốc
Hình 1.1 Phương pháp phân loại SVM (Trang 16)
Hình 1.2 Phương pháp hồi quy SVR - Ứng dụng mô hình học máy trong dự đoán đáp ứng thuốc
Hình 1.2 Phương pháp hồi quy SVR (Trang 17)
Hình 1.3 Cấu trúc của mô hình Random Forest - Ứng dụng mô hình học máy trong dự đoán đáp ứng thuốc
Hình 1.3 Cấu trúc của mô hình Random Forest (Trang 18)
Hình 1.4 Mạng nơ-ron sinh học - Ứng dụng mô hình học máy trong dự đoán đáp ứng thuốc
Hình 1.4 Mạng nơ-ron sinh học (Trang 19)
Hình 1.5 Kiến trúc mạng nơ-ron nhân tạo - Ứng dụng mô hình học máy trong dự đoán đáp ứng thuốc
Hình 1.5 Kiến trúc mạng nơ-ron nhân tạo (Trang 20)
Hình 1.8 Mạng nơ-ron lan truyền thẳng - Ứng dụng mô hình học máy trong dự đoán đáp ứng thuốc
Hình 1.8 Mạng nơ-ron lan truyền thẳng (Trang 22)
Hình 1.9 Mạng nơ-ron lan truyền ngược - Ứng dụng mô hình học máy trong dự đoán đáp ứng thuốc
Hình 1.9 Mạng nơ-ron lan truyền ngược (Trang 22)
Hình 1.10 Đồ thị hàm sigmoid - Ứng dụng mô hình học máy trong dự đoán đáp ứng thuốc
Hình 1.10 Đồ thị hàm sigmoid (Trang 23)
Hình 1.11 Đồ thị hàm ReLU - Ứng dụng mô hình học máy trong dự đoán đáp ứng thuốc
Hình 1.11 Đồ thị hàm ReLU (Trang 24)
Hình 1.12 Kiến trúc mạng CNN - Ứng dụng mô hình học máy trong dự đoán đáp ứng thuốc
Hình 1.12 Kiến trúc mạng CNN (Trang 25)
Convolved Feature. Như trong hình, đang là bước trượt thứ 8, kết quả của - Ứng dụng mô hình học máy trong dự đoán đáp ứng thuốc
onvolved Feature. Như trong hình, đang là bước trượt thứ 8, kết quả của (Trang 26)
Hình 1.14 Minh họa mạng pooling - Ứng dụng mô hình học máy trong dự đoán đáp ứng thuốc
Hình 1.14 Minh họa mạng pooling (Trang 27)
Hình 1.15 Minh họa đầu vào lớp liên kết đầy đủ - Ứng dụng mô hình học máy trong dự đoán đáp ứng thuốc
Hình 1.15 Minh họa đầu vào lớp liên kết đầy đủ (Trang 28)
Hình 1.16 Minh họa nuôi cấy tế bào ung thư trong phòng thí nghiệm - Ứng dụng mô hình học máy trong dự đoán đáp ứng thuốc
Hình 1.16 Minh họa nuôi cấy tế bào ung thư trong phòng thí nghiệm (Trang 29)
Hình 1.17 Minh họa đo giá trị đáp ứng thuốc IC50 - Ứng dụng mô hình học máy trong dự đoán đáp ứng thuốc
Hình 1.17 Minh họa đo giá trị đáp ứng thuốc IC50 (Trang 32)
Hầu hết các phương pháp chủ yếu được sử dụng để xây dựng mô hình dự đoán phản ứng thuốc được dựa trên mô hình học giám sát - Ứng dụng mô hình học máy trong dự đoán đáp ứng thuốc
u hết các phương pháp chủ yếu được sử dụng để xây dựng mô hình dự đoán phản ứng thuốc được dựa trên mô hình học giám sát (Trang 36)
2.3 Các phương pháp đánh giá mô hình dự đoán - Ứng dụng mô hình học máy trong dự đoán đáp ứng thuốc
2.3 Các phương pháp đánh giá mô hình dự đoán (Trang 39)
Hình 3.1 Cấu trúc file PANCANCER_Genetic_feature.csv - Ứng dụng mô hình học máy trong dự đoán đáp ứng thuốc
Hình 3.1 Cấu trúc file PANCANCER_Genetic_feature.csv (Trang 43)
= auto), kết quả thực nghiệm được trình bày trong Bảng 3.1 - Ứng dụng mô hình học máy trong dự đoán đáp ứng thuốc
auto , kết quả thực nghiệm được trình bày trong Bảng 3.1 (Trang 45)
Bảng 3.3 Kết quả thực nghiệm lựa chọn số lượng mẫu tối thiểu - Ứng dụng mô hình học máy trong dự đoán đáp ứng thuốc
Bảng 3.3 Kết quả thực nghiệm lựa chọn số lượng mẫu tối thiểu (Trang 46)
Bảng 3.2 Kết quả thực nghiệm lựa chọn độ sâu của cây - Ứng dụng mô hình học máy trong dự đoán đáp ứng thuốc
Bảng 3.2 Kết quả thực nghiệm lựa chọn độ sâu của cây (Trang 46)
Bảng 3.4 Kết quả thực nghiệm lựa chọn thuộc tính tối đa - Ứng dụng mô hình học máy trong dự đoán đáp ứng thuốc
Bảng 3.4 Kết quả thực nghiệm lựa chọn thuộc tính tối đa (Trang 47)
Bảng 3.5 Kết quả thực nghiệm lựa chọn hệ số Gamma - Ứng dụng mô hình học máy trong dự đoán đáp ứng thuốc
Bảng 3.5 Kết quả thực nghiệm lựa chọn hệ số Gamma (Trang 47)
Bảng 3.6 Kết quả thực nghiệm lựa chọn Kernel - Ứng dụng mô hình học máy trong dự đoán đáp ứng thuốc
Bảng 3.6 Kết quả thực nghiệm lựa chọn Kernel (Trang 48)
Hình 3.5 Mô hình dự đoán với mạng nơ-ron tích chập - Ứng dụng mô hình học máy trong dự đoán đáp ứng thuốc
Hình 3.5 Mô hình dự đoán với mạng nơ-ron tích chập (Trang 49)
Hình 3.6 Đồ thị hội tụ của hàm sai số - Ứng dụng mô hình học máy trong dự đoán đáp ứng thuốc
Hình 3.6 Đồ thị hội tụ của hàm sai số (Trang 50)
Bảng 3.7 Kết quả thực nghiệm các tham số - Ứng dụng mô hình học máy trong dự đoán đáp ứng thuốc
Bảng 3.7 Kết quả thực nghiệm các tham số (Trang 50)
Hình 3.7 Đồ thị biểu diễn hội tụ của hàm pearson - Ứng dụng mô hình học máy trong dự đoán đáp ứng thuốc
Hình 3.7 Đồ thị biểu diễn hội tụ của hàm pearson (Trang 51)
Bảng 3.8 Kết quả kiểm thử các mô hình học máy và học sâu - Ứng dụng mô hình học máy trong dự đoán đáp ứng thuốc
Bảng 3.8 Kết quả kiểm thử các mô hình học máy và học sâu (Trang 52)
Mô hình RMSE PEARSON - Ứng dụng mô hình học máy trong dự đoán đáp ứng thuốc
h ình RMSE PEARSON (Trang 52)

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w