Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 23 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
23
Dung lượng
3,43 MB
Nội dung
TRƯỜNG ĐẠI HỌC ĐIỆN LỰC KHOA CÔNG NGHỆ THÔNG TIN BÁO CÁO CHUYÊN ĐỀ HỌC PHẦN MÁY VECTOR HỖ TRỢ - SVM ĐỀ TI: SỬ DỤNG KỸ THUẬT HỌC MÁY SVM ĐỂ DỰ ĐỐN KHẢ NĂNG SỐNG SĨT CỦA BỆNH NHÂN SUY TIM Sinh viên thực : NGUYỄN CÔNG MINH Giảng viên hướng dẫn : NGÔ QUỐC TẠO Ngành : CƠNG NGHỆ THƠNG TIN Chun ngành : TRÍ TUỆ NHÂN TẠO & THỊ GIÁC MÁY TÍNH Lớp : D14TTNT&TGMT Khóa : 2019-2024 Hà Nội, tháng năm 2022 PHIẾU CHẤM ĐIỂM STT Họ tên sinh viên Nội dung thực Điểm Nguyễn Công Minh (19810000174) Họ tên giảng viên Giảng viên chấm 1: Giảng viên chấm 2: Chữ ký Ghi Chữ ký MỤC LỤC LỜI MỞ ĐẦU LỜI CẢM ƠN CHƯƠNG I: TỔNG QUAN VỀ SVM VÀ PHÂN LOẠI NHỊ PHÂN 1.1 Mơ hình SVM 1.2 Phân lớp nhị phân CHƯƠNG THỬ NGHIỆM VÀ ĐÁNH GIÁ KẾT QUẢ 2.1 Bài toán 2.2 Xây dựng liệu .9 2.3 Đánh giá kết 15 KẾT LUẬN 21 TÀI LIỆU THAM KHẢO .22 LỜI MỞ ĐẦU Công nghệ ngày phổ biến khơng phù nhận tầm quan trọng hiệu mà đem lại cho sống Bất kỳ lĩnh vực nào, góp mặt trí tuệ nhân tạo giúp người làm việc hoàn thành tốt công việc Và gần đây, thuật ngữ “machine learning” nhiều người quan tâm Thay phải code phần mềm với cách thức thủ cơng theo hướng dẫn cụ thể nhằm hoàn toàn nhiệm vụ để máy tự “học hỏi” cách sử dụng lượng lớn liệu thuật tốn cho phép thực tác vụ Đây lĩnh vực khoa học khơng mới, cho thấy lĩnh vực trí tuệ nhân tạo ngày phát triển tiến xa tương lai Đồng thời, thời điểm xem lĩnh vực ‘nóng” dành nhiều mối quan tâm để phát triển cách mạnh mẽ, bùng nổ Hiện nay, việc quan tâm machine learning ngày tăng lên nhờ có machine learning giúp gia tăng dung lượng lưu trữ loại liệu sẵn, việc xử lý tính tốn có chi phí thấp hiệu nhiều Những điều hiểu thực tự động, nhanh chóng để tạo mơ hình cho phép phân tích dự liệu có quy mơ lớn phức tạp đồng thời đưa kết cách nhanh xác Chính hiệu cơng việc lợi ích vượt bậc mà đem lại cho khiến machine learning ngày trọng quan tâm nhiều Vì vậy, chúng em chọn đề tài “Sử dụng kỹ thuật học máy SVM để dự đoán khả sống sót bệnh nhân suy tim” LỜI CẢM ƠN Trên thực tế, khơng có thành cơng mà không gắn liền với hỗ trợ, giúp đỡ dù hay nhiều, dù trực tiếp hay gián tiếp người khác Trong suốt thời gian từ bắt đầu học tập giảng đường Đại học đến nay, em nhận nhiều quan tâm, giúp đỡ thầy cô, gia đình bạn bè Với lịng biết ơn sâu sắc nhất, em xin gửi đến thầy cô Khoa Công Nghệ Thông Tin- trường Đại Học Điện Lực với tri thức tâm huyết để truyền đạt vốn kiến thức quý báu cho chúng em suốt thời gian học tập trường Và đặc biệt, kỳ này, em tiếp cận với môn học hữu ích sinh viên ngành Cơng Nghệ Thơng Tin Đó mơn: “Máy vector hỗ trợ” Em xin chân thành cảm ơn thầy Ngô Quốc Tạo tận tâm hướng dẫn chúng em qua buổi học lớp buổi nói chuyện, thảo luận môn học Trong thời gian học tập thực hành hướng dân cô, em thu nhiều kiến thức bổ ích, mà cịn truyền say mê thích thú mơn “Máy vector hỗ trợ” Nếu khơng có lời hướng dẫn, dạy bảo em nghĩ báo cáo khó hồn thành Xin gửi lời cảm ơn chân thành đến gia đình, bạn bè nguồn động viên to lớn, giúp em vượt qua khó khăn q trình học tập thực báo cáo Mặc dù cố gắng hoàn thiện báo cáo với tất nỗ lực, nhiên, bước đầu vào thực tế, tìm hiểu xây dựng báo cáo thời gian có hạn, kiến thức cịn hạn chế, nhiều bỡ ngỡ, nên báo cáo “Sử dụng kỹ thuật học máy SVM để dự đốn khả sống sót bệnh nhân suy tim” chắn tránh khỏi thiếu sót Em mong nhận quan tâm, thơng cảm đóng góp q báu thầy cô bạn để báo cáo hoàn thiện Một lần nữa, em xin chân thành cảm ơn mong nhận đóng góp người Em xin chân thành cảm ơn CHƯƠNG I: TỔNG QUAN VỀ SVM V PHÂN LOẠI NHỊ PHÂN 1.1 Mơ hình SVM SVM (Support Vector Machine) thuật tốn học máy thuộc nhóm Supervised Learning (học có giám sát) sử dụng toán phân lớp liệu (classification) hay hồi qui (Regression) SVM thuật toán phân loại nhị phân, SVM nhận liệu vào phân loại chúng vào hai lớp khác Với ví dụ luyện tập thuộc hai thể loại cho trước, thuật toán luyện tập SVM xây dựng mơ hình SVM để phân loại ví dụ khác vào hai thể loại Phương trình tuyến tính SVM có dạng: => Trong w thuộc Rn vector hệ số ứng với chiều vector b hệ số tự khơng gian hai chiều gọi đường thẳng,không gian chiều mặt phẳng Công thức sai số dự đốn: => Trong đó, e sai số dự đoán, y giá trị thực ŷ giá trị dự đốn (hay cịn gọi y_pred) Hàm bình phương để tránh phương trình kết âm e sai số, nên giá trị nhỏ tốt Hàm mát Hàm đánh giá: Accuracy : (ACC) Cách đơn giản hay sử dụng accuracy (độ xác) Cách đánh giá đơn giản tính tỉ lệ số điểm dự đoán tổng số điểm tập liệu kiểm thử: Recommandé pour toi Suite du document ci-dessous Resumen Cap 59 Guyton Luis Enrique Silva Díaz Fisiología Humana y Prácticas 80 Question Paper - FFDBFGDNHFGHMJJMM Remote Sensing & Its Application In Environmental Science 82% (34) ACI Concrete Terminology 2018 Advanced Costume Construction 16 95% (19) 100% (2) Website Evaluation OF Maybank Systems Analysis for Information Management I 100% (1) Trong TP, TN dự đoán FP, FN dự đoán sai Precision - lấy Recall - lấy 1.2 Phân lớp nhị phân Phân lớp nhị phân (Binary classification) nhiệm vụ phân loại phần tử tập hợp đối tượng thành nhóm dựa sở chúng có thuộc tính hay khơng (hay cịn gọi tiêu chí) Một số nhiệm vụ phân loại nhị phân điển hình: - Kiểm tra y khoa xem bệnh nhân có bệnh hay khơng (thuộc tính để phân loại bệnh đó) - Quản lý chất lượng nhà máy, ví dụ: xác định xem sản phẩm làm đủ tốt để bán chưa, hay nên loại bỏ (thuộc tính để phân loại tính đủ tốt) - Xác định xem trang hay báo có nên nằm tập kết truy vấn hay khơng (thuộc tính độ liên quan báo - thường diện số từ báo đó) Đánh giá phân lớp nhị phân: Để đánh giá độ hiệu xét nghiệm y khoa, người ta thường sử dụng khái niệm độ nhạy đặc trưng Giả sử xét nghiệm xem vài người có bệnh hay khơng - Một số người có bệnh, kết xét nghiệm dương tính (positive) Họ gọi dương tính - Một số người có bệnh, kết xét nghiệm âm tính (negative) Họ gọi âm tính sai - Một số khơng có bệnh, kết xét nghiệm âm tính Họ gọi âm tính - Một số khơng có bệnh, kết xét nghiệm lại dương tính Họ gọi dương tính sai Tổng số người dương tính đúng, âm tính đúng, dương tính sai, âm tính sai chiếm 100% tổng số người xét nghiệm + Độ nhạy (sensitivity) tỉ lệ số người bị bệnh xác định có bệnh tổng số người bị bệnh, nghĩa (dương tính đúng)/(dương tính + âm tính sai) Nó coi "xác suất xét nghiệm cho kết dương tính người xét nghiệm có bị bệnh" Độ nhạy cao, khả bệnh không phát (hoặc, trường hợp quản lý chất lượng nhà máy, sản phẩm lỗi đưa thị trường) + Đặc trưng (specificity) tỉ lệ số người không bị bệnh có kết xét nghiệm âm tính tổng số người khơng có bệnh (thực), nghĩa (âm tính đúng)/(âm tính + dương tính sai) Nó cịn coi xác suất xét nghiệm cho kết âm tính người khơng có bệnh Độ đặc trưng cao, người mạnh khỏe coi bị bệnh (hoặc trường hợp nhà máy, tiền bị tốn phí loại bỏ sản phẩm chất lượng tốt thay đem bán chúng) Về mặt lý thuyết, độ nhạy đặc trưng độc lập, tức hai đạt đến 100% Trong thực tế, phải đánh đổi để - tốt lên xấu đi, đạt hai Một điểm cần ý nữa, độ nhạy đặc trưng độc lập với tỉ lệ số cá thể âm tính số cá thể dương tính Tuy nhiên, giá trị chúng lại phụ thuộc vào tổng số cá thể kiểm tra (population) Ví dụ: kiểm tra có kết quả: độ nhạy 99%, đặc trưng 99% - Giả sử số người kiểm tra 2000 người, 1000 có bệnh 1000 khỏe mạnh Như vậy, ta phát 990 người dương tính đúng, 990 người âm tính đúng, 10 âm tính sai, 10 dương tính sai Cuối cùng, tỉ lệ dự đốn trúng 99% cho kết dương tính âm tính Như vậy, hệ thống coi đáng tin cậy - Giả sử số người kiểm tra 2000 người, có 100 thực bị bệnh Giả sử ta có 99 dương tính đúng, âm tính sai, 1881 âm tính đúng, 19 dương tính sai Trong số 19+99 người xét nghiệm dương tính, có 99 người thực có bệnh CHƯƠNG THỬ NGHIỆM V ĐÁNH GIÁ KẾT QUẢ 2.1 Bài tốn Suy tim tình trạng tim khơng đủ khả bơm để cung cấp máu đảm bảo cho nhu cầu hoạt động thể Suy tim đường chung cuối hầu hết bệnh lí tim mạch Người bệnh bị suy tim suy giảm khả hoạt động, suy giảm chất lượng sống, tùy mức độ cần hỗ trợ khác Ngoài người bệnh suy tim nặng đứng trước nguy tử vong cao rối loạn nhịp đợt suy tim bù Suy tim chia làm hai loại suy tim cấp tính mạn tính Theo thống kê, bệnh tim mạch (CVDs) nguyên nhân gây tử vong số toàn cầu , cướp sinh mạng khoảng 17,9 triệu người năm , chiếm 31% tổng số ca tử vong toàn giới Những người mắc bệnh tim mạch người có nguy tim mạch cao (do diện nhiều yếu tố nguy tăng huyết áp, tiểu đường, tăng lipid máu bệnh có sẵn) cần phát quản lý sớm Suy tim kiện phổ biến CVDs gây Việc sử dụng mơ hình học máy giúp ích nhiều việc dự đốn tỷ lệ tử vong suy tim Bài toán Dự đoán khả sống sót bệnh nhân suy tim đưa tất thông tin, số người mắc bệnh suy tim, từ làm chuẩn đốn khả tỷ vong cao hay thấp người bệnh Giá trị input: Thông tin, số liệu sức khỏe người mắc bệnh suy tim Giá trị output: Kết người mắc bệnh suy tim có tỷ lệ tử vong cao hay không 2.2 Xây dựng liệu Tập liệu gồm 300 bệnh nhân với số mắc bệnh khác nhau, từ làm chuẩn đốn bệnh nhân có nguy tử vong cao, bênh nhân có nguy tử vong thấp Bệnh viện tổng hợp toàn liệu phân loại bệnh nhân theo trường hợp Đặt Y khả sống sót bệnh nhân suy tim, với Y=0 tử vong, ngược lại Y=1 sống sót Bộ liệu gồm 12 thuộc tính bao gồm: Age ( Tuổi ) Sex (Giới tính) Chest pain type (kiểu đau ngực) Resting blood pressure (huyết áp nghỉ ngơi) Cholestoral Fasting blood sugar (đường huyết lúc đói) Resting electrocardiographic results (kết điện tâm đồ lúc nghỉ ) Maximum heart rate achieved (nhịp tim tối đa đạt được) Exercise induced angina (tập thể dục gây đau thắt ngực) Oldpeak = ST depression induced by exercise relative to rest The slope of the peak exercise ST segment Number of major vessels (0-3) colored by flourosopy(số lượng tàu (03) tơ màu Flourrosopy) Thall Bộ liệu chia thành phần: Trong 80% liệu làm liệu huyến luyện mô hình ( tập train ), 20% cịn lại làm liệu thử nghiệm độ xác mơ hình ( tập test ) Cài đặt +Import thư viện: +Đọc file liệu, phân tích liệu, chuẩn hố, chia tỉ lệ tập train-test: + Max, min, giá trị trung bình, biến phân (variant), độ lêch chuẩn (std) + Chạy mơ hình học máy: + Đánh giá mơ hình dựa kết dự đoán (với độ đo đơn giản Accuracy, Precision, Recall) + Chuẩn hóa Min-Max X: +Biểu đồ chiều PCA: +Biểu đồ thể quan hệ cột Age y: 2.3 Đánh giá kết In liệu: Dữ liệu đầu vào X: Dữ liệu đầu Y: X_train,Y_train X_test,Y_test Max, min, giá trị trung bình, biến phân (variant), độ lêch chuẩn (std) X Chuẩn hóa min-max X: Đánh giá kết quả: Sau thử nghiệm với sở liệu kết phân lớp đạt 83% Đối với Precision, Recall: Ma trận dự đoán: +Biểu đồ chiều PCA: +Biểu đồ phân bố lớp: KẾT LUẬN Kết đạt : chúng em cài đặt thuật toán sử dụng dụng thư viện scikit-learn q trình học tập Nhưng bên cạnh thuật tốn cịn ưu nhược điểm như: Ưu điểm : Nhanh chóng để mơ hình hóa đặc biệt hữu ích mối quan hệ mơ hình hóa khơng q phức tạp bạn khơng có nhiều liệu Hồi quy tuyến tính đơn giản để hiểu, có giá trị cho định kinh doanh Nhược điểm : Đối với liệu phi tuyến tính, hồi quy đa thức khó khăn để thiết kế, người ta phải có số thông tin cấu trúc liệu mối quan hệ biến tính Trong trình thực đè tài có nhiều ý tưởng hay, độc đáo Nhưng kiến thức em hạn hẹp thời gian không cho phép nên em chưa thể ý tưởng Mặc dù em cố gắng để xây dựng chương trình hồn chỉnh nhất, đẹp q trình xây chương trình em khó tránh khỏi thiếu sót Vì em mong đóng góp ý kiến để em hồn thành báo cáo cách hoàn chỉnh chinh chu TI LIỆU THAM KHẢO 1) [ML] Hồi quy tuyến tính : https://dominhhai.github.io/vi/2017/12/ml-linear-regression/ 2) Machine Learning bản: https://machinelearningcoban.com/2016/12/28/linearregression/ 3) Phân tích hồi quy tuyến tính đa biến : https://bit.ly/30xi3Vb 4) Phân lớp nhị phân: https://machinelearningcoban.com/2016/12/27/categories/#class ification-phan-loai 5) Mơ hình SVM: https://machinelearningcoban.com/2017/04/09/smv/ 6) Slide giảng dạy thầy giáo Ngơ Quốc Tạo 7) Ngồi ra, chúng em tham khảo viết google, youtube,… 8) Nguồn liệu: https://www.kaggle.com/