1. Trang chủ
  2. » Giáo Dục - Đào Tạo

Kết hợp PCA và kmeans với hồi quy logistic trong ứng dụng tiên lượng bệnh tiểu đường

92 68 3

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 92
Dung lượng 336,86 KB

Nội dung

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC QUY NHƠN LÊ THỊ DƯ KẾT HỢP PCA VÀ KMEANS VỚI HỒI QUY LOGISTIC TRONG ỨNG DỤNG TIÊN LƯỢNG BỆNH TIỂU ĐƯỜNG Chuyên ngành : Khoa học máy tính Mã số: 8.48.01.01 NGƯỜI HƯỚNG DẪN: TS LÊ XUÂN VINH LỜI CẢM ƠN Trước tiên, xin gửi lời biết ơn sâu sắc đến thầy TS Lê Xuân Vinh dành nhiều thời gian tâm huyết hướng dẫn thực luận văn tốt nghiệp Sự tận tình hướng dẫn thầy nguồn động viên lớn suốt thời gian tìm hiểu, nghiên cứu hồn thành luận văn Tơi xin bày tỏ lịng biết ơn đến quý thầy cô khoa công nghệ thông tin trường Đại học Quy Nhơn giảng dạy chia sẻ kinh nghiệm học tập, nghiên cứu đến với tập thể lớp thân Trong suốt trình học tập nghiên cứu, góp ý, chia sẻ, động viên tất thành viên tập thể lớp giúp tơi hồn thành tốt khóa học, xin cảm ơn tất anh chị bạn Tôi xin gửi lời biết ơn đến hội đồng sư phạm trường THPT Số Tuy Phước tạo điều kiện thuận lợi cho tơi có thời gian học tập bồi dưỡng nâng cao kiến thức chuyên mơn Cuối cùng, tơi gửi lịng biết ơn tới thành viên gia đình tạo điều kiện tốt để lựa chọn phát triển đường học tập Một lần nữa, tơi xin chân thành cảm ơn! Quy Nhơn, ngày tháng năm 2020 Học viên Lê Thị Dư MỤC LỤC •• LỜI CẢM ƠN DANH MỤC HÌNH VẼ VÀ CÁC BẢNG MỞ ĐẦU 1 3.5.1 Thực thuật toán hồi quy Logistic tập liệu K-Means 63 3.1Cải thiện thuật toán hồi quy Logistic kết hợp PCA K-Means 64 PHỤ LỤC QUYẾT ĐỊNH GIAO ĐỀ TÀI LUẬN VĂN THẠC SĨ (bản sao) DANH MỤC CÁC BẢNG 10 11 Pl-5 12 MỞ ĐẦU Lý chọn đề tài 13 Tiểu đường bệnh biểu tăng đường máu mãn tính thiếu insulin, bệnh khơng truyền nhiễm có ảnh hưởng nghiêm trọng sống người Nó xem bệnh hàng đầu có khả gây chết cho người Nhiều quốc gia phải đối mặt với phát triển nhanh chóng trẻ hóa bệnh tiểu đường Khi mắc bệnh tiểu đường làm cho số đường huyết cao mức bình thường Nguyên nhân tiết insulin bị khiếm khuyết ảnh hưởng sinh học bị suy yếu hai Bệnh tiểu đường dẫn đến tổn thương mãn tính rối loạn chức mơ khác nhau, đặc biệt mắt, thận, tim, mạch máu dây thần kinh tim mạch, hạ đường huyết, nhiễm trùng dẫn đến hoại tử tử vong 14 Theo tổ chức Y tế giới (WHO) gọi bệnh tiểu đường "Cơn sóng thần tàn phá sức khỏe tồn cầu" tỷ lệ mắc bệnh biến chứng bệnh ngày tăng cao Nếu khơng có biện pháp ngăn chặn hiệu dự báo đến năm 2040, tồn giới có 642 triệu người mắc bệnh tiểu đường, có triệu người mắc bệnh nước ta [7] Ngoài ra, 46.5% người mắc bệnh tiểu đường chưa chẩn đoán Điều nói lên 10 người trưởng thành tương lai có người mắc bệnh tiểu đường Vậy, bệnh tiểu đường ngày trẻ hóa tình trạng báo động nên cần phải ý nhiều đến Nguyên nhân kết hầu hết người bệnh khơng nhận tình trạng sức khỏe họ thời điểm sớm 15 Trong buổi gặp trao đổi thơng tin với báo chí Hội trại dinh dưỡng đái tháo đường tên gọi “Chung tay kiểm soát đẩy lùi bệnh đái tháo đường” lần III - năm 2018 (Diabetes Camp - 2018) diễn vào chiều 23/10, PGS.TS Tạ Văn Bình - Nguyên giám đốc Bệnh viện Nội tiết Trung ương, Pl-6 nguyên Viện trưởng Viện Đái tháo đường Rối loạn chuyển hóa (Đại học Y Hà Nội), Chủ tịch Hội người giáo dục bệnh đái tháo đường Việt Nam nhấn mạnh: “Đái tháo đường thực bệnh có nhiều biến chứng nguy hiểm, việc tầm soát, phát sớm bệnh đái tháo đường giúp cho trình điều trị đạt hiệu cao nhất, kiểm soát, ngăn ngừa biến chứng nguy hiểm ” [8] 16 Người mắc bệnh tiểu đường có sống khỏe mạnh hạnh phúc họ kiểm sốt bệnh cách thơng qua dùng thuốc kết hợp với chế độ ăn uống lành mạnh giám sát bác sỹ Vì vậy, phát sớm đóng vai trị quan trọng chẩn đốn bệnh tiểu đường giảm đáng kể bệnh biến chứng tiểu đường mang lại 17 Trong khoa học y tế, chẩn đốn tình trạng sức khỏe nhiệm vụ khó khăn Đặc biệt, chẩn đoán bệnh tiểu đường thách thức quan trọng nước phát triển phát triển Thực tế cho thấy, lịch sử khám bệnh bệnh nhân kết xét nghiệm cần thiết để chẩn đoán bệnh cụ thể chẩn đoán dựa kinh nghiệm bác sĩ Tuy nhiên, chẩn đoán bệnh bác sĩ kinh nghiệm chẩn đốn có kết khơng xác tình trạng sức khỏe bệnh nhân Do đó, làm để chẩn đốn phân tích bệnh tiểu đường nhanh chóng xác chủ đề đáng để nghiên cứu Chẩn đốn sớm hơn, kiểm sốt dễ dàng nhiều Để có kết chẩn đốn mong muốn, ngồi việc dựa vào kinh nghiệm cao bác sỹ cần phải sử dụng công nghệ thông tin tiên tiến ứng dụng khai thác liệu lĩnh vực phù hợp cho việc Khai thác liệu cung cấp khả trích xuất khám phá mẫu chưa biết, ẩn từ kho lưu trữ liệu lớn Những mẫu hỗ trợ y tế chẩn đoán định 18 Với phát triển phương pháp Machine Learning, khả Pl-7 vận dụng phương pháp để tìm giải pháp cho vấn đề khả thi, khai thác liệu hỗ trợ dự đoán tiên lượng bệnh nhân bị tiểu đường Hơn nữa, dự đoán bệnh sớm, điều trị cho tích cực cho bệnh nhân trước trở nên nguy kịch Khai thác liệu có khả trích xuất kiến thức ẩn từ lượng lớn liệu liên quan đến bệnh tiểu đường 19 Gần đây, có nhiều nhà nghiên cứu giới phát triển mơ hình dự đốn khác cách sử dụng khai thác liệu để dự đoán chẩn đoán cho bệnh nhân tiểu đường Tuy nhiên, hầu hết nghiên cứu họ gặp trở ngại bước tiền xử lí liệu bị giới hạn số liệu có sẵn cho dự đốn kết phân loại cuối Để khắc phục hạn chế này, đề xuất nghiên cứu với đề tài: “Kết hợp PCA K-Means với hồi quy Logistic ứng dụng tiên lượng bệnh tiểu đường” Đối tượng phạm vi nghiên cứu 2.1 Đối tượng nghiên cứu lý thuyết: 20 Tìm hiểu nội dung thuật tốn PCA, K-Means hồi quy Logistic từ xây dựng mơ hình kết hợp ba thuật tốn để tiên lượng kết dự đoán bệnh tiểu đường cho bệnh nhân 2.2 Đối tượng nghiên cứu thực tiễn: 21 Các số sinh hóa xét nghiệm bệnh nhân khám bệnh tiểu đường 2.3 Phạm vi nghiên cứu: 22 Dữ liệu bệnh nhân Bệnh viện đa khoa tỉnh Bình Định từ tháng năm 2019 đến tháng năm 2020 Phương pháp nghiên cứu 3.1 Phương pháp nghiên cứu tài liệu, tổng hợp hệ thống hóa: 23 Tìm kiếm, thu thập tài liệu từ cơng trình nghiên cứu khoa học công bố báo đăng hội nghị, tạp chí thông tin Pl-8 từ website ứng dụng thuật toán học máy toán phân lớp liệu Phân tích, tổng hợp rút trích nội dung cần thiết để giải yêu cầu 3.2 Phương pháp thực nghiệm khoa học: 24 Sử dụng liệu thu thập từ Bệnh Viện Đa Khoa Tỉnh Bình Định số sinh hóa xét nghiệm bệnh nhân tiểu đường cho trình thử nghiệm, đánh giá Thực việc thử nghiệm, đánh giá thuật toán đề xuất luận văn nhằm đánh giá tính hiệu độ xác q trình dự đốn đề xuất so với kết thực nghiệm cơng trình nghiên cứu có trước Mục tiêu nội dung luận văn 25 Mục tiêu nghiên cứu chúng tơi phân tích mơ hình, chứng tỏ kết dự báo xác kết hợp thuật tốn phân cụm K-Means hồi quy Logistic Vai trị phân tích thành phần (PCA) nhằm giảm chiều kích thước tập liệu bảo tồn thơng tin Sau thuật tốn K- Means sử dụng để loại bỏ liệu ngoại lai Sau sử dụng hồi quy Logistic để xây dựng mơ hình phân lớp dự báo Sự kết hợp thuật toán cải thiện hiệu mơ hình phân lớp Ý nghĩa khoa học thực tiễn 26 5.1 Ý nghĩa khoa học: 27 Với kết hợp ứng dụng ngành khoa học máy tính y khoa, đề tài đóng góp phương pháp thực nghiệm hỗ trợ ngành y học việc chẩn đoán bệnh cho bệnh nhân Kết thu thực đề tài hỗ trợ cho cán y tế chẩn đoán bệnh tiểu đường cho bệnh nhân 5.2 28 Ý nghĩa thực tiễn: Chẩn đoán phát bệnh q trình, địi hỏi cán y tế phải có trình độ chun mơn cao cần phải có đầy đủ trang thiết Pl-9 bị y tế hỗ trợ chẩn đốn xác tình trạng bệnh bệnh nhân Việc phát sớm xác bệnh đưa hướng điều trị đúng, khắc phục biến chứng bệnh gây cho bệnh nhân Điều góp phần giảm thiệt hại tinh thần kinh tế cho người bệnh, góp phần thúc đẩy kinh tế xã hội 29 Bố cục luận văn: Gồm lời mở đầu, nội dung ba chương, kết luận phụ lục kèm theo 30 Chương 1: Trình bày tổng quan học máy, toán phân lớp giới thiệu sơ qua phần mềm python 31 Chương 2: Giới thiệu số kiến thức thuật toán PCA, K-Means hồi quy Logistic 32 hồi quy Chương Logistic 3: hiệu Kết ứng hợp dụng thuật toánlượng PCA,hợp bệnh K-Means tiểu đường So sánh giảitiên pháp kết Chương 1: MỘT SỐ KIẾN THỨC LÝ THUYẾT CƠ SỞ 33 34 Trong chương này, chúng tơi trình bày số kiến thức học máy, giới thiệu toán phân lớp, toán phân lớp nhị phân liệu bệnh tiểu đường Chuẩn bị liệu mẫu lựa chọn cài đặt phần mềm python 1.1Giới hiệu Machine learning 1.1.1 35 Khái niệm Machine learning Học máy (Machine learning): nghiên cứu khoa học thuật tốn mơ hình thống kê mà hệ thống máy tính sử dụng để thực nhiệm vụ cụ thể mà không sử dụng hướng dẫn rõ ràng, thay vào dựa vào mẫu suy luận Machine learning tập trung vào phát triển hệ thống máy tính truy cập liệu sử dụng để tự học Đó phương pháp phân tích liệu tự động hóa việc xây dựng mơ hình phân tích Sử dụng thuật toán học từ liệu, học máy cho phép máy tính tìm thấy hiểu biết ẩn giấu mà khơng lập trình rõ ràng nơi cần tìm 1.1.2 36 Phân loại kỹ thuật học máy: Có nhiều loại mơ hình học máy khác như: học có giám sát, học không giám sát, học bán giám sát học tăng cường 37 Học có giám sát (SupervisedLearning): Học có giám sát kĩ thuật học máy để học tập từ tập liệu gán nhãn cho trước Tập liệu cho trước chứa nhiều liệu Mỗi liệu có cấu trúc theo cặp {x, y} với x xem liệu thơ y nhãn liệu Nhiệm vụ học có giám sát dự đốn đầu mong muốn dựa vào giá trị đầu vào Dễ nhận ra, học có giám sát tức máy học dựa vào trợ giúp người, hay nói cách khác người dạy cho máy học giá trị đầu mong muốn định trước người Tập liệu huấn luyện hoàn toàn gán nhãn dựa vào 1809 Tiếp theo loại bỏ liệu outliers cách xác định ngưỡng thực nêu Nếu mẫu liệu có khoảng cách đếntâm cụm mà lớn giá trị ngưỡng liệu loại bỏ 1810 1811 1812 Hình 3.6: Đồ thị cluster để xác định ngưỡng outliers 1813 Dựa vào đồ thị, xác định ngưỡng outliers sau: Lấy tọa độ liệu điểm gấp làm ngưỡng outliers cụm chúng tơi chọn điểm có hồnh độ 2.08; cụm lấy 1.35 Khi thuật tốn K-Means loại bỏ 40 mẫu tin (13.3%) 1814 Tập liệu sau thực thuật toán PCA - K-Means làm liệu đầu vào cho thuật toán hồi quy Logistic cịn 260 mẫu tin 1815 1818 1821 -• 1826 _ • • 1829 1832 ' ■j'.1835.ait • 1817 1816 1819 1820 1824 1825 3- •r 1827 1828 21830 1831 *♦* 1833 11834 1836 1837 "1* iit 0- 1842 1838 ■ • •• • • • 1839 1841 -1 - •••• 1843 Hình 3.7: Hình vẽ kết loại bỏ outliers dùng K-Means 1844 Trực quan hình vẽ, phát số điểm outliers bị loại bỏ khỏi tập liệu Kết liệu lúc nói làm 1845 Giai đoạn 3: Sử dụng hồi quy Logistic với mục tiêu phân loại liệu thành danh mục (bị bệnh tiểu đường, không bị bệnh tiểu đường) 1846 Mục đích sử dụng thuật tốn hồi quy Logistic tìm hợp phù hợp mặt chẩn đốn để mơ tả mối quan hệ biến mục tiêu biến dự đốn 1847 Chúng tơi nạp liệu đầu vào cho thuật toán hồi quy Logistic liệu loại bỏ outliers từ giai đoạn 1848 dfpid = pd read csv^’ D: \p^thon2|\

Ngày đăng: 16/08/2021, 11:16

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w