(Luận văn) kết hợp pca và kmeans với hồi quy logistic trong ứng dụng tiên lượng bệnh tiểu đường

88 3 0
(Luận văn) kết hợp pca và kmeans với hồi quy logistic trong ứng dụng tiên lượng bệnh tiểu đường

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC QUY NHƠN LÊ THỊ DƯ lu an KẾT HỢP PCA VÀ KMEANS VỚI HỒI QUY LOGISTIC va n TRONG ỨNG DỤNG TIÊN LƯỢNG BỆNH TIỂU ĐƯỜNG p ie gh tn to d oa nl w Chuyên ngành : Khoa học máy tính Mã số: 8.48.01.01 fu an nv a lu ll NGƯỜI HƯỚNG DẪN: TS LÊ XUÂN VINH oi m at nh z z om l.c gm @ an Lu n va c a th si LỜI CẢM ƠN Trước tiên, xin gửi lời biết ơn sâu sắc đến thầy TS Lê Xuân Vinh dành nhiều thời gian tâm huyết hướng dẫn thực luận văn tốt nghiệp Sự tận tình hướng dẫn thầy nguồn động viên lớn suốt thời gian tìm hiểu, nghiên cứu hồn thành luận văn Tơi xin bày tỏ lịng biết ơn đến quý thầy cô khoa công nghệ thông tin trường Đại học Quy Nhơn giảng dạy chia sẻ kinh nghiệm học tập, nghiên cứu đến với tập thể lớp thân tơi Trong suốt q trình học tập lu nghiên cứu, góp ý, chia sẻ, động viên tất thành viên tập thể an n va lớp giúp tơi hồn thành tốt khóa học, tơi xin cảm ơn tất anh chị Tôi xin gửi lời biết ơn đến hội đồng sư phạm trường THPT Số Tuy p ie gh tn to bạn Phước tạo điều kiện thuận lợi cho tơi có thời gian học tập bồi dưỡng nâng d oa nl w cao kiến thức chun mơn Cuối cùng, tơi gửi lịng biết ơn tới thành viên gia đình tạo điều kiện tốt để lựa chọn phát triển đường học tập a lu fu an nv Một lần nữa, xin chân thành cảm ơn! Quy Nhơn, ngày tháng năm 2020 ll Học viên m oi Lê Thị Dư at nh z z om l.c gm @ an Lu n va c a th si MỤC LỤC LỜI CẢM ƠN DANH MỤC HÌNH VẼ VÀ CÁC BẢNG MỞ ĐẦU 1 Lý chọn đề tài Đối tượng phạm vi nghiên cứu 3 Phương pháp nghiên cứu lu Mục tiêu nội dung luận văn an n va Ý nghĩa khoa học thực tiễn tn to Bố cục luận văn: Chương 1: MỘT SỐ KIẾN THỨC LÝ THUYẾT CƠ SỞ p ie gh 1.1 Giới hiệu Machine learning 1.1.1 Khái niệm Machine learning d oa nl w 1.1.2 Phân loại kỹ thuật học máy: 1.1.3 Các ứng dụng Machine learning a lu 1.1.4Các bước thực học máy fu an nv 1.2 Bài toán phân lớp liệu 10 1.2.1 Phân lớp liệu 10 ll 1.2.2 Một số ứng dụng phân lớp tiêu biểu: 11 m oi 1.2.3 Tiến trình phân lớp liệu 12 nh at 1.3 Giới thiệu toán phân lớp cho bệnh tiểu đường 14 z 1.3.1 Giới thiệu bệnh tiểu đường 14 z 15 gm @ 1.3.2 Những kết nghiên cứu phân lớp cho liệu bệnh tiểu đường om l.c 1.3.3 Phương pháp luận nghiên cứu: 16 1.3.4 Công cụ hỗ trợ khai phá liệu 16 Lu an 1.3.5 Giới thiệu liệu tiểu đường 17 n va c a th si KẾT LUẬN CHƯƠNG 18 Chương 2: THUẬT TOÁN HỒI QUY LOGISTIC, PCA, K-MEANS 19 2.1 Thuật toán hồi quy Logistic( Logistic Regression) 19 2.1.1 Định nghĩa 19 2.1.2 Ứng dụng thuật toán hồi quy Logistic 20 2.1.3 Hàm Sigmoid sử dụng hồi quy Logistic 21 2.1.4 Xây dựng thuật toán hồi quy Logistic nhị phân 22 2.1.5 Ví dụ ứng dụng thuật toán hồi quy logistic 26 2.2 Thuật toán Principal Component Analysis (PCA) 29 lu an 2.2.1 Vai trò thuật toán PCA toán phân lớp 29 va 2.2.2 Bài toán giảm chiều liệu 30 n 2.2.3 Cơ sở toán học PCA 30 tn to 2.2.4 Các bước thực phương pháp PCA 31 p ie gh 2.2.5 Ví dụ áp dụng thuật tốn mô ứng dụng 32 2.3 Thuật toán phân cụm liệu K-Means 38 d oa nl w 2.3.1 Phân cụm liệu 38 2.3.2 Ứng dụng phân cụm: 40 a lu 2.3.3 Thuật toán phân cụm K-Means 40 fu an nv 2.3.4 Các bước thực thuật tốn K-Means 42 2.3.5 Ví dụ minh họa triển khai thuật toán K-Means 42 ll KẾT LUẬN CHƯƠNG 45 m oi Chương 3: SỰ KẾT HỢP BA THUẬT TOÁN PCA, K-MEANS VÀ HỒI QUY nh at LOGISTIC ỨNG DỤNG TIÊN LƯỢNG BỆNH TIỂU ĐƯỜNG 46 z 3.1 Chuẩn bị liệu tiểu đường 46 z @ 3.2 Tiền xử lí liệu 47 gm 3.3 Ứng dụng thuật toán hồi quy Logistic Regression Classifier phần om l.c mềm python để dự đoán bệnh tiểu đường cho bệnh nhân 48 3.4 Kết hợp thuật toán PCA hồi quy logistic vào ứng dụng tiên lượng Lu an bệnh tiểu đường 51 n va c a th si 3.4.1 Thuật toán PCA 51 3.4.2 Kết hợp hai thuật toán PCA-Logistic 57 3.5 K_Means hồi quy Logistic 59 3.5.1 Phát loại bỏ liệu ngoại lai(outliers) bỡi thuật toán phân cụm K-Means 59 3.5.2 Thực thuật toán hồi quy Logistic tập liệu K-Means 63 3.6 Cải thiện thuật toán hồi quy Logistic kết hợp PCA K-Means 64 lu KẾT LUẬN CHƯƠNG 67 an n va KẾT LUẬN 69 tn to DANH MỤC TÀI LIỆU THAM KHẢO 71 PHỤ LỤC p ie gh QUYẾT ĐỊNH GIAO ĐỀ TÀI LUẬN VĂN THẠC SĨ (bản sao) d oa nl w fu an nv a lu ll oi m at nh z z om l.c gm @ an Lu n va c a th si C.33.44.55.54.78.65.5.43.22.2.4 22.Tai lieu Luan 66.55.77.99 van Luan an.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.33.44.55.54.78.655.43.22.2.4.55.22 Do an.Tai lieu Luan van Luan an Do an.Tai lieu Luan van Luan an Do an C.33.44.55.54.78.65.5.43.22.2.4 22.Tai lieu Luan 66.55.77.99 van Luan an.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.33.44.55.54.78.655.43.22.2.4.55.22 Do an.Tai lieu Luan van Luan an Do an.Tai lieu Luan van Luan an Do an DANH MỤC CÁC BẢNG Bảng 3.1: Thống kê độ xác kết thuật toán 67 DANH MỤC CÁC HÌNH Hình 2.1: Phân ảnh phân loại đối tượng thành hai nhóm 20 Hình 2.2: Đồ thị hàm sigmoid biểu diễn python 22 Hình 2.3: Hình ảnh ví dụ phân cụm liệu thuật toán K- Means 39 lu Hình 3.1: Hình ảnh mơ tả trực quan biểu diễn giá trị ma trận nhầm lẫn 50 an Hình 3.2: Đồ thi phân tích thàn phần PCA 57 n va Hình 3.3 Mơ tả outlier liệu chiều 59 tn to Hình 3.4: Đồ thị cluster 62 p ie gh Hình 3.5: Đồ thị biểu diễn liệu thuật tốn PCA 65 Hình 3.6: Đồ thị cluster để xác định ngưỡng outliers 66 Hình 3.7: Hình vẽ kết loại bỏ outliers dùng K-Means 66 d oa nl w fu an nv a lu ll oi m at nh z z om l.c gm @ an Lu n va c a th Stt.010.Mssv.BKD002ac.email.ninhd 77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77t@edu.gmail.com.vn.bkc19134.hmu.edu.vn.Stt.010.Mssv.BKD002ac.email.ninhddtt@edu.gmail.com.vn.bkc19134.hmu.edu.vn Stt.010.Mssv.BKD002ac.email.ninhd 77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77t@edu.gmail.com.vn.bkc19134.hmu.edu.vn.Stt.010.Mssv.BKD002ac.email.ninhddtt@edu.gmail.com.vn.bkc19134.hmu.edu.vn si C.33.44.55.54.78.65.5.43.22.2.4 22.Tai lieu Luan 66.55.77.99 van Luan an.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.33.44.55.54.78.655.43.22.2.4.55.22 Do an.Tai lieu Luan van Luan an Do an.Tai lieu Luan van Luan an Do an C.33.44.55.54.78.65.5.43.22.2.4 22.Tai lieu Luan 66.55.77.99 van Luan an.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.33.44.55.54.78.655.43.22.2.4.55.22 Do an.Tai lieu Luan van Luan an Do an.Tai lieu Luan van Luan an Do an Pl-1 MỞ ĐẦU Lý chọn đề tài Tiểu đường bệnh biểu tăng đường máu mãn tính thiếu insulin, bệnh khơng truyền nhiễm có ảnh hưởng nghiêm trọng sống người Nó xem bệnh hàng đầu có khả gây chết cho người Nhiều quốc gia phải đối mặt với phát triển nhanh chóng trẻ hóa bệnh tiểu đường Khi mắc bệnh tiểu đường làm cho số đường huyết cao mức bình thường Nguyên lu nhân tiết insulin bị khiếm khuyết ảnh hưởng sinh học bị suy yếu an n va hai Bệnh tiểu đường dẫn đến tổn thương mãn tính rối loạn tn to chức mô khác nhau, đặc biệt mắt, thận, tim, mạch máu dây thần kinh tim mạch, hạ đường huyết, nhiễm trùng dẫn đến hoại tử tử vong p ie gh Theo tổ chức Y tế giới (WHO) gọi bệnh tiểu đường "Cơn sóng thần tàn phá sức khỏe tồn cầu" tỷ lệ mắc bệnh biến chứng bệnh d oa nl w ngày tăng cao Nếu khơng có biện pháp ngăn chặn hiệu dự báo đến năm 2040, tồn giới có 642 triệu người mắc bệnh tiểu đường, nv a lu có triệu người mắc bệnh nước ta [7] Ngoài ra, 46.5% người fu an mắc bệnh tiểu đường chưa chẩn đoán Điều nói lên 10 người ll trưởng thành tương lai có người mắc bệnh tiểu đường Vậy, bệnh oi m tiểu đường ngày trẻ hóa tình trạng báo động nên cần phải ý at nh nhiều đến Nguyên nhân kết hầu hết người bệnh không z nhận tình trạng sức khỏe họ thời điểm sớm z gm @ Trong buổi gặp trao đổi thơng tin với báo chí Hội trại dinh dưỡng đái tháo đường tên gọi “Chung tay kiểm soát đẩy lùi bệnh đái tháo đường” lần om l.c III - năm 2018 (Diabetes Camp - 2018) diễn vào chiều 23/10, PGS.TS Tạ Văn Bình - Nguyên giám đốc Bệnh viện Nội tiết Trung ương, nguyên Viện Lu an trưởng Viện Đái tháo đường Rối loạn chuyển hóa (Đại học Y Hà Nội), Chủ n va c a th Stt.010.Mssv.BKD002ac.email.ninhd 77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77t@edu.gmail.com.vn.bkc19134.hmu.edu.vn.Stt.010.Mssv.BKD002ac.email.ninhddtt@edu.gmail.com.vn.bkc19134.hmu.edu.vn Stt.010.Mssv.BKD002ac.email.ninhd 77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77t@edu.gmail.com.vn.bkc19134.hmu.edu.vn.Stt.010.Mssv.BKD002ac.email.ninhddtt@edu.gmail.com.vn.bkc19134.hmu.edu.vn si C.33.44.55.54.78.65.5.43.22.2.4 22.Tai lieu Luan 66.55.77.99 van Luan an.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.33.44.55.54.78.655.43.22.2.4.55.22 Do an.Tai lieu Luan van Luan an Do an.Tai lieu Luan van Luan an Do an C.33.44.55.54.78.65.5.43.22.2.4 22.Tai lieu Luan 66.55.77.99 van Luan an.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.33.44.55.54.78.655.43.22.2.4.55.22 Do an.Tai lieu Luan van Luan an Do an.Tai lieu Luan van Luan an Do an Pl-2 tịch Hội người giáo dục bệnh đái tháo đường Việt Nam nhấn mạnh: “Đái tháo đường thực bệnh có nhiều biến chứng nguy hiểm, việc tầm soát, phát sớm bệnh đái tháo đường giúp cho trình điều trị đạt hiệu cao nhất, kiểm soát, ngăn ngừa biến chứng nguy hiểm” [8] Người mắc bệnh tiểu đường có sống khỏe mạnh hạnh phúc họ kiểm sốt bệnh cách thơng qua dùng thuốc kết hợp với chế độ ăn uống lành mạnh giám sát bác sỹ Vì vậy, phát sớm đóng vai trị quan trọng chẩn đốn bệnh tiểu đường giảm đáng kể lu bệnh biến chứng tiểu đường mang lại an Trong khoa học y tế, chẩn đốn tình trạng sức khỏe nhiệm vụ n va khó khăn Đặc biệt, chẩn đoán bệnh tiểu đường thách thức tn to quan trọng nước phát triển phát triển Thực tế cho thấy, p ie gh lịch sử khám bệnh bệnh nhân kết xét nghiệm cần thiết để chẩn đoán bệnh cụ thể chẩn đoán dựa kinh nghiệm bác sĩ Tuy nhiên, d oa nl w chẩn đoán bệnh bác sĩ kinh nghiệm chẩn đốn có kết khơng xác tình trạng sức khỏe bệnh nhân Do đó, làm nv a lu để chẩn đốn phân tích bệnh tiểu đường nhanh chóng xác fu an chủ đề đáng để nghiên cứu Chẩn đoán sớm hơn, kiểm sốt dễ dàng nhiều Để có kết chẩn đốn mong muốn, việc dựa ll oi m vào kinh nghiệm cao bác sỹ cần phải sử dụng công nghệ thông at nh tin tiên tiến ứng dụng khai thác liệu lĩnh vực phù hợp z cho việc Khai thác liệu cung cấp khả trích xuất khám phá z mẫu chưa biết, ẩn từ kho lưu trữ liệu lớn Những mẫu hỗ trợ gm @ y tế chẩn đoán định om l.c Với phát triển phương pháp Machine Learning, khả vận dụng phương pháp để tìm giải pháp cho vấn đề khả thi, Lu an khai thác liệu hỗ trợ dự đoán tiên lượng bệnh nhân bị tiểu đường Hơn nữa, n va c a th Stt.010.Mssv.BKD002ac.email.ninhd 77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77t@edu.gmail.com.vn.bkc19134.hmu.edu.vn.Stt.010.Mssv.BKD002ac.email.ninhddtt@edu.gmail.com.vn.bkc19134.hmu.edu.vn Stt.010.Mssv.BKD002ac.email.ninhd 77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77t@edu.gmail.com.vn.bkc19134.hmu.edu.vn.Stt.010.Mssv.BKD002ac.email.ninhddtt@edu.gmail.com.vn.bkc19134.hmu.edu.vn si C.33.44.55.54.78.65.5.43.22.2.4 22.Tai lieu Luan 66.55.77.99 van Luan an.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.33.44.55.54.78.655.43.22.2.4.55.22 Do an.Tai lieu Luan van Luan an Do an.Tai lieu Luan van Luan an Do an C.33.44.55.54.78.65.5.43.22.2.4 22.Tai lieu Luan 66.55.77.99 van Luan an.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.33.44.55.54.78.655.43.22.2.4.55.22 Do an.Tai lieu Luan van Luan an Do an.Tai lieu Luan van Luan an Do an Pl-3 dự đoán bệnh sớm, điều trị cho tích cực cho bệnh nhân trước trở nên nguy kịch Khai thác liệu có khả trích xuất kiến thức ẩn từ lượng lớn liệu liên quan đến bệnh tiểu đường Gần đây, có nhiều nhà nghiên cứu giới phát triển mơ hình dự đốn khác cách sử dụng khai thác liệu để dự đoán chẩn đoán cho bệnh nhân tiểu đường Tuy nhiên, hầu hết nghiên cứu họ gặp trở ngại bước tiền xử lí liệu bị giới hạn số liệu có sẵn cho dự đốn kết phân loại cuối Để khắc phục hạn chế này, đề lu xuất nghiên cứu với đề tài: “Kết hợp PCA K-Means với hồi quy Logistic an ứng dụng tiên lượng bệnh tiểu đường” va n Đối tượng phạm vi nghiên cứu p ie gh tn to 2.1 Đối tượng nghiên cứu lý thuyết: Tìm hiểu nội dung thuật toán PCA, K-Means hồi quy Logistic từ xây dựng mơ hình kết hợp ba thuật toán để tiên lượng kết dự đoán bệnh d oa nl w tiểu đường cho bệnh nhân 2.2 Đối tượng nghiên cứu thực tiễn: nv a lu Các số sinh hóa xét nghiệm bệnh nhân khám bệnh tiểu đường fu an 2.3 Phạm vi nghiên cứu: Dữ liệu bệnh nhân Bệnh viện đa khoa tỉnh Bình Định từ tháng năm ll oi m 2019 đến tháng năm 2020 at nh Phương pháp nghiên cứu z 3.1 Phương pháp nghiên cứu tài liệu, tổng hợp hệ thống hóa: z Tìm kiếm, thu thập tài liệu từ cơng trình nghiên cứu khoa học @ gm công bố báo đăng hội nghị, tạp chí thơng tin từ om l.c website ứng dụng thuật toán học máy tốn phân lớp liệu Phân tích, tổng hợp rút trích nội dung cần thiết để giải yêu cầu an Lu 3.2 Phương pháp thực nghiệm khoa học: n va c a th Stt.010.Mssv.BKD002ac.email.ninhd 77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77t@edu.gmail.com.vn.bkc19134.hmu.edu.vn.Stt.010.Mssv.BKD002ac.email.ninhddtt@edu.gmail.com.vn.bkc19134.hmu.edu.vn Stt.010.Mssv.BKD002ac.email.ninhd 77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77t@edu.gmail.com.vn.bkc19134.hmu.edu.vn.Stt.010.Mssv.BKD002ac.email.ninhddtt@edu.gmail.com.vn.bkc19134.hmu.edu.vn si C.33.44.55.54.78.65.5.43.22.2.4 22.Tai lieu Luan 66.55.77.99 van Luan an.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.33.44.55.54.78.655.43.22.2.4.55.22 Do an.Tai lieu Luan van Luan an Do an.Tai lieu Luan van Luan an Do an C.33.44.55.54.78.65.5.43.22.2.4 22.Tai lieu Luan 66.55.77.99 van Luan an.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.33.44.55.54.78.655.43.22.2.4.55.22 Do an.Tai lieu Luan van Luan an Do an.Tai lieu Luan van Luan an Do an Pl-4 Sử dụng liệu thu thập từ Bệnh Viện Đa Khoa Tỉnh Bình Định số sinh hóa xét nghiệm bệnh nhân tiểu đường cho trình thử nghiệm, đánh giá Thực việc thử nghiệm, đánh giá thuật toán đề xuất luận văn nhằm đánh giá tính hiệu độ xác q trình dự đốn đề xuất so với kết thực nghiệm công trình nghiên cứu có trước Mục tiêu nội dung luận văn Mục tiêu nghiên cứu chúng tơi phân tích mơ hình, chứng tỏ kết lu dự báo xác kết hợp thuật toán phân cụm K-Means an hồi quy Logistic Vai trị phân tích thành phần (PCA) nhằm giảm chiều va n kích thước tập liệu bảo tồn thơng tin Sau thuật tốn K- p ie gh tn to Means sử dụng để loại bỏ liệu ngoại lai Sau sử dụng hồi quy Logistic để xây dựng mơ hình phân lớp dự báo Sự kết hợp thuật toán cải thiện hiệu mơ hình phân lớp d oa nl w Ý nghĩa khoa học thực tiễn 5.1 Ý nghĩa khoa học: nv a lu Với kết hợp ứng dụng ngành khoa học máy tính y khoa, đề fu an tài đóng góp phương pháp thực nghiệm hỗ trợ ngành y học việc chẩn đoán bệnh cho bệnh nhân Kết thu thực đề tài hỗ trợ ll at nh 5.2 Ý nghĩa thực tiễn: oi m cho cán y tế chẩn đoán bệnh tiểu đường cho bệnh nhân z Chẩn đoán phát bệnh q trình, địi hỏi cán y tế z phải có trình độ chun mơn cao cần phải có đầy đủ trang thiết bị y tế @ gm hỗ trợ chẩn đốn xác tình trạng bệnh bệnh nhân Việc phát om l.c sớm xác bệnh đưa hướng điều trị đúng, khắc phục biến chứng bệnh gây cho bệnh nhân Điều góp phần giảm Lu an thiệt hại tinh thần kinh tế cho người bệnh, góp phần thúc đẩy kinh tế n va c a th Stt.010.Mssv.BKD002ac.email.ninhd 77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77t@edu.gmail.com.vn.bkc19134.hmu.edu.vn.Stt.010.Mssv.BKD002ac.email.ninhddtt@edu.gmail.com.vn.bkc19134.hmu.edu.vn Stt.010.Mssv.BKD002ac.email.ninhd 77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77t@edu.gmail.com.vn.bkc19134.hmu.edu.vn.Stt.010.Mssv.BKD002ac.email.ninhddtt@edu.gmail.com.vn.bkc19134.hmu.edu.vn si C.33.44.55.54.78.65.5.43.22.2.4 22.Tai lieu Luan 66.55.77.99 van Luan an.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.33.44.55.54.78.655.43.22.2.4.55.22 Do an.Tai lieu Luan van Luan an Do an.Tai lieu Luan van Luan an Do an C.33.44.55.54.78.65.5.43.22.2.4 22.Tai lieu Luan 66.55.77.99 van Luan an.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.33.44.55.54.78.655.43.22.2.4.55.22 Do an.Tai lieu Luan van Luan an Do an.Tai lieu Luan van Luan an Do an Pl-68 vào triển khai mơ hình liệu thực tế áp dụng thực tiễn Chúng phân tích đánh giá đầu mơ hình số liệu cụ thể thể qua bảng nêu Trường hợp 1: Nếu sử dụng thuật toán hồi quy Logistic tập liệu chuẩn hóa, kết đạt mơ hình tốt Tuy nhiên, tập liệu tương đối nhỏ có thuộc tính ảnh hưởng nên kết đạt khả quan Nếu ứng dụng trường hợp vào tập liệu lớn hơn, chúng tơi ngại liệu outliers số chiều liệu lu tác động nhiều đến kết dự đốn Từ kết chẩn đốn chúng an tơi xác va n Trường hợp 2: Chúng định thử nghiệm kết hợp thuật tốn PCA tn to vào mơ hình dự đốn hồi quy Logistic mặc kết thấp Tuy p ie gh nhiên, ưu điểm thuật toán PCA giảm chiều liệu cách nén tập liệu lại Điều này, xét mặt tối ưu thời gian, có nhiều hy vọng d oa nl w giảm lượng thời gian đáng kể thực mơ hình chúng tơi giảm lượng lớn liệu làm ảnh hưởng đến kết dự đốn chúng nv a lu tơi fu an Trường hợp 3: Một kết mang lại thuật toán thật lý tưởng Độ xác dự đốn gần với kết thực tế sau thực loại bỏ ll oi m liệu outliers Tuy nhiên, thực thuật toán tập liệu lớn at nh tốn thời gian z Trường hợp 4: Chúng tin thử nghiệm thuật toán kết hợp z nêu cải tiến kết dự đoán hồi quy Logistic hiệu @ om l.c gm thời gian thực độ xác mơ hình an Lu n va c a th Stt.010.Mssv.BKD002ac.email.ninhd 77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77t@edu.gmail.com.vn.bkc19134.hmu.edu.vn.Stt.010.Mssv.BKD002ac.email.ninhddtt@edu.gmail.com.vn.bkc19134.hmu.edu.vn Stt.010.Mssv.BKD002ac.email.ninhd 77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77t@edu.gmail.com.vn.bkc19134.hmu.edu.vn.Stt.010.Mssv.BKD002ac.email.ninhddtt@edu.gmail.com.vn.bkc19134.hmu.edu.vn si C.33.44.55.54.78.65.5.43.22.2.4 22.Tai lieu Luan 66.55.77.99 van Luan an.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.33.44.55.54.78.655.43.22.2.4.55.22 Do an.Tai lieu Luan van Luan an Do an.Tai lieu Luan van Luan an Do an C.33.44.55.54.78.65.5.43.22.2.4 22.Tai lieu Luan 66.55.77.99 van Luan an.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.33.44.55.54.78.655.43.22.2.4.55.22 Do an.Tai lieu Luan van Luan an Do an.Tai lieu Luan van Luan an Do an Pl-69 KẾT LUẬN Qua thời gian học tập, nghiên cứu hồn thành luận văn, chúng tơi đạt kết sau: Thứ nhất, nắm số kiến thức học máy, hiểu quy trình học máy để ứng dụng vào thực tiễn Thứ hai, biết cài đặt chương trình annaconda, sử dụng phần mềm sublime Text triển khai thuật tốn thực nghiệm Thứ ba, phần trình bày luận văn chúng tơi nêu với mục đích xây lu dựng mơ hình hiệu để dự đoán bệnh tiểu đường cho bệnh nhân Sau an n va nghiên cứu đề xuất mơ hình mới, bao gồm kết hợp PCA tn to để giảm kích thước liệu, phân cụm K-Means để phát loại bỏ liệu ngoại lai, cuối dùng hồi quy Logistic để phân loại p ie gh Thông qua kết thực nghiệm chúng tơi mơ hình cải tiến thuật toán phân loại hồi quy Logistic để dự đốn bệnh tiểu đường d oa nl w thực thông qua việc kết hợp hai thuật toán PCA K-Means (từ 0.92% lên 0.96%) a lu Kết sử dụng thuật toán cải tiến hồi quy Logistic cách kết hợp nv fu an PCA K-Means cho độ xác cao Qua cho thấy q trình cải tiến thuật ll tốn hồi quy Logistic xây dựng thành công Điều giúp oi m cho bạn đọc có lựa chọn tập liệu at nh Cuối cùng, tính đạt đề tài nghiên cứu chúng tơi PCA z góp phần nâng cao khả phân cụm liệu cho K-Means làm cho kết z thuật tốn kết hợp sau gm @ phân cụm liệu đạt tốt Kết tốt cho liệu đầu vào cho om l.c Điểm hạn chế đề tài là: tập liệu thu thập cịn Vì thế, chúng tơi chưa đánh giá hết hiệu suất mơ Lu an hình cải tiến Hy vọng bạn đọc ứng dụng mơ hình đề xuất n va c a th Stt.010.Mssv.BKD002ac.email.ninhd 77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77t@edu.gmail.com.vn.bkc19134.hmu.edu.vn.Stt.010.Mssv.BKD002ac.email.ninhddtt@edu.gmail.com.vn.bkc19134.hmu.edu.vn Stt.010.Mssv.BKD002ac.email.ninhd 77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77t@edu.gmail.com.vn.bkc19134.hmu.edu.vn.Stt.010.Mssv.BKD002ac.email.ninhddtt@edu.gmail.com.vn.bkc19134.hmu.edu.vn si C.33.44.55.54.78.65.5.43.22.2.4 22.Tai lieu Luan 66.55.77.99 van Luan an.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.33.44.55.54.78.655.43.22.2.4.55.22 Do an.Tai lieu Luan van Luan an Do an.Tai lieu Luan van Luan an Do an C.33.44.55.54.78.65.5.43.22.2.4 22.Tai lieu Luan 66.55.77.99 van Luan an.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.33.44.55.54.78.655.43.22.2.4.55.22 Do an.Tai lieu Luan van Luan an Do an.Tai lieu Luan van Luan an Do an Pl-70 tập liệu lớn nhằm đưa nhược điểm hướng khắc phục để đề tài phát triển đưa vào ứng dụng rộng rãi lu an n va p ie gh tn to d oa nl w fu an nv a lu ll oi m at nh z z om l.c gm @ an Lu n va c a th Stt.010.Mssv.BKD002ac.email.ninhd 77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77t@edu.gmail.com.vn.bkc19134.hmu.edu.vn.Stt.010.Mssv.BKD002ac.email.ninhddtt@edu.gmail.com.vn.bkc19134.hmu.edu.vn Stt.010.Mssv.BKD002ac.email.ninhd 77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77t@edu.gmail.com.vn.bkc19134.hmu.edu.vn.Stt.010.Mssv.BKD002ac.email.ninhddtt@edu.gmail.com.vn.bkc19134.hmu.edu.vn si C.33.44.55.54.78.65.5.43.22.2.4 22.Tai lieu Luan 66.55.77.99 van Luan an.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.33.44.55.54.78.655.43.22.2.4.55.22 Do an.Tai lieu Luan van Luan an Do an.Tai lieu Luan van Luan an Do an C.33.44.55.54.78.65.5.43.22.2.4 22.Tai lieu Luan 66.55.77.99 van Luan an.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.33.44.55.54.78.655.43.22.2.4.55.22 Do an.Tai lieu Luan van Luan an Do an.Tai lieu Luan van Luan an Do an Pl-71 DANH MỤC TÀI LIỆU THAM KHẢO [1] TS Lê Thị Kim Nga - Đại học Quy Nhơn - Giáo trình xử lý ảnh, 2019 [2] TS Lê Xuân Vinh - Đại học Quy Nhơn - Giáo trình Machine Learning, 2019 [3] A Iyer, S Jeyalatha, R Sumbaly, Diagnosis of diabetes using classification mining techniques, Int J Data Min Knowl Manag Process (IJDKP), (1) (2015) [4] J Han, M Kamber, J Pei, Data mining concepts and techniques, lu (3rd), Morgan Kaufmann Publishers, USA (2012) an n va [5] B.M Patil, R.C Joshi, Toshniwal Durga, Hybrid prediction model for tn to Type-2 diabetic patients, Expert Syst Appl, 37 (2010), pp 8102-8108 p ie gh [6] J Novakovic, S Rankov, Classification performance using principal component analysis and different value of the ratio R, Int J Comput Commun d oa nl w Control, Vol VI (2) (2011), pp 317-327, ISSN 1841-9836, E-ISSN 1841-9844 [7]http://daithaoduong.kcb.vn/tinh-hinh-dai-thao-duong/ [8]http://dantri.com.vn/suc-khoe/du-bao-se-co-tren-600-trieu-nguoi-mac- a lu benh-tieu-duong-vao-nam-2030-20181024102930774.htm nv fu an [9]https://www.diabetesdaily.com/learn-about-diabetes/what-is- ll diabetes/how-many-people-have-diabetes/ oi m at nh z z om l.c gm @ an Lu n va c a th Stt.010.Mssv.BKD002ac.email.ninhd 77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77t@edu.gmail.com.vn.bkc19134.hmu.edu.vn.Stt.010.Mssv.BKD002ac.email.ninhddtt@edu.gmail.com.vn.bkc19134.hmu.edu.vn Stt.010.Mssv.BKD002ac.email.ninhd 77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77t@edu.gmail.com.vn.bkc19134.hmu.edu.vn.Stt.010.Mssv.BKD002ac.email.ninhddtt@edu.gmail.com.vn.bkc19134.hmu.edu.vn si C.33.44.55.54.78.65.5.43.22.2.4 22.Tai lieu Luan 66.55.77.99 van Luan an.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.33.44.55.54.78.655.43.22.2.4.55.22 Do an.Tai lieu Luan van Luan an Do an.Tai lieu Luan van Luan an Do an C.33.44.55.54.78.65.5.43.22.2.4 22.Tai lieu Luan 66.55.77.99 van Luan an.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.33.44.55.54.78.655.43.22.2.4.55.22 Do an.Tai lieu Luan van Luan an Do an.Tai lieu Luan van Luan an Do an Pl-72 PHỤ LỤC Chương trình phân tích thành phần PCA import numpy as np import pandas as pd from sklearn.decomposition import PCA import matplotlib.pyplot as plt from sklearn.preprocessing import StandardScaler df = pd.read_csv(filepath_or_buffer='D:\python2\dulieu.csv', lu header=None, sep=',') an n va print("\nTAB_PID") df = df.drop(df.index[[0]], axis=0) p ie gh tn to print(df) df.dropna(how="all", inplace=True) d oa nl w ar_x = df.iloc[:,0:3].values ar_y = df.iloc[:,3].values ar_x_std = StandardScaler().fit_transform(ar_x) a lu df_std = pd.DataFrame(ar_x_std, columns=['Tuoi', 'GioiTinh', nv fu an 'Glucose']) ll df_std['ChanDoan'] = ar_y oi at nh print(df_std) m print("\ndf_std") z df_std.to_csv(r'D:\python2\dulieu_chuanhoa.csv') z print("\ncov_mat") cov_mat = np.cov(ar_x_std.T) om l.c print(cov_mat) gm @ cov_mat= np.cov(ar_x_std, rowvar=False) an Lu eig_vals, eig_vecs = np.linalg.eig(cov_mat) n va c a th Stt.010.Mssv.BKD002ac.email.ninhd 77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77t@edu.gmail.com.vn.bkc19134.hmu.edu.vn.Stt.010.Mssv.BKD002ac.email.ninhddtt@edu.gmail.com.vn.bkc19134.hmu.edu.vn Stt.010.Mssv.BKD002ac.email.ninhd 77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77t@edu.gmail.com.vn.bkc19134.hmu.edu.vn.Stt.010.Mssv.BKD002ac.email.ninhddtt@edu.gmail.com.vn.bkc19134.hmu.edu.vn si C.33.44.55.54.78.65.5.43.22.2.4 22.Tai lieu Luan 66.55.77.99 van Luan an.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.33.44.55.54.78.655.43.22.2.4.55.22 Do an.Tai lieu Luan van Luan an Do an.Tai lieu Luan van Luan an Do an C.33.44.55.54.78.65.5.43.22.2.4 22.Tai lieu Luan 66.55.77.99 van Luan an.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.33.44.55.54.78.655.43.22.2.4.55.22 Do an.Tai lieu Luan van Luan an Do an.Tai lieu Luan van Luan an Do an Pl-73 print("\neigen vectors, eigen values") print('vectors \n%s' %eig_vecs) print('values \n%s' %eig_vals) eig_pairs = [(np.abs(eig_vals[i]), eig_vecs[:,i]) for i in range(len(eig_vals))] eig_pairs.sort() eig_pairs.reverse() print("\neigen pairs") lu print(eig_pairs) an for i in eig_pairs: va n print(i[0]) p ie gh tn to tot = sum(eig_vals) print("\nev_total: ",tot) var_exp = [(i / tot)*100 for i in sorted(eig_vals, reverse=True)] d oa nl w print(var_exp) cum_var_exp = np.cumsum(var_exp) nv a lu print(cum_var_exp) fu an print("2 dimensions: ",var_exp[0:2]) print("2 dimentions: ",sum(var_exp[0:2])) ll oi m print("\nselected eigen pairs") z z gm @ print("\nmat_w") at print(eig_pairs[1][1]) nh print(eig_pairs[0][1]) mat_w = np.hstack((eig_pairs[0][1].reshape(3,1), print(mat_w) om l.c eig_pairs[1][1].reshape(3,1))) an Lu mat_y = ar_x_std.dot(mat_w) n va c a th Stt.010.Mssv.BKD002ac.email.ninhd 77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77t@edu.gmail.com.vn.bkc19134.hmu.edu.vn.Stt.010.Mssv.BKD002ac.email.ninhddtt@edu.gmail.com.vn.bkc19134.hmu.edu.vn Stt.010.Mssv.BKD002ac.email.ninhd 77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77t@edu.gmail.com.vn.bkc19134.hmu.edu.vn.Stt.010.Mssv.BKD002ac.email.ninhddtt@edu.gmail.com.vn.bkc19134.hmu.edu.vn si C.33.44.55.54.78.65.5.43.22.2.4 22.Tai lieu Luan 66.55.77.99 van Luan an.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.33.44.55.54.78.655.43.22.2.4.55.22 Do an.Tai lieu Luan van Luan an Do an.Tai lieu Luan van Luan an Do an C.33.44.55.54.78.65.5.43.22.2.4 22.Tai lieu Luan 66.55.77.99 van Luan an.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.33.44.55.54.78.655.43.22.2.4.55.22 Do an.Tai lieu Luan van Luan an Do an.Tai lieu Luan van Luan an Do an Pl-74 df_principle = pd.DataFrame(data = mat_y , columns = ['pc1', 'pc2']) print("\ndf_principle") print(df_principle) df_final = pd.concat([df_principle, pd.DataFrame(ar_y,columns = ['ChanDoan'])], axis = 1) print("\ndf_final") print(df_final) df_final.to_csv(r'D:\python2\dulieu_chuanhoa_pca.csv') lu max = 1000 an plt.subplot(2,2,1) va n plt.title('PCA [0:1]') p ie gh tn to for i in df_final.index: if i < max: if df_final.iloc[i,2] == '0': d oa nl w plt.scatter(df_final.iloc[i,0], df_final.iloc[i,1], s = 20, c = 'g') elif df_final.iloc[i,2] == '1': plt.subplot(2,2,2) fu an nv a lu plt.scatter(df_final.iloc[i,0], df_final.iloc[i,1], s = 20, c = 'b') plt.title('PCA [0:2]') ll oi m for i in df_final.index: at z if df_final.iloc[i,2] == '0': nh if i < max: z elif df_final.iloc[i,2] == '1': gm @ plt.scatter(df_final.iloc[i,0], df_final.iloc[i,2], s = 20, c = 'g') plt.subplot(2,2,3) om l.c plt.scatter(df_final.iloc[i,0], df_final.iloc[i,2], s = 20, c = 'b') an Lu plt.title('PCA [1:2]') n va c a th Stt.010.Mssv.BKD002ac.email.ninhd 77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77t@edu.gmail.com.vn.bkc19134.hmu.edu.vn.Stt.010.Mssv.BKD002ac.email.ninhddtt@edu.gmail.com.vn.bkc19134.hmu.edu.vn Stt.010.Mssv.BKD002ac.email.ninhd 77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77t@edu.gmail.com.vn.bkc19134.hmu.edu.vn.Stt.010.Mssv.BKD002ac.email.ninhddtt@edu.gmail.com.vn.bkc19134.hmu.edu.vn si C.33.44.55.54.78.65.5.43.22.2.4 22.Tai lieu Luan 66.55.77.99 van Luan an.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.33.44.55.54.78.655.43.22.2.4.55.22 Do an.Tai lieu Luan van Luan an Do an.Tai lieu Luan van Luan an Do an C.33.44.55.54.78.65.5.43.22.2.4 22.Tai lieu Luan 66.55.77.99 van Luan an.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.33.44.55.54.78.655.43.22.2.4.55.22 Do an.Tai lieu Luan van Luan an Do an.Tai lieu Luan van Luan an Do an Pl-75 for i in df_final.index: if i < max: if df_final.iloc[i,2] == '0': plt.scatter(df_final.iloc[i,1], df_final.iloc[i,2], s = 20, c = 'g') elif df_final.iloc[i,2] == '1': plt.scatter(df_final.iloc[i,1], df_final.iloc[i,2], s = 20, c = 'b') plt.show() Chương trình phân cụm loại bỏ outliers K-Means lu import pandas as pd an import numpy as np va n import seaborn as sns p ie gh tn to import scipy as ss from sklearn.cluster import KMeans import matplotlib.pyplot as plt d oa nl w from sklearn.metrics import accuracy_score df_pid = pd.read_csv('D:\python2\dulieu_chuanhoa.csv') fu an print(df_pid) nv a lu print("\nTAB_PID") df_X = df_pid.drop(['ChanDoan'], axis=1 ll at z kmeans = KMeans(n_clusters=2) df_pid_clustered = kmeans.predict(df_X) om l.c kmeans.fit(df_X) gm @ print(df_X) z print("\nbảng tách Y") nh df_y = df_pid['ChanDoan'] oi m df_X = df_X.iloc[:, 1:] an Lu df_pid_transformed = kmeans.transform(df_X) n va c a th Stt.010.Mssv.BKD002ac.email.ninhd 77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77t@edu.gmail.com.vn.bkc19134.hmu.edu.vn.Stt.010.Mssv.BKD002ac.email.ninhddtt@edu.gmail.com.vn.bkc19134.hmu.edu.vn Stt.010.Mssv.BKD002ac.email.ninhd 77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77t@edu.gmail.com.vn.bkc19134.hmu.edu.vn.Stt.010.Mssv.BKD002ac.email.ninhddtt@edu.gmail.com.vn.bkc19134.hmu.edu.vn si C.33.44.55.54.78.65.5.43.22.2.4 22.Tai lieu Luan 66.55.77.99 van Luan an.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.33.44.55.54.78.655.43.22.2.4.55.22 Do an.Tai lieu Luan van Luan an Do an.Tai lieu Luan van Luan an Do an C.33.44.55.54.78.65.5.43.22.2.4 22.Tai lieu Luan 66.55.77.99 van Luan an.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.33.44.55.54.78.655.43.22.2.4.55.22 Do an.Tai lieu Luan van Luan an Do an.Tai lieu Luan van Luan an Do an Pl-76 df_proc = pd.DataFrame() df_proc['ChanDoan_true'] = df_y ChanDoan_true = ChanDoan_false = for i in df_proc.index: if df_proc.iloc[i,0] == df_proc.iloc[i,1]: ChanDoan_true = ChanDoan_true + else: lu ChanDoan_false = ChanDoan_false + an kmeans_acc_per = ChanDoan_true / (ChanDoan_true + n va ChanDoan_false) p ie gh tn to df_pid_clustered_2 = [] for x in df_pid_clustered: if x == 1: d oa nl w df_pid_clustered_2.append(0) elif x == 0: nv a lu df_pid_clustered_2.append(1) fu an df_pid_clustered_2 = np.array(df_pid_clustered_2) kmeansclustercenters = kmeans.cluster_centers_ ll oi m print("\nKmeans_Cluster_Centers:") at z if kmeans_acc_per < 0.5: nh print(kmeansclustercenters) z kmeans_acc_per = - kmeans_acc_per kmeansclustercenters = om l.c np.flip(kmeansclustercenters, 0) gm @ df_pid_clustered = df_pid_clustered_2 df_pid_transformed = np.flip(df_pid_transformed, 1) an Lu print("\nKmeans_Cluster_Centers:") n va c a th Stt.010.Mssv.BKD002ac.email.ninhd 77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77t@edu.gmail.com.vn.bkc19134.hmu.edu.vn.Stt.010.Mssv.BKD002ac.email.ninhddtt@edu.gmail.com.vn.bkc19134.hmu.edu.vn Stt.010.Mssv.BKD002ac.email.ninhd 77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77t@edu.gmail.com.vn.bkc19134.hmu.edu.vn.Stt.010.Mssv.BKD002ac.email.ninhddtt@edu.gmail.com.vn.bkc19134.hmu.edu.vn si C.33.44.55.54.78.65.5.43.22.2.4 22.Tai lieu Luan 66.55.77.99 van Luan an.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.33.44.55.54.78.655.43.22.2.4.55.22 Do an.Tai lieu Luan van Luan an Do an.Tai lieu Luan van Luan an Do an C.33.44.55.54.78.65.5.43.22.2.4 22.Tai lieu Luan 66.55.77.99 van Luan an.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.33.44.55.54.78.655.43.22.2.4.55.22 Do an.Tai lieu Luan van Luan an Do an.Tai lieu Luan van Luan an Do an Pl-77 print(kmeansclustercenters) print("\nKmeans_Accuracy_Percent:") print(kmeans_acc_per) print("\nKmeans_Transformed:") print(df_pid_transformed) df_proc['cluster'] = df_pid_clustered d00 = [] d11 = [] lu for i in df_X.index: an if df_proc.iloc[i,0] == 0: va n d00.append(df_pid_transformed[i][0]) tn to d11.append(-1) p ie gh else: d11.append(df_pid_transformed[i][1]) d oa nl w d00.append(-1) df_proc['d00'] = d00 nv a lu df_proc['d11'] = d11 fu an d00 = [x for x in d00 if x >= 0] d11 = [x for x in d11 if x >= 0] ll z plt.title('Cluster 2') om l.c gm @ plt.subplot(2,1,2) z d11.sort() at plt.plot(d00) nh plt.title('Cluster 1') oi plt.subplot(2,1,1) m d00.sort() an Lu plt.plot(d11) n va c a th Stt.010.Mssv.BKD002ac.email.ninhd 77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77t@edu.gmail.com.vn.bkc19134.hmu.edu.vn.Stt.010.Mssv.BKD002ac.email.ninhddtt@edu.gmail.com.vn.bkc19134.hmu.edu.vn Stt.010.Mssv.BKD002ac.email.ninhd 77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77t@edu.gmail.com.vn.bkc19134.hmu.edu.vn.Stt.010.Mssv.BKD002ac.email.ninhddtt@edu.gmail.com.vn.bkc19134.hmu.edu.vn si C.33.44.55.54.78.65.5.43.22.2.4 22.Tai lieu Luan 66.55.77.99 van Luan an.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.33.44.55.54.78.655.43.22.2.4.55.22 Do an.Tai lieu Luan van Luan an Do an.Tai lieu Luan van Luan an Do an C.33.44.55.54.78.65.5.43.22.2.4 22.Tai lieu Luan 66.55.77.99 van Luan an.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.33.44.55.54.78.655.43.22.2.4.55.22 Do an.Tai lieu Luan van Luan an Do an.Tai lieu Luan van Luan an Do an Pl-78 plt.show() d0_thr = 2.1 d1_thr = 1.35 inv = np.zeros((len(df_X),1)) for i in df_X.index: if df_proc.iloc[i,0] == 0: if df_proc.iloc[i,2] > d0_thr: inv[i] = lu for i in df_X.index: an if df_proc.iloc[i,0] == 1: va n if df_proc.iloc[i,3] > d1_thr: tn to inv[i] = p ie gh df_proc['inv'] = inv print("\nProcessing_Table_with_Invalid_Tags:") d oa nl w print(df_proc.head(10)) print("\nPID_Before:") nv a lu print(df_X.shape) fu an df_X_kmeans = df_X df_y_kmeans = df_y ll at nh z plot_proc = df_proc oi count_dropped = m count = len(df_X) count_dropped = count_dropped + om l.c gm if df_proc.iloc[i,inv_index] == 1: @ for i in df_proc.index: z inv_index = an Lu df_X_kmeans = df_X_kmeans.drop([i], axis=0) n va c a th Stt.010.Mssv.BKD002ac.email.ninhd 77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77t@edu.gmail.com.vn.bkc19134.hmu.edu.vn.Stt.010.Mssv.BKD002ac.email.ninhddtt@edu.gmail.com.vn.bkc19134.hmu.edu.vn Stt.010.Mssv.BKD002ac.email.ninhd 77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77t@edu.gmail.com.vn.bkc19134.hmu.edu.vn.Stt.010.Mssv.BKD002ac.email.ninhddtt@edu.gmail.com.vn.bkc19134.hmu.edu.vn si C.33.44.55.54.78.65.5.43.22.2.4 22.Tai lieu Luan 66.55.77.99 van Luan an.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.33.44.55.54.78.655.43.22.2.4.55.22 Do an.Tai lieu Luan van Luan an Do an.Tai lieu Luan van Luan an Do an C.33.44.55.54.78.65.5.43.22.2.4 22.Tai lieu Luan 66.55.77.99 van Luan an.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.33.44.55.54.78.655.43.22.2.4.55.22 Do an.Tai lieu Luan van Luan an Do an.Tai lieu Luan van Luan an Do an Pl-79 df_y_kmeans = df_y_kmeans.drop([i], axis=0) plot_proc = plot_proc.drop([i], axis=0) print("\nPID_After:") print(df_X_kmeans.shape) print('\nDropped:', count_dropped, "/", count, '(', 100 * count_dropped / count, "%)") df_final = df_X_kmeans df_final = pd.concat([df_final, df_y_kmeans], axis = 1) lu df_final.index = range(len(df_final)) an df_final.to_csv(r'D:\python2\dulieu_chuanhoa_kmeans.csv') va n plot_X = df_X p ie gh tn to plot_X = pd.concat([plot_X, pd.DataFrame(data = df_pid_clustered, columns = ['cluster'])], axis = 1) plot_X_kmeans = df_X_kmeans d oa nl w plot_X_kmeans = pd.concat([plot_X_kmeans, pd.DataFrame(data = plot_proc['cluster'], columns = ['cluster'])], axis = 1) nv a lu plot_X_kmeans.index = range(len(plot_X_kmeans)) count_dim = [0,1] fu an print(plot_X_kmeans) ll oi at nh for i in count_dim: m max = 1000 z for j in range(i + 1, len(count_dim) + 1): z plt.subplot(1,2,1) plt.ylim(-2,4) om l.c plt.xlim(-3,3) gm @ plt.suptitle('Kmeans [' + str(i) + ':' + str(j) + ']', fontsize = 20) an Lu for k in plot_X.index: n va c a th Stt.010.Mssv.BKD002ac.email.ninhd 77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77t@edu.gmail.com.vn.bkc19134.hmu.edu.vn.Stt.010.Mssv.BKD002ac.email.ninhddtt@edu.gmail.com.vn.bkc19134.hmu.edu.vn Stt.010.Mssv.BKD002ac.email.ninhd 77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77t@edu.gmail.com.vn.bkc19134.hmu.edu.vn.Stt.010.Mssv.BKD002ac.email.ninhddtt@edu.gmail.com.vn.bkc19134.hmu.edu.vn si C.33.44.55.54.78.65.5.43.22.2.4 22.Tai lieu Luan 66.55.77.99 van Luan an.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.33.44.55.54.78.655.43.22.2.4.55.22 Do an.Tai lieu Luan van Luan an Do an.Tai lieu Luan van Luan an Do an C.33.44.55.54.78.65.5.43.22.2.4 22.Tai lieu Luan 66.55.77.99 van Luan an.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.33.44.55.54.78.655.43.22.2.4.55.22 Do an.Tai lieu Luan van Luan an Do an.Tai lieu Luan van Luan an Do an Pl-80 if k < max: if int(plot_X.iloc[k,3]) == 0: plt.scatter(plot_X.iloc[k,i], plot_X.iloc[k,j], s=20, c='green') else: plt.scatter(plot_X.iloc[k,i], plot_X.iloc[k,j], s=20, c='blue') plt.scatter(kmeansclustercenters[:, i], kmeansclustercenters[:, j], s=100, c=['#004c00','#00004c']) plt.subplot(1,2,2) lu plt.xlim(-3,3) an plt.ylim(-2,4) va n for l in plot_X_kmeans.index: tn to if l < max: p ie gh if int(plot_X_kmeans.iloc[l,3]) == 0: plt.scatter(plot_X_kmeans.iloc[l,i], plot_X_kmeans.iloc[l,j], d oa nl w s=20, c='green') else: fu an s=20, c='blue') nv a lu plt.scatter(plot_X_kmeans.iloc[l,i], plot_X_kmeans.iloc[l,j], plt.scatter(kmeansclustercenters[:, i], kmeansclustercenters[:, j], ll at nh plt.show() oi m s=100, c=['#004c00','#00004c']) z Chương trình hồi quy Logistic kết hợp PCA K-Means from sklearn.cluster import KMeans om l.c gm import seaborn as sns @ import numpy as np z import pandas as pd an Lu from sklearn.linear_model import LogisticRegression n va c a th Stt.010.Mssv.BKD002ac.email.ninhd 77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77t@edu.gmail.com.vn.bkc19134.hmu.edu.vn.Stt.010.Mssv.BKD002ac.email.ninhddtt@edu.gmail.com.vn.bkc19134.hmu.edu.vn Stt.010.Mssv.BKD002ac.email.ninhd 77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77t@edu.gmail.com.vn.bkc19134.hmu.edu.vn.Stt.010.Mssv.BKD002ac.email.ninhddtt@edu.gmail.com.vn.bkc19134.hmu.edu.vn si C.33.44.55.54.78.65.5.43.22.2.4 22.Tai lieu Luan 66.55.77.99 van Luan an.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.33.44.55.54.78.655.43.22.2.4.55.22 Do an.Tai lieu Luan van Luan an Do an.Tai lieu Luan van Luan an Do an C.33.44.55.54.78.65.5.43.22.2.4 22.Tai lieu Luan 66.55.77.99 van Luan an.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.33.44.55.54.78.655.43.22.2.4.55.22 Do an.Tai lieu Luan van Luan an Do an.Tai lieu Luan van Luan an Do an Pl-81 import matplotlib.pyplot as plt from sklearn.model_selection import train_test_split from sklearn.metrics import accuracy_score from sklearn.metrics import classification_report from sklearn import metrics col_names = ['Tuoi', 'GioiTinh', 'Glucose','chandoan'] df_pid = pd.read_csv('D:\python2\dulieu_chuanhoa_PCA_kmeans.csv') df_pid.head() lu print("\npid") an print(df_pid) va n df_X = df_pid.drop(['ChanDoan'], axis=1) p ie gh tn to df_X = df_X.iloc[:, 1:] df_y = df_pid['ChanDoan'] print("\n tách Y") d oa nl w print(df_X) train_X, test_X, train_y, test_y = train_test_split(df_X, df_y, nv a lu test_size=0.2) fu an logreg = LogisticRegression() logreg.fit(train_X, train_y) ll oi m y_pred=logreg.predict(test_X) z cnf_matrix at nh cnf_matrix = metrics.confusion_matrix(test_y, y_pred) class_names=[0,1] # name of classes om l.c print(classification_report(test_y, y_pred)) gm @ print(cnf_matrix) z print("\nARRAY") an Lu fig, ax = plt.subplots() n va c a th Stt.010.Mssv.BKD002ac.email.ninhd 77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77t@edu.gmail.com.vn.bkc19134.hmu.edu.vn.Stt.010.Mssv.BKD002ac.email.ninhddtt@edu.gmail.com.vn.bkc19134.hmu.edu.vn Stt.010.Mssv.BKD002ac.email.ninhd 77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77t@edu.gmail.com.vn.bkc19134.hmu.edu.vn.Stt.010.Mssv.BKD002ac.email.ninhddtt@edu.gmail.com.vn.bkc19134.hmu.edu.vn si C.33.44.55.54.78.65.5.43.22.2.4 22.Tai lieu Luan 66.55.77.99 van Luan an.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.33.44.55.54.78.655.43.22.2.4.55.22 Do an.Tai lieu Luan van Luan an Do an.Tai lieu Luan van Luan an Do an Stt.010.Mssv.BKD002ac.email.ninhd 77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77t@edu.gmail.com.vn.bkc19134.hmu.edu.vn.Stt.010.Mssv.BKD002ac.email.ninhddtt@edu.gmail.com.vn.bkc19134.hmu.edu.vn

Ngày đăng: 31/07/2023, 20:10

Tài liệu cùng người dùng

Tài liệu liên quan