1. Trang chủ
  2. » Luận Văn - Báo Cáo

Sử dụng phương pháp giảm chiều dữ liệu pca trong bi toán chuẩn Đoán bệnh phổi

39 0 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Sử Dụng Phương Pháp Giảm Chiều Dữ Liệu PCA Trong Bài Toán Chuẩn Đoán Bệnh Phổi
Tác giả Trần Chí Tiến, Nguyễn Minh Đức
Người hướng dẫn Vũ Văn Định
Trường học Trường Đại Học Điện Lực
Chuyên ngành Công Nghệ Thông Tin
Thể loại Báo Cáo Chuyên Đề
Năm xuất bản 2023
Thành phố Hà Nội
Định dạng
Số trang 39
Dung lượng 3,97 MB

Cấu trúc

  • CHƯƠNG 1: GIỚI THIỆU VỀ PHƯƠNG PHÁP VÀ PHÂN TÍCH THÀNH PHẦN CHÍNH PCA (9)
    • 1.1. Khái niệm machine learning (9)
    • 1.2. Lịch sử hình thành machine learning (9)
    • 1.3. Một số giải pháp của machine learning (10)
      • 1.3.1. Học máy được giám sát (10)
      • 1.3.2. Học máy không được giám sát (10)
      • 1.3.3. Học máy bán giám sát (10)
      • 1.3.4. Học máy tăng cường (11)
    • 1.4. Giảm chiều giữ liệu (11)
    • 1.5. Thuật toán pca (11)
    • 1.6. Phân tích thành phần chính (PCA) (12)
    • 1.7. Các bước thực hiện thuật toán giảm chiều pca (13)
    • 1.8. Tiêu chí giảm chiều pca (14)
    • 1.9. Ưu nhược điểm của pca (14)
      • 1.9.1. Ưu điểm (14)
      • 1.9.2. Nhược điểm (15)
    • 1.10. ứng dụng thuật toán pca (15)
  • CHƯƠNG 2. ỨNG DỤNG THUẬT TOÁN PCA VÀO BÀI TOÁN CHUẨN ĐOÁN BỆNH PHỔI (17)
    • 2.1. Ứng dụng CPA Trong chuẩn đoán bệnh phổi (17)
      • 2.1.1. Lý Do Sử Dụng PCA Trong Y Học (17)
        • 2.1.1.1. Xử lý chiều dữ liệu lớn (17)
      • 2.1.3. Mô tả bộ dữ liệu (20)
        • 2.1.3.1. Nguồn gốc của Dữ liệu (20)
  • CHƯƠNG 3: BÀI TOÁN CHUẨN ĐOÁN BỆNH PHỔI (0)
    • 3.1. Các thư viện cần sử dụng trong bài toán (23)
      • 3.1.1. Các bước thực hiện tài toán (24)
  • CHƯƠNG 4: KẾT QUẢ VÀ THẢO LUẬN (0)
    • 4.1. Hiệu Suất của Mô Hình PCA trong Bài Toán Chuẩn Đoán Bệnh Phổi 27 1. Hiệu Suất Mô Hình PCA (36)
  • KẾT LUẬN (38)

Nội dung

TRƯỜNG ĐẠI HỌC ĐIỆN LỰCKHOA CÔNG NGHỆ THÔNG TIN BÁO CÁO CHUYÊN ĐỀ HỌC PHẦN ĐỀ TI: : SỬ DỤNG PHƯƠNG PHÁP GIẢM CHIỀU DỮ LIỆU PCA TRONG BI TOÁN CHUẨN ĐOÁN BỆNH PHỔI Sinh viên thực hiện :

GIỚI THIỆU VỀ PHƯƠNG PHÁP VÀ PHÂN TÍCH THÀNH PHẦN CHÍNH PCA

Khái niệm machine learning

Machine learning, hay còn gọi là học máy, bắt nguồn từ trí tuệ nhân tạo (AI) và là giải pháp giúp các ứng dụng, phần mềm hoạt động thông minh hơn mà không cần mã hóa Bằng cách sử dụng dữ liệu đầu vào, học máy có khả năng dự đoán các giá trị đầu ra mới một cách hiệu quả.

Học máy tập trung vào việc phát triển các chương trình máy tính có khả năng truy cập và sử dụng dữ liệu để tự học Mục tiêu chính là giúp máy tính hoạt động độc lập mà không cần sự can thiệp từ con người.

Machine learning là một phần quan trọng trong lĩnh vực khoa học dữ liệu, sử dụng các phương pháp thống kê và thuật toán để phân loại, dự đoán và khám phá thông tin quan trọng từ dữ liệu Nhờ vào khả năng này, người dùng có thể nhanh chóng đưa ra quyết định trong các hoạt động kinh doanh, giúp doanh nghiệp tác động đến chỉ số tăng trưởng doanh thu một cách hiệu quả.

Lịch sử hình thành machine learning

Machine learning, hay học máy, là thuật ngữ do Arthur Samuel đặt ra vào năm 1959, khi ông là một nhà tiên phong trong lĩnh vực trí tuệ nhân tạo và máy tính chơi game tại IBM Đến năm 1960, thuật ngữ này trở nên phổ biến hơn nhờ cuốn sách của Nilsson, trong đó đề cập đến việc phân loại máy học.

Machine learning hiện đại tập trung vào hai mục tiêu chính: phân loại dữ liệu bằng cách sử dụng các mô hình đã được phát triển và dự đoán các kết quả trong tương lai dựa trên những mô hình này.

Một số giải pháp của machine learning

Machine learning là một giải pháp sử dụng các thuật toán để phân tích và dự đoán dữ liệu Nó được phân loại thành bốn loại chính: Machine learning có giám sát, Machine learning không có giám sát, Machine learning bán giám sát và Machine learning tăng cường.

1.3.1 Học máy được giám sát

Machine learning có giám sát sử dụng tập dữ liệu gắn nhãn để phân loại và dự đoán kết quả chính xác Phương pháp này điều chỉnh trọng số khi dữ liệu mới được thêm vào, giúp mô hình thích ứng hiệu quả Giải pháp này hỗ trợ doanh nghiệp giải quyết các vấn đề quy mô lớn, chẳng hạn như phân loại thư rác Các thuật toán phổ biến trong học máy có giám sát bao gồm mạng nơ-ron, hồi quy tuyến tính, hồi quy logistic và máy vectơ hỗ trợ.

1.3.2 Học máy không được giám sát

Phương pháp này áp dụng các thuật toán Machine Learning để phân tích tập dữ liệu không gắn nhãn, cho phép phát hiện các nhóm dữ liệu ẩn mà không cần sự can thiệp của con người Đây là giải pháp hoàn hảo cho việc phân tích dữ liệu, phân khúc khách hàng, nhận dạng hình ảnh và xây dựng chiến lược bán chéo hiệu quả.

Machine learning không giám sát giúp giảm số lượng tính năng trong một mô hình thông qua việc giảm kích thước Hai phương pháp phổ biến trong lĩnh vực này là phân tích thành phần chính và phân tích giá trị đơn lẻ Ngoài ra, một số thuật toán khác được sử dụng bao gồm phân cụm k-mean, phân cụm xác suất và mạng nơ-ron.

1.3.3 Học máy bán giám sát Đây là sự kết hợp hài hòa giữa học máy được giám sát và không giám sát Machine learning bán giám sát sử dụng các dữ liệu gắn nhãn và không gắn nhãn để đào tạo Phương pháp này giúp giải quyết các vấn đề không có đủ dữ liệu được gắn nhãn để đào tạo thuật toán học máy được giám sát.

Machine learning tăng cường là một phương pháp học tập tương tác với môi trường, cho phép máy tính thực hiện các mục tiêu cụ thể như lái xe hoặc chơi game Phương pháp này giúp đào tạo máy tính hoàn thành các quy trình phức tạp thông qua việc học từ kinh nghiệm và phản hồi từ môi trường.

Giảm chiều giữ liệu

Giảm chiều dữ liệu là quá trình chuyển đổi dữ liệu từ không gian nhiều chiều sang không gian ít chiều, nhằm biểu diễn dữ liệu ở dạng thấp hơn nhưng vẫn giữ lại những thuộc tính quan trọng của dữ liệu gốc Mục tiêu của phương pháp này là duy trì sự gần gũi với chiều nội tại của dữ liệu.

Phân tích dữ liệu trong không gian nhiều chiều gặp nhiều khó khăn do dữ liệu thô thường thưa thớt, một hiện tượng được gọi là "lời nguyền chiều", làm cho việc tính toán trở nên phức tạp và tốn thời gian Do đó, giảm chiều dữ liệu trở thành một phương pháp phổ biến trong các lĩnh vực có số lượng quan sát hoặc biến lớn, như nhận dạng tiếng nói, tin học thần kinh và tin sinh học.

Giảm chiều là một phương pháp xử lý dữ liệu quan trọng giúp loại bỏ nhiễu và các tính năng không cần thiết, từ đó giữ lại những đặc điểm quan trọng nhất Phương pháp này không chỉ nâng cao hiệu quả phân tích mà còn cải thiện tốc độ xử lý dữ liệu.

Việc giảm chiều trong sản xuất và ứng dụng không chỉ giúp tiết kiệm thời gian mà còn giảm chi phí đáng kể Phương pháp này đã trở thành một kỹ thuật tiền xử lý dữ liệu phổ biến và hiệu quả.

Thuật toán pca

Thuật toán phân tích thành phần chính (PCA) là một phương pháp thống kê giúp chuyển đổi dữ liệu từ không gian nhiều chiều sang không gian ít chiều hơn (2 hoặc 3 chiều) để tối ưu hóa việc thể hiện sự biến thiên của dữ liệu PCA thực hiện việc ánh xạ các đặc trưng n chiều thành k chiều, với k chiều là các thành phần chính, được tạo ra từ dữ liệu n chiều ban đầu.

Công việc của PCA là xác định một tập hợp các trục tọa độ mới liên quan đến dữ liệu gốc, trong đó trục thứ hai được chọn sao cho nó vuông góc với trục đầu tiên để tối đa hóa phương sai Tiếp tục theo cách này, ta có thể xác định n trục tọa độ, trong đó hầu hết phương sai được chứa trong k trục đầu tiên, trong khi các trục còn lại có phương sai gần như bằng 0 Do đó, việc giữ lại chỉ k trục đầu tiên giúp tối ưu hóa dữ liệu bằng cách loại bỏ các đặc trưng chứa phương sai không đáng kể.

0, để đạt đượcquá trình giảm kích thước cho các đối tượng dữ liệu.

Phân tích thành phần chính (PCA)

Giúp giảm số chiều của dữ liệu,với nhiều đặc tính tốt:

PCA tạo ra một không gian mới với số chiều thấp hơn, thay vì duy trì các trục tọa độ của không gian cũ, nhưng vẫn đảm bảo khả năng biểu diễn dữ liệu tương đương, giữ nguyên độ biến thiên của dữ liệu trên mỗi chiều mới.

Các trục tọa độ trong không gian mới được hình thành từ tổ hợp tuyến tính của không gian cũ, cho thấy rằng PCA tạo ra các đặc trưng mới dựa trên những đặc trưng đã quan sát Điều thú vị là những đặc trưng này vẫn có khả năng biểu diễn tốt dữ liệu ban đầu trên mỗi chiều mới, đồng thời khám phá các mối liên hệ tiềm ẩn trong dữ liệu.

Trong không gian mới, việc khám phá các liên kết tiềm ẩn của dữ liệu trở nên dễ dàng hơn, trong khi ở không gian cũ, những liên kết này thường khó nhận diện hoặc không rõ ràng.

Ví dụ 2: Minh họa PCA: phép chiếu lên các trục tọa độ khác nhau có thể cho cách nhìn rất khác nhau về cùng một dữ liệu :

Các bước thực hiện thuật toán giảm chiều pca

Bước 1: Tính vector kỳ vọng của toàn bộ dữ liệu

Bước 2: Trừ mỗi điểm dữ liệu đi vector kỳ vọng của toàn bộ dữ liệu

Bước 3: Tính ma trận hiệp phương sai

Bước 4: Tính các trị riêng và vector riêng của norm bằng một ma trận này, sắp xếp chúng theo thứ tự giảm dần của trị riêng.

Bước 5: Lựa chọn K vector riêng tương ứng với K trị riêng lớn nhất để tạo thành ma trận Uk, trong đó các cột tạo thành một hệ trực giao Những vector này, được gọi là các thành phần chính, giúp hình thành một không gian con gần gũi với phân bố của dữ liệu đã được chuẩn hóa.

Bước 6: Chiếu dữ liệu ban đầu đã chuẩn hóa xuống không gian con tìm được.

Bước 7: Dữ liệu mới chính là tọa độ của các điểm dữ liệu trên không gian mới.

Hình 1 2: hình ảnh mô tả các bước thực hiện thuật toán pca

Tiêu chí giảm chiều pca

- Tái tạo gần nhất: Đối với tất cả các điểm trong tập mẫu, tổng sai số giữa điểm được tái tạo và điểm ban đầu là nhỏ nhất

- Khả năng phân tách tối đa: Hình chiếu của mẫu trong không gian chiều thấpcàng tách biệt càng tốt

Ưu nhược điểm của pca

- Loại bỏ các đặc trưng tương quan (giảm các đặc trưng)

- Làm cho tập dữ liệu dễ sử dụng hơn.

- Cải thiện hiệu suất thuật toán.

- Cải thiện trực quan hóa dữ liệu (dễ trực quan hóa khi có ít chiều)

Nếu người dùng đã có kiến thức về đối tượng quan sát và nắm rõ một số đặc điểm của dữ liệu nhưng không thể can thiệp vào quá trình xử lý thông qua tham số hóa và các phương pháp khác, thì hiệu quả đạt được có thể không như mong đợi và không cao.

- Phân rã Eigenvalue có một số hạn chế, ví dụ, ma trận được biến đổi phải làma trận vuông;

- Trong trường hợp phân bố không theo Gaussian, các thành phần chính thuđược bằng phương pháp PCA có thể không tối ưu.

- Các biến độc lập trở nên khó hiểu hơn.

- Chuẩn hóa dữ liệu trước khi sử dụng PCA.

ứng dụng thuật toán pca

- phá và trực quan hóa các tập dữ liệu nhiều chiều.

- Tiền xử lý dữ liệu.

- Giảm kích thước (quan trọng nhất), loại bỏ dư thừa dữ liệu và nhiễu.

- PCA trong nhận dạng ảnh nư nhận dạng khuôn mặt, …

- ứng dụng PCA trong phân tích mô tả định lượng

Giảm chiều dữ liệu xuống 2 hoặc 3 chiều cho phép chúng ta sử dụng các loại đồ thị để trực quan hóa thông tin, từ đó giúp hiểu rõ hơn về dữ liệu hiện có.

Xử lý mối tương quan giữa các biến trong dữ liệu ban đầu là cần thiết để cải thiện chất lượng phân tích Phương pháp PCA giúp tạo ra các biến mới trong không gian, từ đó mô tả dữ liệu một cách hiệu quả hơn Việc áp dụng PCA không chỉ hỗ trợ trong phân tích dữ liệu mà còn trong việc xử lý hình ảnh, giọng nói và giao tiếp.

ỨNG DỤNG THUẬT TOÁN PCA VÀO BÀI TOÁN CHUẨN ĐOÁN BỆNH PHỔI

Ứng dụng CPA Trong chuẩn đoán bệnh phổi

2.1.1.Lý Do Sử Dụng PCA Trong Y Học

2.1.1.1 Xử lý chiều dữ liệu lớn

- Ưu điểm của giảm chiều dữ liệu:

Trong y học, việc giảm chiều dữ liệu là rất quan trọng, đặc biệt khi xử lý hình ảnh y tế hoặc các bộ dữ liệu lớn Quá trình này không chỉ giúp giảm bớt gánh nặng tính toán mà còn tăng tốc độ phân tích dữ liệu hiệu quả hơn.

PCA là một công cụ hữu ích trong việc tối ưu hóa quy trình tính toán trong y học, đặc biệt khi cần xử lý khối lượng lớn dữ liệu nhanh chóng, chẳng hạn như trong chẩn đoán bệnh phổi.

2.1.1.2 Giảm Nhiễu và Tăng Độ Chính Xác

- Ưu điểm của giảm nhiễu:

Trong nghiên cứu y học, dữ liệu thường bị nhiễu do tác động của nhiều yếu tố khác nhau Phân tích thành phần chính (PCA) có khả năng giảm thiểu nhiễu bằng cách tập trung vào các thành phần chính, giữ lại thông tin quan trọng và loại bỏ các thành phần nhỏ không cần thiết.

- Tăng độ chính xác của chuẩn đoán:

PCA giúp giảm chiều dữ liệu trong khi vẫn giữ lại thông tin quan trọng, từ đó nâng cao độ chính xác cho các mô hình máy học trong chẩn đoán bệnh phổi Điều này rất cần thiết trong các nghiên cứu y tế, nơi yêu cầu chẩn đoán phải chính xác và đáng tin cậy.

2.1.1.3 Tách Biệt và Hiểu Quả

- Tách biệt giữa các đặc trưng:

Trong các tập dữ liệu y học, các biến thường có mối tương quan với nhau Phương pháp PCA giúp tách biệt các đặc trưng và lựa chọn các thành phần chính không tương quan, từ đó giảm thiểu đa cộng tuyến giữa các biến và nâng cao hiệu quả tính toán.

- Hiệu quả trong việc biểu diễn dữ liệu:

PCA (Phân tích thành phần chính) tạo ra các thành phần mới giúp biểu diễn dữ liệu một cách hiệu quả, từ đó hỗ trợ các nhà nghiên cứu và chuyên gia y tế dễ dàng nhận diện các đặc trưng quan trọng trong dữ liệu y tế.

2.1.1.4 Hỗ Trợ Trong Nghiên Cứu Đa Trung Tâm

- Phù hợp cho nghiên cứu đa trung tâm:

Trong các dự án nghiên cứu y học đa trung tâm, PCA đóng vai trò quan trọng trong việc đồng nhất và tiêu chuẩn hóa dữ liệu từ nhiều nguồn khác nhau Điều này không chỉ tăng cường khả năng chuyển giao kết quả mà còn giúp so sánh hiệu quả giữa các trung tâm nghiên cứu.

2.1.1.5 Các Ưu Điểm và Thách Thức Cụ Thể

- Ưu điểm và thách thức của PCA trong bài toán chuẩn đoán bệnh phổi:

+ Tổng hợp các kết quả của các nghiên cứu trước đó liên quan đến ứng dụng PCA trong chuẩn đoán bệnh phổi.

+ Đánh giá cụ thể về hiệu suất và giới hạn của PCA trong ngữ cảnh cụ thể của nghiên cứu y học.

Việc trình bày rõ ràng lý do áp dụng PCA trong y học không chỉ làm nổi bật tầm quan trọng của phương pháp này mà còn cung cấp nền tảng vững chắc cho việc lựa chọn trong nghiên cứu của bạn.

2.1.2.1 Bối Cảnh và Tầm Quan Trọng của Bài Toán

Chuẩn đoán bệnh phổi là một thách thức quan trọng trong y học hiện đại, vì bệnh phổi thường gặp và có thể gây ra nhiều vấn đề sức khỏe nghiêm trọng nếu không được phát hiện và điều trị kịp thời Trong bối cảnh y tế toàn cầu ngày càng phức tạp, việc đảm bảo khả năng chuẩn đoán chính xác và nhanh chóng các bệnh lý liên quan đến phổi trở thành mối quan tâm hàng đầu.

2.1.2.2 Đặc Điểm Của Bài Toán Chuẩn Đoán Bệnh Phổi

- Đa Dạng Các Bệnh Phổi:

Chuẩn đoán bệnh phổi là một thách thức lớn, không chỉ vì sự đa dạng của các loại bệnh như viêm nhiễm, ung thư và các bệnh lý khác, mà còn vì tính phức tạp trong việc xác định chính xác từng loại bệnh.

- Nhận Diện Sớm và Chính Xác:

Mục tiêu chính của bài toán là phát hiện kịp thời và chính xác các triệu chứng của bệnh phổi, từ đó hỗ trợ bác sĩ và chuyên gia y tế trong việc đưa ra quyết định điều trị và quản lý bệnh nhân một cách hiệu quả.

Dữ liệu trong bài toán này bao gồm hình ảnh từ máy chụp X-quang, máy quét CT, cùng với thông tin lâm sàng và kết quả xét nghiệm máu Việc xử lý và phân tích lượng lớn dữ liệu đa dạng này cần phải đảm bảo hiệu quả và độ chính xác cao.

2.1.2.3 Tầm Quan Trọng của Chuẩn Đoán Chính Xác

- Quyết Định Phương Pháp Điều Trị:

Việc chuẩn đoán chính xác bệnh phổi đóng vai trò quan trọng trong việc xác định phương pháp điều trị hiệu quả Chuẩn đoán này giúp bác sĩ xác định loại bệnh phổi và tình trạng sức khỏe cụ thể của bệnh nhân, từ đó lựa chọn phương pháp điều trị phù hợp, có thể là sử dụng thuốc hoặc các biện pháp can thiệp phẫu thuật Việc điều trị đúng cách và kịp thời sẽ giúp cải thiện tình trạng sức khỏe của bệnh nhân và ngăn ngừa các biến chứng nghiêm trọng.

- Ưu Tiên Sự Sớm Phát Hiện:

Phát hiện sớm các vấn đề về phổi rất quan trọng để nâng cao cơ hội điều trị thành công và giảm nguy cơ tử vong Việc chẩn đoán nhanh chóng không chỉ ngăn chặn sự tiến triển của bệnh mà còn đảm bảo bệnh nhân nhận được sự chăm sóc tốt nhất.

2.1.2.4 Thách Thức Trong Chuẩn Đoán Bệnh Phổi

- Đa Dạng Các Triệu Chứng:

Mỗi loại bệnh phổi có thể biểu hiện qua nhiều triệu chứng khác nhau, điều này làm cho việc chẩn đoán chính xác dựa trên các triệu chứng lâm sàng trở nên khó khăn.

- Tính Khó Đoán của Các Bệnh Lý:

BÀI TOÁN CHUẨN ĐOÁN BỆNH PHỔI

Các thư viện cần sử dụng trong bài toán

- Chuẩn bị các thư viện hỗ trợ chạy chương trình như:

+ Numpy (np): Thư viện mạnh mẽ cho tính toán số học và thao tác trên mảng nhiều chiều.

+ Pandas (pd): Thư viện cung cấp các cấu trúc dữ liệu dễ sử dụng như DataFrame và Series, giúp thao tác và phân tích dữ liệu dễ dàng.

+ Matplotlib (plt): Thư viện vẽ đồ thị cho việc trực quan hóa dữ liệu.

+ Seaborn (sns):Thư viện được xây trên Matplotlib để cải thiện việc trực quan hóa dữ liệu.

Scikit-learn (sklearn) là một thư viện machine learning nổi tiếng, cung cấp đa dạng công cụ hỗ trợ cho việc huấn luyện mô hình, tiền xử lý dữ liệu và đánh giá hiệu suất mô hình.

Imbalanced-learn là một thư viện mở rộng của Scikit-learn, chuyên dụng cho việc xử lý dữ liệu không cân bằng Thư viện này cung cấp các chức năng hiệu quả để cân bằng dữ liệu, trong đó có RandomOverSampler, giúp cải thiện độ chính xác của mô hình học máy.

+ PCA (Principal Component Analysis) từ Scikit-learn: Thực hiện phân tích thành phần chính để giảm chiều dữ liệu.

Matplotlib (plt): Được sử dụng để vẽ biểu đồ và đồ thị.

Hình 3 1: Các thư viện cần chuẩn bị

3.1.1.Các bước thực hiện tài toán

- Đọc tập dữ liệu từ file 'survey-lung-cancer.csv' vào một DataFrame của Pandas (df).

- kiểm tra thông tin cơ bản về tập dữ liệu sử dụng df.info() và hình dạng của nó bằng df.shape.

- kiểm tra các giá trị thiếu bằng df.isnull().sum().

- Khai phá phân phối của biến mục tiêu ('LUNG_CANCER') bằng biểu đồ tròn.

Hình 3 2: Khai phá dữ liệu

3.1.2.2 Trực quan hóa dữ liệu

- Tạo nhiều biểu đồ tròn để thể hiện phân phối của các biến phân loại như 'SMOKING', 'GENDER', và 'LUNG_CANCER'.

- Sử dụng swarm plots để thể hiện mối quan hệ giữa biến mục tiêu ('LUNG_CANCER') và các biến phân loại khác đối với độ tuổi.

Hình 3 3: Trực quan hóa dữ liệu

3.1.2.3 Tiền xử lý dữ liệu

- Chuyển đổi giá trị không phải số thành giá trị số cho các cột 'GENDER' và 'LUNG_CANCER'.

- Tạo các biểu đồ trực quan để khám phá mối quan hệ giữa hút thuốc, lo âu, bệnh mãn tính, tiêu thụ rượu và bệnh ung thư phổi.

Hình 3 4: Tiền xử lý dữ liệu

3.1.2.4 Chuyển Đổi Dữ Liệu, Cân Bằng, và Scaling

Hình 3 5: Chuyển đổi dữ liệu, cân bằng và sea;ing dữ liệu

- Sử dụng mã hóa nhãn để chuyển đổi các thuộc tính không phải số thành giá trị số.

- Thực hiện chuẩn hóa biến số sử dụng phương pháp Min-Max Scaling.

- Kiểm tra mối quan hệ tương quan giữa các biến sử dụng heatmap.

Hình 3 6: Cân bằng dữ liệu

- Cân bằng dữ liệu sử dụng kỹ thuật Random Over-Sampling từ thư viện imbalanced-learn.

- Thực hiện phân tích thành phần chính (PCA) trên tập dữ liệu cân bằng để giảm chiều.

Hình 3 7: Huấn luyện mô hình chuẩn đoán

- Chia dữ liệu thành tập huấn luyện và tập kiểm thử.

- Huấn luyện một mô hình hồi quy logistic bằng dữ liệu huấn luyện.

3.1.2.7 Dự Đoán và Đánh Giá Mô Hình:

- Dự đoán biến mục tiêu ('LUNG_CANCER') trên tập kiểm thử.

- Tính toán độ chính xác của mô hình.

Hình 3 8: Dự đoán và tính toán độ chính xác

3.1.2.8 Dự Đoán Cho Người Dùng Mới:

Bạn tạo một từ điển (user_data) đại diện cho các đặc trưng cho một người dùng mới.

Bạn chuyển đổi dữ liệu này thành DataFrame và sử dụng PCA để biến đổi nó.

Bạn sử dụng mô hình hồi quy logistic đã được huấn luyện để dự đoán tình trạng ung thư phổi của người dùng mới.

Hình 3 9: Chuẩn đoán cho người dùng mới

3.1.2.9 Kết quả của chương trình

Hình 3 10: Hiển thị thông tin cơ bản về tập dữ liệu

Hình 3 11: Trực quan hóa sự cân bằng của dữ liệu

Hình 3 12: biểu đồ tương tác giữa 'ACE', 'LUNG_CANCER'

Hình 3 13:biều đồ tương quan giữa 'SMOKING' và 'LUNG_CANCER'

Hình 3 14: biểu đồ tương quan giữa 'ANXIETY' và 'LUNG_CANCER'

Hình 3 15: hình chuyển đổi dữ liệu, cân bằng , và tỉ lệ dữ liệu

Hình 3 16:kết qảu trương trình

Ngày đăng: 22/01/2025, 14:58

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN