Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 54 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
54
Dung lượng
1,79 MB
Nội dung
ỦY BAN NHÂN DÂN TP HỒ CHÍ MINH ĐẠI HỌC SÀI GỊN KHOA CƠNG NGHỆ THƠNG TIN MƠN HỌC: KHAI PHÁ DỮ LIỆU ĐỀ TÀI: KHAI PHÁ DỮ LIỆU VỀ BỆNH TIỂU ĐƯỜNG GIẢNG VIÊN: Vũ Ngọc Thanh Sang Họ tên: Nguyễn Mai Dương MSSV: 3118410062 Lớp : DCT11811 Tp Hồ Chí Minh, tháng 05 năm 2023 LỜI MỞ ĐẦU Với phát triển công nghệ thông tin ứng dụng công nghệ thông tin nhiều lĩnh vực đời sống, kinh tế xã hội với lượng liệu tích lũy ngày nhiều Tuy nhiên, theo thống kê có lượng nhỏ liệu (khoảng 5% đến 10%) ln phân tích, số cịn lại tiếp tục thu thập để Mặt khác môi trường cạnh tranh, người ta cần có nhiều thơng tin để trợ giúp việc định trả lời dựa khối lượng liệu khổng lồ có Từ đây, phương pháp khai thác sở liệu truyền thống ngày không đáp ứng thực tế làm phát triển hướng kỹ thuật Khai phá liệu (KDD – Knowledge Discovery and Data Mining) Khai phá liệu nghiên cứu, ứng dụng nhiều lĩnh vực khác nước giới, Việt Nam kỹ thuật tương đối mẻ nhiên nghiên cứu dần đưa vào ứng dụng Mục đích khai phá liệu tìm mẫu mơ hình tồn sở liệu bị che khuất hàng núi liệu Môn học “Khai phá liệu” cung cấp cho sinh viên cơng nghệ thơng tin nhìn tổng quan thuật toán khai phá liệu Với kiến thức học, tiểu luận nhóm chúng em tập trung vào việc khai thác tập liệu bệnh tiểu đường (diabetes dataset) để đưa phân tích, dự đốn tác nhân gây bệnh tiểu đường để người phát bệnh sớm kịp thời cứu chữa Mục lục Mục lục CHƯƠNG I - GIỚI THIỆU Giới thiệu đề tài Mục đích dự án khai phá liệu Phạm vi dự án khai phá liệu CHƯƠNG II - MÔ TẢ BỘ DỮ LIỆU .5 Nguồn gốc liệu Số lượng mẫu Số lượng thuộc tính Các giá trị bị khuyết liệu CHƯƠNG III - TIỀN XỬ LÝ DỮ LIỆU Chuẩn bị liệu thư viện cần thiết Tiền xử lý liệu CHƯƠNG IV – PHÂN TÍCH DỮ LIỆU KHÁM PHÁ .14 Phân tích đơn biến .15 Phân tích đa biến 25 CHƯƠNG V - KHAI PHÁ DỮ LIỆU 36 Câu 1: 36 Câu 2: 37 CHƯƠNG VI - ĐÁNH GIÁ VÀ CHỌN THUẬT TOÁN 38 Câu 1: 38 Câu 2: 40 CHƯƠNG VII - KẾT QUẢ VÀ THẢO LUẬN 42 Câu 42 Câu 45 CHƯƠNG VIII - KẾT LUẬN 54 TÀI LIỆU THAM KHẢO .55 3|55 CHƯƠNG I - GIỚI THIỆU Giới thiệu đề tài Theo Liên đoàn đái tháo đường Thế giới (IDF) công bố năm 2021, giới có tới 537 triệu người mắc đái tháo đường, tương ứng với tỷ lệ 10 người lớn độ tuổi 20 - 79 tuổi có người mắc đái tháo đường; trẻ sinh có trẻ bị ảnh hưởng đái tháo đường giai đoạn phát triển thai nhi Đặc biệt, có tới 50% số người trưởng thành mắc đái tháo đường mà không chẩn đoán Dựa vào tập liệu bệnh tiểu đường đường thu thập được, sử dụng phương thức, thuật toán data mining để đưa phân tích, đánh giá, chuẩn đốn bệnh tiểu đường Mục đích dự án khai phá liệu Mục đích dự án đưa dự đoán chẩn đoán xem bệnh nhân có mắc bệnh tiểu đường hay khơng, dựa phép đo chẩn đốn định có liệu Phạm vi dự án khai phá liệu Phạm vi dự án thuộc lĩnh vực y tế, người tham gia vào liệu thống kê nữ, 21 tuổi, thuộc dịng dõi người da đỏ Pima 4|55 CHƯƠNG II - MÔ TẢ BỘ DỮ LIỆU Nguồn gốc liệu Bộ liệu có nguồn gốc từ Viện Quốc gia Bệnh tiểu đường Tiêu hóa Thận Bệnh tật Đặc biệt, tất bệnh nhân nữ 21 tuổi di sản Ấn Độ Pima Tập liệu “Diabetes Dataset” truy cập trang web Cơ quan bảo vệ môi trường Hoa Kỳ (https://www.cdc.gov/diabetes/data/index.html), từ trang web Kaggle – cộng đồng chuyên Khoa học Dữ liệu Máy học (https://www.kaggle.com/datasets/akshaydattatraykhare/diabetes-dataset) Số lượng mẫu Tập liệu “Diabetes Dataset” có 768 dịng liệu cung cấp Viện Quốc gia Bệnh tiểu đường Tiêu hóa Thận Bệnh tật chứa thông tin số đường huyết, mức độ Glucose, độ dày da… Số lượng thuộc tính Tập liệu “Diabetes Dataset” có cột mơ tả thuộc tính cần thiết tập liệu số đo lường bệnh tiểu đường gồm: ● Pregnancies: cho biết số lần mang thai (đơn vị:lần) ● Glucose: biểu thị nồng độ glucose huyết tương (đơn vị: mg/dl) ● BloodPressure: biểu thị huyết áp tâm trương tính mmHg ● SkinThickness: Thể độ dày da, theo thang điểm độ dày da: ○ Da bình thường: điểm ○ Dày da nhẹ: – 17 điểm ○ Dày da trung bình: 18 – 34 điểm ○ Dày da nặng: 35 – 51 điểm ● Insulin: biểu thị insulin tính U/mL 5|55 ● BMI: số khối thể tính kg/m2 ● Diabetes Pedigree Function: cho biết chức chấm điểm khả mắc bệnh tiểu đường dựa tiền sử gia đình ● Age: Để thể tuổi tác (đơn vị: tuổi) ● Outcome: Để thể kết cuối Có Khơng (mắc bệnh tiểu đường) Các giá trị bị khuyết liệu Dùng lệnh df.info() để kiểm tra giá trị null thuộc tính tập liệu, kiểm tra liệu cột, xác định kích thước tập liệu phân tích tổng quan cấu trúc tập liệu Sau thực ta kết hình, ta thấy tất thuộc tính tập liệu khơng có giá trị null Điều có nghĩa khơng có giá trị khuyết tất thuộc tính tập liệu CHƯƠNG III - TIỀN XỬ LÝ DỮ LIỆU Tiền xử lý liệu đề cập đến thao tác xóa liệu trước sử dụng để đảm bảo nâng cao hiệu suất, bước quan trọng quy 6|55 trình khai thác liệu Cụm từ “garbage in, garbage out” (là khái niệm cho thấy liệu đầu vào bị lỗi vô nghĩa tạo đầu vô nghĩa) đặc biệt áp dụng cho dự án khai thác liệu máy học Các phương pháp thu thập liệu thường kiểm soát lỏng lẻo, dẫn đến giá trị nằm ngồi phạm vi (ví dụ: Thu nhập: −100), khơng thể kết hợp liệu (ví dụ: Giới tính: Nam, Mang thai: Có) giá trị bị thiếu , v.v Phân tích liệu chưa sàng lọc cẩn thận cho vấn đề tạo kết sai lệch Do đó, việc trình bày chất lượng liệu điều quan trọng trước chạy phân tích Thơng thường, tiền xử lý liệu giai đoạn quan trọng dự án máy học , đặc biệt sinh học tính tốn Nếu có nhiều thơng tin khơng liên quan dư thừa liệu ồn không đáng tin cậy, việc khám phá tri thức giai đoạn đào tạo khó khăn Các bước chuẩn bị lọc liệu lượng thời gian xử lý đáng kể Sản phẩm trình tiền xử lý liệu tập huấn luyện cuối Q trình tiền xử lý liệu ảnh hưởng đến cách diễn giải kết trình xử lý liệu cuối Khía cạnh cần xem xét cẩn thận diễn giải kết điểm quan trọng, chẳng hạn trình xử lý đa biến liệu Chuẩn bị liệu thư viện cần thiết Kết nối với Google Drive Đoạn code sử dụng để kết nối Google Colab với Google Drive, cho phép bạn truy cập vào thư mục file có Drive từ Colab Sau thực đoạn code Google Colab yêu cầu truy cập vào liên kết cấp quyền truy cập để kết nối với Google Drive 7|55 Sau kết nối thành công Google Colab Google Drive, bạn sử dụng trực tiếp file có Drive để làm việc Colab mà không cần phải tải chúng xuống Điều hữu ích bạn muốn truy cập sử dụng tệp liệu lớn chia sẻ tập liệu kết với nhiều người Thêm thư viện đọc file liệu Tiếp theo tiến hành import thư viện cho việc phân tích khai phá liệu bao gồm: ● pandas: thư viện để xử lý phân tích liệu ● numpy: Gói thư viện xử lý dãy số ma trận nhiều chiều ● seaborn: thư viện cung cấp cơng cụ trực quan hóa liệu cho Python, dựa matplotlib ● matplotlib.pyplot: thư viện để trực quan hóa liệu dạng biểu đồ ● train_test_split: module để chia tập liệu thành tập huấn luyện tập kiểm tra ● sklearn: thư viện để thực tác vụ machine learning ● Classification_report, confusion_matrix: thư viện để phân loại chi tiết tham số có biểu đồ ● Accuracy_score: tính tỉ lệ số điểm dự đoán tổng số điểm tập liệu kiểm thử 8|55 Sau ta tiếp tục thực lệnh đọc tập tin csv có đường dẫn "/content/drive/ MyDrive/Projects/diabetes.csv" từ Google Drive gắn vào biến df dạng đối tượng DataFrame thư viện pandas Sau thực bước thể thực thao tác liệu lọc, truy cập, xử lý phân tích liệu Tiền xử lý liệu Quan sát liệu Dùng lệnh df.head() df.tail() để in hàng đầu cuối: Tổng quan liệu Sử dụng lệnh df.shape để xem số lượng mẫu thuộc tính liệu: 9|55 Sử dụng phương thức df.info() để hiển thị thông tin tổng quan cột tập liệu, bao gồm: ● Tên cột số lượng giá trị không null cột ● Tổng số lượng hàng cột liệu ● Kiểu liệu cột ● Số lượng nhớ sử dụng Kết biểu diễn: ● Tập liệu có 768 dịng với cột ● Tập liệu bao gồm cột có tên: “Pregnancies” “Glucose”, “BloodPressure”, “SkinThickness”, “Insulin”, “DiabetesPedigreeFunction”, “Age”, “Outcome” ● Trong tập liệu có cột liệu float64; cột liệu int64 ● Tất cột có giá trị khơng null Xử lý giá trị khuyết 10 | 5 “BMI”,