1. Trang chủ
  2. » Giáo Dục - Đào Tạo

Xác suất thống kê khoa khoa học Ứng dụng chủ Đề dự Đoán nguy cơ loãng xương

27 0 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Dự Đoán Nguy Cơ Loãng Xương
Tác giả Đinh Đoàn Hưng An, Hoàng Chế Kiên, Mè Minh Tuấn, Huỳnh Mai Tuấn, Trương Văn Trường Vũ, Lê Minh Hưng
Người hướng dẫn Phan Thị Hường
Trường học Đại Học Quốc Gia Thành Phố Hồ Chí Minh
Chuyên ngành Xác Suất Thống Kê
Thể loại Bài Báo
Năm xuất bản 2024
Thành phố Thành phố Hồ Chí Minh
Định dạng
Số trang 27
Dung lượng 8,17 MB

Nội dung

Vẽ đồ thị barplot cho các biến định tính 2 nhóm có nguy cơ loãng xương và không có nguy cơ loãng xương.. Dữ liệu gốc: https://www.kaggle.com/datasets/amitvkulkarni/lifestyle-factors-i

Trang 1

ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH

TRƯỜNG ĐẠI HỌC BÁCH KHOA

🙠🕮🙢

XÁC SUẤT THỐNG KÊ KHOA KHOA HỌC ỨNG DỤNG

Chủ đề

DỰ ĐOÁN NGUY CƠ LOÃNG XƯƠNG

Lớp: DT03 - Nhóm: 12 Giảng viên hướng dẫn: Cô Phan Thị Hường

Thành phố Hồ Chí Minh – 2024

Trang 2

BÁO CÁO PHÂN CÔNG NHIỆM VỤ VÀ KẾT QUẢ

Trang 3

Mục Lục

I Tổng quan dữ liệu 4

II Kiến thức nền 4

1 Hồi quy Logistic 4

1.1 Định nghĩa 4

1.2Mô hình hồi quy tuyến tính và mô hình hồi quy logistic 7

2 Receiver Operator Characteristic (ROC) và Area Under the Curve (AUC) 7

3 Kiểm định mô hình bằng phương pháp ROC/AUC 8

3 1Đánh giá ý nghĩa tổng thể của mô hình 8

3 2Đưa ra các dự đoán 9

III Tiền xử lý số liệu 1 0 1 Đọc dữ liệu 1 0 2 Làm sạch dữ liệu 1 1 IV Thống kê mô tả 12

1 Thống kê mô tả cho biến định lượng 12

2 Lập bảng thống kê số lượng cho mỗi phân loại của các biến định tính 1 2 3 Vẽ đồ thị barplot cho biến Osteoporosis 14

4 Vẽ đồ thị histogram cho biến độ tuổi 1 4 5 Vẽ đồ thị histogram và boxplot cho biến độ tuổi ở 2 nhóm có nguy cơ loãng xương và không có nguy cơ loãng xương 15

6 Vẽ đồ thị barplot cho các biến định tính 2 nhóm có nguy cơ loãng xương và không có nguy cơ loãng xương 1 6 V Thống kê suy diễn 19

VI Thảo luận và mở rộng 2 6 VII Nguồn dữ liệu 2 6 VIII Tài liệu tham khảo 2 7

Trang 4

I Tổng quan dữ liệu

Tập tin dữ liệu “osteoporosis.csv” chứa thông tin về các yếu tố như nhân khẩu học, tiền

sử bệnh, và chỉ số sức khỏe của 1958 đối tượng bệnh nhân Ngoài dữ liệu về nhân khẩu học và tiền sử bệnh, bộ dữ liệu còn cung cấp thông tin về tuổi tác, giới tính, thay đổi nội tiết tố, và các thói quen sinh hoạt của các đối tượng

Dữ liệu gốc:

https://www.kaggle.com/datasets/amitvkulkarni/lifestyle-factors-influencing-

osteoporosis

Các biến chính trong bộ dữ liệu bao gồm:

Như tất cả các phân tích hồi quy khác, hồi quy logistic là một phương pháp dự đoán Nó được áp dụng để mô tả dữ liệu và giải thích mối quan hệ giữa một biến phụ thuộc nhị phân và một hoặc nhiều biến độc lập Kỹ thuật này có cấu trúc tương tự như hồi quy tuyến tính và có thể được sử dụng để dự đoán xác suất phân loại các vấn đề

Trang 5

Trong hồi quy logistic, phép biến đổi logit được sử dụng để làm việc với tỷ lệ odds—tức

là tỷ lệ giữa xác suất thành công và xác suất thất bại Điều này thường được gọi là tỷ lệ log odds hoặc logarit tự nhiên của tỷ lệ odds, và hàm logistic được biểu diễn bằng công thức sau:

1 + 𝑒 − 𝑋 β

hợp chứ không phải thất bại/không thành công (xác suất bằng 1)

Về mặt toán học, tỷ số odds về mặt xác suất được định nghĩa đơn giản bằng tỉ số xác suất biến cố xảy ra trên xác suất biến cố không xảy ra:

Trang 6

Cho một biến độc lập x (x có thể là liên tục hay không liên tục), mô hình hồi quy

Logistic phát biểu rằng:

𝑙𝑜𝑔𝑖𝑡 𝑝 ( ) = α + β 𝑥 → 𝑙𝑜𝑔𝑖𝑡 𝑝 ( ) =( ) 1 − 𝑝 𝑝 = α + β 𝑥 → 𝑜𝑑𝑑𝑠 𝑝 ( ) = 1 − 𝑝 𝑝 = 𝑒 α + β 𝑥

được gọi là odds ratio là tỉ số khả năng hay tỉ số khả dĩ Nói cách khác, hệ số trong

mô hình hồi qui Logistic chính là tỉ số khả dĩ

Mô hình hồi quy Logistic (trong trường hợp biến phụ thuộc là nhị thức):

𝑃 𝑌

𝑖 = 1 ( )= 𝑒

(β 0 + β 0 +β 1 𝑋 1 + β 2 𝑋 2 + … +β 𝑘 𝑋 𝑘 )

1 + 𝑒 (β 0 + β 0 +β 1 𝑋 1 + β 2 𝑋 2 + … +β 𝑘 𝑋 𝑘 ) = 1

1 + 𝑒 −(β 0 + β 0 +β 1 𝑋 1 + β 2 𝑋 2 + … +β 𝑘 𝑋 𝑘 )

Với: P là xác suất quan sát trường hợp I trong kết quả biến Y với một giá trị = 1 βk là

hệ số hồi quy tương ứng với các biến quan sát

Có 2 lưu ý khi tính ra giá trị xác xuất, là giá trị phải thuộc đoạn từ 0 đến 1

Nếu kết quả của biến Y vượt quá 1: tức vượt quá kết quả xác suất có thể có (phạm vi từ

0 đến 1 ), chúng ta cần biến đổi xác suất trong Odds ( O )

𝑂 = 1 − 𝑃 𝑃 = 𝑋 á 𝑐 𝑠𝑢 ấ 𝑡 𝑠 ự 𝑘𝑖 ệ 𝑛 𝑘ℎ ô 𝑛𝑔 𝑥 ả 𝑦 𝑟𝑎 𝑋 á 𝑐 𝑠𝑢 ấ 𝑡 𝑠 ự 𝑘𝑖 ệ 𝑛 𝑥 ả 𝑦 𝑟𝑎

→ 𝑃 = 1 + 𝑂 𝑂

Với O = Odds, P là xác suất sự kiện xảy ra

Xác suất và Odds

Trang 7

Nếu kết quả của biến Y nhỏ hơn 0 (giá trị âm): chúng ta có thể trình bày lại công thức Odds (O) theo logarit của Odds (Y=1)

Tỉ lệ Odds nhỏ hơn 1 có giá trị logarit âm, tỉ lệ Odds lớn hơn 1 có giá trị logarit dương,

tỉ lệ Odds bằng 1 thì logarit có giá trị bằng 0 Dù giá trị âm có thấp đến đâu, vẫn có thể chuyển đổi bằng cách lấy antilog thành giá trị Odds Giá trị này bây giờ trở thành biến phụ thuộc của mô hình hồi quy Logistic

1.2 Mô hình hồi quy tuyến tính và mô hình hồi quy logistic

Mô hình hồi quy tuyến tính được sử dụng để xác định mối quan hệ giữa một biến phụ thuộc và một hoặc nhiều biến độc lập Khi một biến liên tục có phạm vi giá trị như giá

cả hoặc độ tuổi, hồi quy tuyến tính có thể dự đoán giá trị thực của biến phụ thuộc Ví

dụ, nó có thể giúp trả lời các câu hỏi như "Giá gạo sẽ là bao nhiêu sau 10 năm nữa?"

Khi mô hình chỉ có một biến độc lập và một biến phụ thuộc, đây được gọi là hồi quy tuyến tính đơn giản Ngược lại, khi có nhiều biến độc lập, mô hình được gọi là hồi quy tuyến tính bội Trong cả hai trường hợp, mô hình tìm cách vẽ một đường phù hợp nhất qua một tập hợp các điểm dữ liệu, thường được thực hiện bằng phương pháp bình phương tối thiểu tuyến tính

Tương tự như hồi quy tuyến tính, hồi quy logistic cũng nhằm ước lượng mối quan hệ giữa một biến phụ thuộc và một hoặc nhiều biến độc lập Tuy nhiên, hồi quy logistic được sử dụng để dự đoán một biến phân loại thay vì một biến liên tục Kết quả của hồi quy logistic là nhị phân hoặc phân đôi với hai khả năng xảy ra: có/không, 0/1, hoặc đúng/sai Hàm logit trong hồi quy logistic biến đường cong S thành một đường thẳng,

và nó tạo ra xác suất Ví dụ, kỹ thuật này có thể trả lời các câu hỏi như "Liệu giá gạo trong 10 năm tới có tăng 50% hay không?"

Với khả năng giải quyết các bài toán phân loại, hồi quy logistic sẽ được áp dụng trong

dự án này để xác định chất lượng nguồn nước Mô hình sẽ phân tích mối quan hệ giữa các biến như pH, độ cứng, sulfate, và các yếu tố khác của từng khu vực, nhằm dự đoán liệu nguồn nước ở đó có thể uống được hay không

AUC (Area Under the Curve) là một chỉ số hiệu suất quan trọng trong hồi quy Logistic, dùng để đánh giá độ chính xác của mô hình phân loại nhị phân AUC đánh giá chất lượng tổng thể của mô hình và khả năng phân loại đúng các ví dụ tích cực và tiêu cực Trong hồi quy Logistic, mô hình cung cấp điểm xác suất cho mỗi mẫu, thể hiện khả năng dự đoán rằng mẫu đó thuộc về lớp tích cực AUC đo lường khả năng của mô hình

Trang 8

trong việc phân biệt giữa các ví dụ dương tính và âm tính, bằng cách so sánh tỷ lệ dương tính thật (True Positive Rate - TPR) với tỷ lệ dương tính giả (False Positive Rate

- FPR) ở các ngưỡng xác suất khác nhau

Đường cong ROC (Receiver Operating Characteristic) là đồ họa biểu diễn sự cân bằng giữa TPR và FPR cho các giá trị ngưỡng xác suất khác nhau AUC, khu vực dưới đường cong ROC, là một chỉ số tổng hợp để đánh giá hiệu quả của mô hình hồi quy Logistic trong việc phân loại các kết quả tích cực và tiêu cực ở tất cả các ngưỡng có thể Giá trị của AUC dao động từ 0.5 đến 1, với giá trị càng cao cho thấy hiệu suất của mô hình càng tốt trong việc phân biệt giữa các ví dụ tích cực và tiêu cực

Tóm lại, AUC là một thước đo dùng để đánh giá độ chính xác của mô hình phân loại nhị phân trong hồi quy Logistic Nó đo lường khả năng của mô hình trong việc phân biệt giữa các ví dụ tích cực và tiêu cực dựa trên điểm xác suất mà mô hình đưa ra Trong tập

dữ liệu này, phương pháp ROC-AUC được sử dụng trong R để xác định chất lượng nước

3.1 Đánh giá ý nghĩa tổng thể của mô hình

Mô hình hồi quy Logistic được xây dựng dựa trên dữ liệu của một mẫu được lấy từ tổng thể nên có thể ảnh hưởng đến sai số của mẫu Vì vậy, chúng ta phải thực hiện kiểm định giả thuyết để kết luận rằng mối quan hệ có ý nghĩa thống kê giữa biến dự đoán (x) và biến phản hồi (y)

Sau đó, chúng ta tính giá trị Chi - square value (Chi bình phương) tổng thể của mô hình

Trang 9

theo công thức:

χ 2 = 𝑁𝑢𝑙𝑙 𝑑𝑒𝑣𝑖𝑎𝑛𝑐𝑒 − 𝑅𝑒𝑠𝑖𝑑𝑢𝑎𝑙 𝑑𝑒𝑣𝑖𝑎𝑛𝑐𝑒

𝑁𝑢𝑙𝑙 𝑑𝑒𝑔𝑟𝑒𝑒 𝑜𝑓 𝑓𝑟𝑒𝑒𝑑𝑜𝑚 − 𝑅𝑒𝑠𝑖𝑑𝑢𝑎𝑙 𝑑𝑒𝑔𝑟𝑒𝑒 𝑜𝑓 𝑓𝑟𝑒𝑒𝑑𝑜𝑚

mức ý nghĩa (p < 0.05) thì mô hình này rất hữu ích trong việc dự đoán xác suất Ngược lại, nếu giá trị p lớn hơn giá trị của mức ý nghĩa (p > 0.05) thì biến dự đoán (x) và biến phản hồi (y) không có bất kỳ mối quan hệ nào (có thể bỏ qua)

3.2 Đưa ra các dự đoán

Ma trận nhầm lẫn (confusion matrix) là một bảng biểu thể hiện số lượng các quan sát được phân loại đúng hoặc sai bởi một mô hình phân loại, so với các nhãn thực tế của chúng Ma trận nhầm lẫn có thể giúp đánh giá hiệu suất và độ tin cậy của một mô hình hồi quy logistic, cũng như xác định các loại lỗi mà mô hình thường mắc phải

Từ bốn chỉ số trên, ta có thể đánh giá mức độ tin cậy của một mô hình:

• Độ chính xác - Accuracy: Trong tất cả các dự đoán của chúng ta, tỷ lệ dự đoán đúng là bao nhiêu?

Nếu dữ liệu của chúng ta cân đối, ta có thể chỉ cần dùng chỉ số accuracy này thôi là đủ

để đánh giá mô hình Độ chính xác được tính bằng cách chia tổng số dự đoán đúng cho tất cả các dự đoán:

Trang 10

+ Trong số kết quả thực tế bằng 1 , có bao nhiêu kết quả đã được dự đoán đúng:

+ Sai số dương tính giả (False Positive Error) = 1 - Độ đặc hiệu

• Precision: Precision được dùng để kiểm tra xem có bao nhiêu kết quả thực sự Y = 1 trong tổng số các kết quả dự đoán là Y = 1

Đọc dữ liệu vào R và xem kết quả 10 dòng đầu tiên và ta có kết quả:

Hình 1 Kết quả 10 dòng đầu tiên của tệp tin osteoporosis_data

Trang 11

Khảo sát thông tin của tệp tin osteoporosis data ta có kết quả:

Hình 2 Kết quả khảo sát thông tin của tệp tin osteoporosis_data

Nhận xét: Bộ dữ liệu gồm có 1958 quan sát và 16 biến Trong đó biến Age là biến định lượng và các biến còn lại là biến định tính.Ngoài ra, biến osteoporosis có định dạng là int, ta cần chuyển biến này sang dạng factor

Loại bỏ biến ID không cần thiết sử dụng trong data sau đó đổi tên các biến có trong bộ

dữ liệu

Tiếp tục kiểm tra dữ liệu khuyết trong tệp tin ta có kết quả:

Hình 3 Kết quả kiểm tra dữ liệu khuyết

Nhận xét: Tệp tin không có dữ liệu khuyết

Trang 12

IV Tiền xử lý số liệu

Thực hiện tính thống kê mô tả (bao gồm cỡ mẫu, trung bình mẫu, độ lệch chuẩn mẫu, trung vị, giá trị nhỏ nhất và giá trị lớn nhất ) cho độ tuổi ta có kết quả:

Hình 4 Kết quả tính thống kê mô tả cho độ tuổi

Lập bảng thống kê số lượng cho mỗi phân loại của các biến định tính cho các biến Gender, Hormonal_Changes, Family_History, ta có kết quả:

Trang 13

Hình 5 Kết quả lập bảng thống kê số lượng cho các biến định tính

Trang 14

3 Vẽ đồ thị barplot cho biến Osteoporosis

Vẽ đồ thị barplot cho biến Osteoporosis để khảo sát số người có nguy cơ mắc bệnh và không mắc bệnh loãng xương ta có kết quả:

Hình 6 Kết quả đồ thị barplot cho biến Osteoporosis

Nhận xét: Trong những người khảo sát có 979 người không có nguy cơ mắc bệnh loãng xương và 979 người có nguy cơ mắc bệnh loãng xương

Vẽ đồ thị histogram phân bố độ tuổi người có nguy cơ mắc bệnh ta có kết quả

Hình 7 Kết quả đồ thị histogram của độ tuổi

Nhận xét: Đồ thị cho thấy độ tuổi có phân bố lệch phải, độ tuổi của những người khảo sát chủ yếu từ 20 tuổi đến 40 tuổi

Trang 15

5 Vẽ histogram và boxplot cho biến độ tuổi của nhóm có nguy cơ loãng xương và không có nguy cơ loãng xương

Vẽ histogram và boxplot cho biến độ tuổi của hai nhóm có nguy cơ và không có nguy

cơ mắc bệnh loãng xương ta có kết quả

Hình 8 Kết quả đồ thị boxplot thể hiện độ tuổi ở 2 nhóm có nguy cơ loãng xương và

không có nguy cơ loãng xương

Hình 9 Kết quả đồ thị histogram thể hiện độ tuổi ở 2 nhóm có nguy cơ loãng xương

và không có nguy cơ loãng xương

Trang 16

Nhận xét: Đối với những người không có nguy cơ mắc bệnh loãng xương thì thường

có độ tuổi từ 40 trở xuống Ngược lại đối với những người có nguy cơ mắc bệnh loãng xương thì độ tuổi có phân bố tương đối đều Phân bố độ tuổi ở 2 nhóm có sự khác biệt, vì vậy độ tuổi là yếu tố giúp nhận biết nguy cơ mắc bệnh loãng xương

và không có nguy cơ loãng xương

Đồ thị barplot cho các biến định tính của nam và nữ ở các có nguy cơ loãng xương và không có nguy cơ loãng xương ta có kết quả

Hình 10 Kết quả đồ thị barplot thể hiện số giới tính 2 nhóm có nguy cơ loãng xương

và không có nguy cơ loãng xương

Nhận xét: Tỷ lệ có nguy cơ loãng xương ở nam cao hơn so với ở nữ (tuy nhiên khác biệt không quá nhiều)

Trang 17

Tương tự, ta thực hiện vẽ với các biến định tính khác

Trang 18

Hình 11 Kết quả các đồ thị barplot thể hiện số lượng của các phân loại ở các biến định tính ở 2 nhóm có nguy cơ loãng xương và không có nguy cơ loãng xương

Trang 19

V Thống kê suy diễn

Dựa trên các dữ liệu đã cho và kiến thức về mô hình, đây là một bài toán dự đoán một biến phân loại nhị phân phụ thuộc vào các biến độc lập liên tục Mô hình hồi quy logistic nhị phân là lựa chọn phù hợp nhất cho bài toán này

Trước khi thực hiện các bước phân tích thống kê, chúng ta chia dữ liệu thành hai phần: tập huấn luyện và tập kiểm tra theo tỷ lệ 80% và 20% Tập huấn luyện được sử dụng để xây dựng mô hình, trong khi tập kiểm tra được dùng để ước lượng và đánh giá khả năng phân loại chính xác của mô hình trên dữ liệu mới hoặc dữ liệu chưa thấy trước đó

Chia bộ dữ liệu thành 2 phần: train_data (80%) và test_data (20%) sau đóthực hiện chọn mô hình tối ưu nhất và tóm tắt kết quả mô hình ta có kết quả:

Ngày đăng: 02/10/2024, 16:18

w