Xây dựng bộ dữ liệu

Một phần của tài liệu BI toán phân lớp nhị phân sử dụng kỹ thuật học máy svm Để dự Đoán khả năng sống sót của bệnh nhân suy tim, khả năng mắc bệnh ung thư vú v bệnh tiểu Đường (Trang 22 - 28)

CHƯƠNG 3 ỨNG DỤNG CỦA MÔ HÌNH SVM TRONG PHÂN LỚP NHỊ PHÂN

3.3 Xây dựng bộ dữ liệu

Sử dụng Dataset có sẵn trên hệ thống Data Kaggle (Download tại : https://www.kaggle.com/datasets)

3.3.1 Bộ dữ liệu dự đoán khả năng sống sót của bênh nhận suy tim - Tập dữ liệu gồm 300 bệnh nhân với các chỉ số mắc bệnh khác nhau, , từ đó làm căn cứ chuẩn đoán bệnh nhân có nguy cơ tử vong cao, bênh nhân có nguy cơ tử vong thấp.

Bệnh viện sẽ tổng hợp toàn bộ dữ liệu và phân loại bệnh nhân theo 2 trường hợp này.

- Đặt Y là khả năng sống sót của bệnh nhân suy tim, với Y=0 là tử vong, ngược lại Y=1 là sống sót.

- Bộ dữ liệu gồm 12 thuộc tính bao gồm:

+ Age ( Tuổi )

+ Anaemia ( Thiếu máu ) : Thiếu máu = 1 , Không thiếu máu = 0.

+ Creatinin phosphokinase

+ Diabetes ( Bệnh tiểu đường ) : Mắc bệnh = 1 , Không mắc bệnh = 0.

+ High blood pressure ( Phân suất tống máu ) + Platelets ( Huyết áp cao )

+ Serum creatinine ( Tiểu cầu huyết thanh creatinine ) + Serum sodium ( Natri huyết thanh)

+ Sex ( Giới tính ) : Nam =1 , Nữ = 0.

+ Smoking ( Hút thuốc ) : Hút thuốc = 1 , Không hút = 0 + Time ( Thời gian ).

- Bộ dữ liệu chia thành 2 phần: Trong đó 80% dữ liệu được làm bộ dữ liệu huyến luyện mô hình ( tập train ), 20%

còn lại làm bộ dữ liệu thử nghiệm độ chính xác của mô hình ( tập test )

Hình : Dữ liệu dự đoán khả năng sống sót của bệnh nhân suy tim

3.3.2 Bộ dữ liệu dự đoán khả năng mắc bệnh ung thư vú - Tập dữ liệu gồm 570 bệnh nhân với các chỉ số khối u bất thường khác nhau, , từ đó làm căn cứ chuẩn đoán bệnh nhân có bị mắc bệnh ung thư hay không.

- Đặt Y là khả năng mắc bệnh ung thư vú, với Y=0 là không mắc bệnh Y=1 là mắc bệnh.

- Bộ dữ liệu gồm 5 thuộc tính bao gồm:

+ Mean_radius (Bán Kính Trung Bình) + Mean_texture (Kết cấu Trung Bình) + Mean_perimeter (Chu vi Trung bình) + Mean_area (Diện tích Trung bình) + Mean_smoothness (Sai số Trung bình)

- Bộ dữ liệu chia thành 2 phần: Trong đó 80% dữ liệu được làm bộ dữ liệu huyến luyện mô hình ( tập train ), 20%

còn lại làm bộ dữ liệu thử nghiệm độ chính xác của mô hình ( tập test ).

Hình :Dữ liệu dự đoán khả năng mắc bệnh ung thư vú của người bệnh

3.3.4 Bộ dữ liệu dự đoán khả năng mắc bệnh tiểu đường - Tập dữ liệu gồm hơn 700 bệnh nhân với các chỉ số mắc bệnh khác nhau, , từ đó làm căn cứ chuẩn đoán bệnh nhân có nguy cơ tử vong cao, bênh nhân có nguy cơ tử vong thấp. Bệnh viện sẽ tổng hợp toàn bộ dữ liệu và phân loại bệnh nhân theo 2 trường hợp này.

-Đặt Y là khả năng mắc bệnh tiểu đường, với Y=0 là không mắc, ngược lại Y=1 là có mắc.

- Bộ dữ liệu gồm 8 thuộc tính bao gồm:

+ Pregnancies ( Số lần mang thai ) + Glucose (Nồng độ glucose)

+ BloodPressure (Huyết áp tâm trương)

+ SkinThickness (Độ dày nếp gấp da cơ tam đầu) + Insulin

+ BMI (Chỉ số khối cơ thể)

+ DiabetesPedigreeFunction (Chức năng phả hệ bệnh tiểu đường) + Age (tuổi)

- Bộ dữ liệu chia thành 2 phần: Trong đó 80% dữ liệu được làm bộ dữ liệu huyến luyện mô hình ( tập train ), 20%

còn lại làm bộ dữ liệu thử nghiệm độ chính xác của mô hình ( tập test )

Hình : Dữ liệu dự đoán khả năng mắc bệnh tiểu đường

3.3.5 Bộ dữ liệu dự đoán khả năng tử vong do viêm gan - Tập dữ liệu gồm hơn 700 bệnh nhân với các chỉ số mắc bệnh

khác nhau, , từ đó làm căn cứ chuẩn đoán bệnh nhân có nguy cơ tử vong cao, bênh nhân có nguy cơ tử vong thấp. Bệnh viện sẽ tổng hợp toàn bộ dữ liệu và phân loại bệnh nhân theo 2 trường hợp này.

- Đặt Y là khả năng mắc bệnh viêm gan, với Y=0 là không mắc, ngược lại Y=1 là có mắc.

- Bộ dữ liệu gồm 19 thuộc tính bao gồm:

+ age ( Số lần mang thai ) + sex (Nồng độ glucose) + steroid (Huyết áp tâm trương)

+ antivirals (Độ dày nếp gấp da cơ tam đầu) + fatigue

+ malaise (Chỉ số khối cơ thể)

+ anorexia (Chức năng phả hệ bệnh tiểu đường) + liver_big (tuổi)

+ liver_firm + spleen_palable + spiders + ascites + varices + bilirubin + alk_phosphate + sgot

+ albumin + protime + histology

Bộ dữ liệu chia thành 2 phần: Trong đó 80% dữ liệu được làm bộ dữ liệu huyến luyện mô hình ( tập train ), 20% còn lại làm bộ dữ liệu thử nghiệm độ chính xác của mô hình ( tập test )

Hình : Dữ liệu dự đoán khả năng mắc bệnh tiểu đường

Một phần của tài liệu BI toán phân lớp nhị phân sử dụng kỹ thuật học máy svm Để dự Đoán khả năng sống sót của bệnh nhân suy tim, khả năng mắc bệnh ung thư vú v bệnh tiểu Đường (Trang 22 - 28)

Tải bản đầy đủ (PDF)

(39 trang)