Ví dụ minh họa và triển khai thuật tốn K-Means

Một phần của tài liệu (LUẬN văn THẠC sĩ) kết hợp PCA và kmeans với hồi quy logistic trong ứng dụng tiên lượng bệnh tiểu đường (Trang 48 - 52)

6. Bố cục của luận văn:

2.3.5 Ví dụ minh họa và triển khai thuật tốn K-Means

2.3.5.1 Phát biểu bài tốn:

Sử dụng bộ dữ liệu bệnh tiểu đường Pima chứa 8 thuộc tính đặc trưng và 768 mẫu dữ liệu. Với bộ dữ liệu này, ta cĩ thể biểu diễn thành ma trận số cĩ kích thước là A768×8. Mục tiêu cần giải quyết là chia tập dữ liệu này thành hai cụm khác nhau phân biệt.

2.3.5.2 Triển khai thuật tốn K-Means bằng ngơn ngữ python

Chúng tơi cần các thư viện numpy, pandas và matplotlib để cải thiện độ phức tạp tính tốn và tính trực quan của kết quả. Bây giờ, chúng tơi sẽ triển khai thuật tốn K-Means trên tập dữ liệu bệnh tiểu đường Pima như sau:

Đầu tiên chúng tơi cần đọc bộ dữ liệu để bắt đầu thực hiện quá trình phân cụm. Việc đọc dữ liệu được thực hiện qua phương thức read_csv() của thư viện pandas. Quá trình đọc dữ liệu được thể hiện qua các câu lệnh sau:

Pl-43

Với bộ dữ liệu này, chúng tơi bắt đầu thực hiện phân cụm dữ liệu bằng thuật tốn K-Means. Do thuật tốn K-Means là thuật tốn học khơng giám sát cho nên biến nhãn khơng cần sử dụng đến. Chúng tơi sẽ thực hiện tách bảng dữ liệu thành hai bảng: bảng chứa dữ liệu dự đốn X và bảng chứa biến kết quả Y. Chúng tơi sẽ xử lí dữ liệu trên bảng dữ liệu dự đốn X.

Để phân cụm được dữ liệu, việc lựa chọn số cụm là bao nhiêu là luơn là yếu tố cần thiết. Trong ví dụ này, số cụm n được lựa chọn là 2. Vì mục tiêu của chúng tơi phân loại là bệnh nhân cĩ bị tiểu đường hay khơng bị tiểu đường. Với số cụm được chọn như trên, chúng tơi sử dụng phương thức kmean.fit() để bắt đầu thực thi K-Means. Chúng tơi sẽ xây dựng hai bảng: df_pid_clustered (n mẫu x 1 cột) và df_pid_transformed (n mẫu x 2 cột). Bảng df_pid_clustered (n mẫu x 1 cột) cho biết cụm mà mẫu đĩ thuộc về và bảng df_pid_transformed (n mẫu x 2 cột) cho biết khoảng cách của từng mẫu tới hai tâm cụm.

Pl-44

Khi sử dụng phương thức kmean.fit(), các bước xác định tâm cụm được thực hiện. Với mỗi điểm dữ liệu trong tập dữ liệu, tâm cụm của nĩ sẽ là một trong số n_cluster tâm cụm gần với nĩ nhất. Tiếp tục tục cập nhật lại vị trí các tâm cụm được thực hiện bằng cách lấy trung bình cộng tọa độ tất cả các điểm dữ liệu của cụm. Vị trí mới của tâm cụm sẽ nằm chính giữa của cụm đĩ. Sau cùng là đi kiểm tra độ hội tụ, nếu việc cập nhật lại vị trí của các tâm cụm khơng cĩ sự thay đổi gì nữa thì chúng tơi cĩ thể dừng thuật tốn ở đây. Quá trình phân cụm đã được thực hiện và đưa ra được kết quả. Đoạn chương trình trên được thể hiện như sau:

Pl-45

Từ bảng kết quả trên, ta thấy được dữ liệu đã được phân chia thành hai cụm và in ra được kết quả dự đốn chính xác của thuật tốn K-Means là 67%.

KẾT LUẬN CHƯƠNG 2

Qua các nội dung mà chúng tơi đã trình bày ở trên đã giúp cho chúng tơi cĩ được những kiến thức cơ bản về các thuật tốn hồi quy Logistic, phân tích thành phần chính PCA và phân cụm dữ liệu K-Means. Đây chính là nội dung nền tảng để chúng tơi cĩ thể triển khai nội dung chương 3.

Pl-46

Chương 3: KẾT HỢP BA THUẬT TỐN PCA, K-MEANS VÀ HỒI QUY LOGISTIC ỨNG DỤNG TIÊN LƯỢNG

BỆNH TIỂU ĐƯỜNG

Mục tiêu nghiên cứu của chúng tơi là phân tích mơ hình, chứng tỏ kết quả dự báo chính xác hơn khi kết hợp các thuật tốn phân cụm K-means và hồi quy Logistic. Vai trị phân tích thành phần chính (PCA) nhằm giảm chiều và kích thước tập dữ liệu nhưng bảo tồn thơng tin. Sau đĩ thuật tốn K-means được sử dụng để loại bỏ dữ liệu ngoại lai. Sau cùng sử dụng hồi quy Logistic để xây dựng mơ hình phân lớp và dự báo. Sự kết hợp các thuật tốn cải thiện hiệu quả của mơ hình phân lớp.

Một phần của tài liệu (LUẬN văn THẠC sĩ) kết hợp PCA và kmeans với hồi quy logistic trong ứng dụng tiên lượng bệnh tiểu đường (Trang 48 - 52)

Tải bản đầy đủ (PDF)

(88 trang)