Kết quả phân cụm dữ liệu mẫu

Một phần của tài liệu (LUẬN văn THẠC sĩ) tìm hiểu các phương pháp phân cụm dữ liệu ứng dụng xây dựng bản đồ phân bố bệnh trên địa bàn tỉnh thái nguyên​ (Trang 63 - 69)

Dựa trên dữ liệu mẫu và tiêu chí ban đầu đặt ra của việc phân tích dữ liệu, xác định lăm loại bệnh phổ biến để đƣa vào làm tiêu chí phân cụm cũng nhƣ xác định số mẫu liên quan đến những bệnh này.

Bảng 3.1: Các loại bệnh và ký hiệu

ICD Loại bệnh

N20.1 Sỏi niệu quản

N18 Suy thận mãn

K29 Viêm dạ dày và tá tràng C34 Bƣớu ác phổi và phế quản

I10 Cao huyết áp

Bảng 3.2: Các khu vực hành chính và ký hiệu Ký hiệu Khu vực hành chính A TP Thái Nguyên B Huyện Đồng Hỷ C Huyện Phú Bình D Huyện Võ Nhai E Huyện Đại Từ F Huyện Định Hóa G Huyện Phú Lƣơng H Huyện Phổ Yên I TX Sông Công

Luận văn sử dụng phƣơng pháp phân nhóm hai bƣớc, ta sẽ xét kết quả phân nhóm trong từng bƣớc.

A. Bƣớc thứ nhất

Xét tiêu chí số lƣợng mẫu trên từng bệnh trong từng khu vực hành chính làm tiêu chí đầu xác định dữ liệu đầu vào.

Bảng 3.3: Dữ liệu đầu vào cho phân cụm phân cấp

Khu vực N20.1 (số lƣợng mẫu) N18 K29 I10 C34 A 23 20 43 32 27 B 19 11 13 3 13 C 4 5 3 1 17 D 6 8 6 4 9 E 8 5 8 3 12 F 4 1 3 0 4 G 3 2 10 5 6 H 0 0 5 0 4 I 0 1 1 0 0

Kết quả phân cụm bước thứ nhất(thứ tự phân cụm): A, B, C, D, E, F, G, H, I A, B, C, D, E, (F,H), G, I A, B, C, (D,E), (F,H), G, I A, B, C, (D,E), ((F,H),I), G A, B, C, (D,E), (((F,H),I),G) A, B, (C,(D,E)), (((F,H),I),G) A, B, ((C,(D,E)),(((F,H),I),G))) A, (B,((C,(D,E)),(((F,H),I),G)))) (A,(B,((C,(D,E)),(((F,H),I),G))))) B. Bƣớc thứ hai

Trong bƣớc này dùng thuật toán K-means để tiến hành phân cụm dựa trên Data Mining Software WeKa.

Tập dữ liệu thu đƣợc sau các bƣớc tiền xử lý dữ liệu với hơn 2700 bản ghi, đến bƣớc này cần lấy ra những bản ghi liên quan đến 5 loại bệnh phổ biến nhất .Dữ liệu cuối cùng dùng để phân cụm trong bƣớc này là tập dữ liệu mẫu có tên ytn5b.final.arffbao gồm hơn 350 bệnh nhân với ba thuộc tính. Cấu trúc và phân bố dữ liệu đƣợc thể hiện ở bảng dƣới.

Hình 3.7: Cấu và phân bố dữ liệu mẫu

Dựa trên kết quả phân cụm trong bƣớc thứ nhất chọn số cụm là 5. Nhiệm vụ cần thực hiện là dùng thuật toán K-means để phân nhóm số bệnh nhân vào 5 nhóm(cụm) dựa vào sự tƣơng tự trên các thuộc tính của họ.

Thiết lập các tham số cho thuật toán K-means nhƣ số cụm(K=5), lựa chọn phƣơng pháp tính khoảng cách(khoảng cách Euclidean), … nhƣ hình dƣới.

Hình 3.8: Thiết lập tham số thuật toán K-means

Hình 3.9: Kết quả phân cụm chi tiết

Dựa vào kết quả phân cụm chi tiết lấy đƣợc từ phần mềm Weka ta xây dựng bảng biểu diễn kết quả.

Bảng 3.4: Biểu diễn kết quả phân cụm chi tiết

Cụm Tâm cụm Số lƣợng mẫu %

1 - TP Thái Nguyên

- K29 (Viêm dạ dày và tá tràng) 183 52 2 - Huyện Phú Bình

- N20.1 (Sỏi niệu quản) 48 14

3 - TP Thái Nguyên

- N18 (Suy thận mãn) 48 14

4 - Huyện Đại Từ

- C34 (Bƣớu ác phổi và phế quản) 51 14 5 - Huyện Đồng Hỷ

- N20.1 (Sỏi niệu quản) 22 6

Theo kết quả thể hiện trong hình trên và bảng 3.4, bệnh phổ biến nhất trong các khu vực là viêm dạ dày và tá tràng(K29) với lƣợng ngƣời mắc bệnh nhiều nhất tập trung ở khu vực TP Thái Nguyên. Trong cụm thứ nhất, cụm có số lƣợng mẫu lớn nhất chiếm 52% với tâm cụm là TP Thái Nguyên (68%), bệnh phổ biến nhất là viêm dạ dày và tá tràng (K29- 50%), các bệnh phổ biến tiếp theo là cao huyết áp (I10-22%), bệnh bƣớu ác phế quản và phổi (C34-14%) và sỏi niệu quản (N20.1- 12%). Trong cụm thứ hai, tâm cụm thuộc huyện Phú Bình với các bệnh phổ biến lần lƣợt là: sỏi niệu quản (N20.1-52%), bệnh bƣớu ác phế quản và phổi (C34-35%) và bệnh suy thận mãn (N18-10%). Trong cụm thứ ba, tâm cụm nằm trong khu vực TP Thái Nguyên và bệnh phổ biến nhất là bệnh suy thận mãn(N18-100%). Cụm thứ tƣ, tâm cụm thuộc khu vực huyện Đại Từ với bệnh phổ biến nhất là bệnh bƣớu ác phế quản và phổi (C34-94%). Cụm thứ lăm, tâm cụm thuộc khu vực huyện Đồng Hỷ

Dựa vào những kết quả trên có thể hình dung đƣợc sự phân bố của một số bệnh phổ biến trong các khu vực hành chính (cấp quận, huyện) của tỉnh Thái Nguyên. Tuy nhiên, cụm thứ nhất và cụm thứ ba đều có tâm cụm thuộc khu vực TP Thái Nguyên. Với kết quả phân cụm nhƣ vậy sẽ chƣa đáp ứng đƣợc yêu cầu phân bố bệnh theo các khu vực hành chính (cấp quận huyện) của tỉnh. Do đó ta sẽ tiến hành phân cụm tập dữ liệu mẫu theo tiêu chí “bệnh” để xem sự phân bố của những bệnh này trong các khu vực hành chính. Kết quả phân cụm theo tiêu chí bệnh đƣợc thể hiển trong hình dƣới

Dựa vào kết quả phân cụm chi tiết lấy đƣợc từ phần mềm Weka ta xây dựng bảng biểu diễn kết quả.

Bảng 3.5: Biểu diễn kết quả phân cụm theo tiêu chí bệnh

Cụm ICD Bệnh Khu vực

1 K29 Viêm dạ dày và tá tràng Huyện Võ Nhai, huyện Định Hóa, TX Sông Công, Huyện Phổ Yên, Huyện Phú Lƣơng

2 C34 Bƣớu ác phế quản và phổi Huyện Phú Bình

3 I10 Cao huyết áp TP Thái Nguyên

4 N18 Suy thận mãn Huyện Đại Từ

5 N20.1 Sỏi niệu quản Huyện Đồng Hỷ

Theo kết quả thể hiện trong hình trên và bảng 3.5, ta xem sự phân cụm các khu vực theo các hình thức bệnh. Trong cụm thứ nhất, bệnh viêm đại tràng phổ biến nhất và phân bố chủ yếu ở các huyện Võ Nhai, Định Hóa, Phổ Yên, Phú Lƣơng và TX Sông Công. Trong cụm thứ hai, bệnh bƣớu ác phế quản và phổi phổ biến nhất và phân bố chủ yếu ở huyện Phú Bình. Trong cụm thứ ba, bệnh cao huyết áp phổ biến nhất và tập trung chủ yếu ở TP Thái Nguyên. Trong cụm bốn, bệnh suy thận mãn phổ biến nhất và phân bố chủ yếu ở huyện Đại Từ. Trong cụm thứ lăm, bệnh sỏi niệu quản phổ biến nhất và phân bố chủ yếu ở huyện Đồng Hỷ.

Trên đây là các kết quả đã thu đƣợc sau khi tiến hành phân cụm dữ liệu mẫu. Kết quả sẽ đƣợc biểu diễn dƣới dạng bản đồ để có cái nhìn tổng quan về sự phân bố bệnh phổ biến trong các khu vực hành chính thuộc tỉnh Thái Nguyên.

Một phần của tài liệu (LUẬN văn THẠC sĩ) tìm hiểu các phương pháp phân cụm dữ liệu ứng dụng xây dựng bản đồ phân bố bệnh trên địa bàn tỉnh thái nguyên​ (Trang 63 - 69)

Tải bản đầy đủ (PDF)

(73 trang)