1. Trang chủ
  2. » Luận Văn - Báo Cáo

(Luận văn) tìm hiểu các phương pháp phân cụm dữ liệu ứng dụng xây dựng bản đồ phân bố bệnh trên địa bàn tỉnh thái nguyên

73 2 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 73
Dung lượng 2,23 MB

Nội dung

ĐẠI HỌC THÁI NGUYÊN TRƢỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THƠNG NGUYỄN MINH TÚ lu TÌM HIỂU CÁC PHƢƠNG PHÁP CỤM DỮ LIỆU ỨNG DỤNG XÂY DỰNG an BẢN ĐỒ PHÂN BỐ BỆNH TRÊN ĐỊA BÀN TỈNH THÁI NGUYÊN va n Mã số: 60480101 p ie gh tn to Ngƣời hƣớng dẫn khoa học: TS NGUYỄN MINH HẢI d oa nl w lu ll u nf va an LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH oi m z at nh z m co l gm @ Thái Nguyên - 2015 an Lu va n Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn ac th si LỜI CẢM ƠN Em xin chân thành cảm ơn Trƣờng Đại học Công nghệ Thông tin Truyền thông – Đại học Thái Nguyên tạo điều kiện cho em thực luận văn Em xin gửi lời cảm ơn sâu sắc tới thầy giáo TS Nguyễn Hải Minh, trƣởng khoa Công nghệ thông tin – Trƣờng Đại học Công nghệ Thông tin Truyền thông – Đại học Thái Nguyên trực tiếp hƣớng dẫn em trình thực luận văn Em xin gửi lời cảm ơn tới thầy, cô có ý kiến đóng góp bổ ích tạo điều kiện tốt cho em suốt thời gian thực luận văn Xin cảm ơn bạn học đồng khóa thƣờng xuyên động viên, giúp đỡ tơi lu an q trình học tập n va Cuối cùng, em xin gửi lời cảm ơn đến gia đình đồng nghiệp ủng hộ văn p ie gh tn to động viên dành cho em suốt trình học tập nhƣ thực luận w Thái Nguyên, tháng 11 năm 2015 d oa nl Học viên va an lu ll u nf Nguyễn Minh Tú oi m z at nh z m co l gm @ an Lu va n Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn ac th si LỜI CAM ĐOAN Em xin cam đoan nội dung đồ án tốt nghiệp với tên đề tài “Tìm hiểu phƣơng pháp phân cụm liệu ứng dụng xây dựng đồ phân bố bệnh địa bàn tỉnh Thái Nguyên” không chép nội dung từ luận văn khác, hay sản phẩm tƣơng tự mà em làm Sản phẩm luận văn thân em tìm hiểu xây dựng nên lu Nếu có sai em xin chịu hình thức kỷ luật Trƣờng Đại học Công an nghệ Thông tin Truyền thông – Đại học Thái Nguyên n va tn to gh Thái Nguyên, tháng 11 năm 2015 p ie Học viên d oa nl w ll u nf va an lu Nguyễn Minh Tú oi m z at nh z m co l gm @ an Lu va n Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn ac th si MỤC LỤC LỜI CẢM ƠN i LỜI CAM ĐOAN iii MỤC LỤC iv DANH MỤC BẢNG vi DANH MỤC CÁC HÌNH VẼ vii MỞ ĐẦU lu MỘT SỐ KẾT QUẢ NGHIÊN CƢ́U KHÁC an CHƢƠNG I KHAI PHÁ DỮ LIỆU va n 1.1 Tổng quan khai phá liệu 1.2.1 Quá trình khám phá tri thức gh tn to 1.2 Quá trình khám phá tri thức khai phá liệu p ie 1.2.2 Quá trình khai phá liệu w 1.3 Các kỹ thuật khai phá liệu oa nl 1.4 Mô ̣t số thách thƣ́c khai phá dƣ̃ liê ̣u 10 d CHƢƠNG II PHÂN CỤM DƢ̃ LIÊU ̣ VÀ CÁC THUẬT TOÁNPHÂN CỤM 12 lu an 2.1 Khái niệm phân cụm liệu 13 u nf va 2.1.1 Một số định nghĩa 13 2.1.2 Dữ liệu độ đo 13 ll oi m 2.2 Các yêu cầu phƣơng pháp phân cụm liệu 14 z at nh 2.3 Các kỹ thuật phân cụm 16 2.3.1 Các kỹ thuật phân cụm 16 z 2.3.2 Các kỹ thuật phân cụm khác 17 @ gm 2.3.3 Một số tiêu chuẩn đánh giá hiệu phân cụm 23 m co l 2.4 Một số thuật toán phân cụm liệu 24 2.4.1 Các thuật toán phân cụm phân hoạch 24 an Lu 2.4.2 Các thuật toán phân cụm phân cấp 32 2.4.3 Các thuật toán phân cụm dựa mật độ 38 va n Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn ac th si 2.4.3 Các thuật toán phân cụm dựa vào lƣới 42 2.4.4 Các thuật toán phân cụm dựa mơ hình 44 CHƢƠNG 3: XÂY DƢ̣NG BẢN ĐỒ PHÂN BỐ BÊN ̣ H 46 3.1 Bài toán phân cụm liệu hồ sơ bệnh án 46 3.2 Dữ liệu tiêu chí xác định 46 3.2.1 Một số đặc điểm tập liệu gốc 46 3.2.2 Tiền xử lý liệu gốc 48 3.3 Lựa chọn phƣơng pháp phân cụm 54 3.4 Kết phân cụm liệu mẫu 55 lu 3.5 Biểu điễn kết phân bố bệnh đồ 61 an n va KẾT LUẬN 63 p ie gh tn to TÀI LIỆU THAM KHẢO 65 d oa nl w ll u nf va an lu oi m z at nh z m co l gm @ an Lu va n Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn ac th si DANH MỤC BẢNG Bảng 3.1: Các loại bệnh ký hiệu 55 Bảng 3.2: Các khu vực hành ký hiệu 56 Bảng 3.3: Dữ liệu đầu vào cho phân cụm phân cấp 56 Bảng 3.4: Biểu diễn kết phân cụm chi tiết 59 Bảng 3.5: Biểu diễn kết phân cụm theo tiêu chí bệnh 61 lu an n va p ie gh tn to d oa nl w ll u nf va an lu oi m z at nh z m co l gm @ an Lu va n Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn ac th si DANH MỤC CÁC HÌNH VẼ Hình 1.1: Các giai đoạn q trình khám phá tri thức Hình 1.2: Quá trình khai phá liệu Hình 2.1: Ví dụ phân cụm theo mật độ[4] 18 Hình 2.2: Cấu trúc phân cụm dựa lƣới[4] 19 Hình 2.3: Ví dụ phân cụm dựa mơ hình[4] 20 Hình 2.4: Cách mà cụm đƣa .22 lu an Hình 2.5: Thuật tốn k-means 25 n va Hình 2.6: Sự thay đổi tâm cụm k-means có phần tử ngoại lai 28 Hình 2.8: Single link 33 gh tn to Hình 2.7: Phân cụm phân cấp tập theo phƣơng pháp “dƣới lên” [4] 33 p ie Hình 2.9: Complete link 33 Hình 2.10: Các bƣớc AGNES[4] 35 nl w Hình 2.11: Các bƣớc DIANA[4] 36 d oa Hình 2.12: Cấu trúc CF .37 an lu Hình 2.13: Hình dạng cụm đƣợc khám phá thuật tốn DBSCAN .40 va Hình 2.14: Sắp xếp cụm OPTICS phụ thuộc vào [4] 41 u nf Hình 3.1: Sơ đồ khối giải toán 46 ll Hình 3.2: Phân tích liệu gốc, thuộc tính “HO TEN” 49 m oi Hình 3.3: Dữ liệu gốc sau loại bỏ thuộc tính thừa liệu trùng lặp 50 z at nh Hình 3.4: Phân tích liệu gốc, thuộc tính “QUAN HUYEN” .51 z Hình 3.5: Loại bỏ số giá trị thuộc tính “QUAN HUYEN” 52 gm @ Hình 3.6: Dữ liệu trƣớc sau lọc thuộc tính “CHUAN DOAN DAU RA” .53 l Hình 3.7: Cấu phân bố liệu mẫu 58 m co Hình 3.8: Thiết lập tham số thuật toán K-means 58 Hình 3.9: Kết phân cụm chi tiết 59 an Lu Hình 3.10: Kết phân cụm dựa loại bệnh .60 va n Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn ac th si Hình 3.11: Bản đồ phân bố bệnh khu vực 62 lu an n va p ie gh tn to d oa nl w ll u nf va an lu oi m z at nh z m co l gm @ an Lu va n Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn ac th si MỞ ĐẦU Đề tài tìm hiểu phƣơng pháp phân cụm liệu, đánh giá ƣu nhƣợc điểm phƣơng pháp để tìm phƣơng pháp phù hợp áp dụng tập liệu mẫu Kết đƣợc dùng để xây dựng đồ phân bố bệnh địa bàn tỉnh Thái Nguyên nhằm hỗ trợ công tác lên kế hoạch dự trù sở vật chất, thuốc trang thiết bị khác cho trung tâm y tế Tỉnh Thái Nguyên tỉnh trung du miền núi thuộc vùng Đông Bắc Việt Nam với diện tích 3500 km2 dân số khoảng triệu ngƣời; bao gồm lu an đơn vị hành chính: Thành phố Thái Nguyên; Thị xã Sông Công huyện: Phổ Yên, n va Phú Bình, Đồng Hỷ, Võ Nhai, Định Hóa, Đại Từ, Phú Lƣơng Trong đó, tổng số gồm tn to 180 xã, có 125 xã vùng cao miền núi, lại xã đồng trung du.Tỉnh Thái Nguyên có nhiều dân tộc anh em sinh sống Tuy nhiên, dân cƣ gh p ie phân bố không đều, vùng cao vùng núi dân cƣ thƣa thớt, thành thị đồng dân cƣ lại dày đặc Mật độ dân số thấp huyện Võ Nhai 72 nl w ngƣời/ km2, cao Thành phố Thái Nguyên với mật độ 1.260 ngƣời/ km2 d oa Do khác biệt lớn cấu dân số, lối sống, trình độ dân trí nên có an lu khác biệt đáng kể hình thức bệnh khu vực hành va khác Nếu thơng tin hình thức bệnh vấn đề sức khỏe u nf khu vực hành đƣợc thu thập đầy đủ, sẽ giúp việc phân bổ nguồn ll lực hiệu để phát triển sách y tế cơng cộng cho khu vực khác oi m Luận văn sử dụng kỹ thuật khai thác liệu để phân tích liệu y tế z at nh thuộc Đại học Y Dƣợc Thái Nguyên trongbốn tháng đầu năm 2015 Hy vọng z việc sử dụng công cụ cách hiệu phân tích điều tra hình m co l dựng đồ y tế cho tỉnh Thái Nguyên gm @ thức bệnh khu vực hành khác Thái Nguyên để tiếp tục xây an Lu va n Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn ac th si MỘT SỐ KẾT QUẢ NGHIÊN CƢ́U KHÁC Ching-Kuo Wei et al [2] Nghiên cứu sử dụng kỹ thuật khai phá liệu điều tra loại bệnh khu vực hành khác phân tích khác khu vực hành để tiếp tục xây dựng đồ phân bố bệnh Nghiên cứu hy vọng giúp xây dựng tƣơng lai chiến lƣợc y tế phân bố nguồn lực cách thích hợp Lavrac [4] đề xuất số kỹ thuật khai thác liệu đƣợc áp dụng lu y học, đặc biệt số kỹ thuật máy học bao gồm chế mà làm cho an chúng phù hợp cho việc phân tích sở liệu y tế (nguồn gốc quy tắc va n mang tính biểu tƣợng, sử dụng kiến thức nền, độ nhạy độ đặc hiệu giới tn to thiệu gây ra) Tầm quan trọng thông dịch kết phân tích liệu thảo Lavrac et al [5] đề xuất phƣơng pháp khai thác liệu công nghệ p ie gh luận minh họa ứng dụng y tế chọn nl w trực quan đƣợc sử dụng để hỗ trợ việc định liên quan đến sức khỏe cộng oa đồng Slovenia.Mục đích nhằm khai thác sở liệu y tế công cộng để xác d định khả đáp ứng dịch vụ y tế công cộng khu vực Các kết lu ll u nf va an sử dụng để phát triển sách chăm sóc sức khỏe quan y tế oi m z at nh z m co l gm @ an Lu va n Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn ac th si 51 lu an n va p ie gh tn to d oa nl w an lu Hình 3.4: Phân tích liệu gốc, thuộc tính “QUAN HUYEN” u nf va Sau lọc bỏ giá trị khơng cần thiết thuộc tính “QUAN HUYEN” ta đƣợc kết nhƣ hình dƣới liệu giảm xuống 4452 ghi ll oi m z at nh z m co l gm @ an Lu va n Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn ac th si 52 lu an n va p ie gh tn to oa nl w d Hình 3.5: Loại bỏ số giá trị thuộc tính “QUAN HUYEN” lu va an Tuy nhiên để liệu phù hợp với mục đích tốn, tiếp tục loại bỏ bớt u nf giá trị khơng phù hợp thuộc tính “CHUAN DOAN DAU RA”: ll bệnh khơng phổ biến, có tính chất cấp tính, chấn thƣơng, khơng phù hợp với u m oi cầu tốn Hình dƣới thể liệu trƣớc loại bỏ số giá trị thuộc z at nh tính “CHUAN DOAN DAU RA”; lúc liệu 4452 ghi Kết liệu sau thực việc lọc bỏ liệu đƣợc thể hình; liệu lúc gồm z m co l gm @ 2765 ghi an Lu va n Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn ac th si 53 lu an n va p ie gh tn to d oa nl w ll u nf va an lu oi m z at nh z m co l gm @ an Lu Hình 3.6: Dữ liệu trước sau lọc thuộc tính “CHUAN DOAN DAU RA” va n Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn ac th si 54 Sau tiến hành bƣớc tiền xử lý liệu gốc thu đƣợc tập liệu với 2765 ghi; lƣu trữ thông tin tên tuổi, khu vực sinh sống kết luận bệnh bệnh nhân Tập liệu đƣợc dùng làm tập liệu mẫu để triển khai thuật toán phân cụm liệu cho bƣớc 3.3 Lựa chọn phƣơng pháp phân cụm Bài toán sử dụng phƣơng pháp phân cụm hai bƣớc Trong bƣớc thứ nhất, sử dụng thuật toán phân cụm phân cấp Agglomerative Hierarchical Clustering (AHC) để đƣa đƣợc cụm tốt Sau đó, sử dụng thuật tốn phân cụm phân hoạch K-means để tiếp thực phân cụm đƣa kết lu Bƣớc thứ nhất: Dùng thuật toán AHC để tiến hành phân cụm Ban đầu, xem an n va đối tƣợng cụm nhóm hai đối tƣợng gần thành cụm Lặp lại Để xác định đƣợc khoảng cách đối tƣợngta dùng nhiề u phƣơng gh tn to trình tất đối tƣợng đƣợc nhóm vào cụm cuối p ie pháp Nhƣng luận văn dụng công thƣ́c Euclidean để xác định khoảng cách đó: , (i,j = 1,2,….,n) w dij = vực hành chính) d oa nl dij:Khoảng cách đối tƣợng i j(Khoảng cách Euclidean khu lu n: số lƣợng mẫu u nf va an m: số lƣợng biến Các bƣớc thực phân cụm: ll oi m Chuyển đặc trƣng, thuộc tính đối tƣợng vào ma trận khoảng cách z at nh Xem đối tƣợng cụm Gộp hai cụm gần nhất, dùng công thức Ecuclide Distance để xác định z khoảng cách đối tƣợng, hai cụm gần hai cụm có khoảng cách l Cập nhật lại ma trận khoảng cách gm @ nhỏ m co Lặp lại bƣớc tất đối tƣợng đƣợc gộp vào cụm an Lu va n Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn ac th si 55 Bƣớc thứ hai: Tiếp tục sử dụng thuật toán k-means phân cụm phân hoạch để thực phân nhóm Các bƣớc thực hiện: Chọn K tâm cho K cụm Mỗi cụm đƣợc đại diện tâm cụm (Trong bƣớc thực phân cụm phân cấp để định chọn số lƣợng cụm chọn tâm cụm) Tính khoảng cách đối tƣợng đến K tâm (dùng khoảng cách Euclidean) Nhóm đối tƣợng vào nhóm gần lu Xác định lại tâm cho nhóm an va Thực lại bƣớc thứ hai khơng có thay đổi n nhóm đối tƣợng to gh tn Cuối sau thực thủ tục hai bƣớc đƣa đƣợc kết ie phân cụm p 3.4 Kết phân cụm liệu mẫu nl w Dựa liệu mẫu tiêu chí ban đầu đặt việc phân tích liệu, d oa xác định lăm loại bệnh phổ biến để đƣa vào làm tiêu chí phân cụm nhƣ xác an lu định số mẫu liên quan đến bệnh Bảng 3.1: Các loại bệnh ký hiệu Sỏi niệu quản ll Suy thận mãn oi m N18 Loại bệnh u nf N20.1 va ICD z at nh Viêm dày tá tràng C34 Bƣớu ác phổi phế quản I10 Cao huyết áp z K29 l gm @ m co Tiến hành phân cụm khu vực hành thuộc tỉnh Thái Nguyên an Lu va n Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn ac th si 56 Bảng 3.2: Các khu vực hành ký hiệu Ký hiệu Khu vực hành lu an n va to A TP Thái Nguyên B Huyện Đồng Hỷ C Huyện Phú Bình D Huyện Võ Nhai E Huyện Đại Từ F Huyện Định Hóa G Huyện Phú Lƣơng H Huyện Phổ Yên I TX Sông Công gh tn Luận văn sử dụng phƣơng pháp phân nhóm hai bƣớc, ta xét kết phân p ie nhóm bƣớc A Bƣớc thứ nl w Xét tiêu chí số lƣợng mẫu bệnh khu vực hành làm d oa tiêu chí đầu xác định liệu đầu vào N20.1 N18 (số lƣợng mẫu) K29 23 20 B 19 11 C D E 8 F G H I C34 43 32 27 13 13 17 12 10 1 ll A I10 l u nf va Khu vực an lu Bảng 3.3: Dữ liệu đầu vào cho phân cụm phân cấp oi m z at nh z gm @ m co an Lu va n Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn ac th si 57 Kết phân cụm bước thứ nhất(thứ tự phân cụm): A, B, C, D, E, F, G, H, I A, B, C, D, E, (F,H), G, I A, B, C, (D,E), (F,H), G, I A, B, C, (D,E), ((F,H),I), G A, B, C, (D,E), (((F,H),I),G) A, B, (C,(D,E)), (((F,H),I),G) A, B, ((C,(D,E)),(((F,H),I),G))) A, (B,((C,(D,E)),(((F,H),I),G)))) (A,(B,((C,(D,E)),(((F,H),I),G))))) lu B Bƣớc thứ hai an va Trong bƣớc dùng thuật toán K-means để tiến hành phân cụm dựa n Data Mining Software WeKa to tn Tập liệu thu đƣợc sau bƣớc tiền xử lý liệu với 2700 ghi, ie gh đến bƣớc cần lấy ghi liên quan đến loại bệnh phổ biến Dữ p liệu cuối dùng để phân cụm bƣớc tập liệu mẫu có tên nl w ytn5b.final.arffbao gồm 350 bệnh nhân với ba thuộc tính Cấu trúc phân bố d oa liệu đƣợc thể bảng dƣới ll u nf va an lu oi m z at nh z m co l gm @ an Lu va n Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn ac th si 58 Hình 3.7: Cấu phân bố liệu mẫu Dựa kết phân cụm bƣớc thứ chọn số cụm Nhiệm vụ cần thực dùng thuật toán K-means để phân nhóm số bệnh nhân vào nhóm(cụm) dựa vào tƣơng tự thuộc tính họ Thiết lập tham số cho thuật toán K-means nhƣ số cụm(K=5), lựa chọn phƣơng pháp tính khoảng cách(khoảng cách Euclidean), … nhƣ hình dƣới lu an n va p ie gh tn to oa nl w d Hình 3.8: Thiết lập tham số thuật toán K-means ll u nf va an lu Kết phân cụm chi tiết nhƣ hình oi m z at nh z m co l gm @ an Lu va n Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn ac th si 59 Hình 3.9: Kết phân cụm chi tiết Dựa vào kết phân cụm chi tiết lấy đƣợc từ phần mềm Weka ta xây dựng bảng biểu diễn kết Bảng 3.4: Biểu diễn kết phân cụm chi tiết Cụm Tâm cụm 48 14 48 14 51 14 22 - N20.1 (Sỏi niệu quản) lu - TP Thái Nguyên va - N18 (Suy thận mãn) n - Huyện Đại Từ - C34 (Bƣớu ác phổi phế quản) gh - Huyện Đồng Hỷ p ie 52 - Huyện Phú Bình tn 183 - K29 (Viêm dày tá tràng) to % - TP Thái Nguyên an Số lƣợng mẫu nl w - N20.1 (Sỏi niệu quản) d oa Theo kết thể hình bảng 3.4, bệnh phổ biến an lu khu vực viêm dày tá tràng(K29) với lƣợng ngƣời mắc bệnh nhiều va tập trung khu vực TP Thái Nguyên Trong cụm thứ nhất, cụm có số lƣợng mẫu u nf lớn chiếm 52% với tâm cụm TP Thái Nguyên (68%), bệnh phổ biến ll viêm dày tá tràng (K29- 50%), bệnh phổ biến cao huyết áp m oi (I10-22%), bệnh bƣớu ác phế quản phổi (C34-14%) sỏi niệu quản (N20.1- z at nh 12%) Trong cụm thứ hai, tâm cụm thuộc huyện Phú Bình với bệnh phổ biến lần z lƣợt là: sỏi niệu quản (N20.1-52%), bệnh bƣớu ác phế quản phổi (C34-35%) gm @ bệnh suy thận mãn (N18-10%) Trong cụm thứ ba, tâm cụm nằm khu vực TP l Thái Nguyên bệnh phổ biến bệnh suy thận mãn(N18-100%) Cụm thứ tƣ, m co tâm cụm thuộc khu vực huyện Đại Từ với bệnh phổ biến bệnh bƣớu ác phế quản phổi (C34-94%) Cụm thứ lăm, tâm cụm thuộc khu vực huyện Đồng Hỷ an Lu với bệnh phổ biến sỏi niệu quản (N20.1-86%) cao huyết áp(I10-13%) va n Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn ac th si 60 Dựa vào kết hình dung đƣợc phân bố số bệnh phổ biến khu vực hành (cấp quận, huyện) tỉnh Thái Nguyên Tuy nhiên, cụm thứ cụm thứ ba có tâm cụm thuộc khu vực TP Thái Nguyên Với kết phân cụm nhƣ chƣa đáp ứng đƣợc yêu cầu phân bố bệnh theo khu vực hành (cấp quận huyện) tỉnh Do ta tiến hành phân cụm tập liệu mẫu theo tiêu chí “bệnh” để xem phân bố bệnh khu vực hành Kết phân cụm theo tiêu chí bệnh đƣợc thể hiển hình dƣới lu an n va p ie gh tn to d oa nl w ll u nf va an lu oi m z at nh z m co l gm @ Hình 3.10: Kết phân cụm dựa loại bệnh an Lu va n Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn ac th si 61 Dựa vào kết phân cụm chi tiết lấy đƣợc từ phần mềm Weka ta xây dựng bảng biểu diễn kết Bảng 3.5: Biểu diễn kết phân cụm theo tiêu chí bệnh Cụm Bệnh ICD K29 Khu vực Viêm dày tá tràng Huyện Võ Nhai, huyện Định Hóa, TX Sơng Cơng, Huyện Phổ n, Huyện Phú Lƣơng lu an C34 Bƣớu ác phế quản phổi Huyện Phú Bình I10 Cao huyết áp TP Thái Nguyên N18 Suy thận mãn Huyện Đại Từ N20.1 Sỏi niệu quản Huyện Đồng Hỷ n va to gh tn Theo kết thể hình bảng 3.5, ta xem phân cụm p ie khu vực theo hình thức bệnh Trong cụm thứ nhất, bệnh viêm đại tràng phổ biến phân bố chủ yếu huyện Võ Nhai, Định Hóa, Phổ Yên, Phú Lƣơng nl w TX Sông Công Trong cụm thứ hai, bệnh bƣớu ác phế quản phổi phổ biến d oa phân bố chủ yếu huyện Phú Bình Trong cụm thứ ba, bệnh cao huyết áp phổ an lu biến tập trung chủ yếu TP Thái Nguyên Trong cụm bố n, bệnh suy thận va mãn phổ biến phân bố chủ yếu huyện Đại Từ Trong cụm thứ lăm, bệnh u nf sỏi niệu quản phổ biến phân bố chủ yếu huyện Đồng Hỷ ll Trên kết thu đƣợc sau tiến hành phân cụm liệu mẫu m oi Kết đƣợc biểu diễn dƣới dạng đồ để có nhìn tổng quan phân bố z at nh bệnh phổ biến khu vực hành thuộc tỉnh Thái Nguyên z 3.5 Biểu điễn kết phân bố bệnh đồ m co l hành tỉnh Thái Nguyên nhƣ hình gm @ Các loại bệnh phổ biến đƣợc hiển thị dƣới dạng đồ phân bố khu vực an Lu va n Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn ac th si 62 lu an n va p ie gh tn to oa nl w Hình 3.11:Bản đồ phân bố bệnh khu vực d Hy vọng với kết thu đƣợc với đồ phân bố bệnh khu vực lu an thuộc tỉnh Thái Nguyên giúp ích cho chuyên gia, nhà quản lý y tế việc y tế ll tâm u nf va lên kế hoạch dự trù sở vật chất, thuốc trang thiết bị khác cho trung Tỉnh oi m z at nh z m co l gm @ an Lu va n Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn ac th si 63 KẾT ḶN Trong q trình tìm hiểu hồn thành luận văn tốt nghiệp với tên đề tài “Tìm hiểu phƣơng pháp phân cụm liệuứng dụng xây dựng đồ phân bố bệnh địa bàn tỉnh Thái Nguyên”, dù đạt đƣợc số kết định mặt tìm hiểu lý thuyết tảng, kiến thức, mảng ứng dụng nhƣ xây dựng thực nghiệm, nhiên khai phá liệu nói chung phân cụm liệu nói riêng lĩnh vực nghiên cứu rộng lớn với nhiều phƣơng pháp, kỹ thuật, hƣớng nghiên cứu khác để tìm hiểu nhƣ xây dựng ứng dụng hữu ích lu an thực tế va Tác giả thu đƣợc số kết sau: n - Về lý thuyết: to gh tn + Tìm hiểu đƣợc lý thuyết tảng, số mảng ứng dụng khai p ie phá liệu nhƣ phân cụm liệu + Tìm hiểu phƣơng pháp, thuật tốn phân cụm liệu điển hình nl w + Tìm hiểu đề tài tƣơng tự đƣợc công bố số tạp chí quốc tế để d oa tham khảo phƣơng pháp thực nghiệm phù hợp an lu + Dựa phƣơng pháp tìm hiểu đƣợc sử dụng số thuật va toán để cài đặt thực nghiệm tập liệu hồ sơ bệnh án Đại học Y Dƣợc u nf Thái Nguyên, từ đƣa số kết luận quan trọng để xây dựng đồ ll phân bố bệnh địa bàn tỉnh m oi Tuy nhiên, trình thực nhận thấy luận văn cịn nhiều điểm hạn z at nh chế: z - Về lý thuyết chƣa: Chƣa tìm hiểu đƣợc thuâ ̣t toán lọc bỏ nhiễu, tiền xử lý gm @ liệu tối ƣu l - Về liệu: Kết phân cụm giúp đƣa đƣợc số đánh giá tập m co liệu Tuy nhiên kết có đƣợc chƣa thực khách quan nguồn liệu Đại học Y Dƣợc Thái Nguyên chƣađầ y đủ để đƣa kết đánh an Lu giá cho tồn tỉnh va n Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn ac th si 64 Hướng phát triển Sẽ tiếp tục tìm hiểu để kết hợp phƣơng pháp phân cụm áp dụng cho tập liệu mẫu Tìm hiểu thêm thuật toán lọc bỏ nhiễu, tiền xử lý liệu từ xây dựng cơng cụ cho việc tiền xử lý liệu Đối với liệu phục vụ cho việc xây dựng đồ phân bố cần tổng hợp từ nhiều nguồn, nhiều sở y tế lớn tồn tỉnh có đƣợc đánh giá khách quan Xây dựng công cụ riêng để tiến hành phân tích, phân cụm liễu nhƣ đƣa liệu làm đầu vào tốt để biểu diễn đồ phân bố bệnh lu Trên số kết đạt đƣợc nhƣ hƣớng phát triển tiếp an n va theo đề tài Tuy nhiên, thời gian nhƣ trình độ cịn nhiều giới hạn nên đề thầy cô chuyên gia lĩnh vực khai phá liệu p ie gh tn to tài cịn nhiều thiếu sót hạn chế, mong đƣợc đóng góp nhiều d oa nl w ll u nf va an lu oi m z at nh z m co l gm @ an Lu va n Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn ac th si 65 TÀI LIỆU THAM KHẢO Tiếng Việt: [1] Lê Văn Phùng, Quách Xuân Trƣởng, Khai phá liệu, NXB Thông tin truyền thông, 2012 Tiếng Anh: [2] Ching-Kuo Wei & Syi Su & Ming-Chin Yang,“Application of Data Mining on the Development of a Disease Distribution Map of Screened Community lu an Residents of Taipei County in Taiwan”, DOI 10.1007/s10916-011-9664-7, J n va Med Syst (2012) 36:2021–2027 tn to [3] Jiawei Han and Micheline Kamber “Data Mining Concepts and Techniques” 2007 Chapter & Chapter (Intelligent Database Systems Research Lab p ie gh School of Computing Science Simon Fraser University, Canada) [4] Nada Lavrac, “Selected techniques for data mining in medicine”, Department nl w of Intelligent Systems, J Stefan Institute, 1000 Ljubljana, Slovenia, 1998 a,b,* , Marko Bohanec d oa [5] Nada Lavrac a , Aleksander Pur c , Bojan Cestnik a,d , , Andrej Kobler e, “Data mining and visualization for an lu Marko Debeljak a va decision support and modeling of public health-care resources”, Journal of u nf Biomedical Informatics 40 (2007) 438–447, 2006 ll [6] Martin Brown, Data mining techniques, oi m http://www.ibm.com/developerworks/library/ba-data-mining-techniques/ z at nh z m co l gm @ an Lu va n Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn ac th si

Ngày đăng: 24/07/2023, 09:45

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN