Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 70 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
70
Dung lượng
1,8 MB
Nội dung
LỜI CẢM ƠN Em xin chân thành cảm ơn Trường Đại học Công nghệ Thông tin Truyền thông – Đại học TháiNguyên tạo điều kiện cho em thực luận văn Em xin gửi lời cảm ơn sâu sắc tới thầy giáo TS Nguyễn Hải Minh, trưởng khoa Công nghệ thông tin – Trường Đại học Công nghệ Thông tin Truyền thông – Đại học TháiNguyên trực tiếp hướng dẫn em trình thực luận văn Em xin gửi lời cảm ơn tới thầy, cô có ý kiến đóng góp bổ ích tạo điều kiện tốt cho em suốt thời gian thực luận văn Xin cảm ơn bạn học đồng khóa thường xuyên động viên, giúp đỡ trình học tập Cuối cùng, em xin gửi lời cảm ơn đến gia đình đồng nghiệp ủng hộ động viên dành cho em suốt trình học tập thực luận văn Thái Nguyên, tháng 11 năm 2015 Học viên Nguyễn Minh Tú LỜI CAM ĐOAN Em xin cam đoan nội dungđồ án tốt nghiệp với tên đề tài “Tìm hiểuphươngphápphâncụmliệuứngdụngxâydựngđồphânbốbệnhđịabàntỉnhThái Nguyên” không chép nội dung từ luận văn khác, hay sản phẩm tương tự mà em làm Sản phẩm luận văn thân em tìmhiểuxâydựng nên Nếu có sai em xin chịu hình thức kỷ luật Trường Đại học Công nghệ Thông tin Truyền thông – Đại học TháiNguyênThái Nguyên, tháng 11 năm 2015 Học viên Nguyễn Minh Tú MỤC LỤC LỜI CẢM ƠN i LỜI CAM ĐOAN ii MỤC LỤC iii DANH MỤC BẢNG v DANH MỤC CÁC HÌNH VẼ vi MỞ ĐẦU MỘT SỐ KẾT QUẢ NGHIÊN CỨU KHÁC CHƯƠNG I KHAI PHÁ DỮLIỆU 1.1 Tổng quan khai phá liệu 1.2 Quá trình khám phá tri thức khai phá liệu 1.2.1 Quá trình khám phá tri thức 1.2.2 Quá trình khai phá liệu 1.3 Các kỹ thuật khai phá liệu 1.4 Một số thách thức khai phá liệu 10 CHƯƠNG II PHÂNCỤMDỮLIỆU VÀ CÁC THUẬT TOÁNPHÂN CỤM 12 2.1 Khái niệm phâncụmliệu 13 2.1.1 Một số định nghĩa 13 2.1.2 Dữliệuđộđo 13 2.2 Các yêu cầu phươngphápphâncụmliệu 14 2.3 Các kỹ thuật phâncụm 16 2.3.1 Các kỹ thuật phâncụm 16 2.3.2 Các kỹ thuật phâncụm khác 17 2.3.3 Một số tiêu chuẩn đánh giá hiệuphâncụm 22 2.4 Một số thuật toán phâncụmliệu 23 2.4.1 Các thuật toán phâncụmphân hoạch 23 2.4.2 Các thuật toán phâncụmphân cấp 31 2.4.3 Các thuật toán phâncụm dựa mật độ 37 2.4.3 Các thuật toán phâncụm dựa vào lưới 41 2.4.4 Các thuật toán phâncụm dựa mô hình 43 CHƯƠNG 3: XÂYDỰNGBẢNĐỒPHÂNBỐBỆNH 45 3.1 Bài toán phâncụmliệu hồ sơ bệnh án 45 3.2 Dữliệu tiêu chí xác định 45 3.2.1 Một số đặc điểm tập liệu gốc 45 3.2.2 Tiền xử lý liệu gốc 47 3.3 Lựa chọn phươngphápphâncụm 53 3.4 Kết phâncụmliệu mẫu 54 3.5 Biểu điễn kết phânbốbệnhđồ 60 KẾT LUẬN 62 TÀI LIỆU THAM KHẢO 64 DANH MỤC BẢNG Bảng 3.1: Các loại bệnh ký hiệu 54 Bảng 3.2: Các khu vực hành ký hiệu 55 Bảng 3.3: Dữliệu đầu vào cho phâncụmphân cấp 55 Bảng 3.4: Biểu diễn kết phâncụm chi tiết 58 Bảng 3.5: Biểu diễn kết phâncụm theo tiêu chí bệnh 60 DANH MỤC CÁC HÌNH VẼ Hình 1.1: Các giai đoạn trình khám phá tri thức Hình 1.2: Quá trình khai phá liệu Hình 2.1: Ví dụphâncụm theo mật độ[4] 18 Hình 2.2: Cấu trúc phâncụm dựa lưới[4] 19 Hình 2.3: Ví dụphâncụm dựa mô hình[4] 20 Hình 2.4: Cách mà cụm đưa 21 Hình 2.5: Thuật toán k-means 24 Hình 2.6: Sự thay đổi tâm cụm k-means có phần tử ngoại lai 27 Hình 2.7: Phâncụmphân cấp tập theo phươngpháp “dưới lên” [4] 32 Hình 2.8: Single link 32 Hình 2.9: Complete link 32 Hình 2.10: Các bước AGNES[4] 34 Hình 2.11: Các bước DIANA[4] 35 Hình 2.12: Cấu trúc CF 36 Hình 2.13: Hình dạng cụm khám phá thuật toán DBSCAN 39 Hình 2.14: Sắp xếp cụm OPTICS phụ thuộc vào [4] 40 Hình 3.1: Sơ đồ khối giải toán 45 Hình 3.2: Phân tích liệu gốc, thuộc tính “HO TEN” 48 Hình 3.3: Dữliệu gốc sau loại bỏ thuộc tính thừa liệu trùng lặp 49 Hình 3.4: Phân tích liệu gốc, thuộc tính “QUAN HUYEN” 50 Hình 3.5: Loại bỏ số giá trị thuộc tính “QUAN HUYEN” 51 Hình 3.6: Dữliệu trước sau lọc thuộc tính “CHUAN DOAN DAU RA” 52 Hình 3.7: Cấu phânbốliệu mẫu 56 Hình 3.8: Thiết lập tham số thuật toán K-means 57 Hình 3.9: Kết phâncụm chi tiết 57 Hình 3.10: Kết phâncụm dựa loại bệnh 59 Hình 3.11: Bảnđồphânbốbệnh khu vực 61 MỞ ĐẦU Đề tài tìmhiểuphươngphápphâncụm liệu, đánh giá ưu nhược điểm phươngpháp để tìmphươngpháp phù hợp áp dụng tập liệu mẫu Kết dùng để xâydựngđồphânbốbệnhđịabàntỉnhTháiNguyên nhằm hỗ trợ công tác lên kế hoạch dự trù sở vật chất, thuốc trang thiết bị khác cho trung tâm y tế TỉnhTháiNguyêntỉnh trung du miền núi thuộc vùng Đông Bắc Việt Nam với diện tích 3500 km2 dân số khoảng triệu người; bao gồm đơn vị hành chính: Thành phố Thái Nguyên; Thị xã Sông Công huyện: Phổ Yên, Phú Bình, Đồng Hỷ, Võ Nhai, Định Hóa, Đại Từ, Phú Lương Trong đó, tổng số gồm 180 xã, có 125 xã vùng cao miền núi, lại xã đồng trung du.Tỉnh TháiNguyên có nhiều dân tộc anh em sinh sống Tuy nhiên, dân cư phânbố không đều, vùng cao vùng núi dân cư thưa thớt, thành thị đồng dân cư lại dày đặc Mật độ dân số thấp huyện Võ Nhai 72 người/ km2, cao Thành phố TháiNguyên với mật độ 1.260 người/ km2 Do khác biệt lớn cấu dân số, lối sống, trình độ dân trí nên có khác biệt đáng kể hình thức bệnh khu vực hành khác Nếu thông tin hình thức bệnh vấn đề sức khỏe khu vực hành thu thập đầy đủ, sẽ giúp việc phânbổ nguồn lực hiệu để phát triển sách y tế công cộng cho khu vực khác Luận văn sử dụng kỹ thuật khai thác liệu để phân tích liệu y tế thuộc Đại học Y Dược TháiNguyên trongbốn tháng đầu năm 2015 Hy vọng việc sử dụng công cụ cách hiệuphân tích điều tra hình thức bệnh khu vực hành khác TháiNguyên để tiếp tục xâydựngđồ y tế cho tỉnhTháiNguyên MỘT SỐ KẾT QUẢ NGHIÊN CỨU KHÁC Ching-Kuo Wei et al [2] Nghiên cứu sử dụng kỹ thuật khai phá liệu điều tra loại bệnh khu vực hành khác phân tích khác khu vực hành để tiếp tục xâydựngđồphânbốbệnh Nghiên cứu hy vọng giúp xâydựng tương lai chiến lược y tế phânbố nguồn lực cách thích hợp Lavrac [4] đề xuất số kỹ thuật khai thác liệu áp dụng y học, đặc biệt số kỹ thuật máy học bao gồm chế mà làm cho chúng phù hợp cho việc phân tích sở liệu y tế (nguồn gốc quy tắc mang tính biểu tượng, sử dụng kiến thức nền, độ nhạy độ đặc hiệu giới thiệu gây ra) Tầm quan trọng thông dịch kết phân tích liệu thảo luận minh họa ứngdụng y tế chọn Lavrac et al [5] đề xuất phươngpháp khai thác liệu công nghệ trực quan sử dụng để hỗ trợ việc định liên quan đến sức khỏe cộng đồng Slovenia.Mục đích nhằm khai thác sở liệu y tế công cộng để xác định khả đáp ứng dịch vụ y tế công cộng khu vực Các kết sử dụng để phát triển sách chăm sóc sức khỏe quan y tế CHƯƠNG I KHAI PHÁ DỮLIỆU 1.1 Tổng quan khai phá liệu Cùng với phát triển mạnh mẽ công nghệthông tin,lượng thông tin nhân loại đượclưu trữ thiết bị điện tử, hệ thống thông tin ngày tăng Việc ứngdựng công nghệ thông tin mạnh mẽ, sâu rộng nhiều lĩnh vực: khoa học, kinh doanh, chứng khoán, thương mại, giao dịch,… tích lũy nên nguồn liệu khổng lồ.Sự bùng nổ đãdẫn tới yêu cầu cấp thiết cần có kỹ thuật công cụ để tựđộng chuyển đổi lượng liệu khổng lồ thành tri thức có ích Do đó, khai phá liệu (Data Mining) kỹ thuật phai phá liệu đời phần giải được yêu cầu Trithức xem thông tin tích hợp, bao gồm kiện mốiquan hệ chúng, nhận thức, khám phá, nghiên cứu Nói cáchkhác, tri thức coi liệu mức độ cao trừu tượng vàtổng quát Khám phá tri thức trình tìm tri thức, mẫu tìm ẩn, trước chưa biết thông tin hữu ích đáng tin cậy.Khai phá liệu bước trình khám phá tri thức, gồmcác thuật toán khai thác liệu chuyên dùng số qui định hiệu quảtính toán chấp nhận để tìm mẫu mô hình liệu.Nói cách khác, mục tiêu khai phá liệutìm kiếm mẫu môhình tồn sở liệu (CSDL) ẩn khối lượng lớn liệu Khám phá tri thức từ CSDL trình sử dụngphươngpháp công cụ tin học để khám phá,lựa chọn tập liệu tốt, từ phát mẫu phù hợp với mục tiêu đề Đó tri thức, rút từ CSDL, thường để phục vụ cho việc giải loạt nhiệm vụ định lĩnh vực định 1.2 Quá trình khám phá tri thức vàkhai phá liệu 1.2.1 Quá trình khám phá tri thức Quá trình khám phá tri th thức trình bao gồm nhiều ều giai đoạnvới nhiều hoạt động tương ương tác gi người CSDL thông qua việc ệc hỗ trợ phương pháp, thuật ật toán công cụ tin học Tri thức ợc rút từ CSDL đểể phục vụ cho việc giải loạt nhiệm vụ định lĩnh vực Do trình tr khám phá tri thức ức mang tính chất hướng h nhiệm vụ, ải phát tri thức đ mà phát ện tri thức nhằm giải tốt vấn đề đặt Hình 1.1: Các giai đo đoạn trình ình khám phá tri thức th Quá trình khám phá tri thức th gồm sáu giai đoạn[1] hình ình 1.1 1.1 Bắt đầu trình kho ữ liệu thô v kết thúc với tri thức đượcchiết ợcchiết xuất Đây quátrình ất khó khăn gặp phải nhiều v vướng ớng mắc: quản lý tập liệu,phải lặp lặp lại toàn trình, ình, Gom ữ liệu: Tập hợp liệu llà bước ên trìnhkhai trình phá liệu Đây bước ợc khai thác ccơ sở dữliệu, ột kho liệu nguồn thông tin Internet Trích lọc liệu liệu: Ở giai đoạn liệu ợc lựa chọn hoặcphân chia theomột số tiêu chuẩn ph phục vụ mục đích khaithác Làm sạch, ạch, tiền xử lý v chuẩn bị trước liệu: Dữ ữ liệu cần đ làm để khắc phục trư ường liệu rỗng, dư thừa ừa liệu không hợp lệ Giai 50 Hình 3.4: Phân tích liệu gốc, thuộc tính “QUAN HUYEN” Sau lọc bỏ giá trị không cần thiết thuộc tính “QUAN HUYEN” ta kết hình liệu giảm xuống 4452 ghi 51 Hình 3.5: Loại bỏ số giá trị thuộc tính “QUAN HUYEN” Tuy nhiên để liệu phù hợp với mục đích toán, tiếp tục loại bỏ bớt giá trị không phù hợp thuộc tính “CHUAN DOAN DAU RA”: bệnh không phổ biến, có tính chất cấp tính, chấn thương, không phù hợp với yêu cầu toán Hình thể liệu trước loại bỏ số giá trị thuộc tính “CHUAN DOAN DAU RA”; lúc liệu 4452 ghi Kết liệu sau thực việc lọc bỏliệu thể hình; liệu lúc gồm 2765 ghi 52 Hình 3.6: Dữliệu trước sau lọc thuộc tính “CHUAN DOAN DAU RA” 53 Sau tiến hành bước tiền xử lý liệu gốc thu tập liệu với 2765 ghi; lưu trữ thông tin tên tuổi, khu vực sinh sống kết luận bệnhbệnh nhân Tập liệudùng làm tập liệu mẫu để triển khai thuật toán phâncụmliệu cho bước 3.3 Lựa chọn phươngphápphâncụm Bài toán sử dụngphươngphápphâncụm hai bước Trong bước thứ nhất, sử dụng thuật toán phâncụmphân cấp Agglomerative Hierarchical Clustering (AHC) để đưa cụm tốt Sau đó, sử dụng thuật toán phâncụmphân hoạch K-means để tiếp thực phâncụm đưa kết Bước thứ nhất: Dùng thuật toán AHC để tiến hành phâncụmBan đầu, xem đối tượng cụm nhóm hai đối tượng gần thành cụm Lặp lại trình tất đối tượng nhóm vào cụm cuối Để xác định khoảng cách đối tượngta dùng nhiều phươngpháp Nhưng luận văn dụng công thức Euclidean để xác định khoảng cách đó: dij = ∑ (x – x ) , (i,j = 1,2,….,n) dij:Khoảng cách đối tượng i j(Khoảng cách Euclidean khu vực hành chính) m: số lượng biến n: số lượng mẫu Các bước thực phân cụm: Chuyển đặc trưng, thuộc tính đối tượng vào ma trận khoảng cách Xem đối tượng cụm Gộp hai cụm gần nhất, dùng công thức Ecuclide Distance để xác định khoảng cách đối tượng, hai cụm gần hai cụm có khoảng cách nhỏ Cập nhật lại ma trận khoảng cách Lặp lại bước tất đối tượng gộp vào cụm 54 Bước thứ hai: Tiếp tục sử dụng thuật toán k-means phâncụmphân hoạch để thực phân nhóm Các bước thực hiện: Chọn K tâm cho K cụm Mỗi cụm đại diện tâm cụm (Trong bước thực phâncụmphân cấp để định chọn số lượng cụm chọn tâm cụm) Tính khoảng cách đối tượng đến K tâm (dùng khoảng cách Euclidean) Nhóm đối tượng vào nhóm gần Xác định lại tâm cho nhóm Thực lại bước thứ hai thay đổi nhóm đối tượng Cuối sau thực thủ tục hai bước đưa kết phâncụm 3.4 Kết phâncụmliệu mẫu Dựa liệu mẫu tiêu chí ban đầu đặt việc phân tích liệu, xác định lăm loại bệnh phổ biến để đưa vào làm tiêu chí phâncụm xác định số mẫu liên quan đến bệnh Bảng 3.1: Các loại bệnh ký hiệu ICD Loại bệnh N20.1 Sỏi niệu quản N18 Suy thận mãn K29 Viêm dày tá tràng C34 Bướu ác phổi phế quản I10 Cao huyết áp Tiến hành phâncụm khu vực hành thuộc tỉnhTháiNguyên 55 Bảng 3.2: Các khu vực hành ký hiệu Ký hiệu Khu vực hành A TP TháiNguyên B Huyện Đồng Hỷ C Huyện Phú Bình D Huyện Võ Nhai E Huyện Đại Từ F Huyện Định Hóa G Huyện Phú Lương H Huyện Phổ Yên I TX Sông Công Luận văn sử dụngphươngphápphân nhóm hai bước, ta xét kết phân nhóm bước A Bước thứ Xét tiêu chí số lượng mẫu bệnh khu vực hành làm tiêu chí đầu xác định liệu đầu vào Bảng 3.3: Dữliệu đầu vào cho phâncụmphân cấp N20.1 Khu vực N18 K29 I10 C34 (số lượng mẫu) A 23 20 43 32 27 B 19 11 13 13 C 17 D E 8 12 F 4 G 10 H 0 I 1 0 56 Kết phâncụm bước thứ nhất(thứ tự phân cụm): A, B, C, D, E, F, G, H, I A, B, C, D, E, (F,H), G, I A, B, C, (D,E), (F,H), G, I A, B, C, (D,E), ((F,H),I), G A, B, C, (D,E), (((F,H),I),G) A, B, (C,(D,E)), (((F,H),I),G) A, B, ((C,(D,E)),(((F,H),I),G))) A, (B,((C,(D,E)),(((F,H),I),G)))) (A,(B,((C,(D,E)),(((F,H),I),G))))) B Bước thứ hai Trong bước dùng thuật toán K-means để tiến hành phâncụm dựa Data Mining Software WeKa Tập liệu thu sau bước tiền xử lý liệu với 2700 ghi, đến bước cần lấy ghi liên quan đến loại bệnh phổ biến Dữliệu cuối dùng để phâncụm bước tập liệu mẫu có tên ytn5b.final.arffbao gồm 350 bệnh nhân với ba thuộc tính Cấu trúc phânbốliệu thể bảng Hình 3.7: Cấu phânbốliệu mẫu 57 Dựa kết phâncụm bước thứ chọn số cụm Nhiệm vụ cần thực dùng thuật toán K-means để phân nhóm số bệnh nhân vào nhóm(cụm) dựa vào tương tự thuộc tính họ Thiết lập tham số cho thuật toán K-means số cụm(K=5), lựa chọn phươngpháptính khoảng cách(khoảng cách Euclidean), … hình Hình 3.8: Thiết lập tham số thuật toán K-means Kết phâncụm chi tiết hình Hình 3.9: Kết phâncụm chi tiết 58 Dựa vào kết phâncụm chi tiết lấy từ phần mềm Weka ta xâydựng bảng biểu diễn kết Bảng 3.4: Biểu diễn kết phâncụm chi tiết Cụm Tâm cụm - TP TháiNguyên - K29 (Viêm dày tá tràng) - Huyện Phú Bình - N20.1 (Sỏi niệu quản) - TP TháiNguyên - N18 (Suy thận mãn) - Huyện Đại Từ - C34 (Bướu ác phổi phế quản) - Huyện Đồng Hỷ - N20.1 (Sỏi niệu quản) Số lượng mẫu % 183 52 48 14 48 14 51 14 22 Theo kết thể hình bảng 3.4, bệnh phổ biến khu vực viêm dày tá tràng(K29) với lượng người mắc bệnh nhiều tập trung khu vực TP TháiNguyên Trong cụm thứ nhất, cụm có số lượng mẫu lớn chiếm 52% với tâm cụm TP TháiNguyên (68%), bệnh phổ biến viêm dày tá tràng (K29- 50%), bệnh phổ biến cao huyết áp (I10-22%), bệnh bướu ác phế quản phổi (C34-14%) sỏi niệu quản (N20.112%) Trong cụm thứ hai, tâm cụm thuộc huyện Phú Bình với bệnh phổ biến là: sỏi niệu quản (N20.1-52%), bệnh bướu ác phế quản phổi (C34-35%) bệnh suy thận mãn (N18-10%) Trong cụm thứ ba, tâm cụm nằm khu vực TP TháiNguyênbệnh phổ biến bệnh suy thận mãn(N18-100%) Cụm thứ tư, tâm cụm thuộc khu vực huyện Đại Từ với bệnh phổ biến bệnh bướu ác phế quản phổi (C34-94%) Cụm thứ lăm, tâm cụm thuộc khu vực huyện Đồng Hỷ với bệnh phổ biến sỏi niệu quản (N20.1-86%) cao huyết áp(I10-13%) 59 Dựa vào kết hình dungphânbố số bệnh phổ biến khu vực hành (cấp quận, huyện) tỉnhTháiNguyên Tuy nhiên, cụm thứ cụm thứ ba có tâm cụm thuộc khu vực TP TháiNguyên Với kết phâncụm chưa đáp ứng yêu cầu phânbốbệnh theo khu vực hành (cấp quận huyện) tỉnhDo ta tiến hành phâncụm tập liệu mẫu theo tiêu chí “bệnh” để xem phânbốbệnh khu vực hành Kết phâncụm theo tiêu chí bệnh thể hiển hình Hình 3.10: Kết phâncụm dựa loại bệnh 60 Dựa vào kết phâncụm chi tiết lấy từ phần mềm Weka ta xâydựng bảng biểu diễn kết Bảng 3.5: Biểu diễn kết phâncụm theo tiêu chí bệnhCụm ICD K29 Bệnh Viêm dày tá tràng Khu vực Huyện Võ Nhai, huyện Định Hóa, TX Sông Công, Huyện Phổ Yên, Huyện Phú Lương C34 Bướu ác phế quản phổi Huyện Phú Bình I10 Cao huyết áp TP TháiNguyên N18 Suy thận mãn Huyện Đại Từ N20.1 Sỏi niệu quản Huyện Đồng Hỷ Theo kết thể hình bảng 3.5, ta xem phâncụm khu vực theo hình thức bệnh Trong cụm thứ nhất, bệnh viêm đại tràng phổ biến phânbố chủ yếu huyện Võ Nhai, Định Hóa, Phổ Yên, Phú Lương TX Sông Công Trong cụm thứ hai, bệnh bướu ác phế quản phổi phổ biến phânbố chủ yếu huyện Phú Bình Trong cụm thứ ba, bệnh cao huyết áp phổ biến tập trung chủ yếu TP TháiNguyên Trong cụm bốn, bệnh suy thận mãn phổ biến phânbố chủ yếu huyện Đại Từ Trong cụm thứ lăm, bệnh sỏi niệu quản phổ biến phânbố chủ yếu huyện Đồng Hỷ Trên kết thu sau tiến hành phâncụmliệu mẫu Kết biểu diễn dạng đồ để có nhìn tổng quan phânbốbệnh phổ biến khu vực hành thuộc tỉnhTháiNguyên 3.5 Biểu điễn kết phânbốbệnhđồCác loại bệnh phổ biến hiển thị dạng đồphânbố khu vực hành tỉnhTháiNguyên hình 61 Hình 3.11:Bản đồphânbốbệnh khu vực Hy vọng với kết thu với đồphânbốbệnh khu vực thuộc tỉnhTháiNguyên giúp ích cho chuyên gia, nhà quản lý y tế việc lên kế hoạch dự trù sở vật chất, thuốc trang thiết bị khác cho trung tâm y tế Tỉnh 62 KẾT LUẬN Trong trình tìmhiểu hoàn thành luận văn tốt nghiệp với tên đề tài “Tìm hiểuphươngphápphâncụm liệuứng dụngxâydựngđồphânbốbệnhđịabàntỉnhThái Nguyên”, dù đạt số kết định mặt tìmhiểu lý thuyết tảng, kiến thức, mảng ứngdụngxâydựng thực nghiệm, nhiên khai phá liệu nói chung phâncụmliệu nói riêng lĩnh vực nghiên cứu rộng lớn với nhiều phương pháp, kỹ thuật, hướng nghiên cứu khác để tìmhiểuxâydựngứngdụng hữu ích thực tế Tác giả thu số kết sau: - Về lý thuyết: + Tìmhiểu lý thuyết tảng, số mảng ứngdụng khai phá liệuphâncụmliệu + Tìmhiểuphương pháp, thuật toán phâncụmliệu điển hình + Tìmhiểu đề tài tương tự công bố số tạp chí quốc tế để tham khảo phươngpháp thực nghiệm phù hợp + Dựa phươngpháptìmhiểu sử dụng số thuật toán để cài đặt thực nghiệm tập liệu hồ sơ bệnh án Đại học Y Dược Thái Nguyên, từ đưa số kết luận quan trọng để xâydựngđồphânbốbệnhđịabàntỉnh Tuy nhiên, trình thực nhận thấy luận văn nhiều điểm hạn chế: - Về lý thuyết chưa: Chưa tìmhiểu thuật toán lọc bỏ nhiễu, tiền xử lý liệu tối ưu - Về liệu: Kết phâncụm giúp đưa số đánh giá tập liệu Tuy nhiên kết có chưa thực khách quan nguồn liệu Đại học Y Dược TháiNguyên chưađầy đủ để đưa kết đánh giá cho toàn tỉnh 63 Hướng phát triển Sẽ tiếp tục tìmhiểu để kết hợp phươngphápphâncụm áp dụng cho tập liệu mẫu Tìmhiểu thêm thuật toán lọc bỏ nhiễu, tiền xử lý liệu từ xâydựng công cụ cho việc tiền xử lý liệu Đối với liệu phục vụ cho việc xâydựngđồphânbố cần tổng hợp từ nhiều nguồn, nhiều sở y tế lớn toàn tỉnh có đánh giá khách quan Xâydựng công cụ riêng để tiến hành phân tích, phâncụmliễu đưa liệu làm đầu vào tốt để biểu diễn đồphânbốbệnhTrên số kết đạt hướng phát triển đề tài Tuy nhiên, thời gian trình độ nhiều giới hạn nên đề tài nhiều thiếu sót hạn chế, mong đóng góp nhiều thầy cô chuyên gia lĩnh vực khai phá liệu 64 TÀI LIỆU THAM KHẢO Tiếng Việt: [1] Lê Văn Phùng, Quách Xuân Trưởng, Khai phá liệu, NXB Thông tin truyền thông, 2012 Tiếng Anh: [2] Ching-Kuo Wei & Syi Su & Ming-Chin Yang,“Application of Data Mining on the Development of a Disease Distribution Map of Screened Community Residents of Taipei County in Taiwan”, DOI 10.1007/s10916-011-9664-7, J Med Syst (2012) 36:2021–2027 [3] Jiawei Han and Micheline Kamber “Data Mining Concepts and Techniques” 2007 Chapter & Chapter (Intelligent Database Systems Research Lab School of Computing Science Simon Fraser University, Canada) [4] Nada Lavrac, “Selected techniques for data mining in medicine”, Department of Intelligent Systems, J Stefan Institute, 1000 Ljubljana, Slovenia, 1998 [5] Nada Lavrac a,b,* Marko Debeljak , Marko Bohanec a a , Aleksander Pur c , Bojan Cestnik a,d , , Andrej Kobler e, “Data mining and visualization for decision support and modeling of public health-care resources”, Journal of Biomedical Informatics 40 (2007) 438–447, 2006 [6] Martin Brown, Data mining techniques, http://www.ibm.com/developerworks/library/ba-data-mining-techniques/ ...LỜI CAM ĐOAN Em xin cam đoan nội dung đồ án tốt nghiệp với tên đề tài Tìm hiểu phương pháp phân cụm liệu ứng dụng xây dựng đồ phân bố bệnh địa bàn tỉnh Thái Nguyên không chép nội dung từ luận... 3.10: Kết phân cụm dựa loại bệnh 59 Hình 3.11: Bản đồ phân bố bệnh khu vực 61 MỞ ĐẦU Đề tài tìm hiểu phương pháp phân cụm liệu, đánh giá ưu nhược điểm phương pháp để tìm phương pháp. .. áp dụng, có nhiều trường hợp kết hợp hai phương pháp phân cụm phân hoạch phân cụm phân cấp, nghĩa kết thu phương pháp phân cấp cải tiến thông qua bước phân cụm phân hoạch Phân cụm phân hoạch phân