Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 77 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
77
Dung lượng
1,91 MB
Nội dung
ĐẠI HỌC THÁI NGUYÊN TRƢỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THƠNG NGUYỄN MINH TÚ TÌM HIỂU CÁC PHƢƠNG PHÁP CỤM DỮ LIỆU ỨNG DỤNG XÂY DỰNG BẢN ĐỒ PHÂN BỐ BỆNH TRÊN ĐỊA BÀN TỈNH THÁI NGUYÊN Mã số: 60480101 Ngƣời hƣớng dẫn khoa học: TS NGUYỄN MINH HẢI LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH Thái Nguyên - 2015 Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn LỜI CẢM ƠN Em xin chân thành cảm ơn Trƣờng Đại học Công nghệ Thông tin Truyền thông – Đại học Thái Nguyên tạo điều kiện cho em thực luận văn Em xin gửi lời cảm ơn sâu sắc tới thầy giáo TS Nguyễn Hải Minh, trƣởng khoa Công nghệ thông tin – Trƣờng Đại học Công nghệ Thông tin Truyền thông – Đại học Thái Nguyên trực tiếp hƣớng dẫn em trình thực luận văn Em xin gửi lời cảm ơn tới thầy, cô có ý kiến đóng góp bổ ích tạo điều kiện tốt cho em suốt thời gian thực luận văn Xin cảm ơn bạn học đồng khóa thƣờng xuyên động viên, giúp đỡ tơi q trình học tập Cuối cùng, em xin gửi lời cảm ơn đến gia đình đồng nghiệp ủng hộ động viên dành cho em suốt trình học tập nhƣ thực luận văn Thái Nguyên, tháng 11 năm 2015 Học viên Nguyễn Minh Tú Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn LỜI CAM ĐOAN Em xin cam đoan nội dung đồ án tốt nghiệp với tên đề tài “Tìm hiểu phƣơng pháp phân cụm liệu ứng dụng xây dựng đồ phân bố bệnh địa bàn tỉnh Thái Nguyên” không chép nội dung từ luận văn khác, hay sản phẩm tƣơng tự mà em làm Sản phẩm luận văn thân em tìm hiểu xây dựng nên Nếu có sai em xin chịu hình thức kỷ luật Trƣờng Đại học Công nghệ Thông tin Truyền thông – Đại học Thái Nguyên Thái Nguyên, tháng 11 năm 2015 Học viên Nguyễn Minh Tú Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn MỤC LỤC LỜI CẢM ƠN i LỜI CAM ĐOAN iii MỤC LỤC iv DANH MỤC BẢNG vi DANH MỤC CÁC HÌNH VẼ .vii MỞ ĐẦU ́ ́ MÔṬ SÔ KÊT QUẢNGHIÊN CƢ́U KHÁC CHƢƠNG I KHAI PHÁ DỮ LIỆU .3 1.1 Tổng quan khai phá liệu 1.2 Quá trình khám phá tri thức khai phá liệu 1.2.1 Quá trình khám phá tri thức 1.2.2 Quá trình khai phá liệu 1.3 Các kỹ thuật khai phá liệu .7 1.4 Môṭsốthách thƣ́c khai phádƣƣ̃liêu 10 CHƢƠNG II PHÂN CUṂ DƢƣ̃ LIÊỤ VÀCÁC THUÂṬ TOÁNPHÂN CUṂ 12 2.1 Khái niệm phân cum liệu 13 2.1.1 Một số định nghĩa 13 2.1.2 Dữ liệu độ đo 13 2.2 Các yêu cầu phƣơng pháp phân cum liệu 14 2.3 Các kỹ thuật phân cum 16 2.3.1 Các kỹ thuật phân cum 16 2.3.2 Các kỹ thuật phân cum khác 17 2.3.3 Một số tiêu chuẩn đánh giá hiệu phân cum 23 2.4 Một số thuật toán phân cum liệu 24 2.4.1 Các thuật toán phân cum phân hoạch 24 2.4.2 Các thuật toán phân cum phân cấp 32 2.4.3 Các thuật toán phân cum dựa mật độ 38 Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn 2.4.3 Các thuật toán phân cum dựa vào lƣới 42 2.4.4 Các thuật toán phân cum dựa mơ hình 44 ̀ ́ CHƢƠNG 3: XÂY DƢƢ̣NG BẢN ĐÔ PHÂN BÔ BÊNH 46 3.1 Bài toán phân cum liệu hồ sơ bệnh án 46 3.2 Dữ liệu tiêu chí xác định 46 3.2.1 Một số đặc điểm tập liệu gốc 46 3.2.2 Tiền xử lý liệu gốc 48 3.3 Lựa chọn phƣơng pháp phân cum 54 3.4 Kết phân cum liệu mẫu 55 3.5 Biểu điễn kết phân bố bệnh đồ 61 ́ KÊT LUÂN 63 TÀI LIỆU THAM KHẢO 65 Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn DANH MỤC BẢNG Bảng 3.1: Các loại bệnh ký hiệu 55 Bảng 3.2: Các khu vực hành ký hiệu 56 Bảng 3.3: Dữ liệu đầu vào cho phân cum phân cấp 56 Bảng 3.4: Biểu diễn kết phân cum chi tiết 59 Bảng 3.5: Biểu diễn kết phân cum theo tiêu chí bệnh 61 Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn DANH MỤC CÁC HÌNH VẼ Hình 1.1: Các giai đoạn trình khám phá tri thức Hình 1.2: Quá trình khai phá liệu Hình 2.1: Ví du phân cum theo mật độ[4] 18 Hình 2.2: Cấu trúc phân cum dựa lƣới[4] 19 Hình 2.3: Ví du phân cum dựa mơ hình[4] 20 Hình 2.4: Cách mà cum đƣa 22 Hình 2.5: Thuật tốn k-means 25 Hình 2.6: Sự thay đổi tâm cum k-means có phần tử ngoại lai 28 Hình 2.7: Phân cum phân cấp tập theo phƣơng pháp “dƣới lên” [4] 33 Hình 2.8: Single link 33 Hình 2.9: Complete link 33 Hình 2.10: Các bƣớc AGNES[4] 35 Hình 2.11: Các bƣớc DIANA[4] 36 Hình 2.12: Cấu trúc CF 37 Hình 2.13: Hình dạng cum đƣợc khám phá thuật toán DBSCAN 40 Hình 2.14: Sắp xếp cum OPTICS phu thuộc vào ε[4] 41 Hình 3.1: Sơ đồ khối giải toán 46 Hình 3.2: Phân tích liệu gốc, thuộc tính “HO TEN” 49 Hình 3.3: Dữ liệu gốc sau loại bỏ thuộc tính thừa liệu trùng lặp 50 Hình 3.4: Phân tích liệu gốc, thuộc tính “QUAN HUYEN” .51 Hình 3.5: Loại bỏ số giá trị thuộc tính “QUAN HUYEN” 52 Hình 3.6: Dữ liệu trƣớc sau lọc thuộc tính “CHUAN DOAN DAU RA” 53 Hình 3.7: Cấu phân bố liệu mẫu 58 Hình 3.8: Thiết lập tham số thuật toán K-means 58 Hình 3.9: Kết phân cum chi tiết 59 Hình 3.10: Kết phân cum dựa loại bệnh 60 Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn Hình 3.11: Bản đồ phân bố bệnh khu vực 62 Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn MỞ ĐẦU Đề tài tìm hiểu phƣơng pháp phân cum liệu, đánh giá ƣu nhƣợc điểm phƣơng pháp để tìm phƣơng pháp phù hợp áp dung tập liệu mẫu Kết đƣợc dùng để xây dựng đồ phân bố bệnh địa bàn tỉnh Thái Nguyên nhằm hỗ trợ công tác lên kế hoạch dự trù sở vật chất, thuốc trang thiết bị khác cho trung tâm y tế Tỉnh Thái Nguyên tỉnh trung du miền núi thuộc vùng Đông Bắc Việt Nam với diện tích 3500 km dân số khoảng triệu ngƣời; bao gồm đơn vị hành chính: Thành phố Thái Nguyên; Thị xã Sông Công huyện: Phổ Yên, Phú Bình, Đồng Hỷ, Võ Nhai, Định Hóa, Đại Từ, Phú Lƣơng Trong đó, tổng số gồm 180 xã, có 125 xã vùng cao miền núi, lại xã đồng trung du.Tỉnh Thái Nguyên có nhiều dân tộc anh em sinh sống Tuy nhiên, dân cƣ phân bố không đều, vùng cao vùng núi dân cƣ thƣa thớt, thành thị đồng dân cƣ lại dày đặc Mật độ dân số thấp huyện Võ Nhai 72 ngƣời/ km , cao Thành phố Thái Nguyên với mật độ 1.260 ngƣời/ km Do khác biệt lớn cấu dân số, lối sống, trình độ dân trí nên có khác biệt đáng kể hình thức bệnh khu vực hành khác Nếu thơng tin hình thức bệnh vấn đề sức khỏe khu vực hành đƣợc thu thập đầy đủ, sẽ giúp việc phân bổ nguồn lực hiệu để phát triển sách y tế cơng cộng cho khu vực khác Luận văn sử dung kỹ thuật khai thác liệu để phân tích liệu y tế thuộc Đại học Y Dƣợc Thái Nguyên trongbốn tháng đầu năm 2015 Hy vọng việc sử dung cơng cu cách hiệu phân tích điều tra hình thức bệnh khu vực hành khác Thái Nguyên để tiếp tuc xây dựng đồ y tế cho tỉnh Thái Nguyên Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn ́ ́ MÔṬ SÔKÊT QUẢNGHIÊN CƢ́U KHÁC Ching-Kuo Wei et al [2] Nghiên cứu sử dung kỹ thuật khai phá liệu điều tra loại bệnh khu vực hành khác phân tích khác khu vực hành để tiếp tuc xây dựng đồ phân bố bệnh Nghiên cứu hy vọng giúp xây dựng tƣơng lai chiến lƣợc y tế phân bố nguồn lực cách thích hợp Lavrac [4] đề xuất số kỹ thuật khai thác liệu đƣợc áp dung y học, đặc biệt số kỹ thuật máy học bao gồm chế mà làm cho chúng phù hợp cho việc phân tích sở liệu y tế (nguồn gốc quy tắc mang tính biểu tƣợng, sử dung kiến thức nền, độ nhạy độ đặc hiệu giới thiệu gây ra) Tầm quan trọng thơng dịch kết phân tích liệu thảo luận minh họa ứng dung y tế chọn Lavrac et al [5] đề xuất phƣơng pháp khai thác liệu công nghệ trực quan đƣợc sử dung để hỗ trợ việc định liên quan đến sức khỏe cộng đồng Slovenia.Muc đích nhằm khai thác sở liệu y tế công cộng để xác định khả đáp ứng dịch vu y tế công cộng khu vực Các kết sử dung để phát triển sách chăm sóc sức khỏe quan y tế Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn 53 Hình 3.6: Dữ liệu trước sau lọc thuộc tính “CHUAN DOAN DAU RA” Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn 54 Sau tiến hành bƣớc tiền xử lý liệu gốc thu đƣợc tập liệu với 2765 ghi; lƣu trữ thông tin tên tuổi, khu vực sinh sống kết luận bệnh bệnh nhân Tập liệu đƣợc dùng làm tập liệu mẫu để triển khai thuật toán phân cum liệu cho bƣớc 3.3 Lựa chọn phƣơng pháp phân cụm Bài toán sử dung phƣơng pháp phân cum hai bƣớc Trong bƣớc thứ nhất, sử dung thuật toán phân cum phân cấp Agglomerative Hierarchical Clustering (AHC) để đƣa đƣợc cum tốt Sau đó, sử dung thuật tốn phân cum phân hoạch K-means để tiếp thực phân cum đƣa kết Bƣớc thứ nhất: Dùng thuật toán AHC để tiến hành phân cum Ban đầu, xem đối tƣợng cum nhóm hai đối tƣợng gần thành cum Lặp lại trình tất đối tƣợng đƣợc nhóm vào cum cuối Để xác định đƣợc khoảng cách đối tƣợngta dùng nhiều phƣơng pháp Nhƣng luận văn dung công thƣ́c Euclidean để xác định khoảng cách đó: dij = , (i,j = 1,2,….,n) dij:Khoảng cách đối tƣợng i j(Khoảng cách Euclidean khu vực hành chính) m: số lƣợng biến n: số lƣợng mẫu Chuyển đặc trƣng, thuộc tính đối tƣợng vào ma trận khoảng cách Xem đối tƣợng cum Gộp hai cum gần nhất, dùng công thức Ecuclide Distance để xác định khoảng cách đối tƣợng, hai cum gần hai cum có khoảng cách nhỏ Cập nhật lại ma trận khoảng cách Lặp lại bƣớc tất đối tƣợng đƣợc gộp vào cum Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn 55 Bƣớc thứ hai: Tiếp tuc sử dung thuật toán k-means phân cum phân hoạch để thực phân nhóm Các bƣớc thực hiện: Chọn K tâm cho K cum Mỗi cum đƣợc đại diện tâm cum (Trong bƣớc thực phân cum phân cấp để định chọn số lƣợng cum chọn tâm cum) Tính khoảng cách đối tƣợng đến K tâm (dùng khoảng cách Euclidean) Nhóm đối tƣợng vào nhóm gần Xác định lại tâm cho nhóm Thực lại bƣớc thứ hai khơng có thay đổi nhóm đối tƣợng Cuối sau thực thủ tuc hai bƣớc đƣa đƣợc kết phân cum 3.4 Kết phân cụm liệu mẫu Dựa liệu mẫu tiêu chí ban đầu đặt việc phân tích liệu, xác định lăm loại bệnh phổ biến để đƣa vào làm tiêu chí phân cum nhƣ xác định số mẫu liên quan đến bệnh ICD N20.1 N18 K29 C34 I10 Tiến hành phân cum khu vực hành thuộc tỉnh Thái Nguyên Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn 56 Bảng 3.2: Các khu vực hành ký hiệu Ký hiệu A B C D E F G H I Luận văn sử dung phƣơng pháp phân nhóm hai bƣớc, ta xét kết phân nhóm bƣớc A Bƣớc thứ Xét tiêu chí số lƣợng mẫu bệnh khu vực hành làm tiêu chí đầu xác định liệu đầu vào Bảng 3.3: Dữ liệu đầu vào cho phân cụm phân cấp Khu vực A B C D E F G H I Số hóa Trung tâm Học liệu – ĐHTN 57 Kết phân cụm bước thứ nhất(thứ tự phân cụm): A,B,C,D,E,F,G,H,I A, B, C, D, E, (F,H), G, I A, B, C, (D,E), (F,H), G, I A, B, C, (D,E), ((F,H),I), G A, B, C, (D,E), (((F,H),I),G) A, B, (C,(D,E)), (((F,H),I),G) A, B, ((C,(D,E)),(((F,H),I),G))) A, (B,((C,(D,E)),(((F,H),I),G)))) (A,(B,((C,(D,E)),(((F,H),I),G))))) B Bƣớc thứ hai Trong bƣớc dùng thuật toán K-means để tiến hành phân cum dựa Data Mining Software WeKa Tập liệu thu đƣợc sau bƣớc tiền xử lý liệu với 2700 ghi, đến bƣớc cần lấy ghi liên quan đến loại bệnh phổ biến Dữ liệu cuối dùng để phân cum bƣớc tập liệu mẫu có tên ytn5b.final.arffbao gồm 350 bệnh nhân với ba thuộc tính Cấu trúc phân bố liệu đƣợc thể bảng dƣới Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn 58 Hình 3.7: Cấu phân bố liệu mẫu Dựa kết phân cum bƣớc thứ chọn số cum Nhiệm vu cần thực dùng thuật tốn K-means để phân nhóm số bệnh nhân vào nhóm(cum) dựa vào tƣơng tự thuộc tính họ Thiết lập tham số cho thuật toán K-means nhƣ số cum(K=5), lựa chọn phƣơng pháp tính khoảng cách(khoảng cách Euclidean), … nhƣ hình dƣới Hình 3.8: Thiết lập tham số thuật tốn Kmeans Kết phân cum chi tiết nhƣ hình Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn 59 Hình 3.9: Kết phân cụm chi tiết Dựa vào kết phân cum chi tiết lấy đƣợc từ phần mềm Weka ta xây dựng bảng biểu diễn kết Bảng 3.4: Biểu diễn kết phân cụm chi tiết Cụm Theo kết thể hình bảng 3.4, bệnh phổ biến khu vực viêm dày tá tràng(K29) với lƣợng ngƣời mắc bệnh nhiều tập trung khu vực TP Thái Nguyên Trong cum thứ nhất, cum có số lƣợng mẫu lớn chiếm 52% với tâm cum TP Thái Nguyên (68%), bệnh phổ biến viêm dày tá tràng (K29- 50%), bệnh phổ biến cao huyết áp (I10-22%), bệnh bƣớu ác phế quản phổi (C34-14%) sỏi niệu quản (N20.112%) Trong cum thứ hai, tâm cum thuộc huyện Phú Bình với bệnh phổ biến lần lƣợt là: sỏi niệu quản (N20.1-52%), bệnh bƣớu ác phế quản phổi (C34-35%) bệnh suy thận mãn (N18-10%) Trong cum thứ ba, tâm cum nằm khu vực TP Thái Nguyên bệnh phổ biến bệnh suy thận mãn(N18-100%) Cum thứ tƣ, tâm cum thuộc khu vực huyện Đại Từ với bệnh phổ biến bệnh bƣớu ác phế quản phổi (C34-94%) Cum thứ lăm, tâm cum thuộc khu vực huyện Đồng Hỷ với bệnh phổ biến sỏi niệu quản (N20.1-86%) cao huyết áp(I10-13%) -T -K -H -N -T -N -H -C -H -N Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn 60 Dựa vào kết hình dung đƣợc phân bố số bệnh phổ biến khu vực hành (cấp quận, huyện) tỉnh Thái Nguyên Tuy nhiên, cum thứ cum thứ ba có tâm cum thuộc khu vực TP Thái Nguyên Với kết phân cum nhƣ chƣa đáp ứng đƣợc yêu cầu phân bố bệnh theo khu vực hành (cấp quận huyện) tỉnh Do ta tiến hành phân cum tập liệu mẫu theo tiêu chí “bệnh” để xem phân bố bệnh khu vực hành Kết phân cum theo tiêu chí bệnh đƣợc thể hiển hình dƣới Hình 3.10: Kết phân cụm dựa loại bệnh Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn 61 Dựa vào kết phân cum chi tiết lấy đƣợc từ phần mềm Weka ta xây dựng bảng biểu diễn kết Bảng 3.5: Biểu diễn kết phân cụm theo tiêu chí bệnh Cụm ICD K29 C34 I10 N18 N20.1 Theo kết thể hình bảng 3.5, ta xem phân cum khu vực theo hình thức bệnh Trong cum thứ nhất, bệnh viêm đại tràng phổ biến phân bố chủ yếu huyện Võ Nhai, Định Hóa, Phổ n, Phú Lƣơng TX Sơng Cơng Trong cum thứ hai, bệnh bƣớu ác phế quản phổi phổ biến phân bố chủ yếu huyện Phú Bình Trong cum thứ ba, bệnh cao huyết áp phổ biến tập trung chủ yếu TP Thái Nguyên Trong cum bốn, bệnh suy thận mãn phổ biến phân bố chủ yếu huyện Đại Từ Trong cum thứ lăm, bệnh sỏi niệu quản phổ biến phân bố chủ yếu huyện Đồng Hỷ Trên kết thu đƣợc sau tiến hành phân cum liệu mẫu Kết đƣợc biểu diễn dƣới dạng đồ để có nhìn tổng quan phân bố bệnh phổ biến khu vực hành thuộc tỉnh Thái Nguyên 3.5 Biểu điễn kết phân bố bệnh đồ Các loại bệnh phổ biến đƣợc hiển thị dƣới dạng đồ phân bố khu vực hành tỉnh Thái Ngun nhƣ hình Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn 62 Hình 3.11:Bản đồ phân bố bệnh khu vực Hy vọng với kết thu đƣợc với đồ phân bố bệnh khu vực thuộc tỉnh Thái Nguyên giúp ích cho chuyên gia, nhà quản lý y tế việc lên kế hoạch dự trù sở vật chất, thuốc trang thiết bị khác cho trung tâm y tế Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn Tỉnh 63 ́ KÊT LUÂN Trong trình tìm hiểu hoàn thành luận văn tốt nghiệp với tên đề tài “Tìm hiểu phƣơng pháp phân cum liệuứng dung xây dựng đồ phân bố bệnh địa bàn tỉnh Thái Nguyên”, dù đạt đƣợc số kết định mặt tìm hiểu lý thuyết tảng, kiến thức, mảng ứng dung nhƣ xây dựng thực nghiệm, nhiên khai phá liệu nói chung phân cum liệu nói riêng lĩnh vực nghiên cứu rộng lớn với nhiều phƣơng pháp, kỹ thuật, hƣớng nghiên cứu khác để tìm hiểu nhƣ xây dựng ứng dung hữu ích thực tế Tác giả thu đƣợc số kết sau: - Về lý thuyết: + Tìm hiểu đƣợc lý thuyết tảng, số mảng ứng dung khai phá liệu nhƣ phân cum liệu + Tìm hiểu phƣơng pháp, thuật tốn phân cum liệu điển hình + Tìm hiểu đề tài tƣơng tự đƣợc công bố số tạp chí quốc tế để tham khảo phƣơng pháp thực nghiệm phù hợp + Dựa phƣơng pháp tìm hiểu đƣợc sử dung số thuật toán để cài đặt thực nghiệm tập liệu hồ sơ bệnh án Đại học Y Dƣợc Thái Nguyên, từ đƣa số kết luận quan trọng để xây dựng đồ phân bố bệnh địa bàn tỉnh Tuy nhiên, trình thực nhận thấy luận văn cịn nhiều điểm hạn chế: - Về lý thuyết chƣa: Chƣa tìm hiểu đƣợc thuâṭtoán lọc bỏ nhiễu, tiền xử lý liệu tối ƣu - Về liệu: Kết phân cum giúp đƣa đƣợc số đánh giá tập liệu Tuy nhiên kết có đƣợc chƣa thực khách quan nguồn liệu Đại học Y Dƣợc Thái Nguyên chƣađầy đủ để đƣa kết đánh giá cho toàn tỉnh Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn 64 Hướng phát triển Sẽ tiếp tuc tìm hiểu để kết hợp phƣơng pháp phân cum áp dung cho tập liệu mẫu Tìm hiểu thêm thuật toán lọc bỏ nhiễu, tiền xử lý liệu từ xây dựng cơng cu cho việc tiền xử lý liệu Đối với liệu phuc vu cho việc xây dựng đồ phân bố cần tổng hợp từ nhiều nguồn, nhiều sở y tế lớn tồn tỉnh có đƣợc đánh giá khách quan Xây dựng công cu riêng để tiến hành phân tích, phân cum liễu nhƣ đƣa liệu làm đầu vào tốt để biểu diễn đồ phân bố bệnh Trên số kết đạt đƣợc nhƣ hƣớng phát triển đề tài Tuy nhiên, thời gian nhƣ trình độ cịn nhiều giới hạn nên đề tài cịn nhiều thiếu sót hạn chế, mong đƣợc đóng góp nhiều thầy cô chuyên gia lĩnh vực khai phá liệu Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn 65 TÀI LIỆU THAM KHẢO Tiếng Việt: [1] Lê Văn Phùng, Quách Xuân Trƣởng, Khai phá liệu, NXB Thông tin truyền thông, 2012 Tiếng Anh: [2] Ching-Kuo Wei & Syi Su & Ming-Chin Yang,“Application of Data Mining on the Development of a Disease Distribution Map of Screened Community Residents of Taipei County in Taiwan”, DOI 10.1007/s10916-011-9664-7, J Med Syst (2012) 36:2021–2027 [3] Jiawei Han and Micheline Kamber “Data Mining Concepts and Techniques” 2007 Chapter & Chapter (Intelligent Database Systems Research Lab School of Computing Science Simon Fraser University, Canada) [4] Nada Lavrac, “Selected techniques for data mining in medicine”, Department of Intelligent Systems, J Stefan Institute, 1000 Ljubljana, Slovenia, 1998 [5] Nada Lavrac a,b,* Marko Debeljak , Marko Bohanec a a , Aleksander Pur c , Bojan Cestnik a,d , e , Andrej Kobler , “Data mining and visualization for decision support and modeling of public health-care resources”, Journal of Biomedical Informatics 40 (2007) 438–447, 2006 [6] Martin Brown, Data mining techniques, http://www.ibm.com/developerworks/library/ba-data-mining-techniques/ Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn ... LỜI CAM ĐOAN Em xin cam đoan nội dung đồ án tốt nghiệp với tên đề tài ? ?Tìm hiểu phƣơng pháp phân cụm liệu ứng dụng xây dựng đồ phân bố bệnh địa bàn tỉnh Thái Nguyên” không chép nội dung từ luận... ĐẦU Đề tài tìm hiểu phƣơng pháp phân cum liệu, đánh giá ƣu nhƣợc điểm phƣơng pháp để tìm phƣơng pháp phù hợp áp dung tập liệu mẫu Kết đƣợc dùng để xây dựng đồ phân bố bệnh địa bàn tỉnh Thái Nguyên... phƣơng pháp phân cum phân hoạch phân cum phân cấp, nghĩa kết thu đƣợc phƣơng pháp phân cấp cải tiến thông qua bƣớc phân cum phân hoạch Phân cum phân hoạch phân cum phân cấp hai phƣơng pháp phân