ứng dụng kỹ thuật phan cụm dữ liệu mờ chẩn đoán bệnh trên ô tô
BỘ GIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC HUẾ TRƯỜNG ĐẠI HỌC KHOA HỌC NGUYỄN THẾ GIỚI NGHIÊN CỨU KỸ THUẬT PHÂN CỤM DỮ LIỆU MỜ VÀ ỨNG DỤNG HỖ TRỢ CHẨN ĐOÁN BỆNH TRÊN Ô TÔ LUẬN VĂN THẠC SĨ KHOA HỌC CÔNG NGHỆ THÔNG TIN Huế, 2013 BỘ GIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC HUẾ TRƯỜNG ĐẠI HỌC KHOA HỌC NGUYỄN THẾ GIỚI NGHIÊN CỨU KỸ THUẬT PHÂN CỤM DỮ LIỆU MỜ VÀ ỨNG DỤNG HỖ TRỢ CHẨN ĐOÁN BỆNH TRÊN Ô TÔ CHUYÊN NGÀNH: KHOA HỌC MÁY TÍNH MÃ SỐ: 60.48.01 LUẬN VĂN THẠC SĨ KHOA HỌC CÔNG NGHỆ THÔNG TIN NGƯỜI HƯỚNG DẪN KHOA HỌC PGS.TS. LÊ MẠNH THẠNH Huế, 2013 i LỜI CAM ĐOAN Tôi xin cam đoan đây là công trình nghiên cứu của riêng tôi, chưa từng được công bố trong bất kỳ một công trình nào khác. Các số liệu và kết quả nghiên cứu nêu trong luận văn là trung thực. Mọi thông tin tham khảo đều được trích dẫn đầy đủ. Tôi xin chịu hoàn toàn trách nhiệm về cam đoan này. Học viên Nguyễn Thế Giới ii LỜI CẢM ƠN Trước tiên, tôi xin được bày tỏ lòng biết ơn chân thành và sâu sắc nhất đến thầy giáo hướng dẫn PGS.TS. LÊ MẠNH THẠNH đã tận tình giúp tôi hiểu sâu hơn về những kiến thức liên quan đến đề tài, nhắc nhở, động viên thật tận tâm. Sự giúp đỡ trực tiếp, động viên của thầy là yếu tố quan trọng nhất, không thể thiếu, giúp cho luận văn của tôi hoàn thành tốt nhất và đúng tiến độ. Tôi cũng xin chân thành cảm ơn và gửi lời tri ân tới quý thầy cô Trường Đại học Khoa Học - Huế, Khoa Công Nghệ Thông Tin đã tận tình giảng dạy, tạo mọi điều kiện thuận lợi nhất cho tôi trong quá trình học tập và nghiên cứu. Cuối cùng, tôi xin gửi lời cảm ơn sâu sắc đến toàn thể quý thầy cô Trường Đại học Khoa Học - Huế, toàn thể bạn bè, gia đình và kính chúc quý thầy cô, bạn bè luôn luôn dồi dào sức khỏe, hạnh phúc và thành công. Xin chân thành cảm ơn! Huế, tháng 06 năm 2013 Học viên Nguyễn Thế Giới iii MỤC LỤC LỜI CAM ĐOAN i LỜI CẢM ƠN ii MỤC LỤC ………………………………………………………………………iii DANH SÁCH HÌNH VẼ vi DANH SÁCH HÌNH VẼ vi DANH SÁCH BẢNG, LƯU ĐỒ vii DANH SÁCH BẢNG, LƯU ĐỒ vii DANH MỤC VIẾT TẮT viii LỜI MỞ ĐẦU 1 KẾT LUẬN 47 TÀI LIỆU THAM KHẢO 49 CHƯƠNG 1 TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU, PHÂN CỤM DỮ LIỆU, PHÂN CỤM DỮ LIỆU MỜ 3 1.1. Giới thiệu chung về khám phá tri thức và khai phá dữ liệu 3 1.2. Các phương pháp khai phá dữ liệu 3 1.3. Khái niệm phân cụm dữ liệu 4 1.4. Tổng quan về phân cụm dữ liệu mờ 5 1.5. Kết luận 7 CHƯƠNG 2 NGHIÊN CỨU MỘT SỐ KỸ THUẬT PHÂN CỤM DỮ LIỆU, PHÂN CỤM DỮ LIỆU MỜ 8 2.1. Những kỹ thuật tiếp cận trong phân cụm dữ liệu 8 iv 2.1.1. Phương pháp phân cụm phân hoạch 8 2.1.2. Phương pháp phân cụm phân cấp 9 2.1.3. Phương pháp phân cụm dựa trên mật độ 9 2.1.4. Phương pháp phân cụm dựa trên lưới 10 2.1.5. Phương pháp phân cụm dựa trên mô hình 11 2.1.6. Phương pháp phân cụm có dữ liệu ràng buộc 11 2.2. Một số thuật toán cơ bản trong phân cụm dữ liệu 13 2.2.1. Các thuật toán phân cụm phân hoạch 13 2.2.2. Các thuật toán phân cụm phân cấp 15 2.2.3. Các thuật toán phân cụm dựa trên mật độ 17 2.2.4. Các thuật toán phân cụm dựa trên lưới 21 2.2.5. Các thuật toán phân cụm dựa trên mô hình 23 2.2.6. Các thuật toán phân cụm có dữ liệu ràng buộc 25 2.3. Các thuật toán trong phân cụm mờ 25 2.3.1. Thuật toán FCM(Fuzzy C-means) 26 2.3.2. Thuật toán εFCM (ε- Insensitive Fuzzy C-means) 34 2.3.3. Thuật toán FCM-Cải tiến 36 2.4. Kết luận chương 2 46 CHƯƠNG 3 MÔ PHỎNG VÀ ĐÁNH GIÁ 47 3.1. Phương pháp mô phỏng và đánh giá Error! Bookmark not defined. 3.1.1. Giới thiệu phần NS2 Error! Bookmark not defined. 3.1.2. Qui trình thực hiện mô phỏng Error! Bookmark not defined. 3.1.3. Mô hình mạng mô phỏng Error! Bookmark not defined. 3.1.4. Thiết lập tham số cho các cơ chế Error! Bookmark not defined. 3.1.5. Các tiêu chí cần đánh giá kết quả mô phỏngError! Bookmark not defined. 3.2. Đánh giá các thuật toán thông qua RED Error! Bookmark not defined. v 3.2.1. BLUE với RED Error! Bookmark not defined. 3.2.2. FRED với RED Error! Bookmark not defined. 3.2.3. SFB với BLUE Error! Bookmark not defined. 3.2.4. So sánh REM, GREEN với RED Error! Bookmark not defined. 3.3. Đánh giá chung Error! Bookmark not defined. 3.3.1. Đánh giá các cơ chế theo kích thước hàng đợiError! Bookmark not defined. 3.3.2. Đánh giá các cơ chế theo tải nạp Error! Bookmark not defined. 3.3.3. Trường hợp mạng có cả TCP và UDP Error! Bookmark not defined. 3.4. Phân lớp và ứng dụng các cơ chế Error! Bookmark not defined. 3.4.1. Phân lớp các cơ chế Error! Bookmark not defined. 3.4.2. Ứng dụng Error! Bookmark not defined. 3.5. Kết luận chương 3 Error! Bookmark not defined. vi DANH SÁCH HÌNH VẼ Hình 2.2: Các chiến lược phân cụm phân cấp 9 Hình 2.3: Cấu trúc phân cấp 10 Hình 2.4: Các cách mà các cụm có thể đưa ra 12 Hình 2.5: Các thiết lập để xác định ranh giới các cụm ban đầu 13 Hình 2.6: Tính toán trọng tâm của các cụm mới 14 Hình 2.7: Khái quát thuật toán CURE 16 Hình 2.8: Các cụm dữ liệu được khám phá bởi CURE 16 Hình 2.9: Hình dạng các cụm được khám phá bởi thuật toán DBSCAN 19 Hình 3.1. Qui trình thực hiện mô phỏng Error! Bookmark not defined. Hình 3.2: Mô hình mô phỏng Error! Bookmark not defined. Hình 3.3. Xác suất mất gói tin của BLUE và RED Error! Bookmark not defined. Hình 3.4. Mức độ sử dụng đường truyền của BLUE và RED Error! Bookmark not defined. vii DANH SÁCH BẢNG, LƯU ĐỒ Bảng 1.1. Bảng các tham số cơ bản của hàng đợi Error! Bookmark not defined. Lưu đồ 2.1. Lưu đồ thuật toán RED Error! Bookmark not defined. Lưu đồ 2.2. Lưu đồ thuật toán FRED Error! Bookmark not defined. Lưu đồ 2.3. Lưu đồ thuật toán BLUE Error! Bookmark not defined. Lưu đồ 2.4. Lưu đồ thuật toán SFB Error! Bookmark not defined. Lưu đồ 2.5. Lưu đồ thuật toán REM Error! Bookmark not defined. Lưu đồ 2.6. Lưu đồ thuật toán GREEN Error! Bookmark not defined. Bảng 3.1. Phân lớp các thuật toán Error! Bookmark not defined. Bảng 3.2. Đánh giá hiệu năng các thuật toán Error! Bookmark not defined. viii DANH MỤC VIẾT TẮT PCDL KPDL DL CSDL CNTT [...]... nghiên cứu của luận văn dựa trên quy trình bảo trì và sửa chữa các loại xe ô tô, thu thập và xử lý dữ liệu qua thực tế để làm cơ sở dữ liệu Từ đó, nghiên cứu về khai phá dữ liệu, phân cụm dữ liệu, nghiên cứu một số kỹ thuật phân cụm dữ liệu mờ và thuật toán phân cụm dữ liệu mờ, để giải quyết yêu cầu bài toán đặt ra Vì vậy, mục đích chính của luận văn là: - Nghiên cứu về khai phá dữ liệu, phân cụm dữ. .. phá dữ liệu, phân cụm dữ liệu, kỹ thuật phân cụm dữ liệu mờ, thuật toán phân cụm dữ liệu mờ - Ứng dụng hỗ trợ chẩn đoán bệnh trên ô tô 3 CHƯƠNG 1 TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU, PHÂN CỤM DỮ LIỆU, PHÂN CỤM DỮ LIỆU MỜ 1.1 Giới thiệu chung về khám phá tri thức và khai phá dữ liệu Nếu cho rằng, điện tử và truyền thông chính là bản chất của khoa học điện tử, thì dữ liệu, thông tin, và tri thức hiện đang là... dư liệu ban đầu là không rõ ràng Nội dung của đề tài được trình bày thành 3 chương: Chương 1: Tổng quan về khai phá dữ liệu, phân cụm dữ liệu, phân cụm dữ liệu mờ - Giới thiệu chung về khám phá tri thức và khai phá dữ liệu - Các phương pháp khai phá dữ liệu - Khái niệm phân cụm dữ liệu 2 - Tổng quan về phân cụm dữ liệu mờ Chương 2: Nghiên cứu một số kỹ thuật phân cụm dữ liệu, phân cụm dữ liệu mờ -... này chứng tỏ những ưu thế, lợi ích và khả năng ứng dụng thực tế to lớn của PCDL mờ Chương này đã trình bày một số kiến thức tổng quan về KPTT, KPDL và PCDL mờ 8 CHƯƠNG 2 NGHIÊN CỨU MỘT SỐ KỸ THUẬT PHÂN CỤM DỮ LIỆU, PHÂN CỤM DỮ LIỆU MỜ Chương này trình bày những kỹ thuật tiếp cận trong phân cụm dữ liệu, một số thuật toán cơ bản trong phân cụm dữ liệu, kỹ thuật trong phân cụm mờ 2.1 Những kỹ thuật tiếp... dữ liệu mờ - Những kỹ thuật tiếp cận trong phân cụm dữ liệu - Một số thuật toán cơ bản trong phân cụm dữ liệu - Các thuật toán trong phân cụm mờ + Thuật toán FCM(Fuzzy C-means) + Thuật toán εFCM(ε- Insensitive Fuzzy C-means) + Thuật toán FCM Cải tiến Chương 3: Xây dựng ứng dụng hỗ trợ chẩn đoán bệnh trên ô tô - Mô tả bài toán hỗ trợ chẩn đoán bệnh trên ô tô - Cài đặt thử nghiệm thuật toán FCM Từ đó... phân cụm 2.1.4 Phương pháp phân cụm dựa trên lưới Kỹ thuật phân cụm dựa trên lưới thích hợp với dữ liệu nhiều chiều, dựa trên cấu trúc dữ liệu lưới để phân cụm, phương pháp này chủ yếu tập trung áp dụng cho lớp dữ liệu không gian Mục tiêu của phương pháp này là lượng hóa dữ liệu thành các ô tạo thành cấu trúc dữ liệu lưới Sau đó, các thao tác phân cụm chỉ cần làm việc với các đối tượng trong từng ô. .. chiến lược phân cụm phân hoạch hoặc phân cụm phân cấp, dựa trên cấu trúc hoặc mô hình mà chúng giả định về tập dữ liệu và cách chúng hiệu chỉnh các mô hình này để nhận dạng ra các phân hoạch Phương pháp phân cụm dựa trên mô hình cố gắng khớp giữa các dữ liệu với mô hình toán học, nó dựa trên giả định rằng dữ liệu được tạo ra bằng hỗn hợp phân phối xác suất cơ bản Các thuật toán phân cụm dựa trên mô hình... tập dữ liệu vào các cụm sao cho các đối tượng thuộc cùng một cụm là tương đồng còn các đối tượng thuộc các cụm khác nhau sẽ không tương đồng Phân cụm dữ liệu là một ví dụ của phương pháp học không có giám sát Không giống như phân lớp dữ liệu, phân cụm dữ liệu không đòi hỏi phải định nghĩa trước các mẫu dữ liệu huấn luyện Vì thế, có thể coi phân cụm dữ liệu là một cách học có giám sát, trong khi phân. .. modeling) • Biểu diễn mô hình (Model Evaluation) • Phân tích sự phát triển và độ lệch (Evolution and deviation analyst) • Phương pháp tìm kiếm (Search Method) Có nhiều phương pháp khai phá dữ liệu được nghiên cứu ở trên, trong đó có ba phương pháp được các nhà nghiên cứu sử dụng nhiều nhất đó là: Luật kết hợp, Phân lớp dữ liệu và Phân cụm dữ liệu 1.3 Khái niệm phân cụm dữ liệu Phân cụm dữ liệu là quá trình... tiếp cận trong phân cụm dữ liệu Các kỹ thuật phân cụm có rất nhiều cách tiếp cận và các ứng dụng trong thực tế, nó đều hướng tới hai mục tiêu chung đó là chất lượng của các cụm khám phá được và tốc độ thực hiện của thuật toán Hiện nay, các kỹ thuật phân cụm có thể phân loại theo các cách tiếp cận chính sau: 2.1.1 Phương pháp phân cụm phân hoạch Kỹ thuật này phân hoạch một tập hợp dữ liệu có n phần . điện phải phân loại thư theo mã nước, trong mã nước lại phân loại theo mã tỉnh/thành phố, sau đó khi thư về đến bưu điện tỉnh thì bưu điện tỉnh lại phải phân loại thư theo quận/huyện để gửi. phân cụm. Vì vậy, nó đòi hỏi người sử dụng phải cung cấp tiêu chuẩn này, theo cách mà kết quả phân cụm sẽ đáp ứng yêu cầu. Theo các nghiên cứu cho thấy thì hiện nay chưa có một phương pháp phân. Bookmark not defined. 3.3.1. Đánh giá các cơ chế theo kích thước hàng đợiError! Bookmark not defined. 3.3.2. Đánh giá các cơ chế theo tải nạp Error! Bookmark not defined. 3.3.3. Trường