Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 75 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
75
Dung lượng
1,25 MB
Nội dung
Đ Mẫu 3. Trang phụ bìa luận văn (title page) ĐẠI HỌC THÁI NGUYÊN TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG PHẠM MẠNH HÙNG PHÂN LỚP DỮ LIỆU SỬ DỤNG LOGIC MỜ LuËn v¨n th¹c SÜ KHOA HỌC MÁY TÍNH THÁI NGUYÊN - 2012 Th¸i Nguyªn - 2012 Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn I HC THI NGUYấN TRNG I HC CễNG NGH THễNG TIN V TRUYN THễNG PHM MNH HNG PHN LP D LIU S DNG LOGIC M Chuyên ngành: Khoa hc mỏy tớnh Mã số: 60 48 01 Luận văn thạc Sĩ KHOA HC MY TNH Ng-ời h-ớng dẫn khoa học: TS. V MNH XUN THI NGUYấN - 2012 S húa bi Trung tõm Hc liu i hc Thỏi Nguyờn http://www.lrc-tnu.edu.vn Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn i LỜI CAM ĐOAN Tôi xin cam đoan toàn bộ nội dung trong luận văn hoàn toàn theo đúng nội dung của đề cƣơng đã đăng ký và nội dung các phần trích lục tài liệu hoàn toàn chính xác. Nếu có sai sót gì tôi xin hoàn toàn chịu trách nhiệm. Ngƣời viết Phạm Mạnh Hùng Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn ii MỤC LỤC LỜI CAM ĐOAN i DANH MỤC CÁC HÌNH v DANH MỤC CÁC BẢNG vi MỞ ĐẦU 1 CHƢƠNG 1: TỔNG QUAN VỀ PHÂN LỚP DỮ LIỆU 3 1.1. Khái quát về phân lớp dữ liệu 3 1.1.1. Các bƣớc tiến hành phân lớp dữ liệu 4 1.1.2. Chuẩn bị dữ liệu 6 1.1.3. Làm sạch dữ liệu 7 1.1.4. Phân tích dữ liệu 7 1.1.5. Chuyển đổi dữ liệu 7 1.1.6. So sánh các mô hình phân lớp 8 1.2. Phân lớp dữ liệu với kỹ thuật cây quyết định 8 1.2.1. Khái niệm về cây quyết định 8 1.2.2. Giải thuật 9 1.2.3. Rút luật phân lớp từ cây quyết định 10 1.2.4. Ƣu điểm và hạn chế của cây quyết định 11 1.3. Phân lớp dữ liệu với kỹ thuật mạng Bayes 12 1.3.1. Định lý Bayes 12 1.3.2. Phân loại Bayes ngây thơ (Bayes đơn giản) 12 1.4. Phân lớp dữ liệu với kỹ thuật mạng nơ-ron 13 1.4.1. Cơ sở về mạng nơ-ron 13 1.4.2. Cấu trúc và mô hình mạng nơ-ron 14 1.4.3. Dạng toán học của tổng liên kết 15 1.4.4. Dạng của hàm a(f) - Hàm hoạt tính phi tuyến. 15 1.5. Phân lớp dữ liệu bằng Fuzzy C- MEANS (FCM) 17 1.6. Phân lớp dữ liệu bằng WEKA 19 1.6.1. Giới thiệu chung 19 1.6.2. Ứng dụng của phần mềm Weka 3.7.5 vào bài toán phân lớp dữ liệu điểm của học sinh. 21 Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn iii 1.7. Kết luận chƣơng 1 23 CHƢƠNG 2: PHÂN LỚP DỮ LIỆU SỬ DỤNG LOGIC MỜ 24 2.1. Tập mờ: 24 2.1.1. Lý thuyết tập mờ 24 2.1.2. Khái niệm tập mờ 25 2.1.3. Một số định nghĩa cơ bản 27 2.1.4. Các phép toán trên tập mờ 29 2.2. Quan hệ mờ 31 2.2.1. Khái niệm chung 31 2.2.3. Các phép hợp thành mờ 38 2.3. Suy diễn mờ 39 2.3.1. Phép suy diễn: “if P then Q” 39 2.3.2. Phép suy diễn “if P then Q else Q1” 40 2.4. Logic mờ 40 2.4.1. Mở đầu 40 2.4.2. Biến ngôn ngữ và mệnh đề mờ 41 2.4.3. Các phép kết nối 43 2.5. Phân lớp dữ liệu dựa trên quan hệ mờ 45 2.5.1. Cơ sở lí thuyết 45 2.5.2. Phân hoạch các đối tƣợng mờ trong bài toán thực tế 45 2.5.3. Quan hệ mờ trong phân lớp dữ liệu 46 CHƢƠNG 3: CÀI ĐẶT THỬ NGHIỆM 50 3.1. Khái niệm chung bài toán phân lớp 50 3.2. Bài toán minh họa sự phân lớp các đối tƣợng mờ 51 3.2.1. Phát biểu bài toán 51 3.2.2. Thuật toán 51 3.3. Thử nghiệm bài toán ứng dụng phân lớp bằng logic mờ 52 3.4. Kết quả thử nghiệm 55 KẾT LUẬN VÀ KIẾN NGHỊ 61 TÀI LIỆU THAM KHẢO 63 Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn iv DANH MỤC CÁC KÍ HIỆU VÀ CHỮ VIẾT TẮT Phép hội Phép tuyến Lƣợng từ với mọi Phép giao Phép hợp Phép kéo theo Tập rỗng Phép thuộc Lƣợng từ tồn tại Phép tƣơng đƣơng ┐ Phép phủ định Chứa trong × Tích đề các CSDL Cơ sở dữ liệu Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn v DANH MỤC CÁC HÌNH Hình 1.1: Quá trình phân lớp dữ liệu và bƣớc xây dựng mô hình phân lớp. 4 Hình 1.2: Quá trình phân lớp dữ liệu - ƣớc lƣợng độ chính xác của mô hình 6 Hình 1.3: Quá trình phân lớp dữ liệu - phân lớp dữ liệu mới 6 Hình 1.4: Cây quyết định mua máy tính của sinh viên 10 Hình1.5: Minh hoạ về một nơ- ron 14 Hình1.6: Sự liên kết của hai nơ-ron 15 Hình1.7: Giao diện ban đầu của phần mềm WEKA 19 Hình 2.1: Khái niệm tập mờ 28 Hình2.2: Các tập mờ biểu diễn các giá trị ngôn ngữ: “Chậm”, “Trung bình" và “Nhanh” . 42 Hình 2.3: Tập mờ “tuổi trẻ” 43 Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn vi DANH MỤC CÁC BẢNG Bảng 1.1: Bảng mua máy tính của sinh viên 9 Hình 1.3: Hình minh họa đổi đuôi XLS sang CSV (comma delimited) 21 Bảng 1.4: Bảng dữ liệu đầu vào để phân lớp bằng WEKA 22 Bảng1.3: Bảng phân lớp các trƣờng dữ liệu WEKA 22 Bảng 3.1: Bảng điểm học sinh 53 Bảng 3.2: Ma trận khoảng cách Hamming 55 Bảng 3.3: Ma trận phân lớp Hamming 57 Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 1 MỞ ĐẦU Phân lớp dữ liệu là một bài toán thƣờng gặp trong đời sống hàng ngày. Chẳng hạn ngƣời ta phân loại học lực sinh viên dựa vào điểm trung bình từng học kỳ hoặc phân chia theo từng vùng lãnh thổ, phân loại các bệnh tật thƣờng gặp, các cách phân loại nhƣ vậy đều xuất phát từ việc xác định một quan hệ tƣơng đƣơng trên tập các đối tƣợng đang xét. Tuy nhiên phân lớp thông qua quan hệ tƣơng đƣơng thông thƣờng mặc dù thuận tiện, dễ lập trình, song thiếu mềm dẻo và đôi khi không phản ánh đúng thực chất đối tƣợng. Chẳng hạn một sinh viên có điểm trung bình 6,9 thì đƣợc xếp loại trung bình, đồng hạng với ngƣời có điểm 5,0; song ngƣời có điểm trung bình 7,0 lại xếp hạng khá!. Tƣơng tự nhƣ vậy, trong đời sống ngƣời ta vẫn phân loại một cách “tƣơng đối” chẳng hạn nhƣ “những ngƣời cao”. Logic mờ đƣợc ra đời và phát triển dựa trên lý thuyết tập mờ đã giúp cho tin học có cái nhìn gần với thực tiễn hơn, các công cụ của logic mờ cho phép xử lý những thông tin không đầy đủ, không chính xác, chẳng hạn việc tìm hai đối tƣợng “giống nhau” chứ không phải “bằng nhau” nhƣ với cách tìm kiếm thông thƣờng. Nhằm tìm hiểu kỹ hơn về logic mờ và ứng dụng trong bài toán phân lớp dữ liệu, giúp cho việc phân lớp mềm dẻo hơn, gần với đời thƣờng hơn, tôi đã lựa chọn đề tài “Phân lớ p dƣ̃ liệ u sử dụng logic mờ” làm đề tài luận văn của mình. Mục đích của đề tài: Mục đích củ a đ ề tài này nh ằm nghiên cƣ́ u lý thuyế t tậ p mờ , quan hệ mờ, logic mờ, trên cơ sở đó nghiên cứu phƣơng pháp phân lớp dữ liệu dựa trên logic mờ đồng thời minh hoạ trên một số bài toán cụ thể. Nội dung chính của luận văn gồm ba chƣơng. Chương 1: Tổng quan về phân tích dữ liệu. Chƣơng này trình bày khái quát về một số kỹ thuật phân lớp, cách phân lớp thông thƣờng đã sử dụng. Chƣơng này cũng đƣa ra một số ví dụ minh họa cụ thể. Chương 2: Phân lớ p dƣ̃ liệ u sử dụng logic mờ. Chƣơng này trình bày khái niệm tập mờ, các phép toán trên tập mờ và quan hệ mờ cùng với những tính chất cơ bản của quan hệ mờ. mệnh đề mờ, các phép toán logíc mờ, đặc biệt là các luật logic mờ làm cơ sở cho chƣơng sau. Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn [...]... 1.4: Bảng dữ liệu đầu vào để phân lớp bằng WEKA Phân lớp dữ liệu cho trƣờng dữ liệu môn Toán Bảng1.3: Bảng phân lớp các trường dữ liệu WEKA Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 23 Sau khi chọn thuộc tính phân lớp phần mềm Weka cung cấp dữ liệu phân lớp cho trƣờng dữ liệu môn Toán nhƣ sau: Missing (số mẫu dữ liệu thiếu giá trị): không có (đạt 0%) Trƣờng dữ liệu: ... tập dữ liệu đào tạo thì kết quả thu đƣợc khả quan vì mô hình luôn có xu hƣớng quá vừa dữ liệu tức là kết quả phân lớp trùng khít với dữ liệu thực tế vì quá trình xây dựng mô hình phân lớp từ tập dữ liệu đào tạo có thể đã kết hợp những đặc điểm riêng biệt của tập dữ liệu đó Do đó cần sử dụng một tập dữ liệu đào tạo Nếu nhƣ độ chính xác của mô hình là chấp nhận đƣợc thì mô hình sẽ đƣợc sử dụng để phân lớp. .. những dữ liệu tƣơng lai hay những dữ liệu chƣa biết giá trị của thuộc tính phân lớp Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 6 Hình 1.2: Quá trình phân lớp dữ liệu - ước lượng độ chính xác của mô hình Trong mô hình phân lớp, thuật toán phân lớp dữ liệu dữ vai trò trung tâm, quyết định sự thành công của mô hình phân lớp nên quan trọng là tìm ra đƣợc một thuật toán phân. .. phân lớp nhanh, hiệu quả có độ chính xác cao và có thể mở rộng Hình 1.3: Quá trình phân lớp dữ liệu - phân lớp dữ liệu mới 1.1.2 Chuẩn bị dữ liệu Tiền xử lý dữ liệu cho quá trình phân lớp là việc cần thiết đầu tiên quyết định việc áp dụng đƣợc hay không của mô hình phân lớp Quá trình trên giúp cải thiện chính xác, tính hiệu quả và cả khả năng mở rộng của mô hình phân lớp Số hóa bởi Trung tâm Học liệu. .. Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 3 CHƢƠNG 1 TỔNG QUAN VỀ PHÂN LỚP DỮ LIỆU Hiện nay kĩ thuật phân lớp dữ liệu trong Khai Phá Dữ Liệu là một trong những vấn đề nghiên cứu với nhiều mở rộng tập trung chủ yếu vào thống kê, máy học và mạng nơ-ron Kĩ thuật phân lớp đƣợc đánh giá là một kĩ thuật khai phá dữ liệu đƣợc sử dụng rộng rãi nhất Sự kết hợp của kỹ thuật phân lớp và cơ sở dữ liệu. .. việc nghiên cứu lý thuyết về logic mờ tiếp theo ở chƣơng 2 Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 24 CHƢƠNG 2 PHÂN LỚP DỮ LIỆU SỬ DỤNG LOGIC MỜ Trong thực tiễn đã có nhiều kĩ thuật dùng để phân lớp dữ liệu Tuy nhiên mỗi kĩ thuật đó lại có một số ƣu nhƣợc điểm riêng Việc tìm hiểu và phát triển thêm kĩ thuật phân lớp mới để phân lớp dữ liệu sao cho mềm dẻo hơn là... lƣợc thông minh, đúng đắn, phù hợp với yêu cầu thực tế Phân lớp dữ liệu (classification) là một dạng của phân tích dữ liệu, thao tác với những đối tƣợng dữ liệu mà có bộ giá trị biết trƣớc dùng để trích ra những lớp dữ liệu quan trọng, hay dự đoán những khuynh hƣớng phát triển trong tƣơng lai Phân lớp dữ liệu là xếp đối tƣợng dữ liệu vào một trong các lớp đã đƣợc xác định trƣớc Tức là có 1 tập các đối... lớp, giúp cải thiện độ chính xác, hiệu suất và khả năng mở rộng của phân lớp dữ liệu 1.1.4 Phân tích dữ liệu Phân tích sự liên quan giữa các dữ liệu để chọn đặc trƣng: Nhiều thuộc tính trong dữ liệu có thể không có sự liên kết, liên quan, hay không cần thiết phân lớp dữ liệu Vì vậy phép phân tích sự liên quan đƣợc thực hiện trên dữ liệu với mục đích gỡ bỏ, loại bỏ bất kỳ những thuộc tính không thích... chóng, phù hợp phân lớp cho các gói cơ sở dữ liệu lớn Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 4 Một số kỹ thuật cơ bản để phân lớp dữ liệu: sử dụng phân lớp cây quyết định (decision tree classification), bộ phân lớp Bayesian (Bayesian classifier), mạng nơ ron (neural network), mô hình phân lớp K_hàng xóm gần nhất (knearest neighbor classifier), phân tích thống... tập dữ liệu này, mỗi phần tử dữ liệu đƣợc giả sử thuộc về một lớp định trƣớc, lớp ở đây là giá trị của một thuộc tính đƣợc chọn làm thuộc tính gán nhãn lớp hay thuộc tính phân lớp (class lable attribute) Đầu ra thƣờng là các quy tắc phân lớp dƣới dạng luật if - then, cây quyết định, công thức logic hay mạng nơ-ron Mô hình mô tả nhƣ sau: Hình 1.1: Quá trình phân lớp dữ liệu và bước xây dựng mô hình phân . QUAN VỀ PHÂN LỚP DỮ LIỆU 3 1.1. Khái quát về phân lớp dữ liệu 3 1.1.1. Các bƣớc tiến hành phân lớp dữ liệu 4 1.1.2. Chuẩn bị dữ liệu 6 1.1.3. Làm sạch dữ liệu 7 1.1.4. Phân tích dữ liệu 7. toán phân lớp nhanh, hiệu quả có độ chính xác cao và có thể mở rộng. Hình 1.3: Quá trình phân lớp dữ liệu - phân lớp dữ liệu mới 1.1.2. Chuẩn bị dữ liệu Tiền xử lý dữ liệu cho quá trình phân. hơn về logic mờ và ứng dụng trong bài toán phân lớp dữ liệu, giúp cho việc phân lớp mềm dẻo hơn, gần với đời thƣờng hơn, tôi đã lựa chọn đề tài Phân lớ p dƣ̃ liệ u sử dụng logic mờ làm