Tiểu luận môn toán học cho khoa học máy tính Tìm hiểu về cơ sở lý thuyết Logic mờ, ứng dụng Logic mờ trong khai phá dữ liệu

43 509 0
Tiểu luận môn toán học cho khoa học máy tính  Tìm hiểu về cơ sở lý thuyết Logic mờ, ứng dụng Logic mờ trong khai phá dữ liệu

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH TRƢỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN BÀI THU HOẠCH MÔN TOÁN HỌC CHO KHOA HỌC MÁY TÍNH TÊN ĐỀ TÀI : Tìm hiểu về cơ sở lý thuyết Logic mờ, ứng dụng Logic mờ trong khai phá dữ liệu GV: PGS.TS Đỗ Văn Nhơn HV: Trịnh Đồng Thạch Trúc Mã số: CH1301068 Lớp: Cao học khóa 8 Tp. Hồ Chí Minh – 12/2013 ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH CHƯƠNG TRÌNH ĐẠO TẠO THẠC SĨ CNTT QUA MẠNG 1 Trịnh Đồng Thạch Trúc – CH1301068 Mục lục MỞ ĐẦU 1 CHƢƠNG 1. LOGIC MỜ 2 1.1. Logic mệnh đề 2 1.2. Tập mờ 3 1.2.1. Khái niệm tập mờ 3 1.2.2. Các dạng hàm thuộc tiêu biểu 4 1.2.3. Các khái niệm liên quan 5 1.2.4. Các toán tử logic trên tập mờ 6 1.2.5. Các phép toán mở rộng 8 1.3. Logic mờ 11 1.3.1. Khái niệm logic mờ 12 1.3.2. Biến ngôn ngữ 12 1.3.3. Mệnh đề mờ 13 1.3.4. Các phép toán mệnh đề mờ 14 1.3.5. Phép toán kéo theo mờ 14 1.3.6. Luật mờ 15 1.3.7. Luật Modus Ponens hay Modus Tollens 16 1.4. Số mờ 17 1.4.1. Định nghĩa 17 1.4.2. Các số học mờ 18 CHƢƠNG 2. TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU 19 2.1. Phát hiện tri thức và khai phá dữ liệu 19 2.2. Quá trình phát hiện tri thức từ cơ sở dữ liệu 19 2.2.1. Xác định vấn đề 20 2.2.2. Thu thập và tiền xử lý dữ liệu 20 2.2.3. Khai thác dữ liệu 20 2.2.4. Minh họa và đánh giá 20 2.2.5. Đƣa kết quả vào thực tế 21 2.3. Khai phá dữ liệu 21 2.3.1. Khái niệm về khai phá dữ liệu 21 2.3.2. Nhiệm vụ của khai phá dữ liệu 21 2.3.3. Một số ứng dụng khai phá dữ liệu 21 2.3.4. Các kỹ thuật khai phá dữ liệu 22 2.3.4.1. Khai phá dữ liệu dự đoán 22 2.3.4.2. Khai phá dữ liệu mô tả 22 2.3.5. Kiến trúc của hệ thống khai phá dữ liệu 23 2.4. Luật kết hợp 23 2.4.1. Ý nghĩa thực tiễn của luật kết hợp 23 2.4.2. Một số khái niệm 24 2.4.3. Tìm luật kết hợp 25 2.4.4. Thuật toán tìm luật kết hợp Apriori: 25 CHƢƠNG 3. PHƢƠNG PHÁP TÌM LUẬT KẾT HỢP MỜ VÀ MINH HỌA BẰNG ỨNG DỤNG THỰC TẾ 27 3.1. Mờ hóa dữ liệu 27 3.2. Khai phá luật mờ 30 3.3. Thuật toán khai phá luật kết hợp mờ 33 3.4. Ứng dụng 36 KẾT LUẬN 40 Tài liệu tham khảo : 41 ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH CHƯƠNG TRÌNH ĐẠO TẠO THẠC SĨ CNTT QUA MẠNG 1 Trịnh Đồng Thạch Trúc – CH1301068 MỞ ĐẦU Logic mờ ra đời đã cung cấp một công cụ để nghiên cứu và xây dựng các hệ thống có khả năng xử lý thông tin không chính xác. Nhờ có Logic mờ mà con ngƣời xây dựng đƣợc những hệ điều khiển có tính linh động rất cao. Logic mờ có phạm vi ứng dụng rộng rãi trên thế giới, từ những hệ thống cao cấp phức tạp nhƣ những hệ dự báo, nhận dạng, robos, vệ tinh, du thuyền, máy bay,… đến những đồ dùng hằng ngày nhƣ máy giặt, máy điều hoà không khí, máy chụp hình tự động. Cùng với sự ra đời của logic mờ thì khai phá dữ liệu (data mining), hiện nay đang đƣợc rất nhiều ngƣời chú ý. Nó thực sự đã đem lại những lợi ích đáng kể trong việc cung cấp những thông tin tiềm ẩn trong các cơ sở dữ liệu lớn. Những phƣơng pháp thống kê truyền thống, phần lớn đều đã đƣợc định trƣớc mục đích của công việc, và sau đó chỉ việc sử dụng những phƣơng pháp thích hợp để có đƣợc những thông tin mà chúng ta cần. Khai phá dữ liệu nhƣ là một công cụ, giúp chúng ta tìm ra “mỏ” trong những “dãy núi khổng lồ”. Ý tƣởng liên kết luật kết hợp với lý thuyết mờ đã xuất hiện, ý tƣởng ban đầu xuất phát từ nỗ lực để xử lý các thuộc tính số trong CSDL, trong đó việc phân chia các giá trị số vào các tập rõ có thể dẫn đến việc đánh giá cao hơn hoặc thấp hơn các giá trị ở gần biên. Tập mờ có thể khắc phục vấn đề này bằng cách cho phép một phần tử có thể thuộc vào các tập khác nhau. Lý thuyết mờ cung cấp những công cụ cần thiết để thực hiện các tính toán trên các cấu trúc dữ liệu khác nhau. Việc sử dụng logic mờ trong mô hình quan hệ cung cấp một cách hiệu quả để xử lý dữ liệu số với các thông tin không chính xác, không chắc chắn hoặc không đầy đủ. Lý thuyết tập mờ ngày càng đƣợc sử dụng nhiều và thƣờng xuyên hơn trong các hệ thống thông minh bởi vì mối quan hệ của nó với cách lập luận của con ngƣời. Một số nghiên cứu đã chứng minh đƣợc hiệu suất vƣợt trội của logic mờ trong khai phá dữ liệu và kho dữ liệu. Sau khi học xong học phần logic mờ do thầy Đỗ Văn Nhơn phụ trách, em đã nghiên cứu và xây dựng phƣơng pháp tìm luật kết hợp mờ dựa vào cơ sở dữ liệu là kết quả thi tuyển sinh đầu vào khối A trƣờng cao đẳng Phát thanh – Truyền hình II thành phố Hồ Chí Minh và điểm thi tốt nghiệp của sinh viên sau 3 năm học. ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH CHƯƠNG TRÌNH ĐẠO TẠO THẠC SĨ CNTT QUA MẠNG 2 Trịnh Đồng Thạch Trúc – CH1301068 15 o C 20 o C Nhiệt độ 32 o C Lạnh Bình thƣờng Nóng CHƢƠNG 1. LOGIC MỜ 1.1. Logic mệnh đề Cơ sở chính của logic mệnh đề là ta chỉ quan tâm đến 2 tiêu chuẩn sau: - Mệnh đề - Chân trị (1 và 0) Từ 2 cơ sở chính này ta suy ra đƣợc 2 giá trị chân lý đó là: đúng (1) và sai (0). Nhƣ vậy logic mệnh đề luôn tuân theo 2 giá trị giả thuyết nhƣ sau: - Giả thuyết 1 là tính thành viên của tập hợp: Với một phần tử và một tập hợp bất kỳ, thì phần tử hoặc là thuộc tập hợp đó, hoặc thuộc phần bù của tập đó. - Giả thuyết 2 là định luật loại trừ trung gian, khẳng định một phần tử không thể vừa thuộc một tập hợp vừa thuộc phần bù của nó. Ví dụ 1.1: Ta có những lập luận nhƣ sau thì không thể áp dụng logic mệnh đề đƣợc: Nếu có một bài toán nào đó có áp dụng logic mệnh đề, mà bài toán lại có giá trị đúng (1) cũng không hẳn là đúng, mà sai (0) cũng không hẳn là sai nhƣ vậy ta không thể áp dụng logic mệnh đề để tính toán. Ví dụ 1.2: Nếu nhiệt độ dƣới 20 độ C thì lạnh, còn nhiệt độ từ 21 độ C đến 32 độ C là bình thƣờng, ngƣợc lại từ 32 độ C trở lên là nóng. Hình 1.2 bên dƣới minh họa tập hợp “LẠNH” gồm tất cả các nhiệt độ từ 20 độ C trở xuống, còn “NÓNG” gồm tất cả các nhiệt độ từ 32 độ C trở lên. Hình 1.2: Biểu diễn tập nhiệt độ “Lạnh”, “Bình thƣờng” và “Nóng” Qua biểu diễn của hình trên ta thấy không thể áp dụng logic mệnh đề để phân biệt các thành phần trong cùng một tập hợp. Giả sử ta xét trƣờng hợp về nhiệt độ lạnh giữa hai nhiệt độ 10 độ C và 8 độ C, thì logic mệnh đề không thể hiện đƣợc nhiệt độ nào lạnh hơn nhiệt độ nào, còn giả sử ta xét trƣờng hợp nhiệt độ nóng giữa hai nhiệt độ 40 độ C ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH CHƯƠNG TRÌNH ĐẠO TẠO THẠC SĨ CNTT QUA MẠNG 3 Trịnh Đồng Thạch Trúc – CH1301068 và 50 độ C, thì logic mệnh đề cũng không thể hiện đƣợc nhiệt độ nào nóng hơn nhiệt độ nào. Nhƣ vậy đối với logic mệnh đề thì không thể giải quyết đƣợc các dữ kiện mang tính mơ hồ, không chính xác, mà trong thực tế lại có rất nhiều phát biểu bằng ngôn ngữ tự nhiên ở dạng này.  Quy tắc tính toán của logic mệnh đề: Trong logic mệnh đề để tính toán suy luận ta có 5 phép toán cơ bản sau: STT Phép toán Ý nghĩa 1  Phủ định 2  Và 3  Hay 4  Phép kéo theo 5  Phép kéo theo 2 chiều 1.2. Tập mờ 1.2.1. Khái niệm tập mờ Một tập hợp trong một không gian nào đó, theo khái niệm cổ điển sẽ chia không gian thành 2 phần rõ ràng. Một phần tử bất kỳ trong không gian sẽ thuộc hoặc không thuộc vào tập đã cho. Tập hợp nhƣ vậy còn đƣợc gọi là tập rõ. Lý thuyết tập hợp cổ điển là nền tảng cho nhiều ngành khoa học, chứng tỏ vai trò quan trọng của mình. Nhƣng những yêu cầu phát sinh trong khoa học cũng nhƣ cuộc sống đã cho thấy rằng lý thuyết tập hợp cổ điển cần phải đƣợc mở rộng. Ta xét tập hợp những ngƣời trẻ. Ta thấy rằng ngƣời dƣới 26 tuổi thì rõ ràng là trẻ và ngƣời trên 60 tuổi thì rõ ràng là không trẻ. Nhƣng những ngƣời có tuổi từ 26 đến 60 thì có thuộc tập hợp những ngƣời trẻ hay không? Nếu áp dụng khái niệm tập hợp cổ điển thì ta phải định ra một ranh giới rõ ràng và mang tính chất áp đặt, chẳng hạn là 45 tuổi để xác định tập hợp những ngƣời trẻ. Và trong thực tế thì có một ranh giới mờ để ngăn cách những ngƣời trẻ và những ngƣời không trẻ đó là những ngƣời trung niên. Nhƣ vậy, những ngƣời trung niên là những ngƣời có một “độ trẻ” nào đó. Nếu coi “độ trẻ” của ngƣời dƣới 26 tuổi là hoàn toàn đúng tức là có giá trị là 1 và coi “độ trẻ” của ngƣời trên 60 tuổi là hoàn toàn sai tức là có giá trị là 0, thì “độ trẻ” của ngƣời trung niên sẽ có giá trị p nào đó thoả 0 < p < 1 (có nghĩa là: p  [0, 1]). ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH CHƯƠNG TRÌNH ĐẠO TẠO THẠC SĨ CNTT QUA MẠNG 4 Trịnh Đồng Thạch Trúc – CH1301068 Nhƣ vậy nhu cầu mở rộng khái niệm tập hợp và lý thuyết tập hợp là hoàn toàn tự nhiên. Các công trình nghiên cứu về lý thuyết tập mờ và logic mờ đã đƣợc L.Zadeh công bố đầu tiên năm 1965, và sau đó liên tục phát triển mạnh mẽ. Định nghĩa: Cho không gian nền U, tập A  U đƣợc gọi là tập mờ nếu A đƣợc xác định bởi hàm: A  :X->[0,1] - A  đƣợc gọi là hàm thuộc, hàm liên thuộc hay hàm thành viên (membership function) - Với x  X thì A  (x) đƣợc gọi là mức độ thuộc của x vào A. Nhƣ vậy ta có thể coi tập rõ là một trƣờng hợp đặc biệt của tập mờ, trong đó hàm thuộc chỉ nhận 2 giá trị 0 và 1. Ký hiệu tập mờ, ta có các dạng ký hiệu sau:  Liệt kê phần tử: giả sử U={a,b,c,d} ta có thể xác định một tập mờ A= dcba 02.03.01.0   A =    Uxxx A |)(,   A =  Ux A x x)(  trong trƣờng hợp U là không gian rời rạc  A =  U A xx /)(  trong trƣờng hợp U là không gian liên tục Lƣu ý là các ký hiệu  và  không phải là các phép tính tổng hay tích phân, mà chỉ là ký hiệu biểu thị tập hợp mờ. Ví dụ: Tập mờ A là tập “số gần 2” xác định bởi hàm thuộc 2 )2(   x A e  ta có thể ký hiệu: A =    Uxxx  |)2(, 2 hoặc A =     xx /)2( 2 1.2.2. Các dạng hàm thuộc tiêu biểu Theo lý thuyết thì hàm thuộc có thể là một hàm bất kỳ thoả A  :X->[0,1]. Nhƣng trong thực tế thì có các dạng hàm thuộc sau đây là quan trọng và có tính ứng dụng cao hơn cả. ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH CHƯƠNG TRÌNH ĐẠO TẠO THẠC SĨ CNTT QUA MẠNG 5 Trịnh Đồng Thạch Trúc – CH1301068  Nhóm hàm đơn điệu Nhóm này gồm đơn điệu tăng và đơn điệu giảm. Ví dụ tập hợp ngƣời già có hàm thuộc đơn điệu tăng theo tuổi trong khi đó tập hợp ngƣời trẻ có hàm thuộc đơn điệu giảm theo tuổi. Ta xét thêm ví dụ minh họa sau: - Cho tập vũ trụ E = Tốc độ = {20, 50, 80, 100, 120} đơn vị là km/h. - Xét tập mờ F=Tốc độ nhanh xác định bởi hàm thuộc nhanh  nhƣ đồ thị Nhƣ vậy tốc độ dƣới 20km/h đƣợc coi là không nhanh. Tốc độ càng cao thì độ thuộc của nó vào tập F càng cao. Khi tốc độ là 100km/h trở lên thì độ thuộc là 1.  Nhóm hàm hình chuông Nhóm hàm này có đồ thị dạng hình chuông, bao gồm dạng hàm tam giác, hàm hình thang, gauss. Xét ví dụ cũng với tập vũ trụ E ở trên, xét tập mờ F=Tốc độ trung bình xác định bởi hàm thuộc          1005050/)100( 502030/)20( 100200 xkhix xkhix xxkhi trungbình  1.2.3. Các khái niệm liên quan Giả sử A là tập mờ trên vũ trụ U, có hàm thuộc A  thì ta có các khái niệm sau: 1 0.85 0.5 100 20 50 80 E nhanh  120 1 0.4 100 20 50 80 E trungbình  120 [...]... CH1301068 ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH CHƯƠNG TRÌNH ĐẠO TẠO THẠC SĨ CNTT QUA MẠNG CHƢƠNG 3 PHƢƠNG PHÁP TÌM LUẬT KẾT HỢP MỜ VÀ MINH HỌA BẰNG ỨNG DỤNG THỰC TẾ 3.1 Mờ hóa dữ liệu Các thuật toán khai phá luật kết hợp nhị phân chỉ có thể áp dụng trên những cơ sở dữ liệu quan hệ có thuộc tính nhị phân hoặc cơ sở dữ liệu dạng giao dịch, chứ không thể áp dụng trực tiếp cho các cơ sở dữ liệu có thuộc tính. .. hợp dữ liệu từ các nguồn khác nhau Chọn dữ liệu: Chọn những dữ liệu liên quan trực tiếp đến nhiệm hợp vụ  Chuyển đổi dữ liệu: Chuyển DL về những dạng phù hợp cho việc khai phá  Khai phá dữ liệu  Đánh giá mẫu: Đánh giá mẫu hoặc tri thức đã thu đƣợc  Trình diễn dữ liệu: Biểu diễn những tri thức khai phá đƣợc cho ngƣời sử dụng 2.2.1 Xác định vấn đề Trong thực tế, các cơ sở dữ liệu đƣợc chuyên môn. .. luật kết hợp mờ tin cậy Ký hiệu D I T DF Ý nghĩa Cơ sở dữ liệu (dạng quan hệ hoặc giao tác) Tập các mục (thuộc tính) trong D Tập các bản ghi (giao tác) trong D Cơ sở dữ liệu có các thuộc tính đƣợc mờ hóa, đƣợc tính toán từ cơ sở dữ liệu ban đầu thông qua hàm thuộc của các tập mờ tƣơng ứng với từng thuộc tính IF Tập các thuộc tính trong DF, mỗi thuộc tính đều đƣợc gắn với một tập mờ Mỗi tập mờ f đều có... thu thập và tiền xử lý dữ liệu thành các công đoạn nhƣ sau: a Chọn lọc dữ liệu b Làm sạch dữ liệu c Làm giàu dữ liệu d Mã hóa 2.2.3 Khai thác dữ liệu Giai đoạn khai thác dữ liệu đƣợc bắt đầu sau khi dữ liệu đã đƣợc thu thập và tiến hành xử lý Trong giai đoạn này, công việc chủ yếu là xác định đƣợc bài toán khai thác dữ liệu, tiến hành lựa chọn phƣơng pháp khai thác phù hợp với dữ liệu có đƣợc và tách... 2.3 Khai phá dữ liệu 2.3.1 Khái niệm về khai phá dữ liệu KPDL (data mining) là quá trình khám phá các tri thức mới và các tri thức có ích ở dạng tiềm năng trong nguồn dữ liệu đã có KPDL là một bƣớc trong quá trình khám phá tri thức bao gồm các thuật toán KPDL chuyên dùng dƣới một số quy định về hiệu quả tính toán chấp nhận đƣợc để tìm ra các mẫu và các mô hình trong dữ liệu 2.3.2 Nhiệm vụ của khai phá. .. Hình 1.4 cho thấy sự phân cụm tập dữ liệu cho vay vào trong 3 cụm : Lƣu ý rằng các cụm chồng lên nhau cho phép các điểm dữ liệu thuộc về nhiều hơn một cụm Hình 1.4 : Phân cụm tập dữ liệu cho vay thành 3 cụm b) Khai phá luật kết hợp Mục tiêu của phƣơng pháp này là phát hiện và đƣa ra các mối liên hệ giữa các giá trị dữ liệu trong cơ sở dữ liệu Mẫu đầu ra của giải thuật KPDL là luật kết hợp tìm đƣợc... loại dữ liệu Hay nói các khác, phân loại là học một hàm ánh xạ một mục dữ liệu vào trong số các lớp cho trƣớc b) Hồi quy Phƣơng pháp hồi quy khác với phƣơng pháp phân loại dữ liệu ở chỗ, hồi qui dùng để dự đoán về các giá trị liên tục còn phân loại dữ liệu chỉ dùng để dự đoán về các giá trị rời rạc Hồi quy là một hàm học ánh xạ mục dữ liệu thành một biến dự đoán có giá trị thực 2.3.4.2 Khai phá dữ liệu. .. định nghĩa bài toán giúp định hƣớng cho giai đoạn tiếp theo thu thập và tiền xử lý dữ liệu 2.2.2 Thu thập và tiền xử lý dữ liệu Các cơ sở dữ liệu thu đƣợc thƣờng chứa rất nhiều thuộc tính nhƣng lại không đầy đủ, không thuần nhất, có nhiều lỗi và các giá trị đặc biệt Vì vậy, giai đoạn thu thập và tiền xử lý dữ liệu trở nên rất quan trọng trong quá trình phát hiện tri thức từ cơ sở dữ liệu Ngƣời ta chia... tại trong các cơ sở dữ liệu nhƣng vẫn còn bị che khuất bởi hàng “núi” dữ liệu Quá trình phát hiện tri thức đƣợc mô tả tóm tắt trên Hình 1.1: Hình 1.1: Quy trình phát hiện tri thức từ cơ sở dữ liệu 19 Trịnh Đồng Thạch Trúc – CH1301068 ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH CHƯƠNG TRÌNH ĐẠO TẠO THẠC SĨ CNTT QUA MẠNG  Làm sạch dữ liệu: Loại bỏ dữ liệu nhiễu hoặc dữ liệu không thích   Tích hợp dữ liệu: ... có cách tính kết quả của luật Modus Ponens khác nhau 1.4 Số mờ Trong phần số mờ này ta tập trung vào 2 vấn đề quan trọng đó là: Giới thiệu về số mờ và các tính toán của số mờ Khái niệm số mờ thực chất là dựa trên khái niệm về tập mờ và từ định nghĩa của tập mờ dẫn đến định nghĩa số mờ 1.4.1 Định nghĩa Cơ sở khoa học của số mờ là tập mờ trên trục thực thỏa 2 điều kiện, ta có định nghĩa về số mờ nhƣ sau: . 2.3. Khai phá dữ liệu 21 2.3.1. Khái niệm về khai phá dữ liệu 21 2.3.2. Nhiệm vụ của khai phá dữ liệu 21 2.3.3. Một số ứng dụng khai phá dữ liệu 21 2.3.4. Các kỹ thuật khai phá dữ liệu 22. HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH TRƢỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN BÀI THU HOẠCH MÔN TOÁN HỌC CHO KHOA HỌC MÁY TÍNH TÊN ĐỀ TÀI : Tìm hiểu về cơ sở lý thuyết Logic mờ, ứng. của logic mờ trong khai phá dữ liệu và kho dữ liệu. Sau khi học xong học phần logic mờ do thầy Đỗ Văn Nhơn phụ trách, em đã nghiên cứu và xây dựng phƣơng pháp tìm luật kết hợp mờ dựa vào cơ sở

Ngày đăng: 23/05/2015, 10:16

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan