Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 65 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
65
Dung lượng
1,15 MB
Nội dung
i MỤC LỤC LỜI CẢM ƠN iii LỜI CAM ĐOAN iv DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT v DANH MỤC BẢNG vi DANH MỤC HÌNH VẼ vii MỞ ĐẦU CHƯƠNG KHAIPHÁ TRI THỨC MỜ 1.1 Khaiphá tri thức theo cách tiếp cận lý thuyết tập mờ 1.1.1 Kiến thức sở tập mờ 1.1.2 Khaiphá tri thức với thông tin mờ 1.2 Một số kiến thức ĐSGT 1.2.1 Đại số gia tử 1.2.2 Một số tính chất đại số gia tử 11 1.3 Khaiphá tri thức từ CSDL với hệ luậtmờ 14 1.4 Luậtkếthợpmờ 17 1.4.1 Một số khái niệm 17 1.4.2 Thuật toán Apriori 21 1.5 Giải thuật di truyền 23 1.5.1 Khái niệm 23 1.5.2 Các thành phần giải thuật di truyền 23 CHƯƠNG XÁCĐỊNHCÁCHÀMTHUỘCTRÊNMIỀNXÁCĐỊNHTHUỘCTÍNHMỜ 27 2.1 Phương pháp giảitoán phân chia miềnxácđịnhthuộctính 27 2.1.1 Một số phương pháp phân chia miềnmờ 27 2.1.2 Phương pháp tiếp cận Đại số gia tử 28 ii 2.2 Phương pháp xácđịnhhàmthuộc phân chia miềnxácđịnhthuộc tínhmờ dựa liệu 30 2.2.1 Biểu diễn nhiễm sắc thể 30 2.2.2 Hàm tối ưu 32 CHƯƠNG GIẢIBÀITOÁNKHAIPHÁLUẬTKẾTHỢPMỜ DỰA TRÊN PHÂN HOẠCH MỜ TỐI ƯU 35 3.1 Bàitoánkhaipháluậtkếthợpmờ 35 3.1.1 Rời rạc hóa thuộctính dựa vào tập mờ 35 3.1.2 Rời rạc hóa thuộctínhmờ 38 3.1.3 Bàitoánkhaipháluậtkếthợpmờ 40 3.2 Thuật toán chương trình thử nghiệm 45 3.2.1 Thuật toánkhaipháhàmthuộcluậtkếthợp 45 3.2.2 Một số kết thử nghiệm 47 KÊT LUẬN 56 TÀI LIỆU THAM KHẢO 57 iii LỜI CẢM ƠN Xâydựnghàmthuộcmiềnxácđịnhthuộctínhmờgiảitoánkhaipháluật kếthợp vào ý kiến đánh giá chuyên gia theo số tiêu chí cho trước toán thường gặp hoạt động thường xuyên người Có nhiều phương pháp để giảitoán xếp mờ theo nhiều hướng tiếp cận khác nhau, hướng tiếp cận có ưu nhược điểm riêng Được đồng ý trường Đại học công nghệ thông tin truyền thồng Thầy giáo hướng dẫn em mạnh dạn nhận đề tài: “Xây dựnghàmthuộcmiềnxácđịnhthuộctínhmờgiảitoánkhaipháluậtkết hợp” làm đề tài luận văn thạc sỹ Sau thời gian nghiên cứu nghiêm túc hướng dẫn nhiệt tình Thầy giáo hướng dẫn, luận văn em hoàn thành chương chương trình thử nghiệm Em xin gửi lời cảm ơn sâu sắc tới Ts Trần Thái Sơn, người tận tình hướng dẫn suốt trình hoàn thành luận văn.Em xin chân thành cảm ơn gia đình, bạn bè ủng hộ vật chất lẫn tinh thần để em hoàn thành luận văn Xin chân thành cảm ơn! iv LỜI CAM ĐOAN Tên là: Lê Minh Hiệp Sinh ngày 19 tháng 07 năm 1987 Học viên cao học lớp: CK13A - Trường Đại học Công nghệ thông tin Truyền thông – Đại học Thái Nguyên Xin cam đoan: Đề tài “Xây dựnghàmthuộcmiềnxácđịnhthuộctínhmờgiảitoánkhaipháluậtkết hợp” Ts.Trần Thái Sơnhướng dẫn công trình nghiên cứu riêng Tất tài liệu tham khảo có nguồn gốc, xuất xứ rõ ràng Tôi xin cam đoan tất nội dung luận văn nội dung đề cương yêu cầu thầy giáo hướng dẫn Nếu sai xin hoàn toàn chịu trách nhiệm trước Hội đồng khoa học trước pháp luật Thái Nguyên, ngày .tháng .năm 2016 Tác giả luận văn Lê Minh Hiệp v DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT Các kí hiệu α Tổng độ đo tínhmờ gia tử âm β Tổng độ tínhmờ gia tử dương AX, AT Đại số gia tử AX Đại số gia tử tuyến tính đầy đủ W Phần tử trung hòa đại số gia tử Các chữ viết tắt FB Fuzzy Base RB Rule Base KB Knowledge base MF Membership Function CSDL Cơ sở liệu KPDL Khaiphá liệu ĐSGT Đại số gia tử ĐLNN Định lượng ngữ nghĩa GA Giải thuật di truyền MFRBS Mamdani Fuzzy Rule - Base System vi DANH MỤC BẢNG Bảng 1: Cơ sở liệu giao tác 17 Bảng 2: CSDL thống kế dân số 10 gia đình 36 Bảng 3: Rời rạc hóa thuộctính số rời rạc hữu hạn thuộctính hạng mục 36 Bảng 4: Rời rạc hóa thuộctính số "Tuổi" 37 Bảng 5: Bảng ký hiệu sử dụng thuật toánkhaipháluậtkếthợpmờ 43 Bảng 6: Cở sở liệu giao dịch gồm 10 ghi 48 Bảng 7: Cở sử liệu giao dịch sau chuẩn hóa đoạn [0,1] 48 Bảng 8: Các tham số ĐSGT thiết lập dựa vào kinh nghiệm 49 Bảng 9: Các tham số ĐSGT sau thực tối ưu 51 Bảng 10: Số lượng 1-Itemset thu với tham số sau chạy GA 53 Bảng 11: Một số luật thu sử dụnghàmthuộc hình 3.5 55 vii DANH MỤC HÌNH VẼ Hình 2.1: Xâydựnghàmthuộc dựa giá trị ĐLNN 29 Hình 2.2: Lược đồ tìm kiếm hàmthuộckhaipháluậtkếthợpmờ 30 Hình 2.3: Hàmthuộc cho thuộctính 31 Hình 2.4: Hàmthuộc cho thuộctính Milk 31 Hình 2.5: Biểu diễn nhiễm sắc thể cho tập hàmthuộc Hình 2.3 32 Hình 2.6: Hai hàmthuộc không hợp lý 34 Hình 3.1: Hàmthuộc tập mờ "Tuổi_trẻ", "Tuổi_trung_niên", "Tuổi_già" 38 Hình 3.2: Hàmthuộc cho thuộctính Age với α=β=0.5, fm(N)=fm(P)=w=0.5 49 Hình 3.3: Cấu trúc Gen cho 10 thuộctính 49 Hình 3.4:Các hàmthuộc với tham số không tối ưu .51 Hình 3.5: Cáchàmthuộc sau tối ưu 53 Hình 3.6: Biểu đồ quan hệ tập lớn 1-itemsets minimum support 54 MỞ ĐẦU Đặt vấn đề Lĩnh vực nghiên cứu khaiphá tri thức nói chung ứng dụng việc giảitoán trích xuất luậtkếthợp mờvà xâydựng hệ luậtmờ điều khiển nói riêng phát triển mạnh mẽ Nếu trước kết nghiên cứu dựa tảng khoa học cổ điển, lô gic xác tại, việc nghiên cứu phải dựa công nghệ mới, mang đặc tính mềm dẻo, có khả tương tác với người tốt lĩnh vực khaiphá tri thức lĩnh vực liên quan chặt chẽ đến suy nghĩ, lập luận người Ta thấy, lập luận, người thường dùngkhái niệm không đo đếm xác, phổ biến từ ngôn ngữ tự nhiên, “xa”, “gần”, “giỏi”, “rất khá” Nếu muốn mô lập luận người, đòi hỏi phải có phương pháp khác với phương pháp cổ điển có.Khái niệm công nghệ tínhtoán mềm đời, với tư tưởng đưa nghiên cứu tảng công cụ hữu ích giúp xử lý cách mềm dẻo nhiều vấn đề khoa học theo triết lý gần với lập luận người Dựa công nghệ tínhtoán mềm, nhiều thuật toán tiếp tục nghiên cứu đề xuất liên quan đến lĩnh vực khaiphá liệu Để giải vấn đề, việc sử dụng kinh nghiệm chuyên gia lĩnh vực quan tâm rõ ràng không đủ lí thời gian, khả biểu diễn tri thức thân dạng dễ cho chuyên gia khác hiểu, xử lí Do xuất nhu cầu khaiphá tri thức cách tự động nhờ thuật toán từ kho thông tin lớn có khắp nơi Về tổng thể, toán đặt cho trước Cơ sở liệu (thường CSDL số, tức giá trị CSDL số thực), từ đó, phương pháp xử lý định, rút hệ tri thức phản ánh quy luật ngầm chứa CSDL số Các quy luật biểu diễn dạng luậtkếthợp X ->Y, X,Y tập thuộctính (không giao nhau) CSDL thỏa mãn điều kiện XY xuất với tần số đủ lớn CSDL (tức độ hỗ trợ luật lớn ngưỡng xácđịnh để đảm bảo luật có ý nghĩa) điều kiện có X (tức giá trị CSDL hàng thuộc X) hàng có Y sảy với tần suất đủ cao (có độ tin cậy vượt ngưỡng) ví dụ luật “Nếu Sinh viên A chăm khỏe mạnh có tư Thì kết học tập khá” Hoặc tri thức biểu diễn dạng mộthệ luật dạng IF X is A and Y is B THEN Z is C, X, Y, Z biến mờ (thường biến ngôn ngữ), A, B, C giá trị biến ngôn ngữ (thường tập mờ) Thí dụ luật IF đường xa tốc độ di chuyển trung bình THEN thời gian đến đích lâu Để sinh luật vậy, ta phải chuyển hóa miền giá trị thuộctínhđịnhtính “khoảng cách”, “tốc độ”, “thời gian” thành miền mờ, hay nói cách khác chia miền giá trị thành miềnmờ cách xácđịnhhàmthuộc (MF - Mebership Function) Chẳng hạn, chia miền giá trị thuộctính độ dài (có giá trị min, max tương ứng chẳng hạn 0km, 200km) thành miềnmờ “gần”, “trung bình”, “xa” Trong lý thuyết tập mờ, miềnmờ coi tập mờ ứng với hàmthuộc nhằm xácđịnh độ “thuộc” giá trị biến vào tập mờ cho Khi đó, giá trị thuộctính CSDL ứng với tập giá trị hàmthuộc ứng với với tập mờthuộctính ta xử lý tập giá trị độ thuộc thay cho xử lý thân giá trị CSDL Và từ CSDL ban đầu với nhiều giá trị số, ta nhận CSDL mờ (FB - Fuzzy Dase) để tiến hành xâydựngluật quan tâm Hệ luật nhận gọi RB (Rule Base) Kếthợp FB RB cho ta Hệ tri thức (KB – Knowledge Base) Các thuật toán trích rút luậtmờ hay hệ luậtmờ gần thông thường phát triển giải thuật di truyền (GA - Genetic Algorithm) hay khái quát giải thuật tiến hóa (EA - Evolutionary Alg) chúng phù hợp với tính tối ưu đa mục tiêu toán đặt phải đưa hệ luậtmờ vừa có độ xác cao vừa đơn giản mức người sử dụng chấp nhận (ít luật số thuộctính tham gia vào luật) Một điểm chung loại thuật toán trước tiên phải có bước tạo FB Giai đoạn trước nghiên cứu, thường người ta để ý đến việc tạo FB tốt cách có sở, công nhận có FB sinh theo cách quan tâm đến việc xâydựng thuật toán sinh RB Gần đây, người ta nhận thấy, xâydựng FB tốt sở để có thuật toán tốt bước sau, bước xâydựng RB Thí dụ, miềnxácđịnhthuộctính tuổi [0,120], máy móc chia làm miền ứng với tập mờ “trẻ”, “trung niên” “già” rõ ràng tập mờ “già” chẳng hạn ứng với người khoảng tuổi [80,120], ta khaiphá liệu tập nhân quan đó, khái niệm “già” thuộc người tuổi nhiều (trong khoảng 55 đến tuổi hưu) Vì vậy, việc xâydựng tập mờmiềnxácđịnhthuộctính phụ thuộc vào toán cụ thể, liệu cụ thể Đã có nghiên cứu sâu vấn đề xuất thuật toán lý thú xâydựng FB mà cốt lõi tiến hành phân chia miền giá trị thuộctính thành miềnmờ Có thể liệt kê nhóm thuật toán sau: Phân chia cách ngẫu nhiên: Trong phương pháp này, ta chọn số cố địnhmiền cần chia (thông thường lấy số 3, tức phân làm miền mờ) chia thuộctính thành vùng Phương pháp đơn giản có lẽ tốt ta thông tin khác, hiển nhiên không đáp ứng tính đa dạng liệu.([7]) Phân chia theo liệu (data driven): - Phân chia theo phương pháp phân cụm (học không mẫu): Trong phương pháp này, liệu phân thành cụm vào độ gần gũi theo tiêu chuẩn chúng Thuật toán biết đến nhiều hướng phân cụm (clustering – học không mẫu) k - mean Cũng thông thường, số cụm chọn cố định trước, Chỉ khác phương pháp trước ta không chia miềnxácđịnhthuộctính mà vào phân bố cụ thể số liệu Phương pháp tính đến đa dạng việc phân bố liệu đòi hỏi phải tiến hành chạy thuật toán tốn nhiều thời gian - Phân chia theo tiêu chuẩn thống kê: liệu phân miền theo tiêu chuẩn thống kê student s - test, χ2 Phương pháp loại tínhtoán thường 44 = Counting( k=2 while (F { , , fminsup); , ≠ ) C = Join(F 1); C_k = Prune(C_k); F = Checking(C , D , fminsup); 10 F = F ∪F ; 11 k = k + 1; 12 } 13 GenerateRules(F, ); 14 END Trong thuật toán sử dụng số chương trình sau đây: - Chương trình ( , , ) = ( , , ): hàm thực nhiệm vụ chuyển đổi từ CSDL D ban đầu sang CSDL DF với thuộctính gắn thêm tập mờ giá trị thuộctính ghi T ánh xạ thành giá trị thuộc khoảng [0, 1] thông qua hàmthuộc tập mờ tương ứng với thuộctính - Chương trình = ( , , , ): hàm sinh F tập tất tập phổ biến có lực lượng Các tập thuộctính phổ biến phải có độ hỗ trợ lớn fminsup - Chương trình = ( ): hàm thực việc sinh tập tập thuộctínhmờ ứng cử viên có lực lượng k từ tập tập thuộctínhmờ phổ biến lực lượng k - F Cách kết nối sử dụnghàm Join thể thông qua ngôn ngữ SQL sau: INSERT INTO C SELECT p i , p i , … , p i FROM L p, L q , q i 45 WHERE p i = q i , … , p i ≠ q i = q i , p i < i AND p i o o; Trong đó, p i q i số hiệu thuộctínhmờ thứ j p q, p i o q i o số hiệu thuộctính gốc thuộctínhmờ thứ j p q = - Chương trình ( ): chương trình sử dụngtính chất "mọi tập khác rỗng tập phổ biến tập phổ biến tập chứa tập không phổ biến tập không phổ biến" (downward closure property) để cắt tỉa tập thuộctínhthuộctính phổ biến = - Chương trình duyệt qua CSDL có tập lực lượng k - không thuộc tập tập ( , , ): chương trình để cập nhật độ hỗ trợ cho tập thuộctính Sau duyệt xong, Checking chọn tập phổ biến (có độ hỗ trợ lớn fminsup) để đưa vào - Chương trình ( , ): sinh luậtkếthợpmờ tin cậy từ tập tập phổ biến F 3.2 Thuật toán chương trình thử nghiệm Trong mục này, xin trình bày phần thực nghiệm khaipháluậtkếthợp theo cách tiếp cận ĐSGT Phần thực nghiệm tiến hành tập số liệu mẫu mà nhà nghiên cứu sử dụng nghiên cứu Trong phần thực nghiệm, tiến hành hai công đoạn Công đoạn xâydựng tập hàmthuộc (MF) tối ưu thuộctínhđịnh lượng liệu đầu vào Công đoạn tiến hành trích xuất luậtkếthợpmờ sở tập MF xâydựng tối ưu Phần thực nghiệm cho thấy cụ thể công đoạn trình trích xuất luậtkếthợp tiến hành mối liên hệ công đoạn Qua ta thấy rõ việc cần thiết công đoạn trước kia, nói phần mở đầu, người ta chủ yếu ý đến công đoạn 2, công nhận tập MF có sẵn để phân chia miềnxácđịnhthuộctínhđịnh lượng 3.2.1 Thuật toánkhaipháhàmthuộcluậtkếthợp 46 Đề tài thực dự kiến sử dụng cách tiếp cận ĐSGT, cách tiếp cận thay cho lý thuyết tập mờ cổ điển mà tác giả khác sử dụng Có thể tìm hiểu ký ĐSGT [4][6][7][8] Tiếp thu kết nghiên cứu việc xâydựng KB kiểu Mamdani, thuật toán dự kiến loại thuật toán đồng tiến hóa với việc xâydựng RB tiến hành tập mẫu rút gọn Thuật toán dựa tiếp cận ĐSGT mở rộng có nhiều ưu việt so với thuật toán có việc phân chia miềnmờ biểu diễn liệu đơn giản lại gắn chặt ngữ nghĩa từ ngôn ngữ MF Thuật toán: Input: T giao dịch số, tập gồm n item, item gồm m hàng tự ngôn ngữ, đỗ hỗ trợ _ , độ tin cậy _ kích thước quần thể N Output: Tập luậtkếthợpmờ tập hàmthuộc MF Thuật toán: Pha 1: Khaipháhàmthuộc từ CSDL giao dịch T Bước 1: Khởi tạo quần thể gồm N nhiễm sắc thể ngẫu nhiên, cá thể quần thể biểu diễn tập hàmthuộc cho thuộctính Bước 2: Mã hóa hàmthuộc thành chuỗi mã hóa Bước 3: Tínhtoànhàm mục tiêu cho nhiễm sắc thể quần thể sau: Bước 3.1: Mỗi giao dịch thành giá trị số () , với i=1…n, thuộctính , j=1…m biến đổi () () + sau: () + + để biểu diễn tập hàmthuộc nhiễm sắc thể Với vùng mờ thứ k item , ( ) item , l số miềnmờ Bước 3.2: Tínhtoán giá trị miền mờ: =∑ () : () giá trị hàmthuộc thứ j 47 Bước 3.3: Mỗi miềnmờ ,1≤ ≤ so với ngước độ hỗ trợ tối thiểu Nếu ,1≤ ≤ , kiểm tra giá trị thỏa mãn điều kiện đưa vào tập lớn1 - itemset (L1) = | ≥ ,1≤ ≤ , 1≤ ≤ Bước 3.4: Giá trị mục tiêu nhiễm sắc thể tính theo công thức sau: = ∑ ∈ _ ( ) Bước 4: Thực phép lai tạo quần thể Bước 5: Thực phép đột biến quần thể Bước 6: Sử dụng phép chọn lọc theo điều kiện để chọn cá thể quần thể để tạo hệ Bước 7: Nếu điều kiện dừng chưa thỏa mãn quay lại Bước 3, ngược lại thực bước Bước 8: Hàmthuộc lựa chọn từ cá thể có giá trị hàm mục tiêu lớn quần thể Pha 2: Các phương pháp khaipháluậtkếthợpmờ Sử dụng thuật toánkhaipháluậtkêthợpmờ trình bày phần 3.1.3 để khaipháluậtkếthợpmờ từ CSDL mờ 3.2.2 Một số kết thử nghiệm Dữ liệu thử nghiệm lấy từ CSDL FAM95[18], số liệu điều tra dân số Mỹ năm 1995 Chúng lựa chọn 10 thuộctính để thử nghiệm gồm: AGE, FAMPERS, NUMKIDS, HOURS, INCHEAD, INCFAM, TAXINC, FTAX, FINALWGT, MARCHWGT Với AGE tuổi người dân, FAMPERS: Số thành viên gia đình, NUMKIDS: số gia đình, HOURS số làm việc tuần, INCHEAD: thu nhập người đứng đầu gia đình, INCFAM: thu nhập gia 48 đình, TAXINC: thu nhập chịu thuế người đứng đầu gia đình, FTAX: thuế liên bang cho người đứng đầu,…Số lượng ghi 63565 Bảng 6: Cở sở liệu giao dịch gồm 10 ghi AGE FAMPERS NUMKIDS HOURS INCHEAD INCFAM TAXINC FTAX FINALWGT MARCHWGT 40 40 41344 49158 21643 3246 65809 58387 35 31700 36960 18987 2848 64020 58387 62 0 27648 27648 21398 3209 51277 53353 59 40 24691 24691 18441 2766 51116 51338 56 40 31025 50050 37699 5654 60192 55785 71 0 7549 14869 0 54845 54960 40 46 14052 38044 20559 3083 111975 110540 69 0 15874 15874 3874 581 105292 102395 34 48 27507 27507 21257 3188 118998 117408 38 40 23025 36410 19207 2881 114615 112468 49 60 15000 43000 31120 4668 203241 194246 Từ CSDL giao dịch Bảng 6, chuẩn hóa đoạn [0,1] ta thu CSDL giao dịch Bảng Bảng 7: Cở sử liệu giao dịch sau chuẩn hóa đoạn [0,1] AGE FAMPERS NUMKIDS HOURS INCHEAD INCFAM TAXINC FTAX FINALWGT MARCHWGT 0.375 0.214 0.222 0.404 0.167 0.074 0.216 0.032 0.044 0.042 0.312 0.143 0.111 0.14 0.064 0.19 0.028 0.043 0.042 0.65 0 0.129 0.056 0.214 0.032 0.034 0.038 0.613 0 0.404 0.121 0.053 0.184 0.028 0.034 0.037 0.575 0.071 0.404 0.139 0.075 0.377 0.057 0.04 0.04 0.762 0.071 0 0.075 0.045 0 0.037 0.039 0.375 0.214 0.222 0.465 0.093 0.065 0.206 0.031 0.075 0.082 0.738 0 0.097 0.046 0.039 0.006 0.071 0.076 0.3 0 0.485 0.129 0.056 0.213 0.032 0.08 0.088 0.35 0.214 0.222 0.404 0.117 0.063 0.192 0.029 0.077 0.084 0.375 0.214 0.222 0.404 0.167 0.074 0.216 0.032 0.044 0.042 Để thử nghiệm phương pháp, thực phân chia thành miềnmờ cho thuộctính với hàmthuộc hình tam giác Chúng sử dụng cách xâydựnghàmthuộc dựa vào giá trị ĐLNN trình bày 2.1.2 Ví dụ xem Hình 3.2 49 Hình 3.2: Hàmthuộc ộc cho thuộctính Age với α=β=0.5, fm(N)=fm(P)= fm(N)=fm(P)=w=0.5 Trong đề tài này, sử s dụng ĐSGT gồm phần tử sinh Negative (N) Positive (P), hai gia tử g gồm: Very (V), Little (L) Vớii fm(P) +fm(N) = 1, ( ) + ( ) = (α = ( ), β = 1- α, w =fm(P)) Để xâydựnghàm àm thuộc thu tối ưu, sử dụnggiải thuật di truyền với cách thức mãã hóa Gen cách xâydựng d hàm mục tiêu trình ình bày trong 2.2 Cấu trúc Gen mãã hóa nh Hình 3.3, với α1, α10 tham ssố α ĐSGT, w1, ,w10 tham số ố w ĐSGT l tương ứng với 10 thuộctính CSDL giao dịch α1 α2 … α10 w1 w2 … w10 Hình 3.3: Cấu trúc Gen cho 10 thuộctínhCác tham số ố sử dụnggiải thuật di truyền gồm: gồm 50 cá thể, ể, 10000 hệ, 30 bít cho Gen, tỷ lệ lai tạo ạo llà 0.6, tỷ lệ đột biến 0.01 Bảng tham số ố ĐSGT khởi tạo dựa vào kinh nghiệm ệm Bảng 8: Các tham số s ĐSGT thiết lập dựa vào kinh nghi nghiệm STT Thuộc ộc tính AGE FAMPERS NUMKIDS HOURS INCHEAD α 0.5 0.5 0.5 0.5 0.5 β 0.5 0.5 0.5 0.5 0.5 fm(C-) = W 0.5 0.5 0.5 0.5 0.5 fm(C+) 0.5 0.5 0.5 0.5 0.5 50 10 INCFAM TAXINC FTAX FINALWGT MARCHWGT 0.5 0.5 0.5 0.5 0.5 0.5 0.5 0.5 0.5 0.5 0.5 0.5 0.5 0.5 0.5 0.5 0.5 0.5 0.5 0.5 Hình ảnh hàmthuộc với tham số ĐSGT cho Bảng 51 Hình 3.4: Cáchàmthuộc với tham số không tối ưu Sau chạy GA với độ hỗ trợ 20%, thu tham số đại số gia tử bảng Bảng Bảng 9: Các tham số ĐSGT sau thực tối ưu STT 10 Thuộctính AGE FAMPERS NUMKIDS HOURS INCHEAD INCFAM TAXINC FTAX FINALWGT MARCHWGT α 0.481 0.561 0.552 0.574 0.545 0.548 0.592 0.587 0.58 0.524 β 0.519 0.439 0.448 0.426 0.455 0.452 0.408 0.413 0.42 0.476 fm(C-) = W 0.581 0.423 0.449 0.447 0.432 0.442 0.448 0.415 0.53 0.43 fm(C+) 0.419 0.577 0.551 0.553 0.568 0.558 0.552 0.585 0.47 0.57 52 Hình ảnh hàmthuộc với tham số ĐSGT tối ưu cách sử dụnggiải thuật di truyền Bảng 53 Hình 3.4: Cáchàmthuộc sau tối ưu Bảng 10 so sánh kết phương pháp sử dụng ĐSGT với phương pháp nhóm nghiên cứu Herrera, Hong cộng sự, Phân hoạch Kết cho thấy phương pháp sử dụng ĐSGT với độ hỗ trợ 20% cho kết với kết nhóm Herrera, Hong Uniform Fuzzy Partition Bảng 10: Số lượng 1-Itemset thu với tham số sau chạy GA Support % 20 50 70 90 ĐSGT 22 10 Herrera 22 15 10 Hong et al’s 22 12 Phân hoạch 21 Số lượng tập lớn 1-Itemsete 54 25 20 15 10 20% 50% 70% 90% Min support The Proposed Approach Hong Phân hoạch Hình 3.5: Biểu đồ quan hệ tập lớn 1-itemsets minimum support Sử dụng thuật toán Apriori mờ với độ hỗ trợ 70% độ tin cậy 90% thu luật Bảng 11 55 Bảng 11: Một số luật thu sử dụnghàmthuộc hình 3.5 Luật STT Độ hỗ trợ Độ tin NếuINCFAM_VNthìINCHEAD_VN 73% 92% NếuINCHEAD_VNthìINCFAM_VN 73% 96% NếuINCHEAD_VNthìFINALWGT_VN 71% 92% NếuINCHEAD_VN thìMARCHWGT_VN 70% 92% NếuINCFAM_VNthìFINALWGT_VN 73% 92% NếuINCFAM_VNthìMARCHWGT_VN 73% 92% NếuMARCHWGT_VNthìFINALWGT_VN 82% 98% NếuFINALWGT_VNthìMARCHWGT_VN 82% 97% 72% 99% 72% 98% NếuINCFAM_VNvàMARCHWGT_VNthìFINALW GT_VN 10 NếuINCFAM_VNvàFINALWGT_VNthìMARCHW GT_VN Với: VN Very Negative, INCFAM_VN dịch là: Thu nhập gia đình Rất thấp, INCHEAD_VN dịch là: Thu nhập chủ gia đình Rất thấp Với luật hiểu: Nếu Thu nhập gia đình Rất thấp Thu nhập chủ gia đình Rất thấpvới độ hỗ trợ 73% độ tin cậy 92% 56 KÊT LUẬN Phương pháp nghiên cứu Tìm hiểu lý thuyết tập mờ, dạng tập mờ, tìm hiểu cách biểu diễn tập giá trị chân lý ngôn ngữ cho tập mờ Tìm hiểu mối quan hệ dạng biểu diễn tập mờ với hàmđịnh lượng ngữ nghĩa đại số gia tử, tìm hiểu cách thức chuyển đổi giá trị chân lý ngôn ngữ thành giá trị số Phân tích, đối sánh, liệt kê, nghiên cứutàiliệu, tổng hợpkết nhà nghiên cứuliên quan đếnlĩnh vực nghiên cứu Ý nghĩa khoa học Bàitoán phân chia miềnxácđịnhthuộctính nói chung đóng vai trò quan trọng trình khaiphá liệu có ý nghĩa ứng dụng rộng lớn, đặc biệt loại toán liên quan đếnthông tin mờ người thường định thông qua thông tin mờ ngôn ngữ Cho đến phương pháp giảitoán chủ yếu dựa tập mờ nhiều hạn chế Giảitoán phân chia miềnxácđịnhthuộctính dựa liệu sử dụngkết công nghệ tínhtoán mềm mang lại cho ta thuật toán tương đối đơn giảnnhưng hữu hiệu việc xâydựng CSDL mờ - FB 57 TÀI LIỆU THAM KHẢO Tiếng Việt [1] Ha Quang Thụy, Phan Xuân Hiếu, Đoan Sơn, Nguyễn Trí Thanh, Nguyễn Thu Trang, Nguyễn Cẩm Tú, Giáo trinh khaiphá liệu Web, Nhà xuất giáo dục Việt Nam, 2009 [2] Nguyễn Thanh Thủy, Khaiphá liệu, Nhà xuất Kỹ thuật va ứng dụng, 2001 [3] Trần Thái Sơn, Đỗ Nam Tiến, Phạm Đình Phong, Luậtkếthợp theo cách tiếp cận Đại số gia tử, Tạp chí Tin học Điều khiển học, 27(4), 2011 Tiếng Anh [4] Rakesh Agrawal, Tomasz Imielinski, and Arun Swami Mining association rules between sets of items in large databases In Proc of theACM SIGMOD Conference on Management of Data, pages 207 - 216, Washington, D.C., May 1993 [5] Attila Gyenesei A Fuzzy Approach for Mining Quantitative Association Rules Turku Centre for Computer Science, TUCS Technical Reports, No 336, March 2000 [6] Nguyen Cat Ho, Tran Thai Son, Tran Dinh Khang, Le Xuan Viet, Fuzziness Measure, Quantified Semantic Mapping And Interpolative Method of Approximate Reasoning in Medical Expert Systems, J.of Computer Science and Cybernetic, T.18(3)(2002), 237 - 252 [7] J Alcala - Fdez, R Alcala, M.J Gacto, F Herrera, Learning the membership function contexts for mining fuzzy association rules by using genetic algorithms, Fuzzy Sets Syst 160 (7) (2009) 905–921 [8] C Chen, T Hong, Vincent S T and L Chen, Multi - objective genetic - fuzzy data mining.International Journal of Innovative Computing, Information and Control.Volume 8, Number 10(A), October 2012 [9] P.Pulkkinen and H.Koivisto A Dynamically Constrained Multiobjective Genetic Fuzzy System forRegression Problems IEEE Trans.on Fuzzy Systems vol 18 No1,161 - 177, 2010 58 [10] L.A.Zadeh, The concept of linguistic variable and its application to approximate reasoning Inform Sci (I) (1975) 199-249; (II) (1975) 310-357; (III) (1975) 4380 [11] Jiawei Han and Micheline Kamber, Data Mining: Concepts and Techniques, University of Illinois, Morgan Kaufmann, 2006 [12] Ramakrishnan Srikant and Rakesh Agrawal Mining Quantitative Association Rules in Large Relational Tables IBM Almaden Research Center, San Jose, CA 95120 [13] R J Miller and Y Yang Association Rules over Interval Data Department of Computer & Information Science, Ohio State University, USA [14] J.Alcala - Fdes, R Alcala and F.Herrera (2011) A Fuzzy Association Rule Based Classification Model for High - Dimentional problems with Genetic Rule Selection and lateral Tuning IEEE Tran on Fuzzy Systems vol 19, No5,857 - 872 [15] Tanaka, H, Uejima, S, and Asia, K (1982) Linear regression analiysis with Fuzzy model IEEE Trans Systems.Man.Cybernet.,12, 903 - 07 [16] M Antonelli, P Ducange, F Marcelloni (2012) Genetic Training Instance Selection in Multiobjective Evolutionary Fuzzy Systems: A coevolutionary Approach IEEE Trans on Fuzzy Systems, vol20, No2, 276 - 290 [17] T Hong, C Chen, Y Wu, Y Lee, A ga-based fuzzy mining approach to achieve a trade-off between number of rules and suitability of membership functions, Soft Computing 10 (11) (2006) 1091–1101 [18] Cơ sở liệu thử nghiệm FAM95 http: //kdm.first.flinders.edu.au/IDM/data.html Thái Nguyên, ngày …tháng… Năm 2016 Xác nhận giáo viên hướng dẫn TS Trần Thái Sơn Lê Minh Hiệp Học viên [...]... driven - mục 2 nêu trên) , sử dụngcác công cụ mới nhất của công nghệ tínhtoán mềm và trên cơ sở FB tối ưu này tiến hành khaiphá thử nghiệm cácluậtkếthợp từ một CSDL cho trước Được sự đồng ý của trường Đại học Công nghệ thông tin và Truyền thông với sự hướng dẫn của Thầy giáo em thực hiện đề tài: Xâydựngcáchàmthuộctrênmiềnxácđịnhthuộctínhmờgiải bài toánkhaipháluậtkếthợp làm đề tài... đầu Tuy nhiên trong giải thuật di truyền thì ta luôn muốn tạo ra những phép đột biến cho phép cải thiện lời giải qua từng thế hệ 27 CHƯƠNG 2 XÁCĐỊNHCÁCHÀMTHUỘCTRÊNMIỀNXÁCĐỊNHTHUỘCTÍNHMỜ 2.1 Phương pháp giảibàitoán phân chia miềnxácđịnhthuộctính 2.1.1 Một số phương pháp phân chia miềnmờ Phân chia một cách ngẫu nhiên: Trong phương pháp này, ta chọn một số cố địnhcácmiền cần chia (thông... để xácđịnhcác tập mờtrênmiềnxácđịnh của cácthuộc tính, trên cơ sở đó, tiến hành phần sau là giảibàitoán đặt ra Để dễ hình dung, phần tiếp theo chúng tôi xin trình bày 2 trong số cácbàitoán thường gặp và được tập trung nghiên cứu nhiều trong thời gian gần đây: bàitoánxâydựng hệ luậtmờ (Mamdani) MFRBS dùng cho phân loại tự động, hồi quy và bàitoán trích xuất luậtkếthợp Trong cả hai bài. .. hiệu tập tất cả các tập phổ biến lớn nhất là MFI Dễ thấy MFI ⊆ FCI ⊆ FI Khai pháluậtkếthợp là công việc phát hiện ra (tìm ra, khám phá, phát hiện) cácluậtkếthợp thỏa mãn các ngưỡng độ hỗ trợ (δ) và ngưỡng độ tin cậy (α) cho trước Bài toánkhaipháluậtkếthợp được chia thành hai bàitoán nhỏ, hay như người ta thường nói, việc giảibàitoán trải qua hai pha: 21 Pha 1: Tìm tất cả các tập phổ biến... khaiphá dữ liệu Các công cụ công nghệ tínhtoán mềm, đặc biệt là lý thuyết tập mờ và đại số gia tử (ĐSGT) cũng được nghiên cứu như là công cụ để giảibàitoán đặt ra 3 Hướng nghiên cứu của đề tài Luận văn nghiên cứu các phương pháp giảibàitoán phân lớp miềnxácđịnhthuộctính của các tác giả trong nước cũng như trên thế giới, ưu, khuyết điểm của các phương phápđã có vànghiên cứu cách giảibài toán. .. B, C, G Khai pháluậtkếthợp được mô tả như sự tương quan của các sự kiện những sự kiện xuất hiện thường xuyên một các đồng thời Nhiệm vụ chính của khaipháluậtkếthợp là phát hiện ra các tập con cùng xuất hiện trong một khối lượng giao dịch lớn của một cơ sở dữ liệu cho trước Nói cách khác, thuật toán khai pháluậtkếthợp cho phép tạo ra cácluậtmô tả các sự kiện xảy ra đồng thời (một cách thường... khoảng tínhmờ liên tiếp hoặc trùng với một giá trị ĐLNN của một khoảng tínhmờ do tính chất tạo nên phân hoạch miềnxácđịnh của các khoảng tínhmờ Như vậy, khoảng cách giữa giá trị xij đó tới 2 giá trị ĐLNN có thể dùng để tính độ thuộc của xij vào các tập mờ được biểu diễn bởi các khoảng tínhmờ đó (trường hợp trùng với 1 giá trị ĐLNN thì chỉ có 1 độ 29 thuộc) : khoảng cách càng nhỏ thì độ thuộc càng... Một cách xâydựnghàmthuộc khác từ các giá trị ĐLNN, cụ thể là dựngcác tam giác là biểu diễn cáchàmthuộc của tập mờ với 1 đỉnh có tọa độ (υ(xi),1), hai đỉnh còn lại nằm trênmiềnxác định, có tọa độ tương ứng là (υ(xi-1),0), (υ(xi+1),0), trong đó υ(xi-1), υ(xi), υ(xi+1) là 3 giá trị ĐLNN liên tiếp (xem Hình 2.1) Hình 2.1: Xâydựnghàmthuộc dựa trên giá trị ĐLNN Có thể thấy về thực chất hai cách xây. .. tập mờ “trẻ”, “khá trẻ”, “trung niên” và “già” 2) Xácđịnhcáchàmthuộc tương ứng với các tập mờ nói trên 3) Chuyển đổi số liệu từ CSDL mẫu thành các giá trị biến ngôn ngữ tương ứng Ví dụ căn cứ vào cáchàmthuộc đã xác định, tuổi 27 có thể chuyển đổi thành “khá trẻ” với độ thuộc 0,8 4) Từ dữ liệu chuyển đổi xácđịnh một tập luật ban đầu, mỗi luật có dạng (1) 5) Tiến hành rút gọn tập luật theo các. .. MF có giá trị nhỏ nhất là β 2.1.2 Phương pháp tiếp cận Đại số gia tử Với một số kết quả liên quan đến khoảng tínhmờ của các phần tử của ĐSGT nêu trong mục trước, ta có thể thấy ngay một cách tính độ thuộc của một giá trị bất kỳ trong CSDL số đã cho vào các tập mờdùng phân chia miềnthuộctính (Với độ dài k xácđịnh trước)Ta thấy, trênmiềnxácđịnh của thuộctính (có thể đã chuẩn hóa về đoạn [0,1], ... LUẬT KẾT HỢP MỜ DỰA TRÊN PHÂN HOẠCH MỜ TỐI ƯU 35 3.1 Bài toán khai phá luật kết hợp mờ 35 3.1.1 Rời rạc hóa thuộc tính dựa vào tập mờ 35 3.1.2 Rời rạc hóa thuộc tính mờ. .. 2.1: Xây dựng hàm thuộc dựa giá trị ĐLNN 29 Hình 2.2: Lược đồ tìm kiếm hàm thuộc khai phá luật kết hợp mờ 30 Hình 2.3: Hàm thuộc cho thuộc tính 31 Hình 2.4: Hàm thuộc cho thuộc. .. Xây dựng hàm thuộc miền xác định thuộc tính mờ giải toán khai phá luật kết hợp làm đề tài luận văn 5 Đối tượng phạm vi nghiên cứu Đối tượng nghiên cứu luận văn sở liệu đầu vào dùng để khai phá