Xây dựng các hàm thuộc trên miền xác định thuộc tính mờ giải bài toán khai phá luật kết hợp

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang	65
Dung lượng	1,15 MB

Nội dung

i MỤC LỤC LỜI CẢM ƠN iii LỜI CAM ĐOAN iv DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT v DANH MỤC BẢNG vi DANH MỤC HÌNH VẼ vii MỞ ĐẦU CHƯƠNG KHAI PHÁ TRI THỨC MỜ 1.1 Khai phá tri thức theo cách tiếp cận lý thuyết tập mờ 1.1.1 Kiến thức sở tập mờ 1.1.2 Khai phá tri thức với thông tin mờ 1.2 Một số kiến thức ĐSGT 1.2.1 Đại số gia tử 1.2.2 Một số tính chất đại số gia tử 11 1.3 Khai phá tri thức từ CSDL với hệ luật mờ 14 1.4 Luật kết hợp mờ 17 1.4.1 Một số khái niệm 17 1.4.2 Thuật toán Apriori 21 1.5 Giải thuật di truyền 23 1.5.1 Khái niệm 23 1.5.2 Các thành phần giải thuật di truyền 23 CHƯƠNG XÁC ĐỊNH CÁC HÀM THUỘC TRÊN MIỀN XÁC ĐỊNH THUỘC TÍNH MỜ 27 2.1 Phương pháp giải toán phân chia miền xác định thuộc tính 27 2.1.1 Một số phương pháp phân chia miền mờ 27 2.1.2 Phương pháp tiếp cận Đại số gia tử 28 ii 2.2 Phương pháp xác định hàm thuộc phân chia miền xác định thuộc tínhmờ dựa liệu 30 2.2.1 Biểu diễn nhiễm sắc thể 30 2.2.2 Hàm tối ưu 32 CHƯƠNG GIẢI BÀI TOÁN KHAI PHÁ LUẬT KẾT HỢP MỜ DỰA TRÊN PHÂN HOẠCH MỜ TỐI ƯU 35 3.1 Bài toán khai phá luật kết hợp mờ 35 3.1.1 Rời rạc hóa thuộc tính dựa vào tập mờ 35 3.1.2 Rời rạc hóa thuộc tính mờ 38 3.1.3 Bài toán khai phá luật kết hợp mờ 40 3.2 Thuật toán chương trình thử nghiệm 45 3.2.1 Thuật toán khai phá hàm thuộc luật kết hợp 45 3.2.2 Một số kết thử nghiệm 47 KÊT LUẬN 56 TÀI LIỆU THAM KHẢO 57 iii LỜI CẢM ƠN Xây dựng hàm thuộc miền xác định thuộc tính mờ giải toán khai phá luật kếthợp vào ý kiến đánh giá chuyên gia theo số tiêu chí cho trước toán thường gặp hoạt động thường xuyên người Có nhiều phương pháp để giải toán xếp mờ theo nhiều hướng tiếp cận khác nhau, hướng tiếp cận có ưu nhược điểm riêng Được đồng ý trường Đại học công nghệ thông tin truyền thồng Thầy giáo hướng dẫn em mạnh dạn nhận đề tài: “Xây dựng hàm thuộc miền xác định thuộc tính mờ giải toán khai phá luật kết hợp” làm đề tài luận văn thạc sỹ Sau thời gian nghiên cứu nghiêm túc hướng dẫn nhiệt tình Thầy giáo hướng dẫn, luận văn em hoàn thành chương chương trình thử nghiệm Em xin gửi lời cảm ơn sâu sắc tới Ts Trần Thái Sơn, người tận tình hướng dẫn suốt trình hoàn thành luận văn.Em xin chân thành cảm ơn gia đình, bạn bè ủng hộ vật chất lẫn tinh thần để em hoàn thành luận văn Xin chân thành cảm ơn! iv LỜI CAM ĐOAN Tên là: Lê Minh Hiệp Sinh ngày 19 tháng 07 năm 1987 Học viên cao học lớp: CK13A - Trường Đại học Công nghệ thông tin Truyền thông – Đại học Thái Nguyên Xin cam đoan: Đề tài “Xây dựng hàm thuộc miền xác định thuộc tính mờ giải toán khai phá luật kết hợp” Ts.Trần Thái Sơnhướng dẫn công trình nghiên cứu riêng Tất tài liệu tham khảo có nguồn gốc, xuất xứ rõ ràng Tôi xin cam đoan tất nội dung luận văn nội dung đề cương yêu cầu thầy giáo hướng dẫn Nếu sai xin hoàn toàn chịu trách nhiệm trước Hội đồng khoa học trước pháp luật Thái Nguyên, ngày .tháng .năm 2016 Tác giả luận văn Lê Minh Hiệp v DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT Các kí hiệu α Tổng độ đo tính mờ gia tử âm β Tổng độ tính mờ gia tử dương AX, AT Đại số gia tử AX Đại số gia tử tuyến tính đầy đủ W Phần tử trung hòa đại số gia tử Các chữ viết tắt FB Fuzzy Base RB Rule Base KB Knowledge base MF Membership Function CSDL Cơ sở liệu KPDL Khai phá liệu ĐSGT Đại số gia tử ĐLNN Định lượng ngữ nghĩa GA Giải thuật di truyền MFRBS Mamdani Fuzzy Rule - Base System vi DANH MỤC BẢNG Bảng 1: Cơ sở liệu giao tác 17 Bảng 2: CSDL thống kế dân số 10 gia đình 36 Bảng 3: Rời rạc hóa thuộc tính số rời rạc hữu hạn thuộc tính hạng mục 36 Bảng 4: Rời rạc hóa thuộc tính số "Tuổi" 37 Bảng 5: Bảng ký hiệu sử dụng thuật toán khai phá luật kết hợp mờ 43 Bảng 6: Cở sở liệu giao dịch gồm 10 ghi 48 Bảng 7: Cở sử liệu giao dịch sau chuẩn hóa đoạn [0,1] 48 Bảng 8: Các tham số ĐSGT thiết lập dựa vào kinh nghiệm 49 Bảng 9: Các tham số ĐSGT sau thực tối ưu 51 Bảng 10: Số lượng 1-Itemset thu với tham số sau chạy GA 53 Bảng 11: Một số luật thu sử dụng hàm thuộc hình 3.5 55 vii DANH MỤC HÌNH VẼ Hình 2.1: Xây dựng hàm thuộc dựa giá trị ĐLNN 29 Hình 2.2: Lược đồ tìm kiếm hàm thuộc khai phá luật kết hợp mờ 30 Hình 2.3: Hàm thuộc cho thuộc tính 31 Hình 2.4: Hàm thuộc cho thuộc tính Milk 31 Hình 2.5: Biểu diễn nhiễm sắc thể cho tập hàm thuộc Hình 2.3 32 Hình 2.6: Hai hàm thuộc không hợp lý 34 Hình 3.1: Hàm thuộc tập mờ "Tuổi_trẻ", "Tuổi_trung_niên", "Tuổi_già" 38 Hình 3.2: Hàm thuộc cho thuộc tính Age với α=β=0.5, fm(N)=fm(P)=w=0.5 49 Hình 3.3: Cấu trúc Gen cho 10 thuộc tính 49 Hình 3.4:Các hàm thuộc với tham số không tối ưu .51 Hình 3.5: Các hàm thuộc sau tối ưu 53 Hình 3.6: Biểu đồ quan hệ tập lớn 1-itemsets minimum support 54 MỞ ĐẦU Đặt vấn đề Lĩnh vực nghiên cứu khai phá tri thức nói chung ứng dụng việc giải toán trích xuất luật kết hợp mờvà xây dựng hệ luật mờ điều khiển nói riêng phát triển mạnh mẽ Nếu trước kết nghiên cứu dựa tảng khoa học cổ điển, lô gic xác tại, việc nghiên cứu phải dựa công nghệ mới, mang đặc tính mềm dẻo, có khả tương tác với người tốt lĩnh vực khai phá tri thức lĩnh vực liên quan chặt chẽ đến suy nghĩ, lập luận người Ta thấy, lập luận, người thường dùng khái niệm không đo đếm xác, phổ biến từ ngôn ngữ tự nhiên, “xa”, “gần”, “giỏi”, “rất khá” Nếu muốn mô lập luận người, đòi hỏi phải có phương pháp khác với phương pháp cổ điển có.Khái niệm công nghệ tính toán mềm đời, với tư tưởng đưa nghiên cứu tảng công cụ hữu ích giúp xử lý cách mềm dẻo nhiều vấn đề khoa học theo triết lý gần với lập luận người Dựa công nghệ tính toán mềm, nhiều thuật toán tiếp tục nghiên cứu đề xuất liên quan đến lĩnh vực khai phá liệu Để giải vấn đề, việc sử dụng kinh nghiệm chuyên gia lĩnh vực quan tâm rõ ràng không đủ lí thời gian, khả biểu diễn tri thức thân dạng dễ cho chuyên gia khác hiểu, xử lí Do xuất nhu cầu khai phá tri thức cách tự động nhờ thuật toán từ kho thông tin lớn có khắp nơi Về tổng thể, toán đặt cho trước Cơ sở liệu (thường CSDL số, tức giá trị CSDL số thực), từ đó, phương pháp xử lý định, rút hệ tri thức phản ánh quy luật ngầm chứa CSDL số Các quy luật biểu diễn dạng luật kết hợp X ->Y, X,Y tập thuộc tính (không giao nhau) CSDL thỏa mãn điều kiện XY xuất với tần số đủ lớn CSDL (tức độ hỗ trợ luật lớn ngưỡng xác định để đảm bảo luật có ý nghĩa) điều kiện có X (tức giá trị CSDL hàng thuộc X) hàng có Y sảy với tần suất đủ cao (có độ tin cậy vượt ngưỡng) ví dụ luật “Nếu Sinh viên A chăm khỏe mạnh có tư Thì kết học tập khá” Hoặc tri thức biểu diễn dạng mộthệ luật dạng IF X is A and Y is B THEN Z is C, X, Y, Z biến mờ (thường biến ngôn ngữ), A, B, C giá trị biến ngôn ngữ (thường tập mờ) Thí dụ luật IF đường xa tốc độ di chuyển trung bình THEN thời gian đến đích lâu Để sinh luật vậy, ta phải chuyển hóa miền giá trị thuộc tính định tính “khoảng cách”, “tốc độ”, “thời gian” thành miền mờ, hay nói cách khác chia miền giá trị thành miền mờ cách xác định hàm thuộc (MF - Mebership Function) Chẳng hạn, chia miền giá trị thuộc tính độ dài (có giá trị min, max tương ứng chẳng hạn 0km, 200km) thành miền mờ “gần”, “trung bình”, “xa” Trong lý thuyết tập mờ, miền mờ coi tập mờ ứng với hàm thuộc nhằm xác định độ “thuộc” giá trị biến vào tập mờ cho Khi đó, giá trị thuộc tính CSDL ứng với tập giá trị hàm thuộc ứng với với tập mờ thuộc tính ta xử lý tập giá trị độ thuộc thay cho xử lý thân giá trị CSDL Và từ CSDL ban đầu với nhiều giá trị số, ta nhận CSDL mờ (FB - Fuzzy Dase) để tiến hành xây dựng luật quan tâm Hệ luật nhận gọi RB (Rule Base) Kết hợp FB RB cho ta Hệ tri thức (KB – Knowledge Base) Các thuật toán trích rút luật mờ hay hệ luật mờ gần thông thường phát triển giải thuật di truyền (GA - Genetic Algorithm) hay khái quát giải thuật tiến hóa (EA - Evolutionary Alg) chúng phù hợp với tính tối ưu đa mục tiêu toán đặt phải đưa hệ luật mờ vừa có độ xác cao vừa đơn giản mức người sử dụng chấp nhận (ít luật số thuộc tính tham gia vào luật) Một điểm chung loại thuật toán trước tiên phải có bước tạo FB Giai đoạn trước nghiên cứu, thường người ta để ý đến việc tạo FB tốt cách có sở, công nhận có FB sinh theo cách quan tâm đến việc xây dựng thuật toán sinh RB Gần đây, người ta nhận thấy, xây dựng FB tốt sở để có thuật toán tốt bước sau, bước xây dựng RB Thí dụ, miền xác định thuộc tính tuổi [0,120], máy móc chia làm miền ứng với tập mờ “trẻ”, “trung niên” “già” rõ ràng tập mờ “già” chẳng hạn ứng với người khoảng tuổi [80,120], ta khai phá liệu tập nhân quan đó, khái niệm “già” thuộc người tuổi nhiều (trong khoảng 55 đến tuổi hưu) Vì vậy, việc xây dựng tập mờ miền xác định thuộc tính phụ thuộc vào toán cụ thể, liệu cụ thể Đã có nghiên cứu sâu vấn đề xuất thuật toán lý thú xây dựng FB mà cốt lõi tiến hành phân chia miền giá trị thuộc tính thành miền mờ Có thể liệt kê nhóm thuật toán sau: Phân chia cách ngẫu nhiên: Trong phương pháp này, ta chọn số cố định miền cần chia (thông thường lấy số 3, tức phân làm miền mờ) chia thuộc tính thành vùng Phương pháp đơn giản có lẽ tốt ta thông tin khác, hiển nhiên không đáp ứng tính đa dạng liệu.([7]) Phân chia theo liệu (data driven): - Phân chia theo phương pháp phân cụm (học không mẫu): Trong phương pháp này, liệu phân thành cụm vào độ gần gũi theo tiêu chuẩn chúng Thuật toán biết đến nhiều hướng phân cụm (clustering – học không mẫu) k - mean Cũng thông thường, số cụm chọn cố định trước, Chỉ khác phương pháp trước ta không chia miền xác định thuộc tính mà vào phân bố cụ thể số liệu Phương pháp tính đến đa dạng việc phân bố liệu đòi hỏi phải tiến hành chạy thuật toán tốn nhiều thời gian - Phân chia theo tiêu chuẩn thống kê: liệu phân miền theo tiêu chuẩn thống kê student s - test, χ2 Phương pháp loại tính toán thường 44 = Counting( k=2 while (F { , , fminsup); , ≠ ) C = Join(F 1); C_k = Prune(C_k); F = Checking(C , D , fminsup); 10 F = F ∪F ; 11 k = k + 1; 12 } 13 GenerateRules(F, ); 14 END Trong thuật toán sử dụng số chương trình sau đây: - Chương trình ( , , ) = ( , , ): hàm thực nhiệm vụ chuyển đổi từ CSDL D ban đầu sang CSDL DF với thuộc tính gắn thêm tập mờ giá trị thuộc tính ghi T ánh xạ thành giá trị thuộc khoảng [0, 1] thông qua hàm thuộc tập mờ tương ứng với thuộc tính - Chương trình = ( , , , ): hàm sinh F tập tất tập phổ biến có lực lượng Các tập thuộc tính phổ biến phải có độ hỗ trợ lớn fminsup - Chương trình = ( ): hàm thực việc sinh tập tập thuộc tính mờ ứng cử viên có lực lượng k từ tập tập thuộc tính mờ phổ biến lực lượng k - F Cách kết nối sử dụng hàm Join thể thông qua ngôn ngữ SQL sau: INSERT INTO C SELECT p i , p i , … , p i FROM L p, L q , q i 45 WHERE p i = q i , … , p i ≠ q i = q i , p i < i AND p i o o; Trong đó, p i q i số hiệu thuộc tính mờ thứ j p q, p i o q i o số hiệu thuộc tính gốc thuộc tính mờ thứ j p q = - Chương trình ( ): chương trình sử dụng tính chất "mọi tập khác rỗng tập phổ biến tập phổ biến tập chứa tập không phổ biến tập không phổ biến" (downward closure property) để cắt tỉa tập thuộc tính thuộc tính phổ biến = - Chương trình duyệt qua CSDL có tập lực lượng k - không thuộc tập tập ( , , ): chương trình để cập nhật độ hỗ trợ cho tập thuộc tính Sau duyệt xong, Checking chọn tập phổ biến (có độ hỗ trợ lớn fminsup) để đưa vào - Chương trình ( , ): sinh luật kết hợp mờ tin cậy từ tập tập phổ biến F 3.2 Thuật toán chương trình thử nghiệm Trong mục này, xin trình bày phần thực nghiệm khai phá luật kết hợp theo cách tiếp cận ĐSGT Phần thực nghiệm tiến hành tập số liệu mẫu mà nhà nghiên cứu sử dụng nghiên cứu Trong phần thực nghiệm, tiến hành hai công đoạn Công đoạn xây dựng tập hàm thuộc (MF) tối ưu thuộc tính định lượng liệu đầu vào Công đoạn tiến hành trích xuất luật kết hợp mờ sở tập MF xây dựng tối ưu Phần thực nghiệm cho thấy cụ thể công đoạn trình trích xuất luật kết hợp tiến hành mối liên hệ công đoạn Qua ta thấy rõ việc cần thiết công đoạn trước kia, nói phần mở đầu, người ta chủ yếu ý đến công đoạn 2, công nhận tập MF có sẵn để phân chia miền xác định thuộc tính định lượng 3.2.1 Thuật toán khai phá hàm thuộc luật kết hợp 46 Đề tài thực dự kiến sử dụng cách tiếp cận ĐSGT, cách tiếp cận thay cho lý thuyết tập mờ cổ điển mà tác giả khác sử dụng Có thể tìm hiểu ký ĐSGT [4][6][7][8] Tiếp thu kết nghiên cứu việc xây dựng KB kiểu Mamdani, thuật toán dự kiến loại thuật toán đồng tiến hóa với việc xây dựng RB tiến hành tập mẫu rút gọn Thuật toán dựa tiếp cận ĐSGT mở rộng có nhiều ưu việt so với thuật toán có việc phân chia miền mờ biểu diễn liệu đơn giản lại gắn chặt ngữ nghĩa từ ngôn ngữ MF Thuật toán: Input: T giao dịch số, tập gồm n item, item gồm m hàng tự ngôn ngữ, đỗ hỗ trợ _ , độ tin cậy _ kích thước quần thể N Output: Tập luật kết hợp mờ tập hàm thuộc MF Thuật toán: Pha 1: Khai phá hàm thuộc từ CSDL giao dịch T Bước 1: Khởi tạo quần thể gồm N nhiễm sắc thể ngẫu nhiên, cá thể quần thể biểu diễn tập hàm thuộc cho thuộc tính Bước 2: Mã hóa hàm thuộc thành chuỗi mã hóa Bước 3: Tính toàn hàm mục tiêu cho nhiễm sắc thể quần thể sau: Bước 3.1: Mỗi giao dịch thành giá trị số () , với i=1…n, thuộc tính , j=1…m biến đổi () () + sau: () + + để biểu diễn tập hàm thuộc nhiễm sắc thể Với vùng mờ thứ k item , ( ) item , l số miền mờ Bước 3.2: Tính toán giá trị miền mờ:  =∑ () : () giá trị hàm thuộc thứ j 47 Bước 3.3: Mỗi miền mờ ,1≤ ≤ so với ngước độ hỗ trợ tối thiểu Nếu ,1≤ ≤ , kiểm tra giá trị thỏa mãn điều kiện đưa vào tập lớn1 - itemset (L1) = | ≥ ,1≤ ≤ , 1≤ ≤ Bước 3.4: Giá trị mục tiêu nhiễm sắc thể tính theo công thức sau: = ∑ ∈ _ ( ) Bước 4: Thực phép lai tạo quần thể Bước 5: Thực phép đột biến quần thể Bước 6: Sử dụng phép chọn lọc theo điều kiện để chọn cá thể quần thể để tạo hệ Bước 7: Nếu điều kiện dừng chưa thỏa mãn quay lại Bước 3, ngược lại thực bước Bước 8: Hàm thuộc lựa chọn từ cá thể có giá trị hàm mục tiêu lớn quần thể Pha 2: Các phương pháp khai phá luật kết hợp mờ Sử dụng thuật toán khai phá luật kêt hợp mờ trình bày phần 3.1.3 để khai phá luật kết hợp mờ từ CSDL mờ 3.2.2 Một số kết thử nghiệm Dữ liệu thử nghiệm lấy từ CSDL FAM95[18], số liệu điều tra dân số Mỹ năm 1995 Chúng lựa chọn 10 thuộc tính để thử nghiệm gồm: AGE, FAMPERS, NUMKIDS, HOURS, INCHEAD, INCFAM, TAXINC, FTAX, FINALWGT, MARCHWGT Với AGE tuổi người dân, FAMPERS: Số thành viên gia đình, NUMKIDS: số gia đình, HOURS số làm việc tuần, INCHEAD: thu nhập người đứng đầu gia đình, INCFAM: thu nhập gia 48 đình, TAXINC: thu nhập chịu thuế người đứng đầu gia đình, FTAX: thuế liên bang cho người đứng đầu,…Số lượng ghi 63565 Bảng 6: Cở sở liệu giao dịch gồm 10 ghi AGE FAMPERS NUMKIDS HOURS INCHEAD INCFAM TAXINC FTAX FINALWGT MARCHWGT 40 40 41344 49158 21643 3246 65809 58387 35 31700 36960 18987 2848 64020 58387 62 0 27648 27648 21398 3209 51277 53353 59 40 24691 24691 18441 2766 51116 51338 56 40 31025 50050 37699 5654 60192 55785 71 0 7549 14869 0 54845 54960 40 46 14052 38044 20559 3083 111975 110540 69 0 15874 15874 3874 581 105292 102395 34 48 27507 27507 21257 3188 118998 117408 38 40 23025 36410 19207 2881 114615 112468 49 60 15000 43000 31120 4668 203241 194246 Từ CSDL giao dịch Bảng 6, chuẩn hóa đoạn [0,1] ta thu CSDL giao dịch Bảng Bảng 7: Cở sử liệu giao dịch sau chuẩn hóa đoạn [0,1] AGE FAMPERS NUMKIDS HOURS INCHEAD INCFAM TAXINC FTAX FINALWGT MARCHWGT 0.375 0.214 0.222 0.404 0.167 0.074 0.216 0.032 0.044 0.042 0.312 0.143 0.111 0.14 0.064 0.19 0.028 0.043 0.042 0.65 0 0.129 0.056 0.214 0.032 0.034 0.038 0.613 0 0.404 0.121 0.053 0.184 0.028 0.034 0.037 0.575 0.071 0.404 0.139 0.075 0.377 0.057 0.04 0.04 0.762 0.071 0 0.075 0.045 0 0.037 0.039 0.375 0.214 0.222 0.465 0.093 0.065 0.206 0.031 0.075 0.082 0.738 0 0.097 0.046 0.039 0.006 0.071 0.076 0.3 0 0.485 0.129 0.056 0.213 0.032 0.08 0.088 0.35 0.214 0.222 0.404 0.117 0.063 0.192 0.029 0.077 0.084 0.375 0.214 0.222 0.404 0.167 0.074 0.216 0.032 0.044 0.042 Để thử nghiệm phương pháp, thực phân chia thành miền mờ cho thuộc tính với hàm thuộc hình tam giác Chúng sử dụng cách xây dựng hàm thuộc dựa vào giá trị ĐLNN trình bày 2.1.2 Ví dụ xem Hình 3.2 49 Hình 3.2: Hàm thuộc ộc cho thuộc tính Age với α=β=0.5, fm(N)=fm(P)= fm(N)=fm(P)=w=0.5 Trong đề tài này, sử s dụng ĐSGT gồm phần tử sinh Negative (N) Positive (P), hai gia tử g gồm: Very (V), Little (L) Vớii fm(P) +fm(N) = 1, ( ) + ( ) = (α = ( ), β = 1- α, w =fm(P)) Để xây dựng hàm àm thuộc thu tối ưu, sử dụng giải thuật di truyền với cách thức mãã hóa Gen cách xây dựng d hàm mục tiêu trình ình bày trong 2.2 Cấu trúc Gen mãã hóa nh Hình 3.3, với α1, α10 tham ssố α ĐSGT, w1, ,w10 tham số ố w ĐSGT l tương ứng với 10 thuộc tính CSDL giao dịch α1 α2 … α10 w1 w2 … w10 Hình 3.3: Cấu trúc Gen cho 10 thuộc tính Các tham số ố sử dụng giải thuật di truyền gồm: gồm 50 cá thể, ể, 10000 hệ, 30 bít cho Gen, tỷ lệ lai tạo ạo llà 0.6, tỷ lệ đột biến 0.01 Bảng tham số ố ĐSGT khởi tạo dựa vào kinh nghiệm ệm Bảng 8: Các tham số s ĐSGT thiết lập dựa vào kinh nghi nghiệm STT Thuộc ộc tính AGE FAMPERS NUMKIDS HOURS INCHEAD α 0.5 0.5 0.5 0.5 0.5 β 0.5 0.5 0.5 0.5 0.5 fm(C-) = W 0.5 0.5 0.5 0.5 0.5 fm(C+) 0.5 0.5 0.5 0.5 0.5 50 10 INCFAM TAXINC FTAX FINALWGT MARCHWGT 0.5 0.5 0.5 0.5 0.5 0.5 0.5 0.5 0.5 0.5 0.5 0.5 0.5 0.5 0.5 0.5 0.5 0.5 0.5 0.5 Hình ảnh hàm thuộc với tham số ĐSGT cho Bảng 51 Hình 3.4: Các hàm thuộc với tham số không tối ưu Sau chạy GA với độ hỗ trợ 20%, thu tham số đại số gia tử bảng Bảng Bảng 9: Các tham số ĐSGT sau thực tối ưu STT 10 Thuộc tính AGE FAMPERS NUMKIDS HOURS INCHEAD INCFAM TAXINC FTAX FINALWGT MARCHWGT α 0.481 0.561 0.552 0.574 0.545 0.548 0.592 0.587 0.58 0.524 β 0.519 0.439 0.448 0.426 0.455 0.452 0.408 0.413 0.42 0.476 fm(C-) = W 0.581 0.423 0.449 0.447 0.432 0.442 0.448 0.415 0.53 0.43 fm(C+) 0.419 0.577 0.551 0.553 0.568 0.558 0.552 0.585 0.47 0.57 52 Hình ảnh hàm thuộc với tham số ĐSGT tối ưu cách sử dụng giải thuật di truyền Bảng 53 Hình 3.4: Các hàm thuộc sau tối ưu Bảng 10 so sánh kết phương pháp sử dụng ĐSGT với phương pháp nhóm nghiên cứu Herrera, Hong cộng sự, Phân hoạch Kết cho thấy phương pháp sử dụng ĐSGT với độ hỗ trợ 20% cho kết với kết nhóm Herrera, Hong Uniform Fuzzy Partition Bảng 10: Số lượng 1-Itemset thu với tham số sau chạy GA Support % 20 50 70 90 ĐSGT 22 10 Herrera 22 15 10 Hong et al’s 22 12 Phân hoạch 21 Số lượng tập lớn 1-Itemsete 54 25 20 15 10 20% 50% 70% 90% Min support The Proposed Approach Hong Phân hoạch Hình 3.5: Biểu đồ quan hệ tập lớn 1-itemsets minimum support Sử dụng thuật toán Apriori mờ với độ hỗ trợ 70% độ tin cậy 90% thu luật Bảng 11 55 Bảng 11: Một số luật thu sử dụng hàm thuộc hình 3.5 Luật STT Độ hỗ trợ Độ tin NếuINCFAM_VNthìINCHEAD_VN 73% 92% NếuINCHEAD_VNthìINCFAM_VN 73% 96% NếuINCHEAD_VNthìFINALWGT_VN 71% 92% NếuINCHEAD_VN thìMARCHWGT_VN 70% 92% NếuINCFAM_VNthìFINALWGT_VN 73% 92% NếuINCFAM_VNthìMARCHWGT_VN 73% 92% NếuMARCHWGT_VNthìFINALWGT_VN 82% 98% NếuFINALWGT_VNthìMARCHWGT_VN 82% 97% 72% 99% 72% 98% NếuINCFAM_VNvàMARCHWGT_VNthìFINALW GT_VN 10 NếuINCFAM_VNvàFINALWGT_VNthìMARCHW GT_VN Với: VN Very Negative, INCFAM_VN dịch là: Thu nhập gia đình Rất thấp, INCHEAD_VN dịch là: Thu nhập chủ gia đình Rất thấp Với luật hiểu: Nếu Thu nhập gia đình Rất thấp Thu nhập chủ gia đình Rất thấpvới độ hỗ trợ 73% độ tin cậy 92% 56 KÊT LUẬN Phương pháp nghiên cứu Tìm hiểu lý thuyết tập mờ, dạng tập mờ, tìm hiểu cách biểu diễn tập giá trị chân lý ngôn ngữ cho tập mờ Tìm hiểu mối quan hệ dạng biểu diễn tập mờ với hàm định lượng ngữ nghĩa đại số gia tử, tìm hiểu cách thức chuyển đổi giá trị chân lý ngôn ngữ thành giá trị số Phân tích, đối sánh, liệt kê, nghiên cứutàiliệu, tổng hợp kết nhà nghiên cứuliên quan đếnlĩnh vực nghiên cứu Ý nghĩa khoa học Bài toán phân chia miền xác định thuộc tính nói chung đóng vai trò quan trọng trình khai phá liệu có ý nghĩa ứng dụng rộng lớn, đặc biệt loại toán liên quan đếnthông tin mờ người thường định thông qua thông tin mờ ngôn ngữ Cho đến phương pháp giải toán chủ yếu dựa tập mờ nhiều hạn chế Giải toán phân chia miền xác định thuộc tính dựa liệu sử dụng kết công nghệ tính toán mềm mang lại cho ta thuật toán tương đối đơn giảnnhưng hữu hiệu việc xây dựng CSDL mờ - FB 57 TÀI LIỆU THAM KHẢO Tiếng Việt [1] Ha Quang Thụy, Phan Xuân Hiếu, Đoan Sơn, Nguyễn Trí Thanh, Nguyễn Thu Trang, Nguyễn Cẩm Tú, Giáo trinh khai phá liệu Web, Nhà xuất giáo dục Việt Nam, 2009 [2] Nguyễn Thanh Thủy, Khai phá liệu, Nhà xuất Kỹ thuật va ứng dụng, 2001 [3] Trần Thái Sơn, Đỗ Nam Tiến, Phạm Đình Phong, Luật kết hợp theo cách tiếp cận Đại số gia tử, Tạp chí Tin học Điều khiển học, 27(4), 2011 Tiếng Anh [4] Rakesh Agrawal, Tomasz Imielinski, and Arun Swami Mining association rules between sets of items in large databases In Proc of theACM SIGMOD Conference on Management of Data, pages 207 - 216, Washington, D.C., May 1993 [5] Attila Gyenesei A Fuzzy Approach for Mining Quantitative Association Rules Turku Centre for Computer Science, TUCS Technical Reports, No 336, March 2000 [6] Nguyen Cat Ho, Tran Thai Son, Tran Dinh Khang, Le Xuan Viet, Fuzziness Measure, Quantified Semantic Mapping And Interpolative Method of Approximate Reasoning in Medical Expert Systems, J.of Computer Science and Cybernetic, T.18(3)(2002), 237 - 252 [7] J Alcala - Fdez, R Alcala, M.J Gacto, F Herrera, Learning the membership function contexts for mining fuzzy association rules by using genetic algorithms, Fuzzy Sets Syst 160 (7) (2009) 905–921 [8] C Chen, T Hong, Vincent S T and L Chen, Multi - objective genetic - fuzzy data mining.International Journal of Innovative Computing, Information and Control.Volume 8, Number 10(A), October 2012 [9] P.Pulkkinen and H.Koivisto A Dynamically Constrained Multiobjective Genetic Fuzzy System forRegression Problems IEEE Trans.on Fuzzy Systems vol 18 No1,161 - 177, 2010 58 [10] L.A.Zadeh, The concept of linguistic variable and its application to approximate reasoning Inform Sci (I) (1975) 199-249; (II) (1975) 310-357; (III) (1975) 4380 [11] Jiawei Han and Micheline Kamber, Data Mining: Concepts and Techniques, University of Illinois, Morgan Kaufmann, 2006 [12] Ramakrishnan Srikant and Rakesh Agrawal Mining Quantitative Association Rules in Large Relational Tables IBM Almaden Research Center, San Jose, CA 95120 [13] R J Miller and Y Yang Association Rules over Interval Data Department of Computer & Information Science, Ohio State University, USA [14] J.Alcala - Fdes, R Alcala and F.Herrera (2011) A Fuzzy Association Rule Based Classification Model for High - Dimentional problems with Genetic Rule Selection and lateral Tuning IEEE Tran on Fuzzy Systems vol 19, No5,857 - 872 [15] Tanaka, H, Uejima, S, and Asia, K (1982) Linear regression analiysis with Fuzzy model IEEE Trans Systems.Man.Cybernet.,12, 903 - 07 [16] M Antonelli, P Ducange, F Marcelloni (2012) Genetic Training Instance Selection in Multiobjective Evolutionary Fuzzy Systems: A coevolutionary Approach IEEE Trans on Fuzzy Systems, vol20, No2, 276 - 290 [17] T Hong, C Chen, Y Wu, Y Lee, A ga-based fuzzy mining approach to achieve a trade-off between number of rules and suitability of membership functions, Soft Computing 10 (11) (2006) 1091–1101 [18] Cơ sở liệu thử nghiệm FAM95 http: //kdm.first.flinders.edu.au/IDM/data.html Thái Nguyên, ngày …tháng… Năm 2016 Xác nhận giáo viên hướng dẫn TS Trần Thái Sơn Lê Minh Hiệp Học viên [...]... driven - mục 2 nêu trên) , sử dụng các công cụ mới nhất của công nghệ tính toán mềm và trên cơ sở FB tối ưu này tiến hành khai phá thử nghiệm các luật kết hợp từ một CSDL cho trước Được sự đồng ý của trường Đại học Công nghệ thông tin và Truyền thông với sự hướng dẫn của Thầy giáo em thực hiện đề tài: Xây dựng các hàm thuộc trên miền xác định thuộc tính mờ giải bài toán khai phá luật kết hợp làm đề tài... đầu Tuy nhiên trong giải thuật di truyền thì ta luôn muốn tạo ra những phép đột biến cho phép cải thiện lời giải qua từng thế hệ 27 CHƯƠNG 2 XÁC ĐỊNH CÁC HÀM THUỘC TRÊN MIỀN XÁC ĐỊNH THUỘC TÍNH MỜ 2.1 Phương pháp giải bài toán phân chia miền xác định thuộc tính 2.1.1 Một số phương pháp phân chia miền mờ Phân chia một cách ngẫu nhiên: Trong phương pháp này, ta chọn một số cố định các miền cần chia (thông... để xác định các tập mờ trên miền xác định của các thuộc tính, trên cơ sở đó, tiến hành phần sau là giải bài toán đặt ra Để dễ hình dung, phần tiếp theo chúng tôi xin trình bày 2 trong số các bài toán thường gặp và được tập trung nghiên cứu nhiều trong thời gian gần đây: bài toán xây dựng hệ luật mờ (Mamdani) MFRBS dùng cho phân loại tự động, hồi quy và bài toán trích xuất luật kết hợp Trong cả hai bài. .. hiệu tập tất cả các tập phổ biến lớn nhất là MFI Dễ thấy MFI ⊆ FCI ⊆ FI Khai phá luật kết hợp là công việc phát hiện ra (tìm ra, khám phá, phát hiện) các luật kết hợp thỏa mãn các ngưỡng độ hỗ trợ (δ) và ngưỡng độ tin cậy (α) cho trước Bài toán khai phá luật kết hợp được chia thành hai bài toán nhỏ, hay như người ta thường nói, việc giải bài toán trải qua hai pha: 21 Pha 1: Tìm tất cả các tập phổ biến... khai phá dữ liệu Các công cụ công nghệ tính toán mềm, đặc biệt là lý thuyết tập mờ và đại số gia tử (ĐSGT) cũng được nghiên cứu như là công cụ để giải bài toán đặt ra 3 Hướng nghiên cứu của đề tài Luận văn nghiên cứu các phương pháp giải bài toán phân lớp miền xác định thuộc tính của các tác giả trong nước cũng như trên thế giới, ưu, khuyết điểm của các phương phápđã có vànghiên cứu cách giải bài toán. .. B, C, G Khai phá luật kết hợp được mô tả như sự tương quan của các sự kiện những sự kiện xuất hiện thường xuyên một các đồng thời Nhiệm vụ chính của khai phá luật kết hợp là phát hiện ra các tập con cùng xuất hiện trong một khối lượng giao dịch lớn của một cơ sở dữ liệu cho trước Nói cách khác, thuật toán khai phá luật kết hợp cho phép tạo ra các luật mô tả các sự kiện xảy ra đồng thời (một cách thường... khoảng tính mờ liên tiếp hoặc trùng với một giá trị ĐLNN của một khoảng tính mờ do tính chất tạo nên phân hoạch miền xác định của các khoảng tính mờ Như vậy, khoảng cách giữa giá trị xij đó tới 2 giá trị ĐLNN có thể dùng để tính độ thuộc của xij vào các tập mờ được biểu diễn bởi các khoảng tính mờ đó (trường hợp trùng với 1 giá trị ĐLNN thì chỉ có 1 độ 29 thuộc) : khoảng cách càng nhỏ thì độ thuộc càng... Một cách xây dựng hàm thuộc khác từ các giá trị ĐLNN, cụ thể là dựng các tam giác là biểu diễn các hàm thuộc của tập mờ với 1 đỉnh có tọa độ (υ(xi),1), hai đỉnh còn lại nằm trên miền xác định, có tọa độ tương ứng là (υ(xi-1),0), (υ(xi+1),0), trong đó υ(xi-1), υ(xi), υ(xi+1) là 3 giá trị ĐLNN liên tiếp (xem Hình 2.1) Hình 2.1: Xây dựng hàm thuộc dựa trên giá trị ĐLNN Có thể thấy về thực chất hai cách xây. .. tập mờ “trẻ”, “khá trẻ”, “trung niên” và “già” 2) Xác định các hàm thuộc tương ứng với các tập mờ nói trên 3) Chuyển đổi số liệu từ CSDL mẫu thành các giá trị biến ngôn ngữ tương ứng Ví dụ căn cứ vào các hàm thuộc đã xác định, tuổi 27 có thể chuyển đổi thành “khá trẻ” với độ thuộc 0,8 4) Từ dữ liệu chuyển đổi xác định một tập luật ban đầu, mỗi luật có dạng (1) 5) Tiến hành rút gọn tập luật theo các. .. MF có giá trị nhỏ nhất là β 2.1.2 Phương pháp tiếp cận Đại số gia tử Với một số kết quả liên quan đến khoảng tính mờ của các phần tử của ĐSGT nêu trong mục trước, ta có thể thấy ngay một cách tính độ thuộc của một giá trị bất kỳ trong CSDL số đã cho vào các tập mờ dùng phân chia miền thuộc tính (Với độ dài k xác định trước)Ta thấy, trên miền xác định của thuộc tính (có thể đã chuẩn hóa về đoạn [0,1], ... LUẬT KẾT HỢP MỜ DỰA TRÊN PHÂN HOẠCH MỜ TỐI ƯU 35 3.1 Bài toán khai phá luật kết hợp mờ 35 3.1.1 Rời rạc hóa thuộc tính dựa vào tập mờ 35 3.1.2 Rời rạc hóa thuộc tính mờ. .. 2.1: Xây dựng hàm thuộc dựa giá trị ĐLNN 29 Hình 2.2: Lược đồ tìm kiếm hàm thuộc khai phá luật kết hợp mờ 30 Hình 2.3: Hàm thuộc cho thuộc tính 31 Hình 2.4: Hàm thuộc cho thuộc. .. Xây dựng hàm thuộc miền xác định thuộc tính mờ giải toán khai phá luật kết hợp làm đề tài luận văn 5 Đối tượng phạm vi nghiên cứu Đối tượng nghiên cứu luận văn sở liệu đầu vào dùng để khai phá

Ngày đăng: 09/12/2016, 14:48

Nguồn tham khảo

Tài liệu tham khảo

Loại

Chi tiết

[1]. Ha Quang Thụy, Phan Xuân Hiếu, Đoan Sơn, Nguyễn Trí Thanh, Nguyễn Thu Trang, Nguyễn Cẩm Tú, Giáo trinh khai phá dữ liệu Web, Nhà xuất bản giáo dục Việt Nam, 2009

Sách, tạp chí

Tiêu đề:	Nhà xuất bản giáo dục Việt Nam
Nhà XB:	Nhà xuất bản giáo dục Việt Nam"

[3]. Trần Thái Sơn, Đỗ Nam Tiến, Phạm Đình Phong, Luật kết hợp theo cách tiếp cận Đại số gia tử, Tạp chí Tin học và Điều khiển học, 27(4), 2011.Tiếng Anh

Sách, tạp chí

Tiêu đề:	Tạp chí Tin học và Điều khiển học

[4]. Rakesh Agrawal, Tomasz Imielinski, and Arun Swami. Mining association rules between sets of items in large databases. In Proc. of theACM SIGMOD Conference on Management of Data, pages 207 - 216, Washington, D.C., May 1993

Sách, tạp chí

Tiêu đề:	In Proc. of theACM SIGMOD Conference on Management of Data

[5]. Attila Gyenesei. A Fuzzy Approach for Mining Quantitative Association Rules. Turku Centre for Computer Science, TUCS Technical Reports, No 336, March 2000

Sách, tạp chí

Tiêu đề:	Turku Centre for Computer Science, TUCS Technical Reports

[6]. Nguyen Cat Ho, Tran Thai Son, Tran Dinh Khang, Le Xuan Viet, Fuzziness Measure, Quantified Semantic Mapping And Interpolative Method of Approximate Reasoning in Medical Expert Systems, J.of Computer Science and Cybernetic, T.18(3)(2002), 237 - 252

Sách, tạp chí

Tiêu đề:	J.of Computer Science and Cybernetic
Tác giả:	Nguyen Cat Ho, Tran Thai Son, Tran Dinh Khang, Le Xuan Viet, Fuzziness Measure, Quantified Semantic Mapping And Interpolative Method of Approximate Reasoning in Medical Expert Systems, J.of Computer Science and Cybernetic, T.18(3)
Năm:	2002

[7]. J. Alcala - Fdez, R. Alcala, M.J. Gacto, F. Herrera, Learning the membership function contexts for mining fuzzy association rules by using genetic algorithms, Fuzzy Sets Syst. 160 (7) (2009) 905–921

Sách, tạp chí

Tiêu đề:	Fuzzy Sets Syst

[8]. C. Chen, T. Hong, Vincent S. T. and L. Chen, Multi - objective genetic - fuzzy data mining.International Journal of Innovative Computing, Information and Control.Volume 8, Number 10(A), October 2012

Sách, tạp chí

Tiêu đề:	International Journal of Innovative Computing, Information and Control

[9]. P.Pulkkinen and H.Koivisto. A Dynamically Constrained Multiobjective Genetic Fuzzy System forRegression Problems. IEEE Trans.on Fuzzy Systems. vol 18 No1,161 - 177, 2010

Sách, tạp chí

Tiêu đề:	IEEE Trans.on Fuzzy Systems

[10]. L.A.Zadeh, The concept of linguistic variable and its application to approximate reasoning. Inform. Sci. (I) 8 (1975) 199-249; (II) 8 (1975) 310-357; (III) 9 (1975) 43- 80

Sách, tạp chí

Tiêu đề:	Inform. Sci

[11]. Jiawei Han and Micheline Kamber, Data Mining: Concepts and Techniques, University of Illinois, Morgan Kaufmann, 2006

Sách, tạp chí

Tiêu đề:	Morgan Kaufmann

[12]. Ramakrishnan Srikant and Rakesh Agrawal. Mining Quantitative Association Rules in Large Relational Tables. IBM Almaden Research Center, San Jose, CA 95120

Sách, tạp chí

Tiêu đề:	IBM Almaden Research Center, San Jose

[13]. R. J. Miller and Y. Yang. Association Rules over Interval Data. Department of Computer & Information Science, Ohio State University, USA

Sách, tạp chí

Tiêu đề:	Department of Computer & Information Science

[14]. J.Alcala - Fdes, R. Alcala and F.Herrera (2011). A Fuzzy Association Rule - Based Classification Model for High - Dimentional problems with Genetic Rule Selection and lateral Tuning. IEEE Tran. on Fuzzy Systems. vol 19, No5,857 - 872

Sách, tạp chí

Tiêu đề:	IEEE Tran. on Fuzzy Systems
Tác giả:	J.Alcala - Fdes, R. Alcala and F.Herrera
Năm:	2011

[15]. Tanaka, H, Uejima, S, and Asia, K. (1982). Linear regression analiysis with Fuzzy model. IEEE Trans. Systems.Man.Cybernet.,12, 903 - 07

Sách, tạp chí

Tiêu đề:	Systems.Man.Cybernet
Tác giả:	Tanaka, H, Uejima, S, and Asia, K
Năm:	1982

[16]. M. Antonelli, P. Ducange, F. Marcelloni (2012). Genetic Training Instance Selection in Multiobjective Evolutionary Fuzzy Systems: A coevolutionary Approach.IEEE Trans. on Fuzzy Systems, vol20, No2, 276 - 290

Sách, tạp chí

Tiêu đề:	IEEE Trans. on Fuzzy Systems
Tác giả:	M. Antonelli, P. Ducange, F. Marcelloni
Năm:	2012

[17]. T. Hong, C. Chen, Y. Wu, Y. Lee, A ga-based fuzzy mining approach to achieve a trade-off between number of rules and suitability of membership functions, Soft Computing 10 (11) (2006) 1091–1101

Sách, tạp chí

Tiêu đề:	Soft Computing

[18]. Cơ sở dữ liệu thử nghiệm FAM95 http: //kdm.first.flinders.edu.au/IDM/data.html Thái Nguyên, ngày …tháng…. Năm 2016

Khác

Xem thêm