1. Trang chủ
  2. » Luận Văn - Báo Cáo

Khai phá luật kết hợp mờ dựa trên đại số gia tử

80 359 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Nội dung

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn ĐẠI HỌC THÁI NGUYÊN TRƢỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG LÊ THỊ BÍCH THẢO KHAI PHÁ LUẬT KẾT HỢP MỜ DỰA TRÊN ĐẠI SỐ GIA TỬ LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH Thái Nguyên - 2013 Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn ĐẠI HỌC THÁI NGUYÊN TRƢỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG LÊ THỊ BÍCH THẢO KHAI PHÁ LUẬT KẾT HỢP MỜ DỰA TRÊN ĐẠI SỐ GIA TỬ Chuyên ngành: Khoa học máy tính Mã số: 60.48.01 LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH NGƢỜI HƢỚNG DẪN KHOA HỌC TS.Trần Thái Sơn Thái Nguyên - 2012 Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn LỜI CAM ĐOAN Tên tôi là : Lê Thị Bích Thảo Sinh ngày 02 tháng 7 năm 1983 Học viên cao học lớp: K9B- trƣờng Đại học CNTT&TT Thái Nguyên Xin cam đoan : Đề tài luận văn“Khai phá luật kết hợp mờ dựa trên đại số gia tử” do TS.Trần Thái Sơn hƣớng dẫn là công trình nghiên cứu của riêng tôi. Tất cả tài liệu tham khảo đều có nguồn gốc, xuất xứ rõ ràng. Tôi xin cam đoan tất cả những nội dung trong luận văn đúng nhƣ nội dung trong đề cƣơng và yêu cầu của thầy giáo hƣớng dẫn. Nếu sai tôi xin hoàn toàn chịu trách nhiệm trƣớc Hội đồng khoa học và trƣớc pháp luật. Thái Nguyên, tháng 01 năm 2013 Ngƣời cam đoan Lê Thị Bích Thảo Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn LỜI CẢM ƠN Trong quá trình làm luận văn vừa qua, dƣới sự giúp đỡ và chỉ bảo nhiệt tình của TS. Trần Thái Sơn – Viện Công nghệ thông tin – Viện khoa học Việt Nam, luận văn của tôi đã đƣợc hoàn thành. Mặc dù đã cố gắng không ngừng cùng với sự tận tâm của thầy hƣớng dẫn nhƣng do thời gian và khả năng vẫn còn hạn chế nên luận văn khó tránh khỏi những thiếu sót. Để hoàn thành luận văn này, em xin bày tỏ lòng biết ơn sâu sắc đến TS Trần Thái Sơn – Ngƣời thầy đã tận tình giúp đỡ em trong suốt quá trình làm luận văn. Em cũng xin bày tỏ lòng biết ơn đến ban lãnh đạo và các thầy giáo, cô giáo trong Trƣờng Đại học Công Nghệ Thông Tin & Truyền Thông Đại Học Thái Nguyên đã giúp đỡ, tạo điều kiện tốt nhất cho em học tập và thực hiện luận văn này. Thái Nguyên, tháng 01 năm 2013 Tác giả Lê Thị Bí ch Thả o i Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn MỤC LỤC LỜI CAM ĐOAN iii LỜI CẢM ƠN iv DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT iii DANH MỤC CÁC HÌNH ẢNH iv PHẦN MỞ ĐẦU 1 Chƣơng 1: LÝ THUYẾT CHUNG VỀ TẬP MỜ V L THUYẾT 4 ĐẠ I SỐ GIA TƢ̉ 4 1.1. L thuyết chung về tập mờ 4 1.2. Lôgic mờ 9 1.3. Biến ngôn ngữ 14 1.4. Một số khái niệm cơ bản về Đại số gia tử 15 1.4.1. Đại số gia tử 17 1.4.2. Định nghĩa đại số gia tử 18 Chƣơng 2: LUẬT KẾT HỢP TRONG KHAI PHÁ DỮ LIỆU 33 2.1. Bài toán kinh điển dẫn đến việc khai phá luật kết hợp 33 2.2. Khai phá luật kết hợp mờ: 39 Chƣơng 3: NG DỤNG ĐI S GIA T GIẢI BI TON KHAI PH DỮ LIỆ U 41 3.1. ng dụng đại số gia tử trong khai phá dữ liệu. 41 3.1.1.Tiếp cận Đại số gia tử trong khai phá dữ liệu: 41 3.1.2.Thuật toán trích xuất luật kết hợp từ cơ sở dữ liệu: 43 ii Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 3.1.3.Thuật toán giải bài toán khai phá luậ t kế t hợ p mờ dƣ̣ a trên đại số gia tử 51 3.2 .Bài toán 51 3.3. Xác định đầu vào, đầu ra của bài toán 52 3.3.1. Thuật toán giải 52 3.3.2.Chƣơng trình thử nghiệm 52 3.3.3. Cài đặt chƣơng trình 52 3.3.4.Giao diện của chƣơng trình 53 KẾT LUẬN 55 TÀI LIÊU THAM KHẢO 56 PHẦN PHỤ LỤC 58 iii Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT Các kí hiệu, các chữ viết tắt Ý nghĩa ĐSGT Đại số gia tử α Tổng độ đo tính mờ của các gia tử âm β Tổng độ đó tính mờ của các gia tử dƣơng AX, AT Đại số gia tử AX Đại số gia tử tuyến tính đầy đủ W Phần tử trung hòa trong đại số gia tử iv Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn DANH MỤC CÁC HÌNH ẢNH Hình Mô tả Hình 1 Đồ thị biểu diễn hàm thuộc của tập mờ già (old) Hình 2 Biểu diễn bộ 2 Hình 3 Độ đo tính mờ của biến TRUTH Hình 4 Giao diện của chƣơng trình Hình 5 Kết quả thực hiện chƣơng trình thử nghiệm 1 Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn PHẦN MỞ ĐẦU Trong những năm gần đây, việc nắm bắt đƣợc thông tin đƣợc coi là cơ sở của mọi hoạt động sản xuất, kinh doanh. Cá nhân hoặc tổ chức nào thu thập và hiểu đƣợc thông tin, và hành động dựa trên các thông tin đƣợc kết xuất từ các thông tin đã có sẽ đạt đƣợc thành công trong mọi hoạt động. Chính vì l do đó, việc tạo ra thông tin, tổ chức lƣu trữ và khai thác ngày càng trở nên quan trọng và gia tăng không ngừng. Sự tăng trƣởng vƣợt bậc của các cơ sở dữ liệu (CSDL) trong cuộc sống nhƣ: thƣơng mại, quản lý và khoa học đã làm nảy sinh và thúc đẩy sự phát triển của kỹ thuật thu thập, lƣu trữ, phân tích và khai phá dữ liệu… không chỉ bằng các phép toán đơn giản thông thƣờng nhƣ: phép đếm, thống kê… mà đòi hỏi cách xử l thông minh hơn, hiệu quả hơn. Từ đó các nhà quản l có đƣợc thông tin có ích để tác động lại quá trình sản xuất, kinh doanh của mình… đó là tri thức. Các kỹ thuật cho phép ta khai thác đƣợc tri thức hữu dụng từ CSDL (lớn) đƣợc gọi là các kỹ thuật khai phá dữ liệu (DM – Data Mining). Khai phá luật kết hợp là một nội dung quan trọng trong khai phá dữ liệu. Luận văn trình bày một số vấn đề về phát hiện tri thức, khai phá dữ liệu, tập trung vào vấn đề khai phá luật kết hợp và ứng dụng lý thuyết Đại số gia tử trong khai phá luật kết hợp trên CSDL. Khai phá dữ liệu, cụ thể là trích xuất các luật kết hợp từ cơ sở dữ liệu, có xuất phát điểm từ bài toán nghiên cứu số liệu bán hàng trong siêu thị. Ở bài toán này, số liệu đƣợc biểu diễn dƣới dạng bảng hai chiều, trong đó các cột thể hiện các loại mặt hàng (item), các hàng thể hiện các giao dịch (transactions) đã đƣợc tiến hành, số 1 cho thấy mặt hàng đƣợc mua, số 0 chỉ điều ngƣợc lại. Từ bảng dữ liệu rất lớn này, ngƣời ta mong muốn rút ra đƣợc các quy luật giúp cho quản lý, kiểu nhƣ "Nếu một ngƣời đã mua bánh mỳ và 2 Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn bơ, khả năng ngƣời đó cũng mua giăm bông là rất cao". Luật có dạng nhƣ vậy gọi là luật kết hợp và là hƣớng nghiên cứu quan trọng trong lĩnh vực khai phá dữ liệu. Về sau, ngƣời ta thấy sẽ là rất không đầy đủ nếu chỉ xem xét các cơ sở dữ liệu chỉ bao gồm các phần tử 0 và 1. Chẳng hạn, trong CSDL nhân sự của một cơ quan có các mục nhƣ tuổi, thu nhập có giá trị trong miền số thực rất rộng. Để trích xuất ra các luật kết hợp, một phƣơng pháp thƣờng đƣợc sử dụng là chuyển số liệu trong CSDL đã cho về CSDL chỉ chứa các giá trị 0, 1 và áp dụng các kết quả đã có. Thí dụ, trong mục "tuổi", có thể chia ra các miền "trẻ", "trung niên" và "già" với các miền giá trị tƣơng ứng là [0,35], [36,55], [56,80] và nếu một giá trị của CSDL ban đầu rơi vào miền giá trị nào thì ta ghi 1 cho vị trí tƣơng ứng trong CSDL chuyển đổi, ngƣợc lại gán giá trị 0. Phƣơng pháp này đơn giản về mặt thực thi nhƣng có thể gây băn khoăn do ranh giới cứng mà ngƣời ta đƣa ra khi tiến hành chuyển đổi. Chẳng hạn hai ngƣời tuổi 35 và 36 tuy rất gần nhau về mặt tuổi tác nhƣng lại thuộc hai lớp khác nhau là "trẻ" và "trung niên", dẫn tới việc đƣa ra những luật kết hợp có thể thiếu tính chính xác. Và ngƣời ta sử dụng cách tiếp cận mờ để khắc phục điều này, theo đó, một giá trị bất kỳ của CSDL ban đầu không chuyển đổi về giá trị 0 hoặc 1 nhƣ trên mà sẽ chuyển về một tập giá trị thực thuộc đoạn [0,1], là độ thuộc của giá trị đã cho vào các tập mờ đƣợc xác định trƣớc. Thí dụ, ngƣời tuổi 35 trong ví dụ trên, ở CSDL đã chuyển đổi sẽ nhận tập giá trị (trẻ, 0,8), (trung niên, 0,6), (già, 0,1). Phƣơng pháp này, tuy dẫn tới việc xử lý phức tạp hơn nhƣng dễ chấp nhận hơn về mặt trực quan và hiện đang đƣợc nhiều nhà nghiên cứu quan tâm. Mặc dù vậy, theo  chúng tôi, phƣơng pháp trích xuất luật kết hợp mờ vẫn có một số điểm yếu cần khắc phục. Đó là sự phụ thuộc chủ quan rất lớn vào việc lựa chọn các hàm thuộc cho các tập mờ dẫn đến việc xử lý vừa phức tạp vừa có thể thiếu chính xác. Trong bài báo này [...]... đai sô gia tƣ ̉ ̀ ̣ ́ ̉ Chƣơng 2: Khai pha luât kêt hơp mơ dƣa trên đại số gia tử ́ ̣ ́ ̣ ̀ ̣ Trong chƣơng này trình bày luât kêt hơp mơ , thuât toan khai pha luât ̣ ́ ̣ ̀ ̣ ́ ́ ̣ kêt hơp mơ dƣa trên đai số gia tử ́ ̣ ̀ ̣ ̣ Chƣơng 3 : Ứng dụng ĐSGT giải bài toán khai phá dữ liệu Trong chƣơng này trình bày bài toán, thuật toán và cách giải bài toán khái phá luật kết hợp mờ dƣa trên đại số gia tử bằng... mờ Vì vậy sự “tƣơng đồng” dựa trên định lý trên chứng tỏ thêm giá trị của cách tiếp cận đại số này Các kết quả mở rộng đối với các toán tử sup, inf, gọi là đại số gia tử mở rộng đối xứng, đồng thời mịn hoá đại số gia tử, đƣa thêm các toán tử hoặc, và liên kết các gia tử tạo thành các gia tử mới Nhƣng vấn đề tiếp tục này đƣợc quan tâm ở đây là trong các ví dụ trên thƣờng đề cập đến biến chân lý, có miền... thân một số gia tử nhƣ có thể, ít nhiều, xấp xỉ cũng không sánh đƣợc với nhau, trong khi suy luận rất cần sự sắp xếp đó 1.4.2.2 Các đại lƣợng đo trên đại số gia tử Theo định lý 5 tồn tại một đẳng cấu giữa một đại số gia tử mở rộng đối xứng và cấu trúc logic đa trị tựa trên miền [0, 1] Chính điều này cho phép ta thiết lập một hàm đo trên đại số gia tử chuyển một giá trị của đại số gia tử mở rộng... gọi là phần tử sinh âm ký hiệu là f và ta có f < t (Trong ví dụ trên, t tƣơng ứng với true là dƣơng, còn f tƣơng ứng với false là âm) 1.4.2 Định nghĩa đại số gia tử Một cấu trúc đại số AT = (T, G, H, ≤) với H đƣợc phân hoạch thành H+ và H- các gia tử ngƣợc nhau đƣợc gọi là một đại số gia tử nếu nó thỏa mãn các tiên đề sau: (1) Mỗi gia tử hoặc là dƣơng hoặc là âm đối với bất kỳ một gia tử nào khác,... rằng tập G là đại số gia tử đối xứng con của AT và nó thỏa mãn các tính chất của đại số cho logic 3-trị Với những lý do đó có thể xem mỗi một đại số gia tử đối xứng là một cơ sở đại số cho một logic các giá trị ngôn ngữ Định lý tiếp theo nói về mối quan hệ với miền [0, 1] Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 21 Định lý 5 Nếu tập các toán tử (gia tử) H+ và H-... giữa các phần tử của các đại số gia tử khác nhau Ví dụ, từ hai đại số gia tử chiều_cao và cân_nặng thì mức độ chênh lệch giữa “rất cao” và “không cao lắm” phần nào tƣơng ứng với “rất nặng” và “không nặng lắm” Với hàm đo, ta đã có thể định lƣợng đƣợc các phần tử Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 23 trong cùng một đại số gia tử mở rộng đối xứng, để trên cơ sở... Định nghĩa 1.1.2.3.1 (Hàm đo trên đại số gia tử) : Cho đại số gia tử mở rộng đối xứng (T, G, H, ≤), f: T→[0, 1] là một hàm đo trên T nếu thoả mãn: (1)∀t∈T: f(t) ∈ [0, 1], f(g+) = 1, f(g-) = 0; trong đó: g+, g- ∈ G, là các phần tử sinh dƣơng và âm (2)∀x, y ∈ T, nếu x . bày một số vấn đề về phát hiện tri thức, khai phá dữ liệu, tập trung vào vấn đề khai phá luật kết hợp và ứng dụng lý thuyết Đại số gia tử trong khai phá luật kết hợp trên CSDL. Khai phá dữ. ĐSGT Đại số gia tử α Tổng độ đo tính mờ của các gia tử âm β Tổng độ đó tính mờ của các gia tử dƣơng AX, AT Đại số gia tử AX Đại số gia tử tuyến tính đầy đủ W Phần tử trung hòa trong đại. 1.4.2. Định nghĩa đại số gia tử 18 Chƣơng 2: LUẬT KẾT HỢP TRONG KHAI PHÁ DỮ LIỆU 33 2.1. Bài toán kinh điển dẫn đến việc khai phá luật kết hợp 33 2.2. Khai phá luật kết hợp mờ: 39 Chƣơng 3:

Ngày đăng: 21/11/2014, 21:55

TỪ KHÓA LIÊN QUAN

TRÍCH ĐOẠN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w