1. Trang chủ
  2. » Giáo Dục - Đào Tạo

(LUẬN văn THẠC sĩ) khai phá luật kết hợp dựa trên lý thuyết đại số gia tử

48 2 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Khai Phá Luật Kết Hợp Dựa Trên Lý Thuyết Đại Số Gia Tử
Tác giả Đỗ Nam Tiến
Người hướng dẫn PGS. TS Nguyễn Hà Nam
Trường học Đại học quốc gia Hà Nội
Chuyên ngành Công nghệ thông tin
Thể loại luận văn thạc sĩ
Năm xuất bản 2013
Thành phố Hà Nội
Định dạng
Số trang 48
Dung lượng 1,69 MB

Nội dung

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ ĐỖ NAM TIẾN KHAI PHÁ LUẬT KẾT HỢP DỰA TRÊN LÝ THUYẾT ĐẠI SỐ GIA TỬ LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN Hà Nội – 2013 TIEU LUAN MOI download : skknchat@gmail.com ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ ĐỖ NAM TIẾN KHAI PHÁ LUẬT KẾT HỢP DỰA TRÊN LÝ THUYẾT ĐẠI SỐ GIA TỬ Ngành : Công nghệ thông tin Chuyên ngành : Hệ thống thông tin Mã số : 60.48.05 LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN Người hướng dẫn : PGS TS Nguyễn Hà Nam Hà Nội – 2013 TIEU LUAN MOI download : skknchat@gmail.com Mục lục Mục lục Danh sách hình Danh sách bảng biểu Danh sách cụm từ viết tắt Lời mở đầu Chương Tổng quan khai phá liệu toán luật kết hợp 1.1 Khái niệm 1.2 Quá trình phát tri thức sở liệu 1.3 Các kĩ thuật khai phá liệu 11 1.3.1 Các kĩ thuật tiếp cận khai phá liệu 11 1.3.2 Dạng liệu khai phá 12 1.3.3 Ứng dụng khai phá liệu 12 1.4 Bài toán khai phá luật kết hợp ứng dụng 12 1.4.1 Luật kết hợp sở liệu 12 1.4.2 Luật kết hợp mờ 13 1.4.3 Tính ứng dụng 13 Chương Một số thuật toán khai phá luật kết hợp 15 2.1 Thuật toán Apriori 15 2.1.1 Ý tưởng thuật toán Apriori 15 2.1.2 Thuật toán Apriori 15 2.1.3 Sinh luật kết hợp từ tập mục phổ biến 16 2.2 Ứng dụng logic mờ thuật toán khai luật kết hợp Apriori 17 2.2.1 Ứng dụng logic mờ thuật toán khai phá luật kết hợp Apriori 17 2.2.2 Thuật toán Apriori mờ 20 2.2.3 Nhận xét thuật toán Apriori mờ 21 Chương Thuật toán khai phá luật kết hợp dựa lý thuyết đại số gia tử 22 3.1 Giới thiệu lý thuyết đại số gia tử 22 3.2 Tiếp cận đại số gia tử khai phá liệu 25 3.3 Thuật toán khai phá luật kết hợp dựa lý thuyết đại số gia tử 27 Chương Thử nghiệm đánh giá thuật toán 31 Kết luận 38 Tài liệu tham khảo 39 Phụ lục A 40 Phụ lục B 41 Phụ lục C 44 TIEU LUAN MOI download : skknchat@gmail.com Danh sách hình Hình Các bước trình khai phá tri thức 10 Hình Mơ hình ứng dụng luật 13 Hình Ví dụ hàm thuộc 26 Hình So sánh bảng kết thuật toán 33 TIEU LUAN MOI download : skknchat@gmail.com Danh sách bảng biểu Bảng Ví dụ liệu mẫu 18 Bảng Dữ liệu chuyển dạng nhị phân 19 Bảng Dữ liệu ví dụ 29 Bảng Nhãn ngôn ngữ tương ứng 29 Bảng Danh sách trường tập liệu FAM95 31 Bảng Danh sách 10 luật có độ tin cậy cao 32 TIEU LUAN MOI download : skknchat@gmail.com Danh sách cụm từ viết tắt Từ cụm từ Từ viết tắt Từ tiếng Anh Cơ sở liệu CSDL Database Khai phá liệu KPDL Data mining Đại số gia tử ĐSGT Hedge Algebra TIEU LUAN MOI download : skknchat@gmail.com Lời mở đầu Khai phá liệu, cụ thể trích xuất luật kết hợp từ sở liệu, có xuất phát điểm từ toán nghiên cứu số liệu bán hàng siêu thị Ở toán này, số liệu biểu diễn dạng bảng hai chiều, cột thể loại mặt hàng (item), hàng thể giao dịch (transactions) tiến hành, số cho thấy mặt hàng mua, số điều ngược lại Từ bảng liệu lớn này, người ta mong muốn rút quy luật giúp cho quản lý, kiểu "Nếu người mua bánh mỳ bơ, khả người mua giăm bơng cao" Luật có dạng gọi luật kết hợp hướng nghiên cứu quan trọng lĩnh vực khai phá liệu Về sau, người ta thấy không đầy đủ xem xét sở liệu bao gồm phần tử Chẳng hạn, CSDL nhân quan có mục tuổi, thu nhập có giá trị miền số thực rộng Để trích xuất luật kết hợp, phương pháp thường sử dụng chuyển số liệu CSDL cho CSDL chứa giá trị 0, áp dụng kết có Thí dụ, mục "tuổi", chia miền "trẻ", "trung niên" "già" với miền giá trị tương ứng [0,35], [36,55], [56,80] giá trị CSDL ban đầu rơi vào miền giá trị ta ghi cho vị trí tương ứng CSDL chuyển đổi, ngược lại gán giá trị Phương pháp đơn giản mặt thực thi gây băn khoăn ranh giới cứng mà người ta đưa tiến hành chuyển đổi Chẳng hạn hai người tuổi 35 36 gần mặt tuổi tác lại thuộc hai lớp khác "trẻ" "trung niên", dẫn tới việc đưa luật kết hợp thiếu tính xác Và người ta sử dụng cách tiếp cận mờ để khắc phục điều này, theo đó, giá trị CSDL ban đầu không chuyển đổi giá trị mà chuyển tập giá trị thực thuộc đoạn [0,1], độ thuộc giá trị cho vào tập mờ xác định trước Thí dụ, người tuổi 35 ví dụ trên, CSDL chuyển đổi nhận tập giá trị (trẻ, 0,8), (trung niên, 0,6), (già, 0,1) Phương pháp này, dẫn tới việc xử lý phức tạp dễ chấp nhận mặt trực quan nhiều nhà nghiên cứu quan tâm Mặc dù vậy, theo ý chúng tôi, phương pháp trích xuất luật kết hợp mờ có số điểm yếu cần khắc phục Đó phụ thuộc chủ quan lớn vào việc lựa chọn hàm thuộc cho tập mờ dẫn đến việc xử lý vừa phức tạp vừa thiếu xác TIEU LUAN MOI download : skknchat@gmail.com Trong luận văn này, tơi trình bày việc giải tốn trích xuất luật kết hợp mờ theo cách tiếp cận Đại số gia tử, giá trị độ thuộc mờ nhận thông qua giá trị định lượng ngữ nghĩa, xác định dựa kết nghiên cứu lý thuyết ĐSGT có từ trước TIEU LUAN MOI download : skknchat@gmail.com Chương 1.Tổng quan khai phá liệu toán luật kết hợp 1.1 Khái niệm Khái niệm khai phá liệu đưa vào năm cuối thập kỉ 80 kỉ trước Khái niệm bao hàm loạt kỹ thuật nhằm phát thơng tin có giá trị tiềm ẩn tập liệu lớn (các kho liệu) Về chất, khai phá liệu liên quan đến việc phân tích liệu sử dụng kỹ thuật để tìm mẫu hình có tính quy tập liệu Vào năm 1989, Fayyad, Piatestsky-Shapiro Smyth đưa khái niệm Phát tri thức sở liệu để tồn q trình phát tri thức có ích từ tập liệu lớn; khai phá liệu bước đặc biệt tồn q trình, sử dụng giải thuật đặc biệt để chiết xuất mẫu hay mơ hình từ liệu Ở mức độ trừu tượng định định nghĩa khai phá liệu: Khai phá liệu(data mining) trình tìm kiếm, phát tri thức mới, tiềm ẩn, hữu dụng CSDL lớn Khám phá tri thức (KDD) mục tiêu khai phá liệu, hai khái niệm xem hai lĩnh vực tương đương Nhưng, phân chia cách tách bạch khai phá liệu bước q trình KDD 1.2 Quá trình phát tri thức sở liệu Khám phá tri thức CSDL (KDD) lĩnh vực liên quan đến ngành như: thống kê, học máy, CSDL, thuật tốn, trực quan hố liệu, tính tốn song song hiệu cao,… Mục đích trình phát tri thức rút tri thức từ liệu CSDL lớn Quá trình KDD trình gồm nhiều giai đoạn lặp lại, mà lặp lại xuất bước TIEU LUAN MOI download : skknchat@gmail.com Q trình mơ tả theo hình sau: Hình Các bước trình khai phá tri thức Bước thứ nhất: Hình thành, xác định định nghĩa tốn Là tìm hiểu lĩnh vực ứng dụng từ hình thành tốn, xác định nhiệm vụ cần phải hoàn thành Bước định cho việc rút tri thức hữu ích cho phép chọn phương pháp khai phá liệu thích hợp với mục đích ứng dụng chất liệu Bước thứ hai: Thu thập tiền xử lý liệu Là thu thập xử lý thơ, cịn gọi tiền xử lý liệu nhằm loại bỏ nhiễu (làm liệu), xử lý việc thiếu liệu (làm giàu liệu), biến đổi liệu rút gọn liệu cần thiết, bước thường chiếm nhiều thời gian tồn qui trình phát tri thức Do liệu lấy từ nhiều nguồn khác nhau, khơng đồng nhất, … gây nhầm lẫn Sau bước này, liệu quán, đầy đủ, rút gọn rời rạc hoá Bước thứ ba: Khai phá liệu, rút tri thức Là khai phá liệu, hay nói cách khác trích mẫu hoặc/và mơ hình ẩn liệu Giai đoạn quan trọng, bao gồm công đoạn như: chức năng, nhiệm vụ mục đích khai phá liệu, dùng phương pháp khai phá nào? Thơng thường, tốn khai phá liệu bao gồm: tốn mang tính mơ tả - đưa tính chất chung liệu, toán dự báo - bao gồm việc phát suy diễn dựa liệu có Tùy theo tốn xác định mà ta lựa chọn phương pháp khai phá liệu cho phù hợp Bước thứ tư: Sử dụng tri thức phát Là hiểu tri thức tìm được, đặc biệt làm sáng tỏ mơ tả dự đốn Các bước lặp lặp lại số lần, kết thu được lấy trung bình tất lần thực Các 10 TIEU LUAN MOI download : skknchat@gmail.com “low_FaPe → low_NuK” với độ tin cậy 78.05, luật “few education → low hincome” với độ tin cậy 897 ứng với luật “low_EdLe → low_InHe” với độ tin cậy 89.51  Độ tin cậy hai bảng có khác sử dụng thực chất hàm thuộc khác ngưỡng cao giống Trong bảng (b1) có số luật mà bảng (a) khơng có, thí dụ luật “low_EdLe low_InFa →low_InHe” tác giả [12] xét luật vế trái có mục  Ta trích xuất luật chi tiết cách dễ dàng phụ lục A theo tiếp cận ĐSGT, việc sinh phần tử ngơn ngữ tính toán dễ dàng (theo Mệnh đề 2.1 Định nghĩa 2.5 nêu) không cần phải sinh hàm thuộc theo lý thuyết tập mờ cổ điển (dễ dẫn đến sai sót thí dụ hàm thuộc “trẻ” “rất trẻ” nói đến mục luận văn) Ở fm(c-)=fm(c+)=0.5 µ(very)=0.875, µ(quite)=0.125 4.3 Thử nghiệm thuật toán khai phá luật kết hợp với liệu kinh tế xã hội Việt Nam Trong thử nghiệm tiếp theo, sử dụng liệu báo cáo tiêu kinh tế xã hội (theo tháng) Việt Nam có Trung tâm Thơng tin Thống kê Bộ Kế hoạch Đầu tư Về lý thuyết, liệu phải qua bước tiền xử lý để đưa dạng chuẩn chạy phần mềm Bước tiền xử lý bao gồm cơng đoạn nhằm khác phục sai sót xẩy thu thập liệu gây lỗi thiếu (lỗ chỗ), sai sót điền Dữ liệu gốc bao gồm 520 mục, thời gian từ 01/1995 đến 3/2011 Tuy nhiên có nhiều tiêu nhiều lí ta khơng có số liệu Giá trị thiếu lỗi chủ quan q trình nhập liệu, trường hợp cụ thể giá trị thuộc tính khơng có Về mặt xử lý số liệu ban đầu, có tiêu khơng đầy đủ vài thời điểm ta lấp đầy ô trống phương pháp nội suy (lấy trung bình cộng hai số liệu liền kề) cách thay giá trị thiếu giá trị phổ biến thuộc tính giá trị xảy dựa thống kê Ngồi ra, có số liệu nhầm lẫn lí khác mà gây nên điểm dị thường, ta nghiên cứu để làm trơn kỹ thuật tương tự Tuy nhiên, số liệu ta có số liệu hiệu chỉnh chuẩn nên bước bỏ qua Ta lấy số liệu từ 01/2007 đến 03/2011vì trước nhiều tiêu (Thí dụ mục „Tổng mức bán lẻ hàng hoá doanh thu dịch vụ tiêu dùng theo loại hình kinh 34 TIEU LUAN MOI download : skknchat@gmail.com tế‟) hồn tồn khơng có số liệu, tiêu lại quan trọng việc xác lập mối liên quan đến lạm phát Những số liệu thiếu nhiều bắt buộc phải loại khỏi phạm vi liệu khai thác trước 1/2007 khơng thể vào đâu mà bổ xung (số liệu báo cáo kinh tế Việt Nam, đặc biệt giai đoạn kinh tế tập trung, lại vừa thiếu vừa khơng xác) Tiếp theo, ta loại bỏ tiêu dư thừa Về nguyên tắc, tiêu dẫn xuất tiêu khác, ta loại bỏ Thí dụ có mục “Tổng giá trị sản xuất cơng nghiệp” theo tháng mục liệu “Tốc độ tăng so với tháng trước” không cần thiết cho trình khai phá liệu mục dẫn xuất liệu mục trước (là hiệu tháng sau tháng trước) Cuối cùng, sau khảo sát cụ thể, số liệu đưa vào khai thác gồm 46 mục, thời gian từ 01/2007 đến 03/2011 Bước bước xác định ĐSGT ứng với tiêu (một bước mờ hóa liệu ĐSGT) Trước mắt, đề tài này, ĐSGT xây dựng dừng lại mức 1, tức hạng từ giới hạn mức có độ dài (chỉ gồm phần tử sinh phần tử trung gian, „thấp‟, „cao‟, „trung bình‟) độ dài (bao gồm hạng từ độ dài hạng từ có độ dài „rất thấp‟, „tương đối cao‟, „rất cao‟ ) Việc sinh hạng từ có độ dài lớn dễ dàng (hoàn toàn tự động theo lý thuyết) chi tiết chưa cần thiết đây, đồng thời tăng khối lượng tính tốn lên đáng kể Về bản, việc xây dựng ĐSGT tương ứng dựa kinh nghiệm đánh giá mang tính chủ quan Chẳng hạn, với tiêu thông thường, miền giá trị đoạn [xmax,xmin] từ giá trị lớn xmax đến giá trị nhỏ xmin chia làm ba đoạn nhau, tương ứng với ba hạng từ ĐSGT „cao‟, „trung bình‟, „thấp‟ Để ý lý thuyết ĐSGT, ĐSGT thơng thường (có phần tử sinh „cao‟, „thấp‟ „khỏe‟, „yếu‟ ; „già‟, „trẻ‟ ) tồn đẳng cấu hạng từ Cho nên, việc thiết lập ĐSGT cho tiêu tương tự hầu hết mục Cần nói rõ thêm khơng phải lúc ta thiết lập ĐSGT cách chia miền xác định mà phải vào thực tế mục Thí dụ, mục học vấn, có miền xác định từ lớp đến Tiến sĩ khoa học chẳng hạn chia làm hạng từ „thấp‟ ứng với từ lớp 1lớp 12, „trung bình‟ ứng với đại học, „tương đối cao‟ ứng với Tiến sĩ, „cao‟ ứng với Tiến sĩ khoa học (trong „tương đối cao‟ thực chất hạng từ có đội dài 1, tác động gia tử „tương đối‟ lên phần tử sinh dương „cao‟) Việc chia 35 TIEU LUAN MOI download : skknchat@gmail.com không chia theo thời gian học.Tóm lại việc xác định thơng số ban đầu chủ yếu dựa vào kinh nghiệm, nhiên, nêu, việc xây dựng thông số ĐSGT (bao gồm khoảng mờ phần tử sinh độ đo tính mờ gia tử) có sở xây dựng hàm thuộc tập mờ ra, thơng số cần xây dựng lần, gắn với ngữ nghĩa từ ngữ chặt chẽ so với hàm thuộc lý thuyết tập mờ Sau tiền xử lý liệu, ta bắt tay vào khai thác liệu theo chương trình xây dựng theo thuật tốn nêu Dữ liệu sau chuẩn hóa liệt kê ở phụ lục B luận văn, gồm bảng 46 thuộc tính với số liệu báo cáo thời gian 52 tháng Dưới ví dụ số thuộc tính liệu STT Thuộc tính Tổng giá trị sản xuất công nghiệp giá 1994 điều chỉnh yếu tố mùa vụ Tổng mức bán lẻ hàng hoá doanh thu dịch vụ tiêu dùng theo loại hình kinh tế giá hành điều chỉnh yếu tố mùa vụ Các kết chạy chương trình trích xuất luật kết hợp cho ta thấy yếu tố ảnh hưởng mạnh đến lạm phát Chương trình cha ̣y 246 luâ ̣t với đô ̣ tin câ ̣y đầ u vào là 60% độ hỗ trợ 0.4 Các luật liên quan đến số giá tiêu dùng (CPI) trích xuất (danh sách chi tiết luật ghi phụ lục C luận văn) cho thấy mối liên hệ tương đối số như: Tỉ giá, tổng cung tiền, giá xăng,… với số giá tiêu dùng Chẳng hạn, ta có luật {high_Chỉ số giá tiêu dùng so với kỳ gốc (1995, 2000, 2005 2009) low_Chênh lệch tỉ giá thức thị trường tự do} -> {high_Chỉ số giá đôla Mỹ so với kỳ gốc 1995, 2000 2005} Với độ tin cậy 97,33% Tức CPI tăng cao cộng với chênh lệch tỉ giá (USD) thị trường thức tự thấp thường giá USD cao (với độ tin cậy lên đến 97.33%) Hoặc với luật 36 TIEU LUAN MOI download : skknchat@gmail.com 0.418 {high_Tỉ giá hối đối VND/USD (trung bình tháng) low_Chênh lệch tỉ giá thức thị trường tự do} ->{high_Chỉ số giá tiêu dùng so với kỳ gốc (1995, 2000, 2005 2009)} 62.63 Ta thấy tỉ giá hối đoái VND/USD cao chênh lệch tỉ giá thị trường tự thức thấp nhiều khả số CPI cao (với độ tin cậy 62.63%) Thực tế cho thấy thị trường tiền tệ Việt Nam tỉ giá thị trường tự thường cao tỉ giá hối đoái VND/USD ngân hàng nhà nước quy định Thêm vào Việt Nam nước nhập siêu mức cao, tỉ giá tăng dẫn đến mặt hàng nhập chủ chốt kinh tế tăng giá Ví dụ tỷ giá tăng dẫn đến giá nguyên liệu, nhiên liệu nhập tăng Điều nhiều nhà nghiên cứu từ kinh nghiệm phân tích thực tế Đánh giá thuật tốn khai phá luật kết hợp: Chương trình cha ̣y 246 luâ ̣t với đô ̣ tin câ ̣y đầ u vào là 60% độ hỗ trơ ̣ là 0.4, luật ph ần kế t quả chỉ bao gồ m những luâ ̣t liên quan đế n chỉ số giá tiêu dùng (chi tiết luật liệt kê phụ lục C luận văn) Các luật liên quan đến số giá tiêu dùng (CPI) trích xuất cho thấy mối liên hệ tương đối số như: Tỉ giá, tổng cung tiền, giá xăng,… với số giá tiêu dùng Nhìn chung luật liên quan đến số CPI rút từ sở liệu khảo khơng có yếu tố bất ngờ Tuy nhiên, thứ nhất, việc khai phá sử dụng phương pháp khai phá liệu để thu nhận thông tin quy luật kinh tế ta quan tâm nhờ thuật tốn đơn giản (khơng có mơ hình kinh tế phức tạp) Ngoài ra, kết này, đánh giá mức độ ảnh hưởng yếu tố khác tới lạm phát nhờ vào độ tin cậy luật 37 TIEU LUAN MOI download : skknchat@gmail.com Kết luận Trong luận văn này, đưa cách tiếp cận ĐSGT cho tốn trích xuất luật kết hợp mờ từ CSDL mà theo quan điểm chúng tơi có ưu điểm so với việc sử dụng logic mờ khai phá luật kết hợp là: Sử dụng ĐSGT xác định giá trị thuộc phần tử CSDL cách tự nhiên đơn giản so với cách tiếp cận lý thuyết tập mờ cổ điển Khối lượng tính tốn giảm đáng kể đạt kết tương đương, chưa kể cần ta trích xuất luật mang tính chi tiết Căn vào kết thử nghiệm, thấy bước đầu việc ứng dụng ĐSGT khai phá liệu mang lại kết khả quan, giúp cho ta thêm cơng cụ có sở tốn tốt, khơng phức tạp có hiệu Thử nghiệm thuật tốn khai phá luật kết hợp dựa đại số gia tử với liệu FAMR95 cho thấy hồn tồn sử dụng đại số gia tử thay cho logic mờ khai phá luật kết hợp Việc sử dụng đại số gia tử để gán nhãn xác định độ thuộc nhãn gán đơn giản dễ hiểu với người sử dụng nhiều so với việc xây dựng hàm mờ để tính tốn độ thuộc logic mờ Kết thử nghiệm với liệu kinh tế Việt Nam chứng minh sử dụng thuật toán khai phá luật kết hợp dựa đại số gia tử nhiều loại liệu thực tế khác Thêm vào đó, ta sử dụng thuật toán khai phá liệu dựa đại số gia tử cơng cụ để bóc tách thông tin từ liệu thực tế cách nhanh chóng mà khơng cần phải sử dụng mơ hình kinh tế phức tạp, qua thơng tin bóc tách (luật kết hợp) ta nghiên cứu xa mối quan hệ thuộc tính liệu để từ rút tri thức quan trọng Tuy nhiên, luận văn tồn nhiều hạn chết việc nghiên cứu ứng dụng thuật toán, cần tiếp tục nghiên cứu tiến hành làm việc với CSDL lớn hơn, đầy đủ hơn; đồng thời với việc tiếp tục nghiên cứu lý thuyết cải tiến thuật tốn để đảm bảo thời gian tính nhanh Thêm vào việc sử dụng tỷ lệ gia tử chung cho thuộc tính liệu giúp giảm thời gian tính tốn làm giảm độ xác luật rút cần phải nghiên cứu thêm việc xử lý tỷ lệ gia tử việc gán nhãn thuộc tính tính tốn độ thuộc thuộc tính gán nhãn sở liệu 38 TIEU LUAN MOI download : skknchat@gmail.com Tài liệu tham khảo [1] N Cat Ho, Fuzziness in Structure of Linguistic Truth Values: A Foundation for Development of Fuzzy Reasoning, Proc of ISMVL 87, Boston, USA, (IEEE Computer Society Press, New York), 1987, 326-335 [2] N Cat Ho and W Wechler, Hedge algebras: an algebraic approach to structure of sets of lingguistic truth values Fuzzy Sets and Systems 35(1990), 281-293 [3] N Cat Ho and W Wechler, Extended hedge algebras and their application to Fuzzy logic Fuzzy Sets and Systems 52(1992), 259-281 [4] Nguyễn Cát Hồ, Trần Thái Sơn, Về khoảng cách giá trị biến ngôn ngữ Đại số gia tử toán xếp mờ, Tạp chí Tin học Điều khiển học, 11(1) 1995 10-20 [5] Nguyễn Cát Hồ, Trần Thái Sơn, Logic mờ định mờ dựa cấu trúc thứ tự giá trị ngơn ngữ, Tạp chí Tin học Điều khiển học, Tập 9, số 4, (1993),1-9 [6] N Cát Hồ, H.Văn Nam, T.D Khang and L.H Chau, Hedge Algebras, Linguistic- valued Logic and their Application to Fuzzy Reasoning, Inter J of Uncertainty, Fuzziness and Knowledge-Based System, Vol 7, No.4 (1999) 347-361 [7] Trần Thái Sơn, Lập luận xấp xỉ với giá trị biến ngôn ngữ, Tạp chí Tin học Điều khiển học,15(2) 1999 6-10 [8] Nguyen Cat Ho, Tran Thai Son, Tran Dinh Khang, Le Xuan Viet, Fuzziness Measure, Quantified Semantic Mapping And Interpolative Method of Approximate Reasoning in Medical Expert Systems, Tạp chí tin học điều khiển, T.18(3)(2002), 237-252 [9] N.C Hồ, N.V Long, Đại số gia tử đầy đủ tuyến tính, Tạp chí Tin học Điều khiển học, T.19(3)(2003), 274-280 [10] N.C Hồ, N.V Long, Cơ sở toán học độ đo tính mờ thơng tin ngơn ngữ, Tạp chí Tin học Điều khiển học, T.20(1) 64-72 [11] R.Srikant and R.Agrawal Mining quantitative association rules in larse relational tables, The 1996 ACM SIGMOD International Conference on Managment of Data Montreal Canada, June 1996, pp 1-12 [12] Hannes Verlinda, Martine De Cock and Raymond Buote, Fuzzy Versus Quantiative Association Rules: A Fair Data-Driven Comparison, IEEE Transactions on SMC, vol 36, No3, June 2006, 679684 [13] David L Olson and Yanhong Li, Mining Fuzzy Weighted Association Rules, Proccedings of the 40th Hawai International Conference on System Sciences 2007, 1-9 [14] L A Zadeh, The concept of linguistic variable and its application to approximate reasoning Inform Sci (I) (1975) 199-249; (II) (1975) 310 -357; (III) (1975) 43-80 39 TIEU LUAN MOI download : skknchat@gmail.com Phụ lục A Danh sách luật thử nghiệm với liệu FAM95 Conf Rule Supp 78.03 qu_hi_Age → ve_lo_NuKi 0.13105318 78.1 ve_hi_Age → ve_lo_NuKi 0.082249284 69.13 ve_lo_InFa → ve_lo_InHe 0.43760595 68.99 ve_lo_InHe → ve_lo_InFa 0.43760595 68.68 ve_lo_Age → ve_lo_InFa 0.09446891 68.76 ve_hi_Age → ve_lo_InHe 0.064412944 66.98 ve_hi_Age → ve_lo_InFa 0.06274383 66.49 ve_lo_FaPe → ve_lo_InFa 0.2789387 63.97 ve_lo_NuKi → ve_lo_InFa 0.39723718 63.86 qu_lo_Age → ve_lo_InFa 0.18667413 64.17 ve_lo_NuKi → ve_lo_InHe 0.39849037 65.04 ve_lo_FaPe → ve_lo_InHe 0.27287552 → ve_lo_InHe 0.093199834 ve_lo_InFa 0.010170757 67.76 ve_lo_Age 62.9 middle_NuKi → 62.75 ve_lo_InFa → ve_lo_NuKi 0.39723718 62.82 ve_lo_InHe → ve_lo_NuKi 0.39849037 62.54 qu_lo_FaPe → ve_lo_InHe 0.23233615 63 qu_lo_Age → ve_lo_InHe 0.18472897 62.37 qu_hi_EdLe → ve_lo_NuKi 0.18516514 61.92 middle_NuKi → ve_lo_InHe 0.010012479 62.17 qu_hi_Age → 0.104422025 61.87 qu_lo_NuKi ve_lo_InHe → ve_lo_InFa 0.13953367 40 TIEU LUAN MOI download : skknchat@gmail.com Phụ lục B Danh sách thuộc tính liệu kinh tết thực nghiệm STT Thuộc tính Tổng giá trị sản xuất công nghiệp giá 1994 điều chỉnh yếu tố mùa vụ Tổng mức bán lẻ hàng hoá doanh thu dịch vụ tiêu dùng theo loại hình kinh tế giá hành điều chỉnh yếu tố mùa vụ Chỉ số giá tiêu dùng so với kỳ gốc (1995 2000 2005 2009) Chỉ số giá vàng so với kỳ gốc (1995 2000 2005 2009) Chỉ số giá đôla Mỹ so với kỳ gốc 1995 2000 2005 Xăng A92 Xăng A90 Dầu diesel Kim ngạch xuất hàng hoá theo thành phần kinh tế 10 Kim ngạch nhập hàng hoá 11 Khối lượng vốn đầu tư từ ngân sách Nhà nước thực (giá hành) 12 Tổng cung tiền - Money supply (M2) 13 Tổng tiền - Money 14 Các loại giấy tờ có giá - Quasi-money 15 Tổng cung tiền - Money supply (M2) 16 Trong đó: Tổng tiền gửi (nội ngoại tệ) - Total deposits 17 Tiền đồng lưu thông - Dong liquidity 18 Tiền đồng ngân hàng - Currency outside banks 19 Tiền đồng gửi ngân hàng - Deposits 41 TIEU LUAN MOI download : skknchat@gmail.com 20 Tiền gửi tổ chức - Demand deposits 21 Tiền gửi cá nhân - Time and savings deposits 22 Ngoại tệ gửi ngân hàng - Foreign currency deposits 23 Tổng cầu tiền - Money demand (M2) 24 Tài sản nước rịng - Foreign assets (net) 25 Tài sản có - Foreign assets 26 Tài sản nợ - Foreign liabilities 27 Tài sản nội địa ròng - Domestic assets (net) 28 Tín dụng nội địa - Domestic credit 29 Khu vực Chính phủ - Net claims on government 30 Nền kinh tế - Credit to the economy 31 Khoản mục khác - Other items net 32 Huy động vốn 33 Lãi suất tái cấp vốn 34 Lãi suất 35 Lãi suất chiết khấu 36 Lãi suất Kho bạc 37 Lãi vay 38 Lãi suất thực 39 Tỉ giá hối đối VND/USD (trung bình tháng) 40 Tỉ giá hối đối VND/USD (cuối kỳ) 41 Tỉ giá hối đoái VND/USD (thị trường tự Hà Nội) 42 TIEU LUAN MOI download : skknchat@gmail.com 42 Chênh lệch tỉ giá thức thị trường tự 43 Giá dầu thô giới 44 Giá gạo giới 45 Chỉ số giá lượng 46 Chỉ số giá nông sản 43 TIEU LUAN MOI download : skknchat@gmail.com Phụ lục C Kết chương trình trích xuất luật kết hợp với liệu chuyển đổi Cấ u trúc luật kế t quả bao gồ m:  Mỗi luật nằm ô bảng phía  Các thơng số theo thứ thự từ xuống : Độ hỗ trợ-> vế trái luâ ̣t -> vế phải luâ ̣t -> Độ tin cậy Chương trình cha ̣y 246 luâ ̣t với đô ̣ tin câ ̣y đầ u vào là 60% độ hỗ trợ 0.4 Dưới liệt kê luật có liên quan đến yếu tố ảnh hưởng đến lạm phát (chỉ số CPI tăng cao) 0.428 {high_Chỉ số giá tiêu dùng so với kỳ gốc (1995, 2000, 2005 2009) low_Chênh lệch tỉ giá thức thị trường tự do} -> {high_Chỉ số giá đôla Mỹ so với kỳ gốc 1995, 2000 2005} 97.33 0.581 {high_Chỉ số giá tiêu dùng so với kỳ gốc (1995, 2000, 2005 2009) high_Tỉ giá hối đoái VND/USD (trung bình tháng)} -> {high_Chỉ số giá đơla Mỹ so với kỳ gốc 1995, 2000 2005} 96.89 0.414 {high_Chỉ số giá tiêu dùng so với kỳ gốc (1995, 2000, 2005 2009) low_Khối lượng vốn đầu tư từ ngân sách Nhà nước thực (giá hành)} -> {high_Chỉ số giá đôla Mỹ so với kỳ gốc 1995, 2000 2005} 97.14 0.612 {high_Chỉ số giá tiêu dùng so với kỳ gốc (1995, 2000, 2005 2009)} -> {high_Chỉ số giá đôla Mỹ so với kỳ gốc 1995, 2000 2005} 96.77 44 TIEU LUAN MOI download : skknchat@gmail.com 0.418 {high_Chỉ số giá tiêu dùng so với kỳ gốc (1995, 2000, 2005 2009) low_Chênh lệch tỉ giá thức thị trường tự do} -> {high_Tỉ giá hối đối VND/USD (trung bình tháng)} 95.11 0.581 {high_Chỉ số giá tiêu dùng so với kỳ gốc (1995, 2000, 2005 2009) high_Chỉ số giá đôla Mỹ so với kỳ gốc 1995, 2000 2005} -> {high_Tỉ giá hối đoái VND/USD (trung bình tháng)} 94.85 0.581 {high_Chỉ số giá tiêu dùng so với kỳ gốc (1995, 2000, 2005 2009)} -> {high_Chỉ số giá đôla Mỹ so với kỳ gốc 1995, 2000 2005 high_Tỉ giá hối đoái VND/USD (trung bình tháng)} 91.79 0.599 {high_Chỉ số giá tiêu dùng so với kỳ gốc (1995, 2000, 2005 2009)} -> {high_Tỉ giá hối đối VND/USD (trung bình tháng)} 94.73 0.418 {high_Chỉ số giá tiêu dùng so với kỳ gốc (1995, 2000, 2005 2009) high_Tỉ giá hối đối VND/USD (trung bình tháng)}-> {low_Chênh lệch tỉ giá thức thị trường tự do} 69.56 0.428 {high_Chỉ số giá tiêu dùng so với kỳ gốc (1995, 2000, 2005 2009) high_Chỉ số giá đôla Mỹ so với kỳ gốc 1995, 2000 2005} -> {low_Chênh lệch tỉ giá thức thị trường tự do} 69.69 45 TIEU LUAN MOI download : skknchat@gmail.com 0.439 {high_Chỉ số giá tiêu dùng so với kỳ gốc (1995, 2000, 2005 2009)} -> {low_Chênh lệch tỉ giá thức thị trường tự do} 69.28 0.428 {high_Chỉ số giá tiêu dùng so với kỳ gốc (1995, 2000, 2005 2009)} -> {high_Chỉ số giá đôla Mỹ so với kỳ gốc 1995, 2000 2005 low_Chênh lệch tỉ giá thức thị trường tự do} 67.44 0.414 {high_Chỉ số giá tiêu dùng so với kỳ gốc (1995, 2000, 2005 2009) high_Chỉ số giá đôla Mỹ so với kỳ gốc 1995, 2000 2005} -> {low_Khối lượng vốn đầu tư từ ngân sách Nhà nước thực (giá hành)} 67.43 0.418 {high_Chỉ số giá tiêu dùng so với kỳ gốc (1995, 2000, 2005 2009)} -> {high_Tỉ giá hối đối VND/USD (trung bình tháng) low_Chênh lệch tỉ giá thức thị trường tự do} 65.9 0.418 {high_Tỉ giá hối đối VND/USD (trung bình tháng) low_Chênh lệch tỉ giá thức thị trường tự do}-> {high_Chỉ số giá tiêu dùng so với kỳ gốc (1995, 2000, 2005 2009)} 62.63 0.581 {high_Chỉ số giá đôla Mỹ so với kỳ gốc 1995, 2000 2005 high_Tỉ giá hối đối VND/USD (trung bình tháng)} -> {high_Chỉ số giá tiêu dùng so với kỳ gốc (1995, 2000, 2005 2009)} 62.77 46 TIEU LUAN MOI download : skknchat@gmail.com 0.599 {high_Tỉ giá hối đối VND/USD (trung bình tháng)} -> {high_Chỉ số giá tiêu dùng so với kỳ gốc (1995, 2000, 2005 2009)} 63.04 0.414 {high_Chỉ số giá tiêu dùng so với kỳ gốc (1995, 2000, 2005 2009)} -> {high_Chỉ số giá đôla Mỹ so với kỳ gốc 1995, 2000 2005 low_Khối lượng vốn đầu tư từ ngân sách Nhà nước thực (giá hành)} 65.25 0.426 {high_Chỉ số giá tiêu dùng so với kỳ gốc (1995, 2000, 2005 2009)} -> {low_Khối lượng vốn đầu tư từ ngân sách Nhà nước thực (giá hành)} 67.18 0.428 {high_Chỉ số giá đôla Mỹ so với kỳ gốc 1995, 2000 2005 low_Chênh lệch tỉ giá thức thị trường tự do} -> {high_Chỉ số giá tiêu dùng so với kỳ gốc (1995, 2000, 2005 2009)} 62.12 0.439 {low_Chênh lệch tỉ giá thức thị trường tự do} -> {high_Chỉ số giá tiêu dùng so với kỳ gốc (1995, 2000, 2005 2009)} 62.3 0.581 {high_Tỉ giá hối đối VND/USD (trung bình tháng)} -> {high_Chỉ số giá tiêu dùng so với kỳ gốc (1995, 2000, 2005 2009) high_Chỉ số giá đôla Mỹ so với kỳ gốc 1995, 2000 2005} 61.08 47 TIEU LUAN MOI download : skknchat@gmail.com 0.414 {high_Chỉ số giá đôla Mỹ so với kỳ gốc 1995, 2000 2005 low_Khối lượng vốn đầu tư từ ngân sách Nhà nước thực (giá hành)} -> {high_Chỉ số giá tiêu dùng so với kỳ gốc (1995, 2000, 2005 2009)} 60.83 0.426 {low_Khối lượng vốn đầu tư từ ngân sách Nhà nước thực (giá hành)} -> {high_Chỉ số giá tiêu dùng so với kỳ gốc (1995, 2000, 2005 2009)} 61.11 0.612 {high_Chỉ số giá đôla Mỹ so với kỳ gốc 1995, 2000 2005} -> {high_Chỉ số giá tiêu dùng so với kỳ gốc (1995, 2000, 2005 2009)} 62.5 48 TIEU LUAN MOI download : skknchat@gmail.com ... khai phá luật kết hợp dựa lý thuyết đại số gia tử 22 3.1 Giới thiệu lý thuyết đại số gia tử 22 3.2 Tiếp cận đại số gia tử khai phá liệu 25 3.3 Thuật toán khai phá luật. .. ứng dụng khai phá luật kết hợp mờ 21 TIEU LUAN MOI download : skknchat@gmail.com Chương Thuật toán khai phá luật kết hợp dựa lý thuyết đại số gia tử 3.1 Giới thiệu lý thuyết đại số gia tử Ý tưởng... trình bày trên, đến thuật tốn trích xuất luật kết hợp cụ thể trình bày mục sau 3.3 Thuật toán khai phá luật kết hợp dựa lý thuyết đại số gia tử Ký hiệu tham số thuật toán sau n: Tổng số giao dịch

Ngày đăng: 27/06/2022, 15:39

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
[7] Trần Thái Sơn, Lập luận xấp xỉ với giá trị của biến ngôn ngữ, Tạp chí Tin học và Điều khiển học,15(2). 1999 6-10 Sách, tạp chí
Tiêu đề: Tạp chí Tin học và Điều khiển "học
[9] N.C. Hồ, N.V. Long, Đại số gia tử đầy đủ tuyến tính, Tạp chí Tin học và Điều khiển học, T.19(3)(2003), 274-280 Sách, tạp chí
Tiêu đề: Tạp chí Tin học và Điều khiển học
Tác giả: N.C. Hồ, N.V. Long, Đại số gia tử đầy đủ tuyến tính, Tạp chí Tin học và Điều khiển học, T.19(3)
Năm: 2003
[10] N.C. Hồ, N.V. Long, Cơ sở toán học của độ đo tính mờ của thông tin ngôn ngữ, Tạp chí Tin học và Điều khiển học, T.20(1) 64-72 Sách, tạp chí
Tiêu đề: Tạp chí Tin học và "Điều khiển học
[11] R.Srikant and R.Agrawal. Mining quantitative association rules in larse relational tables, The 1996 ACM SIGMOD International Conference on Managment of Data Montreal Canada, June 1996, pp 1-12 Sách, tạp chí
Tiêu đề: The 1996 "ACM SIGMOD International Conference on Managment of Data Montreal Canada
[12] Hannes Verlinda, Martine De Cock and Raymond Buote, Fuzzy Versus Quantiative Association Rules: A Fair Data-Driven Comparison, IEEE Transactions on SMC, vol 36, No3, June 2006, 679- 684 Sách, tạp chí
Tiêu đề: IEEE Transactions on SMC, vol 36, No3
[14] L. A. Zadeh, The concept of linguistic variable and its application to approximate reasoning. Inform. Sci. (I) 8 (1975) 199-249; (II) 8 (1975) 310 -357; (III) 9 (1975) 43-80 Sách, tạp chí
Tiêu đề: Inform. "Sci
[1] N. Cat Ho, Fuzziness in Structure of Linguistic Truth Values: A Foundation for Development of Fuzzy Reasoning, Proc. of ISMVL 87, Boston, USA, (IEEE Computer Society Press, New York), 1987, 326-335 Khác
[2] N. Cat Ho and W. Wechler, Hedge algebras: an algebraic approach to structure of sets of lingguistic truth values. Fuzzy Sets and Systems 35(1990), 281-293 Khác
[3] N. Cat Ho and W. Wechler, Extended hedge algebras and their application to Fuzzy logic. Fuzzy Sets and Systems 52(1992), 259-281 Khác
[4] Nguyễn Cát Hồ, Trần Thái Sơn, Về khoảng cách giữa các giá trị của biến ngôn ngữ trong Đại số gia tử và bài toán sắp xếp mờ, Tạp chí Tin học và Điều khiển học, 11(1). 1995 10-20 Khác
[5] Nguyễn Cát Hồ, Trần Thái Sơn, Logic mờ và quyết định mờ dựa trên cấu trúc thứ tự của giá trị ngôn ngữ, Tạp chí Tin học và Điều khiển học, Tập 9, số 4, (1993),1-9 Khác
[6] N. Cát Hồ, H.Văn Nam, T.D Khang and L.H. Chau, Hedge Algebras, Linguistic- valued Logic and their Application to Fuzzy Reasoning, Inter. J. of Uncertainty, Fuzziness and Knowledge-Based System, Vol 7, No.4 (1999) 347-361 Khác
[8] Nguyen Cat Ho, Tran Thai Son, Tran Dinh Khang, Le Xuan Viet, Fuzziness Measure, Quantified Semantic Mapping And Interpolative Method of Approximate Reasoning in Medical Expert Systems, Tạp chí tin học và điều khiển, T.18(3)(2002), 237-252 Khác
[13] David L. Olson and Yanhong Li, Mining Fuzzy Weighted Association Rules, Proccedings of the 40th Hawai International Conference on System Sciences 2007, 1-9 Khác
62.9 middle_NuKi → ve_lo_InFa 0.010170757 62.75 ve_lo_InFa → ve_lo_NuKi 0.39723718 62.82 ve_lo_InHe → ve_lo_NuKi 0.39849037 62.54 qu_lo_FaPe → ve_lo_InHe 0.23233615 Khác
63. qu_lo_Age → ve_lo_InHe 0.18472897 62.37 qu_hi_EdLe → ve_lo_NuKi 0.18516514 61.92 middle_NuKi → ve_lo_InHe 0.010012479 62.17 qu_hi_Age → ve_lo_InHe 0.104422025 61.87 qu_lo_NuKi → ve_lo_InFa 0.13953367 Khác

HÌNH ẢNH LIÊN QUAN

Quá trình đó có thể được mô tả theo hình sau: - (LUẬN văn THẠC sĩ) khai phá luật kết hợp dựa trên lý thuyết đại số gia tử
u á trình đó có thể được mô tả theo hình sau: (Trang 10)
Hình 2 Mô hình ứng dụng luật - (LUẬN văn THẠC sĩ) khai phá luật kết hợp dựa trên lý thuyết đại số gia tử
Hình 2 Mô hình ứng dụng luật (Trang 13)
Bảng 1 Ví dụ dữ liệu mẫu - (LUẬN văn THẠC sĩ) khai phá luật kết hợp dựa trên lý thuyết đại số gia tử
Bảng 1 Ví dụ dữ liệu mẫu (Trang 18)
Bảng 2 Dữ liệu được chuyển về dạng nhị phân - (LUẬN văn THẠC sĩ) khai phá luật kết hợp dựa trên lý thuyết đại số gia tử
Bảng 2 Dữ liệu được chuyển về dạng nhị phân (Trang 19)
Hình 3 Ví dụ hàm thuộc - (LUẬN văn THẠC sĩ) khai phá luật kết hợp dựa trên lý thuyết đại số gia tử
Hình 3 Ví dụ hàm thuộc (Trang 26)
Bảng 4 Nhãn ngôn ngữ tương ứng - (LUẬN văn THẠC sĩ) khai phá luật kết hợp dựa trên lý thuyết đại số gia tử
Bảng 4 Nhãn ngôn ngữ tương ứng (Trang 29)
Bảng 5 Danh sách các trường trong tập dữ liệu FAM95 - (LUẬN văn THẠC sĩ) khai phá luật kết hợp dựa trên lý thuyết đại số gia tử
Bảng 5 Danh sách các trường trong tập dữ liệu FAM95 (Trang 31)
Bảng 6 Danh sách 10 luật có độ tin cậy cao nhất - (LUẬN văn THẠC sĩ) khai phá luật kết hợp dựa trên lý thuyết đại số gia tử
Bảng 6 Danh sách 10 luật có độ tin cậy cao nhất (Trang 32)
Trong đó các dữ liệu các trường được lưu theo thứ tự trong bảng liệt kê ở trên. Mỗi bản ghi được đánh dấu bằng kí tự enter - (LUẬN văn THẠC sĩ) khai phá luật kết hợp dựa trên lý thuyết đại số gia tử
rong đó các dữ liệu các trường được lưu theo thứ tự trong bảng liệt kê ở trên. Mỗi bản ghi được đánh dấu bằng kí tự enter (Trang 32)
Hình 4 So sánh 2 bảng kết quả của 2 thuật toán - (LUẬN văn THẠC sĩ) khai phá luật kết hợp dựa trên lý thuyết đại số gia tử
Hình 4 So sánh 2 bảng kết quả của 2 thuật toán (Trang 33)
2 Tổng mức bán lẻ hàng hoá và doanh thu dịch vụ tiêu dùng theo loại hình kinh tế giá - (LUẬN văn THẠC sĩ) khai phá luật kết hợp dựa trên lý thuyết đại số gia tử
2 Tổng mức bán lẻ hàng hoá và doanh thu dịch vụ tiêu dùng theo loại hình kinh tế giá (Trang 41)

TRÍCH ĐOẠN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN