Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 56 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
56
Dung lượng
1,36 MB
Nội dung
ĐẠI HỌC HUẾ TRƯỜNG ĐẠI HỌC KHOA HỌC NGUYỄN ĐỨC HIỂN XÂY DỰNG MƠ HÌNH LAI CHO BÀI TỐN DỰ BÁO THEO TIẾP CẬN MỜ HƯỚNG DỮ LIỆU CHUYÊN NGÀNH: KHOA HỌC MÁY TÍNH MÃ SỐ: 9480101 LUẬN ÁN TIẾN SĨ KHOA HỌC MÁY TÍNH HUẾ - NĂM 2019 Cơng trình hồn thành tại: Trường Đại học Khoa học, Đại học Huế Người hướng dẫn khoa học: PGS.TS Lê Mạnh Thạnh Phản biện 1: Phản biện 2: Phản biện 3: Luận án bảo vệ Hội đồng chấm luận án cấp Đại học Huế, họp Đại học Huế vào lúc …… …… ngày……tháng……năm 2019 Có thể tìm hiểu luận án tại: - Thư viện Quốc gia Việt Nam - Thư viện Trường Đại học Khoa học, Đại học Huế MỞ ĐẦU Tính cấp thiết đề tài Dự báo khoa học nghệ thuật tiên đoán việc xảy tương lai, sở phân tích khoa học liệu thu thập Thuật ngữ dự báo (forecasting) thường sử dụng ngữ cảnh q trình đưa dự đốn (prediction) tương lai dựa liệu khứ tại, nhiên nguyên tắc hồn tồn ứng dụng để dự đốn biến chéo Có hai loại kỹ thuật dự báo: kỹ thuật dự báo định tính kỹ thuật dự báo định lượng Kỹ thuật dự báo định lượng dựa việc phân tích liệu lịch sử để vẽ mơ hình hóa chiều hướng vận động đối tượng phù hợp với mô hình tốn học đó, đồng thời sử dụng mơ hình cho việc dự báo xu hướng tương lai Các kỹ thuật phân tích hồi quy cho phép xây dựng mơ hình hồi quy mơ tả mối quan hệ biến cần dự báo Y với biến độc lập X Các mơ hình máy học thống kê máy học véc-tơ hỗ trợ, mạng nơ-ron nhân tạo, … nhiều nhà khoa học nghiên cứu áp dụng với hy vọng xây dựng mơ hình dự báo có độ xác cao Những nghiên cứu xây dựng mơ hình dựa luật mờ (fuzzy rulebased models) hướng tiếp cận để xây dựng hệ thống hỗ trợ dự báo, dự báo điều khiển Thành phần cốt lõi, mô hình mờ sở tri thức mơ hình đó, mà cụ thể tập luật mờ lập luận hay suy diễn Về có hai cách xây dựng sở tri thức mơ hình mờ: Thứ nhất, thu thập tri thức dựa kinh nghiệm chuyên gia, phát biểu dạng luật, quy tắc, gọi chung tri thức chuyên gia; Thứ hai tích lũy, tổng hợp hoàn thiện sở tri thức dựa việc khám phá tri thức từ liệu thực tế, gọi tri thức liệu Những mơ hình mờ xây dựng theo hướng tiếp cận khám phá tri thức từ liệu gọi mơ hình mờ hướng liệu (data driven fuzzy models) Nhiều nghiên cứu cơng bố chứng tỏ mơ hình mờ hướng liệu mang lại hiệu việc giải tốn nhận dạng, điều khiển, phân tích dự đoán, … dựa vào kỹ thuật phân cụm, phân lớp, hay hồi quy Qua tổng hợp đánh giá kết nghiên cứu mơ hình mờ hướng liệu, giải pháp tích hợp kiểu khác tri thức tiên nghiệm để cải thiện mô hình, vấn đề xây dựng mơ hình mờ hướng liệu dựa máy học véc-tơ hỗ trợ, cho thấy: cần thiết phải nghiên cứu giải pháp tích hợp kiểu khác tri thức tiên nghiệm vào mơ hình mờ hướng liệu trích xuất từ SVM, đồng thời nghiên cứu xây dựng mơ hình lai ghép dựa mơ hình mờ hướng liệu để giải toán dự báo thực tế Mục tiêu đối tượng nghiên cứu Mục tiêu nghiên cứu luận án là: Xây dựng mơ hình mờ hướng liệu lai ghép dựa việc tích hợp tri thức tiên nghiệm với mơ hình mờ hướng liệu cho toán dự báo hồi quy Cụ thể, nghiên cứu nội dung chủ yếu sau: - Nghiên cứu phương pháp xây dựng mơ hình mờ từ liệu, cụ thể xây dựng mơ hình mờ dựa máy học véc-tơ hỗ trợ - Nghiên cứu phương thức cho phép tích hợp kiểu khác tri thức tiên nghiệm mơ hình mờ hướng liệu dựa máy học véc-tơ hỗ trợ - Đề xuất mơ hình lai ghép sở mơ hình mờ hướng liệu trích xuất từ máy học véc-tơ hỗ trợ cho toán dự báo hồi quy áp dụng để giải toán dự báo liệu chuỗi thời gian tài Cách tiếp cận phương pháp nghiên cứu Luận án tập trung tiếp cận phương pháp chính: Phương pháp tổng hợp phân tích; Phương pháp mơ hình hóa; Phương pháp thực nghiệm, đánh giá kết rút kết luận Phạm vi đối tượng nghiên cứu Luận án xác định phạm vi đối tượng nghiên cứu sau: - Nghiên cứu phương pháp xây dựng mơ hình mờ từ liệu o Các mơ hình dựa luật mờ (Fuzzy rule-based models): Mamdani, TSK; o Trích xuất mơ hình mờ TSK từ liệu dựa vào máy học véctơ hỗ trợ - thuật tốn f-SVM (SVM-based fuzzy models); o Tối ưu hóa tham số mơ hình mờ hướng liệu: thuật toán di truyền, thuật toán Gradient descent; o Triển khai thực nghiệm đánh giá mơ hình - Nghiên cứu giải pháp cải thiện hiệu mơ hình mờ hướng liệu cách tích hợp tri thức tiên nghiệm o Các kịch tích hợp tri thức có trước vào mơ hình máy học cho phép cải thiện hiệu mơ hình: Explanation-based learning (EBL), Relevance-based learning (RBL), Knowledge-based inductive learning (KBIL); o Xác định tri thức tiên nghiệm cụ thể để tích hợp vào mơ hình mờ dựa máy học véc-tơ hỗ trợ; o Đề xuất triển khai thực nghiệm thuật tốn trích xuất mơ hình mờ dựa máy học véc-tơ hỗ trợ có tích hợp tri thức tiên nghiệm – SVM-IF - Nghiên cứu giải pháp lai ghép kỹ thuật phân cụm (SOM, kMeans) với mơ hình mờ hướng liệu dựa máy học véc-tơ hỗ trợ để giải toán dự báo liệu chuỗi thời gian o Nghiên cứu xây dựng mơ hình mờ dự báo hồi quy cho toán dự báo liệu chuỗi thời gian; o Đề xuất mơ hình mờ lai ghép kỹ thuật phân cụm với mơ hình mờ hướng liệu để giải toán dự báo liệu chuỗi thời gian; o Áp dụng mơ hình lai ghép đề xuất để giải toán dự báo liệu chuỗi thời gian tài Đóng góp luận án Thứ nhất, đề xuất thuật toán f-SVM để trích xuất tập luật mờ từ liệu huấn luyện dựa vào máy học vé-tơ hỗ trợ hồi quy Quy trình trích xuất tập luật mờ có cho phép lựa chọn giá trị tham số epsilon phù hợp thông qua thực nghiệm cách sử dụng tập liệu xác thực Thứ hai, đề xuất thuật toán SVM-IF cho phép trích xuất tập luật mờ từ liệu huấn luyện dựa vào máy học véc-tơ hỗ tợ hồi quy có tích hợp tri thức tiên nghiệm Thuật tốn giải pháp tích hợp tri thức tiên nghiệm vào trình trích xuất tập luật mờ từ liệu để đảm bảo tính diễn dịch tập luật Thứ ba, đề xuất mơ hình lai ghép kỹ thuật phân cụm với mơ hình mờ hướng liệu dựa máy học véc-tơ hỗ trợ hồi quy để giải toán dự báo liệu chuỗi thời gian Mơ hình đề xuất áp dụng để giải toán dự báo liệu chuỗi thời gian tài Bố cục luận án Phần mở đầu luận án trình bày tổng quan nội dung nghiên cứu luận án, bao gồm nghiên cứu liên quan thách thức đặt vấn đề nghiên cứu Chương trình bày kết nghiên cứu xây dựng thuật tốn trích xuất tập luật mờ từ liệu dựa máy học véc-tơ hỗ trợ hồi quy (thuật toán f-SVM), có đề xuất giải pháp lựa chọn giá trị tham số epsilon tối cách sử dụng tập liệu xác thực Nội dung Chương liên quan đến kết nghiên cứu giải pháp tích hợp tri thức tiên nghiệm để cải thiện mơ hình mờ hướng liệu đề xuất thuật toán SVM-IF Chương trình bày mơ hình lai ghép kỹ thuật phân cụm với mơ hình mờ trích xuất từ liệu dựa vào máy học véc-tơ hỗ trợ để giải toán dự báo liệu chuỗi thời gian Phần kết luận trình bày tóm tắt đóng góp luận án ý nghĩa khoa học thực tiễn Đồng thời điểm tồn vấn đề nghiên cứu số định hướng nghiên cứu Chương TRÍCH XUẤT MƠ HÌNH MỜ HƯỚNG DỮ LIỆU DỰA TRÊN MÁY HỌC VÉC-TƠ HỖ TRỢ 1.1 Cơ logic mờ Lý thuyết tập mờ lần Lotfi A Zadeh giới thiệu cơng trình nghiên cứu vào năm 1965 Luật mờ “IF-THEN” phát triển dựa lý thuyết tập mờ ứng dụng thành công nhiều lĩnh vực 1.2 Mơ hình mờ hướng liệu Mơ hình mờ được xây dựng với phần cốt lõi sở tri thức gồm tập luật mờ chế suy luận mờ Có thể phân mơ hình mờ thành kiểu mơ hình mờ Mandani mơ hình mờ TSK Mơ hình mờ TSK gồm tập luật mờ “IF–THEN” dạng TSK, sở phép suy luận mờ Luật mờ TSK biểu diễn sau: 𝑗 𝑗 𝑗 𝑅𝑗 : 𝐼𝐹 𝑥1 𝑖𝑠 𝐴1 𝑎𝑛𝑑 𝑥2 𝑖𝑠 𝐴2 𝑎𝑛𝑑 … 𝑎𝑛𝑑 𝑥𝑝 𝑖𝑠 𝐴𝑝 𝑇𝐻𝐸𝑁 𝑦 = 𝑔𝑗 (𝑥1 , 𝑥2 , … , 𝑥𝑝 ) , 𝑣ớ𝑖 𝑗 = 1, 2, … , 𝑚 Trong 𝑥𝑖 (𝑖 = 1,2, … 𝑝) biến điều kiện đầu vào luật mờ 𝑅𝑗 ; 𝑦 biến định đầu ra, xác định hàm không 𝑗 mờ 𝑔𝑗 ( ) biến 𝑥𝑖 ; 𝐴𝑖 giá trị ngôn ngữ (những tập mờ) xác định hàm thành viên tương ứng 𝜇𝐴𝑗 (𝑥𝑖 ) 𝑖 Q trình suy luận theo mơ hình mờ TSK thực sau: Bước Kích hoạt giá trị thành viên Giá trị thành viên biến đầu vào tính tốn theo công thức nhân sau: 𝑝 ∏ 𝑖=1 𝜇𝐴𝑗 (𝑥𝑖 ) (1.15) 𝑖 Bước Tính kết đầu hàm suy luận mờ theo công thức sau: 𝑗 𝑓(𝑥) = 𝑝 ∑𝑚 𝑗=1 𝑧 (∏𝑖=1 𝜇𝐴𝑗 (𝑥𝑖 )) 𝑖 𝑝 ∑𝑚 𝑗=1 ∏𝑖=1 𝜇𝐴𝑗 (𝑥𝑖 ) (1.16) 𝑖 𝑗 Trong đó, 𝑧 giá trị đầu hàm 𝑔𝑗 ( ) tương ứng với luật mờ 𝑓(𝑥) gọi hàm định đầu mơ hình mờ TSK 1.3 Sinh luật mờ từ liệu Có nhiều giải pháp sinh luật mờ từ liệu nghiên cứu, kỹ thuật sử dụng máy học véc-tơ hỗ trợ nhiều tác giả đề xuất chứng minh tính hiệu quả, đặc biệt hiệu tốc độ học máy học véc-tơ hỗ trợ Tuy nhiên, vấn đề đảm bảo “tính diễn dịch được” tập luật thách thức chưa giải 1.4 Máy học véc-tơ hỗ trợ Máy học véc-tơ hỗ trợ lần giới thiệu giải toán phân lớp Sau phát triển mở rộng cho tốn dự báo hồi quy Trong trường hợp giải toán dự báo hồi quy, lý thuyết máy học véc-tơ hỗ trợ tóm tắt nhưu sau: Cho tập liệu huấn luyện {(𝑥1 , 𝑦1 ), … , (𝑥𝑙 , 𝑦𝑙 )} ⊂ 𝑅 𝑛 × 𝑅, 𝑅 𝑛 xác định miền liệu đầu vào Mục tiêu máy học véctơ hỗ trợ hồi quy ε-SVR (ε-Support Vector Regression) tìm hàm định siêu phẳng 𝑓(𝑥) tối ưu cho độ sai lệch tất 𝑦𝑖 tập liệu huấn luyện phải nhỏ giá trị sai số 𝜀 Trong trường hợp hồi phi tuyến tính, với hàm nhân kernel 𝐾(𝑥𝑖 , 𝑥𝑗 ) = 〈𝛷(𝑥𝑖 ), 𝛷(𝑥𝑗 )〉, hàm định 𝑓(𝑥) máy học véc-tơ hỗ trợ hồi quy có dạng: 𝑙 𝑓(𝑥) = ∑(𝛼𝑖 − 𝛼𝑖∗ ) 𝐾(𝑥𝑖 , 𝑥) + 𝑏 (1.35) 𝑖=1 Begin Input: - Tập liệu huấn luyện H - Tham số lỗi ɛ Khởi tạo tham số SVM: C, ɛ, σ Huấn luyện SVM để trích xuất véc-tơ hỗ trợ: Centers: ci , i=1,2, ,m Variances: σi , i=1,2,…,m Trích xuất luật mờ dựa vào véc-tơ hỗ trợ: IF x is Gaussmf(ci ,σi) THEN y is B Tối ưu hóa tham số hàm thành viên Output: Mơ hình mờ TSK End Hình 1.6 Sơ đồ khối thuật tốn trích xuất mơ hình mờ TSK từ máy học véc-tơ hỗ trợ 1.5 Trích xuất mơ hình mờ TSK từ máy học véc-tơ hỗ trợ Các bước thực trích xuất tập luật mờ từ tập liệu huấn luyện đầu vào thể Hình 1.6 1.6 Lựa chọn tham số Tham số hàm thành viên mờ tối ưu hóa phương pháp Gradient descent Giá trị tham số ε điều chỉnh để nhận mơ hình tối ưu Việc lựa chọn giá trị tham số ε tối ưu thực thông qua thực nghiệm tập liệu xác thực Luận án đề xt thuật tốn f-SVM cho phép trích xuất mơ hình mờ TSK từ máy học véc-tơ hỗ trợ, thể Hình 1.8 Thuật tốn f-SVM Input: - Tập liệu huấn luyện H, Tham số lỗi 𝜀 Output: Mơ hình mờ với hàm đầu 𝑓(𝑥) Khởi tạo giá trị tham số: 𝐶, 𝜀, 𝜎; Huấn luyện SVM: 𝑓(𝑥) = ∑𝑙𝑖=1(𝛼𝑖 − 𝛼𝑖∗ ) 𝐾(𝑥𝑖 , 𝑥) + 𝑏 ; Trích xuất 𝑆𝑉 = {(𝛼𝑖 − 𝛼𝑖∗ ): (𝛼𝑖 − 𝛼𝑖∗ ) ≠ 0, 𝑖 ∈ {0, … , 𝑙}}; ′ ′ Điều chỉnh ma trận kernel: 𝐻 ′ = [ 𝐷 ′ −𝐷′ ] ; −𝐷 𝐷 〈𝜑(𝑥𝑖 ),𝜑(𝑥𝑗 )〉 ′ với 𝐷𝑖𝑗 = ∑ 〈𝜑(𝑥 ),𝜑(𝑥 ; 𝑗 𝑖 𝑗 )〉 Sinh tập luật mờ từ tập SV với hàm nhân Gauss; Tối ưu hóa tham số hàm thành viên : 𝜎𝑖 (𝑡 + 1) = 𝜎𝑖 (𝑡) + 𝛿𝜀1,𝑖 [ 𝑐𝑖 (𝑡 + 1) = (𝑥−𝑐)2 𝑒𝑥𝑝 (− (𝑥−𝑐)2 )] , 𝜎3 2𝜎 (𝑥−𝑐)2 −(𝑥−𝑐) 𝑐𝑖 (𝑡) + 𝛿𝜀1,𝑖 [ 𝑒𝑥𝑝 (− )] 𝜎 2𝜎 𝑙 ∗ ∑𝑖=1(𝛼𝑖 −𝛼𝑖 )𝐾(𝑥𝑖 ,𝑥) return 𝑓(𝑥) = ∑𝑙𝑖=1 𝐾(𝑥𝑖 ,𝑥) Hình 1.8 Thuật toán f-SVM ; 12 possible to evaluate the fuzzy rules set and have some solutions to optimize the rules set CHAPTER INTEGRATION OF A PRIORI KNOWLEDGE ON FUZZY MODEL 2.1 A priori knowledge A priori knowledge refers to what knowledge is before learning During building fuzzy models from data, prior knowledge is often related to issues such as the importance of data, machine behaviours and goals of machine learning 2.2 Role of priori ior knowledge in learning a fuzzy model According to machine learning theories, the role of prior knowledge in machine learning is defined into scenarios, including: EBL, RBL and KBIL 2.3 Determining a priori knowledge to integrate into a fuzzy model extracted from the support vector machine In the fuzzy model of support vector machine, it is possible to integrate the relevant knowledge of model structure to improve the "interpretable" of the model 2.4 Integrating a priori knowledge with a fuzzy model of support vector machine Algorithm SVM-IF(H, sim, 𝜀, tol) Input: Training dataset H, similarity threshold between membership functions sim, Error parameter ε; Output: The fuzzy model has the function determines the output is f (x); Initializing parameter values: 𝐶, 𝜀, 𝜎, 𝑠𝑡𝑒𝑝; Training SVM: 𝑓(𝑥) = ∑𝑙𝑖=1(𝛼𝑖 − 𝛼𝑖∗ ) 𝐾(𝑥𝑖 , 𝑥) + 𝑏 ; Extracting 𝑆𝑉 = {(𝛼𝑖 − 𝛼𝑖∗ ): (𝛼𝑖 − 𝛼𝑖∗ ) ≠ 0, 𝑖 ∈ {0, … , 𝑙}}; 13 InterpretabilityTest(c, σ, sim); ′ Adjusting kernel matrix: 𝐻 ′ = [ 𝐷 ′ −𝐷 −𝐷′ , 𝐷 ′ = 〈𝜑(𝑥𝑖),𝜑(𝑥𝑗)〉 ; ] 𝑖𝑗 ∑ 〈𝜑(𝑥 ),𝜑(𝑥 𝑗 𝑖 𝑗 )〉 𝐷′ Generating a set of fuzzy rules from the SV set with the Gauss kernel function; Optimizing member function parameters 𝜎𝑖 (𝑡 + 1) = 𝜎𝑖 (𝑡) + 𝛿𝜀1,𝑖 [ 𝑐𝑖 (𝑡 + 1) = 𝑐𝑖 (𝑡) + 𝛿𝜀1,𝑖 [ return 𝑓(𝑥) = (𝑥−𝑐)2 𝜎3 𝑒𝑥𝑝 (− (𝑥−𝑐)2 2𝜎 )] (𝑥−𝑐)2 −(𝑥−𝑐) 𝑒𝑥𝑝 (− )] 𝜎 2𝜎 ∑𝑙𝑖=1(𝛼𝑖 −𝛼𝑖∗ )𝐾(𝑥𝑖 ,𝑥) ∑𝑙𝑖=1 𝐾(𝑥𝑖 ,𝑥) Fig 2.4 SVM-IF algorithm Algorithm InterpretabilityTest(c, σ, sim) Input: Set of support vectors c, Parameter for specifying standard deviation σ, given a similarity threshold sim; Output: The set of support vectors has been shortened; repeat Calculating the similarity between fuzzy pairs 𝐴𝑖 , 𝐴𝑗 : − 𝐺 𝑆 (𝐴𝑖 , 𝐴𝑗 ) = 𝑑2 𝑒 𝜎2 𝑑2 − 2−𝑒 𝜎2 2 , 𝑑 = √(𝑐𝑖 − 𝑐𝑗 ) +(𝜎𝑖 − 𝜎𝑗 ) Selecting a pair of fuzzy 𝐴∗𝑖 and 𝐴𝑗∗ subject to: 𝑆 𝐺 (𝐴∗𝑖 , 𝐴𝑗∗ ) = 𝑚𝑎𝑥𝑖,𝑗 {𝑆 𝐺 (𝐴𝑖 , 𝐴𝑗 )} if 𝑆 𝐺 (𝐴∗𝑖 , 𝐴𝑗∗ ) > 𝑠𝑖𝑚 then Combining a pair of fuzzy 𝐴∗𝑖 𝐴𝑗∗ into a new fuzzy set 𝐴𝑘 ; end if until There has no more pair of fuzzy have 𝑆 𝐺 (𝐴𝑖 , 𝐴𝑗 ) > 𝑠𝑖𝑚 Return Fig 2.5 InterpretabilityTest 14 The parameters ε, tol and sim are chosen for the experiment based on the validation data set according to the Process in Figure 2.6 Fig 2.6 Process of extracting TSK fuzzy model from Support Vector Machine integrated a priori knowledge 15 2.5 Experimental Design 2.5.1 Experimental description An experimental system is implemented by using the Matlab tool 2.5.2 Nonlinear regression problem Fig 2.7 The results of the optimized model Table 2.2 Comparison of models results with RMSE parameter # of rules/ # of SV Applied Model ANFIS SVM f-SVM SVM-IF −10 - 50