Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 27 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
27
Dung lượng
915,41 KB
Nội dung
ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Phạm Đình Phong PHÁT TRIỂN MỘT SỐ PHƯƠNG PHÁP THIẾT KẾ HỆ PHÂN LỚP TRÊN CƠ SỞ LÝ THUYẾT TẬP MỜ VÀ ĐẠI SỐ GIA TỬ Chuyên ngành: Khoa học máy tính Mã số: 60 48 01 01 TÓM TẮT LUẬN ÁN TIẾN SĨ CÔNG NGHỆ THÔNG TIN Hà Nội – 2016 Công trình hoàn thành tại: Trường Đại học Công nghệ, Đại học Quốc gia Hà Nội Người hướng dẫn khoa học: GS TS Nguyễn Thanh Thủy PGS TSKH Nguyễn Cát Hồ Phản biện: Phản biện: Phản biện: Luận án bảo vệ trước Hội đồng cấp Đại học Quốc gia chấm luận án tiến sĩ họp vào hồi ngày tháng năm Có thể tìm hiểu luận án tại: - Thư viện Quốc gia Việt Nam - Trung tâm Thông tin - Thư viện, Đại học Quốc gia Hà Nội MỞ ĐẦU Bài toán phân lớp thường thấy lĩnh vực khác đời sống xã hội bao gồm y tế, kinh tế, nhận dạng lỗi, xử lý ảnh, xử lý liệu văn bản, lọc liệu Web, loại bỏ thư rác, … Có nhiều hệ phân lớp quan trọng đề xuất hệ phân lớp thống kê, mạng nơ-ron, phân lớp dựa luật ngôn ngữ mờ, … Hầu hết kỹ thuật phân lớp thống kê dựa lý thuyết định Bayesian có hiệu huất phân lớp phụ thuộc vào mô hình xác suất Hệ phân lớp mạng nơ-ron cần lượng lớn tham số cần phải ước lượng Mặt khác, kỹ thuật phân lớp thống kê mạng nơ-ron hộp đen nên thiếu tính dễ hiểu người sử dụng Hệ phân lớp dựa luật ngôn ngữ mờ (FLRBC) nghiên cứu rộng rãi người dùng cuối sử dụng tri thức dạng luật trích rút từ liệu có tính dễ hiểu, dễ sử dụng người tri thức họ Tiếp cận lý thuyết tập mờ không vận dụng từ ngôn ngữ nhằm truyền đạt ngữ nghĩa từ thiếu cầu nối hình thức từ với tập mờ tương ứng Đại số gia tử (ĐSGT) cung cấp chế hình thức sinh tập mờ từ ngữ nghĩa định tính từ ngôn ngữ ứng dụng cách hiệu vào trình thiết kế tập giá trị ngôn ngữ với ngữ nghĩa tính toán dựa tập mờ tam giác chúng cho toán xây dựng tự động sở luật cho FLRBC Câu hỏi đặt việc sử dụng tập mờ hình thang để biểu diễn ngữ nghĩa tính toán dựa tập mờ từ ngôn ngữ sở luật FLRBC có hiệu việc sử dụng tập mờ tam giác? Trong nghiên cứu mình, Yager khẳng định rằng, tập mờ tam giác trường hợp đặc biệt tập mờ hình thang điểm mút trái điểm mút phải đáy nhỏ hình thang trùng Điều có nghĩa việc sử dụng tập mờ hình thang biểu diễn ngữ nghĩa tính toán từ ngôn ngữ mang tính phổ quát linh hoạt so với tập mờ hình tam giác Tuy nhiên, nay, chưa có chế hình thức toán học cho việc sinh tập mờ hình thang từ ngữ nghĩa định tính từ ngôn ngữ Mục tiêu đặt luận án: Thứ xây dựng chế hình thức toán học cho việc sinh tự động ngữ nghĩa tính toán dựa tập mờ hình thang từ ngữ nghĩa định tính từ ngôn ngữ cho toán thiết kế tự động sở luật cho hệ phân lớp dựa luật ngôn ngữ mờ Thứ hai nghiên cứu đề xuất số cải tiến thiết kế tự động hệ phân lớp dựa luật ngôn ngữ mờ với ngữ nghĩa tính toán từ ngôn ngữ xác định dựa ĐSGT nhằm nâng cao chất lượng hệ phân lớp Với mục tiêu đặt luận án, đóng góp luận án là: Đề xuất mở rộng lý thuyết đại số gia tử mô hình hóa lõi ngữ nghĩa từ ngôn ngữ nhằm cung cấp chế hình thức cho việc sinh tự động ngữ nghĩa tính toán dựa tập mờ hình thang khung nhận thức ngôn ngữ cho toán thiết kế tự động hệ phân lớp dựa luật ngôn ngữ mờ Đề xuất phương pháp luận, thuật toán thiết kế tự động sở luật cho hệ phân lớp dựa luật ngôn ngữ mờ với ngữ nghĩa tính toán dựa tập mờ hình thang từ ngôn ngữ xác định sở lý thuyết ĐSGT mở rộng Nghiên cứu yếu tố ảnh hưởng đến hiệu phương pháp thiết kế hệ phân lớp dựa luật ngôn ngữ mờ với ngữ nghĩa tính toán từ ngôn ngữ xác định dựa ĐSGT đề xuất số cải tiến làm tăng hiệu tiếp cận thiết kế hệ phân lớp dựa ĐSGT Các nội dung kết nghiên cứu trình bày luận án công bố công trình khoa học, bao gồm: báo quốc tế danh mục SCI; báo Tạp chí Tin học Điều khiển học; báo Tạp chí khoa học, Đại học Quốc gia Hà Nội; báo Tạp chí Khoa học Công nghệ, Viện Hàn Lâm Khoa học Công nghệ Việt Nam; báo cáo kỷ yếu hội nghị quốc tế có phản biện xuất IEEE báo cáo hội nghị quốc gia có phản biện Cấu trúc luận án Luận án bố cục thành phần: Mở đầu, chương, kết luận tài liệu tham khảo Chương giới thiệu tổng quan hệ dựa tri thức luật ngôn ngữ mờ ĐSGT khả ứng dụng ĐSGT Chương trình bày lý thuyết ĐSGT mở rộng nhằm cung cấp chế hình thức sinh lõi ngữ nghĩa ngữ nghĩa tính toán dựa tập mờ hình thang khung nhận thức ngôn ngữ ứng dụng thiết kế FLRBC Chương trình bày kết thực nghiệm so sánh đánh giá phương pháp thiết kế FLRBC với ngữ nghĩa tính toán từ ngôn ngữ xác định dựa ĐSGT mở rộng với phương pháp khác Chương trình bày số cải tiến phương pháp thiết kế FLRBC với ngữ nghĩa tính toán từ ngôn ngữ xác định dựa ĐSGT CHƯƠNG TỔNG QUAN VỀ HỆ DỰA TRÊN TRI THỨC LUẬT NGÔN NGỮ MỜ 1.1 MỘT SỐ KHÁI NIỆM CƠ BẢN 1.1.1 Tập mờ 1.1.2 Biến ngôn ngữ 1.1.3 Phân hoạch mờ 1.1.4 Luật ngôn ngữ mờ hệ luật ngôn ngữ mờ Luật ngôn ngữ mờ hay luật mờ if-then, gọi tắt luật mờ, phát biểu có điều kiện dạng if A then B Phần if luật gọi giả thuyết hay tiền đề luật, phần then luật gọi phần kết luận 1.1.5 Hệ suy luận mờ Suy luận xấp xỉ hay suy luận mờ trình suy kết luận dạng mệnh đề mờ hay luật mờ điều kiện quy tắc, luật, liệu đầu vào cho trước không cần xác định 1.1.6 Bài toán phân lớp liệu Bài toán phân lớp liệu P phát biểu sau: cho tập liệu mẫu D = {(dp, Cp), p = 1, …, m}, m số mẫu liệu, dp = [dp,1, dp,2, , dp,n] dòng thứ p m mẫu liệu có n thuộc tính, C = {Cs | s = 1, …, M} tập gồm M nhãn lớp Quá trình xây dựng mô hình phân lớp thường chia thành hai bước: Bước Huấn luyện: mô hình phân lớp xây dựng dựa tập liệu mẫu gán nhãn, gọi tập liệu huấn luyện Bước Thử nghiệm mô hình: sử dụng mô hình xây dựng bước để phân lớp tập liệu gán nhãn chọn ngẫu nhiên độc lập với tập liệu huấn luyện 1.2 HỆ DỰA TRÊN TRI THỨC LUẬT NGÔN NGỮ LUẬT MỜ 1.2.1 Cấu trúc hệ dựa luật ngôn ngữ mờ Hệ dựa luật ngôn ngữ mờ bao gồm hai thành phần chính: sở tri thức hệ suy luận Cơ sở tri thức bao gồm sở liệu sở luật Cơ sở liệu miền giá trị thuộc tính phân hoạch thành vùng mờ sử dụng tập mờ Cơ sở luật tập hợp tri thức liên quan đến toán cần giải dạng luật mờ if-then 1.2.2 Bài toán thiết kế hệ phân lớp dựa luật ngôn ngữ mờ Hệ luật mờ phân lớp bao gồm tập luật mờ có trọng số dạng: Luật Rq: if X1 is Aq,1 and and Xn is Aq,n then Cq with CFq, với q=1 N (1.1) X = {Xj, j = 1, , n} tập n biến ngôn ngữ (thuộc tính) Aq,j (j=1, , n) giá trị ngôn ngữ điều kiện mờ tiền đề, Cq nhãn lớp kết luận Rq N số luật mờ, CFq trọng số hay độ tin cậy luật thứ q Luật Rq viết tắt dạng ⟹ with CFq, Aq tiền đề luật thứ q Ký hiệu fp(S), fn(S) fa(S) hàm đánh giá hiệu suất phân lớp hệ S tập liệu huấn luyện, số luật hệ S độ dài trung bình hệ S Khi đó, mục tiêu xây dựng hệ phân lớp thỏa mục tiêu: fp(S) → max, fn(S) fa(S) → (1.2) Các mục tiêu mâu thuẫn nên phương pháp giải toán phân lớp dựa luật mờ phải cân mục tiêu Các bước toán thiết kế FLRBC theo tiếp cận lý thuyết tập mờ bao gồm: Bước Phân hoạch mờ (fuzzy partition) miền thuộc tính tập liệu thành vùng mờ tập mờ tương ứng với từ ngôn ngữ biến ngôn ngữ Bước Trích rút luật mờ từ phân hoạch mờ tạo bước cho hệ luật mờ S thu nhỏ gọn, dễ hiểu có hiệu suất phân lớp cao Hai phương pháp phân hoạch mờ thường sử dụng phân hoạch lưới lưới phân hoạch rời rạc Các thước đo đánh giá luật dựa độ tin cậy (confidence) độ hỗ trợ (support) làm tiêu chuẩn sàng để sàng lọc luật ứng viên: ⟹ = ⟹ = ∑ ∈ (1.3) (1.4) ∑ ∑ ∈ ( ) độ tương thích hay độ đốt cháy mẫu liệu dp điều kiện Aq luật Rq thường tính biểu thức toán tử nhân sau: =∏ , , , (1.5) - Độ tin cậy (c), độ hỗ trợ (s) tích (c × s) dùng làm tiêu chuẩn sàng - Nhãn lớp điều kiện tiền đề Aq xác định sau: = { ( ⇒ )|ℎ = 1, … , } (1.6) - Các luật gán trọng số luật, công thức sau thường sử dụng: = ⟹ − , , (1.9) cq,2nd độ tin cậy lớn luật có điều kiện Aq khác kết luận khác Cq = max , ⟹ ℎ | ℎ = 1, … , ;ℎ ≠ , (1.12) Hai phương pháp lập luận phân lớp cho mẫu liệu dp = [dp,1, dp,2, , dp,n]: - Phương pháp lập luận Single Winner Rule: × = argmax × ∈ (1.14) - Phương pháp lập luận bầu cử trọng số (weighted vote): = argmax ∑ × ∈ , ℎ = 1, … (1.15) 1.2.3 Những vấn đề tồn - Hầu hết đề xuất theo hướng tiếp cận lý thuyết tập mờ thiếu chế hình thức liên kết ngữ nghĩa vốn có từ ngôn ngữ với tập mờ tương ứng chúng; thiếu sở hình thức hóa toán học thiết kế tự động ngữ nghĩa tính toán dựa tập mờ từ ngữ nghĩa vốn có từ ngôn ngữ, dẫn đến hệ phân lớp thu không kết tương tác ngữ nghĩa từ ngôn ngữ với liệu - Chưa có chế hình thức đánh giá tính khái quát tính cụ thể từ ngôn ngữ toán thiết kế thể hạt (granularity) cho phân hoạch mờ miền thuộc tính đảm bảo cân tính khái quát tính cụ thể từ ngôn ngữ chưa đặt 1.3 Đại số gia tử 1.3.1 Đại số gia tử biến ngôn ngữ Định nghĩa 1.4 [49] Giả sử X biến ngôn ngữ có miền giá trị Dom(X) Một ĐSGT AX tương ứng X thành phần AX = (X, G, C, H, ≤), đó: (X, ≤) cấu trúc dựa quan hệ thứ tự, X tập giá trị ngôn ngữ X với X Dom(X) ≤ quan hệ thứ tự cảm sinh ngữ nghĩa vốn có từ ngôn ngữ X; G = {c-, c+} tập phần tử sinh có quan hệ ngữ nghĩa c- ≤ c+, c- c+ tương ứng phần tử sinh nguyên thủy âm dương; C = {0, W, 1} tập thỏa quan hệ ngữ nghĩa ≤ c- ≤ W ≤ c+ ≤ 1, tương ứng phần tử nhỏ phần tử lớn cấu trúc (X, ≤), W phần tử trung hòa; H tập gia tử biến ngôn ngữ X Với x X, ký hiệu H(x) tập tất giá trị ngôn ngữ u X cảm sinh từ x gia tử H biểu diễn chuỗi u = hn…h1x, với hn, …, h1 H Trong trường hợp x {c-, c+} chuỗi u = hn…h1c gọi biểu diễn tắc hj+1…h1c ≠ hj…h1c với j = 1, …, n - u có độ dài n + 1, ký hiệu |u| l(u) Ký hiệu sau: Xk tập tất giá trị ngôn ngữ có độ dài k X(k) tập tất giá trị ngôn ngữ có độ dài nhỏ k Trong ĐSGT AX = (X, G, C, H, ≤) X, G H tập thứ tự tuyến tính AX gọi ĐSGT tuyến tính Một số tính chất ĐSGT: - Dấu c+ sign(c+) = +1, dấu c- sign(c-) = -1 - Tập gia tử dương H+ = {hj: ≤ j ≤ p} có dấu sign(hj) = +1, tập gia tử H- = {hj: -q ≤ j ≤ -1} có dấu sign(hj) = -1 ta có H = H+ H- - Gia tử k dương gia tử h k làm tăng ngữ nghĩa h dấu sign(k, h) = +1 Ngược lại, k âm h k làm giảm ngữ nghĩa h có dấu sign(k, h) = -1 Dấu hạng từ x với x = hmhm-1…h2h1c, c {c-, c+} hj H, tính sau: Sign(x) = sign(hm, hm-1) × … × sign(h2, h1) × sign(h1) × sign(c) (1.16) Ý nghĩa dấu từ là: sign(hx) = +1 x ≤ hx, sign(hx) = -1 hx ≤ x - Tính kế thừa cảm sinh giá trị ngôn ngữ gia tử Khi giá trị ngôn ngữ hx cảm sinh từ x việc tác động gia tử h vào x ngữ nghĩa hx thay đổi truyền đạt ngữ nghĩa gốc x Tính chất góp phần bảo toàn quan hệ thứ tự ngữ nghĩa: hx ≤ kx h’hx ≤ k’kx, hay h’ k’ bảo tồn quan hệ ngữ nghĩa hx kx cách tương ứng Hai từ ngôn ngữ x y gọi độc lập x H(y) y H(x) Một ĐSGT AX gọi tự với x H(G) hx ≠ x Nghĩa AX tự có tử phần tử bất động Định lý 1.1 [49] Cho tập H- H+ tập thứ tự tuyến tính ĐSGT AX = (X, G, C, H, ≤) Khi ta có khẳng định sau: (1) Với u X H(u) tập thứ tự tuyến tính (2) Nếu X sinh từ G gia tử G tập thứ tự tuyến tính X tập thứ tự tuyến tính Hơn u < v, u, v độc lập với nhau, tức u H(v) v H(u), H(u) H(v) 1.3.2 Lượng hóa đại số gia tử Xét ánh xạ υ ĐSGT AX đảm bảo tính bảo toàn cấu trúc thứ tự miền giá trị X Đẳng cấu υ đảm bảo việc cảm sinh ánh xạ mô hình tính mờ H(x) từ ngôn ngữ x tới khoảng nằm đoạn [0, 1], gọi khoảng tính mờ x ký hiệu (x) Độ dài (x) gọi độ đo tính mờ x ký hiệu fm(x) Với ý tưởng trên, độ đo tính mờ tiên đề hóa sau: Định nghĩa 1.5 Một hàm fm: X [0, 1] gọi độ đo tính mờ biến ngôn ngữ X, có tính chất sau: (FM1) fm độ đo đầy đủ X, nghĩa fm(c) + fm(c+) = và, u X, fm(hu) fm(u) ; hH (FM2) Nếu H(x) = x, fm(x) = Đặc biệt ta có: fm(0) = fm(W) = fm(1) = 0; (FM3) x, y X, h H, ta có fm(hx)/x = fm(hy)/y, nghĩa tỷ số không phụ thuộc vào phần tử cụ thể X mà phụ thuộc vào h gọi độ đo tính mờ gia tử h ký hiệu (h) Công thức tính đệ quy độ đo tính mờ x = hm h1c với c {c-, c+} sau: fm(x) = (hm) (h1) fm(c), ( h) (1.17) hH Mệnh đề 1.1 [51, 52] Độ đo tính mờ fm khái niệm (h) gia tử thỏa: 1) fm(hx) = (h)fm(x), x X; 2) fm(c) + fm(c+) = 1; p 3) fm(h c) fm(c) , với c {c, c+}; i i q ,i fm(h x) fm( x) , x X 4) i q i p ,i 1 5) (hi ) i q p (h ) , với , > + = i i 1 Định nghĩa 1.6 Ngữ nghĩa số từ ngôn ngữ hay ánh xạ định lượng ngữ nghĩa AX ánh xạ bảo toàn thứ tự υ: X [0,1] thỏa mãn điều kiện sau: SQM1) υ bảo toàn thứ tự X, tức x < y υ(x) < υ(y) υ(0) = 0, υ(1) = 1; SQM2) υ song ánh ảnh X, υ(X), trù mật đoạn [0, 1] ; Mệnh đề 1.2 Ánh xạ định lượng ngữ nghĩa nhờ tính mờ ánh xạ υ xác định: 1) υ(W) = = fm(c), υ(c) = - fm(c), υ(c+) = +fm(c+); j 2) υ(hjx) = υ(x)+ Sign ( h j x )( i 1 fm ( hi x ) ( h j x ) fm ( h j x )) , với j p, j υ(hjx) = υ(x)+ Sign ( h j x )( i 1 fm ( hi x ) ( h j x ) fm ( h j x )) , với q j 1 Hai công thức viết thành công thức chung, với j [-q^p] j là: j ( h j x ) ( x ) Sign ( h j x )( i sign ( j ) fm ( hi x ) ( h j x ) fm ( h j x )) , ( h j x ) [1 Sign ( h j x ) Sign ( h p h j x )( )] { , } 1.3.3 Ý nghĩa ứng dụng đại số gia tử ĐSGT ứng dụng thành công lĩnh vực điều khiển mờ, hồi quy dự báo, thiết kế FLRBC, Trong ứng dụng vậy, ngữ nghĩa từ ngôn ngữ sử dụng biểu diễn luật ngôn ngữ mờ cần biểu thị tập mờ phù hợp với ngữ nghĩa vốn có chúng Với độ đo tính mờ |H| - gia tử, độ đo tính mờ phần tử sinh (fm(c-) fm(c+)) số nguyên dương k giới hạn độ dài tối đa từ ngôn ngữ gọi tham số ngữ nghĩa, ký hiệu Л Khi cho giá trị cụ thể tham số ngữ nghĩa, giá trị định lượng từ ngôn ngữ tính toán ngữ nghĩa tính toán dựa tập mờ chúng xây dựng Giá trị định lượng từ ngôn ngữ điểm nằm khoảng tính mờ liên kết với độ đo tính mờ tương ứng xác định đỉnh tập mờ tam giác Như vậy, ngữ nghĩa tính toán dựa tập mờ từ ngôn ngữ tích hợp với dựa chế hình thức hóa chặt chẽ, tham số tính mờ ĐSGT sinh tập mờ tam giác tất từ ngôn ngữ ĐSGT hay biến ngôn ngữ Nghĩa đại lượng xác định tập mờ bị ràng buộc với hiệu chỉnh thích nghi nhờ tham số tính mờ 1.3.4 Những vấn đề tồn Lý thuyết ĐSGT truyền thống giả thiết tiên đề chặt làm tính mềm dẻo biểu diễn ngữ nghĩa từ ngôn ngữ ứng dụng giải toán thực tế Chẳng hạn, độ đo tính mờ phần tử trung hòa W hai phần tử phải ứng dụng thực tế thường xây dựng tập mờ cho chúng Do chế hình thức sinh ngữ nghĩa tính toán dựa tập mờ từ ngữ nghĩa định tính từ ngôn ngữ cho FLRBC, ngữ nghĩa số từ ngôn ngữ điểm nằm khoảng tính mờ tương ứng nên đủ sở để xây dựng tập mờ tam giác 1.4 KẾT LUẬN CHƯƠNG Trong chương này, luận án hệ thống lại kiến thức sở liên quan đến hệ dựa luật ngôn ngữ mờ, đại số gia tử khả ứng dụng CHƯƠNG LÕI NGỮ NGHĨA VÀ NGỮ NGHĨA HÌNH THANG CỦA KHUNG NHẬN THỨC NGÔN NGỮ VÀ ỨNG DỤNG GIẢI BÀI TOÁN PHÂN LỚP 2.1 MỞ RỘNG ĐSGT CHO VIỆC MÔ HÌNH HÓA LÕI NGỮ NGHĨA CỦA CÁC TỪ NGÔN NGỮ nhanh nhanh lõi 150 200 Hình 2.1 Mối quan hệ từ “nhanh” “rất nhanh” biến ngôn ngữ TOCDO giá trị tập U biểu diễn dạng tập mờ Mọi từ mang ngữ nghĩa không rõ ràng x biến ngôn ngữ với miền tham chiếu số U biểu diễn mối quan hệ x với giá trị U, tức giá trị số U phù hợp với x độ chắn định Mối quan hệ từ “nhanh” “rất nhanh” biến ngôn ngữ TOCDO giá trị U biểu diễn dạng tập mờ Hình 2.1 Ký hiệu Core(x) lõi ngữ nghĩa của x Core(x) = {(u, x(u)): x(u) = 1} ngữ nghĩa x tập Sem(x) = {(u, x(u)): x(u) [0, 1]} Lõi ngữ nghĩa hai từ ngôn ngữ x, y X ngữ nghĩa tương ứng chúng thỏa điều kiện sau: (C1) Core(x) Sem(x); (C2) Nếu x ≤ y Core(x) ≤ Core(y), Core(x) ≤ Sem(y) Sem(x) ≤ Core(y) Trong phương pháp hình thức hóa ĐSGT, lõi ngữ nghĩa từ ngôn ngữ x cần sinh từ gia tử nên gia tử nhân tạo h0 bổ sung nhằm cảm sinh lõi ngữ nghĩa x h0x Việc mở rộng ĐSGT tuyến tính AX thực sau Định nghĩa 2.1 Mở rộng ngữ cảnh ĐSGT tuyến tính tự AX = (X, C, G, H, ) ĐSGT mở rộng AXmr = (Xmr, C, G, Hmr, ), C tập tử AXmr, Hmr = HI {h0} = H+ H {I, h0}, H = {h-q, …, h-2, h-1}, h-q < < h-2 < h-1 H+ = {h1, h2 , , hp}, h1 < h2 < < hp, nghĩa HI = H {I}, Xmr = X {h0x | x X} ≤ quan hệ thứ tự mở rộng X Xmr, thỏa tiên đề sau: (A1) Toán tử đơn vị V (phần tử lớn nhất) H+ dương âm đối với gia tử H Chẳng hạn V dương L H- (A2) Nếu u, v X độc lập, tức u HI(v) v HI(u) x HI(u) x HI(v) (A3) Kế thừa gia tử: Với x X, h, k, h’, k’ H, ta có: (i) x ≠ hx x HI(hx) (ii) h ≠ k & hx kx h’hx k’kx (iii)hx ≠ kx hx kx độc lập (A4) u X, v HI(u) v u (v ≥ u) v hu (v ≥ hu) với x HI (A5mr) Các tiên đề cho lõi ngữ nghĩa từ ngôn ngữ: với x, y Xmr x ≠ y, (i) hh0x = h0x với h Hmr với x X, h0x = x x hằng, ngược lại x h0x không sánh (ii) Với ∀ , ∈ , < ⟹ ℎ < & < ℎ Các tiên đề AXmr bổ sung nhằm mục đích mô tả đặc trưng lõi ngữ nghĩa từ ngôn ngữ dạng quan hệ thứ tự Định lý 2.1 Cho AXmr = (Xmr, C, G, Hmr, ) ĐSGT mở rộng ĐSGT tuyến tính tự AX = (X, C, G, H, ) Khi đó, mr (i) X = X {h0x: x X \ C } với x C, h0x X mr < ⟺ tập {h0x: x X} tuyến tính e ( RMSR /T ) số lần di chuyển thất bại lớn 100 Nếu vị trí chấp nhận nhảy tới Bước Ngược lại, nhảy tới Bước 2.1 Bước 3: Cập nhật nhớ lưu trữ theo tiêu chuẩn tính trội chia sẻ thích nghi Bước 4: Cập nhật nhớ particle dựa tiêu chuẩn tính trội Bước 5: Nếu đạt điều kiện kết thúc, giải thuật chấm dứt đầu tập phương án tốt lưu nhớ lưu trữ Ngược lại, thay đổi nhiệt độ luyện Tt 1 Tt , t tăng t = t + 1, nhảy tới Bước End 4.1.2.2 Ứng dụng giải thuật MOPSO-SA thiết kế tối ưu từ ngôn ngữ lựa chọn hệ luật tối ưu Với mục tiêu tối ưu (2.8), giải thuật tối ưu tham số ngữ nghĩa cấu trúc hóa giải thuật MOPSO-SA đặt tên MOPSOSA_SPO Thuật toán 4.3 MOPSOSA_SPO (Tối ưu tham số ngữ nghĩa) Đầu vào: tập liệu mẫu D = {(dp, Cp) | p = 1, …, m}, tham số: a, b, NR0, Npop, Gmax, K, λ, Tmax, α; //Npop kích thước bầy, Gmax số hệ Đầu ra: Tập tham số ngữ nghĩa tối ưu Лopt; Begin Giải thuật cụ thể hóa Giải thuật 4.2 với vị trí cá thể tham số ngữ nghĩa; Trả lại tập giá trị tốt tham số ngữ nghĩa Лopt; End 4.1.2.3 Thực nghiệm so sánh giải thuật MOPSO-SA so với giải thuật MOPSO Qua kết thực nghiệm 23 tập liệu kết kiểm định Wilcoxon Signed Rank, ta kết luận rằng, việc sử dụng giải thuật tối ưu MOPSO-SA thiết kế FLRBC với ngữ nghĩa ĐSGT AX cho hiệu suất phân lớp tốt so với việc sử dụng giải thuật MOPSO (82,48% so với 81,92%) việc sử dụng giải thuật tối ưu MOPSO-SA thiết kế FLRBC với ngữ nghĩa dựa ĐSGT AXmrtp cho hiệu suất phân lớp tốt (82,94% so với 82,67%) mà cho độ phức tạp trung bình thấp (107,52 so với 114,78) so với việc sử dụng giải thuật tối ưu MOPSO 4.2 CẢI TIẾN PHƯƠNG PHÁP SINH LUẬT MỜ SINH LUẬT MỜ VỚI NGỮ NGHĨA DỰA TRÊN ĐẠI SỐ GIA TỬ ÁP DỤNG LỰA CHỌN ĐẶC TRƯNG Với mục tiêu làm giảm số chiều tập liệu có số chiều lớn trước thực sinh luật sử dụng ĐSGT, luận án đề xuất ứng dụng kỹ thuật lựa chọn đặc trưng với trọng số động Sun X đề xuất năm 2013 bước tiền xử lý bổ sung cho phương pháp hai bước thiết kế hệ phân lớp dựa luật ngôn ngữ mờ sở ĐSGT 4.2.1 Một số khái niệm lý thuyết thông tin 4.2.2 Kỹ thuật lựa chọn đặc trưng sử dụng trọng số động Công thức phân tích tính hợp lý: ( , ) = × ( ; ) ( ) ( ) (0 ≤ ( , ) ≤ 1) (4.8) Tỷ lệ phụ thuộc lẫn fi fj biểu thị tỷ lệ tăng giảm tính hợp lý fi nhãn lớp có tham gia thuộc tính định nghĩa sau: 21 (, )= ( , ), ( , ), ; > ( ; ; ≤ ( ; ) ) (4.13) ( , ) ≤ Ta thấy −1 ≤ Giải thuật lựa chọn đặc trưng DWFS đề xuất Sun X dạng mã giả: Thuật toán 4.4 DWFS Đầu vào: Tập liệu huấn luyện D với không gian thuộc tính F lớp C Đầu ra: Tập S lựa chọn có thuộc tính Begin Khởi tạo biến: k = 1, = ∅; Khởi tạo trọng số w(f) cho thuộc tính f F 1; Tính giá trị U(f, class) cho thuộc tính f F; While ≤ For thuộc tính ứng viên ∈ Tính ( ) = ( , ) × ( ); End; Chọn thuộc tính ứng viên fj có J(f) lớn nhất; = ∪ { }; F = F \ {fj}; For thuộc tính ứng viên ∈ Tính tỷ lệ phụ thuộc lẫn CR(i, j); ( ) = ( ) × (1 + ( , )); End; k = k + 1; End Độ phức tạp giải thuật DWFS ( × ) chứng minh Sun X., đó, n số thuộc tính gốc số thuộc tính lựa chọn 4.2.3 Ứng dụng giải thuật DWFS thiết kế FLRBC sở ĐSGT Phương pháp hai giai đoạn thiết kế FLRBC theo tiếp cận ĐSGT bổ sung thêm giai đoạn tiền xử lý áp dụng giải thuật DWFS Bước tiền xử lý sau: Với tập liệu cụ thể, thuộc tính có giá trị liên tục phân hoạch thành cụm việc áp dụng kỹ thuật phân cụm mờ c-means với hàm số hợp lệ cụm (cluster validity index function) PBMF để rời rạc hóa liệu sau áp dụng giải thuật DWFS để lựa chọn tập thuộc tính có tính phân biệt 4.2.4 Kết thực nghiệm thảo luận Sau áp dụng kỹ thuật lựa chọn đặc trưng, thời gian sinh luật giảm đáng kể Chẳng hạn, thời gian sinh tập luật khởi đầu từ tập liệu Dermatology gốc trường hợp độ dài luật tối đa hết 07:41:03 hay 27.663 giây, lớn 5.532 lần so với sau áp dụng kỹ thuật lựa chọn đặc trưng lựa chọn thuộc tính Kết thực nghiệm hiệu suất phân lớp FLRBC sở ĐSGT AX ĐSGT AX tập liệu gốc tập liệu áp dụng kỹ thuật lựa chọn đặc trưng kết trung bình tập liệu thử nghiệm, hiệu suất trung bình độ phức tạp trung bình hệ phân lớp nhiều khác biệt Các kết kiểm định giả thuyết thống kê cho ta kết luận, việc áp dụng phương pháp lựa chọn đặc trưng bước tiền xử lý phương pháp thiết kế FLRBC sở ĐSGT không làm giảm chất lượng hệ phân lớp Để giảm thời gian sinh luật từ tập liệu có số chiều lớn, kỹ thuật lựa chọn đặc trưng nên áp dụng kỹ thuật tiền xử lý liệu 22 mrtp 4.3 BIỂU DIỄN NGỮ NGHĨA TÍNH TOÁN DỰA TRÊN TẬP MỜ HÌNH THANG ĐẢM BẢO TÍNH GIẢI NGHĨA ĐƯỢC CỦA KHUNG NHẬN THỨC NGÔN NGỮ Đảm bảo tính giải nghĩa khung nhận thức ngôn ngữ (LFoC) đảm bảo ngữ nghĩa tính toán (tập mờ) từ ngôn ngữ phải xây dựng từ ngữ nghĩa vốn có chúng phải bảo toàn đặc trưng riêng ngữ nghĩa định tínhcủa chúng (khái quát cụ thể) N C Hồ cộng đưa ràng buộc ngữ nghĩa tính toán từ ngôn ngữ nhằm đảm bảo tính giải khung nhận thức ngôn ngữ Ràng buộc thứ Ngữ nghĩa vốn có từ ngôn ngữ biến ngôn ngữ xuất sở luật nguyên tắc sử dụng để tạo sở hình thức hóa cho việc xác định ngữ nghĩa định lượng từ ngôn ngữ, bao gồm ngữ nghĩa dựa tập mờ, cho biểu diễn ngữ nghĩa sở luật Ràng buộc thứ hai Ngữ nghĩa tính toán từ ngôn ngữ, bao gồm ngữ nghĩa dựa tập mờ, phải sinh dựa chế hình thức hóa đầy đủ miền giá trị biến ngôn ngữ Ràng buộc thứ ba Với tập từ cụ thể biến ngôn ngữ X, phép gán : ⟶ với Intv tập khoảng miền giá trị số chuẩn hóa X biểu thị ngữ nghĩa khoảng từ phải bảo toàn tính khái quát tính cụ thể từ Cụ thể, hai từ x hx ∈ với h gia tử, quan hệ (ℎ ) ⊆ ( ) phải thỏa Ràng buộc thứ tư Để bảo toàn ngữ nghĩa luật ngôn ngữ, phép gán ngữ nghĩa tính toán từ ngôn ngữ biến X xuất luật phải bảo toàn thứ tự ngữ nghĩa từ X Cấu trúc phân hoạch mờ đơn thể hạt không thỏa Ràng buộc thứ ba, tức (ℎ ) ⊈ ( ), độ hỗ trợ tập mờ ứng với từ ngôn ngữ x không chứa độ hỗ trợ từ ngôn ngữ hx cảm sinh từ x nhờ gia tử h Với cấu trúc phân hoạch mờ đa thể hạt dựa độ dài từ, độ hỗ trợ từ x không chứa độ hỗ trợ từ hx, phân hoạch tạo không thỏa Ràng buộc thứ ba nêu Để thỏa Ràng buộc thứ ba, N C Hồ cộng đề xuất tách từ ngôn ngữ có độ dài mức k = thành hai mức: mức k = bao gồm từ ngôn ngữ 00, W 10, mức k = bao gồm từ ngôn ngữ 01, c-, c+ 11 Với cách biểu diễn này, độ hỗ trợ tập mờ ứng với từ ngôn ngữ x hoàn toàn chứa độ hỗ trợ từ ngôn ngữ hx Ràng buộc thứ ba, tức (ℎ ) ⊆ ( ) kết thỏa bốn ràng buộc nêu Các kết thực nghiệm cho thấy, hệ phân lớp với cấu trúc đa thể hạt có hiệu suất phân lớp tập kiểm tra tốt so với hệ phân lớp với cấu trúc đa thể hạt cũ 18 tập liệu mẫu số 23 tập liệu mẫu thử nghiệm Các kết kiểm định giả thuyết thống kê Wilcoxon Signed Rank cho ta kết luận, phương pháp thiết kế đa thể hạt với mức k = tách thành hai mức trình bày có ngữ nghĩa dựa tập mờ hình thang từ ngôn ngữ thỏa Ràng buộc thứ ba đảm bảo tính giải nghĩa khung ngôn nhận thức ngôn ngữ, mà cho hiệu suất phân lớp tốt so với phương pháp thiết kế đa thể hạt không tách mức k = 23 KẾT LUẬN CỦA LUẬN ÁN Luận án đạt số kết sau: 1) Đề xuất mở rộng lý thuyết ĐSGT mô hình hóa lõi ngữ nghĩa từ ngôn ngữ nhằm cung cấp chế hình thức cho việc sinh tự động ngữ nghĩa tính toán dựa tập mờ hình thang khung nhận thức ngôn ngữ cho toán thiết kế tự động FLRBC 2) Đề xuất phương pháp luận, thuật toán thiết kế tự động sở luật cho FLRBC sở ứng dụng lõi ngữ nghĩa ngữ nghĩa tính toán dựa tập mờ hình thang khung nhận thức ngôn ngữ 3) Đề xuất số cải tiến phương pháp thiết kế hệ phân lớp dựa luật ngôn ngữ mờ với ngữ nghĩa tính toán từ ngôn ngữ xác định dựa ĐSGT Cụ thể, đề xuất ứng dụng giải thuật tối ưu bầy đàn đa mục tiêu giải thuật tối ưu đa mục tiêu lai giải thuật tối ưu bầy đàn với giải thuật mô luyện để tối ưu tham số ngữ nghĩa lựa chọn hệ luật ngôn ngữ mờ cho toán phân lớp Đề xuất áp dụng phương pháp lựa chọn đặc trưng nhằm cải thiện thời gian sinh luật ngôn ngữ mờ cho hệ phân lớp tập liệu có số chiều lớn Áp dụng phương pháp biểu diễn ngữ nghĩa dựa tập mờ hình thang đảm bảo tính giải khung nhận thức thiết kế FLRBC Các phương pháp thiết kế hệ phân lớp dựa luật ngôn ngữ mờ với ngữ nghĩa tính toán từ ngôn ngữ xác định dựa ĐSGT đề xuất từ trước đến thực dựa hai giai đoạn thiết kế tối ưu từ ngôn ngữ tìm kiếm hệ luật tối ưu Việc chia giai đoạn chưa đảm bảo tìm tham số ngữ nghĩa hệ luật tốt Giải pháp cải tiến nghiên cứu áp dụng kỹ thuật đồng tối ưu tham số ngữ nghĩa tìm kiếm hệ luật tối ưu Tiếp cận thiết kế FLRBC luận án sử dụng ĐSGT để trích rút hệ luật ngôn ngữ mờ cho hệ phân lớp với ngữ nghĩa từ ngôn ngữ sở luật ngữ nghĩa dựa tập mờ Do đó, lập luận phân lớp sử dụng phương pháp lập luận Single winner rule hay Weighted vote phải sử dụng phép toán tập mờ kết phụ thuộc vào việc lựa chọn phép toán Với ĐSGT, ta xây dựng phương pháp lập luận riêng mà không cần sử dụng tập mờ Một hướng nghiên cứu xây dựng phương pháp lập luận cho FLRBC hoàn toàn sử dụng ĐSGT Trong thực tế tồn nhiều dạng toán phân lớp khác nhà nghiên cứu quan tâm giải hệ phân lớp dựa luật ngôn ngữ mờ như: Bài toán phân lớp tập liệu lớn, toán phân lớp tập liệu thiếu thông tin, toán phân lớp tập liệu có số mẫu liệu không cân nhãn lớp, toán học nửa giám sát, toán học trực tuyến, … Đây toán giải hiệu phương pháp luận ĐSGT ĐSGT mở rộng Luận án chứng tỏ khả ứng dụng hiệu ĐSGT mở rộng thiết kế tự động FLRBC ĐSGT mở rộng áp dụng việc giải toán ứng dụng khác toán điều khiển, thao tác sở liệu mờ nhận dạng hệ mờ nhằm tăng tính hiệu tính linh hoạt biểu diễn ngữ nghĩa 24 DANH MỤC CÔNG TRÌNH KHOA HỌC CỦA TÁC GIẢ LIÊN QUAN ĐẾN LUẬN ÁN [1] Nguyễn Cát Hồ, Trần Thái Sơn, Phạm Đình Phong (2012), “Định lượng ngữ nghĩa khoảng đại số gia tử với việc bổ sung gia tử đặc biệt”, Tạp chí Tin học Điều khiển học Tập 28 (4), tr 346 – 358 [2] Phong Pham Dinh, Ho Nguyen Cat, Thuy Nguyen Thanh (2013), “Multi-objective Particle Swarm Optimization Algorithm and its Application to the Fuzzy Rule Based Classifier Design Problem with the Order Based Semantics of Linguistic Terms”, In proceeding of The 10th IEEE RIVF International Conference on Computing and Communication Technologies (RIVF-2013), Hanoi, Vietnam, pp 12 – 17 [3] Phạm Đình Phong, Nguyễn Cát Hồ, Nguyễn Thanh Thủy (2013), “Nghiên cứu phương pháp xây dựng thể hạt với ngữ nghĩa tập mờ tam giác từ ngôn ngữ cho toán phân lớp”, Kỷ yếu Hội nghị Quốc gia lần thứ VI Nghiên cứu ứng dụng Công nghệ thông tin, Thừa Thiên – Huế, tr 385 – 393 [4] Phạm Đình Phong, Nguyễn Cát Hồ, Trần Thái Sơn, Nguyễn Thanh Thủy (2013), “Một phương pháp thiết kế hệ phân lớp mờ dựa việc mở rộng lượng hóa Đại số gia tử”, Tạp chí Tin học Điều khiển học Tập 29 (4), tr 325 – 337 [5] Cat Ho Nguyen, Thai Son Tran, Dinh Phong Pham (2014), “Modeling of a semantics core of linguistic terms based on an extension of hedge algebra semantics and its application”, Knowledge-Based Systems 67, pp 244 – 262 (SCI indexed) [6] Phong Pham Dinh, Thuy Nguyen Thanh, Thanh Tran Xuan (2014), “A Hybrid Multiobjective PSO-SA Algorithm for the Fuzzy Rule Based Classifier Design Problem with the Order Based Semantics of Linguistic Terms”, VNU Journal of Science: Computer Science and Communication Engineering 30 (4), pp 44–56 [7] Pham Dinh Phong (2015), “An application of feature selection for the fuzzy rule based classifier design with the order based semantics of linguistic terms for highdimensional datasets”, Journal of Computer Science and Cybernetics 31 (2), pp 171 – 184 [8] Pham Dinh Phong (2015), An application of feature selection for the fuzzy rule based classifier design based on an enlarged hedge algebras for high-dimensional datasets, Journal of Science and Technology 53 (5), pp 583–597 25