Tóm tắt dữ liệu bằng ngôn ngữ theo cách tiếp cận Đại số gia tử.

149 3 0
Tóm tắt dữ liệu bằng ngôn ngữ theo cách tiếp cận Đại số gia tử.

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Tóm tắt dữ liệu bằng ngôn ngữ theo cách tiếp cận Đại số gia tử.Tóm tắt dữ liệu bằng ngôn ngữ theo cách tiếp cận Đại số gia tử.Tóm tắt dữ liệu bằng ngôn ngữ theo cách tiếp cận Đại số gia tử.Tóm tắt dữ liệu bằng ngôn ngữ theo cách tiếp cận Đại số gia tử.Tóm tắt dữ liệu bằng ngôn ngữ theo cách tiếp cận Đại số gia tử.Tóm tắt dữ liệu bằng ngôn ngữ theo cách tiếp cận Đại số gia tử.Tóm tắt dữ liệu bằng ngôn ngữ theo cách tiếp cận Đại số gia tử.Tóm tắt dữ liệu bằng ngôn ngữ theo cách tiếp cận Đại số gia tử.Tóm tắt dữ liệu bằng ngôn ngữ theo cách tiếp cận Đại số gia tử.

BỘ GIÁO DỤC VÀ ĐÀO TẠO VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM HỌC VIỆN KHOA HỌC VÀ CÔNG NGHỆ - PHẠM THỊ LAN TĨM TẮT DỮ LIỆU BẰNG NGƠN NGỮ THEO CÁCH TIẾP CẬN ĐẠI SỐ GIA TỬ LUẬN ÁN TIẾN SĨ NGÀNH MÁY TÍNH Hà Nội – 2022 BỘ GIÁO DỤC VÀ ĐÀO TẠO VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM HỌC VIỆN KHOA HỌC VÀ CÔNG NGHỆ - PHẠM THỊ LAN TÓM TẮT DỮ LIỆU BẰNG NGÔN NGỮ THEO CÁCH TIẾP CẬN ĐẠI SỐ GIA TỬ LUẬN ÁN TIẾN SĨ NGÀNH MÁY TÍNH Chuyên ngành: Khoa học máy tính Mã số: 48 01 01 NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS.TSKH Nguyễn Cát Hồ PGS.TS Hồ Cẩm Hà Hà Nội – 2022 LỜI CAM ĐOAN Tôi xin cam đoan cơng trình nghiên cứu riêng tơi Các kết viết chung với tác giả khác đồng ý đồng tác đưa vào luận án Các kết nêu luận án trung thực giả trước chưa công bố cơng trình khác Luận án hồn thành thời gian làm Nghiên cứu sinh Học viện Khoa học Công nghệ, Viện Hàn lâm Khoa học Công nghệ Việt Nam Tác giả NCS Phạm Thị Lan LỜI CẢM ƠN Trước tiên, xin gửi lời cảm ơn sâu sắc tới tập thể hướng dẫn PGS.TSKH Nguyễn Cát Hồ PGS.TS Hồ Cẩm Hà Trong q trình nghiên cứu hồn thành luận án, tác giả nhận dẫn tận tình, định hướng khoa học, kinh nghiệm quý báu nghiên cứu từ hai thầy cô Đặc biệt, thầy ln quan tâm, khuyến khích, động viên tác giả vượt qua giai đoạn khó khăn để hồn thành luận án Tác giả xin gửi lời cảm ơn chân thành tới thầy cơ, phịng ban Học viện Khoa học Công nghệ, Viện Hàn lâm Khoa học Việt Nam tạo điều kiện thuận lợi cho tác giả suốt trình nghiên cứu thực bảo vệ luận án Tác giả xin gửi lời cảm ơn tới thầy cô anh chị nhóm nghiên cứu Đại số gia tử ứng dụng chia sẻ, động viên đưa góp ý quý báu vấn đề nghiên cứu tác giả Tác giả xin gửi lời cảm ơn chân thành tới Ban giám hiệu trường Đại học Sư phạm Hà Nội, Ban chủ nhiệm khoa cán bộ, giảng viên khoa Công nghệ thông tin, trường Đại học Sư phạm Hà Nội tạo điều kiện, giúp đỡ, động viên suốt trình học tập, nghiên cứu hoàn thiện bảo vệ luận án Tác giả xin gửi lời cảm ơn lòng biết ơn sâu sắc tới thành viên đại gia đình hỗ trợ, tạo điều kiện, động viên để tác giả có thời gian, tâm lý tốt để thực nhiệm vụ nghiên cứu Tác giả NCS Phạm Thị Lan MỤC LỤC DANH MỤC CÁC BẢNG DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ DANH MỤC CÁC KÝ HIỆU, CHỮ VIẾT TẮT MỞ ĐẦU 10 CHƯƠNG MỘT SỐ KIẾN THỨC CƠ SỞ 20 1.1 Một số kiến thức tập mờ 20 1.1.1 Định nghĩa tập mờ 20 1.1.2 Biến ngôn ngữ 21 1.1.3 Phân hoạch mờ 22 1.2 Khung nhận thức dựa lý thuyết tập mờ 23 1.2.1 Định nghĩa khung nhận thức 23 1.2.2 Các ràng buộc tính giải nghĩa 24 1.3 Tổng quan trích rút tóm tắt ngơn ngữ dựa lý thuyết tập mờ 26 1.3.1 Bài tốn trích rút tóm tắt ngôn ngữ nhánh lĩnh vực khai phá liệu 26 1.3.2 Dạng câu tóm tắt có từ lượng hóa ngơn ngữ ứng dụng 29 1.3.3 Trích rút tóm tắt từ sở liệu 36 1.4 Trích rút tập câu tóm tắt tối ưu từ sở liệu .38 1.4.1 Giải thuật di truyền giải tốn trích rút tập tóm tắt 39 1.4.2 Các yếu tố mơ hình giải thuật di truyền trích rút tập câu tóm tắt 40 1.5 Lý thuyết đại số gia tử 41 1.5.1 Cấu trúc đại số cho miền giá trị biến ngôn ngữ 42 1.5.2 Đại số gia tử mở rộng mơ hình lõi ngữ nghĩa hạng từ 48 1.6 Kết luận chương 55 CHƯƠNG VẤN ĐỀ NỘI DUNG THƠNG TIN CÂU TĨM TẮT VÀ BIỂU DIỄN TẬP MỜ CỦA MIỀN NGÔN NGỮ THUỘC TÍNH 56 2.1 Vai trị khung nhận thức tốn trích rút tóm tắt ngơn ngữ dựa lý thuyết tập mờ 56 2.2 Vấn đề nội dung thơng tin câu tóm tắt ngơn ngữ 59 2.3 Khung nhận thức ngôn ngữ lý thuyết đại số gia tử 62 2.4 Cấu trúc đa ngữ nghĩa tính mở rộng LFoC 64 2.4.1 Cấu trúc đa ngữ nghĩa LFoC 65 2.4.2 Mơ hình bụi biểu diễn cấu trúc đa ngữ nghĩa LFoC 66 2.4.3 Tính mở rộng LFoC 68 2.5 Xây dựng cấu trúc ngữ nghĩa tính tốn giải nghĩa LFoC 70 2.5.1 Thủ tục xây dựng ngữ nghĩa tính tốn cho LFoC 70 2.5.2 Tính giải nghĩa ngữ nghĩa tính tốn với cấu trúc đa thể .76 2.6 Kết luận chương 82 CHƯƠNG PHƯƠNG PHÁP TRÍCH RÚT CÂU TĨM TẮT NGƠN NGỮ DỰA TRÊN ĐẠI SỐ GIA TỬ 84 3.1 Cú pháp câu tóm tắt ngơn ngữ tự nhiên 84 3.2 Phương pháp trích rút câu tóm tắt dựa lý thuyết Đại số gia tử 85 3.2.1 Các thành phần phương pháp đề xuất 86 3.2.2 Tính mở rộng phương pháp đề xuất 89 3.3 Thực nghiệm 90 3.3.1 Đánh giá thơng tin câu tóm tắt 90 3.3.2 Mục tiêu thực thí nghiệm 91 3.3.3 Cơ sở liệu, cú pháp ngữ nghĩa thuộc tính 93 3.3.4 Thí nghiệm 1: Ưu điểm LFoC có số lượng từ lớn tính mở rộng 95 3.3.5 Thí nghiệm 2: Khả mở rộng tập tri thức trích rút từ sở liệu 98 3.3.6 Thí nghiệm 3: Trích rút phân phối ngơn ngữ cho nhóm mờ 103 3.4 Kết luận chương 107 CHƯƠNG TRÍCH RÚT TẬP CÂU TĨM TẮT TỐI ƯU SỬ DỤNG GIẢI THUẬT DI TRUYỀN KẾT HỢP CHIẾN LƯỢC THAM LAM 109 4.1 Mối liên hệ luật kết hợp ngơn ngữ câu tóm tắt có từ lượng hóa 109 4.1.1 Liên hệ luật kết hợp ngơn ngữ câu tóm tắt ngơn ngữ 110 4.1.2 Từ thuật toán khai phá luật kết hợp đến thuật tốn trích rút tóm tắt 111 4.2 Bài tốn trích rút tập câu tóm tắt tối ưu 113 4.3 Giải thuật di truyền trích rút tập câu tóm tắt tối ưu 115 4.3.1 Hàm đánh giá độ thích nghi 115 4.3.2 Các phép tốn mơ hình giải thuật di truyền lai Hybrid-GA 117 4.3.3 Một số hạn chế mơ hình giải thuật di truyền lai Hybrid-GA định hướng khắc phục 118 4.4 Đề xuất thủ tục sinh câu tóm tắt tốt dựa chiến lược tham lam 119 4.4.1 Ý tưởng trích rút câu tóm tắt tốt làm tăng độ đa dạng tập câu tóm tắt 120 4.4.2 Ý tưởng sinh câu tóm tắt tốt dựa đánh giá lực lượng nhóm mờ 121 4.5 Đề xuất mơ hình giải thuật di truyền kết hợp chiến lược tham lam trích rút tập câu tóm tắt tối ưu 124 4.5.1 Mã hóa đối tượng 124 4.5.2 Hàm đánh giá độ thích nghi 124 4.5.3 Mơ hình giải thuật di truyền Greedy-GA 125 4.6 Thực nghiệm 127 4.6.1 Cơ sở liệu dạng câu tóm tắt 128 4.6.2 Khung nhận thức ngôn ngữ thuộc tính từ lượng hóa Q 128 4.6.3 Tham số giải thuật di truyền 129 4.6.4 Kết thực nghiệm 129 4.7 Kết luận chương 131 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 133 DANH MỤC CƠNG TRÌNH CỦA TÁC GIẢ 136 TÀI LIỆU THAM KHẢO 137 DANH MỤC CÁC BẢNG Bảng 1.1: Dữ liệu ví dụ 10 công việc 32 Bảng 1.2: Tính độ thuộc mức lương vào tập mờ tương ứng từ ngôn ngữ Dom(LƯƠNG) 32 Bảng 1.3: Phân loại mức tổng quát cấu trúc câu tóm tắt .37 Bảng 1.4: Quan hệ dấu gia tử dòng với gia tử cột 44 Bảng 3.1: Các câu tóm tắt trích rút từ sở liệu, điều kiện lọc “o(JOB) IS ‘technician’ AND o(Y) IS ‘yes’”, có 730 ghi thỏa điều kiện lọc 97 Bảng 3.2: Phân phối ngôn ngữ nhóm mờ xác định điều kiện “(JOB IS ‘student’) AND (AGE IS x)” thuộc tính CCI Y = ‘yes’ với tập từ lượng hóa Q có tính riêng mức ℱQ,(3) 105 Bảng 3.3: Phân phối ngôn ngữ nhóm mờ xác định điều kiện “(JOB IS ‘student’) AND (AGE IS x)” thuộc tính CCI Y = ‘yes’ với tập từ lượng hóa Q có tính riêng mức ℱQ,(4) .105 Bảng 3.4: Phân phối ngôn ngữ nhóm mờ xác định điều kiện “(JOB IS ‘student’) AND (AGE IS x)” thuộc tính CCI Y = ‘no’ với tập từ lượng hóa Q có tính riêng mức ℱQ,(3) .106 Bảng 3.5: Phân phối ngơn ngữ nhóm mờ xác định điều kiện “(JOB IS ‘student’) AND (AGE IS x)” thuộc tính CCI Y = ‘no’ với tập từ lượng hóa Q có tính riêng mức ℱQ,(4) .106 Bảng 4.1: Thống kê số lượng câu tóm tắt theo số thuộc tính câu 114 Bảng 4.2: Kết trung bình 10 lần chạy mơ hình Greedy-GA kết thực nghiệm mơ hình Hybrid-GA [38] 131 DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ Hình 1.1: Ba kiểu tập mờ phổ biến 21 Hình 1.2: Ví dụ năm tập mờ biểu diễn ngữ nghĩa giá trị ngôn ngữ biến LƯƠNG miền tham chiếu [0, 10] (đơn vị: triệu đồng) 21 Hình 1.3 Ví dụ phân hoạch mờ: (a) dạng đơn thể hạt; (b) dạng đa thể hạt 23 Hình 1.4: Ví dụ tập mờ miền tham chiếu số 24 Hình 1.5: Khung nhận thức ngơn ngữ gồm tập mờ gán nhãn ngữ nghĩa không thứ tự ngữ nghĩa 25 Hình 1.6: Hai ví dụ khung nhận thức thiết kế có tính giải nghĩa tốt 25 Hình 1.7: Quá trình khai phá tri thức từ sở liệu 26 Hình 1.8: Mờ hóa miền tham chiếu khoảng cách, lương/tháng đoạn [0,1] từ lượng hóa tương đối 32 Hình 1.9: Các khoảng tính mờ hạng từ X(2) với tập gia tử H = {L, V} 46 Hình 1.10: Các tập mờ tam giác xây dựng từ giá trị định lượng ngữ nghĩa .48 Hình 1.11: Cấu trúc ngữ nghĩa hạng từ sinh từ hạng từ ‘old’ .49 Hình 1.12: Các khoảng tính mờ hạng từ X sinh từ c+ .52 en,(3) Hình 1.13: Các tập mờ hình thang cho hạng từ X(2) 55 Hình 2.1: Vấn đề chuyển đổi cấu trúc miền hạng từ ngôn ngữ thành cấu trúc tính tốn phù hợp 60 Hình 2.2: Một phần cấu trúc bụi biểu diễn hai quan hệ ngữ nghĩa vốn LFoC: quan hệ thứ tự quan hệ tính chung – riêng 67 Hình 2.3: Ngữ nghĩa tập mờ dạng đa mức cho hạng từ ℱ3 với tập gia tử H = {L, V} 72 Hình 2.4: Các khoảng tính mờ hạng từ X(3) sinh từ cấu trúc Đại số gia tử với tập gia tử H = {L, V} 74 Hình 2.5: Một phần kết hợp tập mờ hình thang mức k mức k+1 miền tham chiếu [0, 1], với |H| = |H+| = 80 Hình 3.1: Các thành phần phương pháp trích rút tóm tắt ngơn ngữ dựa lý thuyết đại số gia tử 87 0.2832; fm(medium) = 0.0273; fm(high) = 0.2793; fm(1) = 0.3906; (L) = 0.4; (h0) = 0.25; (V) = 0.35 Khi đó, hình thang biểu diễn ngữ nghĩa cho hạng từ (hạng từ có thứ tự ngữ nghĩa lớn LFoC ℱCREEP) có đáy nhỏ trùng đáy nhỏ hình thang biểu diễn ngữ nghĩa cho hạng từ ‘ideal’ [38, 40], hình thang biểu diễn ngữ nghĩa cho hạng từ 0, low, medium, high tạo thành phân hoạch khoảng từ 13 đến 330 miền tham chiếu Các tập mờ hình thang biểu diễn cho hạng từ thuộc tính thời gian, nhiệt độ, chất hóa học [38] tạo thành phân phối phân hoạch mạnh miền tham chiếu Do đó, thực nghiệm lựa chọn tham số tính mờ cân cho thuộc tính sau: fm(0) = 0.03; fm(low) = 0.42; fm(W) = 0.1; fm(high) = 0.42; fm(1) = 0.03; (L) = 0.4; (h0) = 0.25; (V) = 0.35 Trong thực nghiệm này, sử dụng khung nhận thức ngơn ngữ có mức tính riêng 3, tức có 17 hạng từ LFoC cho thuộc tính sở liệu creep LFoC từ lượng hóa Q Số lượng 17 từ nhiều gấp lần số lượng hạng từ thuộc tính nghiên cứu [38, 40] 4.6.3 Tham số giải thuật di truyền Các tham số giải thuật di truyền lựa chọn nghiên cứu [38] Cụ thể số lượng câu tóm tắt tập câu 30 câu, tương ứng số lượng gen cá thể 30 Số lượng cá thể hệ 20, số lần lặp 100 Tỷ lệ lựa chọn 0.15, tỷ lệ đột biến 0.1 Hàm đánh giá độ thích nghi Fit cho cá thể cơng thức (4.8) với tham số mg = 0.7, md = 0.3 4.6.4 Kết thực nghiệm Trong Hình 4.2 biểu diễn thay đổi giá trị hàm đánh giá Fit lớn cá thể tốt hệ qua vịng lặp Từ đó, cho thấy giá trị có tăng dần hội tụ đến giá trị lần lặp cuối Điều chứng tỏ kết phản ánh có tiến hóa qua lần lặp Hình 4.2: Độ đo Fit cá thể tốt quần thể qua 100 lần tiến hóa Kết thực nghiệm Hybird-GA báo Donis-Diaz cộng [38] trung bình 10 lần chạy Hybird-GA Để khách quan so sánh kết quả, thuật toán Greedy-GA chạy 10 lần tính kết trung bình 10 lần chạy với số liệu cần so sánh Bảng 4.2 kết trung bình sau 10 lần chạy giải thuật GreedyGA Hybird-GA: (1) hàm đánh giá Fit; (2) trung bình cộng giá trị chân lý T câu tóm tắt; (3) số câu tóm tắt có từ lượng hóa có thứ tự ngữ nghĩa lớn ‘ a half’; (4) số câu tóm tắt có giá trị chân lý T > 0.8; (5) số câu tóm tắt có giá trị chân lý T = (tương ứng với trường hợp khơng có ghi thỏa điều kiện lọc o(Fq)) Mơ hình Hybrid-GA đánh giá tốt mơ hình GA (Classical-GA) GA kết hợp với toán tử Cleaning (Classcial + Cleaning-GA) để loại bỏ câu tóm tắt có giá trị chân lý T = Từ Bảng 4.2 cho thấy, mơ hình Greedy-GA nghiên cứu so với mơ hình Hybrid-GA có số ưu điểm: o Tập câu tóm tắt tối ưu có giá trị hàm Fit lớn Chứng tỏ, Greedy-GA cho phương án tối ưu o Số lượng câu có từ lượng hóa có thứ tự ngữ nghĩa lớn ‘a half ’ nhiều Đây kết việc sử dụng chiến lược tham lam lựa chọn từ lượng hóa có thứ tự ngữ nghĩa lớn câu tóm tắt có thành phần lọc o(Fq) o Số lượng câu có giá trị chân lý T > 0.8 kết Greedy-GA đạt tối đa 30 câu, cao kết 27 câu kết Hybrid-GA [38] Kết Greedy-GA sử dụng tập từ lượng hóa với số lượng 17 từ hình thang biểu diễn ngữ nghĩa cho từ lượng hóa có cấu trúc đa thể Điều chứng tỏ ưu điểm biểu diễn ngữ nghĩa hình thang xây dựng dựa lý thuyết ĐSGT chương ý nghĩa khả mở rộng LFoC ứng dụng thực tế Cụ thể, tăng số lượng từ lượng hóa việc sử dụng thêm từ có mức tính riêng lớn làm tăng khả diễn đạt từ lượng hóa cho tỷ lệ khoảng [0, 1] Kết thực nghiệm cho thấy, LFoC Q gồm mức chọn từ lượng hóa cho câu tóm tắt mà đạt giá trị chân lý lớn 0.8 o Trong kết Greedy-GA khơng có câu tóm tắt có giá trị chân lý T = Như phân tích cuối mục 4.4, tất câu tóm tắt trình thực giải thuật di truyền sinh hàm Random-GreedyLS Trong có sử dụng điều kiện độ đo hỗ trợ supp(Fq) > 0.1 thủ tục Random-Greedy-LS nên không làm xuất câu tóm tắt có T = q trình thực mơ hình Greedy-GA Bảng 4.2: Kết trung bình 10 lần chạy mơ hình Greedy-GA kết thực nghiệm mơ hình Hybrid-GA [38] Mơ hình GA Giá trị Fit Trung bình giá trị T Hybrid-GA [38] 0.6659 0.9139 Trung bình số câu với Q > a half 17.8 Greedy-GA 0.7905 0.9951 18.8 Trung bình số câu có T > 0.8 27.0 Trung bình số câu có T=0 1.0 30 4.7 Kết luận chương Trong chương này, luận án mức tổng quát số lượng câu tóm tắt trích rút từ sở liệu lớn Từ đặt yêu cầu cần phương pháp hiệu để tìm kiếm tập câu tóm tắt mà số lượng nhỏ câu tóm tắt cung cấp nhiều thông tin đa dạng Hàm Random-Greedy-LS sử dụng chiến lược tham lam đề xuất để hướng đến mục tiêu trích rút câu tóm tắt tốt tăng tính đa dạng tập câu tóm tắt Hàm Random-Greedy-LS sử dụng để sinh câu tóm tắt giải thuật di truyền Greedy-GA nhằm tăng hiệu tìm kiếm tập câu tóm tắt tối ưu dựa đánh giá gộp nhập độ tốt độ đa dạng tập câu Mơ hình GreedyGA tính toán tập mờ dạng cấu trúc đa thể xây dựng thủ tục HATFS-MG Kết thực nghiệm chứng tỏ mơ hình giải thuật di truyền Greedy-GA sử dụng biểu diễn tập mờ sinh thủ tục HA-TFS- MG cho kết tốt số tiêu chí đánh giá so sánh với mơ hình di truyền Hybird-GA sở liệu luyện thép creep Nội dung trình bày chương này tổng hợp kết công bố cơng trình [CT1, CT2, CT5] KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN Các phương pháp trích rút tóm tắt ngôn (LSMd) ngữ dựa lý thuyết tập mờ coi công cụ để khai phá tri thức ẩn dấu tập liệu số Với đặc điểm diễn đạt tri thức ngôn ngữ tự nhiên theo mẫu câu định trước, đầu phương pháp LSMd dễ dàng cho người dùng giải nghĩa để tiếp nhận tri thức từ tập liệu Nghiên cứu luận án áp dụng phương pháp luận ĐSGT đề xuất phương pháp giải tốn trích rút tóm tắt ngơn ngữ Các kết trình bày bốn chương luận án hồn thành nhiệm vụ đặt cho nghiên cứu sinh Một số kết luận rút sau: o Luận án việc đảm bảo tính giải nghĩa đắn nội dung thông tin câu tóm tắt quan trọng giải tốn trích rút câu tóm tắt sử dụng tập mờ Tức nội dung giải nghĩa ngôn ngữ tự nhiên câu tóm tắt ngơn ngữ nội dung câu tóm tắt đầu thuật tốn trích rút tính tốn với tập mờ cần phải xấp xỉ Nếu không xấp xỉ hai nội dung thơng tin này, người dùng hiểu sai đối tượng giới thực lưu trữ sở liệu Dựa khái niệm giải nghĩa logic toán học Tarski, luận án điều kiện thiết kế tập mờ đảm bảo truyền tải ngữ nghĩa vốn của hạng từ Từ đó, đảm bảo câu tóm tắt trích rút thuật tốn thực tập mờ giải nghĩa đắn ngôn ngữ tự nhiên o Dựa ngữ nghĩa vốn có hạng từ, tác giả cấu trúc đa ngữ nghĩa dựa quan hệ thứ tự quan hệ tính chung – riêng hạng từ tính mở rộng khung nhận thức ngơn ngữ (LFoC) Từ đó, luận án đề xuất thủ tục HA-TFS-MG sử dụng tham số định lượng cấu trúc ĐSGT sản sinh tập mờ biểu diễn ngữ nghĩa tính tốn cho hạng từ LFoC ℱ� Phát biểu chứng minh định lý chứng tỏ tập mờ xây dựng ảnh đẳng cấu hạng từ gán cho chúng Đây đóng góp quan trọng mặt lý thuyết ý nghĩa thực tế Vì cấu trúc tập mờ sinh từ thủ tục HA-TFS-MG sử dụng toán khai phá tri thức dạng ngôn ngữ khác o Luận án đề xuất phương pháp LSMd Mls sử dụng tập mờ thiết kế thủ tục HA-TFS-MG đề xuất Phương pháp Mls đảm bảo sinh câu tóm tắt giải nghĩa nội dung thông tin đắn ngôn ngữ tự nhiên Đây điểm khác biệt phương pháp Mls với phương pháp LSMd nghiên cứu khác Hơn nữa, phương pháp Mls có khả tương tác với tính mở rộng LFoC thuộc tính Luận án lần khảo sát tính mở rộng tập tri thức trích rút từ sở liệu thông qua việc mở rộng tập từ vựng Điều có ý nghĩa thực tế phản ánh cách người tích lũy, mở rộng tri thức o Luận án đề xuất mơ hình giải thuật di truyền kết hợp chiến lược tham lam Greedy-GA để tìm kiếm tập câu tóm tắt tối ưu gồm câu tóm tắt tốt thể đa dạng tri thức tập liệu Trong giải thuật có sử dụng tập mờ thiết kế HA-TFS-MG Kết thực nghiệm giải thuật đối sách chứng tỏ ưu điểm giải thuật Greedy-GA đề xuất việc sử dụng cách thiết kế tập mờ dựa phương pháp luận ĐSGT Áp dụng phương pháp luận ĐSGT toán trích rút tóm tắt ngơn ngữ, luận án giải vấn đề đảm bảo tính giải nghĩa nội dung thơng tin câu tóm tắt Đây vấn đề then chốt đánh giá hiệu phương pháp trích rút tóm tắt Bởi vì, câu tóm tắt diễn đạt tri thức có giá trị với người dùng chúng truyền đạt tri thức đối tượng phương tiện ngôn ngữ tự nhiên Phương pháp LSMd Mls đề xuất có khả tương tác trực tiếp với ngữ nghĩa định tính vốn có hạng từ ngôn ngữ thông qua tập mờ ảnh đẳng cấu hạng từ gán cho chúng Điều đảm bảo tính giải nghĩa đắn nội dung thông tin truyền đạt câu tóm tắt trích rút từ phương pháp LSMd Mls Từ kết đạt chứng tỏ phương pháp luận lý thuyết ĐSGT mở hướng nghiên cứu giải chất vấn đề đặt tốn trích rút tóm tắt ngơn ngữ Tuy nhiên, tác giả nhận thấy số vấn đề cần tiếp tục nghiên cứu là: o Xem xét mẫu câu tóm tắt khác mẫu câu mở rộng có định lượng thời gian, mẫu câu đánh giá xu hướng cho liệu chuỗi thời gian, mẫu câu dạng luật IF-THEN Trong đó, dạng luật IF-THEN dạng phổ biến diễn đạt tri thức sử dụng hệ suy luận dựa luật giải nhiều toán thực tế Hơn nữa, cần xét trường hợp thành phần mẫu câu liên kết AND và/hoặc OR, có chứa từ phủ định ‘NOT’ Tác giả mong muốn khảo sát liên kết AND, OR, NOT dựa ngữ nghĩa định tính hạng từ xác định mối quan hệ ngữ nghĩa vốn có chúng, thay tương tác tập mờ nghiên cứu có o Các kiểu liệu đầu vào khác liệu chuỗi thời gian, liệu dạng đồ thị, liệu thu từ sensor theo chu kỳ thời gian… Dựa đặc điểm liệu đầu vào, cần điều chỉnh mẫu câu đưa thêm tiêu chí riêng đánh giá cho câu/tập câu Ví dụ với liệu chuỗi thời gian cần trích rút tập câu mơ tả bao phủ toàn giá trị chuỗi, với liệu dạng đồ thị cần trích rút câu mô tả mối quan hệ liên kết mạnh yếu đối tượng, với liệu từ sensor theo chu kỳ thời gian cần trích rút đồng thời câu tóm tắt mơ tả tồn tập liệu câu tóm tắt theo thời điểm khác o Xem xét tiêu chí định tính, độ đo định lượng để đánh giá chất lượng câu tóm tắt đơn lẻ, tập gồm nhiều câu tóm tắt Khi đó, đưa điều kiện, công thức đánh giá chất lượng kết sử dụng kỹ thuật tìm kiếm tối ưu nhằm tìm kiếm tập câu tóm tắt tối ưu cho tập liệu khác DANH MỤC CƠNG TRÌNH CỦA TÁC GIẢ [CT1] Phạm Thị Lan, Hồ Cẩm Hà, “Sinh tóm tắt ngơn ngữ theo cách tiếp cận đại số gia tử”, Tạp chí Khoa học Kỹ thuật – Học viện Kỹ thuật Quân sự, Chuyên san Công nghệ thông tin, số 176, 2016, pp 5-18 [CT2] Pham Thi Lan, Ho Cam Ha, “Extracting a good set of summaries of data based hedge algebra”, Kỷ yếu hội thảo quốc gia lần thứ XIX: Một số vấn đề chọn lọc Công nghệ thông tin truyền thông, 2016, pp 104-109 [CT3] Thi Lan Pham, Cam Ha Ho, and Cat Ho Nguyen, “Linguistic summarization based on the inherent semantics of linguistic words”, International Symposium on Integrated Uncertainty in Knowledge Modelling and Decision Making, 2018, pp 15-26 [CT4] Phạm Thị Lan, Nguyễn Cát Hồ, Hồ Cẩm Hà, “Xây dựng tập từ lượng hóa câu tóm tắt ngơn ngữ dựa đại số gia tử”, Tạp chí Khoa học Đại học Sư phạm Hà Nội, Vol 63, No 11A, 2018, pp 1-10 [CT5] Lan Pham-Thi, Ho Nguyen-Cat, Phong Pham-Dinh, “Extracting an optimal set of linguistic summaries using genetic algorithm combined with greedy strategy”, Journal of Research and Development on Information and Communication Technology, Vol.02, 2020, pp 75-87 [CT6] Cat Ho Nguyen, Thi Lan Pham, Tu N Nguyen, Cam Ha Ho, Thu Anh Nguyen, “The linguistic summarization and the interpretability, scalability of fuzzy representations of multilevel semantic structures of word-domains”, Microprocessors and Microsystems, Vol 81, 2021, 103641 TÀI LIỆU THAM KHẢO [1] S Mitra, S K Pal, and P Mitra, "Data mining in soft computing framework: a survey," IEEE transactions on neural networks, vol 13, no 1, pp 3-14, 2002 [2] E Hüllermeier, "Fuzzy sets in machine learning and data mining," Applied Soft Computing, vol 11, no 2, pp 1493-1505, 2011 [3] R R Yager, "A new approach to the summarization of data," Information Sciences, vol 28, no 1, pp 69-86, 1982 [4] R R Yager, K M Ford, and A J Cañas, "An approach to the linguistic summarization of data," in International Conference on Information Processing and Management of Uncertainty in Knowledge-Based Systems, 1990, pp 456-468: Springer [5] R R Yager, "Linguistic summaries as a tool for database discovery," in FQAS, 1994, pp 17-22 [6] R R Yager, "Interpreting linguistically quantified propositions," International Journal of Intelligent Systems, vol 9, no 6, pp 541-569, 1994 [7] J Kacprzyk, "Intelligent data analysis via linguistic data summaries: a fuzzy logic approach," in Classification and Information Processing at the Turn of the Millennium: Springer, 2000, pp 153-161 [8] J Kacprzyk and S Szadrozny, "Towards human consistent data driven decision support systems using verbalization of data mining results via linguistic data summaries," Bulletin of the Polish Academy of Sciences Technical Sciences, vol 58, no 3, pp 359-370, 2010 [9] J Kacprzyk, R R Yager, and S Zadrozny, "Fuzzy linguistic summaries of databases for an efficient business data analysis and decision support," in Knowledge discovery for business information systems: Springer, 2002, pp 129-152 [10] J Kacprzyk, R R Yager, and S Zadrożny, "A fuzzy logic based approach to linguistic summaries of databases," International Journal of Applied Mathematics and Computer Science, vol 10, no 4, pp 813-834, 2000 [11] J Kacprzyk and S Zadrozny, "Protoforms of Linguistic Data Summaries: Towards More General Natural-Language-Based Data Mining Tools," in HIS, 2002, pp 417-425 [12] J Kacprzyk and S Zadrożny, "Linguistic database summaries and their protoforms: towards natural language based knowledge discovery tools," Information Sciences, vol 173, no 4, pp 281-304, 2005 [13] J Kacprzyk and S Zadrożny, "Linguistic summarization of the contents of Web server logs via the Ordered Weighted Averaging (OWA) operators," Fuzzy Sets and Systems, vol 285, pp 182-198, 2016 [14] J Kacprzyk and P Strykowski, "Linguistic summaries of sales data at a computer retailer via fuzzy logic and a genetic algorithm," in Evolutionary Computation, 1999 CEC 99 Proceedings of the 1999 Congress on, 1999, vol 2, pp 937-943: IEEE [15] J Kacprzyk and R R Yager, "Linguistic summaries of data using fuzzy logic," International Journal of General System, vol 30, no 2, pp 133-154, 2001 [16] J Kacprzyk and A Wilbik, "Using Fuzzy Linguistic Summaries for the Comparison of Time Series: an application to the analysis of investment fund quotations," in IFSA/EUSFLAT Conf., 2009, pp 1321-1326 [17] J Kacprzyk and S Zadrożny, "Supporting decision making via verbalization of data analysis results using linguistic data summaries," in Recent Advances in Decision Making: Springer, 2009, pp 121-143 [18] R Castillo Ortega, N Marín, D Sánchez, and A G Tettamanzi, "Linguistic summarization of time series data using genetic algorithms," in EUSFLAT, 2011, vol 1, no 1, pp 416-423: Atlantis Press [19] R Castillo-Ortega, N Mann, and D Sánchez, "Linguistic local change comparison of time series," in 2011 IEEE International Conference on Fuzzy Systems (FUZZ-IEEE 2011), 2011, pp 2909-2915: IEEE [20] R Castillo-Ortega, N Marín, C Martínez-Cruz, and D Sánchez, "Linguistic comparison of time series using the end-point fit algorithm," in 2015 IEEE International Conference on Fuzzy Systems (FUZZ-IEEE), 2015, pp 1-8: IEEE [21] R Castillo-Ortega, N Marín, D Sánchez, and A G Tettamanzi, "Quality assessment in linguistic summaries of data," in International Conference on Information Processing and Management of Uncertainty in KnowledgeBased Systems, 2012, pp 285-294: Springer [22] R M Catillo-Ortega, N Marín, and D Sánchez, "A Fuzzy Approach to the Linguistic Summarization of Time Series," Journal of Multiple-Valued Logic & Soft Computing, vol 17, 2011 [23] G Moyse, M.-J Lesot, and B Bouchon-Meunier, "Linguistic summaries for periodicity detection based on mathematical morphology," in 2013 IEEE Symposium on Foundations of Computational Intelligence (FOCI), 2013, pp 106-113: IEEE [24] G Moyse, M.-J Lesot, and B Bouchon-Meunier, "Mathematical morphology tools to evaluate periodic linguistic summaries," in International Conference on Flexible Query Answering Systems, 2013, pp 257-268: Springer [25] G Moyse, M.-J Lesot, and B Bouchon-Meunier, "Oppositions in fuzzy linguistic summaries," in Fuzzy Systems (FUZZ-IEEE), 2015 IEEE International Conference on, 2015, pp 1-8: IEEE [26] A Wilbik, R Gilsing, O Turetken, B Ozkan, and P Grefen, "Intentional linguistic summaries for collaborative business model radars," in 2020 IEEE International Conference on Fuzzy Systems (FUZZ-IEEE), 2020, pp 1-7: IEEE [27] A Wilbik and J Kacprzyk, "A multi-criteria evaluation of linguistic summaries of time series via a measure of informativeness," in International Conference on Artificial Intelligence and Soft Computing, 2010, pp 105113: Springer [28] A Wilbik, U Kaymak, and R M Dijkman, "A method for improving the generation of linguistic summaries," in 2017 IEEE International Conference on Fuzzy Systems (FUZZ-IEEE), 2017, pp 1-6: IEEE [29] A Wilbik and J M Keller, "A distance metric for a space of linguistic summaries," Fuzzy Sets and Systems, vol 208, pp 79-94, 2012 [30] A Wilbik and J M Keller, "A fuzzy measure similarity between sets of linguistic summaries," IEEE Transactions on Fuzzy Systems, vol 21, no 1, pp 183-189, 2012 [31] A Wilbik, J M Keller, and G L Alexander, "Linguistic summarization of sensor data for eldercare," in Systems, Man, and Cybernetics (SMC), 2011 IEEE International Conference on, 2011, pp 2595-2599: IEEE [32] A Wilbik, J M Keller, and J C Bezdek, "Generation of prototypes from sets of linguistic summaries," in Fuzzy Systems (FUZZ-IEEE), 2012 IEEE International Conference on, 2012, pp 1-8: IEEE [33] A Wilbik, J M Keller, and J C Bezdek, "Linguistic prototypes for data from eldercare residents," IEEE Transactions on Fuzzy Systems, vol 22, no 1, pp 110-123, 2013 [34] A Wilbik, I Vanderfeesten, D Bergmans, S Heines, and W van Mook, "Linguistic summaries for compliance analysis of a glucose management clinical protocol," in 2018 IEEE International Conference on Fuzzy Systems (FUZZ-IEEE), 2018, pp 1-7: IEEE [35] A Wilbik, "Linguistic summaries of time series using fuzzy sets and their application for performance analysis of investment funds," in Ph D dissertation, Syst Res Inst., Polish Academy Sci., 2010 [36] A Wilbik and J Kacprzyk, "Towards a multi-criteria analysis of linguistic summaries of time series via the measure of informativeness," International Journal of Data Analysis Techniques Strategies, vol 4, no 2, pp 181-204, 2012 [37] A Wilbik and J M Keller, "A fuzzy measure similarity between sets of linguistic summaries," IEEE Transactions on Fuzzy Systems, vol 21, no 1, pp 183-189, 2013 [38] C Donis-Diaz, A Muro, R Bello-Pérez, and E V Morales, "A hybrid model of genetic algorithm with local search to discover linguistic data summaries from creep data," Expert Systems with Applications, vol 41, no 4, pp 2035-2042, 2014 [39] C A Donis-Diaz, R Bello, and J Kacprzyk, "Linguistic data summarization using an enhanced genetic algorithm," Czasopismo Techniczne, vol 2013, no Automatyka Zeszyt AC (10) 2013, pp 3-12, 2014 [40] C A D Díaz, R B Pérez, and E V Morales, "Using Linguistic Data Summarization in the study of creep data for the design of new steels," in Intelligent Systems Design and Applications (ISDA), 2011 11th International Conference on, 2011, pp 160-165: IEEE [41] T Altintop, R R Yager, D Akay, F E Boran, and M Ünal, "Fuzzy Linguistic Summarization with Genetic Algorithm: An Application with Operational and Financial Healthcare Data," International Journal of Uncertainty, Fuzziness and Knowledge-Based Systems, vol 25, no 04, pp 599-620, 2017 [42] R J Almeida, M.-J Lesot, B Bouchon-Meunier, U Kaymak, and G Moyse, "Linguistic summaries of categorical time series for septic shock patient data," in Fuzzy Systems (FUZZ), 2013 IEEE International Conference on, 2013, pp 1-8: IEEE [43] M D Peláez-Aguilera, M Espinilla, M R Fernández Olmo, and J Medina, "Fuzzy linguistic protoforms to summarize heart rate streams of patients with ischemic heart disease," Complexity, vol 2019, 2019 [44] A Tarski, A Mostowski, and R M Robinson, Undecidable theories Elsevier, 1953 [45] J Kacprzyk and S Zadrożny, "Comprehensiveness and interpretability of linguistic data summaries: A natural language focused perspective," in Computational Intelligence for Human-like Intelligence (CIHLI), 2013 IEEE Symposium on, 2013, pp 33-40: IEEE [46] M.-J Lesot, G Moyse, and B Bouchon-Meunier, "Interpretability of fuzzy linguistic summaries," Fuzzy Sets and Systems, vol 292, pp 307-317, 2016 [47] A Ramos-Soto and M Pereira-Fariña, "Reinterpreting interpretability for fuzzy linguistic descriptions of data," in International Conference on Information Processing and Management of Uncertainty in KnowledgeBased Systems, 2018, pp 40-51: Springer [48] A Jain, M Popescu, J Keller, M Rantz, and B Markway, "Linguistic summarization of in-home sensor data," Journal of biomedical informatics, vol 96, p 103240, 2019 [49] J Kacprzyk, A Wilbik, and S Zadrozny, "Using a genetic algorithm to derive a linguistic summary of trends in numerical time series," in 2006 International Symposium on Evolving Fuzzy Systems, 2006, pp 137-142: IEEE [50] C H Nguyen and W Wechler, "Hedge algebras: an algebraic approach to structure of sets of linguistic truth values," Fuzzy sets and systems, vol 35, no 3, pp 281-293, 1990 [51] C H Nguyen and W Wechler, "Extended hedge algebras and their application to fuzzy logic," Fuzzy sets and systems, vol 52, no 3, pp 259281, 1992 [52] C H Nguyen and V N Huynh, "An algebraic approach to linguistic hedges in Zadeh's fuzzy logic," Fuzzy Sets and Systems, vol 129, no 2, pp 229-254, 2002 [53] C H Nguyen, "A topological completion of refined hedge algebras and a model of fuzziness of linguistic terms and hedges," Fuzzy Sets and Systems, vol 158, no 4, pp 436-451, 2007 [54] C H Nguyen and V L Nguyen, "Fuzziness measure on complete hedge algebras and quantifying semantics of terms in linear hedge algebras," Fuzzy sets and Systems, vol 158, no 4, pp 452-471, 2007 [55] C H Nguyen, T S Tran, and D P Pham, "Modeling of a semantics core of linguistic terms based on an extension of hedge algebra semantics and its application," Knowledge-Based Systems, vol 67, pp 244-262, 2014 [56] C H Nguyen, V T Hoang, and V L Nguyen, "A discussion on interpretability of linguistic rule based systems and its application to solve regression problems," Knowledge-Based Systems, vol 88, pp 107-133, 2015 [57] L A Zadeh, "Fuzzy set," Information and control, vol 8, pp 338-353, 1965 [58] L A Zadeh, "The concept of a linguistic variable and its application to approximate reasoning—I," Journal Information sciences, vol 8, no 3, pp 199-249, 1975 [59] L A Zadeh, "The concept of a linguistic variable and its application to approximate reasoning—II," Journal Information sciences, vol 8, no 4, pp 301-357, 1975 [60] K Loquin and O Strauss, "Fuzzy histograms and density estimation," in Soft methods for integrated uncertainty modelling: spinger, 2006, pp 45-52 [61] C Mencar and A M Fanelli, "Interpretability constraints for fuzzy information granulation," Information Sciences, vol 178, no 24, pp 45854618, 2008 [62] J Kacprzyk and S J I T o F S Zadrozny, "Computing with words is an implementable paradigm: fuzzy queries, linguistic data summaries, and natural-language generation," vol 18, no 3, pp 461-472, 2010 [63] N Marín and D Sánchez, "On generating linguistic descriptions of time series," Fuzzy Sets and Systems, vol 285, pp 6-30, 2016 [64] R Gilsing, A Wilbik, P Grefen, O Turetken, and B Ozkan, "A Formal Basis for Business Model Evaluation with Linguistic Summaries," in Enterprise, Business-Process and Information Systems Modeling: Springer, 2020, pp 428-442 [65] M Bartczak and A Niewiadomski, "Linguistic Summaries of Graph Databases in Customer Relationship Management (CRM)," Journal of Applied Computer Science, vol 27, no 1, pp 7-26, 2019 [66] A Duraj, P S Szczepaniak, and L Chomatek, "Intelligent Detection of Information Outliers Using Linguistic Summaries with Non-monotonic Quantifiers," in International Conference on Information Processing and Management of Uncertainty in Knowledge-Based Systems, 2020, pp 787799: Springer [67] A Wilbik, J M Keller, and G L Alexander, "Linguistic summarization of sensor data for eldercare," in 2011 IEEE International Conference on Systems, Man, and Cybernetics, 2011, pp 2595-2599: IEEE [68] D Wu, J M Mendel, and J Joo, "Linguistic summarization using if-then rules," in Fuzzy Systems (FUZZ), 2010 IEEE International Conference on, 2010, pp 1-8: IEEE [69] D Wu and J M Mendel, "Linguistic summarization using IF–THEN rules and interval type-2 fuzzy sets," IEEE Transactions on Fuzzy Systems, vol 19, no 1, pp 136-151, 2011 [70] J Kacprzyk, A Wilbik, and S Zadrożny, "Linguistic summarization of time series using a fuzzy quantifier driven aggregation," Fuzzy Sets and Systems, vol 159, no 12, pp 1485-1499, 2008 [71] L A Zadeh, "A computational approach to fuzzy quantifiers in natural languages," Computers & Mathematics with applications, vol 9, no 1, pp 149-184, 1983 [72] A Wilbik, J M Keller, and J C Bezdek, "Linguistic prototypes for data from eldercare residents," IEEE Transactions on Fuzzy Systems, vol 22, no 1, pp 110-123, 2014 [73] M Gendreau and J.-Y Potvin, Handbook of metaheuristics Springer, 2010 [74] C H Nguyen, N L Vu, and X V Le, "Optimal hedge-algebras-based controller: Design and application," Fuzzy Sets and Systems, vol 159, no 8, pp 968-989, 2008 [75] D Vukadinović, M Bašić, C H Nguyen, N L Vu, and T D Nguyen, "Hedge-algebra-based voltage controller for a self-excited induction generator," Control Engineering Practice, vol 30, pp 78-90, 2014 [76] H.-L Bui, C.-H Nguyen, N.-L Vu, and C.-H Nguyen, "General design method of hedge-algebras-based fuzzy controllers and an application for structural active control," Applied Intelligence, vol 43, no 2, pp 251-275, 2015 [77] C H Nguyen, W Pedrycz, T L Duong, and T S Tran, "A genetic design of linguistic terms for fuzzy rule based classifiers," International Journal of Approximate Reasoning, vol 54, no 1, pp 1-21, 2013 [78] N D Hieu, N C Ho, and V N Lan, "Enrollment forecasting based on linguistic time series," Journal of Computer Science Cybernetics, vol 36, no 2, pp 119-137, 2020 [79] N D Hieu, N C Ho, and V N Lan, "An efficient fuzzy time series forecasting model based on quantifying semantics of words," in 2020 RIVF International Conference on Computing and Communication Technologies (RIVF), 2020, pp 1-6: IEEE [80] N Van Tinh, N C Dieu, N T Duy, and T T Thanh, "Improved Fuzzy Time Series Forecasting Model Based on Optimal Lengths of Intervals Using Hedge Algebras and Particle Swarm Optimization," Advances in Science, Technology and Engineering Systems Journal, vol 6, no 1, pp 1286-1297, 2021 [81] B K Phan and V T Nguyen, "Hedge-Algebras-Based Controller for Mechanisms of Relative Manipulation," International Journal of Precision Engineering Manufacturing, vol 19, no 3, pp 377-385, 2018 [82] H Van Pham and P Moore, "Robot coverage path planning under uncertainty using knowledge inference and hedge algebras," Machines, vol 6, no 4, p 46, 2018 [83] N T Duy and V D Vuong, "Designing hedge algebraic controller and optimizing by genetic algorithm for serial robots adhering trajectories," Journal of Computer Science Cybernetics, vol 36, no 3, pp 265-283, 2020 [84] C H Nguyen, W Pedrycz, and V N Huynh, "A construction of sound semantic linguistic scales using 4-tuple representation of term semantics," International Journal of Approximate Reasoning, vol 55, no 3, pp 763-786, 2014 [85] C H Nguyen, N L Vu, and X V Le, "An interpolative reasoning method based on Hedge Algebras and its application to a problem of fuzzy control," in Proceedings of the 10th WSEAS international conference on Computers, 2006, pp 13-15 [86] N D Anh, H L Bui, N L Vu, and D T Tran, "Application of hedge algebra‐based fuzzy controller to active control of a structure against earthquake," Structural Control Health Monitoring, vol 20, no 4, pp 483495, 2013 [87] H L Bui, D T Tran, and N L Vu, "Optimal fuzzy control of an inverted pendulum," Journal of Vibration and Control Engineering Practice, vol 18, no 14, pp 2097-2110, 2012 [88] N D Duc, N L Vu, D T Tran, and H L Bui, "A study on the application of hedge algebras to active fuzzy control of a seism-excited structure," Journal of Vibration Control, vol 18, no 14, pp 2186-2200, 2012 ... luận án nêu Từ nghiên cứu tốn trích rút tóm tắt ngôn ngữ phương pháp luận ĐSGT, tác giả lựa chọn đề tài ? ?Tóm tắt liệu ngơn ngữ theo cách tiếp cận Đại số gia tử” làm đề tài nghiên cứu luận án Mục... rút tập câu tóm tắt 40 1.5 Lý thuyết đại số gia tử 41 1.5.1 Cấu trúc đại số cho miền giá trị biến ngôn ngữ 42 1.5.2 Đại số gia tử mở rộng mơ hình lõi ngữ nghĩa hạng... NGHỆ - PHẠM THỊ LAN TĨM TẮT DỮ LIỆU BẰNG NGƠN NGỮ THEO CÁCH TIẾP CẬN ĐẠI SỐ GIA TỬ LUẬN ÁN TIẾN SĨ NGÀNH MÁY TÍNH Chun ngành: Khoa học máy tính Mã số: 48 01 01 NGƯỜI HƯỚNG DẪN KHOA

Ngày đăng: 07/06/2022, 17:46

Hình ảnh liên quan

hàm thuộc lớn nhất bằng 1. Tập mờ tam giác và tập mờ hình thang được sử dụng nhiều nhất do tính đơn giản và dễ hiểu với người dùng. - Tóm tắt dữ liệu bằng ngôn ngữ theo cách tiếp cận Đại số gia tử.

h.

àm thuộc lớn nhất bằng 1. Tập mờ tam giác và tập mờ hình thang được sử dụng nhiều nhất do tính đơn giản và dễ hiểu với người dùng Xem tại trang 25 của tài liệu.
Hình 1.3. Ví dụ về phân hoạch mờ: (a) dạng đơn thể hạt; (b) dạng đa thể hạt - Tóm tắt dữ liệu bằng ngôn ngữ theo cách tiếp cận Đại số gia tử.

Hình 1.3..

Ví dụ về phân hoạch mờ: (a) dạng đơn thể hạt; (b) dạng đa thể hạt Xem tại trang 27 của tài liệu.
Hình 1.4: Ví dụ về các tập mờ trên miền tham chiếu số - Tóm tắt dữ liệu bằng ngôn ngữ theo cách tiếp cận Đại số gia tử.

Hình 1.4.

Ví dụ về các tập mờ trên miền tham chiếu số Xem tại trang 28 của tài liệu.
Hình 1.5: Khung nhận thức ngôn ngữ gồ m3 tập mờ và gán nhãn ngữ nghĩa không đúng về thứ tự ngữ nghĩa - Tóm tắt dữ liệu bằng ngôn ngữ theo cách tiếp cận Đại số gia tử.

Hình 1.5.

Khung nhận thức ngôn ngữ gồ m3 tập mờ và gán nhãn ngữ nghĩa không đúng về thứ tự ngữ nghĩa Xem tại trang 29 của tài liệu.
Hình 1.6: Hai ví dụ về khung nhận thức được thiết kế có tính giải nghĩa tốt - Tóm tắt dữ liệu bằng ngôn ngữ theo cách tiếp cận Đại số gia tử.

Hình 1.6.

Hai ví dụ về khung nhận thức được thiết kế có tính giải nghĩa tốt Xem tại trang 29 của tài liệu.
Hình 1.7: Quá trình khai phá tri thức từ cơ sở dữ liệu - Tóm tắt dữ liệu bằng ngôn ngữ theo cách tiếp cận Đại số gia tử.

Hình 1.7.

Quá trình khai phá tri thức từ cơ sở dữ liệu Xem tại trang 30 của tài liệu.
Bảng 1.1: Dữ liệu ví dụ về 10 công việc - Tóm tắt dữ liệu bằng ngôn ngữ theo cách tiếp cận Đại số gia tử.

Bảng 1.1.

Dữ liệu ví dụ về 10 công việc Xem tại trang 36 của tài liệu.
Bảng 1.3: Phân loại các mức tổng quát cấu trúc câu tóm tắt - Tóm tắt dữ liệu bằng ngôn ngữ theo cách tiếp cận Đại số gia tử.

Bảng 1.3.

Phân loại các mức tổng quát cấu trúc câu tóm tắt Xem tại trang 41 của tài liệu.
Với H+ ={ M, V, E} và H ={ R, L}, bảng dấu giữa các gia tử dựa trên xu hướng thay đổi ngữ nghĩa trong ngôn ngữ tự nhiên được cho như trong Bảng    1.4. - Tóm tắt dữ liệu bằng ngôn ngữ theo cách tiếp cận Đại số gia tử.

i.

H+ ={ M, V, E} và H ={ R, L}, bảng dấu giữa các gia tử dựa trên xu hướng thay đổi ngữ nghĩa trong ngôn ngữ tự nhiên được cho như trong Bảng 1.4 Xem tại trang 48 của tài liệu.
Hình 1.9: Các khoảng tính mờ của các hạng từ trong X(2) với tập gia tử H ={ L, V} Giả sử mọi gia tử h  khi tác động lên các hạng từ thì hiệu quả tác động làm thay đổi ngữ nghĩa là như nhau, tức là gia tử h độc lập với ngữ cảnh - Tóm tắt dữ liệu bằng ngôn ngữ theo cách tiếp cận Đại số gia tử.

Hình 1.9.

Các khoảng tính mờ của các hạng từ trong X(2) với tập gia tử H ={ L, V} Giả sử mọi gia tử h khi tác động lên các hạng từ thì hiệu quả tác động làm thay đổi ngữ nghĩa là như nhau, tức là gia tử h độc lập với ngữ cảnh Xem tại trang 50 của tài liệu.
Hình 1.10: Các tập mờ tam giác xây dựng từ giá trị định lượng ngữ nghĩa - Tóm tắt dữ liệu bằng ngôn ngữ theo cách tiếp cận Đại số gia tử.

Hình 1.10.

Các tập mờ tam giác xây dựng từ giá trị định lượng ngữ nghĩa Xem tại trang 52 của tài liệu.
Hình 1.11: Cấu trúc ngữ nghĩa của các hạng từ sinh ra từ hạng từ ‘old’ Xét ví dụ biến ngôn ngữ AGE, hạng từ sinh là ‘young’ và ‘old’ , chọn tập gia tử là H = {little (L), rather (R), more (M), very (V )} - Tóm tắt dữ liệu bằng ngôn ngữ theo cách tiếp cận Đại số gia tử.

Hình 1.11.

Cấu trúc ngữ nghĩa của các hạng từ sinh ra từ hạng từ ‘old’ Xét ví dụ biến ngôn ngữ AGE, hạng từ sinh là ‘young’ và ‘old’ , chọn tập gia tử là H = {little (L), rather (R), more (M), very (V )} Xem tại trang 53 của tài liệu.
SL trong phương pháp hình thức hóa được thành lập bởi người phát triển hệ thống. Rõ ràng, khía cạnh ngữ nghĩa này khác biệt với phương pháp hình thức hóa ngữ nghĩa của ngôn ngữ trong tự nhiên. - Tóm tắt dữ liệu bằng ngôn ngữ theo cách tiếp cận Đại số gia tử.

trong.

phương pháp hình thức hóa được thành lập bởi người phát triển hệ thống. Rõ ràng, khía cạnh ngữ nghĩa này khác biệt với phương pháp hình thức hóa ngữ nghĩa của ngôn ngữ trong tự nhiên Xem tại trang 64 của tài liệu.
như trong Hình 2.2 là vô hạn. Tức là BA bao gồm tất cả các mức ≥1 và biểu diễn các mối quan hệ thứ tự ≤ và quan hệ chung - riêng GS giữa các hạng từ của thuộc tính A. - Tóm tắt dữ liệu bằng ngôn ngữ theo cách tiếp cận Đại số gia tử.

nh.

ư trong Hình 2.2 là vô hạn. Tức là BA bao gồm tất cả các mức ≥1 và biểu diễn các mối quan hệ thứ tự ≤ và quan hệ chung - riêng GS giữa các hạng từ của thuộc tính A Xem tại trang 71 của tài liệu.
Hình 2.3: Ngữ nghĩa tập mờ ở dạng đa mức cho các hạng từ ℱ3 với tập gia tử H - Tóm tắt dữ liệu bằng ngôn ngữ theo cách tiếp cận Đại số gia tử.

Hình 2.3.

Ngữ nghĩa tập mờ ở dạng đa mức cho các hạng từ ℱ3 với tập gia tử H Xem tại trang 76 của tài liệu.
3) xác định tám tập mờ hình thang trong phầ nc của Hình 2.3. - Tóm tắt dữ liệu bằng ngôn ngữ theo cách tiếp cận Đại số gia tử.

3.

xác định tám tập mờ hình thang trong phầ nc của Hình 2.3 Xem tại trang 78 của tài liệu.
LgeB((.)) ký hiệu cho đáy lớn của hình thang (.). Vì G(x, y) tức là y= x, với = - Tóm tắt dữ liệu bằng ngôn ngữ theo cách tiếp cận Đại số gia tử.

ge.

B((.)) ký hiệu cho đáy lớn của hình thang (.). Vì G(x, y) tức là y= x, với = Xem tại trang 84 của tài liệu.
Hình 3.1: Các thành phần chính trong phương pháp trích rút tóm tắt bằng ngôn ngữ dựa trên lý thuyết Đại số gia tử - Tóm tắt dữ liệu bằng ngôn ngữ theo cách tiếp cận Đại số gia tử.

Hình 3.1.

Các thành phần chính trong phương pháp trích rút tóm tắt bằng ngôn ngữ dựa trên lý thuyết Đại số gia tử Xem tại trang 91 của tài liệu.
Hình 3.2: Các tập mờ hình thang biểu diễn ngữ nghĩa cho các từ lượng hóa trong ℱQ,1, ℱQ,2 và ℱQ,3. - Tóm tắt dữ liệu bằng ngôn ngữ theo cách tiếp cận Đại số gia tử.

Hình 3.2.

Các tập mờ hình thang biểu diễn ngữ nghĩa cho các từ lượng hóa trong ℱQ,1, ℱQ,2 và ℱQ,3 Xem tại trang 100 của tài liệu.
Bảng 3.1: Các câu tóm tắt trích rút từ cơ sở dữ liệu, điều kiện lọc là “o(JOB) IS ‘technician’ AND o(Y) IS ‘yes’”, có 730 bản ghi thỏa điều kiện lọc - Tóm tắt dữ liệu bằng ngôn ngữ theo cách tiếp cận Đại số gia tử.

Bảng 3.1.

Các câu tóm tắt trích rút từ cơ sở dữ liệu, điều kiện lọc là “o(JOB) IS ‘technician’ AND o(Y) IS ‘yes’”, có 730 bản ghi thỏa điều kiện lọc Xem tại trang 101 của tài liệu.
Hình 3.4: Cây phân cấp biểu diễn phân phối ngôn ngữ các độ tuổi của nhóm khách hàng JOB = ‘student’ AND Y = ‘no’ - Tóm tắt dữ liệu bằng ngôn ngữ theo cách tiếp cận Đại số gia tử.

Hình 3.4.

Cây phân cấp biểu diễn phân phối ngôn ngữ các độ tuổi của nhóm khách hàng JOB = ‘student’ AND Y = ‘no’ Xem tại trang 106 của tài liệu.
Hình 3.3: Cây phân cấp biểu diễn phân phối ngôn ngữ các độ tuổi của nhóm khách hàng JOB = ‘retired’ AND Y = ‘no’ - Tóm tắt dữ liệu bằng ngôn ngữ theo cách tiếp cận Đại số gia tử.

Hình 3.3.

Cây phân cấp biểu diễn phân phối ngôn ngữ các độ tuổi của nhóm khách hàng JOB = ‘retired’ AND Y = ‘no’ Xem tại trang 106 của tài liệu.
Bảng 3.2: Phân phối ngôn ngữ của nhóm mờ xác định bởi điều kiện “(JOB IS ‘student’) AND (AGE IS  x )” đối với thuộc tính CCI và Y = ‘yes’ với tập từ lượng - Tóm tắt dữ liệu bằng ngôn ngữ theo cách tiếp cận Đại số gia tử.

Bảng 3.2.

Phân phối ngôn ngữ của nhóm mờ xác định bởi điều kiện “(JOB IS ‘student’) AND (AGE IS x )” đối với thuộc tính CCI và Y = ‘yes’ với tập từ lượng Xem tại trang 110 của tài liệu.
o Mỗi ô trong bảng tại dòng tương ứng AGE =x và CCI =y chính là từ lượng hóa trong câu tóm tắt theo mẫu (3.10) mà JOB = ‘student’, Y = ‘yes’ đối với Bảng    3.2, Bảng        3.3, Y = ‘no’ đối với Bảng    3.4, Bảng    3.5. - Tóm tắt dữ liệu bằng ngôn ngữ theo cách tiếp cận Đại số gia tử.

o.

Mỗi ô trong bảng tại dòng tương ứng AGE =x và CCI =y chính là từ lượng hóa trong câu tóm tắt theo mẫu (3.10) mà JOB = ‘student’, Y = ‘yes’ đối với Bảng 3.2, Bảng 3.3, Y = ‘no’ đối với Bảng 3.4, Bảng 3.5 Xem tại trang 110 của tài liệu.
Bảng 3.5: Phân phối ngôn ngữ của nhóm mờ xác định bởi điều kiện “(JOB IS ‘student’) AND (AGE IS x)” đối với thuộc tính CCI và Y = ‘no’ với tập từ - Tóm tắt dữ liệu bằng ngôn ngữ theo cách tiếp cận Đại số gia tử.

Bảng 3.5.

Phân phối ngôn ngữ của nhóm mờ xác định bởi điều kiện “(JOB IS ‘student’) AND (AGE IS x)” đối với thuộc tính CCI và Y = ‘no’ với tập từ Xem tại trang 111 của tài liệu.
Bảng 3.4: Phân phối ngôn ngữ của nhóm mờ xác định bởi điều kiện “(JOB IS ‘student’) AND (AGE IS x )” đối với thuộc tính CCI và Y = ‘no’ với tập từ lượng - Tóm tắt dữ liệu bằng ngôn ngữ theo cách tiếp cận Đại số gia tử.

Bảng 3.4.

Phân phối ngôn ngữ của nhóm mờ xác định bởi điều kiện “(JOB IS ‘student’) AND (AGE IS x )” đối với thuộc tính CCI và Y = ‘no’ với tập từ lượng Xem tại trang 111 của tài liệu.
o(Es) không quá 2, tức là 2 và < t 2. Bảng 4.1 thống kê số lượng câu tóm tắt khác nhau theo số lượng thuộc tính trong từng thành phần o(F q) và thành phần o(Es) - Tóm tắt dữ liệu bằng ngôn ngữ theo cách tiếp cận Đại số gia tử.

o.

(Es) không quá 2, tức là 2 và < t 2. Bảng 4.1 thống kê số lượng câu tóm tắt khác nhau theo số lượng thuộc tính trong từng thành phần o(F q) và thành phần o(Es) Xem tại trang 120 của tài liệu.
Hình 4.2: Độ đo Fit của cá thể tốt nhất trong quần thể qua 100 lần tiến hóa Kết quả thực nghiệm của Hybird-GA trong bài báo của Donis-Diaz và cộng sự [38] là trung bình 10 lần chạy Hybird-GA - Tóm tắt dữ liệu bằng ngôn ngữ theo cách tiếp cận Đại số gia tử.

Hình 4.2.

Độ đo Fit của cá thể tốt nhất trong quần thể qua 100 lần tiến hóa Kết quả thực nghiệm của Hybird-GA trong bài báo của Donis-Diaz và cộng sự [38] là trung bình 10 lần chạy Hybird-GA Xem tại trang 136 của tài liệu.
Bảng 4.2: Kết quả trung bình 10 lần chạy mô hình Greedy-GA và kết quả thực nghiệm mô hình Hybrid-GA trong [38] - Tóm tắt dữ liệu bằng ngôn ngữ theo cách tiếp cận Đại số gia tử.

Bảng 4.2.

Kết quả trung bình 10 lần chạy mô hình Greedy-GA và kết quả thực nghiệm mô hình Hybrid-GA trong [38] Xem tại trang 137 của tài liệu.

Tài liệu cùng người dùng

Tài liệu liên quan