Trong chương này, luận án đã chỉ ra rằng ở mức tổng quát số lượng câu tóm tắt được trích rút từ cơ sở dữ liệu là rất lớn. Từ đó đặt ra yêu cầu cần một phương pháp hiệu quả để tìm kiếm một tập con câu tóm tắt mà số lượng nhỏ câu tóm tắt nhưng cung cấp nhiều thông tin đa dạng. Hàm Random-Greedy-LS sử dụng chiến lược tham lam được đề xuất để hướng đến mục tiêu trích rút một câu tóm tắt tốt và tăng tính đa dạng trong tập câu tóm tắt. Hàm Random-Greedy-LS được sử dụng để sinh các câu tóm tắt trong giải thuật di truyền Greedy-GA nhằm tăng hiệu quả khi tìm kiếm tập câu tóm tắt tối ưu dựa trên đánh giá gộp nhập độ tốt và độ đa dạng của tập câu. Mô hình Greedy-GA tính toán trên các tập mờ ở dạng cấu trúc đa thể được xây dựng bởi thủ tục HA-TFS-MG. Kết quả thực nghiệm đã chứng tỏ mô hình giải thuật di truyền Greedy-GA và sử dụng biểu diễn tập mờ sinh bởi thủ tục HA-TFS-
MG cho kết quả tốt hơn trên một số tiêu chí đánh giá khi so sánh với mô hình di truyền Hybird-GA trên cơ sở dữ liệu luyện thép creep.
Nội dung trình bày trong chương này này là tổng hợp kết quả đã công bố trong các công trình [CT1, CT2, CT5].
KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN
Các phương pháp trích rút tóm tắt bằng ngôn (LSMd) ngữ dựa trên lý thuyết tập mờ được coi là một công cụ để khai phá tri thức ẩn dấu trong tập dữ liệu số. Với đặc điểm diễn đạt tri thức bằng ngôn ngữ tự nhiên theo các mẫu câu định trước, đầu ra của phương pháp LSMd dễ dàng cho người dùng giải nghĩa để tiếp nhận tri thức từ tập dữ liệu. Nghiên cứu trong luận án áp dụng phương pháp luận ĐSGT đề xuất một phương pháp mới giải bài toán trích rút tóm tắt bằng ngôn ngữ. Các kết quả đã trình bày trong bốn chương của luận án đã hoàn thành các nhiệm vụ đặt ra cho nghiên cứu sinh. Một số kết luận được rút ra như sau:
o Luận án đã chỉ ra rằng việc đảm bảo tính giải nghĩa đúng đắn nội dung thông tin của câu tóm tắt là rất quan trọng khi giải bài toán trích rút câu tóm tắt sử dụng các tập mờ. Tức là nội dung được giải nghĩa trong ngôn ngữ tự nhiên của câu tóm tắt bằng ngôn ngữ và nội dung của câu tóm tắt là đầu ra của thuật toán trích rút tính toán với các tập mờ cần phải xấp xỉ nhau. Nếu không xấp xỉ được hai nội dung thông tin này, người dùng có thể hiểu sai về các đối tượng thế giới thực được lưu trữ trong cơ sở dữ liệu. Dựa trên khái niệm giải nghĩa trong logic và toán học của Tarski, luận án đã chỉ ra điều kiện thiết kế các tập mờ đảm bảo truyền tải đúng ngữ nghĩa vốn của của các hạng từ. Từ đó, đảm bảo các câu tóm tắt trích rút bởi thuật toán thực hiện trên các tập mờ được giải nghĩa đúng đắn trong ngôn ngữ tự nhiên.
o Dựa trên ngữ nghĩa vốn có của các hạng từ, tác giả đã chỉ ra cấu trúc đa ngữ nghĩa dựa trên quan hệ thứ tự và quan hệ tính chung – riêng của các hạng từ và tính mở rộng được của các khung nhận thức ngôn ngữ (LFoC). Từ đó, luận án đề xuất một thủ tục HA-TFS-MG sử dụng tham số định lượng của cấu trúc ĐSGT sản sinh các tập mờ biểu diễn ngữ nghĩa tính toán cho các hạng từ trong LFoC ℱ . Phát biểu và chứng minh các định lý đã chứng tỏ các tập mờ được xây dựng là ảnh đẳng cấu của các hạng từ gán cho chúng. Đây là đóng góp quan trọng về mặt lý thuyết và ý nghĩa thực tế. Vì cấu trúc các tập mờ sinh từ thủ tục HA-TFS-MG có thể được sử dụng trong các bài toán khai phá tri thức dạng ngôn ngữ khác.
o Luận án đề xuất một phương pháp LSMd Mls sử dụng các tập mờ được thiết kế bởi thủ tục HA-TFS-MG đã đề xuất. Phương pháp Mls đảm bảo sinh ra các câu tóm tắt được giải nghĩa nội dung thông tin đúng đắn trong ngôn ngữ tự nhiên. Đây là điểm khác biệt của phương pháp Mls với các phương pháp LSMd trong các nghiên cứu khác. Hơn nữa, phương pháp Mls có khả năng tương tác với tính mở rộng của LFoC của các thuộc tính. Luận án lần đầu tiên khảo sát tính mở rộng được của tập tri thức trích rút từ cơ
sở dữ liệu thông qua việc mở rộng tập từ vựng. Điều này rất có ý nghĩa thực tế vì nó phản ánh được cách con người tích lũy, mở rộng tri thức. o Luận án đề xuất mô hình giải thuật di truyền kết hợp chiến lược tham lam
Greedy-GA để tìm kiếm tập câu tóm tắt tối ưu gồm các câu tóm tắt tốt và thể hiện đa dạng tri thức trong tập dữ liệu. Trong giải thuật này có sử dụng các tập mờ được thiết kế bởi HA-TFS-MG. Kết quả thực nghiệm giải thuật và đối sách đã chứng tỏ ưu điểm của giải thuật Greedy-GA đề xuất và của việc sử dụng cách thiết kế tập mờ dựa trên phương pháp luận ĐSGT.
Áp dụng phương pháp luận ĐSGT trong bài toán trích rút tóm tắt bằng ngôn ngữ, luận án giải được vấn đề đảm bảo tính giải nghĩa nội dung thông tin của câu tóm tắt. Đây là vấn đề then chốt trong đánh giá hiệu quả phương pháp trích rút tóm tắt. Bởi vì, các câu tóm tắt diễn đạt các tri thức chỉ có giá trị với người dùng nếu chúng truyền đạt đúng tri thức về các đối tượng bằng phương tiện ngôn ngữ tự nhiên. Phương pháp LSMd Mls đề xuất có khả năng tương tác trực tiếp được với ngữ nghĩa định tính vốn có của các hạng từ ngôn ngữ thông qua các tập mờ là ảnh đẳng cấu của các hạng từ gán cho chúng. Điều này đảm bảo tính giải nghĩa đúng đắn nội dung thông tin truyền đạt bởi các câu tóm tắt trích rút từ phương pháp LSMd Mls.
Từ những kết quả đã đạt được chứng tỏ phương pháp luận trong lý thuyết ĐSGT mở ra một hướng nghiên cứu giải quyết bản chất các vấn đề đặt ra trong bài toán trích rút tóm tắt bằng ngôn ngữ. Tuy nhiên, tác giả nhận thấy vẫn còn một số vấn đề cần tiếp tục nghiên cứu là:
dạng luật IF-THEN. Trong đó, dạng luật IF-THEN là dạng phổ biến trong diễn đạt tri thức và được sử dụng trong các hệ suy luận dựa trên luật trong giải quyết nhiều bài toán thực tế. Hơn nữa, cần xét trường hợp các thành phần trong các mẫu câu có thể là liên kết AND và/hoặc OR, có chứa từ phủ định ‘NOT’. Tác giả mong muốn khảo sát các liên kết AND, OR, NOT dựa trên ngữ nghĩa định tính của các hạng từ được xác định bởi các mối quan hệ ngữ nghĩa vốn có của chúng, thay vì chỉ tương tác trên các tập mờ như trong các nghiên cứu đã có.
o Các kiểu dữ liệu đầu vào khác như dữ liệu chuỗi thời gian, dữ liệu dạng đồ thị, dữ liệu thu được từ sensor theo chu kỳ thời gian… Dựa trên đặc điểm của dữ liệu đầu vào, có thể cần điều chỉnh mẫu câu hoặc đưa thêm các tiêu chí riêng đánh giá cho câu/tập câu. Ví dụ với dữ liệu chuỗi thời gian cần trích rút một tập câu mô tả bao phủ toàn bộ các giá trị trong chuỗi, với dữ liệu dạng đồ thị có thể cần trích rút các câu mô tả các mối quan hệ liên kết mạnh hoặc yếu giữa các đối tượng, với dữ liệu từ sensor theo chu kỳ thời gian có thể cần trích rút đồng thời các câu tóm tắt mô tả toàn bộ tập dữ liệu và các câu tóm tắt theo thời điểm khác nhau.
o Xem xét các tiêu chí định tính, độ đo định lượng để đánh giá chất lượng một câu tóm tắt đơn lẻ, một tập gồm nhiều câu tóm tắt. Khi đó, sẽ đưa ra các điều kiện, công thức đánh giá chất lượng kết quả được sử dụng trong các kỹ thuật tìm kiếm tối ưu nhằm tìm kiếm tập câu tóm tắt tối ưu cho các tập dữ liệu khác nhau.
DANH MỤC CÔNG TRÌNH CỦA TÁC GIẢ
[CT1] Phạm Thị Lan, Hồ Cẩm Hà, “Sinh tóm tắt bằng ngôn ngữ theo cách tiếp cận đại số gia tử”, Tạp chí Khoa học và Kỹ thuật – Học viện Kỹ thuật Quân sự, Chuyên san Công nghệ thông tin, số 176, 2016, pp. 5-18.
[CT2] Pham Thi Lan, Ho Cam Ha, “Extracting a good set of summaries of data based hedge algebra”, Kỷ yếu hội thảo quốc gia lần thứ XIX: Một số vấn đề chọn lọc của Công nghệ thông tin và truyền thông, 2016, pp. 104-109.
[CT3]Thi Lan Pham, Cam Ha Ho, and Cat Ho Nguyen, “Linguistic
summarization based on the inherent semantics of linguistic words”, International Symposium on Integrated Uncertainty in Knowledge Modelling and Decision Making, 2018, pp. 15-26.
[CT4] Phạm Thị Lan, Nguyễn Cát Hồ, Hồ Cẩm Hà, “Xây dựng tập từ lượng hóa trong câu tóm tắt ngôn ngữ dựa trên đại số gia tử”, Tạp chí Khoa học Đại học Sư phạm Hà Nội, Vol. 63, No. 11A, 2018, pp. 1-10.
[CT5] Lan Pham-Thi, Ho Nguyen-Cat, Phong Pham-Dinh, “Extracting an optimal set of linguistic summaries using genetic algorithm combined with greedy strategy”, Journal of Research and Development on Information and Communication Technology, Vol.02, 2020, pp. 75-87.
[CT6] Cat Ho Nguyen, Thi Lan Pham, Tu N. Nguyen, Cam Ha Ho, Thu Anh Nguyen, “The linguistic summarization and the interpretability, scalability of fuzzy representations of multilevel semantic structures of word-domains”, Microprocessors and Microsystems, Vol. 81, 2021, 103641.
TÀI LIỆU THAM KHẢO
[1] S. Mitra, S. K. Pal, and P. Mitra, "Data mining in soft computing framework: a survey," IEEE transactions on neural networks, vol. 13, no. 1, pp. 3-14, 2002.
[2] E. Hüllermeier, "Fuzzy sets in machine learning and data mining," Applied Soft Computing, vol. 11, no. 2, pp. 1493-1505, 2011.
[3] R. R. Yager, "A new approach to the summarization of data," Information Sciences, vol. 28, no. 1, pp. 69-86, 1982.
[4] R. R. Yager, K. M. Ford, and A. J. Cañas, "An approach to the linguistic summarization of data," in International Conference on Information Processing and Management of Uncertainty in Knowledge-Based Systems, 1990, pp. 456-468: Springer.
[5] R. R. Yager, "Linguistic summaries as a tool for database discovery," in
FQAS, 1994, pp. 17-22.
[6] R. R. Yager, "Interpreting linguistically quantified propositions,"
International Journal of Intelligent Systems, vol. 9, no. 6, pp. 541-569, 1994. [7] J. Kacprzyk, "Intelligent data analysis via linguistic data summaries: a fuzzy
logic approach," in Classification and Information Processing at the Turn of the Millennium: Springer, 2000, pp. 153-161.
[8] J. Kacprzyk and S. Szadrozny, "Towards human consistent data driven decision support systems using verbalization of data mining results via linguistic data summaries," Bulletin of the Polish Academy of Sciences Technical Sciences, vol. 58, no. 3, pp. 359-370, 2010.
[9] J. Kacprzyk, R. R. Yager, and S. Zadrozny, "Fuzzy linguistic summaries of databases for an efficient business data analysis and decision support," in
Knowledge discovery for business information systems: Springer, 2002, pp. 129-152.
[10] J. Kacprzyk, R. R. Yager, and S. Zadrożny, "A fuzzy logic based approach to linguistic summaries of databases," International Journal of Applied Mathematics and Computer Science, vol. 10, no. 4, pp. 813-834, 2000.
[11] J. Kacprzyk and S. Zadrozny, "Protoforms of Linguistic Data Summaries: Towards More General Natural-Language-Based Data Mining Tools," in
HIS, 2002, pp. 417-425.
[12] J. Kacprzyk and S. Zadrożny, "Linguistic database summaries and their protoforms: towards natural language based knowledge discovery tools,"
Information Sciences, vol. 173, no. 4, pp. 281-304, 2005.
[13] J. Kacprzyk and S. Zadrożny, "Linguistic summarization of the contents of Web server logs via the Ordered Weighted Averaging (OWA) operators,"
[14] J. Kacprzyk and P. Strykowski, "Linguistic summaries of sales data at a computer retailer via fuzzy logic and a genetic algorithm," in Evolutionary Computation, 1999. CEC 99. Proceedings of the 1999 Congress on, 1999, vol. 2, pp. 937-943: IEEE.
[15] J. Kacprzyk and R. R. Yager, "Linguistic summaries of data using fuzzy logic," International Journal of General System, vol. 30, no. 2, pp. 133-154, 2001.
[16] J. Kacprzyk and A. Wilbik, "Using Fuzzy Linguistic Summaries for the Comparison of Time Series: an application to the analysis of investment fund quotations," in IFSA/EUSFLAT Conf., 2009, pp. 1321-1326.
[17] J. Kacprzyk and S. Zadrożny, "Supporting decision making via verbalization of data analysis results using linguistic data summaries," in Recent Advances in Decision Making: Springer, 2009, pp. 121-143.
[18] R. Castillo Ortega, N. Marín, D. Sánchez, and A. G. Tettamanzi, "Linguistic summarization of time series data using genetic algorithms," in EUSFLAT, 2011, vol. 1, no. 1, pp. 416-423: Atlantis Press.
[19] R. Castillo-Ortega, N. Mann, and D. Sánchez, "Linguistic local change comparison of time series," in 2011 IEEE International Conference on Fuzzy Systems (FUZZ-IEEE 2011), 2011, pp. 2909-2915: IEEE.
[20] R. Castillo-Ortega, N. Marín, C. Martínez-Cruz, and D. Sánchez, "Linguistic comparison of time series using the end-point fit algorithm," in 2015 IEEE International Conference on Fuzzy Systems (FUZZ-IEEE), 2015, pp. 1-8: IEEE.
[21] R. Castillo-Ortega, N. Marín, D. Sánchez, and A. G. Tettamanzi, "Quality assessment in linguistic summaries of data," in International Conference on Information Processing and Management of Uncertainty in Knowledge- Based Systems, 2012, pp. 285-294: Springer.
[22] R. M. Catillo-Ortega, N. Marín, and D. Sánchez, "A Fuzzy Approach to the Linguistic Summarization of Time Series," Journal of Multiple-Valued Logic & Soft Computing, vol. 17, 2011.
[23] G. Moyse, M.-J. Lesot, and B. Bouchon-Meunier, "Linguistic summaries for periodicity detection based on mathematical morphology," in 2013 IEEE Symposium on Foundations of Computational Intelligence (FOCI), 2013, pp. 106-113: IEEE.
[24] G. Moyse, M.-J. Lesot, and B. Bouchon-Meunier, "Mathematical morphology tools to evaluate periodic linguistic summaries," in
International Conference on Flexible Query Answering Systems, 2013, pp. 257-268:Springer.
[25] G. Moyse, M.-J. Lesot, and B. Bouchon-Meunier, "Oppositions in fuzzy linguistic summaries," in Fuzzy Systems (FUZZ-IEEE), 2015 IEEE International Conference on, 2015, pp. 1-8: IEEE.
[26] A. Wilbik, R. Gilsing, O. Turetken, B. Ozkan, and P. Grefen, "Intentional linguistic summaries for collaborative business model radars," in 2020 IEEE International Conference on Fuzzy Systems (FUZZ-IEEE), 2020, pp. 1-7: IEEE.
[27] A. Wilbik and J. Kacprzyk, "A multi-criteria evaluation of linguistic summaries of time series via a measure of informativeness," in International Conference on Artificial Intelligence and Soft Computing, 2010, pp. 105-113: Springer.
[28] A. Wilbik, U. Kaymak, and R. M. Dijkman, "A method for improving the generation of linguistic summaries," in 2017 IEEE International Conference on Fuzzy Systems (FUZZ-IEEE), 2017, pp. 1-6: IEEE.
[29] A. Wilbik and J. M. Keller, "A distance metric for a space of linguistic summaries," Fuzzy Sets and Systems, vol. 208, pp. 79-94, 2012.
[30] A. Wilbik and J. M. Keller, "A fuzzy measure similarity between sets of linguistic summaries," IEEE Transactions on Fuzzy Systems, vol. 21, no. 1, pp. 183-189, 2012.
[31] A. Wilbik, J. M. Keller, and G. L. Alexander, "Linguistic summarization of sensor data for eldercare," in Systems, Man, and Cybernetics (SMC), 2011 IEEE International Conference on, 2011, pp. 2595-2599: IEEE.
[32] A. Wilbik, J. M. Keller, and J. C. Bezdek, "Generation of prototypes from sets of linguistic summaries," in Fuzzy Systems (FUZZ-IEEE), 2012 IEEE International Conference on, 2012, pp. 1-8: IEEE.
[33] A. Wilbik, J. M. Keller, and J. C. Bezdek, "Linguistic prototypes for data from eldercare residents," IEEE Transactions on Fuzzy Systems, vol. 22, no. 1, pp. 110-123, 2013.
[34] A. Wilbik, I. Vanderfeesten, D. Bergmans, S. Heines, and W. van Mook, "Linguistic summaries for compliance analysis of a glucose management clinical protocol," in 2018 IEEE International Conference on Fuzzy Systems (FUZZ-IEEE), 2018, pp. 1-7: IEEE.
[35] A. Wilbik, "Linguistic summaries of time series using fuzzy sets and their application for performance analysis of investment funds," in Ph. D. dissertation, Syst. Res. Inst., Polish Academy Sci., 2010.
[36] A. Wilbik and J. Kacprzyk, "Towards a multi-criteria analysis of linguistic summaries of time series via the measure of informativeness," International Journal of Data Analysis Techniques Strategies, vol. 4, no. 2, pp. 181-204, 2012.
[37] A. Wilbik and J. M. Keller, "A fuzzy measure similarity between sets of linguistic summaries," IEEE Transactions on Fuzzy Systems, vol. 21, no. 1, pp. 183-189, 2013.
[38] C. Donis-Diaz, A. Muro, R. Bello-Pérez, and E. V. Morales, "A hybrid model of genetic algorithm with local search to discover linguistic data
summaries from creep data," Expert Systems with Applications, vol. 41, no. 4, pp. 2035-2042, 2014.
[39] C. A. Donis-Diaz, R. Bello, and J. Kacprzyk, "Linguistic data summarization using an enhanced genetic algorithm," Czasopismo Techniczne, vol. 2013,