Kết quả thực nghiệm

Một phần của tài liệu Tóm tắt dữ liệu bằng ngôn ngữ theo cách tiếp cận đại số gia tử (Trang 133)

Trong Hình 4.2 biểu diễn sự thay đổi của giá trị hàm đánh giá Fit lớn nhất của cá thể tốt nhất trong thế hệ qua mỗi vòng lặp. Từ đó, cho thấy giá trị này có sự tăng dần và sẽ hội tụ đến một giá trị ở những lần lặp cuối. Điều đó chứng tỏ kết quả phản ánh có sự tiến hóa qua các lần lặp.

Hình 4.2: Độ đo Fit của cá thể tốt nhất trong quần thể qua 100 lần tiến hóa Kết quả thực nghiệm của Hybird-GA trong bài báo của Donis-Diaz và cộng sự [38] là trung bình 10 lần chạy Hybird-GA. Để khách quan trong so sánh kết quả, thuật toán Greedy-GA được chạy 10 lần và tính kết quả trung bình 10 lần chạy với những số liệu cần so sánh. Bảng 4.2 là kết quả trung bình sau 10 lần chạy của giải thuật Greedy-GA và Hybird-GA: (1) hàm đánh giá Fit; (2) trung bình cộng giá trị chân lý T của các câu tóm tắt; (3) số câu tóm tắt có từ lượng hóa có thứ tự ngữ nghĩa lớn hơn ‘a half’; (4) số câu tóm tắt có giá trị chân lý T > 0.8; (5) số câu tóm tắt có giá trị chân lý T = 0 (tương ứng với trường hợp không có bản ghi nào thỏa điều kiện lọc o(Fq)). Mô hình Hybrid-GA đã được đánh giá là tốt hơn mô hình GA cơ bản (Classical-GA) và GA cơ bản kết hợp với toán tử Cleaning (Classcial + Cleaning-GA) để loại bỏ các câu tóm tắt có giá trị chân lý T = 0. Từ Bảng 4.2 cho thấy, mô hình Greedy-GA trong nghiên cứu này so với mô hình Hybrid-GA có một số ưu điểm:

o Tập câu tóm tắt tối ưu có giá trị hàm Fit lớn hơn. Chứng tỏ, Greedy-GA sẽ cho phương án tối ưu hơn.

o Số lượng câu có từ lượng hóa có thứ tự ngữ nghĩa lớn hơn ‘a half’ nhiều hơn. Đây là kết quả của việc sử dụng chiến lược tham lam khi lựa chọn từ lượng hóa có thứ tự ngữ nghĩa lớn nhất có thể trong các câu tóm tắt có cùng thành phần lọc o(Fq).

o Số lượng câu có giá trị chân lý T > 0.8 trong kết quả của Greedy-GA đạt tối đa là 30 câu, cao hơn kết quả 27 câu kết quả của Hybrid-GA trong [38]. Kết quả này do Greedy-GA sử dụng tập từ lượng hóa với số lượng 17 từ và các hình thang biểu diễn ngữ nghĩa cho các từ lượng hóa có cấu trúc đa thể. Điều này chứng tỏ ưu điểm của biểu diễn ngữ nghĩa bằng hình thang như được xây dựng dựa trên lý thuyết ĐSGT trong chương 2 và ý nghĩa của

khả năng mở rộng LFoC trong ứng dụng thực tế. Cụ thể, khi tăng số lượng từ lượng hóa bằng việc sử dụng thêm các từ có mức tính riêng lớn sẽ làm tăng khả năng diễn đạt bằng từ lượng hóa cho bất cứ tỷ lệ nào trong khoảng [0, 1]. Kết quả trong thực nghiệm cho thấy, khi LFoC của Q gồm 3 mức sẽ luôn chọn được từ lượng hóa cho các câu tóm tắt mà đạt được giá trị chân lý lớn hơn 0.8.

o Trong kết quả của Greedy-GA không có câu tóm tắt có giá trị chân lý T = 0. Như đã phân tích ở cuối mục 4.4, tất cả các câu tóm tắt trong quá trình thực hiện giải thuật di truyền đều được sinh ra bởi hàm Random-Greedy- LS. Trong đó có sử dụng điều kiện đối với độ đo hỗ trợ supp(Fq) > 0.1 trong thủ tục Random-Greedy-LS nên sẽ không làm xuất hiện các câu tóm tắt có T = 0 trong quá trình thực hiện mô hình Greedy-GA.

Bảng 4.2: Kết quả trung bình 10 lần chạy mô hình Greedy-GA và kết quả thực nghiệm mô hình Hybrid-GA trong [38]

Mô hình GA Giá trị Fit Trung bình giá trị T Trung bình số câu với Q > a half Trung bình số câu có T > 0.8 Trung bình số câu có T = 0 Hybrid-GA [38] 0.6659 0.9139 17.8 27.0 1.0 Greedy-GA 0.7905 0.9951 18.8 30 0 4.7. Kết luận chương 4

Trong chương này, luận án đã chỉ ra rằng ở mức tổng quát số lượng câu tóm tắt được trích rút từ cơ sở dữ liệu là rất lớn. Từ đó đặt ra yêu cầu cần một phương pháp hiệu quả để tìm kiếm một tập con câu tóm tắt mà số lượng nhỏ câu tóm tắt nhưng cung cấp nhiều thông tin đa dạng. Hàm Random-Greedy-LS sử dụng chiến lược tham lam được đề xuất để hướng đến mục tiêu trích rút một câu tóm tắt tốt và tăng tính đa dạng trong tập câu tóm tắt. Hàm Random-Greedy-LS được sử dụng để sinh các câu tóm tắt trong giải thuật di truyền Greedy-GA nhằm tăng hiệu quả khi tìm kiếm tập câu tóm tắt tối ưu dựa trên đánh giá gộp nhập độ tốt và độ đa dạng của tập câu. Mô hình Greedy-GA tính toán trên các tập mờ ở dạng cấu trúc đa thể được xây dựng bởi thủ tục HA-TFS-MG. Kết quả thực nghiệm đã chứng tỏ mô hình giải thuật di truyền Greedy-GA và sử dụng biểu diễn tập mờ sinh bởi thủ tục HA-TFS-

MG cho kết quả tốt hơn trên một số tiêu chí đánh giá khi so sánh với mô hình di truyền Hybird-GA trên cơ sở dữ liệu luyện thép creep.

Nội dung trình bày trong chương này này là tổng hợp kết quả đã công bố trong các công trình [CT1, CT2, CT5].

KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN

Các phương pháp trích rút tóm tắt bằng ngôn (LSMd) ngữ dựa trên lý thuyết tập mờ được coi là một công cụ để khai phá tri thức ẩn dấu trong tập dữ liệu số. Với đặc điểm diễn đạt tri thức bằng ngôn ngữ tự nhiên theo các mẫu câu định trước, đầu ra của phương pháp LSMd dễ dàng cho người dùng giải nghĩa để tiếp nhận tri thức từ tập dữ liệu. Nghiên cứu trong luận án áp dụng phương pháp luận ĐSGT đề xuất một phương pháp mới giải bài toán trích rút tóm tắt bằng ngôn ngữ. Các kết quả đã trình bày trong bốn chương của luận án đã hoàn thành các nhiệm vụ đặt ra cho nghiên cứu sinh. Một số kết luận được rút ra như sau:

o Luận án đã chỉ ra rằng việc đảm bảo tính giải nghĩa đúng đắn nội dung thông tin của câu tóm tắt là rất quan trọng khi giải bài toán trích rút câu tóm tắt sử dụng các tập mờ. Tức là nội dung được giải nghĩa trong ngôn ngữ tự nhiên của câu tóm tắt bằng ngôn ngữ và nội dung của câu tóm tắt là đầu ra của thuật toán trích rút tính toán với các tập mờ cần phải xấp xỉ nhau. Nếu không xấp xỉ được hai nội dung thông tin này, người dùng có thể hiểu sai về các đối tượng thế giới thực được lưu trữ trong cơ sở dữ liệu. Dựa trên khái niệm giải nghĩa trong logic và toán học của Tarski, luận án đã chỉ ra điều kiện thiết kế các tập mờ đảm bảo truyền tải đúng ngữ nghĩa vốn của của các hạng từ. Từ đó, đảm bảo các câu tóm tắt trích rút bởi thuật toán thực hiện trên các tập mờ được giải nghĩa đúng đắn trong ngôn ngữ tự nhiên.

o Dựa trên ngữ nghĩa vốn có của các hạng từ, tác giả đã chỉ ra cấu trúc đa ngữ nghĩa dựa trên quan hệ thứ tự và quan hệ tính chung – riêng của các hạng từ và tính mở rộng được của các khung nhận thức ngôn ngữ (LFoC). Từ đó, luận án đề xuất một thủ tục HA-TFS-MG sử dụng tham số định lượng của cấu trúc ĐSGT sản sinh các tập mờ biểu diễn ngữ nghĩa tính toán cho các hạng từ trong LFoC ℱ𝐴. Phát biểu và chứng minh các định lý đã chứng tỏ các tập mờ được xây dựng là ảnh đẳng cấu của các hạng từ gán cho chúng. Đây là đóng góp quan trọng về mặt lý thuyết và ý nghĩa thực tế. Vì cấu trúc các tập mờ sinh từ thủ tục HA-TFS-MG có thể được sử dụng trong các bài toán khai phá tri thức dạng ngôn ngữ khác.

o Luận án đề xuất một phương pháp LSMd Mls sử dụng các tập mờ được thiết kế bởi thủ tục HA-TFS-MG đã đề xuất. Phương pháp Mls đảm bảo sinh ra các câu tóm tắt được giải nghĩa nội dung thông tin đúng đắn trong ngôn ngữ tự nhiên. Đây là điểm khác biệt của phương pháp Mls với các phương pháp LSMd trong các nghiên cứu khác. Hơn nữa, phương pháp Mls có khả năng tương tác với tính mở rộng của LFoC của các thuộc tính. Luận án lần đầu tiên khảo sát tính mở rộng được của tập tri thức trích rút từ cơ sở dữ liệu thông qua việc mở rộng tập từ vựng. Điều này rất có ý nghĩa thực tế vì nó phản ánh được cách con người tích lũy, mở rộng tri thức.

o Luận án đề xuất mô hình giải thuật di truyền kết hợp chiến lược tham lam Greedy-GA để tìm kiếm tập câu tóm tắt tối ưu gồm các câu tóm tắt tốt và thể hiện đa dạng tri thức trong tập dữ liệu. Trong giải thuật này có sử dụng các tập mờ được thiết kế bởi HA-TFS-MG. Kết quả thực nghiệm giải thuật và đối sách đã chứng tỏ ưu điểm của giải thuật Greedy-GA đề xuất và của việc sử dụng cách thiết kế tập mờ dựa trên phương pháp luận ĐSGT.

Áp dụng phương pháp luận ĐSGT trong bài toán trích rút tóm tắt bằng ngôn ngữ, luận án giải được vấn đề đảm bảo tính giải nghĩa nội dung thông tin của câu tóm tắt. Đây là vấn đề then chốt trong đánh giá hiệu quả phương pháp trích rút tóm tắt. Bởi vì, các câu tóm tắt diễn đạt các tri thức chỉ có giá trị với người dùng nếu chúng truyền đạt đúng tri thức về các đối tượng bằng phương tiện ngôn ngữ tự nhiên. Phương pháp LSMd Mls đề xuất có khả năng tương tác trực tiếp được với ngữ nghĩa định tính vốn có của các hạng từ ngôn ngữ thông qua các tập mờ là ảnh đẳng cấu của các hạng từ gán cho chúng. Điều này đảm bảo tính giải nghĩa đúng đắn nội dung thông tin truyền đạt bởi các câu tóm tắt trích rút từ phương pháp LSMd Mls.

Từ những kết quả đã đạt được chứng tỏ phương pháp luận trong lý thuyết ĐSGT mở ra một hướng nghiên cứu giải quyết bản chất các vấn đề đặt ra trong bài toán trích rút tóm tắt bằng ngôn ngữ. Tuy nhiên, tác giả nhận thấy vẫn còn một số vấn đề cần tiếp tục nghiên cứu là:

o Xem xét các mẫu câu tóm tắt khác như mẫu câu mở rộng có định lượng thời gian, mẫu câu đánh giá xu hướng cho dữ liệu chuỗi thời gian, mẫu câu

dạng luật IF-THEN. Trong đó, dạng luật IF-THEN là dạng phổ biến trong diễn đạt tri thức và được sử dụng trong các hệ suy luận dựa trên luật trong giải quyết nhiều bài toán thực tế. Hơn nữa, cần xét trường hợp các thành phần trong các mẫu câu có thể là liên kết AND và/hoặc OR, có chứa từ phủ định ‘NOT’. Tác giả mong muốn khảo sát các liên kết AND, OR, NOT dựa trên ngữ nghĩa định tính của các hạng từ được xác định bởi các mối quan hệ ngữ nghĩa vốn có của chúng, thay vì chỉ tương tác trên các tập mờ như trong các nghiên cứu đã có.

o Các kiểu dữ liệu đầu vào khác như dữ liệu chuỗi thời gian, dữ liệu dạng đồ thị, dữ liệu thu được từ sensor theo chu kỳ thời gian… Dựa trên đặc điểm của dữ liệu đầu vào, có thể cần điều chỉnh mẫu câu hoặc đưa thêm các tiêu chí riêng đánh giá cho câu/tập câu. Ví dụ với dữ liệu chuỗi thời gian cần trích rút một tập câu mô tả bao phủ toàn bộ các giá trị trong chuỗi, với dữ liệu dạng đồ thị có thể cần trích rút các câu mô tả các mối quan hệ liên kết mạnh hoặc yếu giữa các đối tượng, với dữ liệu từ sensor theo chu kỳ thời gian có thể cần trích rút đồng thời các câu tóm tắt mô tả toàn bộ tập dữ liệu và các câu tóm tắt theo thời điểm khác nhau.

o Xem xét các tiêu chí định tính, độ đo định lượng để đánh giá chất lượng một câu tóm tắt đơn lẻ, một tập gồm nhiều câu tóm tắt. Khi đó, sẽ đưa ra các điều kiện, công thức đánh giá chất lượng kết quả được sử dụng trong các kỹ thuật tìm kiếm tối ưu nhằm tìm kiếm tập câu tóm tắt tối ưu cho các tập dữ liệu khác nhau.

DANH MỤC CÔNG TRÌNH CỦA TÁC GIẢ

[CT1] Phạm Thị Lan, Hồ Cẩm Hà, “Sinh tóm tắt bằng ngôn ngữ theo cách tiếp cận đại số gia tử”, Tạp chí Khoa học và Kỹ thuật – Học viện Kỹ thuật Quân sự, Chuyên san Công nghệ thông tin, số 176, 2016, pp. 5-18.

[CT2] Pham Thi Lan, Ho Cam Ha, “Extracting a good set of summaries of data

based hedge algebra”, Kỷ yếu hội thảo quốc gia lần thứ XIX: Một số vấn đề chọn lọc của Công nghệ thông tin và truyền thông, 2016, pp. 104-109.

[CT3] Thi Lan Pham, Cam Ha Ho, and Cat Ho Nguyen, “Linguistic

summarization based on the inherent semantics of linguistic words”, International Symposium on Integrated Uncertainty in Knowledge Modelling and Decision Making, 2018, pp. 15-26.

[CT4] Phạm Thị Lan, Nguyễn Cát Hồ, Hồ Cẩm Hà, “Xây dựng tập từ lượng hóa

trong câu tóm tắt ngôn ngữ dựa trên đại số gia tử”, Tạp chí Khoa học Đại học Sư phạm Hà Nội, Vol. 63, No. 11A, 2018, pp. 1-10.

[CT5] Lan Pham-Thi, Ho Nguyen-Cat, Phong Pham-Dinh, “Extracting an optimal set of linguistic summaries using genetic algorithm combined with greedy strategy”, Journal of Research and Development on Information and Communication Technology, Vol.02, 2020, pp. 75-87.

[CT6] Cat Ho Nguyen, Thi Lan Pham, Tu N. Nguyen, Cam Ha Ho, Thu Anh

Nguyen, “The linguistic summarization and the interpretability, scalability of fuzzy representations of multilevel semantic structures of word-domains”, Microprocessors and Microsystems, Vol. 81, 2021, 103641.

TÀI LIỆU THAM KHẢO

[1] S. Mitra, S. K. Pal, and P. Mitra, "Data mining in soft computing framework: a survey," IEEE transactions on neural networks, vol. 13, no. 1, pp. 3-14, 2002.

[2] E. Hüllermeier, "Fuzzy sets in machine learning and data mining," Applied Soft Computing, vol. 11, no. 2, pp. 1493-1505, 2011.

[3] R. R. Yager, "A new approach to the summarization of data," Information Sciences, vol. 28, no. 1, pp. 69-86, 1982.

[4] R. R. Yager, K. M. Ford, and A. J. Cañas, "An approach to the linguistic summarization of data," in International Conference on Information Processing and Management of Uncertainty in Knowledge-Based Systems, 1990, pp. 456-468: Springer.

[5] R. R. Yager, "Linguistic summaries as a tool for database discovery," in

FQAS, 1994, pp. 17-22.

[6] R. R. Yager, "Interpreting linguistically quantified propositions,"

International Journal of Intelligent Systems, vol. 9, no. 6, pp. 541-569, 1994. [7] J. Kacprzyk, "Intelligent data analysis via linguistic data summaries: a fuzzy

logic approach," in Classification and Information Processing at the Turn of the Millennium: Springer, 2000, pp. 153-161.

[8] J. Kacprzyk and S. Szadrozny, "Towards human consistent data driven decision support systems using verbalization of data mining results via linguistic data summaries," Bulletin of the Polish Academy of Sciences Technical Sciences, vol. 58, no. 3, pp. 359-370, 2010.

[9] J. Kacprzyk, R. R. Yager, and S. Zadrozny, "Fuzzy linguistic summaries of databases for an efficient business data analysis and decision support," in

Knowledge discovery for business information systems: Springer, 2002, pp. 129-152.

[10] J. Kacprzyk, R. R. Yager, and S. Zadrożny, "A fuzzy logic based approach to linguistic summaries of databases," International Journal of Applied Mathematics and Computer Science, vol. 10, no. 4, pp. 813-834, 2000.

[11] J. Kacprzyk and S. Zadrozny, "Protoforms of Linguistic Data Summaries: Towards More General Natural-Language-Based Data Mining Tools," in

HIS, 2002, pp. 417-425.

[12] J. Kacprzyk and S. Zadrożny, "Linguistic database summaries and their protoforms: towards natural language based knowledge discovery tools,"

Information Sciences, vol. 173, no. 4, pp. 281-304, 2005.

[13] J. Kacprzyk and S. Zadrożny, "Linguistic summarization of the contents of Web server logs via the Ordered Weighted Averaging (OWA) operators,"

[14] J. Kacprzyk and P. Strykowski, "Linguistic summaries of sales data at a computer retailer via fuzzy logic and a genetic algorithm," in Evolutionary Computation, 1999. CEC 99. Proceedings of the 1999 Congress on, 1999, vol. 2, pp. 937-943: IEEE.

[15] J. Kacprzyk and R. R. Yager, "Linguistic summaries of data using fuzzy logic," International Journal of General System, vol. 30, no. 2, pp. 133-154, 2001.

[16] J. Kacprzyk and A. Wilbik, "Using Fuzzy Linguistic Summaries for the

Một phần của tài liệu Tóm tắt dữ liệu bằng ngôn ngữ theo cách tiếp cận đại số gia tử (Trang 133)

Tải bản đầy đủ (PDF)

(148 trang)