phá dữ liệu
Nhờ kết quả của cuộc cách mạng kỹ thuật số, sự phát triển của phần cứng và phần mềm, chúng ta dễ dàng thực hiện số hóa dữ liệu, thu thập và lưu trữ được những kho dữ liệu khổng lồ. Các kho dữ liệu này ẩn chứa rất nhiều thông tin, tri thức hữu ích cho con người. Do đó, ngày càng có nhiều nhà nghiên cứu phát triển các phương pháp phân tích dữ liệu tự động nhằm trích rút tri thức hữu ích cho con người sử dụng để định hướng hành động thực tế.
Mitra và cộng sự trong [1] đã đưa ra khái niệm về thuật ngữ khai phá tri thức từ cơ sở dữ liệu (Knowledge Discovery in Database - KDD) là toàn bộ quá trình chuyển hóa từ dữ liệu ở mức thô thành tri thức ở mức cao. Các tác giả đã chỉ ra quá trình KDD (xem Hình 1.7) gồm các bước chọn lọc dữ liệu, tiền xử lý dữ liệu, chuyển đổi dữ liệu, khai phá dữ liệu, đánh giá và diễn giải. Trong đó, khai phá dữ liệu là một bước quan trọng nhất, quyết định các bước khác trong quá trình KDD.
Khai phá dữ liệu là lĩnh vực bao gồm nhiều hướng nghiên cứu khác nhau mà mục tiêu chung là để đưa ra dự đoán kết quả hoặc phát hiện được các mối quan hệ có nghĩa trong tập dữ liệu. Khai phá dữ liệu sử dụng các công cụ tự động mà trong đó chứa các thuật toán thông minh để phát hiện các mẫu bị ẩn, liên kết, sự bất thường hoặc một cấu trúc từ một lượng lớn dữ liệu được lưu trong các kho dữ liệu.
Hình 1.7: Quá trình khai phá tri thức từ cơ sở dữ liệu
Có nhiều phương pháp khác nhau được nghiên cứu sử dụng để giải các bài toán trong khai phá dữ liệu như học máy (machine learning), mạng nơ-ron (Neural network), tính toán mềm (soft computing). Trong đó, phương pháp tính toán mềm
Dữ liệu thô Lựa chọn dữ liệu Tiền xử lý Chuyển đổi Khai phá dữ liệu Đánh giá/ diễn giải Tri thức Dữ liệu được lựa chọn Dữ liệu đã
được xử lý Dữ liệu đã chuyển đổi
dựa trên lý thuyết tập mờ là một hướng nghiên cứu đã được sử dụng và đạt được nhiều kết quả ý nghĩa trong giải các bài toán thực tế [1, 2]. Những kết quả nghiên cứu đó cho thấy tính hiệu quả trong thực tế khi áp dụng lý thuyết tập mờ vào giải các bài toán khai phá dữ liệu.
Một nhánh trong khai phá dữ liệu có nhiều ý nghĩa ứng dụng trong thực tế là trích rút tri thức diễn đạt bằng ngôn ngữ tự nhiên từ kho dữ liệu. Một bài toán điển hình trong nhánh nghiên cứu này là bài toán trích rút tóm tắt bằng ngôn ngữ từ dữ liệu (linguistic summarization of data). Bài toán này được đưa ra bởi Yager năm 1982 [3] khi cần mô tả cho một tập các giá trị số bằng các câu trong ngôn ngữ tự nhiên. Sau đó, hướng nghiên cứu này thu hút nhiều sự quan tâm của các nhóm nghiên cứu khác để phát triển cả lý thuyết và ứng dụng như các nhóm Kacprzyk và cộng sự [7-13], Castillo và cộng sự [18-22], Moyse và cộng sự [23-25], Wilbik và cộng sự [26-34], Donis-Diaz và cộng sự [38, 39], … Kacprzyk và cộng sự [9, 10, 12-15, 17] đã nghiên cứu trích rút các câu tóm tắt từ một số cơ sở dữ liệu và coi trích rút tóm tắt bằng ngôn ngữ như một công cụ để khai phá dữ liệu dựa trên lý thuyết tập mờ, như là một nhánh trong nghiên cứu tính toán với từ [62]. Các tác giả Wilbik [27, 31, 32, 35-37], R. Castillo Ortega và cộng sự [18, 20]; R. M. Catillo- Ortega và cộng sự [22]; N. Marín và D. Sánchez [63]; G. Moyse và cộng sự [23, 24]; R. J. Almeida và cộng sự [42] đã thực hiện các nghiên cứu trích rút tóm tắt bằng ngôn ngữ từ các dữ liệu dạng chuỗi thời gian và ứng dụng trong một số vấn đề của y tế, quản lý. Một số nghiên cứu gần đây về ứng dụng của trích rút tóm tắt bằng ngôn ngữ vẫn chứng tỏ khả năng ứng dụng lớn và mang lại hiệu quả cao trong các vấn đề thực tế đặt ra. Gilsing và cộng sự trong [64] sử dụng các câu tóm tắt để đánh giá mô hình kinh doanh. Bartczak và cộng sự trong [65] trích rút các câu mô tả mối quan hệ giữa các khách hàng từ cơ sở dữ liệu dạng đồ thị. Duraj và cộng sự trong [66] sử dụng các câu tóm tắt với các từ lượng hóa ‘very few’, ‘few’ để xác định các thông tin ngoại lai từ cơ sở dữ liệu. Jain và cộng sự trong [48] trích rút câu tóm tắt từ dữ liệu thu được bởi sensor tại gia đình để sử dụng cho việc hỗ trợ, chăm sóc người già. Hai ứng dụng có hiệu quả tốt trong lĩnh vực y tế là phân tích việc tuân thủ quy trình lâm sàng kiểm soát lượng glucose [34], theo dõi luồng nhịp tim của bệnh nhân qua dữ liệu thu được từ thiết bị đeo trên tay bệnh nhân [43]. Từ những
kết quả nghiên cứu đã chứng tỏ trích rút tóm tắt bằng ngôn ngữ là một bài toán trong khai phá tri thức được sử dụng trong các hệ hỗ trợ ra quyết định hoặc các hệ thống thông minh khác.
Trong luận án này, tác giả tập trung nghiên cứu về bài toán trích rút câu tóm tắt bằng ngôn ngữ như sau:
• Dữ liệu vào của bài toán: tập dữ liệu đầu vào là các bản ghi trong cơ sở dữ liệu quan hệ, các trường có thể là giá trị phi số (như giới tính, nghề nghiệp, …) hoặc giá trị số (như lương, tuổi, …). Kiểu dữ liệu này dễ dàng được thu thập, lưu trữ, đồng thời đây cũng là dạng dữ liệu phổ biến được lưu trữ trong các bài toán quản lý thực tế hàng ngày. Mọi đối tượng người sử dụng như nhà quản lý, doanh nhân, nhân viên y tế… luôn có nhu cầu trích rút các tri thức ẩn dấu trong các kho dữ liệu này để sử dụng điều chỉnh hành vi, hỗ trợ ra quyết định hợp lý.
• Đầu ra của bài toán: các câu tóm tắt diễn đạt bằng ngôn ngữ tự nhiên (linguistic summaries - LS) thể hiện các tri thức trích rút được từ tập dữ liệu. Các câu tóm tắt này được coi là các mệnh đề mờ mô tả ngắn ngọn, súc tích về nội dung của tập dữ liệu. Vì ngôn ngữ tự nhiên là phương tiện giao tiếp hàng ngày của con người, nên dạng tri thức diễn đạt bằng ngôn ngữ tự nhiên này dễ dàng được hiểu và sử dụng trong thực tế cho mọi đối tượng người dùng. Hơn nữa, dạng tri thức này cũng dễ dàng được phát thanh tự động thông qua các công cụ đọc văn bản tự động. Trong thực tế, cách biểu diễn kết quả bằng các câu trong ngôn ngữ tự nhiên sẽ giúp cho việc đưa ra thông tin, tri thức nhanh chóng và dễ dàng cho người dùng tiếp nhận.
Để giải bài toán trích rút câu tóm tắt bằng ngôn ngữ, trước tiên cần xác định cấu trúc cú pháp của câu tóm tắt. Một ví dụ về mẫu câu tóm tắt là mệnh đề có chứa từ lượng hóa như “Hầu hết công nhân trẻ có mức lương khá thấp” được trích rút từ cơ sở dữ liệu về các công nhân. Các trường thông tin tuổi và lương của công nhân được lưu trữ ở dạng số trong cơ sở dữ liệu (đầu vào của bài toán). Các hạng từ ‘trẻ’, ‘khá thấp’ được dùng trong câu tóm tắt (đầu ra của bài toán) để mô tả về tuổi và
lương của công nhân, từ lượng hóa ‘hầu hết’ thể hiện một định lượng trong kết luận về mối quan hệ giữa tuổi và lương của các công nhân.
Lý thuyết tập mờ đã cung cấp một phương pháp luận để phát triển các phương pháp trích rút câu tóm tắt bằng ngôn ngữ tự nhiên (linguistic summarization Method - LSMd) từ các tập dữ liệu số. Trong các phương pháp LSMd dựa trên lý thuyết tập mờ, miền tham chiếu số của các thuộc tính trong cơ sở dữ liệu được phân hoạch mềm bởi các tập mờ. Mỗi tập mờ trong phân hoạch được gán nhãn là một từ ngôn ngữ trong miền ngôn ngữ của thuộc tính. Các hàm thuộc của các tập mờ và các giá trị thuộc tính trong cơ sở dữ liệu được sử dụng để tính toán độ đo đánh giá chất lượng của các câu tóm tắt. Dựa trên các độ đo này, một tập các câu tóm tắt có chất lượng tốt được coi là tập tri thức ngôn ngữ trích rút từ cơ sở dữ liệu đã cho.