CHƯƠNG 1 MỘT SỐ KIẾN THỨC CƠ SỞ
1.2. Khung nhận thức dựa trên lý thuyết tập mờ
1.2.1.Định nghĩa khung nhận thức
Theo Mencar và Fanelli trong [61], mỗi khung nhận thức (Frame of Cognition - FoC) F của một biến ngôn ngữ A là tập hữu hạn các tập mờ có thứ tự trên miền tham chiếu của biến A và chúng được gán nhãn ngôn ngữ bởi các hạng từ trong miền hạng từ của thuộc tính A. Trong mơ hình lý thuyết tập mờ, mỗi FoC F
gán nhãn các tập mờ là các hạng từ ngơn ngữ mà con người có thể sử dụng để mơ tả các tính chất định tính của các thuộc tính của các đối tượng trong tự nhiên. Do đó, việc gán nhãn ngơn ngữ cho các tập mờ cần phải thể hiện ngữ nghĩa của các nhãn ngơn ngữ này.
Từ đó, các tác giả trong [61] đưa ra một định nghĩa đầy đủ cho FoC như sau:
Định nghĩa 1.4 [61]: Khung nhận thức FoC là một cấu trúc gồm 5 thành phần 𝐹 = 〈𝑈, 𝔽, ≤, ℒ, 𝐴〉. Trong đó:
o 𝔽 = {𝑋1, 𝑋2, … , 𝑋𝑛}, với 𝑋𝑖 là các tập mờ có thứ tự trên miền tham chiếu U
của thuộc tính A.
o ≤ là quan hệ thứ tự giữa các tập mờ sao cho 𝑖 ≤ 𝑗 ⟹ 𝑋𝑖 ≤ 𝑋𝑗
o ℒ là tập các nhãn ngôn ngữ trong miền hạng từ của biến ngơn ngữ hoặc thuộc tính A có thứ tự tương ứng với các tập mờ trong 𝔽 = {𝑋1, 𝑋2, … , 𝑋𝑛}.
Quan hệ thứ tự giữa hai tập mờ 𝑋𝑖 ≤ 𝑋𝑗 phản ánh thứ tự giá trị hàm thuộc của chúng như trong khẳng định sau:
∀𝑋𝑖, 𝑋𝑗 ∈ 𝔽: 𝑋𝑖 ≤ 𝑋𝑗 ⟹ ∃𝑡 ∈ 𝑈, ∀𝑥 ∈ 𝑈:
(𝑥 ≤ 𝑡 ⟹ 𝜇𝑋𝑖(𝑥) ≥ 𝜇𝑋𝑗(𝑥)) ∧ (𝑥 ≥ 𝑡 ⟹ 𝜇𝑋𝑖(𝑥) ≤ 𝜇𝑋𝑗(𝑥)) (1.1) Các hạng từ ngôn ngữ trong mỗi miền hạng từ của các thuộc tính có thứ tự dựa trên ngữ nghĩa vốn có của nó. Ví dụ, trong nghiên cứu trích rút tóm tắt về bệnh nhân [42], các tác giả lựa chọn năm hạng từ trong miền hạng từ của thuộc tính “heart rate” với thứ tự ngữ nghĩa tăng dần là ‘very low’, ‘low’, ‘medium’, ‘high’, và ‘very high’. Khi đó các tập mờ biểu diễn ngữ nghĩa cho năm hạng từ này cũng có thứ tự tăng dần như trong Hình 1.4-(a). Tương tự, năm từ lượng hóa có thứ tự ngữ nghĩa tăng dần là ‘very few’, ‘few’, ‘half’, ‘most’, và ‘almost all’. Các tập mờ biểu diễn ngữ nghĩa cho các từ lượng hóa như trong Hình 1.4-(b). Trong ví dụ này, các tập mờ hình thang tạo thành phân hoạch mạnh của miền tham chiếu số của thuộc tính tương ứng.
Hình 1.4: Ví dụ về các tập mờ trên miền tham chiếu số
1.2.2.Các ràng buộc về tính giải nghĩa được
Trong định nghĩa về khung nhận thức sử dụng tập mờ chỉ có một điều kiện ràng buộc về thứ tự của các tập mờ và thứ tự ngữ nghĩa của các hạng từ. Tuy nhiên các hạng từ lúc này chỉ được coi là nhãn bằng ngôn ngữ của các tập mờ. Nếu việc gán nhãn là các chuỗi ký tự khơng có ý nghĩa như A11, A12, … sẽ gây khó hiểu cho người sử dụng. Nếu việc gán nhãn là từ có nghĩa nhưng khơng đảm bảo một số quan hệ, tính chất ngữ nghĩa có thể gây nhầm lẫn khi người sử dụng giải nghĩa của các hạng từ. Ví dụ trong Hình 1.5 gồm ba tập mờ của một khung nhận thức, ngữ nghĩa được gán cho tập mờ có thứ tự ở giữa và tập mờ bên phải không phản ánh đúng về ngữ nghĩa của hai hạng từ ‘high’ và ‘medium’. Quan hệ thứ tự ngữ nghĩa vốn có của
‘high’ và ‘medium’ trong ngôn ngữ tự nhiên có thứ tự ngữ nghĩa là ‘medium’ ≤ ‘high’, tuy nhiên chúng được gán cho hai tập mờ có thứ tự ngược lại.
Hình 1.5: Khung nhận thức ngơn ngữ gồm 3 tập mờ và gán nhãn ngữ nghĩa khơng đúng về thứ tự ngữ nghĩa
Từ đó, khi xem xét tính giải nghĩa của khung nhận thức FoC, các tác giả trong [61] đưa ra các ràng buộc về hình dạng tập mờ, gán nhãn ngôn ngữ, số lượng và mối quan hệ giữa các tập mờ. Xem xét trong Hình 1.6 là hai ví dụ về năm tập mờ trên miền tham chiếu [0, 1] có tính giải nghĩa tốt. Về hình dạng các tập mờ trong Hình 1.6, các tập mờ là tập mờ chuẩn vì giá trị lớn nhất của hàm thuộc bằng 1, hàm thuộc là hàm lồi và liên tục. Khi các tập mờ được gán nhãn ngôn ngữ bởi lần lượt các hạng từ ‘very few’, ‘few’, ‘a half’, ‘most’, ‘almost all’ thì ràng buộc về thứ tự ngữ nghĩa được đảm bảo. Số lượng tập mờ là năm nên nó thỏa ràng buộc trong khoảng 7 2. Vị trí giữa các tập mờ đảm bảo có sự phân biệt và chúng bao phủ toàn bộ miền tham chiếu [0, 1] (bao gồm cả hai đầu mút 0 và 1). Các tập mờ thỏa điều kiện 6, 7, 8, 9 trong Định nghĩa 1.3 nên chúng tạo thành một phân hoạch mạnh đều trên miền tham chiếu [0, 1].
1.3.Tổng quan về trích rút tóm tắt bằng ngơn ngữ dựa trên lý thuyết tập mờ
1.3.1.Bài tốn trích rút tóm tắt bằng ngôn ngữ là một nhánh trong lĩnh vực khai
phá dữ liệu
Nhờ kết quả của cuộc cách mạng kỹ thuật số, sự phát triển của phần cứng và phần mềm, chúng ta dễ dàng thực hiện số hóa dữ liệu, thu thập và lưu trữ được những kho dữ liệu khổng lồ. Các kho dữ liệu này ẩn chứa rất nhiều thông tin, tri thức hữu ích cho con người. Do đó, ngày càng có nhiều nhà nghiên cứu phát triển các phương pháp phân tích dữ liệu tự động nhằm trích rút tri thức hữu ích cho con người sử dụng để định hướng hành động thực tế.
Mitra và cộng sự trong [1] đã đưa ra khái niệm về thuật ngữ khai phá tri thức từ cơ sở dữ liệu (Knowledge Discovery in Database - KDD) là tồn bộ q trình chuyển hóa từ dữ liệu ở mức thô thành tri thức ở mức cao. Các tác giả đã chỉ ra quá trình KDD (xem Hình 1.7) gồm các bước chọn lọc dữ liệu, tiền xử lý dữ liệu, chuyển đổi dữ liệu, khai phá dữ liệu, đánh giá và diễn giải. Trong đó, khai phá dữ liệu là một bước quan trọng nhất, quyết định các bước khác trong quá trình KDD.
Khai phá dữ liệu là lĩnh vực bao gồm nhiều hướng nghiên cứu khác nhau mà mục tiêu chung là để đưa ra dự đoán kết quả hoặc phát hiện được các mối quan hệ có nghĩa trong tập dữ liệu. Khai phá dữ liệu sử dụng các công cụ tự động mà trong đó chứa các thuật tốn thông minh để phát hiện các mẫu bị ẩn, liên kết, sự bất thường hoặc một cấu trúc từ một lượng lớn dữ liệu được lưu trong các kho dữ liệu.
Hình 1.7: Quá trình khai phá tri thức từ cơ sở dữ liệu
Có nhiều phương pháp khác nhau được nghiên cứu sử dụng để giải các bài toán trong khai phá dữ liệu như học máy (machine learning), mạng nơ-ron (Neural network), tính tốn mềm (soft computing). Trong đó, phương pháp tính tốn mềm
Dữ liệu thơ Lựa chọn dữ liệu Tiền xử lý Chuyển đổi Khai phá dữ liệu Đánh giá/ diễn giải Tri thức Dữ liệu được lựa chọn Dữ liệu đã
được xử lý Dữ liệu đã chuyển đổi
dựa trên lý thuyết tập mờ là một hướng nghiên cứu đã được sử dụng và đạt được nhiều kết quả ý nghĩa trong giải các bài toán thực tế [1, 2]. Những kết quả nghiên cứu đó cho thấy tính hiệu quả trong thực tế khi áp dụng lý thuyết tập mờ vào giải các bài toán khai phá dữ liệu.
Một nhánh trong khai phá dữ liệu có nhiều ý nghĩa ứng dụng trong thực tế là trích rút tri thức diễn đạt bằng ngôn ngữ tự nhiên từ kho dữ liệu. Một bài tốn điển hình trong nhánh nghiên cứu này là bài tốn trích rút tóm tắt bằng ngơn ngữ từ dữ liệu (linguistic summarization of data). Bài toán này được đưa ra bởi Yager năm 1982 [3] khi cần mô tả cho một tập các giá trị số bằng các câu trong ngơn ngữ tự nhiên. Sau đó, hướng nghiên cứu này thu hút nhiều sự quan tâm của các nhóm nghiên cứu khác để phát triển cả lý thuyết và ứng dụng như các nhóm Kacprzyk và cộng sự [7-13], Castillo và cộng sự [18-22], Moyse và cộng sự [23-25], Wilbik và cộng sự [26-34], Donis-Diaz và cộng sự [38, 39], … Kacprzyk và cộng sự [9, 10, 12-15, 17] đã nghiên cứu trích rút các câu tóm tắt từ một số cơ sở dữ liệu và coi trích rút tóm tắt bằng ngơn ngữ như một công cụ để khai phá dữ liệu dựa trên lý thuyết tập mờ, như là một nhánh trong nghiên cứu tính tốn với từ [62]. Các tác giả Wilbik [27, 31, 32, 35-37], R. Castillo Ortega và cộng sự [18, 20]; R. M. Catillo- Ortega và cộng sự [22]; N. Marín và D. Sánchez [63]; G. Moyse và cộng sự [23, 24]; R. J. Almeida và cộng sự [42] đã thực hiện các nghiên cứu trích rút tóm tắt bằng ngơn ngữ từ các dữ liệu dạng chuỗi thời gian và ứng dụng trong một số vấn đề của y tế, quản lý. Một số nghiên cứu gần đây về ứng dụng của trích rút tóm tắt bằng ngơn ngữ vẫn chứng tỏ khả năng ứng dụng lớn và mang lại hiệu quả cao trong các vấn đề thực tế đặt ra. Gilsing và cộng sự trong [64] sử dụng các câu tóm tắt để đánh giá mơ hình kinh doanh. Bartczak và cộng sự trong [65] trích rút các câu mô tả mối quan hệ giữa các khách hàng từ cơ sở dữ liệu dạng đồ thị. Duraj và cộng sự trong [66] sử dụng các câu tóm tắt với các từ lượng hóa ‘very few’, ‘few’ để xác định các thông tin ngoại lai từ cơ sở dữ liệu. Jain và cộng sự trong [48] trích rút câu tóm tắt từ dữ liệu thu được bởi sensor tại gia đình để sử dụng cho việc hỗ trợ, chăm sóc người già. Hai ứng dụng có hiệu quả tốt trong lĩnh vực y tế là phân tích việc tuân thủ quy trình lâm sàng kiểm sốt lượng glucose [34], theo dõi luồng nhịp tim của bệnh nhân qua dữ liệu thu được từ thiết bị đeo trên tay bệnh nhân [43]. Từ những
kết quả nghiên cứu đã chứng tỏ trích rút tóm tắt bằng ngôn ngữ là một bài toán trong khai phá tri thức được sử dụng trong các hệ hỗ trợ ra quyết định hoặc các hệ thống thông minh khác.
Trong luận án này, tác giả tập trung nghiên cứu về bài tốn trích rút câu tóm tắt bằng ngơn ngữ như sau:
• Dữ liệu vào của bài toán: tập dữ liệu đầu vào là các bản ghi trong cơ sở dữ liệu quan hệ, các trường có thể là giá trị phi số (như giới tính, nghề nghiệp, …) hoặc giá trị số (như lương, tuổi, …). Kiểu dữ liệu này dễ dàng được thu thập, lưu trữ, đồng thời đây cũng là dạng dữ liệu phổ biến được lưu trữ trong các bài toán quản lý thực tế hàng ngày. Mọi đối tượng người sử dụng như nhà quản lý, doanh nhân, nhân viên y tế… ln có nhu cầu trích rút các tri thức ẩn dấu trong các kho dữ liệu này để sử dụng điều chỉnh hành vi, hỗ trợ ra quyết định hợp lý.
• Đầu ra của bài tốn: các câu tóm tắt diễn đạt bằng ngôn ngữ tự nhiên (linguistic summaries - LS) thể hiện các tri thức trích rút được từ tập dữ liệu. Các câu tóm tắt này được coi là các mệnh đề mờ mơ tả ngắn ngọn, súc tích về nội dung của tập dữ liệu. Vì ngơn ngữ tự nhiên là phương tiện giao tiếp hàng ngày của con người, nên dạng tri thức diễn đạt bằng ngôn ngữ tự nhiên này dễ dàng được hiểu và sử dụng trong thực tế cho mọi đối tượng người dùng. Hơn nữa, dạng tri thức này cũng dễ dàng được phát thanh tự động thông qua các công cụ đọc văn bản tự động. Trong thực tế, cách biểu diễn kết quả bằng các câu trong ngôn ngữ tự nhiên sẽ giúp cho việc đưa ra thông tin, tri thức nhanh chóng và dễ dàng cho người dùng tiếp nhận.
Để giải bài tốn trích rút câu tóm tắt bằng ngơn ngữ, trước tiên cần xác định cấu trúc cú pháp của câu tóm tắt. Một ví dụ về mẫu câu tóm tắt là mệnh đề có chứa từ lượng hóa như “Hầu hết cơng nhân trẻ có mức lương khá thấp” được trích rút từ cơ sở dữ liệu về các công nhân. Các trường thông tin tuổi và lương của công nhân
được lưu trữ ở dạng số trong cơ sở dữ liệu (đầu vào của bài toán). Các hạng từ ‘trẻ’, ‘khá thấp’ được dùng trong câu tóm tắt (đầu ra của bài tốn) để mơ tả về tuổi và
lương của cơng nhân, từ lượng hóa ‘hầu hết’ thể hiện một định lượng trong kết luận
Lý thuyết tập mờ đã cung cấp một phương pháp luận để phát triển các phương pháp trích rút câu tóm tắt bằng ngơn ngữ tự nhiên (linguistic summarization Method - LSMd) từ các tập dữ liệu số. Trong các phương pháp LSMd dựa trên lý thuyết tập mờ, miền tham chiếu số của các thuộc tính trong cơ sở dữ liệu được phân hoạch mềm bởi các tập mờ. Mỗi tập mờ trong phân hoạch được gán nhãn là một từ ngôn ngữ trong miền ngôn ngữ của thuộc tính. Các hàm thuộc của các tập mờ và các giá trị thuộc tính trong cơ sở dữ liệu được sử dụng để tính tốn độ đo đánh giá chất lượng của các câu tóm tắt. Dựa trên các độ đo này, một tập các câu tóm tắt có chất lượng tốt được coi là tập tri thức ngơn ngữ trích rút từ cơ sở dữ liệu đã cho.
1.3.2.Dạng câu tóm tắt có từ lượng hóa ngơn ngữ và ứng dụng
Trong bài tốn trích rút câu tóm tắt bằng ngơn ngữ từ tập dữ liệu, ta cần xác định trước cấu trúc của câu tóm tắt, từ đó xây dựng thuật tốn để qt tập dữ liệu và đưa ra các câu tóm tắt theo cấu trúc đã chọn. Trong phần này, luận án trình bày về cấu trúc câu tóm tắt chứa từ lượng hóa được trích rút từ cơ sở dữ liệu quan hệ theo hướng nghiên cứu được đề xuất bởi Yager [3, 5, 6]. Mẫu câu này được sử dụng trong nhiều nghiên cứu khác như nhóm Kacpryzk và cộng sự [9, 11, 12], nhóm Wilbik và cộng sự [32, 67], và một số nghiên cứu khác [13, 38-40] [41]… Có một vài dạng cấu trúc khác cũng được sử dụng như dạng luật IF-THEN [68, 69], dạng câu mô tả xu hướng cho chuỗi thời gian [16, 49, 70], dạng câu có thêm định lượng thời gian [42], …
1.3.2.1.Cấu trúc câu tóm tắt có từ lượng hóa ngơn ngữ
Cho Y = {y1, y2, …, yn} là tập các đối tượng (bản ghi) trong cơ sở dữ liệu như tập các khách hàng của một ngân hàng; A = {A1, A2, …, Am} là tập các thuộc tính cần xem xét của các đối tượng trong tập Y như tuổi, trình độ học vấn, tình trạng hơn nhân, … Ký hiệu Ai(yj) là giá trị thuộc tính Aicủa đối tượng yj. Cơ sở dữ liệu được cho bởi tập D = {{A1(y1), A2(y1), …, Am(y1)}, …, {A1(yn), A2(yn), …, Am(yn)}}.
Mỗi câu tóm tắt là một câu trong ngôn ngữ tự nhiên theo cấu trúc cú pháp tổng quát của các câu chứa từ lượng hóa như sau:
Q y are S (1.2)
QF y are S (1.3)
o Kết luận (summarizer) S là một đánh giá diễn đạt bằng một từ trong miền hạng từ (word-domain) của biến ngơn ngữ tương ứng với một thuộc tính. Ví dụ: TUỔI = ‘trẻ’, LƯƠNG = ‘rất cao’.
o Từ lượng hóa (quantifier) Q là một từ biểu diễn tỷ lệ các bản ghi thỏa kết luận S trong toàn bộ cơ sở dữ liệu D như trong dạng (1.2) hoặc trong nhóm mờ F như trong dạng (1.3). Ví dụ: ‘rất ít’, ‘một nửa’, ‘hầu hết’
o Giá trị đúng đắn T (validity hoặc truth) là giá trị trong khoảng [0, 1] đánh giá mức độ đúng đắn của câu tóm tắt. Giá trị T được coi là giá trị chân lý của mệnh đề mờ có từ lượng hóa theo cấu trúc trong (1.2) và (1.3).
o Điều kiện lọc F (qualifier) là tùy chọn để xác định một nhóm con các đối tượng trong tập Y được xem xét trong câu tóm tắt. Một điều kiện lọc mờ có dạng như TUỔI = ‘trẻ’ tức là chỉ xét các đối tượng trong nhóm tuổi ‘trẻ’. Câu tóm tắt (1.4) trích rút từ cơ sở dữ liệu bán hàng [15] là ví dụ cho mẫu câu theo cấu trúc dạng (1.2), câu tóm tắt (1.5) trích rút từ cơ sở dữ liệu về các bệnh viện tại Thổ Nhĩ Kỳ [41] là ví dụ cho mẫu câu theo cấu trúc dạng (1.3). Thành phần “y are S” và “Fy are S” được xem như là thân của câu tóm tắt thể hiện các kết luận bằng ngôn ngữ về tập đối tượng Y hoặc một nhóm đối tượng thỏa điều kiện F được