Trong bài toán trích rút câu tóm tắt bằng ngôn ngữ từ tập dữ liệu, ta cần xác định trước cấu trúc của câu tóm tắt, từ đó xây dựng thuật toán để quét tập dữ liệu và đưa ra các câu tóm tắt theo cấu trúc đã chọn. Trong phần này, luận án trình bày về cấu trúc câu tóm tắt chứa từ lượng hóa được trích rút từ cơ sở dữ liệu quan hệ theo hướng nghiên cứu được đề xuất bởi Yager [3, 5, 6]. Mẫu câu này được sử dụng trong nhiều nghiên cứu khác như nhóm Kacpryzk và cộng sự [9, 11, 12], nhóm Wilbik và cộng sự [32, 67], và một số nghiên cứu khác [13, 38-40] [41]… Có một vài dạng cấu trúc khác cũng được sử dụng như dạng luật IF-THEN [68, 69], dạng câu mô tả xu hướng cho chuỗi thời gian [16, 49, 70], dạng câu có thêm định lượng thời gian [42], …
1.3.2.1. Cấu trúc câu tóm tắt có từ lượng hóa ngôn ngữ
Cho Y = {y1, y2, …, yn} là tập các đối tượng (bản ghi) trong cơ sở dữ liệu như tập các khách hàng của một ngân hàng; A = {A1, A2, …, Am} là tập các thuộc tính cần xem xét của các đối tượng trong tập Y như tuổi, trình độ học vấn, tình trạng hôn nhân, … Ký hiệu Ai(yj) là giá trị thuộc tính Aicủa đối tượng yj. Cơ sở dữ liệu được cho bởi tập D = {{A1(y1), A2(y1), …, Am(y1)}, …, {A1(yn), A2(yn), …, Am(yn)}}.
Mỗi câu tóm tắt là một câu trong ngôn ngữ tự nhiên theo cấu trúc cú pháp tổng quát của các câu chứa từ lượng hóa như sau:
Q y are S (1.2)
QF y are S (1.3)
o Kết luận (summarizer) S là một đánh giá diễn đạt bằng một từ trong miền hạng từ (word-domain) của biến ngôn ngữ tương ứng với một thuộc tính. Ví dụ: TUỔI = ‘trẻ’, LƯƠNG = ‘rất cao’.
o Từ lượng hóa (quantifier) Q là một từ biểu diễn tỷ lệ các bản ghi thỏa kết luận S trong toàn bộ cơ sở dữ liệu D như trong dạng (1.2) hoặc trong nhóm mờ F như trong dạng (1.3). Ví dụ: ‘rất ít’, ‘một nửa’, ‘hầu hết’
o Giá trị đúng đắn T (validity hoặc truth) là giá trị trong khoảng [0, 1] đánh giá mức độ đúng đắn của câu tóm tắt. Giá trị T được coi là giá trị chân lý của mệnh đề mờ có từ lượng hóa theo cấu trúc trong (1.2) và (1.3).
o Điều kiện lọc F (qualifier) là tùy chọn để xác định một nhóm con các đối tượng trong tập Y được xem xét trong câu tóm tắt. Một điều kiện lọc mờ có dạng như TUỔI = ‘trẻ’ tức là chỉ xét các đối tượng trong nhóm tuổi ‘trẻ’. Câu tóm tắt (1.4) trích rút từ cơ sở dữ liệu bán hàng [15] là ví dụ cho mẫu câu theo cấu trúc dạng (1.2), câu tóm tắt (1.5) trích rút từ cơ sở dữ liệu về các bệnh viện tại Thổ Nhĩ Kỳ [41] là ví dụ cho mẫu câu theo cấu trúc dạng (1.3). Thành phần “y are S” và “F y are S” được xem như là thân của câu tóm tắt thể hiện các kết luận bằng ngôn ngữ về tập đối tượng Y hoặc một nhóm đối tượng thỏa điều kiện F được xem xét trong cơ sở dữ liệu. Thành phần Q cho biết tỷ lệ các bản ghi thỏa phần thân của câu tóm tắt.
sales of components is with a commission
Q
y S
Much low (1.4)
hospital with clothes expense have trainee salary expense
Q
y F S
Few low high (1.5)
Các câu theo cấu trúc dạng (1.2), (1.3) được xem là các mệnh đề mờ có từ lượng hóa. Công thức tính giá trị chân lý của các mệnh đề này là công thức được đề xuất bởi Zadeh [71] cho mệnh đề có từ lượng hóa như công thức (1.6) và (1.7). Trong đó, Q, F, S là các hàm thuộc lần lượt biểu diễn ngữ nghĩa của các hạng từ
Q và hạng từ trong thành phần F, S; là phép giao mờ, thông thường phép giao mờ được chọn là lấy giá trị nhỏ nhất, tức là 𝜇𝐹(𝑦𝑖) ∧ 𝜇𝑆(𝑦𝑖) = 𝑚𝑖𝑛(𝜇𝐹(𝑦𝑖), 𝜇𝑆(𝑦𝑖)).
( ) 1 1 ( y are ) n Q S i i T Q S y n = = (1.6)
( ) ( ) ( ) ( ) 1 1 ( y are ) n F i S i i Q n F i i y y T Q F S y = = = (1.7)
Giá trị đúng đắn T là độ đo cơ bản được dùng để đánh giá chất lượng, độ tin cậy của câu tóm tắt. Các câu tóm tắt theo cấu trúc như (1.2) và (1.3) là các mệnh đề mờ có từ lượng hóa được trích rút từ dữ liệu số mà trong đó ngữ nghĩa của các hạng từ trong thành phần F, S và cả từ lượng hóa trong câu được biểu diễn bởi các tập mờ. Do đó, một số nghiên cứu đặt ra ngưỡng cho giá trị đúng đắn T để chỉ chọn lọc các câu tóm tắt có giá trị đúng đắn T lớn hơn ngưỡng cho trước như = 0.85 [39] hoặc = 0.8 [18].
Tuy nhiên, độ đo giá trị đúng đắn T chưa phản ánh đầy đủ mọi khía cạnh về chất lượng của một câu tóm tắt. Các tác giả trong [12], [35] đã đề xuất một số độ đo khác để đánh giá trên các tiêu chí khác nhau về chất lượng của câu tóm tắt. Một số độ đo đã được đề xuất là độ đo tính mờ (imprecision), độ đo mức độ bao phủ (covering) đối với cơ sở dữ liệu, độ đo mức độ tập trung (focus), độ đo sự phù hợp (appropriateness) và độ dài của câu tóm tắt (length of summary). Công thức tính các độ đo này cũng sử dụng các giá trị Ai(yj) trong cơ sở dữ liệu Dvà các hàm thuộc của các tập mờ biểu diễn ngữ nghĩa cho các hạng từ trong câu.
Do vậy, khi cho trước một cơ sở dữ liệu D tức là xác định một tập các đối tượng được xem xét trong thực tế, cách thiết kế các tập mờ biểu diễn ngữ nghĩa cho các hạng từ trong miền hạng từ của các thuộc tính đóng vai trò quyết định đến kết quả tính giá trị đúng đắn T, cũng như các độ đo đánh giá chất lượng khác. Nếu sử dụng các độ đo đánh giá này để lựa chọn các câu tóm tắt chất lượng thì việc thiết kế các tập mờ này sẽ có vai trò quyết định đến tập các câu tóm tắt được chọn làm đầu ra của thuật toán trích rút tóm tắt bằng ngôn ngữ.
1.3.2.2. Ví dụ đơn giản
Giả sử bảng dữ liệu về 10 công việc được xem xét trên dựa trên hai thuộc tính KHOẢNG CÁCH (KC) (km) và LƯƠNG (triệu đồng) trong Bảng 1.1. Thực hiện phân hoạch mờ miền tham chiếu số [0, 20] của biến KC bằng năm tập mờ biểu diễn ngữ nghĩa lần lượt cho các từ ngôn ngữ trong Dom(KC) = {‘rất gần’, ‘gần’,
‘trung bình’, ‘xa’, ‘rất xa’} như trong Hình 1.8. Tương tự với biến LƯƠNG, từ lượng hóa tương đối, miền tham chiếu cũng được phân hoạch mờ bởi năm tập mờ hình thang như trong Hình 1.8.
Bảng 1.1: Dữ liệu ví dụ về 10 công việc
Mã công việc CV1 CV2 CV3 CV4 CV5 CV6 CV7 CV8 CV9 CV10
KC 9 3.5 10 6.5 5 8 14 18 13 15
Lương 7 6.5 6 10 5.5 8.5 9.5 8.5 7.5 8.7
Chúng ta cần khảo sát để thống kê về số lượng công việc theo mức lương khác nhau bằng các câu tóm tắt chứa từ định lượng dạng “Q công việc có mức lương S”. Trong đó, Q được chọn trong tập gồm năm từ lượng hóa Dom(Q) = {‘rất ít’, ‘ít’, ‘một nửa’, ‘nhiều’, ‘hầu hết’}, S là một từ ngôn ngữ được chọn trong tập Dom(LƯƠNG) = {‘rất thấp’, ‘thấp’, ‘trung bình’ (‘tb’), ‘cao’, ‘rất cao’}. Bảng 1.2 là kết quả độ thuộc của lương các công việc vào tập mờ biểu diễn ngữ nghĩa cho các hạng từ diễn đạt các mức lương khác nhau trong Dom(LƯƠNG).
Hình 1.8: Mờ hóa miền tham chiếu của khoảng cách, lương/tháng và đoạn [0,1] của từ lượng hóa tương đối
Bảng 1.2: Tính độ thuộc của từng mức lương vào các tập mờ tương ứng từ ngôn ngữ trong Dom(LƯƠNG)
Mã CV CV1 CV2 CV3 CV4 CV5 CV6 CV7 CV8 CV9 CV10
Lương 7 6.5 6 10 5.5 8.5 9.5 8.5 7.5 8.7
rất thấp 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0
tb 0 0.5 1 0 1 0 0 0 0 0
cao 1 0.5 0 0 0 0.5 0 0.5 1 0.3
rất cao 0 0 0 1 0 0.5 1 0.5 0 0.7
Theo công thức (1.6) để tính toán giá trị đúng đắn T cho các câu tóm tắt. Từ đó, với mỗi từ S Dom(LƯƠNG) chỉ chọn một từ lượng hóa Q để có T lớn nhất. Ví dụ, khi S = ‘trung bình’, ∑10𝑖=1𝜇𝑡𝑟𝑢𝑛𝑔 𝑏ì𝑛ℎ(𝐶𝑉𝑖)/10 = 0.25, ta có 𝜇í𝑡(0.25) = 1, 𝜇𝑄(0.25) = 0 khi Q ‘ít’. Do đó, chọn hạng từ lượng hóa ‘ít’ trong câu tóm tắt có S = ‘trung bình’. Tương tự, kết quả thu được 5 câu tóm tắt như sau:
1) Rất ít công việc có mức lương rất thấp (T = 1.0) 2) Rất ít công việc có mức lương thấp (T = 1.0) 3) Ít công việc có mức lương trung bình (T = 1.0) 4) Một nửa công việc có mức lương cao (T = 0.8) 5) Một nửa công việc có mức lương rất cao (T = 0.7)
Giả sử cần khảo sát về các mức lương khác nhau ‘trung bình’, ‘cao’, ‘rất cao’ trong nhóm công việc có khoảng cách ‘trung bình’, chúng ta lựa chọn mẫu câu mở rộng là “Q công việc với khoảng cách ‘trung bình’ có mức lương S”, S
{‘trung bình’, ‘cao’, ‘rất cao’}. Thực hiện tính toán theo công thức (1.7) và với mỗi thân câu tóm tắt, chọn một từ lượng hóa Q Dom(Q) mà giá trị T lớn nhất. Chúng ta nhận được ba câu tóm tắt như sau:
1) Một nửa công việc với khoảng cách trung bình có mức lương trung bình
(T = 0.89)
2) Ít công việc với khoảng cách trung bình có mức lương cao (T = 0.67) 3) Ít công việc với khoảng cách trung bình có mức lương rất cao (T = 0.67) Với cơ sở dữ liệu đơn giản như trong ví dụ này, giả sử trong các thành phần lọc F, kết luận S chỉ có một thuộc tính hoặc KC hoặc LƯƠNG; miền hạng từ của mỗi thuộc tính chỉ có 5 từ ngôn ngữ. Chúng ta có thể trích rút được 10 câu tóm tắt dạng cơ bản “Q y are S” với S Dom(KC) Dom(LƯƠNG). Với dạng câu mở rộng “QF y are S”, vì có 2 lựa chọn cho thuộc tính trong F, có 5 từ ngôn ngữ có thể chọn cho thuộc tính trong F, tiếp đó có 5 từ ngôn ngữ trong miền hạng từ của thuộc tính còn lại có thể chọn cho S. Do đó, tất cả có 255 = 50 câu tóm tắt (vì mỗi miền
giá trị của biến ngôn ngữ KC, LƯƠNG có 5 từ, có 2 lựa chọn thuộc tính cho thành phần F).
1.3.2.3. Một số ứng dụng thực tế của câu tóm tắt ngôn ngữ với từ lượng hóa
Trong phần này, luận án tóm tắt một số ứng dụng của bài toán trích rút tóm tắt bằng ngôn ngữ trong một số lĩnh vực như y tế, quản lý. Từ đó cho thấy khả năng và ý nghĩa trong giải quyết vấn đề thực tế của bài toán.
Wilbik cùng các cộng sự [31] sử dụng mẫu câu tóm tắt (1.2) và (1.3) để mô tả dữ liệu thu được từ hai sensor được gắn trong phòng của một người già tại trung tâm chăm sóc người cao tuổi. Một sensor đo sự chuyển động khi người cao tuổi nằm trên giường và một sensor đo sự di chuyển của người cao tuổi trong căn phòng. Một số câu tóm tắt được trích rút từ dữ liệu thu được trong 15 tháng là: “On most of the nights the resident had a medium level of restlessness. (T =0.85, dfoc=1.0)”; “Before CABG, on most of the nights, when the resident had a high level of motion, he had also a medium level of restlessness. (T =1.0, dfoc=0.82)”; “After CABG, on
most of the nights, when the resident had a low level of motion, he had also a low
level of restlessness. (T =1.0, dfoc=0.22)”. Các câu tóm tắt bằng ngôn ngữ này rất dễ hiểu đối với các nhân viên y tế. Đồng thời chúng cũng phản ánh được có sự khác biệt trong dữ liệu thu thập được trong các giai đoạn sức khỏe khác nhau trước và sau thời điểm mà bệnh nhân phải cấp cứu. Tiếp theo, nhóm nghiên cứu trích rút tập các câu tóm tắt từ dữ liệu của hai người bệnh khác nhau, thực hiện phân cụm các câu tóm tắt để tìm ra một tập câu tóm tắt mô tả cho một đêm sức khỏe ổn định, một đêm có dấu hiệu bất thường [72]. Kết quả này được sinh tự động từ dữ liệu và diễn đạt dễ hiểu bằng ngôn ngữ tự nhiên. Do đó, chúng có ý nghĩa trong thực tế đối với các nhân viên y tế chăm sóc người bệnh để có những đánh giá kịp thời tình trạng của người bệnh.
Một ứng dụng khác của trích rút tóm tắt bằng ngôn ngữ đáng chú ý trong lĩnh vực y tế gần đây là của nhóm Peláez-Aguiler và cộng sự trong bài báo [43]. Các bệnh nhân tham gia chương trình theo dõi phục hồi chức năng tim của một trung tâm y tế sẽ đeo một thiết bị trên cổ tay để đo nhịp tim. Dữ liệu được thu thập và lưu trữ, sau đó áp dụng phương pháp trích rút tóm tắt bằng ngôn ngữ dựa trên lý thuyết tập mờ để tự động sinh các kết luận tóm tắt bằng ngôn ngữ theo cấu trúc câu có từ
lượng hóa. Ví dụ như “At least half of the time the HR is adequate for around 25-50 minutes”, “Most of the time the HR is high for around 1-3 minutes”, “Most of the time the HR is low for around 15-25 minutes”. Ứng dụng này có hai ưu điểm lớn là có thể xử lý dữ liệu tự động trên một số lượng lớn bệnh nhân và nhanh chóng xác định các trường hợp cần quan tâm để kịp thời đưa ra những phản hồi từ trung tâm quản lý y tế. Hơn nữa, các mô tả bằng ngôn ngữ tự nhiên có thể được sử dụng trong các hệ hỗ trợ ra quyết định dựa trên tri thức để đưa ra các gợi ý dễ hiểu cho bệnh nhân.
Nhóm Kacrpyzk và cộng sự [13] trích rút tóm tắt từ dữ liệu nhật ký truy cập máy chủ Web của viện nghiên cứu nơi nhóm làm việc. Các câu tóm tắt chứa từ lượng hóa như “All requests with the status code 304 (“not modified”) referred to
small files”, “Most of the requests concerning large files occur in the evening”, … Các câu tóm tắt này được sử dụng làm báo cáo về tình trạng truy cập máy chủ để từ đó hỗ trợ đưa ra các định hướng, quyết định trong quản lý hoặc nâng cấp hệ thống phù hợp nhu cầu sử dụng thực tế.
Nhóm Altintop và cộng sự [41] trích rút các tóm tắt để đưa ra các đánh giá bằng ngôn ngữ về tình trạng chăm sóc sức khỏe và tình hình tài chính của các bệnh viện tại Thổ Nhĩ Kỳ. Một số câu tóm tắt được trích rút như “Most hospitals with
very high average hospital stay have very low computer software expense.”, “Most
hospitals with very low plumbing expense have very low local government income.”, “Few hospitals with low medical device expense have many USG devices and high cesarean parity”. Các câu tóm tắt này được gửi đến các chuyên gia tại Bộ Y tế của Thỗ Nhĩ Kỳ để đánh giá theo các tiêu chuẩn tính nhất quán, độ tin cậy, tính hiệu quả, khả năng hỗ trợ ra quyết định theo thang điểm 100. Kết quả trung bình từ 89.6 đến 92 điểm cho các tiêu chí đưa ra.
Qua một số nghiên cứu nêu trên đã chứng tỏ khả năng ứng dụng của kết quả trích rút tóm tắt bằng ngôn ngữ vào giải quyết các vấn đề thực tế một cách hiệu quả. Đồng thời, các nhà nghiên cứu cũng cho thấy còn nhiều vấn đề mở cần tiếp tục nghiên cứu để làm cho các kết quả trích rút tóm tắt được sử dụng rộng rãi và hiệu quả hơn nữa trong thực tế. Từ đó cho thấy hướng nghiên cứu bài toán này có ý nghĩa thực tế, tính thời sự bởi khả năng ứng dụng thực tế cao.