Đại số gia tử mở rộng mô hình lõi ngữ nghĩa của hạng từ

Một phần của tài liệu (Luận án tiến sĩ) tóm tắt dữ liệu bằng ngôn ngữ theo cách tiếp cận đại số gia tử (Trang 52 - 59)

Tập mờ hình thang thường được sử dụng trong biểu diễn ngữ nghĩa của các hạng từ trong bài toán trích rút câu tóm tắt bằng ngôn ngữ. Tuy nhiên, trong cấu trúc ĐSGT cơ bản chỉ xây dựng được các tập mờ tam giác với đỉnh là giá trị định lượng ngữ nghĩa của hạng từ tương ứng. Tập mờ hình thang chỉ khác tập mờ tam giác là đáy nhỏ là một khoảng giá trị thay vì một giá trị cụ thể. Trong phương pháp ĐSGT, phần đáy nhỏ của hình thang cần được sinh ra từ phần lõi ngữ nghĩa của từ tương ứng. Do đó, các tác giả trong [55] đã mở rộng ĐSGT cơ bản bằng việc thêm gia tử nhân tạo h0 để mô hình hóa phần lõi ngữ nghĩa của mỗi hạng từ x bằng hạng từ h0x. Trong phần này, luận án sẽ trình bày về cấu trúc ngữ nghĩa của miền hạng từ được mở rộng bởi hạng từ biểu diễn lõi ngữ nghĩa h0x và mở rộng ánh xạ định lượng ngữ nghĩa mà mỗi giá trị là một khoảng trong miền tham chiếu trong cấu trúc ĐSGT mở rộng.

1.5.2.1. Lõi ngữ nghĩa của hạng từ và cấu trúc Đại số gia tử mở rộng

Tưởng tượng rằng ngữ nghĩa của các từ giống như trái cây, các từ có thể có phần lõi được gọi là lõi ngữ nghĩa. Tuy nhiên, trong ĐSGT cơ bản chưa có phương pháp hình thức hóa phần lõi ngữ nghĩa của các hạng từ để sinh ra phần lõi của tập mờ tương ứng của các hạng từ. Do đó, mỗi cấu trúc ĐSGT AA cần được mở rộng bằng cách thêm vào một gia tử nhân tạo h0, tức là Hen = H  {h0}, để sinh ra phần lõi ngữ nghĩa h0x của hạng từ x, với mọi xX, sao cho chúng không làm thay đổi bất cứ quan hệ ngữ nghĩa nào giữa các từ trong X.

Từ cấu trúc ĐSGT cơ bản (hedge algebra - HA) của một biến ngôn ngữ A

AA = (X, G, C, H, ≤) có thể được mở rộng thành một cấu trúc ĐSGT mở rộng (Enlarge hedge algebra - EnHA) là AA,en = (Xen, G, C, Hen, ≤). Trong đó:

o Hen = H {h0} và h0 là gia tử nhân tạo được sử dụng để sinh ngữ nghĩa lõi (core semantics) h0x từ hạng từ xX, h0xX.

o Xen = X {h0x: xX}

Phần ngữ nghĩa cần xem xét là lõi ngữ nghĩa của các hạng từ được xác định bởi thêm tiên đề sau vào hệ thống các tiên đề của cấu trúc ĐSGT cơ bản.

(A5en) Các tiên đề cho phần lõi ngữ nghĩa của hạng từ: x, yXen và xy, (i) h’h0x = h0x, với h’Hen, tức là h0x luôn luôn là điểm cố định, và với x

X, h0x = x khi và chỉ khi x là hạng từ hằng. Hơn nữa, h0xx không so sánh được với nhau.

(ii) x, y X, x < y ⇒h0x < y & x < h0y.

Điều kiện “h0x luôn luôn là điểm cố định” trong (i) nhấn mạnh rằng h0 có thể sinh ra phần lõi ngữ nghĩa của hạng từ và không có từ nào khác được sinh ra từ phần lõi ngữ nghĩa này. Điều kiện “h0xx không so sánh được với nhau” biểu diễn thực tế rằng một “trái cây” và “phần hạt” của nó phải là không so sánh được với nhau. Tiên đề (ii) đưa ra điều kiện về tính thứ tự, từ đó chỉ ra rằng các hạng từ nhân tạo h0x là ảnh đẳng cấu thứ tự của các hạng từ xX. Do đó, các hạng từ của X

có phần lõi ngữ nghĩa tương ứng duy nhất. Hơn nữa, tiên đề sau được rút ra từ tính chất đẳng cấu thứ tự:

(iii) x, y X, x < y ⇒h0x < h0y, tức là thứ tự các hạng từ trong tập {h0x : x

X} là tương ứng với thứ tự các hạng từ trong tập {x : x X}.

Hình 1.11: Cấu trúc ngữ nghĩa của các hạng từ sinh ra từ hạng từ ‘old’ Xét ví dụ biến ngôn ngữ AGE, hạng từ sinh là ‘young’ và ‘old’, chọn tập gia tử là H = {little (L), rather (R), more (M), very (V)}. Trong Hình 1.11 minh họa quan hệ thứ tự giữa các hạng từ trong X ở mức 2 (phần a), mức 3 (phần b) sinh từ

h0MM_o h0VM_o

L_o

h0L_o

(b) Một phần Xen,(3) của biến ngôn ngữ AGE

h0V_o h0M_o h0LM_o h0_o LR_o old VM_o V_o MR_o h0L_o R_old M_o h0MR_o h0R_o

(a) Một phần Xen,(2) của biến ngôn ngữ AGE

h0LR_o

h0V_o h0M_o

h0_o

R_o old V_o

L_o h0RR_o h0RM_o M_o h0R_o h0VR_o

hạng từ ‘old’ và các hạng từ biểu diễn phần lõi ngữ nghĩa của chúng. Quan sát trong Hình 1.11 thấy minh họa rõ các mối quan hệ thứ tự ngữ nghĩa đã nêu trong tiên đề (A5en).

1.5.2.2. Định lượng ngữ nghĩa trong Đại số gia tử mở rộng

Lý thuyết định lượng trong ĐSGT mở rộng (Enlarge hedge algebra - EnHA) được phát triển tương tự như trong lý thuyết ĐSGT cơ bản. Trong đó, ánh xạ định lượng ngữ nghĩa khoảng giá trị (interval-valued semantically quantifying mapping - IVQM) được xây dựng để xác định ngữ nghĩa khoảng (interval quantifying semantics) thay thế cho giá trị định lượng ngữ nghĩa số (number quantifying semantics) trong ĐSGT cơ bản. Luận án trình bày ngắn gọn về cách xây dựng ánh xạ định lượng ngữ nghĩa khoảng được phát triển theo phương pháp tiên đề hóa. Qua đó, chứng tỏ rằng phương pháp xây dựng giải nghĩa được theo ngữ nghĩa trong thế giới thực.

a) Ngữ nghĩa định lượng khoảng của các hạng từ

Khái niệm ngữ nghĩa khoảng của các hạng từ trong EnHA AA,en của biến ngôn ngữ A trong miền tham chiếu chuẩn [0, 1] được xác định bằng ánh xạ định lượng ngữ nghĩa khoảng IVQM (Interval Value Quatification Mapping) fen như trong định nghĩa sau:

Định nghĩa 1.6 [55]: Một ánh xạ định lượng ngữ nghĩa khoảng IVQM fen:

Xen→ P([0, 1]) (P([0, 1]) là tập tất cả các khoảng con của [0, 1]) là ánh xạ thỏa các điều kiện sau đây:

i. fen là ánh xạ đẳng cấu thứ tự các khoảng đại số, tức là x < yfen(x) <

fen(y)

ii. fen trù mật trong [0, 1], tức là Closure(fen(X)) = [0, 1]

Điều kiện (i) là cần thiết vì trong miền hạng từ Xen có thứ tự ngữ nghĩa giữa các hạng từ, quan hệ thứ tự này cần được bảo toàn qua ánh xạ fen. Điều kiện (ii) nghĩa là U = [0, 1] là miền giá trị nhỏ nhất chứa tất cả các khoảng giá trị của các hạng từ. Hai điều kiện trên là tối thiểu nên định nghĩa trên về fen là tổng quát nhất để đảm bảo tính khách quan của ánh xạ định lượng ngữ nghĩa khoảng. Từ ý nghĩa của IVQM fen, ảnh của các hạng từ qua ánh xạ được gọi giá trị định lượng khoảng (i-

values) của các hạng từ, đại lượng này tương ứng như giá trị định lượng số của các hạng từ trong lý thuyết ĐSGT cơ bản.

Trong EnHA, các hạng từ hằng trong tập {0, W, 1} cũng có giá trị định lượng khoảng trong P([0, 1]) thay vì một giá trị số trong [0, 1] trong HA.

b) Khoảng tính mờ (ngữ nghĩa khoảng giá trị) và độ đo tính mờ của hạng từ

Mọi hạng từ của một biến ngôn ngữ trong ngôn ngữ tự nhiên của con người đều được cộng đồng liên kết với một khoảng giá trị trong miền tham chiếu số của biến đó. Do đó, khoảng giá trị này được gọi là khoảng tính mờ (ngữ nghĩa khoảng giá trị) của hạng từ. Ví dụ, xét biến ngôn ngữ ‘AGE’, hạng từ ‘young’ được liên kết với khoảng giá trị [0, 45] trong miền tham chiếu [0, 75] của biến ‘AGE’ trong cộng đồng, với 75 tuổi là tuổi thọ trung bình. Trong lý thuyết ĐSGT, ngữ nghĩa khoảng của các hạng từ trong một cấu trúc EnHA của một biến ngôn ngữ trên miền tham chiếu U = [0, 1] được xác định bởi ánh xạ IVQM fen. Cơ sở lập luận dựa vào thế giới thực như sau: vì mô hình mờ của mọi hạng từ x được xác định bởi tập Hen(x) = {x :  = hnh1, hjHen}, tập chứa tất cả các hạng từ vẫn còn kế thừa ngữ nghĩa vốn có của hạng từ x, ảnh fen(Hen(x)) qua ánh xạ đẳng cấu thứ tự fen nên tập trung vào một khoảng con của [0, 1], ký hiệu khoảng con này là (x). Vì (x) là ảnh đẳng cấu của mô hình mờ của x nên được gọi là khoảng tính mờ của x. Hơn nữa, từ cách định nghĩa của (x), các giá trị số trong nó được coi như là tương thích với x hơn với các hạng từ khác, (x) được gọi là ngữ nghĩa khoảng của x. Ví dụ, tuổi của những người trong khoảng [0, 45] như trong ví dụ trên thì chúng ta coi những người đó có tuổi là ‘young’. Số lượng giá trị trong khoảng giá trị này hay kích thước của khoảng này biểu diễn tính mờ của hạng từ ‘young’. Rõ ràng, khoảng (x) càng lớn, hạng từ x càng mờ. Do đó, độ dài của (x) được gọi là độ đo tính mờ của hạng từ x, ký hiệu bởi fm(x). Tức là fm(x) = |(x)|.

c) Các hệ tiên đề cho định lượng trong EnHA và công thức tính ngữ nghĩa khoảng của các hạng từ

Đặt X0 = , X1 = {0, c−, W, c+, 1}, với c− và c+ là các hạng từ nguyên thủy hoặc hạng từ sinh của cấu trúc đại số, Xk = {xXen : |x| = k} và X(k) = {xXen : |x| ≤

gia tử dương và hai gia tử âm, chọn H− = { little (L), rather (R)} and H+ = {more

(M), very (V)}. Các tác giả trong [55] đã chỉ ra các tính chất của ngữ nghĩa khoảng và độ đo tính mờ của các hạng từ như trong công thức sau đây:

(IS1) [0, 1] = ℑ(𝟎)  ℑ(𝑐−)  ℑ(𝑊)  ℑ(𝑐+)  ℑ(𝟏) (IS2) ℑ(𝑥) = ℑ(𝐿𝑥)  ℑ(𝑅𝑥)  ℑ(ℎ0𝑥)  ℑ(𝑀𝑥)  ℑ(𝑉𝑥),𝑥 ∈ 𝑋\𝐶 (IS3) [0, 1] = (⋃𝑥 ∈ 𝑋𝑘ℑ(𝑥)) ∪ (⋃𝑦∈𝑋(𝑘−1)ℑ(ℎ0𝑦)) , với 𝑘 ≥ 2

} (1.14)

Trong EnHA, khoảng tính mờ của các hạng từ hằng trong tập C = {0, W, 1} cũng là các khoảng con của [0, 1]. Do đó, độ đo tính mờ của các hạng từ hằng 0, W,

1 khác 0. Trong Hình 1.12 minh họa các khoảng đo tính mờ của các hạng từ trong

Xen,(3) sinh ra từ hạng từ c+ sử dụng các gia tử little (L) và very (V).

Hình 1.12: Các khoảng tính mờ của hạng từ trong Xen,(3) sinh ra từ c+

Từ đó, chúng ta có các tính chất sau:

(fm1’) fm(0) + fm(c−) + fm(W)+ fm(c+)+ fm(1) = 1

(fm2’) x X \ C = H(G), fm(x) = fm(Lx) + fm(Rx) + fm(h0x) + fm(Mx) +

fm(Vx)

(fm3’) Giả sử rằng 𝑓𝑚(ℎ𝑥)

𝑓𝑚(𝑥), for hHen, là hằng số đối với mọi xX, giá trị này gọi là độ đo tính mờ hoặc mức độ tác động của gia tử h và ký hiệu là

(h). Chúng ta có fm(hx) = (h)fm(x).

Coi các điều kiện (fm1’) – (fm3’) là các tiên đề của độ đo mờ trong EnHA, có thể dễ dàng chứng minh tính đúng của (1.14) và các tính chất sau của fm:

(fm4’) fm(x) = (hn) ... (h1)fm(c), với x = hn...h1c Xen, c G = {c−, c+}, là dạng biểu diễn chính tắc của x.

(fm5’) ∑ℎ∈𝐻𝑒𝑛𝜇(ℎ) = 𝜇(ℎ0) + ∑ℎ∈𝐻𝜇(ℎ) = 1.

Từ đó, chúng ta thấy rằng nếu cho các giá trị độ đo mờ của các hạng từ trong tập CG (fm(0), fm(c−),fm(W) và fm(c+), giá trị f(1) được xác định qua ràng buộc (fm1’)); các gia tử h, (h), hHHen (µ(h0) được xác định qua ràng buộc (fm5’)),

khi đó độ đo tính mờ fm(x) của tất cả các hạng từ được xác định và ngữ nghĩa khoảng fen(x) của các hạng từ xXen hoàn toàn xác định được. Do đó, bộ các giá trị này được gọi là tham số mờ độc lập của AA,en. Từ (IS2) chúng ta có công thức đệ quy để tính giá trị bên trái của ngữ nghĩa khoảng của bất cứ hạng từ zXen, |z| = k, theo công thức sau:

𝑙𝑒𝑓𝑡(ℑ(𝑧)) = ∑𝑥 ∈ 𝑋𝑘 & 𝑥 < 𝑧𝑓𝑚(𝑥) +∑𝑦 ∈ 𝑋(𝑘−1) & 𝑦 < 𝑧𝑓𝑚(ℎ0𝑦) (1.15) Ý tưởng của công thức có thể được giải thích như sau: Đầu tiên, chú ý rằng từ (IS3) suy ra mọi khoảng ngữ nghĩa của một hạng từ có độ dài k ≥ 2 không chứa các khoảng ngữ nghĩa của phần lõi của bất cứ hạng từ z’ nào đó (h0z’) của các hạng từ độ dài nhỏ hơn k. Từ (IS3), mọi hạng từ z, |z| = k, điểm bên trái của (z) được xác định bởi chiều dài của đoạn [0, left((z))], nó bằng với tổng các chiều dài của các khoảng ngữ nghĩa của các hạng từ độ dài k có thứ tự ngữ nghĩa nhỏ hơn z và chiều dài của tất cả các khoảng lõi ngữ nghĩa của các hạng từ có độ dài (k – 1), tất cả hằng bên trái của z, tức là nó bằng với vế phải của công thức (1.15).

Ví dụ: Xem xét biến ‘AGE’, hai hạng từ sinh là c− = ‘young’c+ = ‘old’, miền tham chiếu là [0, 75]. Vì bất cứ hạng từ nào trong miền hạng từ của biến AGE được sinh ra từ 2 hạng từ ‘young’ và ‘old’, ngữ nghĩa định tính của AGE được hoàn toàn xác định khi xác định tập các gia tử. Giả sử chọn H− = {little (L), rather (R)} và H+ = {more (M), very (V)}, dấu của các gia tử với gia tử được cho như trong Bảng 1.4. Khi đó sẽ xác định được các hạng từ trong tập XAGE và thứ tự ngữ nghĩa giữa chúng. Để xác định ngữ nghĩa định lượng của các hạng từ trong XAGE, cần phải chọn các tham số mờ độc lập một cách hợp lý. Ví dụ, dựa trên quan điểm chung trong cộng đồng về độ tuổi, chúng ta có thể coi các khoảng [0, 6], [40, 45] và [70, 75] trong miền tham chiếu [0, 75] như là các khoảng tính mờ tương ứng của các hạng từ 0 (completely young), W (middle age) và 1 (completely old). Từ đó, tính toán được các tham số mờ là fm(0) = 6/75 = 0.08, tương tự có được fm(c−) = 0.453,

fm(W) = 0.133, fm(c+) = 0.267, và fm(1) = 0.067. Dựa trên quan điểm các gia tử có tính riêng càng lớn thì độ đo tính mờ sẽ càng nhỏ, chúng ta thấy rằng (L) < (R) và

(M) > (V). Do đó, trong ví dụ này, chọn (L) = 0.15, (R) = 0.25, (M) = 0.3,

Giả sử muốn tính khoảng tính mờ của các hạng từ ‘R.old’ và ‘h0R.old’. Từ phần lập luận trên, cách tính khoảng tính mờ như sau:

∘ Theo (1.15), ta có: left((R.old)) = (fm(V.young) + fm(M.young) +

fm(R.young) + fm(L.young) + fm(L.old)) + (fm(0) + fm(W) + fm(h0.young)) = (0.2 

0.453 + 0.3  0.453 + 0.25  0.453 + 0.15  0.453 + 0.15  0.267) + (0.08 + 0.133 + 0.1  0.453) = 0.707. Tiếp tục tính right((R.old)) = left((R.old)) + |(R.old)| =

left((R.old)) + fm(R.old) = 0.707 + 0.25  0.267 = 0.773, khoảng tính mờ cần tìm là (R.old) = (0.707, 0.773]. Chuyển đổi khoảng tình mờ sang miền tham chiếu thực của biến AGE trong khoảng [0, 75] sẽ được khoảng tính mờ (R.old) là (53, 58]. Các giá trị trong khoảng (53, 58] được coi là các giá trị số tương thích nhất với hạng từ ‘R.old’.

Để tính (h0R.old)  (R.old), trước tiên cần xác định dấu sign(VR.old) = +1, từ đó suy ra thứ tự các khoảng tính mờ là (LR.old) (RR.old) (h0R.old)  (MR.old) (VR.old). Theo đẳng thức trong (IS2), ta có (R.old) = (LR.old)  (RR.old)  (h0R.old)  (MR.old)  (VR.old). Kết hợp bất đẳng thức trên và đẳng thức này, chúng ta sẽ xác định được khoảng (h0R.old) biểu diễn lõi ngữ nghĩa của từ ‘R.old’ trong khoảng tính mờ (R.old) = (53, 58]. Công thức tính giá trị cận trái của khoảng là left((h0R.old)) = left((R.old)) + |(LR.old)| + |(RR.old)| = 0.707 + 0.15  0.25  0.267 + 0.25  0.25  0.267 = 0.7337. Tương tự, ta có right((h0R.old)) = left((h0R.old)) + |(h0R.old)| = 0.7337 + 0.1  0.25 

0.267 = 0.740375. Do đó, (h0R_old) = (0.7337, 0.740375] và khoảng ngữ nghĩa thực sự trong miền tham chiếu thực [0, 75] của h0R.old là (55.03, 55.53].

Từ các giá trị tham số mờ của một EnHA, chúng ta hoàn toàn xác định được các khoảng lõi ngữ nghĩa của các hạng từ trong X. Khi xây dựng tập mờ hình thang biểu diễn ngữ nghĩa cho các hạng từ trong X, các khoảng lõi ngữ nghĩa này là phần đáy nhỏ của các hình thang tương ứng. Ví dụ trong Hình 1.13, sau khi xác định được các khoảng lõi ngữ nghĩa của các hạng từ trong X(2) = {0, Vc−, c−, Lc−, W, Lc+,

c+, Vc+, 1} là các khoảng tính mờ (0), (h0Vc−), (h0c−), (h0Lc−), (W),

các hình thang tương ứng, các đáy lớn được xác định sao cho tập gồm 9 hình thang tạo thành một phân hoạch mạch trên miền tham chiếu.

Hình 1.13: Các tập mờ hình thang cho các hạng từ trong X(2)

Một phần của tài liệu (Luận án tiến sĩ) tóm tắt dữ liệu bằng ngôn ngữ theo cách tiếp cận đại số gia tử (Trang 52 - 59)

Tải bản đầy đủ (PDF)

(148 trang)