Cơ sở dữ liệu, cú pháp và ngữ nghĩa của các thuộc tính

Một phần của tài liệu (Luận án tiến sĩ) tóm tắt dữ liệu bằng ngôn ngữ theo cách tiếp cận đại số gia tử (Trang 97)

3.3.3.1. Cơ sở dữ liệu

Tập dữ liệu được sử dụng trong thực nghiệm là Bank Marketing (BM) được tạo ra từ các chiến dịch tiếp thị trực tiếp dựa trên các cuộc gọi điện thoại của một ngân hàng Bồ Đào Nha. Dữ liệu được tải về từ kho dữ liệu UCI tại địa chỉ https://archive.ics.uci.edu/ml/datasets/bank+marketing. Tập dữ liệu gồm có 41.188 bản ghi và 21 thuộc tính. Mỗi bản ghi là một bộ thông tin cá nhân về một khách hàng. Một số thuộc tính được quan tâm để sinh ra các câu tóm tắt ngôn ngữ đơn giản là AGE (tuổi của khách hàng), JOB (nghề nghiệp của khách hàng), MAR (tình trạng hôn nhân), CCI (chỉ số niềm tin của người tiêu dùng - chỉ số hàng tháng) và Y (chỉ ra câu trả lời của câu hỏi: khách hàng đã đăng ký một khoản tiền gửi có kỳ hạn chưa?). Miền giá trị của các thuộc tính như sau:

o Dom (AGE) = [17, 98]

o Dom(JOB) = {‘admin’, ‘blue-collar’, ‘entrepreneur’, ‘house-maid’, ‘management’, ‘retired’, ‘self-employed’, ‘services’, ‘student’, ‘technician’, ‘unemployed’, ‘unknown’}

o Dom(MAR) = {‘married’, ‘single’} o Dom(CCI) = [−50.8, −26.9]

o Dom(Y) = {‘yes’, ‘no’}

3.3.3.2. Cú pháp và ngữ nghĩa định tính, định lượng của các thuộc tính

Để xác định khung nhận thức ngôn ngữ cho các thuộc tính số AGE, CCI và từ lượng hóa theo phương pháp luận ĐSGT cần phải xác định các thành phần cơ bản trong cấu trúc đại số (ba hằng ngôn ngữ, hai phần tử sinh, tập các gia tử) và mức tính riêng. Để xây dựng các hình thang biểu diễn ngữ nghĩa cho các hạng từ trong khung nhận thức theo thủ tục HA-TFS-MG đề xuất trong mục 2.5.1 cần xác định bộ tham số tính mờ.

Để đơn giản, trong thí nghiệm lựa chọn cùng một tập hợp các gia tử đơn giản, H = {L (Little), V (Very)} và một gia tử nhân tạo h0 để tạo ra lõi ngữ nghĩa h0x

của mỗi từ x cho tất cả các biến cần xây dựng khung nhận thức ngôn ngữ. Khoảng mờ của h0x là đáy nhỏ hình thang biểu diễn ngữ nghĩa của x. Ngữ nghĩa định tính của x được xác định bằng cách xác định quan hệ dấu của các gia tử của tập H. Đồng

thời, sử dụng cấu trúc đa thể các hình thang như trong Hình 2.3 để biểu diễn ngữ nghĩa của các hạng từ trong LFoC của thuộc tính AGE, CCI và từ lượng hóa Q.

Các phần tử sinh của từ lượng hóa Q là 'few' (f) và 'many' (m). Do đó, ℱQ,1 =

XQ,1 = {‘none’, ‘few’, ‘a half’, ‘many’, ‘almost all’}, trong đó ‘none’, ‘a half’ và ‘almost all’ lần lượt tương ứng với các hằng 0, W 1. Đối với ngữ nghĩa định

lượng của Q, giả sử rằng các giá trị tham số độ mờ độc lập là fm(0) = 0.02, fm(f) = 0.43, fm(‘a half’) = 0.1, fm(m) = 0.43, μ(L) = 0.5, μ(V) = 0.3 và do đó, chúng ta có

fm(1) = 0.02, μ(h0) = 0.2.

Tương tự như Q, tất cả các khía cạnh ngữ nghĩa của AGE được xác định như sau. Đầu tiên, khai báo c− = ‘young’ (y), c+ = ‘old’ (o), W = ‘middle’, 0 =

completely young’, 1 = ‘completely old’. Mặc dù cú pháp và ngữ nghĩa định tính về hình thức của các biến Q và AGE là như nhau, nhưng về mặt ngữ nghĩa định lượng của AGE hoàn toàn khác với Q được nêu ở trên. Độ đo tính mờ của các từ trong ℱAGE,1 = {0, ‘young’, ‘middle’, ‘old’, 1} được xác định đơn giản như sau. Đối với miền tham chiếu thực của thuộc tính AGE là [17, 98] như trong cơ sở dữ liệu, từ

'young' tương ứng với khoảng [20, 48], 'medium' tương ứng với [48, 53] và 'old'

tương ứng với [53, 90]. Do đó, hằng 0 (‘completely young’) tương ứng với [17, 20] và 1 (‘completely old’) được tương ứng với [90, 98]. Sau khi xác định khoảng ngữ nghĩa này, chúng ta dễ dàng tính toán các giá trị của các tham số mờ: fm(0) = 0.037,

fm(‘young’) = 0.346, fm(‘middle’) = 0.062, fm(‘old’) = 0.37 và do đó fm(1) = 0.099, theo ràng buộc (fm1). Số đo độ mờ của các gia tử được giả sử là μ(L) = 0.4, μ(V) = 0.35 và do đó, μ(h0) = 0.25 theo ràng buộc (fm5).

Thuộc tính CCI: Theo cách tương tự, cú pháp và ngữ nghĩa định lượng được xác định như sau: tập các hạng từ mức 1 là ℱCCI,1 = {‘completely low’, ‘low’, ‘medium’, ‘high’, ‘completely high’}. Các hạng từ ‘completely low’, ‘medium’ và ‘completely high’ lần lượt tương ứng với các hằng 0, W, 1. Ký hiệu “low”, “high” lần lượt là l và h. Tham số tính mờ là: fm(0) = 0.05; fm(l) = 0.4; fm(W) = 0.1, fm(h) = 0.4; và fm(1) = 0.05; μ(L) = 0.4, μ(V) = 0.35 và μ(h0) = 0.25.

3.3.4.Thí nghiệm 1: Ưu điểm của LFoC khi có số lượng từ lớn và có tính mở rộng được

3.3.4.1. Kịch bản thí nghiệm

Để chứng minh những ưu điểm của một LFoC có số lượng từ lớn và tính mở rộng được của nó, thí nghiệm được thực hiện như sau:

Mẫu câu tóm tắt SLcó dạng:

Qo’s that are o(JOB is ‘technician’) AND o(Y is ‘yes’), are o(AGE is ‘z’)” (3.6) Với Q∈ℱQ, z∈ ℱAGE, 3

Trong thí nghiệm, cố định khung nhận thức của AGE là ℱAGE, 3 gồm có 17 hạng từ, tương ứng xem xét 17 nhóm tuổi khác nhau. Với mỗi hạng từ z∈ℱAGE, 3 sẽ xác định một thân câu tóm tắt theo mẫu (3.6), thực hiện chọn một từ lượng hóa

QℱQ thỏa điều kiện (C1) và (C2) trong mục 3.3.1 để đưa ra một câu tóm tắt diễn đạt thông tin về nhóm tuổi tương ứng.

Phương pháp trích rút tóm tắt đã đề xuất Mls được áp dụng theo ba pha tương ứng với ba tập hạng từ lượng hóa ℱQ có ba mức tính riêng tăng dần từ mức 1, lên mức 2 và lên mức 3. Cụ thể:

o Pha 1: Tập từ lượng hóa là ℱQ,1 = {‘none’, ‘few’, ‘a half’, ‘many’, ‘almost all’}. Năm tập mờ biểu diễn ngữ nghĩa cho năm hạng từ này như trong phần (a) của Hình 3.2.

o Pha 2: Tập từ lượng hóa là ℱQ,2 = ℱQ,1 {Vf, Lf, Lm, Vm} gồm có 9 từ (bổ sung thêm 4 từ tính riêng ở mức 2). Các tập mờ biểu diễn ngữ nghĩa của 9 hạng từ này như trong phần (b) của Hình 3.2. Trong đó, các hình thang biểu diễn cho các hạng từ tính riêng mức 2 là các đường nét chấm chấm. o Pha 3: Tập từ lượng hóa là ℱQ,3 = ℱQ,2  { Lx, Vx : x ∈ ℱQ,2 và x{0, W,

1}} gồm có 17 từ (bổ sung thêm 8 từ tính riêng mức 3). Các tập mờ biểu

diễn ngữ nghĩa của 17 hạng từ này như trong phần (c) của Hình 3.2. Trong đó, các hình thang biểu diễn cho các hạng từ tính riêng mức 3 là các đường nét đứt.

Hình 3.2: Các tập mờ hình thang biểu diễn ngữ nghĩa cho các từ lượng hóa trong ℱQ,1, ℱQ,2 và ℱQ,3.

3.3.4.2. Kết quả thí nghiệm

Bảng 3.1 trình bày tất cả 17 câu tóm tắt tương ứng 17 nhóm tuổi khác nhau của các khách hàng có nghề nghiệp là ‘techician’ và có câu trả lời ‘yes’ là kết quả của mỗi lần thực hiện phương pháp trích rút tóm tắt Mls đã đề xuất. Giá trị tại cột

Supp(z) là độ hỗ trợ của 730 bản ghi thỏa điều kiện lọc “o(JOB is ‘technician’) AND o(Y is ‘yes’)”, được tính theo công thức (3.7). Ý nghĩa của giá trị Supp(z) là thể hiện lực lượng (mờ) của nhóm khách hàng ở độ tuổi z (z là một hạng từ ngôn ngữ trong ℱAGE, 3). 730 1 (AGE( )) ( ) 730 z i i y Supp z  = =  (3.7)

Các kết quả trong Bảng 3.1 được trình bày như sau:

o Sau pha 1 (khi tập từ lượng hóa ℱQ,1 có mức tính riêng 1, gồm 5 hạng từ), nhận được 17 câu tóm tắt mà các từ lượng hóa và giá trị đúng đắn của chúng tương ứng tại cột Q1 và T1 trong Bảng 3.1. Có 10 kết quả với lượng hóa khác 'none'. Trong đó, có 3 SL với Q = 'A half,' và 7 SL với Q = 'few'. Tuy nhiên, trong số các SL này, chỉ có 6 SLT ≥ 0.8, giá trị T nhỏ nhất là 0.553 tương ứng với kết luận “AGE is ‘middle’”.

o Sau pha 2 (khi ℱQ,2 có 9 từ lượng hóa, trong đó có 4 từ lượng hóa mới ở tính riêng mức 2 được bổ sung), các từ lượng hóa và giá trị đúng đắn của 17 câu tóm tắt tương ứng tại cột Q2 và T2 trong Bảng 3.1. Vì giá trị supp(z) (z là các hạng từ trong LFoC của AGE) không thay đổi, chỉ cần tính lại giá trị đúng đắn T tương ứng với các hạng từ Q mới. Xét theo điều kiện chọn

(a) FQ,1= X(1) (b) FQ,2= X(2) (c) FQ,3= X(3)

None Few A half Many Almost all

V_𝒻 L_𝒻 L_𝓂 V_𝓂

hạng từ lượng hóa (C1) và (C2) như trong mục 3.3.1, có 6 trong số 17 câu tóm tắt được cập nhật lại từ lượng hóa. Sáu câu tóm tắt này có từ lượng hóa ở mức tính riêng 2 và giá trị đúng đắn T tăng lên (tương ứng các ô in đậm trong cột Q2 và T2). Kết quả nhận được có 11 SL có từ lượng hóa khác 'none'. Trong đó, có 2 SLQ = 'Ahalf,' và có 3 SLQ = 'few,' và có 6 SL

với Q = 'very_few'. Tất cả 17 câu tóm tắt đều có T ≥ 0.8, giá trị T nhỏ nhất là 0.843 tương ứng với kết luận “AGE is ‘very little_young’”.

o Sau pha 3 (khi ℱQ,3 có 17 từ lượng hóa, trong đó có thêm 8 từ lượng hóa ở mức tính riêng 3), các từ lượng hóa và giá trị đúng đắn của 17 câu tóm tắt tương ứng tại cột Q3 và T3 trong Bảng 3.1. Tương tự như pha thứ hai, có 2 câu tóm tắt được cập nhật lên từ lượng hóa ở mức tính riêng 3 là Q = 'little very_few', đồng thời giá trị đúng đắn T cũng tăng lên (tương ứng các ô in đậm trong cột Q3 và T3). Kết quả, có 11 SL có từ lượng hóa khác 'none’. Tất cả SL đều có giá trị chân lý T ≥ 0.8, giá trị T nhỏ nhất là 0.950 tương ứng với kết luận “AGE is ‘little_young’”.

Bảng 3.1: Các câu tóm tắt trích rút từ cơ sở dữ liệu, điều kiện lọc là “o(JOB) IS ‘technician’ AND o(Y) IS ‘yes’”, có 730 bản ghi thỏa điều kiện lọc

z Q,1= XQ(1) ℱQ,2= XQ(2) ℱQ,3= XQ(3)

Supp(z) ID

Q1 T1 Q2 T2 Q3 T3

0 None 0.953 None 0.953 None 0.953 0.026 1

VVy None 1.000 None 1.000 None 1.000 0.017 2

Vy Few 1.000 Few 1.000 Few 1.000 0.227 3

LVy Few 1.000 Few 1.000 Few 1.000 0.188 4

YoungA half 1.000 A half 1.000 A half 1.000 0.527 5

LLy A half 0.582 Lf 1.000 Lf 1.000 0.360 6

Ly A half 0.950 A half 0.950 A half 0.950 0.439 7

VLy Few 0.814 Vf 0.843 LVf 1.000 0.125 8

MiddleFew 0.553 Lf 0.956 Lf 0.956 0.331 9

VLo None 0.544 Vf 1.000 Vf 1.000 0.079 10

Lo Few 1.000 Few 1.000 Few 1.000 0.152 11

LLo Few 0.593 Vf 0.954 Vf 0.954 0.096 12

‘Old’ Few 0.732 Vf 0.884 LVf 0.971 0.114 13

LVo None 1.000 None 1.000 None 1.000 0.018 14

Vo None 0.954 None 0.954 None 0.954 0.026 15

VVy None 1.000 None 1.000 None 1.000 0.001 16

3.3.4.3. Phân tích kết quả

Kết quả nêu trên đã cho thấy khi sử dụng số lượng từ lượng hóa càng nhiều, tức là sử dụng tập từ lượng hóa với mức tính riêng càng lớn, sẽ thu được các câu tóm tắt với giá trị T càng lớn. Hơn nữa, có nhiều hơn các câu tóm tắt với từ lượng hóa thuộc mức tính riêng lớn hơn. Dựa theo ý tưởng về độ đo thông tin của Yager và Wilbik như đã phân tích trong mục 3.3.1, khi giá trị chân lý T tăng lên và tính riêng của các hạng từ tăng thì khi đó câu SL cung cấp nhiều thông tin hơn về tập dữ liệu D. Do đó, quan sát thấy rằng khi tính riêng của LFoC của Q, ℱQ,k tăng lên, chúng ta thu được nhiều SL có giá trị chân lý T lớn hơn từ tập dữ liệu với tính riêng của từ định lượng cao hơn. Tức là, tính riêng của LFoC ℱQ,k càng cao, nội dung thông tin được truyền đạt bởi các SL với giá trị chân lý cao hơn. Do đó, tính riêng của LFoC ℱQ,k càng cao, phương pháp trích rút Mls có thể cung cấp nhiều SL cho nhiều thông tin hơn về tập dữ liệu D.

Kết quả thí nghiệm này đã cho thấy khi con người sử dụng khung nhận thức với số lượng hạng từ lớn thì con người có khả năng truyền đạt càng nhiều thông tin bằng các câu diễn đạt trong ngôn ngữ tự nhiên. Người dùng không thể xác định trước giới hạn số lượng từ trong khung nhận thức, mà trong thực tế luôn có số lượng lớn các hạng từ có sẵn, tùy thuộc vào nhu cầu và tiêu chuẩn trong từng thời điểm mà con người sử dụng số lượng từ khác nhau.

3.3.5.Thí nghiệm 2: Khả năng mở rộng tập tri thức trích rút từ cơ sở dữ liệu

3.3.5.1. Kịch bản thí nghiệm

Thí nghiệm thực hiện trích rút các câu tóm tắt SL theo mẫu câu sau:

Qo’s that are o(JOB is j) AND o(Y is ‘no’), are o(AGE is ‘z’)” (3.8) Với QℱQ,3, zℱAGE,k, j  Dom(JOB)

Tập hạng từ lượng hóa Q được cố định là ℱQ,3 gồm 17 từ lượng hóa được gán chỉ số và sắp thứ tự tăng dần như sau: 00VVf1Vf2LVf3few4LLf5Lf6

VLf7half8VLm9Lm10LLm11m12LVm13Vm14VVm15 ≤ 116. Theo như kết quả trong thí nghiệm 1, tập từ lượng hóa này được sử dụng trong thuật toán trích rút được câu tóm tắt sẽ thu được câu tóm tắt với giá trị đúng đắn T gần với giá trị tối đa 1.

Tập hạng từ trong LFoC của thuộc tính AGE được mở rộng dần từ ℱAGE,1

thành ℱAGE,2 và lên thành ℱAGE,3. Thí nghiệm được thực hiện trong ba pha tương ứng với 3 mức tính riêng của ℱAGE,k. Với mẫu câu tóm tắt (3.8) ở trên, thí nghiệm nhằm khảo sát sự phân bố theo độ tuổi của các nhóm khách hàng làm nghề nghiệp khác nhau mà cho câu trả lời ‘no’. Khi mở rộng dần tập hạng từ cho thuộc tính AGE bằng việc tăng mức tính riêng của LFoC từ mức 1 lên mức 2, và lên mức 3, phương pháp LSMd Mls đã đề xuất cũng có khả năng mở rộng tương thích với mở rộng tập từ vựng của thuộc tính AGE. Hơn nữa, tập các câu tóm tắt kết quả cũng có khả năng mở rộng khi tập từ vựng của AGE được mở rộng.

3.3.5.2. Kết quả thí nghiệm

Kết quả được trình bày cho 3 nhóm khách hàng có nghề nghiệp là ‘retired’, ‘student’, ‘housemaid’ và đều đưa ra câu trả lời Y = ‘no’. Theo điều kiện (C1) và (C2) trong mục 3.3.1, mỗi nhóm khách hàng trích rút được 17 câu tóm tắt tương ứng 17 hạng từ trong LFoC ℱAGE,3 của thuộc tính AGE trong kết luận o(AGE is ‘z’). Các câu tóm tắt được trình bày trong cấu trúc cây phân cấp như trong Hình 3.3, Hình 3.4 và Hình 3.5. Trong đó, nút gốc thể hiện điều kiện lọc và số lượng bản ghi thỏa điều kiện lọc trong cơ sở dữ liệu. Mức 1, mức 2 và mức 3 lần lượt tương ứng là các câu tóm tắt SL có kết luận z có mức tính riêng lần lượt là 1, 2 và 3. Mỗi nút trên cây biểu diễn 3 thông tin của câu tóm tắt: cặp hạng từ Q z và giá trị đúng đắn T. Trong đó, Q là từ lượng hóa kèm chỉ số thứ tự của nó (các chỉ số màu đỏ trong hình) trong tập ℱQ,3, z là một hạng từ trong tập ℱAGE,3. Đồng thời, sử dụng màu nền xanh khác nhau tương ứng với các từ lượng hóa khác nhau. Nút có màu nền xanh càng đậm tương ứng từ lượng hóa có thứ tự ngữ nghĩa càng lớn, tức là càng nhiều khách hàng ở độ tuổi đó.

3.3.5.3. Phân tích kết quả

Ưu điểm 1: Thí nghiệm chứng tỏ khả năng mở rộng của phương pháp Mls tập câu kết quả tương thích với khả năng mở rộng của biểu diễn tập mờ trong cấu trúc đa thể cho khung nhận thức ngôn ngữ của các thuộc tính. Đồng thời, phương pháp LSMdMls có khả năng trích rút các câu tóm tắt nhiều thông tin hơn về tập dữ liệu D.

• Khả năng mở rộng: cả phương pháp tính toán của LSMd Mlsvà tập kết quả đều được mở rộng tương ứng khi mở rộng LFoC của thuộc tính AGE.

o Khi tập hạng từ của thuộc tính AGE được mở rộng từ mức tính riêng 1 lên mức 2 và lên mức 3, tại pha 1 chỉ có 5 hạng từ trong ℱAGE,1, tại pha 2 có thêm 4 hạng từ mức tính riêng 2, tại pha 3 tiếp tục có thêm 8 hạng từ mức tính riêng 3. Tương ứng với sự tăng trưởng của tập hạng từ ℱAGE,k, tập các tập mờ biểu diễn ngữ nghĩa cho các hạng từ cũng được tăng trưởng thêm các tầng 2 và tầng 3 như minh họa trong Hình 2.3. Vì các hình thang được thêm vào ở tầng 2 và tầng 3 không làm thay đổi các hình thang đã có, do đó phương pháp LSMd Mls chỉ cần tính toán thêm trên các hình thang mới để đưa ra các câu tóm tắt mà hạng từ trong kết luận o(AGE is ‘z’) là các

Một phần của tài liệu (Luận án tiến sĩ) tóm tắt dữ liệu bằng ngôn ngữ theo cách tiếp cận đại số gia tử (Trang 97)

Tải bản đầy đủ (PDF)

(148 trang)