Thí nghiệm 3: Trích rút phân phối ngôn ngữ cho các nhóm mờ

Một phần của tài liệu Luận án Tiến sĩ Tóm tắt dữ liệu bằng ngôn ngữ theo cách tiếp cận đại số gia tử (Trang 107 - 111)

3.3.6.1. Kịch bản thí nghiệm

Trong thí nghiệm này, tiếp tục áp dụng phương pháp LSMd Mlstrên cơ sở dữ

liệu BM để trích rút các phân phối ngôn ngữ theo các nhóm mờ (thay vì nhóm rõ

như trong thí nghiệm 1 và thí nghiệm 2) đối với thuộc tính mờ khác. Cấu trúc câu tóm tắt SLđược chọn theo mẫu câu sau:

Qo’s that are o(JOB is j) AND o(AGE is x),

are o(CCI is y) AND o(Y is ‘yes’/’no’)” (3.10) Với QℱQ,k, j  Dom(JOB), xℱAGE,3, y ℱCCI,3

Trong thí nghiệm này, thực hiện cố định mức tính riêng của thuộc tính AGE,

CCI là 3. Trong khi đó, thí nghiệm thực hiện lần lượt 2 bước tương ứng với 2 mức tính riêng của LFoC của từlượng hóa ℱQ,k. Cụ thểnhư sau:

o Bước 1: Mức tính riêng LFoC của Q là 3. Phương pháp LSMd Mls chạy

trên cơ sở dữ liệu DM để trích rút các phân phối ngôn ngữ của nhóm mờ

gồm các khách hàng có nghề nghiệp xác định và theo các độ tuổi khác nhau đối với thuộc tính CCI.

o Bước 2: Tập từ lượng hóa tăng trưởng từ ℱQ,3 thành ℱQ,4. Vì các LFoC của thuộc tính AGE và CCI giữ nguyên, theo điều kiện (C1) và (C2) trong mục

3.3.1, phương pháp LSMd Mls không cần thực hiện lại toàn bộ quá trình

trích rút tóm tắt mà chỉ cần xác định xem có cần cập nhật từ lượng hóa trong các câu tóm tắt đã có bởi một từ lượng hóa ở mức 4 hay không? Do đó, LSMd Mlschỉ cần thực hiện các công việc sau:

• Vì LFoC của thuộc tính AGE và CCI được giữ nguyên, tức là các thân câu tóm tắt (bao gồm phần điều kiện lọc và phần kết luận) đã được xác

định. Như vậy, phương pháp LSMd Mlsđã tính toán được giá trị hỗ trợ

cho các thân câu tóm tắt trong bước 1. Các giá trị này được tính toán với các từ lượng hóa mới ở mức 4 để xem có làm tăng giá trị T hoặc không làm tăng T nhưng tăng tính riêng của Q. Nếu có, câu tóm tắt sẽ được thay thế thành phần Q bởi một từlượng hóa có mức tính riêng 4. • Thực hiện cập nhật lại bảng phân phối ngôn ngữ bởi từ lượng hóa ở

mức tính riêng lớn hơn (mức 4).

3.3.6.2. Kết quả thí nghiệm

Kết quả phân phối ngôn ngữ cho nhóm khách hàng thỏa điều kiện “JOB =

student’” được trích rút bởi Mls, sử dụng ℱQ,3, được trình bày lần lượt trong Bảng 3.2 đến Bảng 3.5. Khi ℱQ,3 mở rộng thành ℱQ,4, phương pháp LSMd Mls chỉ cần xem xét các câu tóm tắt SLđã được trích rút ở bước 1 đang trong Bảng 3.2 và Bảng 3.4 để có thể thay thế hạng từ lượng hóa bởi một từ ở mức 4 hay không. Các câu tóm tắt mới được cập nhật và kết quả trình bày trong Bảng 3.3 và Bảng 3.5. Cấu trúc của Bảng 3.2 đến Bảng 3.5 như sau:

o Ô góc trên bên trái là tiêu đề cho dòng đầu tiên và cột đầu tiên. Các ô còn lại trong dòng đầu tiên lần lượt theo thứ tự tăng dần của 17 hạng từ trong LFoC ℱCCI,(3) của thuộc tính CCI. Các ô còn lại trong cột đầu tiên lần lượt theo thứ tự tăng dần của các hạng từ trong LFoC ℱAGE,3 của thuộc tính AGE. Bảng kết quả chỉ trình bày các câu tóm tắt tương ứng với các hạng từ trong ℱAGE,3 có độ hỗ trợ lớn hơn 0.1, tức là các nhóm khách hàng trong độ tuổi phổ biến trên ngưỡng xác định. Thông thường đây là các nhóm khách

hàng cần quan tâm hơn. Các nhóm tuổi còn lại tương ứng có số lượng khách hàng dưới ngưỡng sẽ không được trình bày trong bảng để giảm số dòng của bảng.

o Mỗi ô trong bảng tại dòng tương ứng AGE = x và CCI = y chính là từ lượng hóa trong câu tóm tắt theo mẫu (3.10) mà JOB = ‘student’, Y = ‘yes’ đối với Bảng 3.2, Bảng 3.3, Y = ‘no’ đối với Bảng 3.4, Bảng 3.5.

o Thí nghiệm xem xét tập từ lượng hóa đến mức tính riêng 4. Nên mỗi từ

lượng hóa trong Bảng 3.2 đến Bảng 3.5 có chỉ số nhỏ tương ứng là chỉ số thứ tự trong LFoC ℱQ,4 chứa 33 từ lượng hóa. Cụ thể, thứ tự ngữ nghĩa và chỉ số của 33 từ lượng hóa là: 00VVVf1 VVf2LVVf3 Vf4LLVf5

LVf6VLVf7 few8VLLf9 LLf10LLLf11 Lf12LVLf13 VLf14VVL-

f15 half16VVLm17 VLm18LVLm19Lm20LLLm21 LLm22

VLLm23 m24VLVm25 LVm26LLVm27 Vm28LVVm29 VVm30

VVVm31 132.

Bảng 3.2: Phân phối ngôn ngữ của nhóm mờ xác định bởi điều kiện “(JOB IS ‘student’) AND (AGE IS x)” đối với thuộc tính CCI và Y = ‘yes’ với tập từ lượng

hóa Q có tính riêng mức 3 ℱQ,3

CCI AGE

0 VV_l V_l LV_l low LL_l L_l VL_l Medium VL_h L_h LL_h High LV_h V_h VV_h 1

Ab_y VV_f2 00 V_f4 V_f4 V_f4 00 VV_f2 VV_f2 LV_f6 00 V_f4 VV_f2 V_f4 V_f4 V_f4 00 VV_f2 VV_y VV_f2 00 VV_f2 VV_f2 V_f4 00 VV_f2 V_f4 few4 00 V_f4 V_f4 V_f4 V_f4 V_f4 00 V_f4 V_y VV_f2 00 VV_f2 VV_f2 V_f4 00 VV_f2 VV_f2 LV_f6 00 VV_f2 VV_f2 V_f4 V_f4 V_f4 00 00 LV_y VV_f2 00 VV_f2 VV_f2 V_f4 00 VV_f2 VV_f2 LV_f6 00 VV_f2 VV_f2 V_f4 V_f4 V_f4 00 00 young VV_f2 00 VV_f2 VV_f2 VV_f2 00 VV_f2 VV_f2 LV_f6 00 VV_f2 VV_f2 V_f4 VV_f2 VV_f2 00 00 LL_y VV_f2 00 VV_f2 00 V_f4 00 VV_f2 VV_f2 LV_f6 00 V_f4 VV_f2 V_f4 00 VV_f2 00 00 L_y VV_f2 00 VV_f2 00 V_f4 00 VV_f2 VV_f2 LV_f6 00 V_f4 VV_f2 V_f4 00 VV_f2 00 00

Bảng 3.3: Phân phối ngôn ngữ của nhóm mờxác định bởi điều kiện “(JOB IS ‘student’) AND (AGE IS x)” đối với thuộc tính CCI và Y = ‘yes’ với tập từ lượng

hóa Q có tính riêng mức 4ℱQ,4

CCI AGE

0 VV_l V_l LV_l low LL_l L_l VL_l Medium VL_h L_h LL_h High LV_h V_h VV_h 1

Ab_y LVV_f3 00 V_f4 V_f4 V_f4 00 VV_f2 VV_f2 VLV_f7 00 V_f4 LVV_f3 V_f4 V_f4 V_f4 00 LVV_f3 VV_y VV_f2 00 VV_f2 VV_f2 V_f4 00 LVV_f3 V_f4 few8 00 V_f4 LVV_f3 V_f4 V_f4 V_f4 00 V_f4 V_y VV_f2 00 VV_f2 VV_f2 LVV_f3 00 VV_f2 VV_f2 LV_f6 00 VV_f2 VV_f2 V_f4 LVV_f3 V_f4 00 00 LV_y VV_f2 00 VV_f2 VV_f2 LVV_f3 00 VV_f2 VV_f2 LV_f6 00 LVV_f3 VV_f2 V_f4 LVV_f3 V_f4 00 00 young VV_f2 00 VV_f2 VV_f2 LVV_f3 00 VV_f2 VV_f2 LV_f6 00 LVV_f3 VV_f2 V_f4 VV_f2 LVV_f3 00 00 LL_y VV_f2 00 VV_f2 00 LVV_f3 00 VV_f2 VV_f2 LV_f6 VVV_f1 V_f4 VV_f2 V_f4 VVV_f1 VV_f2 00 00 L_y VV_f2 00 VV_f2 00 LVV_f3 00 LVV_f3 VV_f2 LV_f6 00 V_f4 VV_f2 V_f4 00 VV_f2 00 00

Bảng 3.4: Phân phối ngôn ngữ của nhóm mờxác định bởi điều kiện “(JOB IS ‘student’) AND (AGE IS x)” đối với thuộc tính CCI và Y = ‘no’ với tập từ lượng

hóa Q có tính riêng mức 3ℱQ,3

CCI

AGE 0 VV_l V_l LV_l low LL_l L_l VL_l Medium VL_h L_h LL_h High LV_h V_h VV_h 1

Ab_y V_f4 00 few8 few8 LL_f10 V_f4 few8 V_f4 few8 00 V_f4 V_f4 few8 LV_f6 LV_f6 00 VV_f2

VV_y V_f4 00 few8 few8 LL_f10 LV_f6 few8 V_f4 few8 VV_f2 V_f4 V_f4 LV_f6 V_f4 LV_f6 00 VV_f2

V_y V_f4 00 few8 few8 L_f12 LV_f6 few8 V_f4 few8 V_f4 LV_f6 V_f4 few8 V_f4 V_f4 00 00

LV_y V_f4 00 few8 few8 L_f12 few8 few8 V_f4 few8 V_f4 few8 V_f4 few8 V_f4 V_f4 00 00

young V_f4 00 few8 few8 L_f12 few8 few8 V_f4 LL_f10 V_f4 few8 V_f4 few8 V_f4 V_f4 00 00

LL_y V_f4 00 few8 few8 L_f12 few8 L_f12 few8 VL_f14 few8 few8 LV_f6 few8 VV_f2 V_f4 00 00

L_y V_f4 00 few8 few8 L_f12 few8 L_f12 few8 L_f12 few8 few8 LV_f6 few8 V_f4 V_f4 00 00

Bảng 3.5: Phân phối ngôn ngữ của nhóm mờxác định bởi điều kiện “(JOB IS ‘student’) AND (AGE IS x)” đối với thuộc tính CCI và Y = ‘no’ với tập từ lượng

hóa Q có tính riêng mức 4ℱQ,s

CCI

AGE 0 VV_l V_l LV_l low LL_l L_l VL_l Medium VL_h L_h LL_h High LV_h V_h VV_h 1

Ab_y V_f4 00 few8 few8 LL_f10 LLV_f5 few8 V_f4 few8 00 V_f4 V_f4 few8 LV_f6 LV_f6 00 VV_f2

VV_y LVV_f3 00 few8 few8 LL_f10 LV_f6 few8 V_f4 few8 VV_f2 V_f4 V_f4 VLV_f7LLV_f5 LV_f6 00 VV_f2

V_y V_f4 00 few8 few8 LLL_f11 LV_f6 few8 V_f4 few8 V_f4 LV_f6 V_f4 few8 V_f4 V_f4 00 00

LV_y V_f4 00 few8 few8 L_f12 VLV_f7 few8 V_f4 VLL_f9 V_f4 VLV_f7 V_f4 few8 V_f4 V_f4 00 00

young V_f4 00 few8 few8 LLL_f11 few8 VLL_f9 LLV_f5 LL_f10 LLV_f5 few8 V_f4 VLV_f7 V_f4 V_f4 00 00

LL_y V_f4 00 few8 few8 L_f12 few8 LLL_f11 few8 LVL_f13 few8 VLL_f9 LV_f6 few8 LVV_f3 V_f4 00 00

L_y V_f4 00 few8 few8 L_f12 few8 LLL_f11 few8 L_f12 few8 few8 LV_f6 few8 V_f4 V_f4 00 00

3.3.6.3. Phân tích kết quả

Các Bảng 3.2 đến Bảng 3.5 biểu diễn phân phối ngôn ngữ của biến ngôn ngữ này đối với biến ngôn ngữ khác là một cách biểu diễn hữu ích mối quan hệ giữa các biến. Các ô có màu xanh càng đậm, tương ứng chỉ số thứ tự càng lớn, biểu diễn định

lượng số càng lớn. Các ô này tương ứng với câu tóm tắt cung cấp càng nhiều thông tin về tập dữ liệu.

Vì kết quả của phương pháp LSMd Mls đã đề xuất có tính mở rộng được, do

đó Mls bảo toàn các câu tóm tắt SL khi LFoC của từlượng hóa ℱQ,ktăng trưởng từ k

= 3 lên k = 4. Do đó, các từ lượng hóa trong các câu tóm tắt mới ở mức tính riêng 4, phần thân câu tóm tắt không thay đổi. So sánh giữa Bảng 3.2 và Bảng 3.3 cùng mô tả vềnhóm JOB = ‘student’ và Y = ‘yes’, có 19 câu tóm tắt mà từlượng hóa được cập nhật từ mức thấp hơn lên mức tính riêng cao hơn ở mức 4. Tương tự, so sánh giữa Bảng 3.4 và Bảng 3.5 có 18 câu tóm tắt có từ lượng hóa ở mức 4, đây là các

về mức độ thông tin được cung cấp từ câu tóm tắt trong mục 3.3.1, khi hai câu tóm tắt có cùng phần thân, câu tóm tắt chứa từ lượng hóa ở mức tính riêng cao hơn sẽ

cung cấp nhiều thông tin hơn. Do đó, việc mở rộng LFoC của Q giúp cho nâng cấp phân phối ngôn ngữđể có nhiều thông tin hơn về tập dữ liệu. Xét về mặt toán học,

khi càng tăng tính riêng của LFoC Q, càng thu được phân phối ngôn ngữ tốt hơn. Như vậy, qua kết quả thí nghiệm cho thấy, càng tăng tính riêng của LFoC của từ lượng hóa Q, phương pháp LSMd Mls có thể trích rút tập các câu tóm tắt có nhiều thông tin hơn. Đồng thời, phân phối ngôn ngữ mới có thể cung cấp càng nhiều thông tin hữu ích cho người dùng ra quyết định.

Một phần của tài liệu Luận án Tiến sĩ Tóm tắt dữ liệu bằng ngôn ngữ theo cách tiếp cận đại số gia tử (Trang 107 - 111)

Tải bản đầy đủ (PDF)

(148 trang)