Thí nghiệm 3: Trích rút phân phối ngônngữ cho các nhóm mờ

Một phần của tài liệu (Luận án tiến sĩ) tóm tắt dữ liệu bằng ngôn ngữ theo cách tiếp cận đại số gia tử (Trang 111 - 115)

3.3.6.1. Kịch bản thí nghiệm

Trong thí nghiệm này, tiếp tục áp dụng phương pháp LSMd Mls trên cơ sở dữ liệu BM để trích rút các phân phối ngôn ngữ theo các nhóm mờ (thay vì nhóm rõ như trong thí nghiệm 1 và thí nghiệm 2) đối với thuộc tính mờ khác. Cấu trúc câu tóm tắt SL được chọn theo mẫu câu sau:

Qo’s that are o(JOB is j) AND o(AGE is x),

are o(CCI is y) AND o(Y is ‘yes’/’no’)” (3.10) Với QQ,k, j Dom(JOB), x ℱAGE,3, y ℱCCI,3

Trong thí nghiệm này, thực hiện cố định mức tính riêng của thuộc tính AGE, CCI là 3. Trong khi đó, thí nghiệm thực hiện lần lượt 2 bước tương ứng với 2 mức tính riêng của LFoC của từ lượng hóa ℱQ,k. Cụ thể như sau:

o Bước 1: Mức tính riêng LFoC của Q là 3. Phương pháp LSMd Mls

chạy trên cơ sở dữ liệu DM để trích rút các phân phối ngôn ngữ của nhóm mờ gồm các khách hàng có nghề nghiệp xác định và theo các độ tuổi khác nhau đối với thuộc tính CCI.

TIEU LUAN MOI download : skknchat@gmail.com

104

o Bước 2: Tập từ lượng hóa tăng trưởng từ ℱQ,3 thành ℱQ,4. Vì các

LFoC của thuộc tính AGE và CCI giữ nguyên, theo điều kiện (C1) và (C2) trong mục 3.3.1, phương pháp LSMd Mls không cần thực hiện lại toàn bộ quá trình trích rút tóm tắt mà chỉ cần xác định xem có cần cập nhật từ lượng hóa trong các câu tóm tắt đã có bởi một từ lượng hóa ở mức 4 hay không? Do đó, LSMd Mls chỉ cần thực hiện các công việc sau:

• Vì LFoC của thuộc tính AGE và CCI được giữ nguyên, tức là các thân câu tóm tắt (bao gồm phần điều kiện lọc và phần kết luận) đã được xác

định. Như vậy, phương pháp LSMd Mls đã tính toán được giá trị hỗ trợ cho các thân câu tóm tắt trong bước 1. Các giá trị này được tính toán với các từ lượng hóa mới ở mức 4 để xem có làm tăng giá trị T hoặc không làm tăng T nhưng tăng tính riêng của Q. Nếu có, câu tóm tắt sẽ được thay thế thành phần Q bởi một từ lượng hóa có mức tính riêng 4. • Thực hiện cập nhật lại bảng phân phối ngôn ngữ bởi từ lượng hóa ở mức tính riêng lớn hơn (mức 4).

3.3.6.2. Kết quả thí nghiệm

Kết quả phân phối ngôn ngữ cho nhóm khách hàng thỏa điều kiện “JOB = ‘student’” được trích rút bởi Mls, sử dụng ℱQ,3, được trình bày lần lượt trong Bảng3.2 đến

Bảng 3.5. Khi ℱQ,3 mở rộng thành ℱQ,4, phương pháp LSMd Mls chỉ cần xem xét các câu tóm tắt SL đã được trích rút ở bước 1 đang trong Bảng 3.2 và Bảng 3.4 để có thể thay thế hạng từ lượng hóa bởi một từ ở mức 4 hay không. Các câu tóm tắt mới được cập nhật và kết quả trình bày trong Bảng 3.3 và Bảng 3.5. Cấu trúc của Bảng 3.2 đến Bảng 3.5 như sau:

o Ô góc trên bên trái là tiêu đề cho dòng đầu tiên và cột đầu tiên. Các ô còn lại trong dòng đầu tiên lần lượt theo thứ tự tăng dần của 17 hạng từ trong LFoC ℱCCI,(3) của thuộc tính CCI. Các ô còn lại trong cột đầu tiên lần lượt theo thứ tự tăng dần của các hạng từ trong LFoC ℱAGE,3 của thuộc tính AGE. Bảng kết quả chỉ trình bày các câu tóm tắt tương ứng với các hạng từ trong ℱAGE,3 có độ hỗ trợ lớn hơn 0.1, tức là các nhóm khách hàng trong độ tuổi phổ biến trên ngưỡng xác định. Thông thường đây là các nhóm khách

TIEU LUAN MOI download : skknchat@gmail.com

105

hàng cần quan tâm hơn. Các nhóm tuổi còn lại tương ứng có số lượng khách hàng dưới ngưỡng sẽ không được trình bày trong bảng để giảm số dòng của bảng.

o Mỗi ô trong bảng tại dòng tương ứng AGE = x và CCI = y chính là từ lượng hóa trong câu tóm tắt theo mẫu (3.10) mà JOB = ‘student’, Y = ‘yes’ đối với Bảng 3.2, Bảng 3.3, Y = ‘no’ đối với Bảng 3.4, Bảng 3.5.

o Thí nghiệm xem xét tập từ lượng hóa đến mức tính riêng 4. Nên mỗi từ lượng hóa trong Bảng 3.2 đến Bảng 3.5 có chỉ số nhỏ tương ứng là chỉ số thứ tự trong LFoC ℱQ,4 chứa 33 từ lượng hóa. Cụ thể, thứ tự ngữ nghĩa và chỉ số của 33 từ lượng hóa là: 00VVVf1VVf2LVVf3Vf4LLVf5

LVf6VLVf7few8VLLf9LLf10LLLf11Lf12LVLf13VLf14

VVL-f15half16VVLm17VLm18LVLm19Lm20LLLm21LLm22

VLLm23m24VLVm25LVm26LLVm27Vm28LVVm29VVm30

VVVm31132.

Bảng 3.2: Phân phối ngôn ngữ của nhóm mờ xác định bởi điều kiện “(JOB IS ‘student’) AND (AGE IS x)” đối với thuộc tính CCI và Y = ‘yes’ với tập từ lượng

hóa Q có tính riêng mức 3 ℱQ,3 CCI 0 VV_l AGE Ab_y VV_f2 00 VV_y VV_f2 00 V_y VV_f2 00 LV_y VV_f2 00 young VV_f2 00 LL_y VV_f2 00 L_y VV_f2 00

Bảng 3.3: Phân phối ngôn ngữ của nhóm mờ xác định bởi điều kiện “(JOB IS ‘student’) AND (AGE IS x)” đối với thuộc tính

CCI và Y = ‘yes’ với tập từ lượng hóa Q có tính riêng mức 4 ℱQ,4

CCI 0 VV_l AGE Ab_y LVV_f3 00 VV_y VV_f2 00 V_y VV_f2 00 LV_y VV_f2 00 young VV_f2 00 LL_y VV_f2 00 L_y VV_f2 00

TIEU LUAN MOI download : skknchat@gmail.com

106

Bảng 3.4: Phân phối ngôn ngữ của nhóm mờ xác định bởi điều kiện “(JOB IS ‘student’) AND (AGE IS x)” đối với thuộc tính

CCI và Y = ‘no’ với tập từ lượng hóa Q có tính riêng mức 3 ℱQ,3

CCI 0 VV_l AGE Ab_y V_f4 00 VV_y V_f4 00 V_y V_f4 00 LV_y V_f4 00 young V_f4 00 LL_y V_f4 00 L_y V_f4 00

Bảng 3.5: Phân phối ngôn ngữ của nhóm mờ xác định bởi điều kiện “(JOB IS ‘student’) AND (AGE IS x)” đối với thuộc tính

CCI và Y = ‘no’ với tập từ lượng hóa Q có tính riêng mức 4 ℱQ,s

CCI 0 VV_l AGE Ab_y V_f4 00 VV_y LVV_f3 00 V_y V_f4 00 LV_y V_f4 00 young V_f4 00 LL_y V_f4 00 L_y V_f4 00 3.3.6.3. Phân tích kết quả

Các Bảng 3.2 đến Bảng 3.5 biểu diễn phân phối ngôn ngữ của biến ngôn ngữ này đối với biến ngôn ngữ khác là một cách biểu diễn hữu ích mối quan hệ giữa các biến. Các ô có màu xanh càng đậm, tương ứng chỉ số thứ tự càng lớn, biểu diễn định lượng số càng lớn. Các ô này tương ứng với câu tóm tắt cung cấp càng nhiều thông tin về tập dữ liệu.

Vì kết quả của phương pháp LSMd Mls đã đề xuất có tính mở rộng được, do đó Mls bảo toàn các câu tóm tắt SL khi LFoC của từ

lượng hóa ℱQ,k tăng trưởng từ k

= 3 lên k = 4. Do đó, các từ lượng hóa trong các câu tóm tắt mới ở mức tính riêng 4, phần thân câu tóm tắt không thay đổi. So sánh giữa Bảng 3.2 và Bảng 3.3 cùng mô tả về nhóm JOB = ‘student’ và Y = ‘yes’, có 19 câu tóm tắt mà từ lượng hóa được cập nhật từ mức thấp hơn lên mức tính riêng cao hơn ở mức 4. Tương tự, so sánh giữa Bảng 3.4 và Bảng 3.5 có 18 câu tóm tắt có từ lượng hóa ở mức 4, đây là các câu tóm tắt được cập nhật từ lượng hóa khi mở rộng LFoC của Q. Như đã thảo luận

TIEU LUAN MOI download : skknchat@gmail.com

107

về mức độ thông tin được cung cấp từ câu tóm tắt trong mục 3.3.1, khi hai câu tóm tắt có cùng phần thân, câu tóm tắt chứa từ lượng hóa ở mức tính riêng cao hơn sẽ cung cấp nhiều thông tin hơn. Do đó, việc mở rộng LFoC của Q giúp cho nâng cấp phân phối ngôn ngữ để có nhiều thông tin hơn về tập dữ liệu. Xét về mặt toán học, khi càng tăng tính riêng của LFoC Q, càng thu được phân phối ngôn ngữ tốt hơn.

Như vậy, qua kết quả thí nghiệm cho thấy, càng tăng tính riêng của LFoC của từ lượng hóa Q, phương pháp LSMd Mls có thể trích rút tập các câu tóm tắt có nhiều thông tin hơn. Đồng thời, phân phối ngôn ngữ mới có thể cung cấp càng nhiều thông tin hữu ích cho người dùng ra quyết định.

Một phần của tài liệu (Luận án tiến sĩ) tóm tắt dữ liệu bằng ngôn ngữ theo cách tiếp cận đại số gia tử (Trang 111 - 115)

Tải bản đầy đủ (DOCX)

(157 trang)
w