Thí nghiệm 3: Trích rút phân phối ngơn ngữ cho các nhóm mờ

Một phần của tài liệu Luận án tóm tắt dữ liệu bằng ngôn ngữ theo cách tiếp cận đại số gia tử (Trang 107 - 111)

CHƯƠNG 1 MỘT SỐ KIẾN THỨC CƠ SỞ

3.3. Thực nghiệm

3.3.6. Thí nghiệm 3: Trích rút phân phối ngơn ngữ cho các nhóm mờ

3.3.6.1.Kịch bản thí nghiệm

Trong thí nghiệm này, tiếp tục áp dụng phương pháp LSMd Mls trên cơ sở dữ liệu BM để trích rút các phân phối ngơn ngữ theo các nhóm mờ (thay vì nhóm rõ như trong thí nghiệm 1 và thí nghiệm 2) đối với thuộc tính mờ khác. Cấu trúc câu tóm tắt SL được chọn theo mẫu câu sau:

Qo’s that are o(JOB is j) AND o(AGE is x),

are o(CCI is y) AND o(Y is ‘yes’/’no’)” (3.10) Với QℱQ,k, j  Dom(JOB), xℱAGE,3, y ℱCCI,3

Trong thí nghiệm này, thực hiện cố định mức tính riêng của thuộc tính AGE, CCI là 3. Trong khi đó, thí nghiệm thực hiện lần lượt 2 bước tương ứng với 2 mức tính riêng của LFoC của từ lượng hóa ℱQ,k. Cụ thể như sau:

o Bước 1: Mức tính riêng LFoC của Q là 3. Phương pháp LSMd Mls chạy trên cơ sở dữ liệu DM để trích rút các phân phối ngơn ngữ của nhóm mờ gồm các khách hàng có nghề nghiệp xác định và theo các độ tuổi khác nhau đối với thuộc tính CCI.

o Bước 2: Tập từ lượng hóa tăng trưởng từ ℱQ,3 thành ℱQ,4. Vì các LFoC của thuộc tính AGE và CCI giữ nguyên, theo điều kiện (C1) và (C2) trong mục 3.3.1, phương pháp LSMd Mls không cần thực hiện lại tồn bộ q trình trích rút tóm tắt mà chỉ cần xác định xem có cần cập nhật từ lượng hóa trong các câu tóm tắt đã có bởi một từ lượng hóa ở mức 4 hay khơng? Do đó, LSMd Mlschỉ cần thực hiện các cơng việc sau:

• Vì LFoC của thuộc tính AGE và CCI được giữ nguyên, tức là các thân câu tóm tắt (bao gồm phần điều kiện lọc và phần kết luận) đã được xác định. Như vậy, phương pháp LSMd Mlsđã tính tốn được giá trị hỗ trợ cho các thân câu tóm tắt trong bước 1. Các giá trị này được tính tốn với các từ lượng hóa mới ở mức 4 để xem có làm tăng giá trị T hoặc khơng làm tăng T nhưng tăng tính riêng của Q. Nếu có, câu tóm tắt sẽ được thay thế thành phần Q bởi một từ lượng hóa có mức tính riêng 4.

• Thực hiện cập nhật lại bảng phân phối ngôn ngữ bởi từ lượng hóa ở mức tính riêng lớn hơn (mức 4).

3.3.6.2.Kết quả thí nghiệm

Kết quả phân phối ngơn ngữ cho nhóm khách hàng thỏa điều kiện “JOB = ‘student’” được trích rút bởi Mls, sử dụng ℱQ,3, được trình bày lần lượt trong Bảng 3.2 đến Bảng 3.5. Khi ℱQ,3 mở rộng thành ℱQ,4, phương pháp LSMd Mls chỉ cần xem xét các câu tóm tắt SL đã được trích rút ở bước 1 đang trong Bảng 3.2 và Bảng 3.4 để có thể thay thế hạng từ lượng hóa bởi một từ ở mức 4 hay không. Các câu tóm tắt mới được cập nhật và kết quả trình bày trong Bảng 3.3 và Bảng 3.5. Cấu trúc của Bảng 3.2 đến Bảng 3.5 như sau:

o Ơ góc trên bên trái là tiêu đề cho dịng đầu tiên và cột đầu tiên. Các ơ cịn lại trong dòng đầu tiên lần lượt theo thứ tự tăng dần của 17 hạng từ trong LFoC ℱCCI,(3) của thuộc tính CCI. Các ơ còn lại trong cột đầu tiên lần lượt theo thứ tự tăng dần của các hạng từ trong LFoC ℱAGE,3 của thuộc tính AGE. Bảng kết quả chỉ trình bày các câu tóm tắt tương ứng với các hạng từ trong ℱAGE,3 có độ hỗ trợ lớn hơn 0.1, tức là các nhóm khách hàng trong độ tuổi phổ biến trên ngưỡng xác định. Thông thường đây là các nhóm khách

hàng cần quan tâm hơn. Các nhóm tuổi cịn lại tương ứng có số lượng khách hàng dưới ngưỡng sẽ khơng được trình bày trong bảng để giảm số dịng của bảng.

o Mỗi ơ trong bảng tại dịng tương ứng AGE = x và CCI = y chính là từ lượng hóa trong câu tóm tắt theo mẫu (3.10) mà JOB = ‘student’, Y = ‘yes’ đối với Bảng 3.2, Bảng 3.3, Y = ‘no’ đối với Bảng 3.4, Bảng 3.5.

o Thí nghiệm xem xét tập từ lượng hóa đến mức tính riêng 4. Nên mỗi từ lượng hóa trong Bảng 3.2 đến Bảng 3.5 có chỉ số nhỏ tương ứng là chỉ số thứ tự trong LFoC ℱQ,4 chứa 33 từ lượng hóa. Cụ thể, thứ tự ngữ nghĩa và chỉ số của 33 từ lượng hóa là: 00VVVf1 VVf2LVVf3 Vf4LLVf5

LVf6VLVf7 few8VLLf9 LLf10LLLf11 Lf12LVLf13 VLf14VVL- f15 half16VVLm17 VLm18LVLm19Lm20LLLm21 LLm22

VLLm23 m24VLVm25 LVm26LLVm27 Vm28LVVm29 VVm30

VVVm31 ≤ 132.

Bảng 3.2: Phân phối ngơn ngữ của nhóm mờ xác định bởi điều kiện “(JOB IS ‘student’) AND (AGE IS x)” đối với thuộc tính CCI và Y = ‘yes’ với tập từ lượng

hóa Q có tính riêng mức 3 ℱQ,3

CCI AGE

0 VV_lV_lLV_llowLL_lL_lVL_lMedium VL_hL_hLL_hHigh LV_hV_hVV_h1

Ab_yVV_f2 00 V_f4 V_f4 V_f4 00 VV_f2 VV_f2 LV_f6 00 V_f4 VV_f2 V_f4 V_f4 V_f4 00 VV_f2 VV_yVV_f2 00 VV_f2 VV_f2 V_f4 00 VV_f2 V_f4 few4 00 V_f4 V_f4 V_f4 V_f4 V_f4 00 V_f4 V_yVV_f2 00 VV_f2 VV_f2 V_f4 00 VV_f2 VV_f2 LV_f6 00 VV_f2 VV_f2 V_f4 V_f4 V_f4 00 00 LV_yVV_f2 00 VV_f2 VV_f2 V_f4 00 VV_f2 VV_f2 LV_f6 00 VV_f2 VV_f2 V_f4 V_f4 V_f4 00 00 youngVV_f2 00 VV_f2 VV_f2 VV_f2 00 VV_f2 VV_f2 LV_f6 00 VV_f2 VV_f2 V_f4 VV_f2 VV_f2 00 00 LL_yVV_f2 00 VV_f2 00 V_f4 00 VV_f2 VV_f2 LV_f6 00 V_f4 VV_f2 V_f4 00 VV_f2 00 00 L_y VV_f2 00 VV_f2 00 V_f4 00 VV_f2 VV_f2 LV_f6 00 V_f4 VV_f2 V_f4 00 VV_f2 00 00

Bảng 3.3: Phân phối ngơn ngữ của nhóm mờ xác định bởi điều kiện “(JOB IS ‘student’) AND (AGE IS x)” đối với thuộc tính CCI và Y = ‘yes’ với tập từ lượng

hóa Q có tính riêng mức 4 ℱQ,4

CCI AGE

0 VV_lV_lLV_llowLL_lL_lVL_lMedium VL_hL_hLL_hHigh LV_hV_hVV_h1

Ab_yLVV_f3 00 V_f4 V_f4 V_f4 00 VV_f2 VV_f2 VLV_f7 00 V_f4 LVV_f3 V_f4 V_f4 V_f4 00 LVV_f3 VV_yVV_f2 00 VV_f2 VV_f2 V_f4 00 LVV_f3 V_f4 few8 00 V_f4 LVV_f3 V_f4 V_f4 V_f4 00 V_f4 V_yVV_f2 00 VV_f2 VV_f2 LVV_f3 00 VV_f2 VV_f2 LV_f6 00 VV_f2 VV_f2 V_f4 LVV_f3 V_f4 00 00 LV_yVV_f2 00 VV_f2 VV_f2 LVV_f3 00 VV_f2 VV_f2 LV_f6 00 LVV_f3 VV_f2 V_f4 LVV_f3 V_f4 00 00 youngVV_f2 00 VV_f2 VV_f2 LVV_f3 00 VV_f2 VV_f2 LV_f6 00 LVV_f3 VV_f2 V_f4 VV_f2 LVV_f3 00 00 LL_yVV_f2 00 VV_f2 00 LVV_f3 00 VV_f2 VV_f2 LV_f6 VVV_f1 V_f4 VV_f2 V_f4 VVV_f1 VV_f2 00 00 L_y VV_f2 00 VV_f2 00 LVV_f3 00 LVV_f3 VV_f2 LV_f6 00 V_f4 VV_f2 V_f4 00 VV_f2 00 00

Bảng 3.4: Phân phối ngơn ngữ của nhóm mờ xác định bởi điều kiện “(JOB IS ‘student’) AND (AGE IS x)” đối với thuộc tính CCI và Y = ‘no’ với tập từ lượng

hóa Q có tính riêng mức 3 ℱQ,3 CCI

AGE 0 VV_lV_lLV_llowLL_lL_lVL_lMedium VL_hL_hLL_hHigh LV_hV_hVV_h1

Ab_yV_f4 00 few8 few8 LL_f10 V_f4 few8 V_f4 few8 00 V_f4 V_f4 few8 LV_f6 LV_f6 00 VV_f2

VV_yV_f4 00 few8 few8 LL_f10 LV_f6 few8 V_f4 few8 VV_f2 V_f4 V_f4 LV_f6 V_f4 LV_f6 00 VV_f2

V_yV_f4 00 few8 few8 L_f12 LV_f6 few8 V_f4 few8 V_f4 LV_f6 V_f4 few8 V_f4 V_f4 00 00

LV_yV_f4 00 few8 few8 L_f12 few8 few8 V_f4 few8 V_f4 few8 V_f4 few8 V_f4 V_f4 00 00

youngV_f4 00 few8 few8 L_f12 few8 few8 V_f4 LL_f10 V_f4 few8 V_f4 few8 V_f4 V_f4 00 00

LL_yV_f4 00 few8 few8 L_f12 few8 L_f12 few8 VL_f14 few8 few8 LV_f6 few8 VV_f2 V_f4 00 00

L_y V_f4 00 few8 few8 L_f12 few8 L_f12 few8 L_f12 few8 few8 LV_f6 few8 V_f4 V_f4 00 00

Bảng 3.5: Phân phối ngơn ngữ của nhóm mờ xác định bởi điều kiện “(JOB IS ‘student’) AND (AGE IS x)” đối với thuộc tính CCI và Y = ‘no’ với tập từ lượng

hóa Q có tính riêng mức 4 ℱQ,s CCI

AGE 0 VV_lV_lLV_llowLL_lL_lVL_lMedium VL_hL_hLL_hHigh LV_hV_hVV_h1

Ab_yV_f4 00 few8 few8 LL_f10 LLV_f5 few8 V_f4 few8 00 V_f4 V_f4 few8 LV_f6 LV_f6 00 VV_f2

VV_yLVV_f3 00 few8 few8 LL_f10 LV_f6 few8 V_f4 few8 VV_f2 V_f4 V_f4 VLV_f7LLV_f5 LV_f6 00 VV_f2

V_yV_f4 00 few8 few8 LLL_f11 LV_f6 few8 V_f4 few8 V_f4 LV_f6 V_f4 few8 V_f4 V_f4 00 00

LV_yV_f4 00 few8 few8 L_f12 VLV_f7 few8 V_f4 VLL_f9 V_f4 VLV_f7 V_f4 few8 V_f4 V_f4 00 00

youngV_f4 00 few8 few8 LLL_f11 few8 VLL_f9 LLV_f5 LL_f10 LLV_f5 few8 V_f4 VLV_f7 V_f4 V_f4 00 00

LL_yV_f4 00 few8 few8 L_f12 few8 LLL_f11 few8 LVL_f13 few8 VLL_f9 LV_f6 few8 LVV_f3 V_f4 00 00

L_y V_f4 00 few8 few8 L_f12 few8 LLL_f11 few8 L_f12 few8 few8 LV_f6 few8 V_f4 V_f4 00 00

3.3.6.3.Phân tích kết quả

Các Bảng 3.2 đến Bảng 3.5 biểu diễn phân phối ngôn ngữ của biến ngôn ngữ này đối với biến ngơn ngữ khác là một cách biểu diễn hữu ích mối quan hệ giữa các biến. Các ơ có màu xanh càng đậm, tương ứng chỉ số thứ tự càng lớn, biểu diễn định lượng số càng lớn. Các ô này tương ứng với câu tóm tắt cung cấp càng nhiều thơng tin về tập dữ liệu.

Vì kết quả của phương pháp LSMd Mls đã đề xuất có tính mở rộng được, do đó Mls bảo tồn các câu tóm tắt SL khi LFoC của từ lượng hóa ℱQ,k tăng trưởng từ k

= 3 lên k = 4. Do đó, các từ lượng hóa trong các câu tóm tắt mới ở mức tính riêng 4, phần thân câu tóm tắt khơng thay đổi. So sánh giữa Bảng 3.2 và Bảng 3.3 cùng mơ tả về nhóm JOB = ‘student’ và Y = ‘yes’, có 19 câu tóm tắt mà từ lượng hóa được cập nhật từ mức thấp hơn lên mức tính riêng cao hơn ở mức 4. Tương tự, so sánh giữa Bảng 3.4 và Bảng 3.5 có 18 câu tóm tắt có từ lượng hóa ở mức 4, đây là các câu tóm tắt được cập nhật từ lượng hóa khi mở rộng LFoC của Q. Như đã thảo luận

về mức độ thông tin được cung cấp từ câu tóm tắt trong mục 3.3.1, khi hai câu tóm tắt có cùng phần thân, câu tóm tắt chứa từ lượng hóa ở mức tính riêng cao hơn sẽ cung cấp nhiều thơng tin hơn. Do đó, việc mở rộng LFoC của Q giúp cho nâng cấp phân phối ngơn ngữ để có nhiều thơng tin hơn về tập dữ liệu. Xét về mặt toán học, khi càng tăng tính riêng của LFoC Q, càng thu được phân phối ngôn ngữ tốt hơn.

Như vậy, qua kết quả thí nghiệm cho thấy, càng tăng tính riêng của LFoC của từ lượng hóa Q, phương pháp LSMd Mls có thể trích rút tập các câu tóm tắt có nhiều thơng tin hơn. Đồng thời, phân phối ngơn ngữ mới có thể cung cấp càng nhiều thơng tin hữu ích cho người dùng ra quyết định.

Một phần của tài liệu Luận án tóm tắt dữ liệu bằng ngôn ngữ theo cách tiếp cận đại số gia tử (Trang 107 - 111)

Tải bản đầy đủ (PDF)

(148 trang)