Các thành phần chính trong phương pháp đề xuất

Một phần của tài liệu Tóm tắt dữ liệu bằng ngôn ngữ theo cách tiếp cận đại số gia tử (Trang 90 - 93)

Phương pháp Mls bao gồm ba thành phần chính được minh họa trong Hình 3.1. Trong đó, thành phần thứ nhất xác định tham số đầu vào là các cấu trúc ĐSGT cho các thuộc tính A của cơ sở dữ liệu D và biến từ lượng hóa Q. Mỗi cấu trúc ĐSGT bao gồm tập hạng từ ngôn ngữ cùng ngữ nghĩa định tính của chúng, bộ tham số định lượng và mức tính riêng của khung nhận thức ngôn ngữ. Trong thành phần thứ hai là sản sinh các tập mờ từ bộ tham số đã cho trong thành phần thứ nhất. Việc này được thực hiện bằng sử dụng thủ tục HA-TFS-MG đã đề xuất trong mục 2.5 của chương 2. Hai thành phần này thực hiện việc phân chia miền tham chiếu của các thuộc tính bởi các tập mờ. Chúng tạo ra sự khác biệt của phương pháp LSMd Mls đề xuất so với các phương pháp dựa trên lý thuyết tập mờ. Thành phần thứ ba là sử dụng thuật toán trích rút câu tóm tắt như trong các nghiên cứu đã có. Điểm mới là các thuật toán sẽ tính toán với các tập mờ được sản sinh từ thành phần 2. Trong chương 2, luận án đã chứng minh rằng các tập mờ này đảm bảo tính giải nghĩa và có khả năng mở rộng. Do đó, kết quả thu được là tập các câu tóm cũng được đảm bảo tính giải nghĩa nội dung thông tin và tương thích với sự mở rộng của tập hạng từ ngôn ngữ của các thuộc tính.

Thành phần 1: Khởi tạo tham số đầu vào

Vì phương pháp LSMd Mlsđề xuất tương tác trực tiếp với hạng từ ngôn ngữ trong khung nhận thức của các thuộc tính cần xem xét, việc xác định cú pháp và ngữ nghĩa của các thuộc tính trong D là quan trọng. Thành phần này đóng vai trò như giao diện giữa cơ sở dữ liệu D với các chuyên gia, người quản trị, người quản lý. Đây là những người cần thiết trong xác định cú pháp, ngữ nghĩa định tính, ngữ nghĩa định lượng của các khung nhận thức. Các nhiệm vụ chính trong thành phần này như sau:

Nhiệm vụ 1: Cung cấp dữ liệu cần thiết để điều khiển cú pháp và ngữ nghĩa định tính của các từ trong miền hạng từ mỗi thuộc tính A (bao gồm cả biến từ lượng hóa Q). Các dữ liệu cần thiết gồm có:

Hình 3.1: Các thành phần chính trong phương pháp trích rút tóm tắt bằng ngôn ngữ dựa trên lý thuyết Đại số gia tử

o Các gia tử âm và gia tử dương trong hai tập H– và H+; các hạng từ nguyên thủy (hay hạng từ sinh) c– và c+; dấu của các gia tử, dấu của hạng từ sinh. Các dữ liệu này được xác định bởi người quản trị cơ sở dữ liệu.

o Bảng dấu quan hệ của gia tử đối với gia tử.

o Số nguyên κ chỉ mức tính riêng lớn nhất của hạng từ trong LFoC cần xem xét và các giá trị số của bộ tham số tính mờ cho thuộc tính A.

Những dữ liệu này được coi là đầu vào cho nhiệm vụ tiếp theo.

Nhiệm vụ 2: Trang bị một thủ tục sinh ra một cấu trúc phân cấp 𝑭≤𝜅,G = (ℱκ, ≤, G) cho LFoC của thuộc tính A (bao gồm cả biến từ lượng hóa Q). Trong đó, số nguyên κ là tham số chỉ mức tính riêng của ℱA,κ, được xác định bởi người quản trị cơ sở dữ liệu để xác định kích thước của LFoC. Cấu trúc hình thức 𝑭≤𝜅,Gđược coi là đầu vào cho bước tiếp theo để xây dựng cấu trúc tập mờ phân cấp biểu diễn cấu trúc phân cấp 𝑭≤𝜅,Gcủa LFoC ℱA,κ.

Nhiệm vụ 3: Xác định các giá trị số của bộ tham số tính mờ của mỗi thuộc tính A và của từ lượng hóa Q. Các giá trị này được xác định bởi người quản trị cơ sở dữ liệu và rất quan trọng để xác định ngữ nghĩa định tính của A, các tập mờ hình thang được gán cho các hạng từ trong LFoC. Do đó, các giá trị này cần được xác

định một cách cẩn thận bởi một nhóm các chuyên gia. Chúng cũng là đầu vào cho nhiệm vụ tiếp theo.

Nhiệm vụ 4: Phương pháp trích rút tóm tắt Mls được trang bị một thủ tục để xử lý sự tăng trưởng của mỗi LFoC ℱA,κ khi tăng tính riêng κ của nó được yêu cầu. Thủ tục này có thể duy trì khả năng mở rộng ngữ nghĩa của LFoC, tức là ngữ nghĩa của các từ hiện tại trong ℱA,κ được bảo toàn khi thêm các hạng từ có tính riêng lớn hơn κ vào ℱA,κ.

Thành phần 2: Sản sinh các tập mờ

Thành phần này thực hiện nhiệm vụ sản sinh cấu trúc các tập mờ phân cấp

T(ℱA,κ) để biểu diễn ngữ nghĩa của các hạng từ trong ℱA,κ cho thuộc tính A và từ lượng hóa Q. Khác với các phương pháp trích rút tóm tắt đã có, trong đó người phát triển hệ thống xây dựng các tập mờ biểu diễn ngữ nghĩa của các tập hạng từ cho một cơ sở dữ liệu xác định dựa trên trực giác của họ, phương pháp được đề xuất ở đây Mls được trang bị một thủ tục để xây dựng các tập mờ hình thang cho các hạng từ trong LFoC. Do đó, thủ tục phải được phát triển để thực hiện xây dựng cấu trúc các tập mờ phân cấp mong muốn T(ℱκ) = (T(ℱκ), ≼, ). Cấu trúc này biểu diễn cấu trúc đa ngữ nghĩa của LFoC ℱA,κ tương ứng được mô hình hóa bởi 𝑭≤𝜅,G = (ℱκ, ≤, G) cho các thuộc tính A và biến từ lượng hóa Q.

Đầu vào của thủ tục xây dựng tập mờ hình thang gồm có:

o Các dữ liệu vào như trong thành phần 1 nêu trên, bao gồm các giá trị tham số tính mờ độc lập.

o Cấu trúc hình thức hóa của 𝑭≤𝜅,G = (ℱκ, ≤, G).

Thủ tục HA-TFS-MG trong mục 2.5.1 trong chương 2 được sử dụng trong thành phần này. Đầu ra của thủ tục được minh họa trong Hình 2.3, với κ = 3, có thể được biểu diễn bởi mảng hai chiều của các tập mờ hình thang Tr() đã được cấu trúc ở dạng đa thể như sau:

{(xkj, Tr(xkj)): j = 1, …, jk; k = 1, …, κA} (3.3) Trong đó, xkj ∈ FA,κ,Tr(xkj) là hình thang biểu diễn ngữ nghĩa bởi bộ ba (a,

b, c) (b là đáy nhỏ, [a, c] là đáy lớn).

Khi các tập mờ tương ứng với các hạng từ của miền hạng từ của các thuộc tính trong cơ sở dữ liệu D và biến từ lượng hóa Q được xây dựng, chúng ta có thể áp dụng các giải thuật trích rút tóm tắt tính toán với các tập mờ để khai phá các câu tóm tắt từ D.

Boran và cộng sự [90] đã chỉ ra rằng bước quan trọng nhất trong trích rút tóm tắt bằng ngôn ngữ sử dụng các tập mờ là tính toán độ đo đánh giá mức độ đúng đắn

T. Tùy thuộc vào kiểu tập mờ (tập mờ loại 1 hoặc tập mờ loại 2) và kiểu lực lượng của tập tham chiếu (tập đếm được hoặc tập không đếm được) để phân loại các phương pháp. Có một số phương pháp tính T đã được chỉ ra như tính theo công thức của Zadeh, gộp nhập có trọng số OWA của Yager, phương pháp G của Delgado,…Ví dụ tại mục 1.3.2 trong chương 1 thực hiện áp dụng phương pháp tính

T theo công thức đề xuất bởi Zadeh cho các mệnh đề mờ có từ lượng hóa. Điểm chung của các phương pháp là đều sử dụng hàm thuộc của các tập mờ trong công thức. Thủ tục HA-TFS-MG sản sinh các tập mờ loại 1 dạng hình thang. Do đó, sau khi đã thiết kế được các tập mờ biểu diễn ngữ nghĩa cho các hạng từ thì có thể áp dụng bất kỳ phương pháp tính toán T sử dụng các hàm thuộc của tập mờ loại 1. Trong nghiên cứu của luận án, công thức (1.6) và (1.7) theo đề xuất của Zadeh được lựa chọn để tính giá trị đúng đắn T.

Một phần của tài liệu Tóm tắt dữ liệu bằng ngôn ngữ theo cách tiếp cận đại số gia tử (Trang 90 - 93)

Tải bản đầy đủ (PDF)

(148 trang)