CHƯƠNG 1 MỘT SỐ KIẾN THỨC CƠ SỞ
3.2. Phương pháp trích rút câu tóm tắt dựa trên lý thuyết Đại số gia tử
Trong phần này, luận án trình bày một phương pháp mới trích rút câu tóm tắt LSMd (Linguistic Summarization Method), ký hiệu là Mls. Trong đó, Mls tính tốn với các tập mờ được sinh ra bởi thủ tục HA-TFS-MG đã đề xuất trong mục 2.5.1 ở Chương 2. Do đó, phương pháp đề xuất Mls có khả năng tương tác trực tiếp với ngữ nghĩa định tính của các hạng từ trong miền hạng từ ngơn ngữ của các thuộc tính. Điều này sẽ đảm bảo câu tóm tắt SL được trích rút từ cơ sở dữ liệu biểu diễn đúng đắn nội dung thông tin được lưu trữ trong cơ sở dữ liệu. Đây là điểm khác biệt của phương pháp trích rút câu tóm tắt Mls dựa trên lý thuyết ĐSGT so với các phương pháp đã có.
3.2.1.Các thành phần chính trong phương pháp đề xuất
Phương pháp Mls bao gồm ba thành phần chính được minh họa trong Hình 3.1. Trong đó, thành phần thứ nhất xác định tham số đầu vào là các cấu trúc ĐSGT cho các thuộc tính A của cơ sở dữ liệu D và biến từ lượng hóa Q. Mỗi cấu trúc ĐSGT bao gồm tập hạng từ ngôn ngữ cùng ngữ nghĩa định tính của chúng, bộ tham số định lượng và mức tính riêng của khung nhận thức ngơn ngữ. Trong thành phần thứ hai là sản sinh các tập mờ từ bộ tham số đã cho trong thành phần thứ nhất. Việc này được thực hiện bằng sử dụng thủ tục HA-TFS-MG đã đề xuất trong mục 2.5 của chương 2. Hai thành phần này thực hiện việc phân chia miền tham chiếu của các thuộc tính bởi các tập mờ. Chúng tạo ra sự khác biệt của phương pháp LSMd
Mls đề xuất so với các phương pháp dựa trên lý thuyết tập mờ. Thành phần thứ ba là sử dụng thuật tốn trích rút câu tóm tắt như trong các nghiên cứu đã có. Điểm mới là các thuật tốn sẽ tính tốn với các tập mờ được sản sinh từ thành phần 2. Trong chương 2, luận án đã chứng minh rằng các tập mờ này đảm bảo tính giải nghĩa và có khả năng mở rộng. Do đó, kết quả thu được là tập các câu tóm cũng được đảm bảo tính giải nghĩa nội dung thơng tin và tương thích với sự mở rộng của tập hạng từ ngôn ngữ của các thuộc tính.
Thành phần 1: Khởi tạo tham số đầu vào
Vì phương pháp LSMd Mlsđề xuất tương tác trực tiếp với hạng từ ngôn ngữ trong khung nhận thức của các thuộc tính cần xem xét, việc xác định cú pháp và ngữ nghĩa của các thuộc tính trong D là quan trọng. Thành phần này đóng vai trị như giao diện giữa cơ sở dữ liệu D với các chuyên gia, người quản trị, người quản lý. Đây là những người cần thiết trong xác định cú pháp, ngữ nghĩa định tính, ngữ nghĩa định lượng của các khung nhận thức. Các nhiệm vụ chính trong thành phần này như sau:
Nhiệm vụ 1: Cung cấp dữ liệu cần thiết để điều khiển cú pháp và ngữ nghĩa định tính của các từ trong miền hạng từ mỗi thuộc tính A (bao gồm cả biến từ lượng hóa Q). Các dữ liệu cần thiết gồm có:
Hình 3.1: Các thành phần chính trong phương pháp trích rút tóm tắt bằng ngơn ngữ dựa trên lý thuyết Đại số gia tử
o Các gia tử âm và gia tử dương trong hai tập H– và H+; các hạng từ nguyên thủy (hay hạng từ sinh) c– và c+; dấu của các gia tử, dấu của hạng từ sinh. Các dữ liệu này được xác định bởi người quản trị cơ sở dữ liệu.
o Bảng dấu quan hệ của gia tử đối với gia tử.
o Số nguyên κ chỉ mức tính riêng lớn nhất của hạng từ trong LFoC cần xem xét và các giá trị số của bộ tham số tính mờ cho thuộc tính A.
Những dữ liệu này được coi là đầu vào cho nhiệm vụ tiếp theo.
Nhiệm vụ 2: Trang bị một thủ tục sinh ra một cấu trúc phân cấp 𝑭≤𝜅,G = (ℱκ, ≤,
G) cho LFoC của thuộc tính A (bao gồm cả biến từ lượng hóa Q). Trong đó, số nguyên κ là tham số chỉ mức tính riêng của ℱA,κ, được xác định bởi người quản trị cơ sở dữ liệu để xác định kích thước của LFoC. Cấu trúc hình thức 𝑭≤𝜅,Gđược coi là đầu vào cho bước tiếp theo để xây dựng cấu trúc tập mờ phân cấp biểu diễn cấu trúc phân cấp 𝑭≤𝜅,Gcủa LFoC ℱA,κ.
Nhiệm vụ 3: Xác định các giá trị số của bộ tham số tính mờ của mỗi thuộc tính A và của từ lượng hóa Q. Các giá trị này được xác định bởi người quản trị cơ sở dữ liệu và rất quan trọng để xác định ngữ nghĩa định tính của A, các tập mờ hình thang được gán cho các hạng từ trong LFoC. Do đó, các giá trị này cần được xác
định một cách cẩn thận bởi một nhóm các chuyên gia. Chúng cũng là đầu vào cho nhiệm vụ tiếp theo.
Nhiệm vụ 4: Phương pháp trích rút tóm tắt Mls được trang bị một thủ tục để xử lý sự tăng trưởng của mỗi LFoC ℱA,κ khi tăng tính riêng κ của nó được u cầu. Thủ tục này có thể duy trì khả năng mở rộng ngữ nghĩa của LFoC, tức là ngữ nghĩa của các từ hiện tại trong ℱA,κ được bảo toàn khi thêm các hạng từ có tính riêng lớn hơn κ vào ℱA,κ.
Thành phần 2: Sản sinh các tập mờ
Thành phần này thực hiện nhiệm vụ sản sinh cấu trúc các tập mờ phân cấp
T(ℱA,κ) để biểu diễn ngữ nghĩa của các hạng từ trong ℱA,κ cho thuộc tính A và từ lượng hóa Q. Khác với các phương pháp trích rút tóm tắt đã có, trong đó người phát triển hệ thống xây dựng các tập mờ biểu diễn ngữ nghĩa của các tập hạng từ cho một cơ sở dữ liệu xác định dựa trên trực giác của họ, phương pháp được đề xuất ở đây Mls được trang bị một thủ tục để xây dựng các tập mờ hình thang cho các hạng từ trong LFoC. Do đó, thủ tục phải được phát triển để thực hiện xây dựng cấu trúc các tập mờ phân cấp mong muốn T(ℱκ) = (T(ℱκ), ≼, ). Cấu trúc này biểu diễn cấu trúc đa ngữ nghĩa của LFoC ℱA,κ tương ứng được mơ hình hóa bởi 𝑭≤𝜅,G = (ℱκ, ≤, G) cho các thuộc tính A và biến từ lượng hóa Q.
Đầu vào của thủ tục xây dựng tập mờ hình thang gồm có:
o Các dữ liệu vào như trong thành phần 1 nêu trên, bao gồm các giá trị tham số tính mờ độc lập.
o Cấu trúc hình thức hóa của 𝑭≤𝜅,G = (ℱκ, ≤, G).
Thủ tục HA-TFS-MG trong mục 2.5.1 trong chương 2 được sử dụng trong thành phần này. Đầu ra của thủ tục được minh họa trong Hình 2.3, với κ = 3, có thể được biểu diễn bởi mảng hai chiều của các tập mờ hình thang Tr() đã được cấu trúc ở dạng đa thể như sau:
{(xkj, Tr(xkj)): j = 1, …, jk; k = 1, …, κA} (3.3) Trong đó, xkj ∈FA,κ, và Tr(xkj) là hình thang biểu diễn ngữ nghĩa bởi bộ ba (a,
b, c) (b là đáy nhỏ, [a, c] là đáy lớn).
Khi các tập mờ tương ứng với các hạng từ của miền hạng từ của các thuộc tính trong cơ sở dữ liệu D và biến từ lượng hóa Q được xây dựng, chúng ta có thể áp dụng các giải thuật trích rút tóm tắt tính tốn với các tập mờ để khai phá các câu tóm tắt từ D.
Boran và cộng sự [90] đã chỉ ra rằng bước quan trọng nhất trong trích rút tóm tắt bằng ngơn ngữ sử dụng các tập mờ là tính tốn độ đo đánh giá mức độ đúng đắn
T. Tùy thuộc vào kiểu tập mờ (tập mờ loại 1 hoặc tập mờ loại 2) và kiểu lực lượng của tập tham chiếu (tập đếm được hoặc tập không đếm được) để phân loại các phương pháp. Có một số phương pháp tính T đã được chỉ ra như tính theo cơng thức của Zadeh, gộp nhập có trọng số OWA của Yager, phương pháp G của Delgado,…Ví dụ tại mục 1.3.2 trong chương 1 thực hiện áp dụng phương pháp tính
T theo cơng thức đề xuất bởi Zadeh cho các mệnh đề mờ có từ lượng hóa. Điểm chung của các phương pháp là đều sử dụng hàm thuộc của các tập mờ trong công thức. Thủ tục HA-TFS-MG sản sinh các tập mờ loại 1 dạng hình thang. Do đó, sau khi đã thiết kế được các tập mờ biểu diễn ngữ nghĩa cho các hạng từ thì có thể áp dụng bất kỳ phương pháp tính tốn T sử dụng các hàm thuộc của tập mờ loại 1. Trong nghiên cứu của luận án, công thức (1.6) và (1.7) theo đề xuất của Zadeh được lựa chọn để tính giá trị đúng đắn T.
3.2.2.Tính mở rộng được của phương pháp đề xuất
Tập các câu tóm tắt đã được trích rút được xem như cơ sở tri thức của con người về tập dữ liệu D, ký hiệu là KBD, nên tập này có khả năng mở rộng. Do đó, phương pháp đề xuất Mlscũng phải có khả năng xử lý sự tăng trưởng của LFoC của các thuộc tính (chính là tập từ vựng) và cơ sở tri thức KBD của D. Tức là khi kích thước của một số LFoC tăng lên, các câu tóm tắt đã được trích rút từ D bởi Mls vẫn được bảo tồn ngữ nghĩa. Khi đó, phương pháp trích rút tóm tắt được gọi là có khả năng mở rộng. Tính chất này được khẳng định thông qua định lý sau:
Định lý 3.1: Nếu sử dụng giá trị đúng đắn của câu tóm tắt để xác định xem
câu tóm tắt có là đầu ra của phương pháp trích rút, tức là chỉ phụ thuộc vào độ hỗ trợ của cơ sở dữ liệu cho trước đối với các tập mờ biểu diễn ngữ nghĩa của các hạng từ trong LFoC của các thuộc tính, thì phương pháp trích rút tóm tắt đề xuất Mls có khả năng mở rộng.
Chứng minh
Tính đúng đắn của định lý là hệ quả trực tiếp của khẳng định (ii) trong Định lý 2.3. Tức là, khi các tập mờ biểu diễn ngữ nghĩa cho các từ đã có trong các LFoC khơng bị thay đổi khi bổ sung thêm các từ có tính riêng lớn hơn, thì độ hỗ trợ của cơ sở dữ liệu đối với các tập mờ đã có khơng thay đổi. Theo giả thiết của định lý, độ đo giá trị đúng đắn của các câu tóm tắt đã được trích rút cũng khơng thay đổi. Tức là chúng vẫn được coi là đầu ra của q trình trích rút tóm tắt. □