Kết luận chương 1

Một phần của tài liệu Luận án tóm tắt dữ liệu bằng ngôn ngữ theo cách tiếp cận đại số gia tử (Trang 59)

CHƯƠNG 1 MỘT SỐ KIẾN THỨC CƠ SỞ

1.6. Kết luận chương 1

Trong chương này, luận án đã trình bày các kiến thức liên quan khi giải bài tốn trích rút tóm tắt bằng ngơn ngữ từ một cơ sở dữ liệu dựa trên lý thuyết tập mờ. Phương pháp trích rút tóm tắt bằng ngơn ngữ (Linguistic Summarization Method -

LSMd) được coi là một công cụ để khai phá tri thức diễn đạt bằng ngôn ngữ từ tập dữ liệu. Cấu trúc câu tóm tắt có chứa từ lượng hóa được sử dụng có hiệu quả trong nhiều ứng dụng thực tế. Trong các LSMd dựa trên lý thuyết tập mờ để sinh ra các câu tóm tắt diễn đạt bằng ngơn ngữ tự nhiên, việc phân hoạch mờ miền tham chiếu bởi các tập mờ đóng trong đầu vào đóng vai trị quyết định đến tập câu tóm tắt ở đầu ra và tri thức được truyền tải qua nội dung thơng tin của các câu tóm tắt này. Một số vấn đề hạn chế còn tồn tại trong các LSMd dựa trên lý thuyết tập mờ sẽ được giải quyết trong luận án dựa trên phương pháp luận của lý thuyết ĐSGT. Do đó, các kiến thức cơ bản trong lý thuyết ĐSGT đã được trình bày ở phần cuối chương.

Các kiến thức cơ sở trong chương 1 sẽ được sử dụng trong trình bày đề xuất cho phương pháp mới giải bài tốn trích rút tóm tắt bằng ngơn ngữ dựa trên lý thuyết ĐSGT.

CHƯƠNG 2.VẤN ĐỀ NỘI DUNG THƠNG TIN CÂU TĨM TẮT VÀ BIỂU DIỄN TẬP MỜ CỦA MIỀN NGƠN NGỮ THUỘC TÍNH

Đầu ra của bài tốn trích rút tóm tắt bằng ngơn ngữ từ tập dữ liệu là các câu diễn đạt bằng ngôn ngữ tự nhiên theo một mẫu câu được chọn trước. Người dùng giải nghĩa nội dung thông tin các câu tóm tắt dựa trên ngữ nghĩa vốn có của các hạng từ đã được gán cho chúng bởi cộng đồng. Trong khi đó, các hạng từ được chọn vào câu tóm tắt là kết quả tính toán dựa trên các hàm thuộc của các tập mờ được thiết kế để biểu diễn ngữ nghĩa của chúng. Do đó, cần có một phương pháp luận làm cơ sở đảm bảo tính đúng đắn của việc gán các hạng từ ngơn ngữ cho các tập mờ, khi đó mới đảm bảo người dùng nhận được nội dung thông tin đúng đắn về tập dữ liệu thông qua câu tóm tắt được sinh ra từ thuật tốn tương tác với các tập mờ. Trong chương này, luận án trình bày vấn đề nội dung thơng tin của câu tóm tắt; cơ sở phương pháp luận để giải quyết vấn đề này dựa trên khái niệm giải nghĩa được trong logic của Tarski [44]; ý tưởng giải quyết dựa trên lý thuyết ĐSGT. Sau đó, tác giả trình bày các cơ sở phương pháp luận để đề xuất thủ tục HA-TFS-MG xây dựng các tập mờ hình thang từ bộ tham số định lượng của một cấu trúc ĐSGT. Các tập mờ này được chứng minh bảo toàn các quan hệ ngữ nghĩa vốn có của các từ gán cho chúng. Hơn nữa, chúng cũng có khả năng mở rộng tương thích với tính mở rộng được của tập hạng từ ngơn ngữ của miền hạng từ thuộc tính.

2.1.Vai trị của khung nhận thức trong bài tốn trích rút tóm tắt bằng ngôn ngữ dựa trên lý thuyết tập mờ

Phương pháp trích rút tri thức ngơn ngữ dựa trên lý thuyết tập mờ đã được phát triển và chứng tỏ hiệu quả trong lĩnh vực khai phá dữ liệu bởi nó làm cho máy tính có khả năng biểu diễn và lập luận dựa trên tri thức [2]. Để đánh giá hiệu quả của các phương pháp này cần dựa trên các tiêu chí, độ đo định lượng được theo từng mục tiêu khi áp dụng vào giải các bài toán cụ thể.

Xem xét với hai bài toán phân lớp và hồi quy được giải bằng phương pháp sử dụng hệ suy diễn dựa trên luật mờ. Việc xác định khung nhận thức bằng các tập mờ (Frame of Cognition – FoC) (tức là xác định các tập mờ và thực hiện gán nhãn ngôn ngữ cho chúng) cho các miền tham chiếu số của các thuộc tính trong cơ sở dữ liệu đóng vai trị quan trọng. Các nhãn ngôn ngữ này được sử dụng trong các luật mờ.

Các luật mờ này được sử dụng trong một hệ suy diễn để thực hiện phân lớp hoặc lập luận. Hiệu quả của phương pháp được đánh giá dựa trên các độ đo được tính bằng các cơng thức tốn học và kết quả là giá trị số nên dễ dàng trong đánh giá, so sánh hiệu quả giữa phương pháp. Ví dụ, khi giải bài tốn phân lớp, hiệu quả được đánh giá bằng tỷ lệ phân lớp đúng trên tổng số mẫu; đối với bài toán hồi quy, hiệu quả được đánh giá bằng sai khác bình phương của giá trị đốn nhận. Như vậy, các nhãn gán cho các tập mờ có thể là các chuỗi ký hiệu khơng có nghĩa như A11, A12, A21; các tập mờ cũng được điều chỉnh sao cho hướng đến mục tiêu tối đa tỷ lệ phân lớp đúng hoặc tối thiểu sai khác khi suy đoán giá trị thực … Sau đó, người dùng có nhu cầu muốn đọc tường minh các luật trong hệ suy diễn. Nên đã có các nghiên cứu về tính giải nghĩa của các luật, trong đó đưa ra các điều kiện khi thiết kế tập mờ và gán nhãn ngơn ngữ có nghĩa, hạn chế số lượng thuộc tính trong một luật và số lượng luật trong tập luật. Tuy nhiên, đánh giá hiệu quả bằng độ đo tính theo cơng thức vẫn là quan trọng nhất.

Khi nghiên cứu bài tốn trích rút tóm tắt bằng ngơn ngữ dựa trên lý thuyết tập mờ, tác giả nhận thấy có điểm khác biệt lớn với bài tốn phân lớp, hồi quy trong cách đánh giá hiệu quả của phương pháp trích rút tóm tắt. Đầu ra của q trình trích rút tóm tắt bằng ngơn ngữ là các câu diễn đạt các tri thức ẩn dấu trong tập dữ liệu. Người sử dụng giải nghĩa các câu tóm tắt để hiểu tri thức và sử dụng nó để đưa ra các quyết định giải quyết vấn đề trong thực tế. Tức là con người giải nghĩa câu tóm tắt dựa trên ngữ nghĩa của các hạng từ trong câu. Ví dụ câu tóm tắt “Most young

employees have high salary” được giải nghĩa dựa trên ngữ nghĩa của các hạng từ ‘most’, ‘young’, ‘high’. Bởi vậy, một cách hợp lý hơn khi đánh giá hiệu quả của việc áp dụng phương pháp trích rút tóm tắt là cần đảm bảo người dùng giải nghĩa câu tóm tắt sẽ hiểu đúng nội dung thơng tin, tri thức ẩn dấu trong tập dữ liệu. Một câu hỏi đặt ra là làm sao đảm bảo câu tóm tắt được trích rút bởi một thuật toán tương tác trên các tập mờ diễn đạt đúng nội dung thông tin, tri thức của tập dữ liệu. Các tập mờ được gán cho các hạng từ để diễn đạt ngữ nghĩa của các hạng từ tương ứng, chúng được coi là ngữ nghĩa tính tốn của các hạng từ. Tuy nhiên, theo cách tiếp cận của lý thuyết tập mờ, các hạng từ được gán cho các tập mờ chỉ đóng vai trị là nhãn ngôn ngữ, các điều kiện về giải nghĩa được đưa ra dựa trên hình dạng, mối

quan hệ giữa các tập mờ chứ khơng phải dựa trên ngữ nghĩa vốn có của các hạng từ được gán cho chúng. Do đó, thiếu sự đảm bảo các tập mờ biểu diễn đúng ngữ nghĩa vốn có của các hạng từ được gán bởi cộng đồng khi sử dụng chúng trong thực tế. Điều này có thể dẫn đến người dùng giải nghĩa nội dung câu tóm tắt khơng đúng với thực tế về các đối tượng được lưu trữ trong kho dữ liệu.

Các nghiên cứu trích rút tóm tắt dựa trên lý thuyết tập mờ chỉ thiết kế số lượng cố định các tập mờ cho các hạng từ giới hạn trong khoảng 7  2. Vì số lượng giới hạn này nên tập hạng từ thường chỉ chứa những hạng từ có ngữ nghĩa rộng (tính khái quát lớn hay tính mờ lớn). Ví dụ, trong nghiên cứu trích rút tóm tắt về bệnh nhân [42], các tác giả chỉ sử dụng năm hạng từ trong miền hạng từ của thuộc tính “heart rate” với thứ tự ngữ nghĩa tăng dần là ‘very low’, ‘low’, ‘medium’, ‘high’ và ‘very high’. Trong nghiên cứu [38], các tác giả sử dụng bẩy hạng từ cho các thuộc tính chỉ tỷ lệ các chất hóa học lần lượt là ‘very low’, ‘low’, ‘medium–low’, ‘medium’, ‘medium–high’, ‘high’ và ‘very high’; 9 hạng từ cho thuộc tính creep lần lượt là ‘very low’, ‘low’, ‘medium–low’, ‘medium’, ‘medium–high’, ‘high’, ‘very high’, ‘extra high’ và ‘ideal’. Nghiên cứu của Kacprzyk và Zadrożny [12] nêu quan điểm các câu tóm tắt chứa các từ có tính mờ lớn như “Almost all winter days the temperature is rather cold” dù có giá trị đúng đắn T lớn nhưng lại khơng hữu ích. Do đó, khi đặt giới hạn số lượng từ như trong các nghiên cứu đã có cũng đồng nghĩa giới hạn tập tri thức hữu ích khi trích rút tóm tắt từ tập dữ liệu. Hơn nữa, tính mở rộng của tập từ vựng, tính mở rộng tri thức diễn đạt bằng ngơn ngữ trong q trình khai phá dữ liệu là yêu cầu thực tế. Chúng ta dễ dàng tìm được trên Internet các câu chứa các hạng từ có tính đặc tả lớn (các từ in nghiêng trong các câu sau), ví dụ như: “Homeopathy employs very, very dilute amounts of natural substances from plants, animals, and minerals, to stimulate the sick person’s body to overcome his or her own illness.”, “Very little high-quality evidence to support most medications for children with autism spectrum disorders”, “If a sick person takes that same substance into his body in very, very, very dilute amounts, then that form of the substance can cure those same symptoms.”. Do đó, việc khảo sát tập hạng từ có số lượng từ lớn hơn và chứa nhiều hạng từ có tính đặc tả lớn (tính riêng lớn hay ít mờ hơn) là cần thiết trong khi giải bài tốn trích rút tóm tắt bằng ngơn ngữ.

Qua phân tích nêu trên cho thấy vai trị cực kỳ quan trọng của việc xây dựng khung nhận thức bằng các tập mờ cho miền hạng từ của thuộc tính trong bài tốn trích rút tóm tắt bằng ngơn ngữ. Vì nó khơng những đóng vai trị quyết định đến tập câu tóm tắt kết quả mà còn tác động trực tiếp đến vấn đề đảm bảo giải nghĩa đúng đắn nội dung thơng tin câu tóm tắt. Các phần tiếp theo, luận án sẽ trình bày cơ sở toán học để đưa ra điều kiện cho việc thực hiện mờ hóa miền tham chiếu bằng một tập các tập mờ đảm bảo tính giải nghĩa và tính mở rộng được.

2.2.Vấn đề nội dung thơng tin của các câu tóm tắt bằng ngơn ngữ

Trong bài tốn trích rút tóm tắt bằng ngơn ngữ coi các câu tóm tắt đầu ra như là các câu trong ngôn ngữ tự nhiên. Tuy nhiên, trong phương pháp trích rút tóm tắt dựa trên lý thuyết tập mờ, các tập mờ được xây dựng và gán cho các hạng từ tương ứng dựa trên quan điểm của người thiết kế tập mờ. Do đó, chưa có một cơ sở hình thức hóa cho việc xây dựng các tập mờ để đảm bảo chúng biểu diễn đúng ngữ nghĩa vốn có trong ngơn ngữ tự nhiên của các hạng từ được gán cho chúng.

Xem xét một câu tóm tắt SL cho một tập dữ liệu D là kết quả của một phương pháp trích rút tóm tắt M sử dụng tập mờ để biểu diễn ngữ nghĩa cho các từ trong SL, ký hiệu bởi Rfs(SL). Tồn tại hai khía cạnh ngữ nghĩa cùng được gán cho SL. Khía cạnh ngữ nghĩa thứ nhất là ngữ nghĩa vốn có về thế giới thực được biểu diễn bởi tập dữ liệu D mà SL truyền tải, SL được coi như một câu trong ngôn ngữ tự nhiên. Các câu trong ngôn ngữ tự nhiên dễ đọc, dễ hiểu và có cùng ngữ nghĩa như nhau đối với mọi người trong cùng cộng đồng. Do đó, khía cạnh ngữ nghĩa thứ nhất mang tính khách quan. Khía cạnh ngữ nghĩa thứ hai là nội dung thông tin của D được gán cho

SL qua phương pháp tính tốn trong M; ký hiệu là Cont𝒟,M(Rfs(SL)). Khía cạnh ngữ nghĩa này mang tính chủ quan của người thiết kế tập mờ. Như vậy, nhìn chung hai khía cạnh ngữ nghĩa này là khác nhau. Khi thiếu một cơ sở hình thức hóa đáng tin cậy để đảm bảo biểu diễn tập mờ có cấu trúc Rfs(SL) của SL biểu diễn đúng ngữ nghĩa định tính của SL thì khơng có cơ sở hình thức để đảm bảo đẳng thức (2.1) sau:

ContD(SL) = ContD, M (Rfs(SL)) (2.1) Trong luận án, tác giả xem xét đẳng thức (2.1) biểu thị đẳng thức trong môi trường khơng chắc chắn vì nội dung thơng tin ở hai vế của đẳng thức được xác định

dựa trên ngữ nghĩa của các từ ngôn ngữ. Đẳng thức (2.1) đề cập đến bài toán nội dung thơng tin của câu tóm tắt (Linguistic Summarization-Content Problem), viết tắt là LS-CP. Mục đích chính của luận án là thành lập một phương pháp luận để giải

LS-CP. Điều này là cần thiết để tránh cho người sử dụng nhận thông tin sai lệch do

SL cung cấp. Đây là một mục tiêu đầy thách thức vì chúng ta nhận thấy rằng ngữ nghĩa vốn có của câu tóm tắt SL, tức là ContD(SL), được xác định bằng kết hợp ngữ nghĩa của các từ của các thuộc tính trong phương pháp hình thức hóa của ngơn ngữ tự nhiên, mà ngơn ngữ tự nhiên chưa được hình thức hóa trong nền tảng lý thuyết tập mờ. Mặt khác, ContD,M(Rfs(SL)) được tính tốn bởi thuật toán M dựa trên biểu diễn tập mờ Rfs(SL) bằng việc kết hợp ngữ nghĩa dựa trên tập mờ của các từ của các thuộc tính trong câu tóm tắt SL trong phương pháp hình thức hóa được thành lập bởi người phát triển hệ thống. Rõ ràng, khía cạnh ngữ nghĩa này khác biệt với phương pháp hình thức hóa ngữ nghĩa của ngơn ngữ trong tự nhiên.

Hình 2.1 minh họa thách thức đặt ra cần giải quyết. Trong khi, vế trái của đẳng thức (2.1) biểu thị nội dung thông tin mà người sử dụng giải nghĩa câu tóm tắt

SL trong mơ hình ngơn ngữ tự nhiên như bên trái của Hình 2.1. Vế phải của đẳng thức (2.1) biểu thị nội dung thông tin mà người phát triển hệ thống thao tác trên mơ hình tính tốn của các hạng từ để gán cho câu tóm tắt SL như hình bên phải của Hình 2.1. Do đó, để đảm bảo đẳng thức (2.1) đúng thì cần phải tìm một phương pháp chuyển đổi hình thức đáp ứng được kỳ vọng từ miền hạng từ ngôn ngữ sang một cấu trúc tính tốn phù hợp.

Hình 2.1: Vấn đề chuyển đổi cấu trúc của miền hạng từ ngơn ngữ thành một cấu trúc tính tốn phù hợp

Bài toán ứng dụng trong thế giới thực Miền ngôn ngữ Mi ền n g ô n n g ữ UZ UX Người sử dụng:

Nội dung thơng tin cung cấp từ hệ thống có thực sự đúng?

Người phát triển hệ thống: Mơ hình tính tốn có mơ phỏng đúng bài tốn trong thực tế? Có một phương pháp chuyển đổi hình

thức như kỳ vọng không?

Trong ngữ cảnh này, một cách khả thi để giải bài toán LS-CP là tận dụng khái niệm giải nghĩa của lý thuyết hình thức hóa S trong một lý thuyết hình thức hóa khác T được định nghĩa bởi Tarski và cộng sự trong Undecidable Theories [44] như sau:

“Giả sử S và T là hai lý thuyết hình thức. Lý thuyết S giải nghĩa được trong lý thuyết T khi và chỉ khi ngơn ngữ của S có thể được dịch sang ngơn ngữ của T và T có thể chứng minh được tất cả các định lý của S được dịch sang T.”

Do đó, u cầu ít nhất để có thể tương tác với các tập mờ thay vì chính các hạng từ tương ứng của chúng khi và chỉ khi các tập mờ là hình ảnh đẳng cấu của các hạng từ tương ứng. Tức là, chúng phải truyền tải được ngữ nghĩa vốn có của các hạng từ. Luận án hướng đến thiết lập một phương pháp luận để xây dựng một biến đổi đẳng cấu từ một miền hạng từ sang cấu trúc mong muốn của các tập mờ đã được xây dựng biểu diễn ngữ nghĩa cho các hạng từ. Với một tập dữ liệu đã cho, xác định rằng cần giải các bài tốn con sau dựa trên phương pháp hình thức hóa của ĐSGT:

o (P1) Hình thức hóa miền hạng từ của thuộc tính: miền hạng từ của các

Một phần của tài liệu Luận án tóm tắt dữ liệu bằng ngôn ngữ theo cách tiếp cận đại số gia tử (Trang 59)

Tải bản đầy đủ (PDF)

(148 trang)