, trong đĩ σ là hằng số tỷ lệ
GOM CỤM VĂN BẢN BẰNG MẠNG KOHONEN VÀ TẠO TRÍCH LƯỢC NỘI DUNG CỦA NHIỀU VĂN BẢN
7.2.2. Điều chỉnh thành phần của vector đặc trưng văn bản hoặc đặc trưng câu
Sau khi tạo tập các danh từ/cụm danh từ phổ biến, chúng ta cần khảo sát quan hệ đồng nghĩa, gần nghĩa giữa các danh từ/cụm danh từ phổ biến nhằm rút gọn chiều của vector đặc trưng. Ví dụ vector thứ nhất cĩ thành phần ứng với từ ”con_người”, vector thứ hai cĩ thành phần ứng với từ ”nhân_loại”, rõ ràng hai từ con_nguời và nhân_loại là đồng nghĩa nhau, nên chúng ta chỉ cần giữ lại một trong hai từ. Nĩi cách khác ta đã giảm chiều của vector đặc trưng.
Hình 7.1.Đồ thị quan hệ nghĩa rộng/nghĩa hẹp giữa các danh từ
Để khảo sát các từ cĩ đồng nghĩa hoặc gần nghĩa, chúng ta cần sử dụng ontology các khái niệm. Đối với tiếng Anh, hiện cĩ từđiển Wordnet trong đĩ lưu trữ các tập từ đồng nghĩa và các quan hệ ngữ nghĩa ( nghĩa rộng, nghĩa hẹp). Đối với tiếng Việt, chúng tơi bước đầu xây dựng một hệ thống tựa Wordnet cho tiếng Việt ( xem chương 3). Hình 7.1 là một đồ thị biểu diễn quan hệ “là một loại của” của các từ trong lĩnh vực phần cứng máy tính.
Khi so sánh hai từ cĩ gần nghĩa hay khơng, chúng ta sẽ tìm từ hypernym ( từ tổ
tiên) chung của hai từ trên. Ví dụ tổ tiên chung của hai từ ”DVD” và ”ổđĩa cứng” là ”bộ nhớ ngồi”. Sau đĩ chúng tơi tính khoảng cách từ từng từ cần xét đến tổ tiên chung ( số cung trên con đường đi từ từ đang xét đến tổ tiên chung). Khoảng cách xa nhất sẽ là khoảng cách ngữ nghĩa giữa hai từ cần so sánh. Dựa vào một ngưỡng cho trước, chúng ta cĩ thể khẳng định hai từđĩ cĩ gần nghĩa hay khơng, ví dụ nếu khoảng cách là 4 thì ”DVD” và ”Ổđĩa cứng” là gần nghĩa nhau do đĩ hai từ này cĩ thể bị loại bỏ và thay bằng từ ”Bộ nhớ ngồi” cĩ nghĩa bao quát hơn.
Một trong những vấn đề cần xác định trước khi so sánh hai từ cĩ đồng nghĩa hay gần nghĩa là vấn đề xác lập nghĩa của từ. Bài tốn xác định đúng nghĩa của từ
theo ngữ cảnh xuất hiện của nĩ được gọi là bài tốn khử nhập nhằng nghĩa của từ
(word sense disambiguation) của từ. Ví dụ từ ”khĩa” cĩ thể cĩ nhiều nghĩa như: khĩa học, khĩa trong quan hệ của cơ sở dữ liệu, ổ khố .... Ngữ cảnh của từ được xác định là tập các từ nằm bên trái và bên phái của từ đang xét trong cửa sổ cĩ bề
rộng d với từđang xét nằm ở trung tậm. Nhìn chung cĩ hai cách tiếp cận để xác lập nghĩa của từ. Tiếp cận đầu tiên dựa trên định nghĩa của từ trong từ điển. Tiếp cận thứ hai dựa vào mạng ngữ nghĩa để xác lập nghĩa cho từ. Theo tiếp cận một (cĩ thể
tham khảo cơng trình của M. Lesk) để xác lập nghĩa của từ dựa trên định nghĩa của từ và các từ trong ngữ cảnh xuất hiện từđĩ. Đối với từđa nghĩa, để ấn định nghĩa chính xác của một từ trong ngữ cảnh xuất hiện của nĩ, người ta sử dụng một tập hợp từ xuất hiện trong định nghĩa của từ đĩ. Tập hợp từ này được gọi tắt là tập từ định nghĩa Hai từ xuất hiện cùng nhau trong một ngữ cảnh cụ thể cĩ chung các từ
trong định nghĩa, thì các nghĩa này sẽ được chọn làm nghĩa của hai từ trong ngữ
cảnh đĩ Xét hai từ ”cị” và ”sếu”. Trong tiếng Việt từ ”cị” cĩ năm nghĩa là:
− Nghĩa 1: lồi chim cẳng cao và mỏ dài,
− Nghĩa 2: tem dán thư
− Nghĩa 3: cảnh sát trưởng
Bộ nhớ ngồi
Ổ đĩa cứng Ổ đĩa quang
CD-ROM DVD
− Nghĩa 4: người sửa lỗi bài in ở nhà in
− Nghĩa 5: một bộ phận ở cây súng, khi bĩp vào sẽ làm súng nổ Từ ”sếu” cĩ hai nghĩa là:
− Nghĩa 1:giống chim lớn cẳng cao và mỏ dài
− Nghĩa 2: lung lay
Khi ”cị” và ”sếu” cùng xuất hiện trong ngữ cảnh cụ thể, ví dụ ”trong sở thú cĩ nhiều cị và sếu”, ta thấy từ ”chim” xuất hiện chung trong nghĩa 1 của từ ”cị” và nghĩa 1 của từ ”sếu”, do đĩ nghĩa 1 của từ ”cị” và nghĩa 1 của từ ”sếu” sẽđược chọn.
Thay vì xét các từ trong ngữ cảnh và dùng từđiển để cĩ định nghĩa của từ, sau
đĩ xét phần từ chung giữa các định nghĩa như trong thuật tốn của M. Lesk truyền thống, nguời ta cĩ thể bổ sung thêm vào tập các từ trong ngữ cảnh đang xét bằng các từ đồng nghĩa hoặc nghĩa rộng (hypernym) bằng cách sử dụng Wordnet để xác lập tập từđồng nghĩa, nghĩa rộng.
Hình 7.2: Một phần của đồ thịđồng hiện các từđăc trưng
Bên cạnh tiếp cận một đã được trình bày ở trên, tiếp cận thứ hai sử dụng một mạng ngữ nghĩa bằng cách xây dựng một đồ thịđồng hiện các từ. Các từđồng hiện giúp xác định nghĩa của một từ nếu chúng xuất hiện đồng thời với các từ khác trong ngữ cảnh. Ví dụ : nếu “khĩa” xuất hiện đồng thời với các từ như ”cơ sở dữ liệu”, ”quan hệ”, ”phụ thuộc hàm”….. thì nghĩa của khĩa là khố trong quan hệ của cơ sở
dữ liệu (xem hình 7.2).
Cho O là tập văn bản trong một lĩnh vực cụ thể và FT(O) là tập các từ phổ biến
đặc trưng cho các văn bản trong O. Đồ thịđồng hiện từ G=(V,E) là đồ thị khơng cĩ hướng trong đĩ V là tập các cụm danh từ phổ biến V=FT(O), hai từ t1 và t2 cĩ cung nối khi chúng xuất hiện đồng thời trong một ngữ cảnh xác định. Để tạo đồ thịđồng hiện, chúng tơi sử dụng hai giải pháp
− Giải pháp tạo đồ thị đồng hiện bằng tay, trong đĩ khảo sát và phát hiện tập các từđồng hiện nhau và gán nghĩa bằng tay cho mỗi từ Mỗi cụm này sẽđược gán nhãn ngữ nghĩa bằng tay.
− Sử dụng ngữ liệu trong từng lĩnh vực nhất định để phát hiện các từđồng hiện trong ngữ cảnh xác định của lĩnh vực và gán nhãn ngữ nghĩa bằng tay cho chúng.. Để đo mức độđồng hiện của hai từ t1 và t2. chúng tơi sử
dụng hệ số đồng hiện là tỷ số giữa số văn bản cĩ chứa đồng thời t1, t2 trên tổng sổ văn bản cần xem xét. Sau đĩ, chúng tơi sử dụng kỹ thuật gom cụm dựa trên cây bao trùm tối tiểu trên đồ thị đồng hiện để khám phá các cluster cĩ chứa các từ cĩ mức độđồng hiện cao. Các cụm này sẽ được đặc trưng bởi tập các từ. Mỗi cụm sẽ ấn định nghĩa chính xác của từ trong bối cảnh đồng hiện với các từ khác.
Khi gặp từ cần xem xét trong văn bản, chúng tơi xác định được tập các từ xuất hiện đồng thời với từ này trong văn bản. Sau đĩ, chúng ta tính khỏang cách giữa tập các từ trong vector đặc trưng văn bản với tập từ đặc trưng cho cụm bằng cơng thức tính khỏang cách giữa hai tập hợp như sau:
|| | | | 1 Y X Y X d ∪ ∩ − = Với X là tập hợp các từ đặc trưng cho văn bản và Y là tập hợp các từ cĩ trong tập từ đặc trưng cho cụm. Cụm ngữ nghĩa cĩ khỏang cách gần nhất sẽ được dùng làm nhãn ngữ nghĩa cho từ. Sau khi xác định được nghĩa của từ, chúng tơi chọn nghĩa trong Wordnet để xác định hypernym của từ.