Việc nhận diện thực thẻ, trên lý thuyết có thể được thực hiện dựa trên việc xây
dựng từ điển ngữ liệu. Ngữ liệu là những từ thường đi trước một đối tượng và cho ta biết đối tượng đó thuộc loại gì. Ví dụ những từ như: ông, bà, bác sĩ, tổng thống, ... cho ta biết đối tượng đi sau thuộc lớp con người (ông Nguyễn Văn A, tổng thống Bush, ...). Như vậy, bằng việc xây dựng từ điển ngữ liệu cho tất cả các lớp trong ontology, ta có thể nhận diện được hầu hết các thực thê trong câu truy vấn.
Trên thực tế, một số thực thể trong câu truy vấn không có ngữ liệu để nhận diện,
một số khác có thể đòi hỏi sự nhận diện ở mức chỉ tiết hơn. Ví dụ câu truy vấn “thủ đô
của Việt Nam”, thực thể Việ/ Nam không có ngữ liệu, hơn nữa vì đây là một thực thể tồn tại trong cơ sở tri thức, ta cần nhận diện được cả định danh của nó.
Trong trường hợp này, giải pháp tốt là phải xây dựng một chức năng trong ứng dụng rút trích thông tin và chú giải ngữ nghĩa để nó có thể nhận diện chính xác các thực thể có tên trong một đoạn văn bản tiếng Việt. Tuy nhiên, ta có thể sử dụng thêm phần mềm GATE đề được kết quả chính xác hơn. Ý tưởng giải quyết trong các quá trình xử lý này như sau:
s Xây dựng chức năng nhận diện thực thể Ta cần phải xây dựng cho chức năng của chương:
+ Có một tập ngữ liệu đủ lớn, có thể nhận diện hầu hết các thực thể có tên + Có thê nhận diện một số thực thê không đi kèm ngữ liệu
+ Có thể cung cấp định đanh cho những thực thể nhận diện được
Ví dụ với một câu như sau :“đường Trần Hưng Đạo ở thành phó Hồ Chí Minh”, ta
đường Trần Hưng Đạo ở
thành phô Hỗ Chí Minh me đường Trần Hưng thành phố Hồ Chí Đạo Minh Lớp: . Lớp: Đường_ phô Thành_ phố. Đường_phô_13
Theo cách phân tích này ta thấy nó đã nhận diện được hai thực thể là “đường Trần
Hưng Đạo” và “thành phố Hồ Chí Minh”. Ngoài ra, chức năng này còn cho biết thực thê thứ nhất thuộc lớp Đường _phó, có hai định danh (tương ứng với đường Trần Hưng Đạo ở thành phố Hồ Chí Minh và ở Hà Nội); thực thể thứ hai thuộc lớp Thành_phố và cũng có định danh tương ứng.
Ví dụ với câu “thủ phủ của Đồng Nai”, ta có thể phân tích như sau.
thủ phủ của Đông Nai
Đông Nai CC tap, Tính —) Lớp: Sõng
ÀA «
Như ta đã thấy, trong câu truy vấn trên có hai thực thể là “hở phủ” và “Đông
Nai”, tuy nhiên ta chỉ nhận diện thực thể thứ hai vì thực thể đầu không có tên. Thực thể
Đồng Nai được nhận diện thuộc hai lớp 7# và Sông. Điều này là hợp lý vì trên thực tế, nếu chỉ nói Đồng Nai, ta không thể xác định được đó là /inh Đông Nai hay sông Đồng Nai.
Trong một số trường hợp khác, ta có thể nhận diện được thực thể và lớp của nó,
nhưng lại không nhận diện được định danh (có thê vì thực thể đó không tổn tại trong cơ sở tri thức).
*. Nhận diện thực thế và từ quan hệ nhờ GATE
Việc nhận diện thực thê dựa vào tập ngữ liệu thực chất chính là quá trình tìm kiếm và so trùng. Để thực hiện việc này một cách hiệu quả, chúng tôi đã nhờ đến module Gazetteer của GATE. Chức năng này cho phép ta định nghĩa một tập những từ hoặc cụm
từ cần được so trùng. Những từ này được tổ chức thành nhiều nhóm, mỗi nhóm có một
kiểu chính (majorType) và kiểu phụ (minorType). Khi Gazetteer xử lý một đoạn văn bản,
những từ nằm trong danh sách sẽ được chú thích kèm theo kiểu của nhóm. Dựa vào điều
này, ta sẽ xây dựng tập ngữ liệu như sau: trong ontology hiện tại có khoảng trên 300 lớp,
ứng với mỗi lớp sẽ có một tập các ngữ liệu dùng để nhận diện lớp đó. Như vậy ta sẽ có
khoảng 300 danh sách, mỗi danh sách là một tập tin. Tiếp theo, ta tạo một tập tin làm điểm bắt đầu (còn gọi là tập tin chỉ mục) cho Gazetteer, tập tin này liệt kê tên của tất cả các tập tin chứa danh sách, kèm theo tên của lớp trong ontology mà danh sách này được
dùng để nhận diện.
3.5.6. Đồ thị khái niệm
Như đã trình bày ở phần trước, thành phần đảm nhận nhiệm vụ tìm kiếm thực thể
và tài liệu của hệ thống là một module đã được xây dựng từ trước. Module này là một thành phần chính của chức năng đã được đề cập tới trong phần trên. Nó hiện đang hỗ trợ ba cách truy vấn: câu SeRQL, đồ thị khái niệm và mẫu câu có sẵn. So với định nghĩa ban
đầu của Sowa, ta có thê phát triển đồ thị khái niệm trong chức năng bổ sung thêm một số thuộc tính như sau:
+ Tất cả các khái niệm và quan hệ đều phải thuộc một miền xác định trước. Miền
xác định này chính là ontology của toàn bộ hệ thống.
+ Mỗi khái niệm được xác định bởi hai yếu tố: lớp và định danh (ideniifier — ID). Mọi khái niệm đều thuộc một lớp nhất định trong ontology, nhưng có thê có hoặc không có định danh. Trong trường hợp này, định danh có thể được mang hai giá trị là “?” hoặc ¬
+ Một đồ thị khái niệm là hợp lệ nếu tất cả các quan hệ đều thỏa mãn các ràng
buộc về miền của chủ thể và khách thể. Các ràng buộc này cũng được định nghĩa trong ontology.
Thủ_đô : Hà Nội Hình 3.3: Minh họa về Đồ thị khái niệm
Hình 3.3 cho thấy một ví dụ minh họa về đồ thị khái niệm .Đồ thị khái niệm trên
có hai khái niệm và một quan hệ. Các liên kết được đánh số 1 chỉ mối liên hệ với chủ thể, còn các liên kết được đánh số 2 chỉ mối liên hệ với khách thể. Trong ví dụ này, khách thể có nhãn là “Thủ đô : Hà Nội”. Nhãn này cho biết, khái niệm này thuộc lớp “7 đô” và có một định danh. Do định đanh thường dài và không gợi nhớ nên hệ thống đã chọn tên
của đối tượng ứng với định danh đó làm nhãn cho khái niệm này. Trong trường hợp trên, tên được chọn làm nhãn là “Hà Nội”. Còn khái niệm làm chủ thê trong quan hệ trên có nhãn là “Huyện : ?”. Khái niệm này thuộc lớp “Huyệ» ” nhưng không có định danh. Dấu chấm hỏi cho biết đây là khái niệm được truy vấn. Trong trường hợp ta không quan tâm
đến kết quả truy vấn của đối tượng đó, dấu “?” sẽ được thay bằng dấu “*”. Ở ví dụ trên,
câu truy vấn có thể được hiểu là “tìm tất cả những huyện được định vị ở thủ đô Hà Nội”.
Trường_ đại học : ? 1 ? Thành_phố_cấp _một : *
^
Z ⁄
⁄⁄
7“ Quốc _gia : Viết Nam
Hình 3.4: Minh họa về Đồ thị khái niệm
Câu truy vấn trên được hiểu là “tìm tất cả các trường đại học tại một thành phố cấp một của nước Việt Nam”. Khái niệm thành phố cấp một trong câu truy vấn trên được
đánh đấu “*”, vì vậy đanh sách những thành phố thỏa mãn điều kiện sẽ không được hệ thống trả về sau khi truy vấn.
3.5.6.1. Đề xuất giải pháp xây dựng khung sườn cho đồ thị khái niệm
Khi ta đã có một số thực thể và từ quan hệ, vấn đề đặt ra là làm sao phác họa được
khung sườn cho đồ thị ý niệm, tức là xác định được thực thể nào quan hệ với thực thể nào bằng từ quan hệ gì. Lấy ví dụ hai câu truy vấn sau:
“thành phố ở Việt Nam có sân bay” “thủ đô của một quốc gia ở châu Á”
Với hai câu truy vấn này, đồ thị ý niệm kết quả mà ta mong muốn sẽ có dạng như trong hình 3.5.
Như ta đã thấy, trong hai câu truy vấn trên, hai từ quan hệ “cớ” (câu thứ nhất) và “ở” (câu thứ hai) có vị trí tương đồng nhau, thế nhưng một cái lại liên kết với thực thể ở đầu câu, cái còn lại liên kết với thực thê thứ hai. Vì thế vấn đề đặt ra là xác định chính xác các liên kết trong câu truy vấn.
Để giải quyết vấn đề này, chúng ta cần xây dựng một bộ văn phạm hoàn chỉnh cho
tiếng Việt. Hiện nay, một bộ văn phạm hoàn chỉnh như mong muốn là chưa xây đựng được. Tuy nhiên, xét trong giới hạn ứng dụng của hệ thống chỉ là những mẫu câu (phần lớn là cụm đanh từ), chúng tôi đã áp dụng một số thủ thuật giúp xây dựng bộ phân tích cú
được thay thế bằng một bộ phân tích cú pháp hoàn chỉnh một khi văn phạm đầy đủ đã được xây dựng xong.
Thành _phố : ?
Quốc _gia : Việt Nam
La “ _— _—*“ Vùng _đĩa_lý_lớn : châu Á
Hình 3.5: Kết quả đồ thị ý niệm mong muốn
Để xây đựng được khung sườn cho đồ thị khái niệm ta phải xây dựng thêm các
chức năng : xây dựng văn phạm, xác định loại của thực thể.
3.5.6.2. Xây dựng đồ thị khái niệm hoàn chỉnh dựa trên tập luật
Sau khi đã xây dựng được khung sườn cho đồ thị ý niệm kết quả ở bước thứ hai, ta
đã có được một số đồ thị ý niệm chưa đầy đủ biểu diễn cho câu truy vấn. Tại bước này, ta
sẽ điền những thông tin còn thiếu vào những đồ thị ý niệm đó, đồng thời có thể điều chỉnh lại khung sườn nếu cần thiết.
Những thông tin mà ta có được trên những đồ thị ý niệm chưa đầy đủ này là:
+ Tắt cả các thực thể đều thuộc một lớp trong ontology
+ Một số thực thể có định danh
+ Những thực thể không có định danh cần truy vấn được mang dấu “?”, những
thực thể không có định danh còn lại mang dấu “**”
+ Tất cả các mối quan hệ đều mới ở dạng từ quan hệ, chưa tương ứng với một quan hệ nào trong ontology
+ Giá trị chuỗi ban đầu trong câu truy vấn ứng với mỗi thực thể (chính là chuỗi ký tự trong câu truy vấn đã được chương trình chú giải)
Thủ_ đồ : ? (thủ đô) Quốc _ gia : Việt Nam (Việt Nam)
Hình 3.6: Đồ thị ý niệm chưa đầy đủ của câu truy vấn “thủ đô của Việt Nam”
Hình 3.6 cho ta thấy một đồ thị ý niệm chưa đầy đủ biêu diễn cho câu truy vấn
“thủ đô của Việt Nam”. Giá trị chuỗi ban đầu của mỗi thực thể được thể hiện trong cặp
dâu ngoặc đơn. Trong ví dụ trên, giá trị chuỗi ban đầu của thực thể thứ nhất là “thủ đô”, của thực thê thứ hai là “Việt Nam”. Thông tin duy nhất còn thiếu trên đồ thị ý niệm này
là mối quan hệ thực sự giữa các thực thể. Do đó, mục tiêu của giai đoạn này là biến
những từ quan hệ (trong ví dụ trên là từ “của”) thành các quan hệ cụ thể trong ontology.
3.5.7. Chức năng xây dựng vá phát triển tri thức
Sesame có thể giúp ta quản lý và truy vấn cơ sở tri thức nhưng lại không thích hợp
cho việc xây dựng và phát triển cơ sở tri thức. Hiện nay một phần mềm được dùng phổ
biến cho việc này là Pro/égé. Tuy nhiên việc sử đụng Protégé có những điểm chưa phù hợp với hệ thống, ví dụ như: Protégé không kết nối trực tiếp với Sesame nên mọi thao tác sửa đổi cơ sở tri thức được thực hiện trên Protégé phải được xuất ra tập tin trước khi nạp lại vào Sesame; Protégé không cho phép truy xuất từng phần của một cơ sở tri thức, nên
không quản lý được các cơ sở tri thức quá lớn. Để khắc phục những nhược điểm trên, ta
sẽ xây dựng một chức năng cho phép người dùng tải về từng phần của cơ sở tri thức để sửa đối, sau đó cập nhật lại vào cơ sở tri thức trên Sesame. Điều này cho phép việc chỉnh sửa cơ sở tri thức có thể được thực hiện cùng lúc bởi nhiều người, đồng thời khắc phục tình trạng cơ sở tri thức quá lớn không quản lý được.
3.5.8. Phương pháp ghom cụm tài liệu theo thực thể có tên
Gom cụm các tài liệu là quá trình nhóm các tài liệu có sự tương tự với nhau lại
thành cụm. Kết quả của quá trình gom cụm là các phân cụm chứa các tài liệu liên quan
sao cho độ tương tự giữa hai tài liệu bất kỳ trong cùng phân cụm lớn hơn độ tương tự giữa hai tài liệu ở hai phân cụm khác nhau. Hiện nay, hầu hết các giải thuật gom cụm tài liệu sử dụng mô hình không gian vector để biểu diễn cho mỗi đối tượng tài liệu. Tập hợp
các thuật ngữ (£erm) sẽ hình thành một không gian vector thuật ngữ; mỗi tài liệu được biểu diễn bằng một vector ở trong không gian vector này. Tập các vector đại điện cho tập
các tài liệu tạo thành một ma trận thuật ngữ - tài liệu, trong đó mỗi vector là một hàng của ma trận, mỗi cột của ma trận ứng với một thuật ngữ.
Gom cụm tài liệu là sự phân chia và sắp xếp các tài liệu trong một tập tài liệu ban đầu vào các nhóm tài liệu nhỏ hơn. Tiêu chí của sự sắp xếp này là: trong mỗi nhóm, các cặp tài liệu có sự tương quan với nhau ở một mức độ nào đó, ví dụ như độ tương tự giữa
hai tài liệu trong nhóm phải lớn hơn (hoặc khoảng cách nhỏ hơn) một hệ số quy định; hoặc một tài liệu được xếp vào một nhóm khi khoảng cách của tài liệu đến nhóm đó nhỏ hơn khoảng cách của tài liệu đến tất cả các nhóm khác (hoặc độ tương tự lớn hơn). Tiêu chí để xếp các tài liệu vào các nhóm sẽ thay đổi tùy theo giải thuật được sử dụng.
Có hai phương pháp ghom cụ tài liệu phổ biến như: giải thuật K-means cơ bản (Basic K-meams), giải thuật Fuzzy C-means (FCM)
*.. Gom cụm dựa trên cấu trúc cây ontology
Chúng ta tiếp cận theo một hướng khác cho bài toán gom cụm. Thay vì sắp xếp các tài liệu vào các nhóm trước rồi mới đi tìm hiểu xem các tài liệu trong nhóm đó nói về
cái gì để tạo nhãn cho phân nhóm, thì trong phương pháp này, chúng ta sẽ tìm hiểu xem tài liệu nói về các gì trước, rồi mới phân bổ các tài liệu này vào các nhóm sau. Các bước xử lý tài liệu ban đầu gần tương tự như đối với phương pháp không gian vector, đó là
công việc tập hợp các thực thể xuất hiện trong tài liệu.
Theo như đã phân tích ở phần thực tập tốt nghiệp, phương pháp này gom cụm phân cấp dựa trên lớp thực thể và định danh của thực thể. Tiêu chí chính của phương
pháp gom cụm này là theo thực thể trội, tức là các thực thể xuất hiện nhiều hơn so với các thực thê khác được chọn làm tiêu chí để sắp xếp tài liệu vào phân nhóm. Như vậy, những tài liệu có các thực thể trội giống nhau sẽ được xem như là tương tự với nhau, và được xếp vào chung một nhóm. Việc gom cụm được thực hiện qua hai bước. Bước thứ nhất
gom cụm dựa trên lớp thực thể, và bước thứ hai gom cụm dựa trên định danh của thực
Phần 4
TỎNG KÉT
Mô hình không gian vector nhiều chiều cho việc xử lý thông tin dựa trên thực thể có tên (NE) thích nghỉ với VSM truyền thống dựa trên keyword thông quan không gian NE. Mỗi tài liệu (query) được đại điện bởi 4 thành phần vector qua 4 không gian của tên
(name), loại (type), cặp tên-loại (name-type) và định danh (identifier) cho phép tìm kiếm
và gom nhóm tài liệu theo những đặc điểm khác nhau của NE. Trọng số của mỗi phần tử trong vector được tính toán theo công thức //.¡đ4ƒ. Độ tương tự giữa 2 tài liệu được định nghĩa là khoảng cách giữa 2 vector đại diện. So sánh với những mô hình NE khác, sự cần thiết của mô hình được giới thiệu là sự khác nhau của những đặc điểm trong thực thê có tên, sự gộp lại giữa loại và tên là những thứ được tính đến.
Áp dụng mô hình này để gom cụm tài liệu với những thực thể có tên có trong mỗi