Xây dựng chức năng nhận diện thực thể có tên và quan hệ

Một phần của tài liệu TIỂU LUẬN PHƯƠNG PHÁP LUẬN SÁNG TẠO KHOA HỌC Giải pháp tổ chức lưu trữ và xử lý tài liệu văn bản tiếng việt có ngữ nghĩa (Trang 28)

Việc nhận diện thực thể, trên lý thuyết có thể được thực hiện dựa trên việc xây dựng từ điển ngữ liệu. Ngữ liệu là những từ thường đi trước một đối tượng và cho ta biết đối tượng đó thuộc loại gì. Ví dụ những từ như: ông, bà, bác sĩ, tổng thống, … cho ta biết đối tượng đi sau thuộc lớp con người (ông Nguyễn Văn A, tổng thống Bush, …). Như vậy, bằng việc xây dựng từ điển ngữ liệu cho tất cả các lớp trong ontology, ta có thể nhận diện được hầu hết các thực thể trong câu truy vấn.

Trên thực tế, một số thực thể trong câu truy vấn không có ngữ liệu để nhận diện, một số khác có thể đòi hỏi sự nhận diện ở mức chi tiết hơn. Ví dụ câu truy vấn “thủ đô của Việt Nam”, thực thể Việt Nam không có ngữ liệu, hơn nữa vì đây là một thực thể tồn tại trong cơ sở tri thức, ta cần nhận diện được cả định danh của nó.

GIẢI PHÁP TỔ CHỨC LƢU TRỮ XỬ LÝ TÀI LIỆU TIẾNG VIỆT CÓ NGỮ NGHĨA 29 Trong trường hợp này, giải pháp tốt là phải xây dựng một chức năng trong ứng dụng rút trích thông tin và chú giải ngữ nghĩa để nó có thể nhận diện chính xác các thực thể có tên trong một đoạn văn bản tiếng Việt. Tuy nhiên, ta có thể sử dụng thêm phần mềm GATE để được kết quả chính xác hơn. Ý tưởng giải quyết trong các quá trình xử lý này như sau:

Xây dựng chức năng nhận diện thực thể

Ta cần phải xây dựng cho chức năng của chương:

+ Có một tập ngữ liệu đủ lớn, có thể nhận diện hầu hết các thực thể có tên + Có thể nhận diện một số thực thể không đi kèm ngữ liệu

+ Có thể cung cấp định danh cho những thực thể nhận diện được

Ví dụ với một câu như sau :“đường Trần Hưng Đạo ở thành phố Hồ Chí Minh”, ta có thể phân tích câu để nhận diện thực thể như sau.

đường Trần Hưng Đạo ở thành phố Hồ Chí Minh đường Trần Hưng Đạo thành phố Hồ Chí Minh Lớp: Đường_phố Thành_phốLớp: Đường_phố_12 Đường_phố_13 Thành_phố_43 Định danh Định danh

Theo cách phân tích này ta thấy nó đã nhận diện được hai thực thể là “đường Trần Hưng Đạo” và “thành phố Hồ Chí Minh”. Ngoài ra, chức năng này còn cho biết thực thể thứ nhất thuộc lớp Đường_phố, có hai định danh (tương ứng với đường Trần Hưng Đạo ở thành phố Hồ Chí Minh và ở Hà Nội); thực thể thứ hai thuộc lớp Thành_phố và cũng có định danh tương ứng.

GIẢI PHÁP TỔ CHỨC LƢU TRỮ XỬ LÝ TÀI LIỆU TIẾNG VIỆT CÓ NGỮ NGHĨA 30 Ví dụ với câu “thủ phủ của Đồng Nai”, ta có thể phân tích như sau.

thủ phủ của Đồng Nai Đồng Nai Lớp: Tỉnh Sông_57 Tỉnh_25 Định danh Lớp: Sông Định danh

Như ta đã thấy, trong câu truy vấn trên có hai thực thể là “thủ phủ”“Đồng Nai”, tuy nhiên ta chỉ nhận diện thực thể thứ hai vì thực thể đầu không có tên. Thực thể

Đồng Nai được nhận diện thuộc hai lớp TỉnhSông. Điều này là hợp lý vì trên thực tế, nếu chỉ nói Đồng Nai, ta không thể xác định được đó là tỉnh Đồng Nai hay sông Đồng Nai.

Trong một số trường hợp khác, ta có thể nhận diện được thực thể và lớp của nó, nhưng lại không nhận diện được định danh (có thể vì thực thể đó không tồn tại trong cơ sở tri thức).

Nhận diện thực thể và từ quan hệ nhờ GATE

Việc nhận diện thực thể dựa vào tập ngữ liệu thực chất chính là quá trình tìm kiếm và so trùng. Để thực hiện việc này một cách hiệu quả, chúng tôi đã nhờ đến module Gazetteer của GATE. Chức năng này cho phép ta định nghĩa một tập những từ hoặc cụm từ cần được so trùng. Những từ này được tổ chức thành nhiều nhóm, mỗi nhóm có một kiểu chính (majorType) và kiểu phụ (minorType). Khi Gazetteer xử lý một đoạn văn bản, những từ nằm trong danh sách sẽ được chú thích kèm theo kiểu của nhóm. Dựa vào điều này, ta sẽ xây dựng tập ngữ liệu như sau: trong ontology hiện tại có khoảng trên 300 lớp, ứng với mỗi lớp sẽ có một tập các ngữ liệu dùng để nhận diện lớp đó. Như vậy ta sẽ có khoảng 300 danh sách, mỗi danh sách là một tập tin. Tiếp theo, ta tạo một tập tin làm điểm bắt đầu (còn gọi là tập tin chỉ mục) cho Gazetteer, tập tin này liệt kê tên của tất cả các tập tin chứa danh sách, kèm theo tên của lớp trong ontology mà danh sách này được dùng để nhận diện.

GIẢI PHÁP TỔ CHỨC LƢU TRỮ XỬ LÝ TÀI LIỆU TIẾNG VIỆT CÓ NGỮ NGHĨA 31

Một phần của tài liệu TIỂU LUẬN PHƯƠNG PHÁP LUẬN SÁNG TẠO KHOA HỌC Giải pháp tổ chức lưu trữ và xử lý tài liệu văn bản tiếng việt có ngữ nghĩa (Trang 28)

Tải bản đầy đủ (PDF)

(38 trang)