Thiết kế hệ thống

VN-KIM được thiết kế với kiến trúc và các chức năng cơ bản tương tự như của KIM (Knowledge & Information Management) ([10]). Tuy nhiên, VN-KIM phải xử lý tiếng Việt và nhận diện thực thể có tên thuộc miền tin tức ở Việt Nam. Ngoài ra, hệ thống còn cho phép truy hồi thông tin gần đúng và bằng đồ thị khái niệm (Conceptual Grapgs) ([11]).

Vấn đề xử lý song song các yêu cầu cũng là một mục tiêu đặt ra trong thiết kế. Hình 2.1 mô tả tổng quan kiến trúc của VN-KIM.

Hình 2.1 Kiến trúc của VN-KIM

API truy vấn tài liệu

API đánh chỉ mục tài liệu API truy vấn cơ

sở tri thức Ứng dụng truy

vấn cơ sở tri thức Ứng dụng truy vấn tài liệu

Các ứng dụng khai thác VN-KIM khác

Lucene

Ontology và cơ sở tri thức của VN-KIM

Seasame

API lưu trữ tài liệu đã chú

thích Trình duyệt

Web

API quản lý cơ sở tri thức Ứng dụng xây dựng

cơ sở tri thức

API chú thích ngữ nghĩa cho

tài liệu Plug-in vào

trình duyệt

Ứng dụng sinh chú thích cho tài liệu

GATE Thành phần rút trích

thông tin Ứng dụng thu

thập tài liệu

A B Thành phần A sử dụng thành phần B Các tài liệu Web đã

chú thích

Ontology và cơ sở tri thức

Mặc dù miền dữ liệu của đề tài là các thực thể có tên phổ biến trong các trang Web tin tiếng Việt, trên thực tế các tin tức vẫn có thể đề cập đến các thực thể trên thế giới. Vì vậy Ontology của VN-KIM được thiết kế theo hướng kết hợp với Ontology của KIM. Để thực hiện điều này cần ánh xạ hợp lý các khái niệm tiếng Anh với các khái niệm tiếng Việt.

Ngoài ra, Ontology của KIM còn sơ sài, cần được bổ sung thêm các thuộc tính và quan hệ của các thực thể một cách đầy đủ hơn, để cho phép các ứng dụng có thể khai thác hiệu quả cơ sở tri thức.

Sau khi có Ontology, công việc tiếp theo là xây dựng một cơ sở tri thức về các thực thể ứng với các lớp thực thể trong đó. Việc xây dựng một cơ sở tri thức như vậy là một quá trình lâu dài, đòi hỏi nhiều thời gian và công sức. Do đó, để có định hướng trong việc thu thập dữ liệu, mục tiêu của đề tài chỉ tập trung vào mười miền thực thể phổ biến và quan trọng nhất được đề cập đến trong các tin tức là:

1. Nhân vật (ngày sinh, nơi sinh, giới tính, chức vụ, …).

2. Tổ chức (ngày thành lập, trụ sở, chức năng, chủ tịch, ...).

3. Công ty (ngày thành lập, trụ sở, chức năng, giám đốc, …).

4. Thành phố (diện tích, dân số, số quận huyện, chủ tịch, ...).

5. Tỉnh (diện tích, dân số, số vùng, chủ tịch, ...).

6. Núi non (vị trí, độ cao, phạm vi địa lý, độ tuổi, ...).

7. Sông ngòi (vị trí, chiều dài, phạm vi, lưu lượng, .…).

8. Con đường (vị trí, chiều dài, phạm vi, đặc tính giao thông, …).

9. Địa điểm đặc biệt (vị trí, vai trò, quy mô, đơn vị quản lý, ...).

10. Tên khác của các thực thể (bí danh, viết tắt, phiên âm, ...).

Để đảm bảo cho quá trình rút trích thực thể có tên đạt được hiệu quả cao, số lượng thực thể trong cơ sở tri thức phải đủ lớn. Vấn đề đặt ra là phải tìm các nguồn tài liệu về thực thể có tên ở Việt Nam đáng tin cậy và được nhiều tổ chức công nhận và sử dụng.

Chúng tôi sử dụng Sesame ([6]), một hệ thống mã nguồn mở, để quản trị cơ sở tri thức biểu diễn bằng RDF và RDFS (RDF Schema).

Rút trích thông tin

GATE (General Architecture for Text Engineering) ([3]), là một cơ sở hạ tầng để xây dựng và phát triển các thành phần phần mềm xử lý ngôn ngữ tự nhiên, đặc biệt là trong

lĩnh vực rút trích thông tin. Sau khi nghiên cứu mô hình của KIM và của hệ thống rút trích thông tin ANNIE của GATE, chúng tôi có một số nhận xét sau:

1. Hai thành phần chính trong việc nhận biết thực thể có tên là thành phần tra cứu cụm từ (Gazetteer) và văn phạm so trùng mẫu (Entity Pattern-Matching Grammar).

2. Các thành phần xử lý ngôn ngữ tự nhiên, bao gồm thành phần tách câu (Sentence Splitter) và thành phần gán nhãn từ loại (POS Tagger), chỉ cung cấp thêm thông tin để giải quyết một số mập mờ và nhận biết thêm một số thực thể mới nhằm nâng cao hiệu quả của hệ thống.

3. Thành phần tra cứu cụm từ và các thành phần xử lý ngôn ngữ tự nhiên hoạt động hoàn toàn độc lập với nhau.

Vấn đề xử lý tiếng Việt hiện nay còn gặp nhiều khó khăn do chưa có sự thống nhất của các nhà ngôn ngữ học về các khái niệm cơ bản của tiếng Việt, ví dụ như thế nào là một từ, có bao nhiêu từ loại trong tiếng Việt, ... Các công cụ cơ bản để phân đoạn từ và gán nhãn từ loại cũng chưa được chia sẻ và dùng chung, nên hầu như phải xây dựng từ đầu.

Do đó, trong thiết kế của thành phần rút trích thông tin của VN-KIM (VN-KIM IE), chúng tôi tách biệt quá trình tra cứu cụm từ và quá trình xử lý tiếng Việt, để hai thành phần này có thể được phát triển song song. Với giải pháp này, sẽ sớm có được một phiên bản thử nghiệm của thành phần rút trích thông tin, khi chưa dùng đến các thông tin do quá trình xử lý tiếng Việt cung cấp.

Truy hồi thông tin

Thông tin có thể truy hồi trong VN-KIM là các thực thể có tên trong cơ sở tri thức và các tài liệu trong kho tài liệu đã chú thích. Các tài liệu được tìm kiếm theo thực thể có tên, nên việc trả lời một truy vấn tài liệu được thực hiện qua bước tìm kiếm thực thể trước. Về dạng truy vấn, trong khi các mẫu cố định thiếu tính linh hoạt và khả năng diễn đạt, ngôn ngữ truy vấn SeRQL của Sesame lại có cú pháp không thân thiện đối với người sử dụng.

Vì vậy, VN-KIM có thêm một dạng truy vấn mới là đồ thị khái niệm. Nhằm tận dụng cơ chế truy hồi thông tin của Sesame, một đồ thị truy vấn sẽ được dịch thành một phát biểu SeRQL tương đương để thực thi.

Khắc phục hạn chế của KIM, VN-KIM cũng cho phép truy hồi gần đúng các thực thể có tên, do sai lệch về lớp và tên thực thể và lớp quan hệ giữa chúng. Các độ đo về tính

tương tự và bao phủ giữa các lớp thực thể và quan hệ, cũng như giữa các chuỗi kí tự, được nghiên cứu và định nghĩa. Cũng nhằm tận dụng động cơ trả lời truy vấn của Sesame, kỹ thuật biến đổi truy vấn được áp dụng, thay vì tiến hành so trùng gần đúng trực tiếp giữa đồ thị truy vấn với các đồ thị trong cơ sở tri thức. Theo đó, câu truy vấn biến đổi sẽ được trả lời chính xác, và các câu trả lời chính xác này sẽ được so trùng với câu truy vấn gốc để tính toán độ gần đúng của chúng.

Để người dùng có thể tìm kiếm các trang Web đã được chú thích theo các thực thể có tên, thay vì theo từ khoá, chúng tôi sử dụng Lucence ([8]) để quản trị kho trang Web này. Lucene là một thư viện mã nguồn mở cung cấp các phương thức để lập chỉ mục tài liệu theo các trường dữ liệu mà người dùng quy định như trường nội dung, trường tiêu đề,

…, và để lưu trữ tài liệu, tìm kiếm tài liệu theo các trường và sắp xếp các kết quả tìm được.

Hệ thống máy chủ

Đề tài được trang bị bốn máy chủ HP chuyên dụng, với tốc độ xử lý của mỗi máy khoảng 5,6 GHz. Một máy chủ được sử dụng để đón nhận và phân tải các yêu cầu theo một mô hình hiệu quả. Ba máy chủ còn lại được sử dụng làm các dịch vụ chú thích, dịch vụ truy cập cơ sở tri thức, và dịch vụ truy cập kho tài liệu đã chú thích. Tuy nhiên, hệ thống máy chủ được thiết kế theo hướng mở rộng trong tương lai, khi đó mỗi dịch vụ được đảm nhận bởi một nhóm nhiều máy chủ.

Các công nghệ và ngôn ngữ hỗ trợ

Thiết kế và xây dựng Ontology