VN-KIM được thiết kế với kiến trúc và các chức năng cơ bản tương tự như của KIM. Tuy nhiên, VN-KIM phải xử lý tiếng Việt và nhận diện thực thể có tên thuộc miền tin tức ở Việt Nam. Ngoài ra, hệ thống còn cho phép truy hồi thông tin gần đúng và bằng đồ thị khái niệm. Vấn đề xử lý song song các yêu cầu cũng là một mục tiêu đặt ra trong thiết kế.
Hình 2.4.1 mô tả tổng quan kiến trúc của VN-KIM.
Hình 2.4.1 Kiến trúc của VN-KIM
Ontology và cơ sở tri thức
Mặc dù miền dữ liệu của đề tài là các thực thể có tên phổ biến trong các trang Web tin tiếng Việt, trên thực tế các tin tức vẫn có thể đề cập đến các thực thể trên thế giới. Vì vậy Ontology của VN-KIM được thiết kế theo hướng kết hợp với Ontology của KIM. Để thực hiện điều này cần ánh xạ hợp lý các khái niệm tiếng Anh với các khái niệm tiếng Việt.
Ngoài ra, Ontology của KIM còn sơ sài, cần được bổ sung thêm các thuộc tính và quan hệ
API truy vấn tài
liệu API đánh chỉ
mục tài liệu API truy vấn cơ
sở tri thức Ứng dụng truy
vấn cơ sở tri thức
Ứng dụng truy vấn tài liệu
Các ứng dụng khai thác VN-KIM khác
Lucene
Ontology và cơ sở tri thức của VN-KIM
Seasame
API lưu trữ tài liệu đã chú
thích Trình duyệt
Web
API quản lý cơ sở tri thức Ứng dụng xây dựng cơ sở tri
thức
API chú thích ngữ nghĩa cho
tài liệu Plug-in vào trình duyệt
Ứng dụng sinh chú thích cho tài
liệu
GATE Thành phần rút trích
thông tin Ứng dụng thu
thập tài liệu
A B Thành phần A sử dụng thành phần B Các tài liệu Web đã
chú thích
của các thực thể một cách đầy đủ hơn, để cho phép các ứng dụng có thể khai thác hiệu quả cơ sở tri thức.
Sau khi có Ontology, công việc tiếp theo là xây dựng một cơ sở tri thức về các thực thể ứng với các lớp thực thể trong đó. Việc xây dựng một cơ sở tri thức như vậy là một quá trình lâu dài, đòi hỏi nhiều thời gian và công sức. Do đó, để có định hướng trong việc thu thập dữ liệu, mục tiêu của đề tài chỉ tập trung vào mười miền thực thể phổ biến và quan trọng nhất được đề cập đến trong các tin tức là:
1. Nhân vật (ngày sinh, nơi sinh, giới tính, chức vụ, …).
2. Tổ chức (ngày thành lập, trụ sở, chức năng, chủ tịch, ...).
3. Công ty (ngày thành lập, trụ sở, chức năng, giám đốc, …).
4. Thành phố (diện tích, dân số, số quận huyện, chủ tịch, ...).
5. Tỉnh (diện tích, dân số, số vùng, chủ tịch, ...).
6. Núi non (vị trí, độ cao, phạm vi địa lý, độ tuổi, ...).
7. Sông ngòi (vị trí, chiều dài, phạm vi, lưu lượng, .…).
8. Con đường (vị trí, chiều dài, phạm vi, đặc tính giao thông, …).
9. Địa điểm đặc biệt (vị trí, vai trò, quy mô, đơn vị quản lý, ...).
10. Tên khác của các thực thể (bí danh, viết tắt, phiên âm, ...).
Để đảm bảo cho quá trình rút trích thực thể có tên đạt được hiệu quả cao, số lượng thực thể trong cơ sở tri thức phải đủ lớn. Vấn đề đặt ra là phải tìm các nguồn tài liệu về thực thể có tên ở Việt Nam đáng tin cậy và được nhiều tổ chức công nhận và sử dụng.
Rút trích thông tin
Sau khi nghiên cứu mô hình rút trích thông tin của KIM và của hệ thống rút trích thông tin ANNIE ([35]), chúng tôi có một số nhận xét sau:
1. Hai thành phần chính trong việc nhận biết thực thể có tên là thành phần tra cứu cụm từ (Gazetteer) và văn phạm so trùng mẫu (Entity Pattern-Matching Grammar).
2. Các thành phần xử lý ngôn ngữ tự nhiên, bao gồm thành phần tách câu (Sentence Splitter) và thành phần gán nhãn từ loại (POS Tagger), chỉ cung cấp thêm thông tin để giải quyết một số mập mờ và nhận biết thêm một số thực thể mới nhằm nâng cao hiệu quả của hệ thống.
3. Thành phần tra cứu cụm từ và các thành phần xử lý ngôn ngữ tự nhiên hoạt động hoàn toàn độc lập với nhau.
Vấn đề xử lý tiếng Việt hiện nay còn gặp nhiều khó khăn do chưa có sự thống nhất của các nhà ngôn ngữ học về các khái niệm cơ bản của tiếng Việt, ví dụ như thế nào là một từ, có bao nhiêu từ loại trong tiếng Việt, ... Các công cụ cơ bản để phân đoạn từ và gán nhãn từ loại cũng chưa được chia sẻ và dùng chung, nên hầu như phải xây dựng từ đầu.
Do đó, trong thiết kế của thành phần rút trích thông tin của VN-KIM (VN-KIM IE), chúng tôi tách biệt quá trình tra cứu cụm từ và quá trình xử lý tiếng Việt, để hai thành phần này có thể được phát triển song song. Với giải pháp này, sẽ sớm có được một phiên bản thử nghiệm của thành phần rút trích thông tin, khi chưa dùng đến các thông tin do quá trình xử lý tiếng Việt cung cấp. Hình 2.4.2 cho thấy các module và sự liên kết giữa chúng trong thành phần rút trích thông tin của VN-KIM.
Hình 2.4.2 Thành phần rút trích thông tin của VN-KIM
Phân đoạn từ đơn giản
So trùng cụm từ Tách câu
Phân tích từ loại
So trùng mẫu
Liên kết thực thể giống Nhau
Phân giải mập mờ Ontology
&
cơ cở tri thức Tài liệu
(HTML, XML, ...)
Thành phần không có tương tác với cơ sở tri thức Thành phần có tương tác với cơ sở tri thức
Phân đoạn từ
Thông tin chú thích
Xử lý ngôn
ngữ tự nhiên
tiếng Việt
VN-KIM IE
Truy hồi thông tin
Hình 2.4.3 Truy hồi thông tin trong VN-KIM
Thông điệp XML đặc tả truy vấn
API truy vấn cơ sở tri thức
API truy vấn tài liệu
Ontology và cơ sở tri thức của VN-KIM
Danh sách thực thể có tên thỏa câu
truy vấn
Đồ thị khái niệm 1
Ứng dụng truy vấn tài liệu
2
3
4
Câu truy vấn thực thể có
tên
Thư viện Lucene
Thông tin chỉ mục 5
Câu truy vấn tài liệu
theo thực thể có tên
Kho tài liệu đã chú thích API lưu trữ tài liệu
đã chú thích 10
Tài liệu thỏa câu truy vân
7
8
Vị trí lưu trữ tài liệu thỏa mãn câu truy vấn
Vị trí tài liệu thỏa mãn câu truy vấn
11
Danh sách các tài liệu thỏa câu truy vân
Luồng thực thi của quá trình lập chỉ mục tài liệu
6
9
Thông tin có thể truy hồi trong VN-KIM là các thực thể có tên trong cơ sở tri thức và các tài liệu trong kho tài liệu đã chú thích. Các tài liệu được tìm kiếm theo thực thể có tên, nên việc trả lời một truy vấn tài liệu được thực hiện qua bước tìm kiếm thực thể trước. Về dạng truy vấn, trong khi các mẫu cố định thiếu tính linh hoạt và khả năng diễn đạt, SeRQL lại có cú pháp không thân thiện đối với người sử dụng. Vì vậy, VN-KIM có thêm một dạng truy vấn mới là đồ thị khái niệm. Nhằm tận dụng cơ chế truy hồi thông tin của Sesame, một đồ thị truy vấn sẽ được dịch thành một phát biểu SeRQL tương đương để thực thi. Hình 2.4.3 mô tả quá trình truy vấn cơ sở tri thức và kho tài liệu có chú thích của VN-KIM.
Khắc phục hạn chế của KIM, VN-KIM cũng cho phép truy hồi gần đúng các thực thể có tên, do sai lệch về lớp và tên thực thể và lớp quan hệ giữa chúng. Các độ đo về tính tương tự và bao phủ giữa các lớp thực thể và quan hệ, cũng như giữa các chuỗi kí tự, được nghiên cứu và định nghĩa. Cũng nhằm tận dụng động cơ trả lời truy vấn của Sesame, kỹ thuật biến đổi truy vấn được áp dụng, thay vì tiến hành so trùng gần đúng trực tiếp giữa đồ thị truy vấn với các đồ thị trong cơ sở tri thức. Theo đó, câu truy vấn biến đổi sẽ được trả lời chính xác, và các câu trả lời chính xác này sẽ được so trùng với câu truy vấn gốc để tính toán độ gần đúng của chúng.
Xử lý song song các yêu cầu
Như đã trình bày ở trên, có ba loại yêu cầu gửi đến hệ thống VN-KIM là: (1) Tìm kiếm thực thể; (2) Tìm kiếm tài liệu; và (3) Chú thích ngữ nghĩa. Tìm kiếm thực thể thực chất là so trùng đồ thị truy vấn với các đồ thị RDF trong cơ sở tri thức và có thể được song song hoá ở ba mức:
1. Mức dữ liệu: bằng cách phân mảnh cơ sở tri thức và thực hiện truy vấn phân bố.
2. Mức tác vụ: bằng cách thực hiện một giải thuật song song cho từng tác vụ so trùng hai đồ thị.
3. Mức yêu cầu: bằng cách phân phối và cân bằng tải chung cho tất cả các yêu cầu gửi đến hệ thống.
Để có cơ sở cho việc phân mảnh, cách thứ nhất chỉ hiệu quả khi biết trước được các mẫu truy vấn mà người dùng thường đặt ra. Cách thứ hai nghĩa là phải sửa đổi mã nguồn
Sesame để tối ưu tác vụ so trùng đồ thị của nó. Tuy nhiên, Sesame vẫn đang tiếp tục được phát triển và mã nguồn nếu chúng tôi sửa đổi có thể không tương thích với các phiên bản mới của Sesame. Do vậy, chúng tôi chọn cách thứ ba, không chỉ cho yêu cầu tìm kiếm thực thể mà còn cho các yêu cầu truy hồi thông tin và chú thích ngữ nghĩa.
Đề tài được trang bị bốn máy chủ HP chuyên dụng, với tốc độ xử lý của mỗi máy khoảng 5,6 GHz. Một máy chủ được sử dụng để đón nhận và phân tải các yêu cầu theo một mô hình hiệu quả. Ba máy chủ còn lại được sử dụng làm các dịch vụ chú thích, dịch vụ truy cập cơ sở tri thức, và dịch vụ truy cập kho tài liệu đã chú thích. Tuy vậy, hệ thống máy chủ được thiết kế theo hướng mở rộng trong tương lai, khi đó mỗi dịch vụ được đảm nhận bởi một nhóm nhiều máy chủ.
Chương 3
Xây dựng Ontology và cơ sở tri thức