Thiết kế mô hình dữ liệu ontology

Một phần của tài liệu Nghiên cứu Web ngữ nghĩa và ứng dụng trong trợ giúp tìm kiếm văn bản nghiệp vụ hành chính (Trang 79 - 92)

Từ các bước xây dựng ontology đã nêu ở mục trên, chúng tôi tiến hành xây dựng ontology cho văn bản giáo dục như sau :

Bước 1: Xác định miền quan tâm và phạm vi của ontology - Miền quan tâm của ontology: Văn bản trong ngành giáo dục

- Phục vụ mục đích: tìm kiếm thông tin văn bản giáo dục

- Phục vụ đối tượng: là những người có nhu cầu tìm kiếm thông tin về giáo dục hoặc xây dựng hệ thống thông tin về giáo dục.

- Phạm vi của ontology: ngành giáo dục trong cả nước.

Bước 2: Xem xét việc kế thừa các ontology có sẵn

Đối với ontology văn bản giáo dục, không có sự thừa kế từ các ontology có sẵn.

Bước 3: Liệt kê các thuật ngữ quan trọng trong ontology

Văn bản, lĩnh vực, loại văn bản, cơ quan, thời gian, nội dung văn bản, cá nhân...

Với bài toán ta sẽ xây dựng một ontology định nghĩa văn bản trong ngành giáo dục có 7 class chính :

- Linh_vuc : class mô tả về lĩnh vực mà một văn bản cụ thể đề cập đến. - Loai_van_ban : class mô tả về loại văn bản được đề cập đến.

- Thoi_gian : class mô tả về yếu tố thời gian có liên quan đến văn bản.

- Co_quan : class mô tả về các cơ quan liên quan trong văn bản, đồng thời đây cũng là kho dữ liệu lưu trữ thông tin của các cơ quan.

- Ca_nhan : class mô tả về các cá nhân có liên quan trong văn bản, đồng thời đây cũng là kho dữ liệu lưu trữ thông tin của nhiều cá nhân.

- Noi_dung : class mô tả về nội dung của văn bản, nội dung của văn bản sẽ được phân loại nhờ vào class con Kieu_noi_dung.

- Van_ban : class bao quát nhất, miêu tả cụ thể rõ ràng đối tượng chính là văn bản. Class này chứa dữ liệu liên quan đến tất cả các class còn lại.

Bước 5 + 6: Định nghĩa các thuộc tính và quan hệ cho lớp, định nghĩa các ràng buộc về thuộc tính và quan hệ của lớp

Để trình bày rõ hơn về các Class cơ bản trong ontology văn bản giáo dục, chúng tôi sẽ miêu tả kèm theo sơ đồ mô phỏng từng Class liên quan.

Class Linh_vuc

Class này ta sẽ định nghĩa các class con miêu tả các thuộc tính lĩnh vực cơ bản liên quan đến văn bản trong nghành giáo dục đó là :

- Id_linh_vuc : là class con của class Linh_vuc, thể hiện ID của lĩnh vực mà văn bản liên quan.

- Ten_linh_vuc : là object property liên hệ giữa class Linh_vuc và class Van_ban.

Hình 3.10. Sơ đồ mô tả class Linh_vuc

Class này định nghĩa các class con liên quan đến vấn đề phân loại văn bản đó là:

- Id_loai_van_ban : là class con của class Loai_van_ban, thể hiện ID phân loại của văn bản

- Ten_loai_van_ban : là object property liên hệ giữa class Loai_van_ban và class Van_ban.

Hình 3.11. Sơ đồ mô tả class Loai_van_ban

Class Co_quan

Class này định nghĩa các class con liên quan đến một đơn vị, cơ quan cụ thể. Class Co_quan có các class con sau :

- Id_co_quan : là class con của class Co_quan, thể hiện ID của cơ quan có liên quan trong văn bản.

- Cap_bac : class thể hiện cấp bậc của cơ quan. (adsbygoogle = window.adsbygoogle || []).push({});

- Ten_co_quan : là object property liên hệ giữa class Co_quan và class Van_ban.

- Nhiem_vu_co_quan : thể hiện nhiệm cụ của cơ quan trong văn bản.

Hình 3.12. Sơ đồ mô tả class Co_quan

Class định nghĩa các class con về mặt thời gian liên quan đến văn bản. Class Thoi_gian có các class con sau :

- Id_thoi_gian : là class con thể hiện ID của thời gian liên quan đến văn bản. - Loai_thoi_gian : là object property liên hệ giữa class Thoi_gian và class

Van_ban.

Hình 3.13. Sơ đồ mô tả class Thoi_gian

Class Ca_nhan

Class định nghĩa các class con về mặt cá nhân liên quan đến văn bản. Class Ca_nhan có các class con sau :

- Id_ca_nhan : thể hiện ID của cá nhân có liên quan đến văn bản.

- Ho_ten : là object property liên hệ giữa class Ca_nhan và class Van_ban. - CMND : là class con thể hiện chứng minh nhân dân và các thông tin có liên

quan của cá nhân.

- Chuc_vu : thể hiện thông tin chức vụ của cá nhân.

- Trinh_do : thể hiện thông tin trình độ học vấn của cá nhân.

- Ten_co_quan : là object property liên hệ giữa class Co_quan và class Ca_nhan.

- Nhiem_vu_ca_nhan : là class con thể hiện nhiệm vụ của cá nhân có liên quan trong văn bản.

Hình 3.14. Sơ đồ mô tả class Ca_nhan

Class Noi_dung

Class định nghĩa các class con về nội dung của văn bản. Class Noi_dung bao gồm :

- Trich_luoc_noi_dung : là object property liên hệ giữa class Noi_dung và class Van_ban.

- Noi_dung_day_du : là class con thể hiện nội dung đầy đủ của văn bản.

Hình 3.15. Sơ đồ mô tả class Noi_dung

Class Van_ban

Class Van_ban là class đặc biệt trong ontology. Class Van_ban chứa các class con, các Object Properties và các Data Properties để liên kết với các class khác tạo thành một ontology hoàn chỉnh về văn bản trong ngành giáo dục. Class Van_ban chứa các Object Properties sau :

- ID_van_ban : là class con thể hiện ID của từng văn bản cụ thể.

- Ten_loai_van_ban : là object property liên kết class Van_ban và class Loai_van_ban.

- Ten_co_quan : là object property liên kết class Van_ban và class Co_quan. - Ten_linh_vuc : là object property liên kết class Van_ban và class Linh_vuc. - Loai_thoi_gian : là object property liên kết class Van_ban và class

Thoi_gian.

- Trich_luoc_noi_dung : là object property liên kết class Van_ban và class Noi_dung.

Hình 3.16. Sơ đồ mô tả class Van_ban (adsbygoogle = window.adsbygoogle || []).push({});

Tổng quát ontology

Từ các sơ đồ trên, chúng ta có sơ đồ tổng quát thể hiện liên kết giữa các class trong ontology như sau :

Hình 3.17. Sơ đồ mô tả tổng quát ontology

Bước 7: Tạo các thực thể cho lớp

Hình 3.18. Ontology văn bản giáo dục được xây dựng bằng công cụ Protégé

3.5. CHƯƠNG TRÌNH THỬ NGHIỆM VÀ ĐÁNH GIÁ KẾT QUẢ

3.5.1 Trang chủ hệ thống

3.5.2 Màn hình hiển thị tất cả kết quả tìm kiếm

Hình 3.20. Màn hình hiển thị tất cả kết quả tìm kiếm

Đối với kết quả thực nghiệm với hệ thống tìm kiếm văn bản hành chính đắc biệt là trong ngành giáo dục, ứng dụng cho phép người dùng có thể tìm kiếm văn bản ở mức cơ bản hoặc tìm kiếm nâng cao hoặc cũng có thể đưa ra những gợi ý cho người dùng khi có nhiều kết quả trùng nhau.

đến văn bản

Lần lượt ta nhập thông tin cần tìm kiếm để kiểm tra. Kết quả chương trình sẽ thể hiện kết quả tìm kiếm của văn bản liên quan đến nội dung cần và kết quả cho độ chính xác cao.

3.5.4 Màn hình hiển thị thông tin tác giả

Hình 3.23. Màn hình hiển thị thông tin tác giả

Đây là phần thể hiện thông tin của tên đề tài ,cán bộ hướng dẫn đề tài và học viên thực hiện để tài.

3.5.6 Đánh giá chương trình thử nghiệm

Dựa trên ontology đã xây dựng, website đã có thể cho phép người dùng tìm kiếm văn bản giáo dục chính xác hơn. Sử dụng ngôn ngữ truy vấn SPARQL truy vấn dữ liệu. Việc truy vấn này không tìm theo dữ liệu thuần túy, mà dựa trên dữ liệu có nghĩa, theo các element được định nghĩa trong RDF trước đó.

Chúng tôi đã xây dựng được ontology và website tìm kiếm văn bản giáo dục trong trường Cao đẳng Nghề Đà Nẵng. Tuy nhiên, vì điều kiện thời gian không cho phép nên ontology còn hạn hẹp và website hoạt động chưa thực sự ổn định.

KẾT LUẬN

1. Kết quả đạt được của luận văn

Việc nghiên cứu, ứng dụng semantic web để xây dựng website tìm kiếm văn bản đã thu được những kết quả ban đầu. đáng khích lệ.

Về mặt lý thuyết, nghiên cứu này đã nêu được những nét đặc trưng, ưu thế của web semantic. Bên cạnh đó, dựa trên việc tìm hiểu những ngôn ngữ, công cụ hỗ trợ lập trình web ngữ nghĩa, luận văn đã đưa ra được một ontology về văn bản giáo dục, cơ bản xây dựng được một website tìm kiếm văn bản theo chuẩn semantic web

Đối với kết quả thực nghiệm với hệ thống tìm kiếm văn bản trong ngành giáo dục, ứng dụng cho phép người dùng có thể tìm kiếm văn bản ở mức cơ bản hoặc tìm kiếm nâng cao hoặc cũng có thể đưa ra những gợi ý cho người dùng khi có nhiều kết quả trùng nhau.

Với việc sử dụng hệ truy vấn SPARQL, việc truy vấn dữ liệu sẽ không tìm theo dữ liệu thuần túy, mà dựa trên dữ liệu có nghĩa, theo các element được định nghĩa trong RDF trước đó.

2. Hạn chế của hệ thống

Bên cạnh thành công đạt được thì nghiên cứu vẫn còn những hạn chế, đó là ontology chỉ ở mức độ nhỏ, chưa thật sự lớn và phong phú. Ta cần phải có được dữ liệu ontology đầy đủ để đánh giá mức độ xử lý tìm kiếm chính xác cũng như mức độ đáp ứng được bao nhiêu người dùng truy cập ứng dụng cùng một lúc.

Ngoài ra, còn chưa có sự kết nối giữa dữ liệu được trích rút từ WWW và dữ liệu trong ontology. Chức năng trích rút thuộc tính tự động này còn đang được nghiên cứu và có nhiều điểm chưa thống nhất trong các nghiên cứu khác nhau trên thế giới. Bên cạnh đó, việc cài đặt vẫn ở máy local, chưa triển khai lên một server trên Internet.

3. Hướng phát triển của luận văn

Trong tương lai luận văn này có thể tiếp tục phát triển để ứng dụng được vào thực tiễn. Để đạt được mục đích này cần phải xây dựng hệ thống bóc tách thông tin

tự động, một chương trình sẽ tự động dò tìm các trang web trên mạng và tiến hành bóc tách theo các thuật toán rẽ nhánh thông minh. (adsbygoogle = window.adsbygoogle || []).push({});

Mở rộng phạm vi của ontology ra cả nước để xây dựng website tìm kiếm văn bản chung cho cả nước. Triển khai ứng dụng thực tế trên internet, phát triển website trở thành một diễn đàn có thể cho phép người sử dụng có thể thêm mới hoặc sửa đổi thông tin văn bản. Trên đây là toàn bộ nghiên cứu về lý thuyết và ứng dụng semantic web để xây dựng hệ thống tìm kiếm văn bản.

TÀI LIỆU THAM KHẢO Tiếng Việt

[1] Từ Minh Phương, Trịnh Hữu Kiên (2004), Công cụ hỗ trợ tạo ngữ nghĩa trang web sử dụng kỹ thuật tách thông tin từ văn bản

[2] Đông Thị Bích Thủy, Hồ Bảo Quốc (2000), Ứng dụng xử lý ngôn ngữ tự nhiên trong hệ thống tìm kiếm thông tin trên tiếng Việt. Khoa Công Nghệ Thông Tin – Đại học Khoa học tự nhiên TP.HCM

[3] Võ Hoàng Nguyên, Hoàng Lê Quân (2009), Giới thiệu semantic web & ontology, Trường Đại học Bách khoa, TP Hồ Chí Minh.

[4] Lê Thuý Ngọc, Đỗ Mỹ Nhung (2004), Tìm hiểu về search engine và xây dựng ứng dụng minh hoạ cho search engine tiếng Việt, Trường đại học khoa học tự nhiên, TP Hồ Chí Minh.

[5] Nguyễn Thị Thu Trang (2009), Xây dựng 1 hệ thống hỏi đáp tự động phục vụ tư vấn ghi danh trực tuyến, Trường Đại học Khoa học tự nhiên, TP Hồ Chí Minh.

Tiếng Anh

[5] John Hebeler, Matthew Fisher, Ryan Blace, Andrew Perez-Lopez (2009),

Semantic Web Programming, Wiley Publishing, Manhattan.

[6] Thomas B. Passin (2004), Explorer's Guide to the Semantic Web, Manning Publications Co, United States.

[7] Sean Bechhofer, Ian Horrocks and Peter F. Patel-Schneider, (2003), Tutorial on OWL, ISWC, Sanibel Island, Florida, USA

[8] Sanjib K. Sahu, Neeraj Seth, Sanjay Kumar Malik, Nupur Prakash, SAM Rizvi (2008), The Semantic Web Summary : - NextGeneration Search.

[9] Michael C.Dacota, Leo J. Obrst, Kevin T. Smith (2003), The Semantic Web, Wiley Publisher, ch 1,2, 7.

Internet

[10] http://www.w3schools.com/webweb_semantic.asp Trang viết về semantic web của w3schools.

[11] http://www.w3.org/TRrdf-sparql-query Hệ truy vấn SPARQL [12] http://razor.occams.info/codesemweb Trang chủ thư viện SemWeb [13] http://nlv.gov.vn/nghiep-vu-thu-vien/semantic-web-va-thu-vien-so.html [14] http://mach.vub.ac.be/~bpellens/OwlDotNetApi công cụ lập trình ứng dụng

OWLDotNetApi

[15] http://lenam.info/cac-bo-phan-cau-thanh-thong-search-engine/ [16] http://protégé.stanford.edu Trang chủ công cụ Protégé.

Một phần của tài liệu Nghiên cứu Web ngữ nghĩa và ứng dụng trong trợ giúp tìm kiếm văn bản nghiệp vụ hành chính (Trang 79 - 92)