Tác giả sử dụng các kỹ thuật của Semantic Web để xây dựng cơ sở dữ liệu luật với các lý do sau. Semantic Web là một hướng đi mới trong lĩnh vực tìm kiếm vì Semantic Web tập trung vào ngữ nghĩa khơng như các kỹ thuật tạo chỉ mục hiện nay chỉ quan tâm tới từ khĩa xuất hiện trong nội dung tìm kiếm. Với việc tập trung vào ngữ nghĩa sẽ cho phép tìm kiếm với nhiều lựa chọn như thế khả năng tìm thấy các tài liệu cần tìm sẽ chính xác hơn. Phạm vi của chương trình ứng dụng Semantic Web này khơng nhằm hiện thực một ứng dụng mang đầy đủ sắc thái của khái niệm Semantic Web do Tim Berners Lee đưa ra như trên. Thực tế hiện nay Semantic web vẫn chưa thành hiện thực và các nhà khoa học vẫn đang nghiên cứu và phát triển tiếp. Đề tài sẽ ứng dụng các kỹ thuật và sự
HU
TE
CH
hỗ trợ từ các framework cho Semantic Web để xây dựng ứng dụng tra cứu cơ sở dữ liệu luật.
Để cĩ thể tìm kiếm trong các RDF thì các tập tin RDF phải được đưa lên bộ nhớ dưới dạng các model. Jena hỗ trợ hai dạng lưu là trong bộ nhớ RAM máy tính và trong cơ sở dữ liệu. Lưu trong RAM địi hỏi phải cĩ bộ nhớ lớn nếu cĩ nhiều model hoặc nhiều phát biểu trong mỗi model. Hơn nữa dữ liệu chỉ tồn tại tạm thời do đĩ khơng hợp để xây ứng dụng. Do đĩ tác giả quyết định chọn phương án lưu các model trong cơ sở dữ liệu. Hiện Jena hỗ trợ 3 hệ quản trị cơ sở dữ liệu là PostgreSQL, MySQL và Oracle. Tác giả chọn sử dụng PostgreSQL vì đây là hệ quản trị cơ sở dữ liệu nguồn mở rất mạnh và ổn định. PostgreSQL cĩ thể chạy trên nền tảng Windows lẫn Linux.
Các văn bản luật html sẽ được đánh dấu vào Chương, Mục, Điều để tìm kiếm và cĩ thể mở đúng chỗ trong văn bản. Các tập tin văn bản luật html và RDF sẽ được nạp vào cơ sở dữ liệu. Việc nạp RDF phải thơng qua cớ chế của Jena vì RDF lưu trong cơ sở dữ liệu ở một định dạng riêng của Jena. Các tập tin html sẽ đựơc nạp khơng thơng qua Jena.
Yêu cầu chương trình:
Thời gian tìm kiếm phải nhanh khơng quá 10 giây. Chương trình phải hỗ trợ quản lý dữ liệu RDF dễ dàng.