Thiết kế CSDL

Một phần của tài liệu Tìm hiểu phần mềm từ điển kĩ thuật điện Anh Việt (Trang 42)

Hiện tại hệ thống từ điển chuyên ngành điện cũ đang chỉ hỗ trợ song ngữ Anh – Việt và Việt - Ạnh chính vì vậy sẽ hạn chế trong việc hỗ trợ công tác nghiên cứu và tiếp cận với các tài liệu ngoài tiếng Anh. Bởi vậy phương án xây dựng hệ thống từ

38

điển chuyên ngành điện đa ngữ có ưu điểm hơn hẳn hệ thống từ điển song ngữ. Việc tổ chức cơ sở dữ liệu theo một hệ thống thống nhất giảm thiểu được sự dư thừa dữ liệu. Và với một ứng dụng công nghệ thông tin thì thiết kế cơ sở dữ liệu là một trong những công việc quan trọng nhất, đảm bảo sự tối ưu, tiết kiệm, toàn vẹn cho hệ thống.

Hệ thống từ điển tử đa ngữ lấy các dữ liệu tiếng Anh của từ điển Wordnet của đại học Princeton làm gốc. Ta dựa vào cấu trúc cơ sở dữ liệu của Wordnet để xây dựng cấu trúc cơ sở dữ liệu mới cho hệ thống từ điển chuyên ngành điện mới. Trong cấu trúc từ điển Wordnet ban đầu của đại học Princeton, trung tâm của hệ thống là bộ hai tham số bao gồm Pattern và Synset_Offset. Hai tham số này nằm trong file index.pos. Sử dụng tham số Pattern cho phép ta xác định được từ hoặc cụm từ cần tìm kiếm. Dựa vào file index.pos ta xác định được bản ghi chứa Pattern. Trong bản ghi này ta nhận được giá trị của Synset_Offset. Và với các giá trị Synset_Offset, ta nhận được các bản ghi tương ứng trong file data.pos. Mỗi bản ghi cho ta các thông tin về các từ hay cụm đồng nghĩa với Pattern, các Pointer của Pattern theo Synset_Offset hiện tại thông qua các Pointer_Symbol, các giải thích về nghĩa(explain), các ví dụ có thể có của Pattern trong Synset_Offset đó(example). Sau đó, sử dụng các Pointer tìm được để xác định các Pattern có quan hệ với Pattern theo từng Pointer.

Trong hệ thống từ điển chuyên ngành điện mới, vì số lượng ngôn ngữ được mở rộng nên kiến trúc sẽ thay đổi nhiều so với cấu trúc dữ liệu của Wordnet. Những vấn đề đặt ra với cơ sở dữ liệu của hệ thống mới:

Cơ sở dữ liệu của từ điển Wordnet cũ lưu theo cấu trúc file text và giải thuật tìm kiếm thực hiện theo giải thuật tìm kiếm nhị phân. Ở hệ thống mới, cơ sở dữ liệu được lưu trữ và quản lý trong hệ quản trị cơ sở dữ liệu để dễ dàng chỉnh sửa, bổ sung và mở rộng. Điều cần thiết là xác định và chuyển đổi các trường trong các bản ghi trong các file text thành các trường trong dữ liệu mới, phân chia các trường thành các bảng dữ liệu khác nhau.

Bổ sung, chỉnh sửa hay xóa Pattern sẽ phải bổ sung, chỉnh sửa hay xóa vào đâu? Bổ sung, chỉnh sửa hay xóa nghĩa sẽ phải bổ sung, chỉnh sửa hay xóa vào đâu? Bổ sung, chỉnh sửa hay xóa các giải thích của nghĩa, các ví dụ hay các từ có quan hệ như thế nào?

Và quan trọng nhất: Khi thêm hay xóa bỏ một ngôn ngữ phải thực hiện như thế nào? Cần tổ chức như thế nào để việc này thực hiện đơn giản?

Tổ chức cơ sở dữ liệu để việc truy vấn tối ưu?

Giải quyết tất cả các vấn đề trên, xem như ta đã tổ chức xong cơ sở dữ liệu cho hệ thống từ điển điện tử đa ngữ!

39

Một phần của tài liệu Tìm hiểu phần mềm từ điển kĩ thuật điện Anh Việt (Trang 42)

Tải bản đầy đủ (PDF)

(64 trang)