Pattern-Kho từ vựng

Một phần của tài liệu QUẢN Lý d6cntt epu dai (Trang 37 - 38)

- Quản lý các baì viết của User

a) Pattern-Kho từ vựng

Kho từ vựng là thành phần mấu chốt của một từ điển nói chung và từ điển điện tử nói riêng. Độ lớn và độ chính xác của kho từ vựng thể hiện chất lượng của từ điển.Trong các hệ thống từ điển thông thường, kho từ vựng hay Pattern luôn gắn liền với ngôn ngữ để chỉ rõ từ vựng hay Pattern nào đó thuộc về ngôn ngữ cụ thể. Từ đó có thể có nhiều xu hướng lưu trữ kho từ vựng. Có thể xây dựng kho từ vựng của từng ngôn ngữ riêng hay xây dựng kho từ vựng chung cho tất cả ngôn ngữ. Cách xây dựng đầu tiên cho phép lược bỏ trường ngôn ngữ nhưng gồm các bảng rời rạc. Cách xây dựng thứ hai làm tăng số trường trong kho từ vựng và tạo ra sự dư thừa. Trong kiến trúc này, Pattern là một bảng dữ liệu độc lập: độc lập với ngôn ngữ. Có nghĩa là, kho từ vựng theo kiến trúc này không còn phụ thuộc nó vào ngôn ngữ nào cụ thể. Một từ vựng có thể thuộc bất cứ ngôn ngữ nào. Cách lưu trữ này sẽ tránh được sự dư thừa dữ liệu, đồng thời tách biệt được từ vựng và ngôn ngữ. Do đó, việc bổ sung, chỉnh sửa hay xóa bỏ trong kho từ vựng được tiến hành độc lập mà không cần quan tâm đến ngôn ngữ.

b) Sense-Ngữ nghĩa

Cách tiếp cận theo ngữ nghĩa là hướng tiếp cận mới. Một từ vựng hay Pattern có thể có nhiều nghĩa. Một nghĩa có thể có nhiều từ vựng thể hiện nó ở nhiều dạng từ loại khác nhau. Tập hợp các từ cùng một nghĩa gọi là SynSet. Quan hệ ngữ nghĩa trong ngôn ngữ rất phong phú và đa dạng. Ngữ nghĩa không có bảng dữ liệu riêng, nhưng nó đóng vai trò quan trọng để tra cứu và kết nối các bảng dữ liệu. Các quan hệ ngữ nghĩa được lưu trong một bảng dữ liệu riêng và bảng này sẽ tạo ra sự ràng buộc ngữ nghĩa.

c) Phrase

Phrase là một tập gồm có 3 thông tin: từ vựng, ngôn ngữ và ngữ nghĩa. Bộ 3sở dữ liệu cho hệ thống từ điển đa nghĩa thông tin này tạo nên phần tử cơ bản của ngôn ngữ. Từ vựng là thể hiện của ngôn ngữ, ngữ nghĩa là cái trừu tượng của ngôn ngữ, và ngôn ngữ là phạm vi. Tổ chức cơ sở dữ liệu theo Phrase là tổ chức độc lập với ngôn ngữ vì ngôn ngữ là một thành phần của Phrase. Đây chính là cơ sở cho phép xây dựng hệ đa ngữ thực sự. Cấu trúc cơ sở dữ liệu theo kiến trúc này linh hoạt trong việc bổ sung, chỉnh sửa hay hủy bỏ các mục từ. Cấu trúc này cũng dễ dàng tạo nối kết giữa các thành phần trong một ngôn ngữ cũng như giữa các ngôn ngữ khác nhau (vì bản chất của nó là theo ngữ nghĩa).

1.9.2 Thiết kế cơ sở dữ liệu

Word là một từ điển nhưng cũng có thể xem nó là một kho dữ liệu về tiếng Anh với chất lượng tốt. Trong cơ sở dữ liệu của từ điển, ta có thể xem trung tâm của nó là các

- Mỗi Pattern có thể thuộc nhiều Synset khác nhau (tức là có nhiều nghĩa).

- Mỗi Synset có thể chứa nhiều Pattern (tức là một Synset có nhiều từ đồng nghĩa). - Trong một synset của Pattern, có giải thích cho nghĩa đó, các ví dụ cho nghĩa này, tập

các từ quan hệ với Pattern theo các quan hệ được định nghĩa (tập này có thể rỗng). Từ các trường dữ liệu trong các file index.pos và data.pos của từ điển Wordnet, ta có thể phân chia các trường dữ liệu thành các bảng như sau:

- Bảng tblPattern:

Chứa các pattern (word hoặc collocation), không phụ thuộc vào ngôn ngữ. Bảng 2.: bảng pattern

Tên trường Mô tả Kiểu dữ

liệu

PatternId Khóa chính phân biệt các pattern BIGINT

Pattern Các word hoặc collocation, ví dụ: hello, hi, … TEXT

UserId Khóa chính lấy từ bảng tblUser, chỉ ra người nhập

Một phần của tài liệu QUẢN Lý d6cntt epu dai (Trang 37 - 38)

Tải bản đầy đủ (DOCX)

(60 trang)
w