Triển khai hệ thống SketchEngine cho tiếng Việt

Một phần của tài liệu Luận án tiến sĩ: Xử lý tiếng việt (Trang 80 - 83)

Kho ngữ liệu tiếng Việt (đã tách từ và gán nhãn từ loại) và tập quan hệ ngữ

pháp được tích hợp vào hệ thống Sketch Engine. Việc tích hợp này cho phép người sử dụng có thể thực hiện mọi chức năng của Sketch Engine phục vụ cho việc nghiên cứu từ vựng tiếng Việt.

Hình 4.1, minh họa cho việc khai thác kho ngữ liệu tiếng Việt phục vụ cho việc thống kê tần suất và tính trội14 của các từ lân cận với một từ bất kỳ. Trong đó, tính trội được thống kê theo tỷ lệ MI-score hoặc T-score hoặc logDice (T-

score: xy x y xy f N f f f − ; MI-score: y x xy f f N f 2 log ; logDice:14+ y x xy f f f + 2 log2 ) với fx, fy - tần suất xuất hiện của từ x,y; fxy- tần suất xuất hiện đồng thời của y trong lân cận của x ; N- kích thước của toàn bộ kho ngữ liệu) [85][125]

65

Hình 4. 1 Danh sách tần suất và tính trội của các từ lân cận với tính từ “đẹp” Ngoài ra còn có thể sử dụng hệ thống khai thác kho ngữ liệu và bộ quan hệ

ngữ pháp tiếng Việt phục vụ cho việc tra cứu các từ đồng nghĩa, phản nghĩa, so sánh thông tin của hai từ gần tương tự nhau. Hình 4.2, minh họa cho việc liệt kê một số danh sách quan hệ ngữ pháp xuất hiện xung quanh hai tính từ có nghĩa gần tương tự nhau ”đẹp”, ”xinh”, trong đó mỗi danh sách thống kê tần suất và tính trội của các từ lân cận với 2 từ này trong mỗi quan hệ ngữ pháp (tương ứng tần suất là cột thứ

2,3; tính trội là cột thứ 4,5), trong hình còn có một số danh sách quan hệ ngữ pháp chỉ xuất hiện xung quanh duy nhất một từ (”đẹponly patterns) hoặc (”xinh”only patterns), trong đó mỗi danh sách liệt kê các từ cùng tần suất và tính trội xuất hiện xung quanh chỉ tính từ ”đẹp” hoặc chỉ tính từ ”xinh”. Các thông tin này có thể giúp người nghiên cứu từ vựng, xây dựng từđưa ra được sự giống nhau, khác nhau khi sử dụng 2 từ này.

66

Hình 4. 2. Phác thảo thông tin của 2 từ ”đẹp”, ”xinh”

Hình 4.3, minh họa cho việc khai thác kho ngữ liệu và bộ quan hệ ngữ pháp phục vụ cho chức năng Word Sketch - liệt kê một số danh sách quan hệ ngữ pháp xuất hiện xung quanh từ khóa (ví dụ tính từ “đẹp”). Trong đó, mỗi danh sách liệt kê các từ, tần suất và tỷ lệ kết hợp (logDice) của các từ trong cùng mối quan hệ ngữ

pháp với từ khóa. Sau đây là liệt kê một số danh sách:

Danh sách N_front_modifier_A: Danh sách các danh từ ở phía trước mà tính từ “đẹp” bổ nghĩa ;

Danh sách A_after_modifies_A: Danh sách các tính từ phía sau bổ nghĩa cho tính từ “đẹp”;

Danh sách R_front_modifies_A: Danh sách các phụ từ phía trước bổ nghĩa cho tính từ “đẹp”;

67

Hình 4. 3. Một số danh sách các từ có quan hệ ngữ pháp với tính từ “đẹp”

Nói chung ngoài việc xem xét ngữ cảnh văn bản xung quanh một từ khóa, các nhà nghiên cứu từ vựng còn có thể xem xét ngữ cảnh theo quan hệ ngữ pháp thống kê tần suất xuất hiện các từ theo mỗi quan hệ ngữ pháp tiếng Việt.

Một phần của tài liệu Luận án tiến sĩ: Xử lý tiếng việt (Trang 80 - 83)