Cụm từchỉ số lƣợng có cả phụ từ và sốtừ

Một phần của tài liệu (LUẬN VĂN THẠC SĨ) Ứng dụng ngôn ngữ truy vấn PML -TQ trong truy vấn Treebank Tiếng Việt (Trang 42 - 44)

Trong phần này, chúng ta sẽ nghiên cứu một số cách khai thác thông tin mang tính chất tổng hợp để thấy tính chất báo cáo mạnh mẽ của PML-TQ

3.3.3.1 Câu trần thuật

Ký hiệu:S

Theo quan điểm coi cấu trúc chủ-vịlà cấu trúc chủ đạo của câu tiếng Việt [1], câu trần thuật sẽcó cấu trúc sau:

<chủngữ><vịngữ>

Trong đó chủ ngữ thƣờng là cụm danh từ, còn vị ngữ thƣờng là cụm động từ hoặc cụm tính từ.

VD: Anh nói thế không đúng đâu.

(S (S-SUB (NP-SUB (N-H Anh)) (VP (V-H nói) (P thế)))

(AP-PRD (R không) (A-H đúng) (T đâu))) (. .))

Câu hỏi:

Đưa ra mẫu câu trần thuật có chủ ngữ là cụm chủ vị

Câu truy vấn: nonterminal $p := [ cat = 'S', child $c ]; * $c := [ ]; >> give $p,$p.cat,first_defined($c.cat&"- "&$c.functions,$c.cat,$c.pos)

>> give $2 & " -> " & concat($3," "over $1 ) >> for $1 give count(),$1 sort by $1 desc

Ý nghĩa câu truy vấn: Tìm các nút không kết thúc có nhãn phân loại là câu trần thuật (cat=‟S‟), có các nút con (child $c). Các nút con có thể là nút kết thúc hoặc không kết thúc (dấu * có nghĩa bao gồm tất cả các nút kết thúc và nútkhông kết thúc). Đồng thời đƣa ra các cấu trúc câu, đếm số cấu trúc đƣợc sử dụng, sắp xếp theo thứ tự giảm dần.

Để trích xuất các thông tin, chúng ta sẽ sử dụng các bộ lọc kết quả (output filters) đƣợc xây dựng sẵn trong PML-TQ để thực hiện. Các bộ lọc kết quả sẽ trích xuất dữ liệu từ kết quả đƣợc trả về của câu truy vấn và sinh ra bảng tổng hợp. Về mặt cú pháp của ngôn ngữ PML-TQ thì các bộ lọc đƣợc viết ngay sau câu truy vấn và bắt đầu bằng ký hiệu >>. Nhiều bộ lọc có thể kết hợp với nhau thành một chuỗi: bộ lọc đầu tiên sẽ trích xuất các thông tin từ kết quả truy vấn và các bộ lọc con sẽ thực hiện trên kết quả lọc đã đƣợc xử lý bởi bộ lọc đầu tiên.

Với câu lệnh trên, bộ lọc đầu tiên:

>> give $p,$p.cat,first_defined($c.cat,$c.pos) Sẽ đƣa ra cấu trúc câu thỏa mãn điều kiện biến $p, đƣa ra các nhãn phân loại của $p, đƣa ra các nhãn phân loại con của $p ($c.cat), nhãn từ loại ($c.pos) là con của $p.

>> give $2 & " -> " & concat($3," " over $1 ) Là lọc kết quả của bộ lọc thứ nhất, $1, $2, $3 lần lƣợt thay thế cho $p; $p.cat; first_defined($c.cat,$c.pos) – hàm này sẽ lấy giá trị cat (nếu có) hoặc pos (nếu có). Bộ lọc thứ hai đƣa ra kết quả đã đƣợc cấu trúc lại để cho dễ nhìn dễ hiểu từ bộ lọc thứ nhất. Bộ lọc thứ ba đếm kết quả của bộ lọc thứ hai và sắp xếp theo thứ tự giảm dần số lần xuất hiện của kết quả. Kết quả truy vấn nhƣ sau:

Số lần xuất hiện Mẫu câu

14034 S -> NP-SUB VP 7566 S -> NP-SUB VP . 1408 S -> S , S . 1110 S -> NP-SUB AP-PRD 1095 S -> NP-TMP , NP-SUB VP . 1071 S -> NP-TMP NP-SUB VP ... 1 S -> N-H 1 S -> S-TC 1 S -> VP-PRP 1 S -> VP-TMP 1 S -> X 1 S -> N-H 1 S -> S-TC

Bảng 12. Tổng hợp các cấu trúc câu trần thuật

Một phần của tài liệu (LUẬN VĂN THẠC SĨ) Ứng dụng ngôn ngữ truy vấn PML -TQ trong truy vấn Treebank Tiếng Việt (Trang 42 - 44)

Tải bản đầy đủ (PDF)

(84 trang)