Lý thuyết văn phạm cảm sinh được khởi xướng bởi Chomsky và lý thuyết ngữ pháp chức năng là cơ sở ngôn ngữ học vững chắc cho việc chú giải cú pháp theo mô hình SynAF cho tiếng Anh, tiếng Pháp, tiếng Đức, tiếng Ý…Đối với tiếng Việt, sựảnh hưởng này cũng được thể hiện qua các nghiên cứu của Vũ Dũng [5] và Cao Xuân Hạo [6]. Do vậy, mô hình chú giải cú pháp SynAF của ISO cũng là cơ sở
tốt cho việc xây dựng mô hình chú giải cú pháp tiếng Việt. Việc xây dựng mô hình
43
chú giải cú pháp theo chuẩn hóa quốc tế cũng là một nhiệm vụ cần thiết trong việc xây dựng và mở rộng treebank cho tiếng Việt.
Phần này trình bày một hướng tiếp cận xây dựng mô hình chú giải cú pháp cho tiếng Việt tương thích mô hình chú giải cú pháp chuẩn quốc tế SynAF có tên là VnSynAF. Mô hình VnSynAF là một lược đồ mã hóa dựa trên định dạng XML có thể sử dụng trong việc định dạng và mã hoá treebank cho tiếng Việt. Về cấu trúc chung của mô hình này trong luận án sử dụng tương tự như trong SynAF, hình 1.3. Mỗi nút T Node biểu diễn một từ vựng tiếng Việt tương ứng trong một Wordform.
Nút NT dùng để biểu diễn các thành phần không kết thúc như từ loại, cụm từ, nhãn quy ước cho các dấu. Sử dụng các hạng mục nhãn hình thái (từ loại), nhãn cú pháp thành phần, nhãn phân loại câu để gán nhãn cho các nút NT.
Các cung (edge) dùng để liên kết giữa các nút, biểu diễn chức năng của một thành phần cú pháp, cho biết vai trò của nó trong thành phần cú pháp mức cao hơn, nhờ đó giúp chúng ta biết được quan hệ ngữ pháp giữa các nút, như là chủ ngữ, vị
ngữ, tân ngữ. Sử dụng hạng mục nhãn chức năng cú pháp để gán nhãn cho các cung Phần danh sách các hạng mục dữ liệu để gán nhãn cho các thành phần trong luận án xây dựng các hạng mục cho tiếng Việt tham chiếu tới DCR (ISO 12620)
được dựa trên tài liệu “ Thiết kế tập nhãn cú pháp và hướng dẫn gán nhãn” [12,13]. Trong đó danh sách các hạng mục tham chiếu tiếng Việt tới nhãn từ loại trong được xây dựng trong bảng 3.1, nhãn cú pháp thành phần, nhãn phân loại câu được xây dựng trong Bảng 3.2, nhãn chức năng cú pháp được xây dựng trong Bảng 3.3.
44
Bảng 3. 2. Tập nhãn cú pháp thành phần, nhãn phân loại câu được đối sánh với danh mục phân loại dữ liệu chuẩn ISO 12620
Stt Kí hiệu Tên ISO 12620
Khóa Tên Định nghĩa
1 NP Cụm danh từ 2256 Noun Phrase mCụộm tt danh từ mà thành phừ ần trọng tâm là
2 VP Cụm động từ 2255 Verb Phrase m Cộụt m tđộừng t mà thành phừ ần trọng tâm là
3 AP Cụm tính từ 2258 Adjective Phrase m Cộụt tính tm từ mà thành phừ ần trọng tâm là
4 RP Cụm phó từ 2259 Adverb phrase Cụm từ mà thành phần trọng tâm là một phó từ 5 PP Cụm giới từ 2257 Prepositional Phrase Cụm từ bắt đầu bởi một hoặc vài giới từ và một bổ ngữ (như cụm danh từ)
6 WHNP vCấụn 2299m danh từ nghi Interrogative Clause diMệễn mnh đềột câu h có liên quan ỏi đến việc biểu
7 WHAP Cụm tính từ nghi vấn 2299 Interrogative Clause Mệnh đề có liên quan đến việc biểu diễn một câu hỏi 8 WHRP Cụm từ nghi vấn dùng khi hỏi về thời gian, nơi chốn,… 2299 Interrogative clause Mệnh đề có liên quan đến việc biểu diễn một câu hỏi
9 WHPP vCấụn m giới từ nghi 2299 Interrogative clause diMệễn mnh đềột câu h có liên quan ỏi đến việc biểu
10 S Câu trần thuật 1386 Sentence
Một chuỗi các từ tạo nên một câu khẳng định, câu hỏi, mệnh lệnh. Là một đơn vị ngữ pháp bao gồm một hoặc nhiều mệnh đề
11 SQ Câu hỏi 1386 Sentence
Một chuỗi các từ tạo nên một câu khẳng định, câu hỏi, mệnh lệnh. Là một đơn vị ngữ pháp bao gồm một hoặc nhiều mệnh đề
12 SE Câu cảm thán 1386 Sentence
Một chuỗi các từ tạo nên một câu khẳng định, câu hỏi, mệnh lệnh. Là một đơn vị ngữ pháp bao gồm một hoặc nhiều mệnh đề 13 SBAR Mệnh đề tính ngữ, mệnh đề danh ngữ hay và mệnh đề phụ ngữ 2298 Relative clause Mệnh đề là một phần của cụm danh từ, được mởđầu bằng một đại từ liên hệ
45
Bảng 3. 3.Tập nhãn chức năng cú pháp đối sánh với danh mục phân loại dữ liệu chuẩn ISO 12620
STT Kí hiệu Tên ISO 12620 Khóa Tên Định nghĩa 1 SBJ Nhãn chức năng chủ ngữ 2261 Subject Mối quan hệ giữa một cụm từ và một động từ, đại diện cho người hay vật thực hiện hành động
2 OBJ Nhãn chtân ngữ trứực nc tiăng ếp 1274 Direct Object
Một danh từ, đại từ, hoặc một cụm danh từđược tham chiếu nhận hành động trực tiếp của động từ
3 IO Nhãn chtân ngữ gián tiức năng ếp 1310 Indirect Object
Một danh từ, đại từ, hoặc một cụm danh từ biểu thịđối tượng nhận hoặc thụ hưởng hành động và đối trực tiếp của động từ 4 TPC Nhãn chchủđề ức năng 5 PRD Nhãn chức năng vị ngữ không phải cụm động từ 6 LGS Nhãn chức năng chủ ngữ logic của câu ở thể bịđộng 7 EXT Nhãn chức năng bổ ngữ chỉ phạm vi hay tần suất của hành động 8 TH Nhãn phcủa câu SF ần thuyết 9 TMP Nhãn chức năng phụ ngữ chỉ thời gian 10 LOC Nhãn chức năng phụ ngữ chỉ nơi chốn 11 DIR Nhãn chức năng phụ ngữ chỉ hướng 12 MNR Nhãn chức năng phụ ngữ chỉ cách thức 13 PRP Nhãn chức năng phụ ngữ chỉ mục đích hay lý do
2244 Syntactic Function thành phMối quan hần tệ ngới thành phữ pháp cầủn khác a một trong một cấu trúc cú pháp
46
Trong phần tiếp theo sẽ trình bày định dạng chú giải cú pháp cho câu tiếng Việt theo XML tương ứng với mô hình SynAF:
- Chú giải XML cho các nút kết thúc (T)
Tất cả các nút kết thúc T được mã hóa bên trong cặp thẻ <terminals> ….</terminals>. Trong đó mỗi một từ nguyên dạng trong câu tiếng Việt tương ứng một nút T sẽđược mã hóa bằng một thẻ thành phần <t……/>:
<terminals>
<t id="diachi " Wordform="từ nguyên dạng1"/> <t id="diachi " Wordform="từ nguyên dạng2" /> ………..
<t id="diachi " Wordform="từ nguyên dạng2" /> </terminals
Mỗi thẻ thành phần bao gồm các thuộc tính:
Địa chỉ id: địa chỉ này được định nghĩa ở thuộc tính tar của cung tương ứng. Từ nguyên dạng Wordform: đây là từ gốc nguyên dạng được lấy từ câu vào. - Chú giải XML cho các nút không kết thúc (NT)
Tương ứng với một câu đầu vào sẽ có nhiều nút (theo sơ đồ biểu diễn cú pháp hình cây). Trong luận án dùng cặp thẻ <nonterminals>…</nonterminals> để
mã hóa cho tất cả các nút NT trong cây cú pháp. Trong đó, mỗi nút NT được mã hóa bằng một cặp thẻ thành phần <nt… các thuộc tính> …</nt>:
<nonterminals>
<nt id="địa chỉ 1" label="tên nhãn gốc">
<edge id="địa chỉ 1" label="nhã cụm từ1" tar="địa chỉ đích"/> <edge id="địa chỉ 1" label="nhã cụm từ2" tar="địa chỉ đích”/> ………….
</nt>
<nt id="địa chỉ 2” label="tên nhãn gốc">
<edge id="địa chỉ 2" label="nhãn cụm từ1"tar="địa chỉ đích"/> <edge id="địa chỉ 2" label="nhãn cụm từ2"tar="địa chỉ đích”/> ………….
</nt> …………..
</nonterminals>
47
Địa chỉ id của nút: được xác định tại phần thuộc tính (tar) của cung đi tới nút
đó, nếu nút đó là nút gốc thì sẽđược xác định tại thuộc tính gốc (root) của thẻđồ thị
(graph)
Nhãn label của mỗi nút: Chính là nhãn của một nút (NT) được lấy trong tập nhãn cụm từ, từ loại, nhãn mệnh đề, tập nhãn quy ước.
Các thẻ thành phần <edge…../> để mã hóa các cung đi ra từ nút NT, tương úng với mỗi một nút có thể có nhiều thẻ thành phần.
- Chú giải XML cho các cung (edges):
Cung (edges) là một đoạn đi từ nút nguồn (nút NT) đến nút đích (T hoặc NT), để biểu diễn mối quan hệ phụ thuộc giữa các nút, mỗi cung được mã hóa bằng một thẻ: <edge id = "địa chỉ nguồn" label = "nhãn cụm từ" tar= "địa chỉđích” />
Mỗi thẻ <edge …../> bao gồm các thuộc tính:
Địa chỉ id: Được đánh tuỳ ý, tuy nhiên khi đánh địa chỉ nên dùng kí hiệu có liên quan đến nút nguồn của cung.
Nhãn label: Chính là các nhãn được lấy từ danh sách nhãn chức năng, danh sách nhãn phân loại phụ ngữ của động từ, nhãn phần tử rỗng. Có thể có những thẻ
không cần có nhãn này (trong trường hợp không phải là nhãn phân loại phụ ngữ của
động từ, hoặc không muốn cụ thể chi tiết hơn các thông tin đã có trong cây cú pháp).
Địa chỉ đích tar: địa chỉđích của cung, được đánh tuỳ ý.
Ngoài việc sử dụng mô hình SynAF thì việc thiết kế bộ nhãn chuẩn cho cú pháp tiếng Việt dùng để gán nhãn cho các nút kết thúc (T), không kết thúc (NT), các cung biểu diễn mối liên hệ phụ thuộc giữa các nút (edges) là điều rất cần thiết.
Ví dụ. Chú giải cú pháp câu: ” Nguyễn Thanh Mỹ chưa bao giờ nói với tôi là anh yêu nước,” bằng VnSynAF:
<SynAF>
<head>...</head> <body>
48
<graph root="s_0">
<nonterminals>
<nt id="s_0" label="S">
<edge id="s_0" " tar="s_1" />
<edge id="s_0" tar="s_2" />
</nt>
<nt id="s_1" label="S1">
<edge id="s_1" label=”SUB”tar="s_1_1" />
<edge id="s_1" tar="s_1_2" />
<edge id="s_1" tar="s_1_3" />
</nt>
<nt id="s_1_1" label="NP">
<edge id=" s_1_1" tar=" s_1_1_1" /> </nt>
<nt id=" s_1_2" label="VP">
<edge id=" s_1_2" tar=" s_1_2_1" /> <edge id=" s_1_2" tar=" s_1_2_2" /> <edge id=" s_1_2" tar=" s_1_3" />
<edge id=" s_1_2" Label=”DOB” tar=" s_1_4" /> <edge id=" s_1_2" tar=" s_1_5" />
<edge id=" s_1_2" tar=" s_1_2_6" /> </nt>
<nt id="s_1_1_1" label="Np">
<edge id=" s_1_1_1" tar=" s_1_1_1_t1" /> </nt>
<nt id="s_1_2_1" label="R">
<edge id=" s_1_2_1" tar=" s_1_2_1_t2" /> </nt>
<nt id="s_1_2_2" label="P">
<edge id=" s_1_2_2" tar=" s_1_2_2_t3" /> </nt>
<nt id="s_1_2_3" label="V">
<edge id=" s_1_2_3" tar=" s_1_2_3_t4" /> </nt>
<nt id="s_1_2_4" label="PP">
<edge id=" s_1_2_4" tar=" s_1_2_4_1" /> <edge id=" s_1_2_4" tar=" s_1_2_4_2" /> </nt>
<nt id="s_1_2_5" label="C">
<edge id=" s_1_2_5" tar=" s_1_2_5_t7" /> </nt>
<nt id="s_1_2_6" label="SBAR">
<edge id=" s_1_2_6" tar=" s_1_2_6_1" /> <edge id=" s_1_2_6" tar=" s_1_2_6_2" />
49
</nt>
<nt id="s_1_2_4_1" label="E">
<edge id=" s_1_2_4_1" tar=" s_1_2_4_1_t5" /> </nt>
<nt id="s_1_2_4_2" label="P">
<edge id=" s_1_2_4_2" tar=" s_1_2_4_2_t6" /> </nt>
<nt id="s_1_2_6_1" label="NP">
<edge id=" s_1_2_6_1" tar=" s_1_2_6_1_1" /> </nt>
<nt id="s_1_2_6_2" label="P">
<edge id=" s_1_2_6_2" tar=" s_1_2_6_2_1" /> <edge id=" s_1_2_6_2" tar=" s_1_2_6_2_2" /> </nt>
<nt id="s_1_2_6_1_1" label="N">
<edge id=" s_1_2_6_1_1" tar=" s_1_2_6_1_1_t8" </nt>
<nt id="s_1_2_6_2_1" label="V">
<edge id=" s_1_2_6_2_1" tar=" s_1_2_6_2_1_t9" > <edge id=" s_1_2_6_2_2" tar=" s_1_2_6_2_1_t10" > </nt>
<nt id="s_1_3" label=",">
<edge id=" s_1_3" tar=" s_1_1_t11" /> </nt>
</nonterminals> <terminals>
<t id="t1" Wordform="Nguyễn Thị Mỹ" /> <t id="t2" Wordform="chưa" />
<t id="t3" Wordform="bao giờ" /> <t id="t4" Wordform="nói" /> <t id="t5" Wordform="với" /> <t id="t6" Wordform="tôi" /> <t id="t7" Wordform="là" /> <t id="t8" Wordform="anh" /> <t id="t9" Wordform="yêu" /> <t id="t10" Wordform="nước" /> <t id="t11" Wordform="’" /> </terminals> </graph> </s> ... </body> </SynAF>
50
3.6 Kết chương
Chương này đã trình bày về mô hình chú hình thái-cú pháp, cú pháp MAF và SynNaf hướng tới chuẩn quốc tế được phát triển bởi tiểu ban kỹ thuật ISO/TC 37/SC 4. Từ đó đã xây dựng và triển khai mô hình chú giải hình thái-cú, cú pháp tiếng Việt tương ứng với mô hình MAF, SynAF của ISO/TC 37/SC 4.
Những đóng góp của luận án trong chương này:
- Xây dựng, triển khai các mô hình chuẩn hóa quốc tế về quản lý tài nguyên ngôn ngữđược phát triển bởi tiểu ban kỹ thuật ISO/TC 37/SC 4 cho tiếng Việt: Xây dựng mô hình chú giải mức hình thái-cú pháp (MAF- Morphosyntactic Annotation Framework) và mô hình chú giải mức cú pháp (SynAF-Syntactic Annotation Framework) cho kho ngữ
liệu tiếng Việt.
Chương tiếp theo của luận án sẽ trình bày việc khai thác kho ngữ liệu thô thu
51
4. CHƯƠNG 4. KHAI THÁC KHO NGỮ LIỆU THÔ CHO
NGHIÊN CỨU TỪ VỰNG TIẾNG VIỆT
4.1 Giới thiệu
Chương này trình bày việc khai thác kho ngữ liệu thô tiếng Việt có khối lượng lớn đã được tách từ và gán nhãn từ loại cho hệ thống truy vấn kho ngữ liệu Sketch Engine, phục vụ việc nghiên cứu từ vựng. Để khai thác được thông tin ngôn ngữ, ngữ cảnh, hành vi của mỗi từ hệ thống còn đòi hỏi bộ quan hệ ngữ pháp cơ bản tiếng Việt, ở đây luận án cũng trình bày việc xây dựng các mối quan hệ ngữ pháp cho Sketch Engine dựa trên đặc điểm ngữ pháp cơ bản tiếng Việt.