Chuẩn hóa theo mô hình MAF cho tiếng Việ t

Một phần của tài liệu Luận án tiến sĩ: Xử lý tiếng việt (Trang 54 - 57)

Phần này đề xuất mô hình chú giải hình thái cú pháp cho tiếng Việt tương thích mô hình chú giải hình thái cú pháp chuẩn quốc tế MAF do tiểu ban kĩ thuật ISO/TC 37/SC 4 phát triển, mô hình sử dụng mã hóa XML (eXtended Markup Language), với mã hóa XML ngoài việc giúp chúng ta đọc hiểu được tài liệu mà còn xử lý trên máy tính được thuận lợi và dễ dàng hơn.

39

Thông tin hình thái cú pháp tiếng Việt chủ yếu dựa vào hình thái từ, phân loại từ, phân loại cụm, cú pháp (ví dụ từ loại của từ có thể là danh từ, động từ, tính từ…) mà không phụ thuôc vào giống, số, cách …nhưđối với các thứ tiếng khác. Do

đó chúng ta có thể lựa chọn chú giải nhúng cho tiếng Việt đểđơn giản và tiện dụng. Ngoài ra, việc phân chia tài liệu ra thành các từ riêng biệt (Wordform), trong tiếng Việt có đặc điểm khác với tiếng Anh và một số tiếng khác là không thể dựa vào khoảng trắng (từ ghép), phải xây dựng phần mềm tách từ riêng dựa vào đặc trưng của tiếng Việt để tách tài liệu ra thành các thành phần, mỗi thành phần tương ứng với 1 từ tiếng việt. Về cấu trúc chung của mô hình hình thái cú pháp cho tiếng Việt trong luận án xây dựng tương tự như mô hình chú giải MAF trong hình 1.1, tuy nhiên tại các thành phần cơ sở của mô hình trong luận án có ánh xạ sang đặc điểm của hình thái cú pháp từ trong tiếng Việt, cụ thể là:

- Xác định đơn vị cơ sở (segment): Âm tiết tiếng Việt hay các đơn vị

token (dấu hiệu) khác.

- Mỗi hình thái từ (Wordform) có thể tham chiếu tới một mục từ vựng trong từđiển, ví dụ từđiển tiếng Việt trên máy tính.

- Các thông tin hình thái – cú pháp gắn với mỗi từ: Cấu tạo từ (đơn, ghép, láy, thành ngữ), từ loại, tiểu từ loại. Trong Luận án xây dựng bảng danh sách các hạng mục dữ liệu để gán nhãn từ loại tiếng Việt tham chiếu tới DCR (ISO 12620) được dựa trên tài liệu “Thiết kế tập nhãn cú pháp và hướng dẫn gán nhãn” [12, 13] , Bảng 3.1.

40

Bảng 3. 1.Tập từ loại được đối sánh với danh mục phân loại dữ liệu chuẩn ISO 12620

STT Kí hitừ loệạu i Tên ISO 12620

Khóa Tên Định nghĩa

1 Np Danh triêng ừ 1371 Proper noun danh riêng) Là từ chỉ tên riêng, nơi chốn (hoặc địa 2

Nc chDanh tỉ loại 2345 Classifier ừ lTớừp nh liên hỏ mà danh tệ tới một danh từ chỉ loừạđểi đó thu biểu diộc vễn mề ột

3 N

Danh từ

chung 1333 Noun Từ chỉ người, sự vật, nơi chốn

4

V Động từ 1424 Verb

Từ chỉ hành động, thường đứng ở vị trí vị

ngữ của một câu (có thểđứng độc lập hoặc kết hợp với các động từ khác)

5 A Tính từ 1230 Adjective Ttừừ liên quan đến thuộc tính của một danh

6 P Đại từ 1370 Pronoun Từđược sử dựng ở vị trí của một danh từ hoặc một cụm danh từ 7 M Số từ 1334 Numeral hTệừ t loới mại đểột s biốểu diễn một số hoặc mối liên 8 D Định từ 1272 Determiner Từ thuộc về một lớp phụ tố (bổ ngữ) của danh từ, biểu diễn sự tham chiếu của một danh từ (bao gồm cả số lượng)

9 R Phó từ 1232 Adverb Từ chỉ một nhóm các từ thường xuyên được sử dụng đểđặc tả hành động của một động từ 10 E Giới từ 1366 Preposition Là từ chỉ sự chuyển đến một vị trí (hoặc thời gian hoặc một quan hệ), thường đặt ở

phần đầu của một cụm danh từ 11 C Liên từ 1260 Conjunction Là từ liên kết các từ hoặc các thành phần và biểu diễn mối quan hệ ngữ nghĩa giữa chúng 12

I Trợ từ 1244 Auxiliary vMớối mi quan hột động tệ giừữ chính a một động từ cấp dưới

13 O Cảm từ (thán từ) 1285 Exclamative pronoun Biểu diễn một lời nói cảm xúc hoặc ngữ điệu mạnh (kết thúc bằng dấu !) 14

Y Từ viết tắt 334 Acronym Tcác âm tiừ viết tắết ct tủạa các cho nên mữột t cái ừ đầu tiên trong

15 X Chđịnh 976 Undetermined Tưa xác ừ chưa xác định 16

. Dấu chấm 1372 Punctuation Dcụấm tu (.) ừ, mđượột câu riêng bic sử dụng đểệđt hoánh dặc chấu mữ viộết t tắt

17 ' Dấu phảy 1448 Comma Dấu (,) được sử dụng trong văn bản để hiển thị một tạm dừng ngắn hoặc để tách các mục trong một danh sách 18 : Dchấấu hai m 1439 Colon Dấu (:) được sử dụng trong văn bản và in ấn để giới thiệu một lời giải thích, ví dụ hoặc báo giá (adsbygoogle = window.adsbygoogle || []).push({});

41

Một phần của tài liệu Luận án tiến sĩ: Xử lý tiếng việt (Trang 54 - 57)