Nghiên cứu phát triển công nghệ nhận dạng, tổng hợp và xử lý ngôn ngữ tiếng việt dóng hàng văn bản song ngữ pháp việt

Đối với việc dóng hàng ở mức câu, chúng tôi áp dụng phương pháp đã được nhóm triển khai ở giai đoạn trước cho các cặp ngôn ngữ Ấn - Âu cho cặp tiếng Pháp - Việt và đánh giá kết quả nhằm

Trang 1

thuộc đề tài cấp nhà nước

“nghiên cứu phát triển côngnghệ nhận dạng, tổng hợp

Trang 2

BÁO CÁO KẾT QUẢ THỰC HIỆN

CỦA NHÁNH ĐỀ TÀI

DÓNG HÀNG VĂN BẢN SONG NGỮ PHÁP - VIỆT

thuộc đề tài cấp nhà nước "Nghiên cứu phát triển công nghệ nhận dạng,

tổng hợp và xử lí ngôn ngữ tiếng Việt"

KC01-03

Hà Nội, 2004

Trang 3

MỤC LỤC

MỤC LỤC 2

DANH MỤC BẢNG 5

DANH MỤC HÌNH VẼ 6

GIỚI THIỆU 7

Chương 1 TÀI LIỆU KĨ THUẬT DÓNG HÀNG VĂN BẢN SONG NGỮ PHÁP - VIỆT 8

1.1 Giới thiệu 8

1.2 Dóng hàng ở mức câu 9

1.2.1 Phương pháp luận 9

1.2.2 Kết quả 11

1.3 Dóng hàng ở mức từ/ngữ 11

1.3.1 Phương pháp luận 11

1.3.2 Kết quả 12

1.4 Hướng dẫn sử dụng phần mềm 13

1.4.1 Phần mềm dóng hàng ở mức câu 13

1.4.2 Phần mềm dóng hàng ở mức đơn vị từ vựng 15

1.4.3 Phần mềm hiển thị/soạn thảo kết quả dóng hàng 15

1.5 Tài liệu tham khảo 17

Chương 2 CÔNG CỤ VÀ TÀI NGUYÊN NGÔN NGỮ CHO PHÂN TÍCH VĂN BẢN 19

Chương 3 SỬ DỤNG BỘ GÁN NHÃN TỪ LOẠI XÁC SUẤT QTAG CHO VĂN BẢN TIẾNG VIỆT A case study of the probabilistic tagger QTAG for Tagging Vietnamese Texts 20

3.2 Bài toán gán nhãn từ loại 21

3.3 Xây dựng từ điển từ vựng, xác định bộ chú thích từ loại tiếng việt 22

3.3.1 Từ điển từ vựng 22

3.3.2 Xây dựng bộ chú thích từ loại 23

3.4 Phân tách từ trong văn bản tiếng Việt 23

3.4.1 Đặt bài toán 23

3.4.2 Các bước giải quyết 24

3.4.3 Đánh giá kết quả 26

3.5 Thử nghiệm bộ gắn nhãn QTAG cho tiếng Việt 27

3.5.1 Phương pháp gán nhãn xác suất 27

3.5.2 Bộ gán nhãn QTAG 28

3.5.3 Sử dụng QTAG cho tiếng Việt 29

3.6 Kết luận 31

Chương 4 Xây dựng kho từ vựng ngữ pháp tiếng Việt 33

4.1 Giới thiệu chung 33

4.1.1 Đặc điểm từ tiếng Việt 33

4.1.2 Vấn đề phân loại từ 34

4.1.3 Chuẩn hoá sơ đồ mô tả đặc điểm từ loại 34

4.2 Lớp trung tâm: phân chia từ loại mức 1 35

4.2.1 Danh từ (Nouns): 36

4.2.2 Động từ (Verbs): 36

4.2.3 Tính từ (Adjectives): 36

4.2.4 Đại từ (Pronouns): 37

4.2.5 Định từ (Determiners/Articles): 37

4.2.6 Phụ từ (còn gọi: phó từ) (Adverbs): 37

4.2.7 Giới từ (Adpositions): 37

4.2.8 Liên từ (Conjunctions): 37

Trang 4

4.2.9 Số từ (Numerals): 37

4.2.10 Thán từ (cảm từ) (Interjection): 37

4.2.11 Tình thái từ (Modal particle): 37

4.2.12 Tổ hợp cố định: 38

4.2.13 Từ đơn lẻ (Unique): 38

4.2.14 Từ viết tắt (Abbreviation): 38

4.2.15 Các từ ngữ còn lại : 38

4.3 Lớp ngoài: các mô tả từ loại chi tiết 38

4.3.1 Danh từ (Nouns - N) 38

4.3.2 Động từ (Verbs - V) 40

4.3.3 Tính từ (Adjectives - A) 41

4.3.4 Đại từ (Pronouns - P) 41

4.3.5 Định từ (Determiners/Articles - D) 42

4.3.6 Số từ (Numerals - M) 42

4.3.7 Phụ từ (Adverbs - R) 42

4.3.8 Giới từ (Adpositions - S) 44

4.3.9 Liên từ (Conjunctions - C) 44

4.3.10 Thán từ (Interjections - I) 44

4.3.11 Trợ từ - tiểu từ - từ tình thái (Particles -T) 45

4.3.12 Tổ hợp từ cố định 45

4.3.13 Từ đơn lẻ (Unique - U) 45

4.3.14 Từ viết tắt (Abbreviations - Y) 45

4.3.15 Các từ còn lại không phân loại được (Residual - X) 45

4.4 Biểu diễn dữ liệu từ vựng 46

Chương 5 TỔ CHỨC CƠ SỞ NGỮ LIỆU 49

5.2 Xác địng đơn vị ngữ pháp tiếng Việt 50

5.2.1 Từ pháp học 50

1.1.1 Từ và từ vựng 50

1.1.2 Từ loại 52

5.2.2 Cú pháp học 53

1.1.3 Khái lược về ngữ 53

1.1.4 Khái lược về câu 57

1.1.5 Các thành phần chính của câu 57

1.1.6 Các thành phần phụ của câu 58

1.1.7 Phân loại câu 59

5.3 Phân tích – miêu tả – mô hình hóa đơn vị câu và ngữ trong tiếng Việt 61

5.3.1 Tổ chức ngữ liệu mẫu 61

5.3.2 Phân tích – Miêu tả đơn vị câu và ngữ 64

5.3.3 Mô hình hóa đơn vị câu và ngữ 66

5.4 Kết luận 68

Chương 6 VĂN PHẠM PHI NGỮ CẢNH VÀ PHÂN TÍCH CÚ PHÁP TIẾNG VIỆT 70

6.1 Văn phạm phi ngữ cảnh 70

6.1.1 Văn phạm và ngôn ngữ sinh bởi văn phạm 70

6.1.2 Văn phạm phi ngữ cảnh 70

6.1.3 Biểu diễn cấu trúc câu 71

6.1.4 Đánh giá hai phương pháp phân tích trên 74

6.1.5 Phương pháp phân tích tổng hợp 74

6.2 Giới thiệu chương trình vnParser 75

6.2.1 Module tách từ vựng 75

6.2.2 Module phân tích cú pháp 76

6.2.3 Cài đặt chương trình 76

6.2.4 Chương trình nguồn 77

Trang 5

Chương 7 VẤN ĐỀ PHÂN TÍCH CÚ PHÁP VÀ LTAG 79

7.1 Phân tích cú pháp 79

7.2 Văn phạm kết nối cây từ vựng hoá (Lexicalized Tree Adjoining Grammar - LTAG) 80

7.2.1 Định nghĩa hình thức của văn phạm TAG 80

7.3 TAGML - định dạng XML cho các tài nguyên dùng cho LTAG 83

7.3.1 Mô tả các mục từ vựng 83

7.3.2 Mô tả cây cơ sở từ vựng hoá 84

7.4 Các công cụ đã triển khai ở LORIA 85

7.5 Mô hình TAG và ngữ pháp tiếng Việt 86

7.6 Kết quả và hướng nghiên cứu 93

Trang 6

DANH MỤC BẢNG

Bảng 1-1 Các phép dịch cơ bản 9

Bảng 3-1 Kết quả gán nhãn từ loại mức 1 31

Bảng 5-1 Danh sách từ loại 61

Bảng 6-1 Một văn phạm phi ngữ cảnh đơn giản 74

Trang 7

DANH MỤC HÌNH VẼ

Hình 1-1 Cấu trúc logic dạng cây của một văn bản biểu diễn dưới dạng XML 10

Hình 1-2 Giao diện xem liên kết dóng hàng 16

Hình 1-3 Giao diện soạn thảo liên kết dóng hàng 17

Hình 3-1 Xây dựng ôtômát âm tiết 24

Hình 3-2 Xây dựng ôtômát từ vựng 25

Hình 3-3 Một tình huống nhập nhằng 26

Hình 4-1 Sơ đồ tổ chức kho dữ liệu từ vựng theo TC 37 / SC 4 46

Hình 4-2 Sơ đồ tổng quát về bộ từ vựng hình thái cú pháp 47

Hình 6-1 Phân loại văn phạm của Chomsky 71

Hình 6-2 Cây biểu diễn câu John ate the cat 73

Hình 6-3 Đặc tả các lớp module phân tích từ vựng 75

Hình 6-4 Đặc tả các lớp module phân tích cú pháp 76

Hình 7-1 Cây cú pháp 79

Hình7-2 Cây cơ sở 81

Hình 7-3 Sơ đồ phép nối cây 81

Hình 7-4 Sơ đồ phép thế 81

Hình 7-5 Sơ đồ phép thế với cấu trúc đặc trưng 82

Hình 7-6 Sơ đồ phép nối cây với cấu trúc đặc trưng 83

Hình 7-7 Cấu trúc danh ngữ 86

Hình 7-8 Quan hệ phụ thuộc giữa các thành phần định ngữ 87

Trang 8

o Kho ngữ liệu: kho văn bản song ngữ Pháp - Việt và Anh - Việt được thu thập và

mã hoá theo sơ đồ biểu diễn đang được xem xét đưa vào chuẩn quốc tế về biểu diễn và quản lí tài nguyên ngôn ngữ quốc tế

- Sản phẩm kèm theo:

o Công cụ phần mềm: Bộ công cụ xử lí tự động văn bản tiếng Việt như phần mềm tách từ (tokenizer), phần mềm gán nhãn từ loại tự động (POS tagger), phần mềm đối chiếu từ loại (concordancer), phần mềm phân tích cú pháp câu tiếng Việt (parser)

o Kho ngữ liệu: Cơ sở ngữ liệu tiếng Việt gồm bộ từ vựng có mô tả các thông tin ngữ pháp, từ vựng; kho văn bản tiếng Việt có gán nhãn từ loại, tập quy tắc ngữ pháp Cũng như kho ngữ liệu song ngữ ở trên, kho ngữ liệu tiếng Việt này cũng được mã hoá theo sơ đồ biểu diễn đang được xem xét đưa vào chuẩn quốc tể về biểu diễn và quản lí tài nguyên ngôn ngữ

Những người tham gia đề tài:

- Chịu trách nhiệm trực tiếp: Nguyễn Thị Minh Huyền, Trường Đại học Khoa học Tự nhiên, Đại học Quốc gia Hà Nội

- Cộng tác viên chuyên ngành Tin học:

o Lê Hồng Phương, học viên cao học thuộc Viện Tin học khối Pháp ngữ (IFI) Hà Nội, cán bộ Trường Đại học Khoa học Tự nhiên, Đại học Quốc gia Hà Nội

o Nguyễn Thành Bôn, học viên cao học thuộc Viện Tin học khối Pháp ngữ (IFI) Hà Nội

- Cộng tác viên chuyên ngành Ngôn ngữ học:

o Vũ Xuân Lương, biên tập viên, Trung tâm Từ điển

o Các chuyên viên ngôn ngữ khác thuộc Trung tâm Từ điển

Trang 9

bản dịch đa ngữ hay còn gọi là văn bản song song (parallel texts) này là thực hiện việc dóng hàng (alignment)

Những hệ thống dóng hàng bắt nguồn từ các công trình khoa học trong lĩnh vực nghiên

cứu ngôn ngữ học dựa vào kho văn bản Dóng hàng văn bản song song (Alignment of parallel

texts) là công việc tìm kiếm tự động các tương ứng dịch trong các văn bản vốn được dịch ra từ

cùng một văn bản gốc nào đó Các tương ứng dịch này có thể ở các mức độ chi tiết khác nhau: có khi chỉ đòi hỏi ít chi tiết là mức đoạn, phổ biến nhất là ở mức câu, và chi tiết, lí tưởng hơn là mức ngữ đoạn hoặc từ

Cho đến nay các hệ thống dóng hàng ở mức câu đã được kết quả khá tốt, với độ chính xác xấp xỉ 95% mà chỉ sử dụng các thông tin thống kê khá độc lập với ngôn ngữ, trừ trường hợp các văn bản dịch không thật sự "song song" (chẳng hạn như dịch lược bớt nhiều) Trong khi đó các

hệ thống dóng hàng ở mức từ, ngữ đoạn thì kết quả kém chính xác hơn và hiển nhiên phụ thuộc vào từng cặp ngôn ngữ cụ thể

Trong khuôn khổ của dự án này, chúng tôi tập trung nghiên cứu dóng hàng ở mức câu và mức từ/ngữ cho các văn bản song ngữ Pháp - Việt Sự lựa chọn cặp ngôn ngữ này đơn giản xuất phát từ hợp tác nghiên cứu của nhóm chúng tôi với nhóm nghiên cứu thuộc trung tâm nghiên cứu Tin học và Tự động hoá vùng Lorraine của Pháp (LORIA1)

Đối với việc dóng hàng ở mức câu, chúng tôi áp dụng phương pháp đã được nhóm triển khai ở giai đoạn trước cho các cặp ngôn ngữ Ấn - Âu cho cặp tiếng Pháp - Việt và đánh giá kết quả nhằm điều chỉnh các tham số của hệ thống một cách phù hợp nhất

Đối với việc dóng hàng ở mức từ ngữ, nghiên cứu tập trung vào việc cải tiến kĩ thuật dóng hàng ở mức từ sử dụng phương pháp vectơ khoảng cách DVec bằng cách kết hợp với kĩ thuật

1 http:// www.loria.fr

Trang 10

dóng hàng có cấu trúc Việc dóng hàng văn bản song ngữ ở mức từ đòi hỏi bước tiền xử lí là phân tích từ ngữ trong các văn bản được xét Điều này đòi hỏi các công cụ phân tích văn bản trong từng ngôn ngữ, ở đây là tiếng Pháp và tiếng Việt Trong khi các công cụ và tài nguyên ngôn ngữ cho phân tích các ngôn ngữ Ấn Âu nói chung và tiếng Pháp nói riêng được phát triển đa dạng từ nhiều năm nay thì công cụ và đặc biệt là tài nguyên ngôn ngữ cho việc phân tích tiếng Việt có thể nói là không có gì Các nghiên cứu trong khuôn khổ đề tài này đã tập trung đa phần thời gian và nhân lực để xây dựng và phát triển tài nguyên ngôn ngữ và công cụ chuẩn mực cho việc phân tích văn bản tiếng Việt (xem chương 2) Phần triển khai hệ thống dóng hàng ở mức từ ngữ đã được thực hiện ở bước đầu, do thời gian có hạn nên cơ sở ngữ liệu xây dựng được chưa đủ lớn để có khả năng đưa ra được mô hình dịch Pháp - Việt đầy đủ

Trong chương này chúng tôi sẽ trình bày 2 phần chính Phần thứ nhất tập trung vào kĩ thuật dóng hàng ở mức câu và kết quả thu được trên kho ngữ liệu Pháp - Việt Phần thứ hai tập trung vào kĩ thuật dóng hàng ở mức từ ngữ Các nghiên cứu cơ bản về phân tích văn bản tiếng Việt được trình bày trong các chương sau

1.2 Dóng hàng ở mức câu

1.2.1 Phương pháp luận

1.2.1.1 Dóng hàng động

Tư tưởng cơ bản của kĩ thuật dóng hàng động ở mức câu là dựa trên một mô hình thống

kê theo độ dài văn bản (số kí tự)

Một phép dóng một câu trong văn bản nguồn tới một câu trong văn bản đích phụ thuộc rất nhiều vào cách dịch Người ta đã thống kê là phần lớn các phép dịch câu thuộc một trong 8 kiểu sau đây :

Bảng 1-1 Các phép dịch cơ bản

Số câu trong văn bản nguồn

Số câu trong văn bản đích

0 Nhiều hơn một câu Chèn mạnh

Kĩ thuật dóng hàng động dựa trên giả thiết là văn bản song ngữ chỉ chứa các kiểu dịch như trên một cách "tuyến tính", tức là không xét đến các trường hợp dịch chéo nhiều hơn 2 câu trong văn bản

Để tiến hành dóng hàng ở mức câu, ta thực hiện các bước sau :

Trang 11

o Chúng ta giả định rằng các phân đoạn (paragraph) đã được dóng hàng chính xác

o Xét tất cả các cặp câu xây dựng dựa trên các phép dịch có thể (xem bảng trên)

o Dựa trên tỉ lệ độ dài, gán cho mỗi cặp câu một điểm số xác suất phản ánh mức độ tương đương (phù hợp) giữa hai câu trong văn bản nguồn và văn bản đích

o Dựa trên các giá trị xác suất và sử dụng một thuật toán quy hoạch động để xác định chuỗi các cặp câu sao cho phù hợp nhất để tạo ra một kết quả dóng hàng hợp lệ

1.2.1.2 Dóng hàng có cấu trúc

Kỹ thuật này nhằm dóng hàng các văn bản được mã hoá phản ánh cấu trúc logic dạng cây của văn bản

Hình 1-1 Cấu trúc logic dạng cây của một văn bản biểu diễn dưới dạng XML

Gọi S, T là lần lượt là văn bản nguồn và đích mà ta muốn dóng hàng Với

S = [s1, s2, , sn], T = [t1, t2, , tm]

trong đó, si , t j (i=1,…,n; j=1,…,m) là đoạn văn bản

Kết quả của phép dóng hàng Align(S, T) có thể mô tả như một chuỗi các cặp tương quan (σj, τj) – đọc là σj trong văn bản S được dóng với τj trong văn bản T :

[( , ), ,( , )])

,(S T 1 1 r r

trong đó, σj là những chuỗi con phân biệt của S, τj là những chuỗi con phân biệt của T và

T S

r j

Trang 12

Thủ tục dóng hàng được thực hiện đệ quy Ở bước xuất phát, ta dóng gốc của hai văn bản

với kiểu 1-1 Một khi cấp thứ i đã được dóng hàng, thì việc dóng hàng ở cấp thứ i+1 chính là sự

làm mịn bằng cách dóng hàng cho các phần tử con của các cặp tương quan trong kết quả ở bước

i Cứ như thế, quá trình dóng hàng được thực hiện ở mọi cấp của văn bản cho đến mức câu

Mục 4.1 và 4.3 sẽ trình bày cụ thể chương trình dóng hàng cũng như chương trình hiển thị

và sửa đổi kết quả dóng hàng ở mức câu

1.3 Dóng hàng ở mức từ/ngữ

1.3.1 Phương pháp luận

Trong khuôn khổ đề tài, chúng tôi nghiên cứu việc dóng hàng dựa trên thuật toán DK-Vec (Fung & McKeown, 1997) Quá trình dóng hàng hai văn bản song song ở mức từ được thực hiện qua hai bước sau:

Tiền xử lí: Chia văn bản thô thành các đơn vị từ (tokenization) Với các ngôn ngữ biến hình hay chắp dính, bước tiền xử lí có thể bao gồm cả việc đưa các đơn vị từ này về dạng nguyên thể (lemmatization)

Thực hiện dóng hàng bằng thuật toán DK-Vec kết hợp với việc xử lí văn bản có cấu trúc

1.3.1.1 Thuật toán DK-vec

Với mỗi từ w trong một văn bản, xác định một vectơ khoảng cách biểu diễn khoảng cách tương đối giữa các lần xuất hiện của từ w: D w = <d 1 w , , d n w >, trong đó n là số lần xuất hiện của

w trong văn bản, d i w là khoảng cách (tính theo số đơn vị từ vựng) giữa lần xuất hiện thứ i và lần xuất hiện thứ i-1 của w trong văn bản

Các vectơ khoảng cách này phản ánh tính tương tự về mặt phân bố của 1 cặp từ bất kì trong 2 văn bản Thuật toán DK-Vec giả thiết rằng các văn bản được xét có độ dài xấp xỉ (về số đơn vị từ vựng) Tuy nhiên trong thực tế, độ dài này có thể khác nhau theo từng ngôn ngữ Vì

vậy, trước khi áp dụng thuật toán, người ta cần tính toán hệ số tỉ lệ ngôn ngữ (Language

Proportion Coefficient - LPC) Hệ số này tính được bằng thống kê độ dài các văn bản trong một

kho văn bản đa ngữ đủ lớn (đã phân chia theo đơn vị từ)3 Các vectơ khoảng cách của mỗi từ sau

đó được chuẩn hoá theo tỉ số LPC

2 http://www.up.univ-mrs.fr/veronis/arcade/

3 trong ứng dụng của chúng tôi, LPC được tính đơn giản bằng tỉ lệ số đơn vị từ của 2 ngôn ngữ trong kho văn bản song ngữ

Trang 13

Để xác định một từ bất kì trong văn bản nguồn và một từ bất kì trong văn bản đích có khả năng là tương ứng dịch của nhau không, ta sử dụng thuật toán quy hoạch động để xác định độ tương tự giữa 2 vectơ khoảng cách tương ứng với 2 từ đó Tuy nhiên, để tránh việc tính toán trên tất cả các cặp từ trong hai văn bản để tìm các cặp từ có nhiều khả năng là tương đương dịch, ta có thể thực hiện một bước xử lí thô để loại các cặp từ có vectơ khoảng cách rất khác nhau Các tiêu

chuẩn lọc có thể sử dụng khi xét cặp từ s trong văn bản nguồn và t trong văn bản đích là:

Tần số xuất hiện của s và t phải lớn hơn 2 (nếu nhỏ hơn hoặc bằng 2 thì số lượt từ xuất

hiện quá ít để cho kết quả tin cậy) và tỉ lệ giữa hai tần số này không được vượt quá một ngưỡng cho trước, được chọn bằng 2 (Y Choueka et al., 2000)

Chỉ số đo độ tương tự giữa 2 vectơ không vượt qua ngưỡng 200 (Fung & McKeown, 1997):

2

)(

),

D D D

m t

trong đó m và σ tương ứng là giá trị trung bình và độ lệch chuẩn của mỗi vectơ

Sau bước lọc bằng các tiêu chuẩn trên, áp dụng thuật toán quy hoạch động xác định các cặp vectơ khoảng cách có độ tương tự lớn nhất, sử dụng hàm chi phí đối sánh được tính theo công thức:

),1()(

)1,1()(min

|

|),(

0,

0)0,0

j i C iii

j i C ii

j i C i d

d j i C

d d

C

t j

s i

t s

(i + j > 0)

1.3.1.2 Áp dụng thuật toán DK-vec trên văn bản có cấu trúc

Việc dóng hàng ở mức từ vựng theo thuật toán DK-vec được kết hợp với kết quả dóng hàng động (đến mức phân đoạn - paragraph) đối với các văn bản được mã hoá cấu trúc như đã trình bày trong phần 2

1.3.2 Kết quả

Chúng tôi đã xây dựng công cụ dóng hàng ở mức đơn vị từ vựng - với các tập dữ liệu đầu vào là các văn bản đã được đánh dấu bằng thẻ XML đến mức đơn vị từ, có kèm theo thuộc tính từ loại

Các đơn vị từ tiếng Việt được xác định và gán nhãn bằng các phần mềm tách từ và gán nhãn triển khai trong khuôn khổ dự án này (xem các báo cáo kèm theo)

Các đơn vị từ tiếng Pháp được đưa về dạng nguyên thể bằng phần mềm FLEMM cung cấp cùng với bộ gán nhãn Winbrill (http://www.atilf.fr)

Các đơn vị từ tiếng Anh được đưa về dạng nguyên thể bằng phiên bản đánh giá của phần mềm Lemmatiser (http://www.phrasys.com/software/Lemmatiser.html)

Do kho dữ liệu song ngữ Pháp-Việt và Anh-Việt trong đó các văn bản đã được cung cấp thông tin ngôn ngữ chưa đủ lớn, hiện nay chúng tôi đang tiếp tục mở rộng kho dữ liệu để có thể đánh giá hiệu năng của công cụ Công cụ cũng đang được đưa vào đánh giá trong khuôn khổ dự

Trang 14

án ARCADE II (2003-2005), tiếp nối dự án đánh giá các công cụ dóng hàng ở mức câu đã đề cập

ở 2.2

1.4 Hướng dẫn sử dụng phần mềm

Tất cả các phần mềm dóng hàng, hiển thị dóng hàng đều được xây dựng bằng ngôn ngữ Java Chúng có thể chạy được trên tất cả các hệ điều hành có hỗ trợ máy ảo Java Do vậy, để phần mềm có thể hoạt động được, người sử dụng phải đảm bảo được rằng trên máy đã cài đặt máy ảo java (Java Runtime Environment) Nếu chưa, có thể tải về từ địa chỉ http://java.sun.com

1.4.1 Phần mềm dóng hàng ở mức câu

1.4.1.1 Tên phần mềm

Phần mềm dóng hàng ở mức câu có tên là Xalign

1.4.1.2 Tập tin mô tả ý nghĩa của thẻ [*.properties]

Do yêu cầu dóng hàng các văn bản đa ngữ có nguồn gốc không định trước nên Xalign phải có khả năng đọc và hiểu tất cả các thẻ đánh dấu mà các văn bản đã sử dụng Để phục vụ khả năng này, mỗi một file văn bản phải được đi kèm với một file mô tả ý nghĩa các thẻ theo quy ước

Có 6 kiểu như sau :

PHRASE

Phần tử ở mức câu Mỗi phần tử không được chứa một câu khác, một phân đoạn

(paragraph), hay phần (division)

Không được xử lí(cách xử lí mặc nhiên)

Tất cả các thẻ chưa được định nghiă để mang một trong 6 nhóm ý nghĩa trên thì

sẽ được xử lý như là TRANSP.

Sau đây là trích đoạn nội dung của một file mô tả như thế :

…

date=IGNORE

author=IGNORE

language=IGNORE

Trang 15

1.4.1.3 Tập tin văn bản

Các tập tin văn bản có thể chứa một số bất kì các phần tử kiểu DIV lồng nhau Tất cả các phần tử kiểu PHRASE phải được đặt trong các phần tử kiểu PARAG, và các phần tử kiểu PARAG phải nằm trong các DIV

Khi chương trình Xalign tiến hành dóng hàng, nó sử dụng tất cả các phần tử kiểu PHRASE, PARAG, DIV để tính toán các thông số dóng hàng Mỗi kiểu phần tử của một kiểu có một chỉ số duy nhất Chỉ số này sẽ được sử dụng trong tập tin kết quả dóng hàng để làm tham chiếu Chỉ số không được chứa khoảng trắng

Để thực hiện dóng hàng hai văn bản, ta sử dụng chương trình Xalign với cú pháp như sau:

align [-d] sfile tfile src-properties tar-properties [slang tlang] lnkgrpfile

Trong đó,

-d : hiển thị các thông tin trung gian

sfile : tập tin văn bản nguồn

tfile : tập tin văn bản đích

src-properties : tập tin mô tả cho file văn bản nguồn

tar-properties : tập tin mô tả cho file văn bản đích

lnkgrpfile : tập tin lưu kết quả dóng hàng

Ví dụ, muốn thực hiện dóng hàng file MuốiCủaRừng.vn.xml và file MuốiCủaRừng.fr.xml, các tập tin văn bản trên sử dụng chung một file mô tả là

Trang 16

multialign.properties , kết quả dóng hàng xuất ra tập tin mcr.align thì ta thực hiện câu lệnh sau

đây :

align MuốiCủaRừng.vn.xml MuốiCủaRừng.fr.xml multialign.properties

multialign.properties mcr.align

1.4.2 Phần mềm dóng hàng ở mức đơn vị từ vựng

Để sử dụng được phần mềm này 2 văn bản cần dóng hàng phải được phân tách thành đơn

vị từ vựng và đưa về dạng nguyên thể nếu văn bản viết bằng một ngôn ngữ biến hình hoặc chắp dính

Tương tự như đối với công cụ dóng hàng ở mức câu, phần mềm dóng hàng ở mức đơn vị

từ vựng cũng sử dụng một tập tin Properties để xác lập tương ứng giữa tên thẻ trong cấu trúc XML và thành phần thực trong cấu trúc logic của văn bản Một thành phần được bổ sung ở đây là LEXUNIT (lexical unit), dành cho các thẻ XML tương ứng với đơn vị từ vựng muốn dóng hàng Các thẻ có giá trị LEXUNIT trong tập tin văn bản là các thẻ tương ứng với các đơn vị từ vựng, do

đó chúng được đặt theo thứ tự tuyến tính không giao nhau và lồng trong các thẻ PHRASE

Kết quả dóng hàng chứa thông tin về cặp từ được coi là tương đương kèm theo từ loại (POS) của mỗi từ (nếu có thông tin này trong tệp cần dóng hàng)

Cú pháp tương tự như đối với công cụ dóng hàng ở mức câu

dvecalign sfile tfile src-properties tar-properties [slang tlang] resfile

1.4.3 Phần mềm hiển thị/soạn thảo kết quả dóng hàng

1.4.3.1 Tên phần mềm

Phần mềm hiển thị/soạn thảo kết quả dóng hàng (ở mức câu trở lên) có tên là

Concordancier

1.4.3.2 Hiển thị kết quả dóng hàng

Để hiển thị kết quả dóng hàng, khởi động chương trình Concordancier bằng cách chạy

tập tin VMC.BAT có trong thư mục chứa chương trình

Vào mục menu/File/Open, hộp thoại chọn file sẽ hiện ra, hãy chọn tên tập tin chứa kết quả dóng hàng mà bạn muốn xem;

Trang 17

Hình 1-2 Giao diện xem liên kết dóng hàng

Kết quả dóng hàng sẽ hiện ra như trong hình trên Phần văn bản bên trái là nguồn, bên phải là văn bản đích Bạn có thể nhấn vào từng các cặp tương quan để xem nội dung hoặc đánh dấu chọn nhiều cặp một lần

Muốn chọn xem kết quả dóng hàng ở mức nào thì bạn nhấn chọn mức đó trong danh sách các cấp dóng hàng nằm ở dưới bên trái nhất

1.4.3.3 Soạn thảo kết quả dóng hàng

Để soạn thảo lại kết quả dóng hàng, bạn tiến hành mở tập tin chứa kết quả như để hiển thị Rồi sau đó, chọn cặp tương quan nào mà bạn muốn hủy bỏ liên kết dóng hàng rồi chọn Menu/Edit/Unlink để thực hiện

Trang 18

Hình 1-3 Giao diện soạn thảo liên kết dóng hàng

Để tiến hành liên kết hai phần tử ở hai văn bản với nhau, bạn đánh dấu chọn những phần

tử tương ứng của hai văn bản sẽ tham gia vào phép dóng hàng muốn tạo và chọn Menu/Edit/Link (Xem trên hình)

Nếu muốn lưu lại những thay đổi thì chọn Menu/File/Save

1.5 Tài liệu tham khảo

Choueka Y., Conley E.S., Dagan I., "A comprehensive bilingual word alignment system

Application to disparate languages: Hebrew and English", in Véronis J (ed.), Parallel

Text Processing, Dordrecht, Kluwer, 2000, p 69-96

Bonhomme P., "Codage et normalisation de ressources textuelles", in Pierrel J-M (ed.),

Ingénierie des langues, Hermes Science Europe, 2000, p.173-191

Brown P.F., Lai J.C., Mercer R.L., "Aligning sentences in parallel corpora", Proceedings of the

29th Annual Meeting of the Association for Computational Linguistics, Berkeley,

1991, p 169-176

Fung, P & McKeown, K R., "A technical word and term translation aid using noisy parallel

corpora across language groups" Machine translation, 12 (1/2), 1997, 53-87

Fung P., "A statistical view on bilingual lexicon extraction", in Véronis J (ed.), Parallel Text

Processing, Dordrecht, Kluwer, 2000, p 219-236

Trang 19

Gale W.A., Church K.W., "A program for aligning sentences in bilingual corpora",

Computational Linguistics, 19(3), 1993, p 75-102

Isabelle P., Dymetman M., Foster G., Justras J-M., Macklovitch E., Perrault F., Ren X., Simard

M., "Translation analysis and translation automation", Proceedings of the Fifth

International Conference on Theoretical and Methodological Issues in Machine Translation (TMI'93), Kyoto, Japan, 1993

Kay M., Röscheisen M., "Text-translation alignment", Computational Linguistics, 19(1), 1993,

p.121-142

Romary L., Bonhomme P., "Parallel alignment of structured documents", in Véronis J (ed.),

Parallel Text Processing, Dordrecht, Kluwer, 2000, p 201-217

Véronis J., Langlais Ph., "Evaluation of parallel text alignement systems: ARCADE", in Véronis

J (ed.), Parallel Text Processing, Dordrecht, Kluwer, 2000, p 369-388

Véronis J., "Alignement de corpus multilingues", in Pierrel J-M (ed.), Ingénierie des langues,

Hermes Science Europe, 2000, p.151-171

Trang 20

Chương 2

CÔNG CỤ VÀ TÀI NGUYÊN NGÔN NGỮ CHO PHÂN TÍCH

VĂN BẢN

Biên soạn:

Nguyễn Thị Minh Huyền (Trường Đại học Khoa học Tự nhiên, ĐHQG HN)

Phân tích và kiểm tra tính chính xác của văn bản là một vấn đề lớn và phức tạp Quá trình này thường được chia thành 4 giai đoạn chính: phân tích từ vựng, phân tích cú pháp, phân tích ngữ nghĩa và phân tích thực chứng

Phân tích từ vựng Là quá trình phân tích hình thái các từ vựng tạo nên văn bản, từ đó kiểm tra được tính đúng đắn của âm tiết và từ

Phân tích cú pháp Là quá trình đưa ra mô tả quan hệ về vai trò ngữ pháp của các từ, các cụm từ (hoặc ngữ) trong câu, từ đó xây dựng cấu trúc câu

Phân tích ngữ nghĩa Mục đích của phân tích ngữ nghĩa là kiểm tra ý nghĩa của câu có mâu thuẫn với ý nghĩa cả đoạn hay không Dựa trên mối liên hệ logic về nghĩa giữa các cụm từ trong câu và mối liên hệ giữa các câu trong đoạn, hệ thống sẽ xác định được một phần ý nghĩa của câu trong ngữ cảnh của cả đoạn

Phân tích thực chứng Là quá trình phân tích nhằm xác định ý nghĩa của câu dựa trên mối liên hệ của câu với hiện thực Ý nghĩa thực tế của câu phụ thuộc rất nhiều vào ngữ cảnh diễn

ra lời nói Do vậy, quá trình phân tích này rất khó thực hiện được bằng máy tính Thường thì việc phân tích câu chỉ dừng ở phân tích ngữ nghĩa, còn việc phân tích thực chứng do người dùng tự quyết định

Trong khuôn khổ dự án này, chúng tôi tập trung vào hai vấn đề cơ bản là phân tích từ vựng và phân tích cú pháp tiếng Việt Do các công cụ và dữ liệu ngôn ngữ liên quan đến hai vấn

đề này đều thiếu vắng, trong khi việc xây dựng ngữ liệu lại tốn rất nhiều công sức Nhiệm vụ đặt

ra của nhóm là xây dựng một bộ công cụ và một kho ngữ liệu tiếng Việt có thể được truy cập tự

do (trong phạm vi nghiên cứu), làm cơ sở cho các nghiên cứu trong lĩnh vực xử lí ngôn ngữ tiếng Việt tiếp sau

Việc phân tích từ vựng gồm có 2 bước: phân đoạn văn bản thành các đơn vị từ và xác định từ loại cho mỗi từ (chương số 3, 4)

Phân tích cú pháp tiếng Việt đòi hỏi mô hình hoá ngữ pháp tiếng Việt theo một hệ hình thức văn phạm (chương số 5, 6, 7)

Trang 21

Chương 3

SỬ DỤNG BỘ GÁN NHÃN TỪ LOẠI XÁC SUẤT QTAG

CHO VĂN BẢN TIẾNG VIỆT

A case study of the probabilistic tagger QTAG

for Tagging Vietnamese Texts

Biên soạn : Nguyễn Thị Minh Huyền, Vũ Xuân Lương, Lê Hồng Phương

khâu tiền xử lí cho việc gán nhãn: phân tách các đơn vị từ trong văn bản

Từ khoá: từ loại, từ vựng, kho văn bản, phân tách từ, gán nhãn xác suất, QTAG

Abstract

In this paper we describe in detail our experiments on tagging Vietnamese texts using QTAG, a language independent probabilistic tagger with two part-of-speech (POS) sets at two different levels of finesse, based on a lexicon with information about possible POS tags for each word and a manually labeled corpus We also describe the pre-processing for POS tagging, saying text tokenization

Keywords: POS, lexicon, corpus, tokenization, probabilistic tagging,QTAG

3.1 Giới thiệu

Một trong các vấn đề nền tảng của phân tích ngôn ngữ là việc phân loại các từ thành các lớp từ loại dựa theo thực tiễn hoạt động ngôn ngữ Mỗi từ loại tương ứng với một hình thái và một vai trò ngữ pháp nhất định Các bộ chú thích từ loại có thể thay đổi tuỳ theo quan niệm về đơn vị từ vựng và thông tin ngôn ngữ cần khai thác trong các ứng dụng cụ thể [19] Mỗi từ trong một ngôn ngữ nói chung có thể gắn với nhiều từ loại, và việc giải thích đúng nghĩa một từ phụ thuộc vào việc nó được xác định đúng từ loại hay không Công việc gán nhãn từ loại cho một văn bản là xác định từ loại của mỗi từ trong phạm vi văn bản đó Khi hệ thống văn bản đã được gán nhãn, hay nói cách khác là đã được chú thích từ loại thì nó sẽ được ứng dụng rộng rãi trong các

hệ thống tìm kiếm thông tin, trong các ứng dụng tổng hợp tiếng nói, các hệ thống nhận dạng tiếng nói cũng như trong các hệ thống dịch máy

Đối với các văn bản Việt ngữ, việc gán nhãn từ loại có nhiều khó khăn, đặc biệt là bản thân việc phân loại từ tiếng Việt cho đến nay vẫn là một vấn đề còn nhiều tranh cãi, chưa có một chuẩn mực thống nhất [3], [5], [8], [13], [18] Nghiên cứu của nhóm chúng tôi phục vụ đồng thời hai mục đích: một mặt thực hiện nỗ lực nhằm xây dựng các công cụ cho việc xử lí văn bản tiếng Việt trên máy tính phục vụ cho các ứng dụng công nghệ, mặt khác các công cụ này cũng hỗ trợ tích cực cho các nhà ngôn ngữ nghiên cứu tiếng Việt

Trang 22

Trong báo cáo này chúng tôi sẽ trình bày phương pháp tiếp cận và kết quả thu được của nhóm nghiên cứu trong bước thử nghiệm đầu tiên với một công cụ gán nhãn tự động thuần tuý xác suất

3.2 Bài toán gán nhãn từ loại

Trong phần này chúng tôi giới thiệu tổng quan về các kĩ thuật gán nhãn từ loại và các bước giải quyết bài toán gán nhãn từ loại cho văn bản tiếng Việt

Quá trình gán nhãn từ loại có thể chia làm 3 bước [15]

Phân tách xâu kí tự thành chuỗi các từ Giai đoạn này có thể đơn giản hay phức tạp tuỳ theo ngôn ngữ và quan niệm về đơn vị từ vựng Chẳng hạn đối với tiếng Anh hay tiếng Pháp, việc phân tách từ phần lớn là dựa vào các kí hiệu trắng Tuy nhiên vẫn có những từ ghép hay những cụm từ công cụ gây tranh cãi về cách xử lí Trong khi đó với tiếng Việt thì dấu trắng càng không phải là dấu hiệu để xác định ranh giới các đơn vị từ vựng do tần số xuất hiện từ ghép rất cao

Gán nhãn tiên nghiệm, tức là tìm cho mỗi từ tập tất cả các nhãn từ loại mà nó có thể có Tập nhãn này có thể thu được từ cơ sở dữ liệu từ điển hoặc kho văn bản đã gán nhãn bằng tay Đối với một từ mới chưa xuất hiện trong cơ sở ngữ liệu thì có thể dùng một nhãn ngầm định hoặc gắn cho nó tập tất cả các nhãn Trong các ngôn ngữ biến đổi hình thái người ta cũng dựa vào hình thái từ để đoán nhận lớp từ loại tương ứng của từ đang xét

Quyết định kết quả gán nhãn, đó là giai đoạn loại bỏ nhập nhằng, tức là lựa chọn cho mỗi

từ một nhãn phù hợp nhất với ngữ cảnh trong tập nhãn tiên nghiệm Có nhiều phương pháp để

thực hiện việc này, trong đó người ta phân biệt chủ yếu các phương pháp dựa vào quy tắc ngữ

pháp mà đại diện nổi bật là phương pháp Brill ([2]) và các phương pháp xác suất ([4]) Ngoài ra

còn có các hệ thống sử dụng mạng nơ-ron ([16]), các hệ thống lai sử dụng kết hợp tính toán xác suất và ràng buộc ngữ pháp [6], gán nhãn nhiều tầng [17]

Về mặt ngữ liệu, các phương pháp phân tích từ loại thông dụng hiện nay dùng một trong các loại tài nguyên ngôn ngữ sau:

Từ điển và các văn phạm loại bỏ nhập nhằng [14]

Kho văn bản đã gán nhãn [4], có thể kèm theo các quy tắc ngữ pháp xây dựng bằng tay [2]

Kho văn bản chưa gán nhãn, có kèm theo các thông tin ngôn ngữ như là tập từ loại và các thông tin mô tả quan hệ giữa từ loại và hậu tố [10]

Kho văn bản chưa gán nhãn, với tập từ loại cũng được xây dựng tự động nhờ các tính toán thống kê [11] Trong trường hợp này khó có thể dự đoán trước về tập từ loại

Các bộ gán nhãn từ loại dùng từ điển và văn phạm gần giống với một bộ phân tích cú

pháp Các hệ thống học sử dụng kho văn bản để học cách đoán nhận từ loại cho mỗi từ [1] Từ

giữa những năm 1980 các hệ thống này được triển khai rộng rãi vì việc xây dựng kho văn bản mẫu ít tốn kém hơn nhiều so với việc xây dựng một từ điển chất lượng cao và một bộ quy tắc ngữ pháp đầy đủ Một số hệ thống sử dụng đồng thời từ điển để liệt kê các từ loại có thể cho một từ,

Trang 23

và một kho văn bản mẫu để loại bỏ nhập nhằng Bộ gán nhãn của chúng tôi nằm trong số các hệ thống này

Các bộ gán nhãn thường được đánh giá bằng độ chính xác của kết quả: [số từ được gán nhãn đúng] / [tổng số từ trong văn bản] Các bộ gán nhãn tốt nhất hiện nay có độ chính xác đạt tới 98% [15]

Nghiên cứu áp dụng cho vấn đề tự động gán nhãn từ loại tiếng Việt, nhóm chúng tôi đã thực hiện các bước cụ thể sau:

Xây dựng từ điển từ vựng, lựa chọn tiêu chí xác định từ loại trong quá trình phân tích từ vựng Hầu hết các mục từ trong từ điển đều có thông tin từ loại đi kèm

Xây dựng công cụ phân tách các đơn vị từ vựng trong văn bản

Xây dựng kho văn bản đã loại bỏ nhập nhằng từ loại bằng tay, sau khi tự động gán tất cả các nhãn có thể cho mỗi từ

Xây dựng bộ gán nhãn từ loại tự động, dựa trên các thông tin từ loại trong từ điển từ vựng

và các quy tắc kết hợp từ loại học được từ kho văn bản đã gán nhãn mẫu

Trong phần tiếp theo của báo cáo, chúng tôi sẽ lần lượt trình bày các bước 1, 2 và 4

3.3 Xây dựng từ điển từ vựng, xác định bộ chú thích từ loại tiếng việt

Trong khuôn khổ đề tài cấp Nhà nước KC01 "Nghiên cứu phát triển công nghệ nhận dạng, tổng hợp và xử lí ngôn ngữ tiếng Việt", nhóm nghiên cứu đã triển khai các công việc xây dựng kho ngữ liệu tiếng Việt bao gồm từ điển từ vựng và kho văn bản có kèm theo mô tả từ loại của các đơn vị từ vựng với chất lượng cao, tuân theo các chuẩn quốc tế về biểu diễn dữ liệu4, cho phép cập nhật và mở rộng dễ dàng

3.3.1 Từ điển từ vựng

Trong tiếng Việt, bên cạnh những đơn vị rõ ràng là từ, là ngữ cố định như thành ngữ (sơn

cùng thuỷ tận, tay xách nách mang ), quán ngữ (lên lớp, lên mặt, ra vẻ), còn tồn tại những đơn

vị có người cho là từ, có người cho là ngữ cố định (như xe lăn đường, máy quay đĩa, làm ruộng,

lạnh ngắt, suy cho cùng, ) Ranh giới của từ trong tiếng Việt là một vấn đề phức tạp, trong

nhiều trường hợp còn có những ý kiến khác nhau [8]

Chúng tôi lựa chọn quan niệm đơn vị từ vựng theo cuốn Từ điển tiếng Việt [7] (do Viện

Ngôn Ngữ Học biên soạn) để xây dựng cơ sở ngữ liệu Trong toàn bộ cuốn từ điển này, quan điểm về việc thu thập từ vựng, về chuẩn hoá chính tả, về chú thích từ loại là rõ ràng và thống nhất

Ngoài ra, chúng tôi có đưa thêm các đơn vị từ vựng ít dùng, gặp trong kho văn bản nhưng

không được thu thập trong từ điển vào Từ điển từ vựng Mặt khác, chúng tôi cũng đưa thêm các đơn vị từ vựng mới xuất hiện (mà từ điển chưa thu thập) vào Từ điển từ vựng cùng với những

đơn vị là tên người, tên địa danh, tên tổ chức thường gặp để tiện cho chương trình xử lí

4 cf ISO TC37/SC4 http://www.tc37sc4.org

Trang 24

Chính tả trong [7] theo đúng các Quy định về chính tả tiếng Việt và về thuật ngữ tiếng

Việt trong các sách giáo khoa, được ban hành theo Quyết định số 240/QĐ ngày 5-3-1984 của Bộ

trưởng Bộ Giáo dục” (chẳng hạn vấn đề viết nguyên âm "-i", viết "-uy", cách ghi dấu thanh, cách viết thuật ngữ khoa học, sử dụng con chữ f, j, w, z cho các từ mượn tiếng nước ngoài, v.v.)

Trên thực tế, trong các văn bản tiếng Việt vẫn không có sự thống nhất trong cách ghi dấu thanh ở những âm tiết có âm đệm, vì vậy mà trước khi áp dụng cho chương trình tách từ và gán nhãn từ loại, văn bản đã được chúng tôi xử lí lại cho nhất quán với từ điển

3.3.2 Xây dựng bộ chú thích từ loại

Từ loại phản ánh vị trí khác nhau của các từ trong hệ thống ngữ pháp Để phản ánh được chính xác tất cả các quan hệ ngữ pháp thì cần có một bộ từ loại rất lớn Nhưng càng nhiều chú thích từ loại thì công việc gán nhãn càng khó khăn Bởi vậy cần phải có một sự thoả hiệp để đạt được một bộ chú thích từ loại không quá lớn và có chất lượng

Chúng tôi chọn làm việc với hai bộ từ loại Trước hết là sử dụng bộ chú thích 8 từ loại (danh từ, động từ, tính từ, đại từ, phụ từ, kết từ, trợ từ, cảm từ) được cộng đồng ngôn ngữ học thoả hiệp tương đối, trình bày trong cuốn Ngữ pháp tiếng Việt [18] và được chú thích cụ thể cho từng mục từ trong [7]

Bộ từ loại thứ hai được xây dựng bằng cách phân nhỏ mỗi từ loại trên thành các tiểu từ loại Ban đầu chúng tôi dùng ngay cách chia thành tiểu loại trong [18]

Những chú thích từ loại được chọn như trên sau đó được phản ánh đầy đủ trong Từ điển

từ vựng, làm cơ sở dữ liệu cho chương trình tự động xác định ý nghĩa danh từ, động từ , động từ

nội động hay động từ ngoại động của mỗi từ khi phân xuất trực tiếp trong văn bản Cùng với từ điển này là kho văn bản đã được chúng tôi gán nhãn bằng tay sau khi đã chạy chương trình tách

từ và xác định tất cả các nhãn có thể tìm được trong từ điển cho mỗi từ

Trong quá trình xác định nhãn cho từng từ trong văn bản cụ thể, chúng tôi nhận thấy sự cần thiết phải bổ sung thêm một số nhãn từ loại để tránh trường hợp một từ mang cùng một lúc nhiều nhãn từ loại (chẳng hạn động từ ngoại động chỉ cảm nghĩ hay động từ nội động chỉ cảm nghĩ) Như vậy quá trình xây dựng tập mẫu cũng đồng thời là quá trình điều chỉnh việc phân chia

từ loại hợp lí hơn Hiện tại chúng tôi làm việc với bộ nhãn từ loại ở mức mịn hơn gồm 47 từ loại

và bổ sung một nhãn cho các từ chưa xác định được từ loại

3.4 Phân tách từ trong văn bản tiếng Việt

Trang 25

3.4.2 Các bước giải quyết

Xây dựng ôtômát âm tiết đoán nhận tất cả các âm tiết tiếng Việt

Xây dựng ôtômát từ vựng đoán nhận tất cả các từ vựng tiếng Việt

Dựa trên các ôtômát nêu trên, xây dựng đồ thị tương ứng với câu cần phân tích và sử dụng thuật toán tìm kiếm trên đồ thị để liệt kê các cách phân tích có thể

Bảng chữ cái của ôtômát âm tiết là bảng chữ cái tiếng Việt, mỗi cung chuyển được ghi

trên đó một ký tự Ví dụ, với ba âm tiết phương, pháp, trình ta sẽ có ôtômát đoán nhận âm tiết

như Hình 3-1

Hình 3-1 Xây dựng ôtômát âm tiết

3.4.2.1 Thuật toán xây dựng ôtômát âm tiết

Input: Từ điển âm tiết

Output: Ôtômát âm tiết

Thuật toán:

1 Lập trạng thái khởi đầu q0;

2 Vòng lặp đọc cho tới khi hết tệp dữ liệu, lấy ra từng âm tiết Gọi các ký tự của âm tiết đó

c Với j từ i đến n−1

i Tạo mới trạng thái q , ghi nhận q là trạng thái không kết;

ii Thêm cung chuyển ( , )p q trên đó ghi ký tự c j; iii p:= q;

d Ghi nhận q là trạng thái kết;

Ôtômát từ vựng được xây dựng tương tự, với điểm khác như sau: thay vì ghi trên mỗi cung chuyển một âm tiết, ta ghi số hiệu của trạng thái (kết) của ôtômát âm tiết tại đó đoán nhận

Trang 26

mỗi âm tiết của từ nhằm giảm kích thước của ôtômát từ vựng Ví dụ, với hai từ phương pháp và

phương trình, giả sử khi đưa lần lượt các âm tiết phương, pháp, trình qua ôtômát âm tiết, ta đến

được các trạng thái kết ghi các số n1, n2, n3 thì trên các cung chuyển tương ứng ta ghi các số n1,

n 2, n3 (Hình 3-2)

Hình 3-2 Xây dựng ôtômát từ vựng

3.4.2.2 Thuật toán xây dựng ôtômát từ vựng

Input: Từ điển từ vựng, ôtômát âm tiết

Output: Ôtômát từ vựng

Thuật toán:

1 Lập trạng thái khởi đầu q0;

2 Vòng lặp đọc cho tới khi hết tệp dữ liệu, lấy ra từng mục từ word Gọi các âm tiết của word là s s0, , ,1 s n−1;

3 Sử dụng ôtômát âm tiết để đoán nhận các âm tiết trên, được các số hiệu của trạng thái (kết) tương ứng là m m0, 1, ,m n−1

c Với j từ i đến n−1

i Tạo mới trạng thái q , ghi nhận q là trạng thái không kết;

ii Thêm cung chuyển ( , )p q trên đó ghi số m j; iii p:= q;

iv Ghi nhận q là trạng thái kết

Sau khi đã xây dựng xong hai ôtômát, ta ghi chúng vào hai tệp định kiểu để dùng trong bước phân tách từ vựng Nếu mỗi ký tự (char) được ghi vào tệp với kích thước 2 byte (mã Unicode), mỗi số nguyên (int) có kích thước 4 byte thì tệp lưu ôtômát âm tiết có kích thước 146KB, tệp ôtômát từ vựng có kích thước 1MB

Tư tưởng của thuật toán phân tách từ vựng là quy việc phân tách câu về việc tìm đường đi trên một đồ thị có hướng, không có trọng số

Giả sử câu ban đầu là một dãy gồm n+1 âm tiết s0, s1, , sn Ta xây dựng một đồ thị có

n+2 đỉnh v 0, v1, , vn, vn+1, sắp thứ tự trên một đường thẳng từ trái sang phải; trong đó, từ đỉnh vi

Trang 27

đến đỉnh vj có cung (i < j) nếu các âm tiết si, si+1, , sj-1 theo thứ tự lập thành một từ Khi đó mỗi cách phân tách câu khác nhau tương ứng với một đường đi trên đồ thị từ đỉnh đầu v0 đến đỉnh cuối vn+1 Trong thực tế, cách phân tích câu đúng đắn nhất thường ứng với đường đi qua ít cung

nhất trên đồ thị

Trong trường hợp câu có sự nhập nhằng thì đồ thị sẽ có nhiều hơn một đường đi ngắn nhất từ đỉnh đầu đến đỉnh cuối, ta liệt kê toàn bộ các đường đi ngắn nhất trên đồ thị, từ đó đưa ra tất cả các phương án tách câu có thể và để người dùng quyết định sẽ chọn phương án nào, tuỳ

thuộc vào ngữ nghĩa hoặc văn cảnh Ví dụ, xét một câu có cụm "thuộc địa bàn", ta có đồ thị như

sau (Hình 3-3)

Hình 3-3 Một tình huống nhập nhằng

Cụm này có sự nhập nhằng giữa thuộc địa và địa bàn và ta sẽ có hai kết quả phân tách là

"thuộc địa / bàn" và "thuộc / địa bàn" Ta có thể chỉ ra rất nhiều những cụm nhập nhằng trong

tiếng Việt, chẳng hạn "tổ hợp âm tiết", "bằng chứng cớ",

Trường hợp trong câu có âm tiết không nằm trong từ điển thì rõ ràng ôtômát âm tiết

không đoán nhận được âm tiết này Kết quả là đồ thị ta xây dựng từ câu đó là không liên thông

Dựa vào tính chất này, ta thấy rằng nếu đồ thị không liên thông thì dễ dàng phát hiện ra rằng đơn

vị âm tiết không đoán nhận được không nằm trong từ điển âm tiết, tức nó bị viết sai chính tả hoặc

là một đơn vị âm tiết (từ vựng) mới

3.4.3 Đánh giá kết quả

Với cách tiếp cận như trên, bài toán phân tách từ vựng trong câu tiếng Việt về cơ bản đã được giải quyết, đặc biệt là vấn đề tách các tổ hợp từ tương đương với một đơn vị từ vựng, thường là các cụm từ cố định, ngữ cố định hoặc các thành ngữ trong tiếng Việt Với những câu nhập vào có sự nhập nhằng từ vựng, tức có nhiều hơn một cách phân tách thì chương trình liệt kê toàn bộ các phương án tách từ có thể và giành quyền lựa chọn kết quả cho người sử dụng Trong tất cả các phương án phân tách đó bao giờ cũng tồn tại phương án đúng

Dưới đây là một số câu nhập vào và kết quả tách từ tương ứng

1 Nó | là | một | bản | tuyên ngôn | đặc sắc | của | chủ nghĩa nhân đạo | , một | tiếng | chuông | cảnh tỉnh | trước | hiểm họa | lớn lao | của | hành tinh | trước | sự | điên rồ | của

| những | kẻ | cuồng tín

Thứ nhất là vấn đề giải quyết nhập nhằng phân tách Cần phải chọn một phương án đúng

giữa nhiều phương án Các hướng tiếp cận khả thi cho vấn đề này có thể là:

Trang 28

Dùng các quy tắc ngữ pháp do chuyên gia ngôn ngữ xây dựng Tiến hành phân tích cú pháp của câu với những phương án tách từ vựng có thể, từ đó loại ra những phương án sai cú pháp

Dùng phương pháp xác suất - thống kê Phải thống kê trong kho văn bản tương đối lớn của tiếng Việt để tìm ra xác suất của các bộ đôi hay bộ ba từ loại hoặc từ vựng đi cạnh nhau Từ

đó lựa chọn phương án phân tách có xác suất sai ít nhất

Chương trình phân tích cú pháp tiếng Việt chúng tôi hiện có cũng đã có khả năng nhận

biết được một số câu nhập nhằng từ vựng Ví dụ, với câu “bản sao chụp mờ” thì có thể có hai

cách phân tích có thể là “bản | sao chụp” và “bản sao | chụp”, trình phân tích nhận thấy cả hai

cách tách từ này đều đúng cú pháp và đưa ra hai cây phân tích tương ứng Với câu “anh ấy rất

thuộc địa bàn” thì mặc dù cụm “thuộc địa bàn” có hai cách phân tách từ vựng là “thuộc | địa bàn”

và “thuộc địa | bàn” nhưng trình phân tích chỉ đoán nhận được một và đưa ra cách phân tích tương ứng với cách tách từ đó Do đó, cách tách từ còn lại là sai

Thứ hai là vấn đề giải quyết tên riêng, tên viết tắt và tên có nguồn gốc nước ngoài có mặt

trong câu Hiện tại chương trình phân tách chưa nhận ra được các cụm từ dạng “Nguyễn Văn A”,

“Đại học Khoa học Tự nhiên”, hoặc “ĐT 8.20.20.20”, “1.000$”, “0,05%”

3.5 Thử nghiệm bộ gắn nhãn QTAG cho tiếng Việt

QTAG là một bộ gán nhãn như vậy, do nhóm nghiên cứu Corpus Research thuộc trường đại học tổng hợp Birmingham phát triển, cung cấp miễn phí cho mục đích nghiên cứu5 Chúng tôi

đã sửa đổi phần mềm này để thích nghi với việc thao tác trên văn bản tiếng Việt, cũng như cho phép sử dụng từ điển từ vựng có thông tin từ loại bên cạnh việc sử dụng kho văn bản đã gán nhãn Với sự đồng ý của tác giả O Mason, chúng tôi công bố phiên bản QTAG cho tiếng Việt

http://www.loria.fr/equipes/led/outils.php

3.5.1 Phương pháp gán nhãn xác suất

Ý tưởng của phương pháp gán nhãn từ loại xác suất là xác định phân bố xác suất trong

không gian kết hợp giữa dãy các từ Sw và dãy các nhãn từ loại St Sau khi đã có phân bố xác suất

này, bài toán loại bỏ nhập nhằng từ loại cho một dãy các từ được đưa về bài toán lựa chọn một

dãy từ loại sao cho xác suất điều kiện P(St | S w ) kết hợp dãy từ loại đó với dãy từ đã cho đạt giá trị

lớn nhất

Theo công thức xác suất Bayes ta có: P(St | S w ) = P(S w | S t ).P(S t )/P(S w ) Ở đây dãy các từ

S w đã biết, nên thực tế chỉ cần cực đại hoá xác suất P(Sw | S t ).P(S t )

Với mọi dãy St = t1t2 tN và với mọi dãy Sw = w1w2 wN :

Người ta đưa ra các giả thiết đơn giản hoá cho phép thu gọn mô hình xác suất về một số hữu hạn các tham biến

5 http://www.clg.bham.ac.uk/staff/oliver/software/tagger/

Trang 29

Đối với mỗi P(wi | w1 w i-1, t 1 t 2 t N ), giả thiết khả năng xuất hiện một từ khi cho một

nhãn từ loại là hoàn toàn xác định khi biết nhãn đó, nghĩa là P(wi | w1 w i-1, t 1 t 2 t N ) = P(w i | t i )

Như vậy xác suất P(w1 w 2 w N |t 1 t 2 t N ) chỉ phụ thuộc vào các xác suất cơ bản có dạng P(w i |t i ):

P(w1w2 wN | t1t2 tN) = P(w1 | t1)P(w2 | t2) P(wN | tN)

Đối với các xác suất P(ti | t 1 t i-1 ), giả thiết khả năng xuất hiện của một từ loại là hoàn toàn

xác định khi biết các nhãn từ loại trong một lân cận có kích thước k cố định, nghĩa là: P(ti | t 1 t

i-1 )= P(t i | t i-k t i-1 ) Nói chung, các bộ gán nhãn thường sử dụng giả thiết k bằng 1 (bigram) hoặc 2

(trigram)

Như vậy mô hình xác suất này tương đương với một mô hình Markov ẩn, trong đó các

trạng thái ẩn là các nhãn từ loại (hay các dãy gồm k nhãn nếu k > 1), và các trạng thái hiện (quan

sát được) là các từ trong từ điển Với một kho văn bản đã gán nhãn mẫu, các tham số của mô hình

này dễ dàng được xác định nhờ thuật toán Viterbi

3.5.2 Bộ gán nhãn QTAG

3.5.2.1 Dữ liệu mẫu

Bộ gán nhãn QTAG là một bộ gán nhãn trigram QTAG sử dụng kết hợp hai nguồn thông tin: một từ điển từ chứa các từ kèm theo danh sách các nhãn có thể của chúng cùng với tần suất xuất hiện tương ứng; và một ma trận gồm các bộ ba nhãn từ loại có thể xuất hiện liền nhau trong văn bản với các tần số xuất hiện của chúng Cả hai loại dữ liệu này thu được dễ dàng dựa vào kho văn bản mẫu đã gán nhãn Các loại dấu câu và các kí hiệu khác trong văn bản được xử lí như các đơn vị từ vựng, với nhãn chính là dấu câu tương ứng

3.5.2.2 Thuật toán gán nhãn từ loại

Về mặt thuật toán, QTAG làm việc trên một cửa sổ chứa 3 từ, sau khi đã bổ sung thêm 2

từ giả ở đầu và cuối văn bản Các từ được lần lượt đọc và thêm vào cửa sổ mỗi khi cửa sổ di chuyển từ trái sang phải, mỗi lần một vị trí Nhãn được gán cho mỗi từ đã lọt ra ngoài cửa sổ là nhãn kết quả cuối cùng Thủ tục gán nhãn như sau:

1 Đọc từ (token) tiếp theo

2 Tìm từ đó trong từ điển

3 Nếu không tìm thấy, gán cho từ đó tất cả các nhãn (tag) có thể

4 Với mỗi nhãn có thể

a tính Pw = P(tag|token) là xác suất từ token có nhãn tag

b tính Pc = P(tag|t 1 ,t 2 ), là xác suất nhãn tag xuất hiện sau các nhãn t1, t2, là nhãn

tương ứng của hai từ đứng trước từ token

c tính Pw,c = P w * P c, kết hợp hai xác suất trên

5 Lặp lại phép tính cho hai nhãn khác trong cửa sổ

Sau mỗi lần tính lại (3 lần cho mỗi từ), các xác suất kết quả được kết hợp để cho ra xác suất toàn thể của nhãn được gán cho từ Vì các giá trị này thường nhỏ, nên chúng được tính trong biểu thức logarit cơ số 10 Giá trị xác suất tính được cho mỗi nhãn tương ứng với một từ thể hiện

độ tin cậy của phép gán nhãn này cho từ đang xét

Trang 30

3.5.2.3 Thực hiện gán nhãn

Sau khi đã xây dựng từ điển từ vựng và ma trận xác suất chuyển giữa các từ loại từ dữ liệu mẫu, QTAG làm việc với dữ liệu vào là một văn bản đã được tách từ, mỗi từ nằm trên một dòng Chương trình có thể in ra dãy các nhãn từ loại cùng với thông tin xác suất tương ứng cho mỗi từ trong văn bản, hoặc chỉ in ra kết quả cuối cùng - nhãn có khả năng xuất hiện cao nhất

3.5.3 Sử dụng QTAG cho tiếng Việt

3.5.3.1 Dữ liệu mẫu

Nhóm nghiên cứu ngôn ngữ của Trung tâm Từ điển học xây dựng cơ sở dữ liệu mẫu bao gồm:

Từ điển từ vựng gồm 37454 mục từ, mỗi mục từ có kèm theo dãy tất cả các từ loại mà nó

có thể có, những đơn vị chưa xác định được từ loại thì gắn nhãn X

Các văn bản thuộc một số thể loại khác nhau (văn học Việt Nam/nước ngoài, khoa học, báo chí) được gán nhãn bằng tay, bao gồm 63732 lượt từ với 48 nhãn từ loại cùng với một số nhãn tương ứng với các dấu câu và một số kí hiệu khác

Cơ sở dữ liệu của chúng tôi có từ điển từ vựng độc lập nên chúng tôi đã thực hiện một số thay đổi sau:

Đưa vào kho từ vựng của bộ gán nhãn tất cả các mục từ có trong từ điển từ vựng của chúng tôi và các mục từ có trong tập huấn luyện

Khi gặp một đơn vị mới trong tập văn bản cần gán nhãn, kiểm tra nếu đơn vị đó là số hay tên riêng thì gán nhãn số hay tên riêng

Ngoài ra, một môđun đoán nhận từ loại cho một từ mới dựa vào hậu tố của từ đó - không

áp dụng được cho tiếng Việt - cũng được lược bỏ

Phương pháp thử nghiệm của chúng tôi là lấy một phần kho văn bản đã gán nhãn làm tập huấn luyện cho mô hình xác suất Sau đó chúng tôi áp dụng mô hình này để tự động gán nhãn cho phần các văn bản còn lại rồi so sánh kết quả thu được với dữ liệu mẫu Các thử nghiệm được thực hiện đối với 2 bộ chú thích từ loại trình bày trong mục 3 Với mỗi mức trên chúng tôi đã thực hiện các thử nghiệm, tương ứng với các tập mẫu khác nhau về kích thước và văn phong

3.5.3.3 Đánh giá kết quả

Chương trình được cài đặt bằng ngôn ngữ lập trình Java, chạy trong mọi môi trường, có thể dùng mã tiếng Việt Unicode (dựng sẵn) hoặc TCVN Mã chương trình đích khoảng 16KB

Mã nguồn dễ dàng sửa đổi và dùng lại Thời gian huấn luyện hay gán nhãn với ngữ liệu khoảng

32000 lượt từ đều tổn khoảng 30 giây Kết quả gán nhãn một câu nếu chọn định dạng XML như

ví dụ sau:

Trang 31

<w pos="Nc"> hồi</w> <w pos="Vto"> lên </w> < w pos="Nn"> sáu </w> <w pos=","> ,

</w> <w pos="Vs"> có </w> <w pos="Nu"> lần </w> <w pos="Pp"> tôi </w> <w pos="Jt">

đã </w> <w pos="Vt"> nhìn </w> <w pos="Vt"> thấy </w> <w pos="Nn"> một</w> <w pos="Nt"> bức </w> <w pos="Nc"> tranh </w> <w pos="Jd"> tuyệt </w> <w pos="Aa"> đẹp

</w>

trong đó: Nc - danh từ đơn thể, Vto - ngoại động từ chỉ hướng, Nn - danh từ số lượng, Vs

- động từ tồn tại, Nu - danh từ đơn vị, Pp - đại từ nhân xưng, Jt - phụ từ thời gian, Vt - ngoại động

từ, Nt - danh từ loại thể, Jd - phụ từ chỉ mức độ, Aa - tính từ hàm chất

Kết quả thử nghiệm tốt nhất với các tập mẫu đã xây dựng đạt tới độ chính xác ~94% đối với bộ nhãn thứ nhất (9 nhãn từ vựng và 10 nhãn cho các loại kí hiệu), trong khi với bộ nhãn thứ hai chỉ đạt tới ~85% (48 nhãn từ vựng và 10 nhãn cho các loại kí hiệu) Bảng 1 minh hoạ kết quả gán nhãn với bộ nhãn thứ nhất: tỉ lệ tương ứng trong mỗi thử nghiệm là độ chính xác Nếu không dùng đến từ điển từ vựng (chỉ sử dụng kho văn bản đã gán nhãn mẫu) thì các kết quả chỉ đạt được tương ứng là ~80% và ~60%

Kết quả của các thử nghiệm ban đầu cũng cho chúng tôi một số nhận xét sau:

Với kích thước tập mẫu ban đầu như nhau, do tập nhãn từ loại ở mức 2 lớn hơn nhiều so với mức 1, nên tỉ lệ lỗi ở mức 2 cao hơn mức 1 khá nhiều

Đúng như mong đợi, khi xử lí các văn bản cùng một văn phong, tập mẫu càng lớn thì tỉ lệ lỗi càng giảm

Tập mẫu với các văn bản có văn phong khác nhau có ảnh hưởng tới kết quả gán nhãn

Trang 32

ngữ phát hiện các hiện tượng ngôn ngữ cần nghiên cứu Với mong muốn mở rộng sự quan tâm

nghiên cứu của mọi người, chúng tôi sẵn sàng cung cấp tất cả các tài nguyên và công cụ đã xây dựng trong cộng đồng nghiên cứu xử lí tiếng Việt

3.7 Tài liệu tham khảo

Abney S., "Part-of-Speech Tagging and Partial Parsing", in Young S and Bloothooft (Eds),

Corpus-Based Methods in Language and Speech processing, Kluwer Academic

Publishers, Dodreht (The Netherlands), 1997

Brill E., "Transformation-Based Error-Driven Learning and Natural Language Processing: A

Case Study in Part of Speech Tagging", Computational Linguistics, 21(4),

December 199, p.543-565

Cao Xuân Hạo, Tiếng Việt - mấy vấn đề ngữ âm, ngữ pháp, ngữ nghĩa, NXB Giáo dục, 2000

Trang 33

Dermatas E., Kokkinakis G., "Automatic Stochastic Tagging of Natural Language Texts",

Computational Linguistics 21.2, 1995, p 137 - 163

Diệp Quang Ban, Hoàng Văn Thung, Ngữ pháp tiếng Việt (2 tập), NXB Giáo dục, 1999

El-Bèze M, Spriet T., "Etiquetage probabiliste et contraintes syntaxiques", Actes de la

conférence sur le Traitement Automatique du Langage Naturel (TALN95),

Marseille, France,14-16/6/1995

Hoàng Phê (chủ biên), Từ điển tiếng Việt 2002, Nhà xuất bản Đà Nẵng - Trung Tâm Từ Điển

Học

Hữu Đạt, Trần Trí Dõi, Đào Thanh Lan, Cơ sở tiếng Việt, NXB Giáo dục, 1998

Kuipec J., "Robust Part-of-Speech Tagging Using a Hidden Markov Model", Computer Speech

and Language, vol 6, 1992, p 225-242

Levinger M., Ornan U., Itai A., "Learning morpho-lexical probabilities from an untagged

corpus with an application to Hebrew", Computational Linguistics, 21(3), 1995, p

383-404

MacMahon J.G., Smith F.J., "Improving statistical language model performance with

automatically generated word hierarchies", Computational Linguistics, 19(2), 1993,

p 313-330

Mason O., Tufis D., "Tagging Romanian Texts: a Case Study for QTAG, a Language

Independent Probabilistic Tagger", 1st International Conference on Language

Ressources and Evaluation (LREC98), Granada (Spain), 28-30 May 1998, p

589-596

Nguyễn Tài Cẩn, Ngữ pháp tiếng Việt, NXB Đại học Quốc gia Hà Nội, 1998

Oflazer K., "Error-tolenrant finite-state recognition with applications to morphological analysis

and spelling correction", Computational Linguistics, 22(1), 1996, p 73-89

Paroubek P., Rajman M., "Etiquetage morpho-syntaxique", Ingénierie des langues, chapitre 5,

Hermes Science Europe, 2000

Schmid H., "Part-of-Speech Tagging with Neural networks", International Conference on

Computational Linguistics, Japan, 1994, p 172-176, Kyoto

Tufis D., "Tiered Tagging and combined classifier", In Jelineck F and Nörth E (Eds), Text,

Speech and Dialogue, Lecture Notes in Artificial Intelligence 1692, Springer, 1999

Uỷ ban khoa học xã hội Việt Nam, Ngữ pháp tiếng Việt, NXB Khoa học Xã hội, Hà nội, 1993 Vergnes J., Giguet E., "Regards théoriques sur le tagging", 5e conférence sur le Traitement

Automatique du Langage Naturel (TALN98), Paris, 10-12 juin, 1998

Trang 34

Chương 4

Xây dựng kho từ vựng ngữ pháp tiếng Việt

Biên soạn:

Nguyễn Thị Minh Huyền (Trường Đại học Khoa học Tự nhiên, ĐHQG HN)

Vũ Xuân Lương (Trung tâm Từ điển)

4.1 Giới thiệu chung

4.1.1 Đặc điểm từ tiếng Việt

1 Khái niệm từ và ranh giới của từ tiếng Việt hiện vẫn còn là một vấn đề gây nhiều tranh cãi trong giới ngôn ngữ học nói chung, cũng như trong giới Việt ngữ học nói riêng Trong tiếng Việt, các âm tiết được viết tách rời nhau nhưng từ thì không hoàn toàn trùng với âm tiết Ranh giới của từ trong tiếng Việt là một vấn đề cực kì phức tạp Ngoài những đơn vị rõ ràng là từ (điển hình là những đơn vị đơn tiết có nghĩa độc lập), trong tiếng Việt có một số lượng rất lớn các đơn vị từ vựng mà có người cho là từ, có

người cho là ngữ (cố định), như đường thẳng, máy quay đĩa, làm ruộng, nguội ngắt,

v.v Bên cạnh đó, còn có nhiều trường hợp khi ở trong chu cảnh (văn cảnh, context) này

thì là từ, nhưng khi ở trong chu cảnh khác thì lại là tổ hợp từ chẳng hạn chanh chua trong ăn nói chanh chua (chanh chua là từ) và ăn quả chanh chua (chanh chua không phải là từ), v.v Sự phức tạp trong việc xác định ranh giới từ trong tiếng Việt như đã

trình bày là một trở ngại rất lớn cho bài toán xử lí ngôn ngữ tự nhiên

2 Trong tiếng Việt, từ không biến đổi hình thái, không có các khái niệm thân từ, tiền tố, hậu tố,… Các từ giữ nguyên hình thức của nó khi đứng biệt lập một mình cũng như khi hoạt động ở trong câu Hình thái của từ tự nó không chỉ ra mối quan hệ cú pháp giữa các từ trong câu, không chỉ ra chức năng ngữ pháp của các từ Chức năng ngữ pháp của

từ do ý nghĩa ngữ pháp quyết định, còn quan hệ cú pháp giữa các từ trong câu được biểu thị nhờ các hư từ và trật tự từ Đó là những đặc điểm cơ bản của tiếng Việt - một ngôn ngữ đơn lập, phân tích tính, khác biệt với ngôn ngữ chắp dính, tổng hợp tính như các ngôn ngữ Ấn-Âu Sự khác biệt này lại là một trở ngại nữa cho việc phân tích và xử

lí ngôn ngữ tự nhiên

3 Trên đại thể, từ tiếng Việt được chia thành hai loại lớn: thực từ và hư từ Thực từ là những từ thiên về ý nghĩa từ vựng (là ý nghĩa được khái quát từ một lớp nhiều cá thể sự vật, hiện tượng, hoạt động,…trong đời sống thực tiễn) và có khả năng làm thành phần câu; hư từ là những từ được dùng để biểu thị quan hệ ngữ pháp giữa các thực từ, không

có khả năng độc lập làm thành phần câu Các từ loại điển hình trong thực từ gồm: danh

từ, động từ, tính từ, đại từ, số từ; hư từ gồm: kết từ (liên từ và giới từ), phụ từ Ngoài ra

còn có các từ loại khác như: cảm từ, trợ từ, chúng được nhiều tác giả phân định thành một nhóm từ loại thứ ba, đó là nhóm tình thái từ (từ tình thái)

4 Bên cạnh những đơn vị từ “đích thực” kể trên, vốn từ vựng tiếng Việt trở nên phong phú hơn nhiều bởi các đơn vị quán ngữ (tổ hợp từ cố định đã dùng lâu thành quen,

nghĩa có thể suy ra từ nghĩa của các yếu tố hợp thành) như: ngược lại, mặt khác, chẳng

mấy chốc, chẳng bù, kể cả, nói đúng ra, nghĩ bụng, miễn sao, như mọi người đều biết, như trên đã nói, v.v Tuy nhiên, cũng lại có nhiều trường hợp rất khó xác định là từ hay

Trang 35

là quán ngữ, như: chẳng hạn, dường như Và đây cũng là một lí do nữa gây trở ngại cho

việc phân loại từ

4.1.2 Vấn đề phân loại từ

1 Việc phân loại từ tiếng Việt vẫn còn có nhiều ý kiến khác nhau trong giới nghiên cứu Việt ngữ học Tuy nhiên, để có thể ứng dụng được cho đề tài của mình, nhiệm vụ của chúng tôi là phải xác định cho được những tiêu chí rõ ràng trong việc phân định từ loại

Có rất nhiều tiêu chí phân định từ loại được các nhà nghiên cứu đề xuất Chúng tôi đồng ý với các tiêu chí mà tác giả Đinh Văn Đức đã đưa ra như sau:

• Tiêu chí về ý nghĩa: ý nghĩa của một từ loại nào đó phải là ý nghĩa phạm trù có tính khái quát hoá cao, nhưng đó lại là kết quả của một quá trình trừu tượng hoá

từ hàng loạt cái cụ thể (là sự vật, hành động, tính chất cụ thể) tồn tại khách quan, được con người nhận thức thông qua các đơn vị từ vựng cụ thể Do đó, giữa ý nghĩa khái quát của từ loại và ý nghĩa từ vựng của từ có một mối quan hệ thống nhất, đó là ý nghĩa từ vựng - ngữ pháp

• Tiêu chí về khả năng kết hợp: căn cứ vào mối quan hệ của từ với từ trong dòng ngữ lưu, tức là sự phân bố của từ trong bối cảnh

• Tiêu chí về chức năng cú pháp: là chức năng của từ trong câu, được kết hợp với tiêu chí khả năng kết hợp để tạo thành một cơ sở chung cho sự phân loại có tên gọi “đặc trưng phân bố”

2 Theo quan điểm phân loại từ trong xử lí ngôn ngữ tự nhiên, các từ loại phải phản ánh được sự đối lập của chúng trong hệ thống ngữ pháp Như vậy tiêu chí phân loại từ cơ bản nhất là sự phân bố của từ trong câu Để có thể phản ánh được một cách tương đối chính xác các quan hệ cú pháp thì cần phải có một bộ nhãn từ loại rất lớn Mặt khác càng nhiều nhãn từ loại thì nhiệm vụ gán nhãn từ loại càng khó khăn Như vậy chúng ta cần phải chấp nhận thoả hiệp để có được một bộ nhãn tương đối chính xác và kích thước chấp nhận được

4.1.3 Chuẩn hoá sơ đồ mô tả đặc điểm từ loại

Các nghiên cứu về xử lí ngôn ngữ tự nhiên đòi hỏi các nhà nghiên cứu phải xây dựng được một tài nguyên ngôn ngữ khổng lồ, tốn nhiều công sức Lợi ích của việc chia sẻ những tài nguyên này là rõ ràng, không cần bàn cãi Tuy nhiên, việc làm này cũng không phải là dễ dàng, tuỳ tiện, mà nó đòi hỏi phải theo những nguyên tắc, chuẩn mực nhất định Chẳng hạn, chúng ta

có nhiều kho văn bản, mỗi kho lại do một nhóm nghiên cứu lựa chọn bộ nhãn riêng (cho phù hợp với ứng dụng của mình), thì rốt cục cũng không thể chia sẻ được cho cộng đồng cùng thụ hưởng Vì các kho văn bản đó đã chú thích từ loại bằng một bộ nhãn không theo những chuẩn mực, quy định chung của quốc tế

Nhiều nỗ lực đã được thực hiện trong lĩnh vực xử lí ngôn ngữ tự nhiên (NLP) nhằm chuẩn hoá các công cụ và tài nguyên ngôn ngữ để có thể khai thác tối đa khả năng chia sẻ ngữ liệu trong các ứng dụng khác nhau Dự án Multext (thực hiện bởi cộng đồng nghiên cứu xử lí ngôn ngữ ở Tây và Đông Âu) là một trong các nỗ lực đó Trong khuôn khổ của dự án này, người ta đã xây dựng một mô hình tổng quát cho phép mô tả các đặc điểm từ loại của từng ngôn ngữ, từ đó cho phép định nghĩa các lớp nhãn từ loại tương thích trong mọi ngôn ngữ Ý tưởng của việc xây dựng mô hình tổng quát này là: trong các ứng dụng đa ngữ, các hiện tượng ngôn ngữ giống nhau trong các ngôn ngữ phải được mã hoá một cách tương đương Một khi các kho văn bản được gán nhãn với các nhãn từ loại tương thích như vậy, chúng sẽ có thể được khai thác dễ dàng hơn trong các ứng dụng đa ngữ

Trang 36

Nguyên lí của mô hình MULTEXT là tách biệt các mô tả từ vựng vốn ổn định đối với từng ngôn ngữ với các nhãn từ loại cụ thể được chọn khi gán nhãn văn bản Việc xác định các nhãn từ loại (hay các từ loại) là xác định một tương ứng 1-1 từ không gian mô tả từ vựng vào không gian từ loại: biết tương ứng này tức là có thể xác định được các đặc điểm từ loại tương ứng với một phân loại

Các mô tả từ vựng trong MULTEXT được tổ chức thành 2 lớp: lớp trung tâm mô tả các lớp từ loại chung cho các ngôn ngữ và lớp ngoài chứa các thông tin mô tả từ vựng bổ sung, các đặc trưng riêng biệt cho từng ngôn ngữ, độ chi tiết tuỳ thuộc vào từng ứng dụng

Lớp trung tâm của mô hình MULTEXT gồm có các mô tả từ loại sau:

14 Các từ còn lại không phân loại

Các thông tin mô tả từ vựng trong lớp ngoài của mô hình MULTEXT được biểu diễn bởi các cặp thuộc tính - giá trị (theo cách tổ chức của cấu trúc đặc trưng - feature structure) Ví

dụ, một mô tả đầy đủ của một danh từ chung số ít trong tiếng Anh có thể được biểu diễn dưới dạng: N[type=common number=singular case=n/a] Chi tiết về bảng thuộc tính-giá trị của từng

từ loại nói trên xin xem trong phần phụ lục

Đối với vấn đề phân loại từ tiếng Việt trong khi giải quyết các bài toán phân tích ngôn ngữ bằng máy tính, chúng tôi chọn cách xây dựng một sơ đồ mô tả tương thích với MULTEXT, nhằm dễ dàng đối sánh tiếng Việt với các ngôn ngữ khác, cũng như bảo đảm khả năng khai thác ngữ liệu tiếng Việt trong các ứng dụng đa ngữ Việc làm này cũng nhằm mục đích theo đuổi các hoạt động chuẩn hoá quản lí tài nguyên ngôn ngữ của tiểu ban kĩ thuật ISO TC37 SC4, với mong muốn các nghiên cứu xử lí tiếng Việt có thể hoà nhập sớm nhất vào cộng đồng nghiên cứu công nghệ ngôn ngữ quốc tế

Chi tiết của sơ đồ mô tả từ loại tiếng Việt được trình bày trong phần sau

4.2 Lớp trung tâm: phân chia từ loại mức 1

Theo cuốn Ngữ pháp tiếng Việt (UBKHXH, 1983), từ tiếng Việt có thể chia thành các lớp từ

Trang 37

là những từ chuyên biểu thị ý nghĩa sự vật (người, vật, hiện tượng) và khái niệm

Có khả năng làm chủ ngữ trong câu;

Có khả năng làm vị ngữ khi đi sau hệ từ "là" tạo thành cụm vị ngữ "là" + danh từ;

Có khả năng làm trung tâm (yếu tố chính) của danh ngữ gồm: lượng từ + (các từ có ý nghĩa số lượng) + danh từ + chỉ định từ (này, ấy);

Có khả năng làm bổ ngữ khi đứng sau động từ hay tính từ;

từ chuyên biểu thị hành động, trạng thái hay quá trình, chủ yếu dùng làm vị ngữ trong câu,

có một số ít có thể làm chủ ngữ: thi đua là yêu nước

Có khả năng làm trung tâm của động ngữ gồm: phần phụ trước + động từ + phần phụ sau;

Có khả năng làm định ngữ: chỉ ra đặc trưng hạn định của sự vật, hành động, tính chất,

quan hệ: sách học, bàn ăn, thuốc uống, sách tập đọc ;

Có khả năng làm bổ ngữ và trạng ngữ: các động từ khi đứng làm trung tâm trong đoản ngữ có thể tiếp nhận những động từ khác làm thành tố phụ có chức năng là bổ ngữ hoặc trạng

ngữ tuỳ theo khả năng và kiểu bổ sung chi tiết cho động từ chính: tập viết, dạy hát, bắt làm, xin

nghỉ (bổ ngữ): chạy ra, teo lại, bước vào, bám lấy, vứt đi (trạng ngữ)

4.2.3 Tính từ (Adjectives):

từ chuyên biểu thị ý nghĩa tính chất, thuộc tính, thường có thể trực tiếp làm vị ngữ trong

câu: cô bé sẽ ngoan thôi

Có khả năng làm trung tâm của tính ngữ gồm phần phụ trước + tính từ + phần phụ sau;

Có khả năng làm định ngữ cho danh từ, động từ: bé khoẻ, bé ngoan, áo trắng, khăn ấm, hát hay, nghe rõ, ;

Có khả năng làm chủ ngữ, nhưng rất hạn chế: Vui là vui gượng, cười là cười khuây (ca

dao)

Trang 38

4.2.4 Đại từ (Pronouns):

từ dùng để chỉ trỏ một đối tượng, một điều đã được xác định rõ ràng bằng cách này hay cách khác trước đó Vì thế đại từ có thể thay thế cho các thực từ để đảm nhận các vai trò và chức năng ngữ pháp mà các thực từ đó đảm nhận trong câu, nhưng không thể thay thế hoàn toàn được khả năng kết hợp của các thực từ Trong tiếng Việt, “tôi, nó, đây, ấy, gì ” đều là đại

thực ra là Preposition nhưng Preposition là lớp con của Adposition, nên ta giữ tên

Adposition tương thích với MULTEXT): là những kết từ dùng để nối hai từ hoặc hai bộ phận câu có quan hệ chính phụ Các từ “bằng”, “của”, “để” trong “nhà bằng gạch”, “sách của tôi”,

“viện cớ để từ chối” là những giới từ trong tiếng Việt

4.2.8 Liên từ (Conjunctions):

là những kết từ dùng để biểu thị quan hệ cú pháp giữa hai từ hoặc ngữ có cùng một chức năng trong câu, hay giữa hai câu hoặc phân câu “Và”, “nhưng”, “nếu…thì” là những liên từ trong tiếng Việt

4.2.11 Tình thái từ (Modal particle):

là những trợ từ, chuyên dùng để thêm vào cho câu, biểu thị thái độ của người nói, như ngạc nhiên, nghi ngờ, mỉa mai, vui mừng, v.v “À”, “ư”, “nhỉ”, “nhé”, v.v là những trợ từ trong tiếng Việt

Khi căn cứ vào những đặc điểm về ngữ nghĩa và ngữ pháp, trong nhóm trợ từ có một số từ thiên về diễn đạt các cảm xúc của người nói trong mối quan hệ với thực tại, tức là nó gắn chặt với dạng mục đích phát ngôn, người ta tách chúng ra thành một loại riêng và gọi là tiểu từ

(nghi vấn, gọi đáp, mệnh lệnh: à, ư, nhỉ, nhé, hả, hử…) Về mặt ngữ pháp, các tiểu từ thường

có vị trí ổn định trong câu (đứng đầu hoặc cuối câu), ít chịu ảnh hưởng của biến đổi trật tự từ

Trang 39

4.2.12 Tổ hợp cố định:

là những thành ngữ và những đơn vị xuất hiện khá thường xuyên trong văn cảnh, thường gọi là quán ngữ như: ngược lại, mặt khác, chẳng mấy chốc, chẳng bù, kể cả, nói đúng ra, nghĩ bụng, miễn sao, như mọi người đều biết, như trên đã nói, v.v Trong quá trình gán nhãn từ loại, đối với các đơn vị từ vựng loại này, chúng tôi dựa vào ý nghĩa và vai trò của chúng trong câu

để chú “từ loại” một cách rộng rãi Và như vậy, khi một đơn vị loại này được chú “từ loại” thì

có nghĩa là đơn vị đó sẽ thuộc một trong các nhóm từ loại đã được liệt kê ở trên Tuy nhiên, có nhiều đơn vị thuộc loại này rất khó xác định được từ loại, khi đó chúng được nhận diện ở nhóm

13 hoặc 15

4.2.13 Từ đơn lẻ (Unique):

là những đơn vị từ vựng không thuộc các từ loại nói trên, mỗi một đơn vị tạo nên một quy

tắc riêng, không giống với các đơn vị khác (không tạo nên được một lớp), chẳng hạn như bất,

vô, siêu, hoá Ví dụ trong tiếng Pháp, có hình vị "t" (như trong "Que chante-t-il ?" - anh ta hát

gì?) được xếp vào loại này

4.3 Lớp ngoài: các mô tả từ loại chi tiết

Trong mục này chúng tôi mô tả các cặp [thuộc tính - giá trị] cho từng lớp từ loại lớn được xét trong lớp trung tâm

4.3.1 Danh từ (Nouns - N)

Thuộc tính

(Attributes)

Giá trị (Values) Ví dụ (Examples) Chú thích (Comments)

chung (common) tiếng, nước, thủ đô,

nhân dân, đồ đạc, cây cối, chim muông Kiểu (Type)

riêng (proper) Nguyễn Du, Việt

Nam, Hải Phòng, Trường Đại học Bách khoa Hà Nội, Mộc tinh, Hoả tinh, Phật, Đạo Phật Tính đếm được

(Countability):

Cho biết khả

không đếm được (no)

cây cối, trâu bò, nhân dân, báo chí, sắt, nước, khí

các danh từ tổng hợp và danh từ chất thể

Trang 40

đếm được tuyệt đối (absolute)

các danh từ loại thể, đơn vị, không gian, thời gian, v.v

kết hợp trực tiếp với số đếm

năng kết hợp

trực tiếp của

một danh từ

với số đếm đếm được không

tuyệt đối (partial)

trâu, bò, xe, nhà các danh từ còn lại,

thường là các danh từ chỉ

đồ vật, cây cối, loài vật khái quát

đơn vị tự nhiên (natural) con, cái, đứa, bức danh riêng lẻ từ chỉ loại sự vật đơn vị quy ước (đo

lường, tiền tệ) (conventional)

mét, cân, giờ, nắm, nhúm, hào, xu, đồng

danh từ đơn vị quy ước dân gian/khoa học

đơn vị tập hợp (collective) toán, tốp, đoàn, đội, đám, đôi, chục danh từ chỉ loại tập hợp, số lượng

tỉnh, huyện, xã, ngành, môn

vật đựng (recipient) cốc, chén, thùng có thể làm đơn vị đo lường

đồ vật, vật (object) cái, nhà, ao, xe các đồ vật khác thực vật (plant) cây, lúa, hoa quả

động vật (animal) con, mèo, gà quan hệ gia đình- xã

hội (social-family relations)

thầy trò, vợ chồng, cha con, anh em

từ gộp chỉ quan hệ gia đình, xã hội, dùng trực tiếp với số đếm

người (human) người, thợ, học sinh

bộ phận (organ) tay, chân, đầu, sừng,

cọng, lá, rễ, gốc, đầu gối, mông, đuôi

chất liệu (material) đá, đất, sắt, dầu, khói món ăn (food) bánh, chè

bệnh tật (disease) ho gà, hen màu sắc, mùi vị, âm

thanh (sense)

màu, sắc, tiếng, giọng, mùi, vị không gian

(locative)

chỗ, nơi, miền, xứ, vùng, phương thời gian (time) dạo, khi, hồi, chốc,

lúc, giây, phút, buổi, ngày, tháng

lần của sự việc (turn) lần, lượt, phen, đợt chỉ loại sự việc (fact

specificator) sự, việc, cuộc, điều, vẻ các danh từ chỉ khái niệm có nội hàm nghèo, thường

đi cùng với các từ khác để gọi tên sự việc

vật tưởng tượng, các khái niệm có tính phạm trù

Định dạng
Số trang	95
Dung lượng	1,35 MB