Đề tài : nghiên cứu việc xây dựng, chuẩn hóa và khai thác kho ngữ liệu từ nguồn internet cho xử lý tiếng việt

Luận án tiến sĩ năm 2013 Đề tài : nghiên cứu việc xây dựng, chuẩn hóa và khai thác kho ngữ liệu từ nguồn internet cho xử lý tiếng việt MỤC LỤC MỤC LỤC iii DANH MỤC HÌNH VẼ .vi DANH MỤC BẢNG .vii DANH MỤC CỤM TỪVIẾT TẮT .viii MỞ ĐẦU .x Đặt vấn đề x Mục tiêu và phạm vi nghiên cứu của luận án .xiii Kết quả đạt được .xiv Bốcục của luận án .xv CHƯƠNG 1. TỔNG QUAN VỀKHO NGỮLIỆU .1 1.1 Kho ngữliệu văn bản .1 1.2 Xây dựng, chuẩn hóa và khai thác kho ngữliệu 5 1.2.1 Thu thập kho ngữliệu văn bản 5 1.2.2 Chú giải ngôn ngữvà vấn đềchuẩn hóa 7 1.2.3 Khai thác kho ngữliệu .9 1.3 Kho ngữliệu tiếng Việt .13 1.3.1 Hiện trạng 13 1.3.2 Các vấn đề được nghiên cứu trong luận án 13 1.4 Kết chương .17 CHƯƠNG 2. XÂY DỰNG KHO NGỮLIỆU THÔ TỪINTERNET .18 2.1 Giới thiệu .18 2.2 Xây dựng kho ngữliệu thô tiếng Việt .18 2.2.1 Lựa chọn danh sách từhạt giống .19 2.2.2 Thu thập địa chỉURL 21 2.2.3 Lọc nội dung chính của các trang web (URLs) .23 2.2.4 Phát hiện sựtrùng lặp gần nhau .28 2.2.5 Xây dựng công cụvà kết quảthu thập kho ngữliệu .32 2.3 Kết chương .32 iv CHƯƠNG 3. CHUẨN HÓA MÔ HÌNH CHÚ GIẢI TIẾNG VIỆT 34 3.1 Giới thiệu .34 3.2 Mô hình MAF của ISO/TC 37/SC 4 34 3.3 Mô hình SynAF của ISO/TC 37/SC 4 .36 3.4 Chuẩn hóa theo mô hình MAF cho tiếng Việt .38 3.4.1 Xác định đơn vịcơsở(segment) .41 3.4.2 Hình thái từ(Wordform) 41 3.4.3 Nội dung hình thái cú pháp 42 3.5 Chuẩn hóa theo mô hình SynAF cho tiếng Việt 42 3.6 Kết chương .50 CHƯƠNG 4. KHAI THÁC KHO NGỮLIỆU THÔ CHO NGHIÊN CỨU TỪ VỰNG TIẾNG VIỆT 51 4.1 Giới thiệu .51 4.1.1 Nghiên cứu từvựng .51 4.1.2 Sketch Engine 52 4.1.3 Ngữliệu trong Sketch Engine 53 4.2 Xây dựng ngữliệu tiếng Việt cho Sketch Engine 56 4.2.1 Tách từvà gán nhãn từloại 56 4.2.2 Xây dựng bộquan hệngữpháp tiếng Việt 57 4.2.3 Triển khai hệthống Sketch Engine cho tiếng Việt 64 4.2.4 Đánh giá bộquan hệngữpháp tiếng Việt .67 4.3 Kết chương .67 CHƯƠNG 5. KHAI THÁC KHO NGỮLIỆU CÓ CHÚ GIẢI CHO PHÂN TÍCH CÚ PHÁP TIẾNG VIỆT 69 5.1 Giới thiệu .69 5.2 Văn phạm hình thức .70 5.2.1 Khái niệm chung vềvăn phạm 70 5.2.2 Văn phạm phi ngữcảnh (Context Free Grammar - CFG) .72 5.2.3 Văn phạm kết nối cây (Tree Adjoining Grammar – TAG) 74 5.3 Trích rút tự động văn phạm CFG cho tiếng Việt .77 v 5.3.1 Thuật toán trích rút từVietTreebank .77 5.3.2 Phân tích cú pháp tiếng Việt với văn phạm PCFG 86 5.3.3 Thửnghiệm và đánh giá 89 5.3.4 Nhược điểm của văn phạm PCFG trong phân tích ngữpháp 90 5.4 Trích rút tự động văn phạm LTAG cho tiếng Việt 90 5.4.1 Thuật toán trích rút từVietTreebank .90 5.4.2 Xây dựng thuật toán trích rút từtừ điển tiếng Việt 100 5.4.3 So sánh, đánh giá tập cây khởi tạo trích rút từVietTreebank và từ điển .105 5.5 Kết chương .107 KẾT LUẬN .109 DANH MỤC CÁC CÔNG TRÌNH KHOA HỌC CỦA NGHIÊN CỨU SINH LIÊN QUAN ĐẾN LUẬN ÁN 112 TÀI LIỆU THAM KHẢO .113 PHỤLỤC 125

Trang 1

LỜI CAM ĐOAN

Tôi cam đoan rằng nội dung của luận án này là kết quả nghiên cứu của bản thân Tất cả những tham khảo từ các nghiên cứu liên quan đều được nêu rõ nguồn gốc một cách rõ ràng trong danh mục tài liệu tham khảo được đề cập ở phần sau của luận án Những đóng góp trong luận án là kết quả nghiên cứu của tác giả đã được công bố trong các bài báo của tác giả ở phần sau của luận án và chưa được công bố trong bất kỳ công trình khoa học nào khác

Tác giả luận án

Phan Thị Hà

Trang 2

Lời cảm ơn

Trước tiên, tôi muốn gửi lời cảm ơn đến Thầy Cô giáo hướng dẫn của tôi, PGS.TS Trần Hồng Quân, TS Nguyễn Thị Minh Huyền Thầy, Cô đã tận tình chỉ bảo tôi từ những việc tưởng chừng đơn giản như cách thức thu thập tài liệu tham khảo cho đến phương pháp nghiên cứu hoa học Sự tận tình hướng dẫn, cộng với sự động viên, khích lệ thường xuyên của Thầy Cô đã giúp tôi tự tin, say mê hơn trong con đường nghiên cứu khoa học Tôi cảm thấy thực sự trưởng thành sau những năm được học tập và nghiên cứu dưới sự hướng dẫn của Thầy

cô, một lần nữa em xin được cảm ơn Thầy Cô và kính chúc Thầy Cô luôn mạnh khỏe, hạnh phúc, thành công trên mọi lĩnh vực, đặc biệt là trên con đường khoa học Mong rằng sẽ có nhiều lớp nghiên cứu sinh lại tiếp tục được Thầy Cô hướng dẫn trong những năm tiếp theo

Tôi xin chân thành cảm ơn Tập đoàn Bưu Chính Viễn Thông, Ban lãnh đạo Học viện Công nghệ Bưu Chính Viễn Thông đã động viên và tạo điều kiện thuận lợi cho tôi trong suốt quá trình thực hiện luận án

Tôi cũng muốn bày tỏ lòng biết ơn đối với tập thể các Thầy Cô khoa Công nghệ Thông tin và các Thầy Cô Khoa Đào tạo Sau Đại học, Học Viện Công nghệ Bưu Chính Viễn Thông, nơi tôi làm việc và học tập trong những năm qua Các Thầy Cô luôn tạo điều kiện để tôi hoàn thành tốt công việc của mình, và sự dạy dỗ của Quí thầy cô đã giúp tôi trưởng thành

Xin bày tỏ lời cảm ơn của tôi đến các chuyên gia về xử lý ngôn ngữ tự nhiên,

dự án KC01.01/06-10, trung tâm từ điển VietLex đã hỗ trợ việc thu thập tài liệu

và các góp ý hữu ích về ý tưởng và kỹ thuật phục vụ cho nghiên cứu của tôi Cuối cùng, chân thành cảm ơn người thân, bạn bè luôn bên cạnh động viên,

hỗ trợ về mặt tinh thần để tôi vượt qua khó khăn và hoàn thành tốt luận án

Trang 3

MỤC LỤC

MỤC LỤC iii

DANH MỤC HÌNH VẼ vi

DANH MỤC BẢNG vii

DANH MỤC CỤM TỪ VIẾT TẮT viii

MỞ ĐẦU x

Đặt vấn đề x

Mục tiêu và phạm vi nghiên cứu của luận án xiii

Kết quả đạt được xiv

Bố cục của luận án xv

CHƯƠNG 1 TỔNG QUAN VỀ KHO NGỮ LIỆU 1

1.1 Kho ngữ liệu văn bản 1

1.2 Xây dựng, chuẩn hóa và khai thác kho ngữ liệu 5

1.2.1 Thu thập kho ngữ liệu văn bản 5

1.2.2 Chú giải ngôn ngữ và vấn đề chuẩn hóa 7

1.2.3 Khai thác kho ngữ liệu 9

1.3 Kho ngữ liệu tiếng Việt 13

1.3.1 Hiện trạng 13

1.3.2 Các vấn đề được nghiên cứu trong luận án 13

1.4 Kết chương 17

CHƯƠNG 2 XÂY DỰNG KHO NGỮ LIỆU THÔ TỪ INTERNET 18

2.1 Giới thiệu 18

2.2 Xây dựng kho ngữ liệu thô tiếng Việt 18

2.2.1 Lựa chọn danh sách từ hạt giống 19

2.2.2 Thu thập địa chỉ URL 21

2.2.3 Lọc nội dung chính của các trang web (URLs) 23

2.2.4 Phát hiện sự trùng lặp gần nhau 28

2.2.5 Xây dựng công cụ và kết quả thu thập kho ngữ liệu 32

Trang 4

CHƯƠNG 3 CHUẨN HÓA MÔ HÌNH CHÚ GIẢI TIẾNG VIỆT 34

3.2 Mô hình MAF của ISO/TC 37/SC 4 34

3.3 Mô hình SynAF của ISO/TC 37/SC 4 36

3.4 Chuẩn hóa theo mô hình MAF cho tiếng Việt 38

3.4.1 Xác định đơn vị cơ sở (segment) 41

3.4.2 Hình thái từ (Wordform) 41

3.4.3 Nội dung hình thái cú pháp 42

3.5 Chuẩn hóa theo mô hình SynAF cho tiếng Việt 42

CHƯƠNG 4 KHAI THÁC KHO NGỮ LIỆU THÔ CHO NGHIÊN CỨU TỪ VỰNG TIẾNG VIỆT 51

4.1.1 Nghiên cứu từ vựng 51

4.1.2 Sketch Engine 52

4.1.3 Ngữ liệu trong Sketch Engine 53

4.2 Xây dựng ngữ liệu tiếng Việt cho Sketch Engine 56

4.2.1 Tách từ và gán nhãn từ loại 56

4.2.2 Xây dựng bộ quan hệ ngữ pháp tiếng Việt 57

4.2.3 Triển khai hệ thống Sketch Engine cho tiếng Việt 64

4.2.4 Đánh giá bộ quan hệ ngữ pháp tiếng Việt 67

CHƯƠNG 5 KHAI THÁC KHO NGỮ LIỆU CÓ CHÚ GIẢI CHO PHÂN TÍCH CÚ PHÁP TIẾNG VIỆT 69

5.2 Văn phạm hình thức 70

5.2.1 Khái niệm chung về văn phạm 70

5.2.2 Văn phạm phi ngữ cảnh (Context Free Grammar - CFG) 72

5.2.3 Văn phạm kết nối cây (Tree Adjoining Grammar – TAG) 74

5.3 Trích rút tự động văn phạm CFG cho tiếng Việt 77

Trang 5

5.3.1 Thuật toán trích rút từ VietTreebank 77

5.3.2 Phân tích cú pháp tiếng Việt với văn phạm PCFG 86

5.3.3 Thử nghiệm và đánh giá 89

5.3.4 Nhược điểm của văn phạm PCFG trong phân tích ngữ pháp 90

5.4 Trích rút tự động văn phạm LTAG cho tiếng Việt 90

5.4.1 Thuật toán trích rút từ VietTreebank 90

5.4.2 Xây dựng thuật toán trích rút từ từ điển tiếng Việt 100

5.4.3 So sánh, đánh giá tập cây khởi tạo trích rút từ VietTreebank và từ điển 105

KẾT LUẬN 109

DANH MỤC CÁC CÔNG TRÌNH KHOA HỌC CỦA NGHIÊN CỨU SINH LIÊN QUAN ĐẾN LUẬN ÁN 112

TÀI LIỆU THAM KHẢO 113

PHỤ LỤC 125

Trang 6

DANH MỤC HÌNH VẼ

Hình 3 1 Mô hình tổng quan của MAF [59] 35

Hình 3 2 Mô hình SynAF [60] 38

Hình 4 1 Danh sách tần suất và tính trội của các từ lân cận với tính từ “đẹp” 65

Hình 4 2 Phác thảo thông tin của 2 từ ”đẹp”, ”xinh” 66

Hình 4 3 Một số danh sách các từ có quan hệ ngữ pháp với tính từ “đẹp” 67

Hình 5 1 Biểu diễn văn phạm G dưới dạng cây 73

Hình 5 2 Phép thay thế 75

Hình 5 3 Phép kết nối 75

Hình 5 4.Ví dụ về dẫn xuất với phép kết nối và phép thế trong văn phạm TAG 76

Hình 5 5 Xử lý các cụm từ bằng thuật toán 5.5 94

Hình 5 6 Ví dụ minh họa việc xây dựng cây phân tích 94

Hình 5 7 Cây phân tích cú pháp 95

Hình 5 8 Cây phân tích của cây cú pháp trong hình 5.7 sau khi chèn thêm nút 95

Hình 5 9.Các mẫu cây cơ sở spine (ứng với quan hệ đối–vị từ) và phụ trợ (ứng với quan hệ phụ trợ hoặc đẳng lập) 96

Hình 5 10 Các cây cơ bản 97

Hình 5 11 Ghép các nút liên kết, đường đi trung tâm được đánh dấu bởi nét đôi 98

Hình 5 12 Số mẫu cây tăng dần theo kích thước của Treebank: 100

Hình 5 13 Sơ đồ so sánh tập cây cơ bản 105

Hình 5 14 Một cây cơ bản không hợp lệ 106

Trang 7

DANH MỤC BẢNG

Bảng 1 1 Thống kê các kho ngữ liệu đơn ngữ tiếng Việt 13

Bảng 2 1 Thống kê số URL thu được của thuật toán 2.1 21

Bảng 2 2 Tỷ lệ văn bản và thẻ xuất hiện trong phần nội dung chính của một số trang web tin tức Việt Nam 25

Bảng 2 3 So sánh tỷ lệ “nội dung chính văn bản cần lấy/ toàn bộ nội dung văn bản trích rút được” 27

Bảng 2 4 Kết quả thống kê thu thập tự động kho ngữ liệu từ web 32

Bảng 3 1.Tập từ loại được đối sánh với danh mục phân loại dữ liệu chuẩn ISO 12620 40

Bảng 3 2 Tập nhãn cú pháp thành phần, nhãn phân loại câu được đối sánh với danh mục phân loại dữ liệu chuẩn ISO 12620 44

Bảng 3 3.Tập nhãn chức năng cú pháp đối sánh với danh mục phân loại dữ liệu chuẩn ISO 12620 45

Bảng 5 1 Quá trình trích rút luật theo thuật toán 5.1 81

Bảng 5 2 Số các luật thu được 89

Bảng 5 3.Bảng thành phần trung tâm cho treebank tiếng Việt 92

Bảng 5 4 Danh sách các đối 93

Bảng 5 5 .Ghép một số nhãn cú pháp của VietTreebank thành một 98

Bảng 5 6 Hai văn phạm G1, G2 được trích rút từ VietTreebank 100

Bảng 5 7 Thống kê bộ cây cơ bản Spin từ từ điển so sánh với cây cơ bản của VietTreebank 105

Trang 8

DANH MỤC CỤM TỪ VIẾT TẮT Cụm từ

viết tắt

Cụm từ đầy đủ tiếng Anh Dich tiếng Việt

ANC The American National Corpus Kho ngữ liệu Quốc gia Mỹ API Application Programming

Interface

Giao diện lập trình ứng dụng

BNC The British National Corpus Kho ngữ liệu Anh ngữ

BTE Body Text Extraction Trích văn bản phần thân

CES Copus Encoding Standard Tiêu chuẩn mã hóa kho ngữ liệu COCA The Copus of Contemporary

American English

Kho ngữ liệu Anh Mỹ hiện đại

CRF Conditional Random Field Trường ngẫu nhiên có điều kiện HMM Hidden Markov Model Mô hình Markov ẩn

HTML HyperText Markup Language Ngôn ngữ đánh dấu siêu văn bản

ISO International Organization for

Standardization

Tổ chức tiêu chuẩn hóa Quốc tế

LAF Linguistic Annotation

Framework

Khung chú giải ngôn ngữ học

LDC Linguistic Data Consortium Tổ chức dữ liệu ngôn ngữ học

MAF Morphosyntactic Annotation

Framewor

Khung chú giải hình thái cú pháp

MD5 Message Digest 5 Tóm tắt thông điệp

MDFA Minimal deterministic finite state

automata

Otomat hữu hạn trạng thái tối thiểu

MEM Maximum Entropy Model Mô hình Entropy cực đại

NLP Natural Language Processing Xử lý ngôn ngữ tự nhiên

Trang 9

SGML Standard Generalized Markup

Language

Ngôn ngữ đánh dấu tổng quát hóa chuẩn

SynAF Syntactic Annotation Framework Mô hình chú giải cú pháp

URL Uniform Resource Locator Định vị tài nguyên đồng nhất WFST Weighted Finit State Transducer Máy chuyển hữu hạn trạng thái có

trọng số

XML eXtensible Markup Language Ngôn ngữ đánh dấu mở rộng CFG Context Free Grammar Văn phạm phi ngữ cảnh

PCFG Probability Context Free

Grammar

Văn phạm phi ngữ cảnh kết hợp xác suất

TAG Tree Adjoining Grammar Văn phạm kết nối cây

LTAG Lexicalized Tree Adjoining

Grammar

Văn phạm kết nội cây từ vựng hóa

CYK Cocke – Younger – Kasami

algorithm

Thuật toán CYK

SSL Semi-supervised learning Học bán giám sát

Trang 10

Các nghiên cứu và ứng dụng về xử lý ngôn ngữ trên thế giới đã có một lịch

sử lâu dài và được chia thành các giai đoạn chính như sau [41]: Thời kỳ đầu tiên, bắt đầu từ những năm 1940-1950 mô hình ôtomat và các mô hình xác suất có ảnh hưởng sâu sắc đến xử lý ngôn ngữ Giai đoạn tiếp theo (1957-1970) xử lý ngôn ngữ được chia thành hai nhánh tách biệt, nhánh hình thức tập trung vào các vấn đề thuộc lĩnh vực lý thuyết ngôn ngữ hình thức và trí tuệ nhân tạo; kiểu ngẫu nhiên sử dụng trong nhận dạng như các phương pháp Bayes Giai đoạn 1970-1983 xuất hiện bốn trường phái xử lý ngôn ngữ chính, đó là sử dụng phương pháp ngẫu nhiên; dựa vào logic; hiểu ngôn ngữ tự nhiên; mô hình hóa diễn ngôn Giai đoạn 1983-1993 việc huấn luyện các mô hình trạng thái hữu hạn, các mô hình xác suất dựa vào dữ liệu đã xuất hiện hầu hết trong các nhiệm vụ của xử lý ngôn ngữ

Từ những năm 1990 trở lại đây, mô hình thống kê dựa vào dữ liệu đã chứng

tỏ tính vượt trội của mình trong các công việc của xử lý ngôn ngữ [98, 99] Công nghệ xử lý văn bản và xử lý tiếng nói không còn cách biệt, công nghệ xử lý tiếng nói không chỉ dựa vào các kỹ thuật xử lý tín hiệu mà còn dựa vào cả việc hiểu ngôn ngữ Tham số của mô hình thống kê hoặc mô hình trạng thái có thể huấn luyện từ các kho ngữ liệu lớn, nhiều mô hình gần đây được chứng tỏ có hiệu quả cao như Maximum Entropy Markov Model (MEMM), Conditional Random Fields (CRF) [70, 71] v.v

Vấn đề phân tích và hiểu tự động văn bản là một vấn đề lớn và phức tạp trong việc hiểu ngôn ngữ tự nhiên, được tích hợp trong hầu hết các ứng dụng xử lý văn bản tự động Quá trình này thường được chia thành các mức cơ bản [41]: Mức

Trang 11

ngữ âm; mức hình thái; mức cú pháp; mức ngữ nghĩa và mức ngữ dụng

Mức ngữ âm (phonetics and phonology) Nghiên cứu về cách phát âm, bản

chất thanh điệu, ngôn điệu, ngữ điệu, trường độ âm tiết, độ nhấn, biến thanh… của các từ;

Mức hình thái từ (morphology) Nhằm phân tích hình thái các từ vựng tạo

nên văn bản, từ đó kiểm tra được tính đúng đắn của âm tiết và từ;

Mức cú pháp (syntax) Mô tả quan hệ vai trò ngữ pháp của các từ, các cụm

từ (hoặc ngữ) trong câu, từ đó xây dựng cấu trúc câu;

Mức ngữ nghĩa (semantics) Mục đích của mức này là kiểm tra ý nghĩa của

câu có mâu thuẫn với ý nghĩa cả đoạn hay không Dựa trên mối liên hệ logic về nghĩa giữa các cụm từ trong câu và mối liên hệ giữa các câu trong đoạn, hệ thống sẽ xác định được một phần ý nghĩa của câu trong ngữ cảnh của cả đoạn;

Mức ngữ dụng (pragmatics) Mục đích là phân tích để xác định ý nghĩa của

câu dựa trên mối liên hệ của câu với hiện thực Ý nghĩa thực tế của câu phụ thuộc rất nhiều vào ngữ cảnh diễn ra lời nói Do vậy, quá trình phân tích này rất khó thực hiện được bằng máy tính Thường thì việc phân tích câu chỉ dừng ở phân tích ngữ nghĩa, còn việc phân tích ngữ dụng do người dùng tự quyết định;

Mức diễn ngôn (discourse) Phân tích về mặt diễn đạt và ngữ cảnh tình

huống trong một đoạn phát ngôn

Để giải quyết các vấn đề trên, nhiều kho ngữ liệu lớn (corpora) đã được ra

đời phục vụ cho việc huấn luyện các mô hình xử lý ngôn ngữ Tuy nhiên, mỗi mức

xử lý cần các kho ngữ liệu với những yêu cầu đặc trưng riêng, ví dụ, với mức hình thái từ thì cần có kho ngữ liệu huấn luyện (đã được chú giải hình thái) càng lớn càng tốt, kho ngữ liệu lớn sẽ cải thiện được độ chính xác mô tả thông tin ngôn ngữ, với mức cú pháp, đòi hỏi phải xây dựng được kho ngữ liệu đã được chú giải từ loại hoặc cú pháp

Hiện nay trên thế giới đã tồn tại nhiều kho ngữ liệu chuẩn Nhiều kho ngữ liệu được xây dựng cho tiếng Anh tiêu biểu là BNC [37], ANC [58], Penn Treebank

Trang 12

[79], WordNet [53] v.v Các thứ tiếng Ấn-Âu khác cũng được nghiên cứu từ nhiều thập kỉ và nhiều kho ngữ liệu lớn đã được xây dựng làm cơ sở dữ liệu huấn luyện cho các mô hình học máy Nhiều quốc gia ở châu Á hay trong khu vực đã đầu tư lớn cho nghiên cứu xử lý tiếng nói và ngôn ngữ của họ như là dự án từ điển điện tử của Nhật Bản EDR (1982-1992) [55] Dự án dịch Anh-Hoa, Nhật-Hoa, vv của Trung Quốc, dự án xây dựng Chinese Treebank [18], Wordnet đã hoàn thành cho tiếng Hoa với các chú giải ngữ pháp đầy đủ Với tiếng Thái cũng có nhiều kho ngữ liệu mở đã được xây dựng [90] Đây là những ngôn ngữ có những tương đồng với tiếng Việt và ta có thể học được nhiều từ thành bại của các kỹ thuật xử lý tiếng nói

và ngôn ngữ cho hai thứ tiếng này để phục vụ cho việc xây dựng và khai thác kho ngữ liệu tiếng Việt

Đối với tiếng Việt, nhóm tác giả Hồ Tú Bảo & Lương Chi Mai [3] cho thấy vấn đề xử lý ngôn ngữ tự nhiên còn hạn chế, chủ yếu tập trung vào các sản phẩm cuối, ít nghiên cứu về cơ sở hạ tầng cho xử lý ngôn ngữ cũng như các công cụ và tài nguyên như từ điển máy tính, kho ngữ liệu…, những thứ mà cộng đồng quốc tế cho

là không thể thiếu được cho xử lý ngôn ngữ Đây chính là mục tiêu của đề tài nhà nước KC01/06-10 [100] về xử lý ngôn ngữ và tiếng nói Việt giai đoạn 2007-2009

Đề tài tập trung vào nghiên cứu và phát triển một số sản phẩm thiết yếu về xử lý tiếng nói và văn bản tiếng Việt Trong đó, nhánh đề tài xử lý văn bản tập trung vào mức hình thái và mức cú pháp xây dựng một số sản phẩm thiết yếu cho xử lý văn bản tiếng Việt, như: Từ điển tiếng Việt dùng cho máy tính, kho ngữ liệu tiếng Việt, kho ngữ liệu câu tiếng Anh-Việt phổ quát-chuyên ngành, hệ phân đoạn từ tiếng Việt, hệ phân cụm từ tiếng Việt, hệ phân tích câu tiếng Việt Phương pháp xây dựng kho ngữ liệu mà đề tài hướng tới là thủ công hoặc bán thủ công, kho ngữ liệu đã được chú giải ở mức từ loại và cú pháp, có kích thước hạn chế, chủ yếu là sử dụng làm dữ liệu huấn luyện cho các mô hình học máy có giám sát trong các công cụ xử

lý ngôn ngữ Để có thể sử dụng làm dữ liệu huấn luyện trong các mô hình bán giám sát và nghiên cứu ngôn ngữ Việt đòi hỏi phải xây dựng được các kho ngữ liệu tiếng Việt có kích thước lớn hơn rất nhiều, công việc này không thể thực hiện bằng

Trang 13

phương pháp thủ công vì như thế tốn rất nhiều thời gian và công sức, các kho ngữ liệu như thế cho tiếng Anh các thứ tiếng khác đã được xây dựng tự động từ Internet, chúng ta có thể học tập để xây dựng cho tiếng Việt Hơn nữa, để dễ dàng sử dụng,

mở rộng và đối sánh ngôn ngữ thì các kho ngữ liệu tiếng Việt cũng phải hướng tới vấn đề chuẩn hóa quốc tế Song song với nỗ lực của đề tài này, luận án đã tập trung vào chủ đề xây dựng, chuẩn hóa và khai thác kho ngữ liệu từ nguồn Internet cho xử

lý tiếng Việt

Mục tiêu và phạm vi nghiên cứu của luận án

Như đã trình bày sơ bộ ở trên, việc hiểu tự động văn bản là một việc khó và phức tạp, chỉ có thể làm theo nhiều bước tuần tự, bước sau chỉ thực hiện được sau khi bước trước đã có kết quả Chẳng hạn như các chương trình dịch tự động trên thế giới đã được theo đuổi hàng hơn chục năm và chặng đường đến đích cuối vẫn còn rất xa, nếu chúng ta muốn làm dịch tự động Anh-Việt, bắt buộc chúng ta đi qua các tầng của xử lý ngôn ngữ đã đề cập ở trên

Mục tiêu mà luận án nhắm đến là xây dựng và khai thác kho ngữ liệu tiếng Việt, cụ thể là:

- Xây dựng kho ngữ liệu thô có kích thước lớn

- Xây dựng chuẩn hóa mô hình chú giải tiếng Việt

- Khai thác kho ngữ liệu thô cho nghiên cứu từ vựng

- Khai thác kho ngữ liệu đã chú giải cú pháp phục vụ bài toán phân tích

cú pháp tiếng Việt

Để đạt được mục tiêu trên, phạm vi nghiên cứu của luận án tập trung vào các công việc thuộc mức hình thái từ và mức cú pháp trong phân tích và hiểu tự động văn bản, cụ thể là:

- Nghiên cứu xây dựng kho ngữ liệu có kích thước lớn (kho ngữ liệu thô hoặc đã chú giải ngôn ngữ) từ Intermet thông qua các trang web

Trang 14

- Nghiên cứu xây dựng và triển khai chuẩn hóa mô hình chú giải được phát triển bởi tiểu ban kỹ thuật ISO/TC 37/SC 4 [114] cho tiếng Việt phục vụ việc phân phối và trao đổi ngữ liệu

- Triển khai một hệ thống truy vấn kho ngữ liệu tiếng Việt để nghiên cứu ngữ cảnh và hành vi của mỗi từ phục vụ cho nghiên cứu từ vựng Bên cạnh kho ngữ liệu có kích thước lớn, đã được chú giải (từ loại), công việc này còn đòi hỏi xây dựng bộ quan hệ ngữ pháp cơ bản tiếng Việt được biểu diễn thông qua ngôn ngữ truy vấn kho ngữ liệu

- Nghiên cứu và phát triển thuật toán trích rút tự động các luật văn phạm

từ kho ngữ liệu đã chú giải cú pháp hoặc cung cấp thông tin cú pháp phục vụ cho phân tích cú pháp sử dụng hệ hình thức văn phạm phi ngữ cảnh kết hợp xác suất (PCFG) và văn phạm kết nối cây (TAG)

Kết quả đạt được

Luận án đã đạt được các kết quả sau

1 Phát triển thuật toán thu thập văn bản tiếng Việt từ web để xây dựng kho ngữ liệu Xây dựng công cụ thu thập tự động kho ngữ liệu từ Internet có tên là Vncopus, triển khai thu thập kho ngữ liệu thô tiếng Việt từ Internet (100 triệu từ), công cụ này được công bố tại địa chỉ http://www.nitaco.edu.vn/science-tech/phanha/

2 Xây dựng, triển khai các mô hình chuẩn hóa quốc tế về quản lý tài nguyên ngôn ngữ được phát triển bởi tiểu ban kỹ thuật ISO/TC 37/SC 4 cho tiếng Việt: Xây dựng mô hình chú giải mức hình thái-cú pháp

(MAF- Morphosyntactic Annotation Framework) và mô hình chú giải mức cú pháp (SynAF-Syntactic Annotation Framework) cho tiếng Việt

3 Xây dựng bộ quan hệ ngữ pháp cơ bản tiếng Việt (37 quan hệ ngữ pháp) cho hệ thống nghiên cứu từ vựng; Tích hợp kho ngữ liệu xây dựng

từ Internet (kho ngữ liệu thô được gán nhãn từ loại bằng cách sử dụng công cụ sẵn có) cùng bộ quan hệ ngữ pháp cho nghiên cứu từ vựng tiếng

Trang 15

http://www.nitaco.edu.vn/science-tech/phanha/ Tham gia triển khai thuật toán trích rút cây cơ bản của văn phạm kết nối cây (TAG) từ VietTreebank Xây dựng và triển khai thuật toán trích rút cây cơ bản cho văn phạm TAG từ từ điển tiếng Việt So sánh tập cây cơ bản trích rút từ VietTreebank và từ điển tiếng Việt để lọc ra các cây cơ bản không hợp

lệ với cấu trúc ngữ pháp tiếng Việt và đánh giá độ tốt của VietTreebank cũng như từ điển

Bố cục của luận án

Ngoài mở đầu và kết luận, luận án được chia thành năm chương

Chương 1 Tổng quan về kho ngữ liệu: Trình bày khái niệm về kho ngữ

liệu; Giới thiệu một số kho ngữ liệu đã chú giải từ loại và cú pháp trên thế giới, phương pháp chung cho việc xây dựng các kho ngữ liệu này Trình bày một số chuẩn hóa mô hình chú giải được phát triển bởi tiểu ban kỹ thuật ISO/TC 37/SC 4 [114] Trên cơ sở đó xác định mục tiêu cho việc xây dựng

và khai thác kho ngữ liệu từ Internet cho tiếng Việt

Chương 2 Xây dựng kho ngữ liệu thô từ Internet:Trong chương này

trình bày cụ thể việc xây dựng kho ngữ liệu thô tiếng Việt từ Internet thông qua các trang Web

Trang 16

Chương 3 Chuẩn hóa mô hình chú giải tiếng Việt: Nghiên cúu mô hình

chú giải MAF và SynAF được phát triển bởi ISO/ TC 37/ SC 4, từ đó xây dựng và triển khai chuẩn hóa mô hình chú giải hình thái cú pháp (MAF) và chuẩn hóa mô hình chú giải cú pháp (VnSynAF) cho tiếng Việt

Chương 4 Khai thác kho ngữ liệu thô cho nghiên cứu từ vựng tiếng Việt: Nghiên cứu hệ thống truy vấn kho ngữ liệu có tên là Sketch Engine

phục vụ cho nghiên cứu từ vựng, xây dựng ngữ liệu tiếng Việt cho hệ thống Sketch Engine

Chương 5 Khai thác kho ngữ liệu có chú giải cho phân tích cú pháp tiếng Việt: Trong chương này trình bày kiến thức cơ bản về văn phạm

PCFG, LTAG Trích rút tự động các luật văn phạm CFG cho tiếng Việt, trích rút tự động văn phạm LTAG cho tiếng Việt

Cuối cùng là phần kết luận và định hướng của luận án

Các chương luận án là tổng hợp nội dung các bài báo công bố các kết quả nghiên cứu được thực hiện trong luận án (chương 2 với bài báo (4, 6), chương 3 với bài báo (1), chương 4 với bài báo (4), chương 5 với bài báo (2, 3, 5))

Trang 17

CHƯƠNG 1 TỔNG QUAN VỀ KHO NGỮ LIỆU

1.1 Kho ngữ liệu văn bản

Kho ngữ liệu văn bản bao gồm một tập hợp lớn các văn bản, có thể được phân tích và xử lý phục vụ nhiều công việc của ngôn ngữ học tính toán Thông tin ngôn ngữ trong đó là cơ sở tri thức ngôn ngữ học, được sử dụng trong việc phân tích thống kê và kiểm tra các giả thiết ngôn ngữ, kiểm tra sự xuất hiện hoặc xác nhận các quy tắc ngữ pháp trong mỗi ngôn ngữ

Kho ngữ liệu có thể chứa các văn bản của một ngôn ngữ (kho ngữ liệu đơn ngữ) hoặc chứa các văn bản của nhiều ngôn ngữ (kho ngữ liệu đa ngữ)

Nội dung của các kho ngữ liệu được lấy từ nhiều lĩnh vực như kinh tế, xã hội, văn hóa, kỹ thuật v.v Đa số, kho ngữ liệu có nguồn gốc từ tạp chí, báo, sách giáo khoa, báo điện tử, web….Những năm gần đây đã chứng tỏ Web là nguồn tài nguyên ngôn ngữ khổng lồ,việc thu thập dữ liệu Web lại có ưu điểm là cho phép cập nhật

ngữ liệu thường xuyên, phát hiện những hiện tượng ngôn ngữ đa dạng và phong phú một cách khách quan hơn so với thu thập dữ liệu truyền thống Phương pháp thu thập kho ngữ liệu từ web cho tiếng Anh và một số ngôn ngữ phổ biến khác đã được giới thiệu trong một số nghiên cứu [20, 24, 25, 88]

Mỗi kho ngữ liệu được xây dựng, định dạng theo tiêu chí riêng nhưng vẫn phải tuân thủ theo một số tiêu chuẩn chung Chẳng hạn, xây dựng kho ngữ liệu cho việc nghiên cứu từ vựng và xây dựng từ điển thì kho ngữ liệu phải có kích thước càng lớn càng tốt Để có thể sử dụng hữu ích trong lĩnh vực thống kê, các kho ngữ liệu

văn bản phải được tách từ và chú giải ngôn ngữ ở các mức: mức từ loại (POS) mức

cú pháp nông hoặc đầy đủ Các kho ngữ liệu chú giải ở mức cú pháp còn được gọi

là ngân hàng cây cú pháp (treebank)

Treebank - kho văn bản mà trong đó mỗi câu được chú giải cấu trúc cú pháp, thông thường dưới dạng cấu trúc cây phân cấp, là nguồn tài nguyên rất hữu ích trong lĩnh vực xử lý ngôn ngữ tự nhiên Treebank có nhiều ứng dụng quan trọng như đánh giá, kiểm định các công cụ xử lý ngôn ngữ tự động, các phần mềm dịch

Trang 18

máy, tóm tắt văn bản, các hệ thống hỏi đáp… Các hệ thống treebank [18] cho các thứ tiếng được nghiên cứu nhiều như Anh, Pháp, Hoa… đã được xây dựng từ lâu Các treebank có thể được chú giải 2 dạng cấu trúc cú pháp, đó là cấu trúc phụ thuộc

và cấu trúc thành phần

Các cây cú pháp thường được mã hóa theo hai cách Cách thứ nhất đơn giản sử dụng cấu trúc dấu ngoặc, theo cách này mỗi thành phần cú pháp sẽ có một cặp dấu

ngoặc bao quanh Cách thứ hai là sử dụng lược đồ mã hóa XML (eXtended Markup

Language) Cách này đã được nghiên cứu kỹ lưỡng và được áp dụng vào một số dự

án về xử lý ngôn ngữ của Châu Âu [102]

Hiện nay trên thế giới có rất nhiều kho ngữ liệu được chia sẻ miễn phí cho cộng đồng nghiên cứu Dưới đây sẽ liệt kê một số kho ngữ liệu tiêu biểu

Kho ngữ liệu Anh Mỹ (Brown Copus)

Kho ngữ liệu Brown cho tiếng Anh Mỹ (Brown Corpus) [97] là kho ngữ liệu

văn bản đã được Henry Kucera và W Nelson Francis biên soạn vào những năm

1960 Kho văn bản này chứa 500 văn bản tiếng Anh, biên soạn từ các tác phẩm xuất

bản tại Hoa Kỳ năm 1961, tổng cộng 1.014.312 từ, được chú giải ở mức từ loại

Kho ngữ liệu tiếng Anh (BNC - The British National Corpus)

Kho ngữ liệu này [103] có khoảng 100 triệu từ của ngôn ngữ nói và viết được lấy từ nhiều nguồn dữ liệu khác nhau, trong đó kho ngữ liệu viết chiếm 90 % đã được gán nhãn từ loại được trích rút từ báo chí nội địa và Quốc gia, tạp chí dành cho mọi lứa tuổi, sách giáo khoa….Kho ngữ liệu này bắt đầu được xây dựng từ năm

1991 và hoàn thành năm 1994, sau đó thì không có văn bản nào được thêm vào kho ngữ liệu trong dự án này này nhưng kho ngữ liệu này đã được chỉnh sửa thành một

phiên bản thứ hai là BNC Wold (2001) và phiên bản thứ ba BNC XML Edition

(2007)

Kho ngữ liệu quốc gia Mỹ (ANC - The American National Corpus)

Kho ngữ liệu này [104] hiện có 22 triệu từ thuộc ngôn ngữ viết và nói, được chú giải ở mức từ loại, cú pháp nông, và các chú giải tên thực thể… khung chú giải

Trang 19

ngôn ngữ của kho ngữ liệu được cung cấp theo các tiêu chuẩn thiết lập bởi tiểu ban

kỹ thuật ISO/TC 37/SC4, sử dụng định dạng XML phù hợp với tiêu chuẩn mã hoá

kho ngữ liệu XML (XML Corpus Encoding Standard -XCES) [105], hiện nay có khoảng 15 triệu từ đã được định dạng GrAF (Graph Annotation Fortmat)

Hiện tại dự án xây dựng ANC đang tiếp tục được mở rộng thêm, mục đích là tạo

ra một bộ sưu tập điện tử khổng lồ toàn diện nhất của tiếng Anh Mỹ, sẽ là nguồn tài nguyên hữu ích phục vụ cho giáo dục, cho nghiên cứu ngôn ngữ và phát triển công nghệ Kho ngữ liệu bao gồm văn bản của tất cả các thể loại và bảng dịch của dữ liệu nói được sản xuất từ năm 1990 trở đi

Kho ngữ liệu Anh Mỹ hiện đại (COCA - The Copus of Contemporary

American English)

Kho ngữ liệu hiện đại COCA [106] là kho ngữ liệu lớn nhất cho tiếng Anh Mỹ,

có khoảng hơn 425 triệu từ và dữ liệu được lấy đều từ các nguồn tiểu thuyết, nói, các tạp chí nổi tiếng, báo chí, và các văn bản học thuật, được xây dựng từ năm 1990-2011, kho ngữ liệu được cập nhật một đến hai lần trong một năm (các văn bản gần đây nhất là từ tháng 3 năm 2012), mỗi năm lấy khoảng 20 triệu từ Do cách cập nhật, thiết lập dữ liệu, đây có lẽ là kho ngữ liệu tiếng Anh phù hợp để nhìn vào hiện tại, thay đổi đang diễn ra trong ngôn ngữ

Ngân hàng cây cú pháp PE NN

Kho ngữ liệu này [18] được xây dựng trong 8 năm (1989-1996), có khoảng 7 triệu từ đã được gán nhãn từ loại, 3 triệu từ đã được phân tích cú pháp cơ bản, trên 2 triệu từ của văn bản đã phân tích cú pháp cho cấu trúc đối vị từ, 1.6 triệu từ là dữ liệu tiếng nói (phiên âm) Dữ liệu văn bản định dạng dưới dạng đặt ngoặc, mỗi câu trong kho ngữ liệu sẽ được đặt ngoặc - mỗi thành phần cú pháp sẽ có một cặp dấu ngoặc bao quanh, ngay sau dấu ngoặc đầu tiên là ký hiệu ngữ pháp và các thuộc tính (nếu có), tiếp theo là danh sách các thành phần cú pháp con

Kho văn bản này được lấy từ các nguồn sách máy tính của IBM, tạp chí tài chính phố Wall, các cuộc đàm thoại v.v

Trang 20

Ngân hàng cây cú pháp TIGER tiếng Đức

Kho ngữ liệu Tiger (Tiger Treebank, phiên bản 2.1) [101] có khoảng 900,000 từ

(50,000 câu) được lấy từ báo Frankfurter Rundschau của tiếng Đức Kho ngữ liệu này đã được gán nhãn từ loại và chú giải cú pháp cho các câu, việc chú giải được thực hiện bán tự động Ngoài các nhãn từ loại và nhãn cấu trúc cú pháp, kho ngữ

liệu còn chứa các các thông tin về hình thái, từ nguyên thể cho các nút từ vựng

Ngân hàng cây cú pháp tiếng Trung (Chinese Treebank)

Kho ngữ liệu tiếng Trung (Chinese Treebank 7.0) [107] được công bố qua Tổ chức dữ liệu ngôn ngữ (LDC- Linguistic Data Consortium) bao gồm khoảng 1 triệu

từ đã được chú giải cú pháp Chinese Treebank được bắt đầu tại Đại học Pennsylvania vào năm 1998, sau đó tiếp tục ở Đại học Colorado và là hiện đang được phát triển tại Đại học Brandeis Mục tiêu của dự án là cung cấp một kho ngữ liệu lớn được chú giải từ loại và đặt ngoặc toàn bộ

Một số kho ngữ liệu song ngữ

Kho ngữ liệu song ngữ song song do dự án EuroMatrix (tham khảo tại địa chỉ http://www.euromatrix.net/) xây dựng gồm các cặp ngôn ngữ khác nhau được lấy nguồn từ các kỷ yếu của Quốc hội Châu Âu từ năm 1996–2006 Kho ngữ liệu này gồm 9 cặp ngôn ngữ khác nhau;

Kho ngữ liệu song ngữ song song Anh - Pháp (Canadian Hansard) của hiệp hội

dữ liệu ngôn ngữ học (LDC), kho ngữ liệu này gồm 2.8 triệu cặp câu [109] Dữ liệu văn bản thuần chủ yếu được lấy từ trang web của Quốc hội Canada [110];

Kho ngữ liệu WaCky (Web as Corpus kool ynitiative)

Đây là kho ngữ liệu lớn [129], trong đó có 3 kho ngữ liệu của tiếng Anh (ukWaC), tiếng Đức (deWaC) và tiếng Ý (itWaC) Các kho ngữ liệu này được phát triển từ năm 2005 cho đến năm 2007, mỗi kho ngữ liệu có khoảng hơn 1 tỷ từ đã được chú giải từ loại và được thu thập từ Internet thông qua các trang web

Tóm lại, trên thế giới đã tồn tại rất nhiều kho ngữ liệu cho các thứ tiếng khác nhau, đây chính là nguồn dữ liệu không thể thiếu được trong việc nghiên cứu và

Trang 21

XLNNTN Công việc xây dựng, mở rộng kho ngữ liệu là vấn đề cần thiết đối với mọi ngôn ngữ, công việc này càng ngày càng được quan tâm và phát triển bởi các nhà nghiên cứu và xử lý ngôn ngữ

1.2 Xây dựng, chuẩn hóa và khai thác kho ngữ liệu

Việc xây dựng kho văn bản chú giải cú pháp [18] đã bắt đầu khoảng 50 năm trước cho tiếng Anh, với phương pháp thủ công Mục đích là để cung cấp một lược

đồ chú giải hoàn chỉnh nhất có thể (theo kinh nghiệm), và kiểm chứng lược đồ này trên một kho văn nhỏ Ngoài ra, cùng với sự phát triển hoàn thiện hơn của các mô hình ngôn ngữ, mục đích của một số kho ngữ liệu chú giải cú pháp là áp dụng cho một lý thuyết ngôn ngữ cho trước Nhưng mục đích phổ biến nhất là để cung cấp một nguồn tài nguyên mới, không phụ thuộc trực tiếp vào lý thuyết ngôn ngữ cụ thể, mà có thể thay đổi đối với các mô hình ngôn ngữ khác nhau Gần đây, các kho ngữ liệu văn bản có chú giải được xây dựng tự động từ Internet cho tiếng Anh và các thứ tiếng khác [129], và đã được sử dụng trong việc nghiên cứu ngôn ngữ và các mô hình học máy để nâng cao hiệu suất của các ứng dụng trong xử xử lý ngôn ngữ [31, 67, 68], các kho ngữ liệu này thường có kích thước rất lớn Để cộng đồng thế giới dễ dàng sử dụng, chia sẻ, trao đổi và đối sánh ngôn ngữ thì đòi hỏi các nhà nghiên cứu phải xây dựng các kho ngữ liệu theo những nguyên tắc, chuẩn mực nhất định, kéo theo nhu cầu xây dựng các chuẩn quốc tế

1.2.1 Thu thập kho ngữ liệu văn bản

Các kho ngữ liệu chính là nguồn cung cấp tri thức ngôn ngữ cho các ứng dụng của xử lý ngôn ngữ tự nhiên như là hiểu tự động văn bản, tóm tắt văn bản, làm dữ liệu huấn luyện cho các mô hình học máy… Qua việc nghiên cứu một số kho ngữ liệu văn bản (kho ngữ liệu) lớn trên thế giới cho thấy nội dung của các kho ngữ liệu chủ yếu là chứa văn bản đã được phân tích để gán thêm các nhãn ngôn ngữ như từ loại, cụm từ, các thông tin về văn bản và các thẻ định dạng mã hoá dữ liệu v.v Các kho ngữ liệu truyền thống như BNC, ANC, PENN,… chủ yếu được thu thập

từ nhiều nguồn tạp chí, sách báo, báo điện tử, sách giáo khoa v.v., dung lượng của

Trang 22

các kho ngữ liệu chú giải cú pháp nói chung còn hạn chế Tuy có một số kho ngữ liệu có dung lượng lớn hơn (hàng trăm triệu từ) như kho ngữ liệu COCA, dữ liệu trong đó là được bổ sung vào hàng năm Nhưng nói chung công việc thu thập kho ngữ liệu tốn rất nhiều thời gian và kinh phí bởi các kho ngữ liệu này chủ yếu được xây dựng thủ công hoặc bán tự động (Sử dụng các bộ chú giải tự động, hoặc hỗ trợ gán nhãn, sau đó có sự kiểm tra lại của các nhà ngôn ngữ) Công việc xây dựng kho ngữ liệu chú giải truyền thống [18] về cơ bản được thực hiện thủ công hoặc bán thủ công thông qua 2 bước, đó là lựa chọn văn bản thô và chú giải ngôn ngữ Trong đó việc chú giải ngôn ngữ có thể được chú giải tự động nhờ vào các công cụ sẵn có, rồi được kiểm tra lại bởi các nhà ngôn ngữ

Những năm gần đây cho thấy việc xây dựng kho ngữ liệu lớn được thu thập dễ dàng từ Internet như các kho ngữ liệu của WaCky [129] Cách làm này lần đầu tiên

đã được thực hiện vào cuối những năm 1990 [83], Grefenstette và Nioch [52] đã chỉ

ra lượng dữ liệu rất lớn có trên Internet, kể cả với các ngôn ngữ ít phổ biến Keller

và Lapata [48] đã chứng tỏ tính hợp lệ của việc sử dụng các kho ngữ liệu Web cho nghiên cứu ngôn ngữ học bằng cách so sánh tự động cũng như thủ công các mô hình ngôn ngữ thu được từ kho ngữ liệu Web với các mô hình thu được từ kho ngữ liệu truyền thống Việc thu thập dữ liệu Web lại có ưu điểm là cho phép cập nhật ngữ liệu thường xuyên, phát hiện những hiện tượng ngôn ngữ đa dạng và phong phú một cách khách quan hơn so với thu thập dữ liệu truyền thống

Phương pháp thu thập kho ngữ liệu từ web cho tiếng Anh và một số ngôn ngữ phổ biến khác đã được giới thiệu trong một số nghiên cứu của [20, 25, 88, 129] Về

cơ bản, công việc thu thập kho ngữ liệu từ web được thực hiện qua các bước chính như sau:

Bước 1: Lựa chọn một danh sách các từ hạt giống có tần suất xuất hiện trung bình

Bước 2: Thu thập dữ liệu từ Web bằng cách sử dụng các từ hạt giống để tạo ra truy vấn thông qua các cổng tìm kiếm như Yahoo và Google và tải các trang

kết quả về

Trang 23

Bước 3: Làm sạch văn bản, loại bỏ các thông tin quảng cáo và các thông tin nhiễu khác

Bước 4: Loại bỏ các văn bản trùng lặp

Bước 5: Chú giải ngôn ngữ và chuẩn hóa

Các kho ngữ liệu có kích thước lớn có thể sử dụng trong một số ứng dụng nghiên cứu ngôn ngữ [25, 26, 69] hoặc nâng cao hiệu suất của các mô hình học máy [31, 67, 68] Trong các ứng dụng trên kho ngữ liệu truyền thống chưa đủ lớn để đáp ứng được, đòi hỏi phải xây dựng được các kho ngữ liệu có kích thước càng lớn càng tốt (có thể thô hoặc chú giải ngôn ngữ), công việc này được thực hiện dễ dàng hơn thông qua Internet

1.2.2 Chú giải ngôn ngữ và vấn đề chuẩn hóa

1.2.2.1 Chú giải ngôn ngữ

Quá trình phân tích và chú giải một câu trong kho ngữ liệu gồm ba bước: Tách

từ, gán nhãn từ loại và phân tích cú pháp Quy trình thực hiện phân tích và chú giải cho mỗi ngôn ngữ là tương tự nhau, tuy nhiên ở mỗi bước (tầng) mỗi ngôn ngữ yêu cầu những kiến thức và có những đặc trưng riêng Chẳng hạn ranh giới giữa các từ trong mỗi ngôn ngữ là khác nhau, hoặc tập nhãn từ loại, nhãn chức năng cũng khác nhau trong mỗi ngôn ngữ, tuy nhiên chúng có thể ánh xạ sang nhau Bài toán tách từ

và gán nhãn từ loại trên thế giới hiện nay đã có quá trình nghiên cứu lâu dài, chẳng hạn như với nghiên cứu của Foo & Lin [51] cho thấy quá trình phát triển của bài toán tách từ tiếng Trung, đặc biệt đối với tiếng Việt cũng được thể hiện qua nghiên cứu của nhóm tác giả Nguyễn Thị Minh Huyền [57], Phan Xuân Hiếu [9], Lê Hồng Phương [81] Trong việc gán nhãn từ loại hiện nay trên Internet đã có sẵn một số hệ

mã nguồn mở [111, 112, 113], ta có thể tùy biến phát triển nó để dùng cho ngôn ngữ mới Tùy vào điều kiện cụ thể mà ta lựa chọn công cụ gán nhãn tự động thích hợp Chẳng hạn với việc gán nhãn từ loại, nếu đã có sẵn chương trình gán nhãn từ loại thì ta sử dụng nó làm công cụ luôn Hoặc ta chấp nhận việc phải gán nhãn từ đầu (bằng tay hoàn toàn) cho một phần ngữ liệu thô, sau đó huấn luyện hệ gán nhãn

Trang 24

từ loại dựa trên phần này rồi dùng nó làm công cụ xử lý phần còn lại của kho ngữ liệu thô Việc này có thể được lặp lại trong quá trình làm việc Việc gán nhãn bằng tay có thể sử dụng công cụ hỗ trợ những người gán nhãn, có hai nội dung chính là

hỗ trợ soạn thảo cây cú pháp (giao diện) và gán nhãn trước, sau đó người gán nhãn

sẽ sửa lại[12]

1.2.2.2 Chuẩn hoá mô hình chú giải ngữ liệu

Nghiên cứu về XLNNTN đòi hỏi các nhà nghiên cứu phải xây dựng được một tài nguyên ngôn ngữ khổng lồ, tốn nhiều công sức Lợi ích của việc chia sẻ những tài nguyên này là rõ ràng, không cần bàn cãi Tuy nhiên, việc làm này cũng không phải là dễ dàng, tuỳ tiện, mà nó đòi hỏi phải theo những nguyên tắc, chuẩn mực nhất định Chẳng hạn, nếu chúng ta có nhiều kho văn bản, mỗi kho lại do một nhóm nghiên cứu lựa chọn bộ nhãn riêng (cho phù hợp với ứng dụng của mình), thì rốt cục cũng không thể chia sẻ được cho cộng đồng cùng thụ hưởng Sự tương đồng và khả năng tương tác giữa các kho ngữ liệu là rất cần thiết cho việc chia sẻ, trao đổi

và so sánh các nguồn ngôn ngữ với nhau Các dự án xây dựng kho ngữ liệu trên thế giới hiện nay đều đặt tiêu chí chuẩn hoá lên đầu [18, 58, 59, 60, 90, 91]

Để cung cấp một cơ sở hạ tầng cho việc phát triển và sử dụng nguồn ngôn ngữ,

tổ chức quốc tế về chuẩn hóa đã thành lập tiểu ban SC 4 thuộc Ủy ban kỹ thuật 37 (TC 37) dành cho việc quản lý tài nguyên ngôn ngữ Mục tiêu mà ISO/TC 37/SC 4 nhắm tới là chuẩn bị các tiêu chuẩn và các tài liệu hướng dẫn quản lý hiệu quả nguồn tài nguyên ngôn ngữ trong các ứng dụng của xã hội thông tin đa ngôn ngữ Nhằm đạt được mục tiêu này, ủy ban kỹ thuật đã phát triển các nguyên tắc và phương pháp để thiết lập, mã hóa, xử lý và quản lý nguồn tài nguyên ngôn ngữ như

là kho ngữ liệu văn bản, kho ngữ liệu từ vựng, từ điển, Trong đó, vấn đề chuẩn hoá

mô hình chú giải là vấn đề quan trọng, nhằm mở rộng đến mức tối đa phạm vi sử dụng và khai thác tài nguyên đặc biệt là trên máy tính, đây chính là vấn đề đang được quan tâm bởi tiểu ban kĩ thuật TC 37/SC 4 [114] Một số mô hình chú giải được phát triển bởi tiểu ban ISO/TC 37/SC 4 như mô hình chú giải hình thái cú

pháp (MAF - Morphosyntactic Annotation Framework), mô hình chú giải cú pháp

Trang 25

(SynAF - Syntactic Annotation Framework), mô hình chú giải ngôn ngữ (LAF -

Linguistic Annotation Framework), mô hình chú giải ngữ nghĩa (SemAF – Semantic Annotation Framework)

1.2.3 Khai thác kho ngữ liệu

Kho ngữ liệu là nguồn tài nguyên quan trọng trong việc nghiên cứu và xử lý ngôn ngữ tự nhiên Với kho ngữ liệu văn bản, đã được tách từ hoặc là kho ngữ liệu

đã được chú giải ở các mức cú pháp, có thể khai thác làm dữ liệu huấn luyện và dữ liệu đánh giá cho cho các mô hình và công cụ học máy phục vụ cho xử lý ngôn ngữ, khai thác cho các văn phạm phục vụ cho việc phân tích cú pháp và có thể khai thác cho việc xây dựng từ điển (đơn ngữ, đa ngữ), dịch tự động v.v

1.2.3.1 Nghiên cứu từ vựng

Sử dụng kho ngữ liệu văn bản để xây dựng từ điển là một phương pháp đã được

áp dụng từ lâu Khi chưa có máy tính, các nhà từ điển học sử dụng các tấm thẻ chỉ mục để lưu trữ thông tin sử dụng từ Vào những năm 1980, cùng với dự án

COBUILD (Collins Birmingham University International Language Database)

nhằm xây dựng và phân tích kho văn bản tiếng Anh phục vụ việc xây dựng từ điển, Sinclair [66] đã nhìn thấy khả năng lưu trữ, sắp xếp, tìm kiếm một cách khách quan hơn của máy tính so với con người Kể từ dự án này, các nhà xây dựng từ điển đã sử dụng công cụ truy vấn kho ngữ liệu, cho phép tra cứu từ khó trong ngữ cảnh để

nghiên cứu hành vi của một từ Do vậy, các hệ thống truy vấn kho ngữ liệu (Corpus

Query Systems - CQSs) đóng vai trò quan trọng trong lý thuyết và thực hành biên

soạn từ điển Có thể kể đến một số hệ thống truy vấn kho ngữ liệu như WordSmith, MonoConc, Stuttgart workbench hay Manatee, WordSketch…Các nhà nghiên cứu

từ điển sử dụng hệ thống truy vấn kho ngữ liệu để tìm kiếm các cụm từ, thứ tự ưu tiên của các từ xung quanh một từ, các mẫu ngữ pháp, để sắp xếp các từ đi cùng theo nhiều tiêu chí khác nhau, để xác định các kho ngữ liệu con cho việc tìm kiếm Tuy nhiên, khi kích thước kho văn bản ngày càng khổng lồ, số ngữ cảnh xuất hiện một từ trở nên quá lớn, thì công cụ tìm kiếm ngữ cảnh đơn giản trở nên không

đủ Church K W và Hanks P [69] đã khởi xướng lĩnh vực thống kê từ vựng Họ

Trang 26

đề xuất sử dụng thông tin tương hỗ (mutual information) để đo tính trội (salience)

về quan hệ giữa hai từ Nếu ta tìm tất cả các từ xuất hiện trong lân cận 5 từ của một

từ nào đó trong kho văn bản, sau đó tính toán tính trội của mỗi từ này với từ mà ta quan tâm, thì ta có thể tổng hợp dữ liệu văn bản cho từ đó bằng một danh sách các

từ cùng xuất hiện (collocates) được sắp theo thứ tự tính trội của chúng Cách tiếp

cận này đã thu hút được mối quan tâm của các nhà làm từ điển và chức năng xác định các từ đồng xuất hiện có trong tất cả các công cụ truy vấn vấn kho ngữ liệu Hệ thống truy vấn Skech Engine được phát triển bởi Kilgarriff đã giải quyết được vấn

đề này và đã được sử dụng cho nhiều ngôn ngữ khác nhau [25, 26] Mỗi ngôn ngữ đòi hỏi phải xây dựng được bộ truy vấn ngữ pháp cơ bản chuẩn được biểu diễn thông qua biểu thức chính quy cùng với kho ngữ liệu lớn (hàng giga byte) của các văn bản đã được chú giải ít nhất ở mức từ loại

1.2.3.2 Chú giải ngôn ngữ

Trong xử lý ngôn ngữ, mô hình học máy có thể “tự học” các tri thức ngôn ngữ

từ kho ngữ liệu (dữ liệu huấn luyện), mô hình này còn được gọi là mô hình học có giám sát Một số mô hình phổ biến của học có giám sát sử dụng trong việc phân đoạn, gán nhãn ngôn ngữ tự nhiên như là Hidden Markov Model (HMM),

Maximum Entropy Models (MEM), Conditional Random Fields (CRF), Support

Vector Machines (SVMs) Các mô hình này sử dụng dữ liệu huấn luyện (đã được gán nhãn) và cho các kết quả gán nhãn khá khả quan đối với các ngôn ngữ khác nhau, kể cả đối với tiếng Việt Nhưng việc cải thiện đáng kể hiệu suất của các công

cụ là khó khăn, một giải pháp khác là sử kỹ thuật học bán giám sát Gần đây một số bài báo đã chỉ ra các kết quả của việc học bán giám sát tốt hơn học có giám sát như báo cáo của Ando and Zhang [31] cho thấy cải tiến đáng kể với giai đoạn học có giám sát trong việc phân cụm cú pháp của ConLL’00 [92] và nhiệm vụ nhận dạng tên riêng của ConLL’003 [93] Năm 2005, Li và McCallum [74] cũng đưa ra phương pháp mô hình hóa chuỗi bán giám sát cho các bài toán tách từ và gán nhãn

từ loại Báo cáo của Shen [89] cho thấy trong việc gán nhãn từ loại, phương pháp bán giám sát của họ đã cho hiệu suất tốt nhất cho đến thời điểm báo cáo Đặc biệt,

Trang 27

trong bài báo của J Suzuki và H Isozaki [68] đề cập tới phương pháp học bán giám

sát (semi-supervised learning-SSL) cho các nhiệm vụ cơ sở của xử lý ngôn ngữ tự

nhiên, tác giả đã đưa ra mô hình điều kiện cho SSL Mô hình là sự mở rộng bán giám sát tự nhiên của CRFs truyền thống [72], hướng tiếp cận tích hợp dữ liệu chưa gán nhãn ở đây dựa theo ý tưởng được đề xuất bởi J.Suzuki et al [67], có khả năng

mở rộng về kích thước của dữ liệu chưa gán nhãn Dữ liệu chưa gán nhãn có thể thu thập dễ dàng từ Internet thông qua các trang web Học bán giám sát chính là sự mở rộng hấp dẫn đối với cộng đồng học máy và xử lý ngôn ngữ, nhằm cải tiến về hiệu suất của các ứng dụng trong hai lĩnh vực này Trong việc gán nhãn ngôn ngữ, mô hình bán giám sát được phát triển từ mô hình có giám sát, sử dụng một lượng dữ liệu gán nhãn hạn chế và một lượng lớn dữ liệu chưa gán nhãn để huấn luyện

1.2.3.3 Phân tích cú pháp

Phân tích cú pháp là một trong các giai đoạn chính của phân tích và kiểm tra tính chính xác của văn bản, mô tả về quan hệ và vai trò ngữ pháp của các từ, các cụm từ (hay ngữ) trong câu, đồng thời đưa ra hình thái của câu Quá trình kiểm tra

cú pháp tiến hành phân tích và tổ hợp chuỗi từ đầu vào, dựa trên các luật cú pháp để loại bỏ các trường hợp bất quy tắc và từng bước dựng lên cấu trúc ngữ pháp của câu Sau đây là một số ứng dụng của phân tích cú pháp [41]:

Trong dịch máy, hiện nay có ba chiến lược dịch cơ bản là dịch trực tiếp, dịch chuyển đổi và dịch liên ngữ Đối với dịch trực tiếp, cách dịch này dựa vào bộ từ điền song ngữ để dịch, không sử dụng đến phân tích cú pháp Tuy nhiên trong dịch chuyển đổi và dịch liên ngữ, quá trình phân tích cú pháp là một bước quan trọng Tư tưởng chung ở đây là phân tích câu nguồn trở thành cây cú pháp sử dụng bộ phân tích cú pháp Đối với dịch chuyển đổi, hệ thống sẽ xây dựng cây cú pháp tương đương trong ngôn ngữ đích và cuối cùng đưa cây cú pháp thành câu cần đưa ra Đối với dịch liên ngữ, cây cú pháp ở ngôn ngữ nguồn được đưa thành một biểu diễn chung giữa hai ngôn ngữ sau đó dạng biểu diễn chung này được chuyển về cây cú pháp ở ngôn ngữ đích, cuối cùng trả về câu cần dịch;

Trang 28

Trong lĩnh vực như nhận dạng tiếng nói sử dụng phân tích cú pháp có thể giúp sửa sai quá trình nhận dạng Trong tổng hợp tiếng nói, phân tích cú pháp giúp đặt trọng âm vào đúng vị trí trong câu;

Nói chung, phân tích cú pháp là bước quan trọng trong xử lý ngôn ngữ tự nhiên, công việc này thuộc tầng thứ 3 trong quá trình hiểu tự động văn bản Mọi bộ phân tích cú pháp đều cần một bộ luật cú pháp (cú pháp thành phần hoặc cú pháp phụ thuộc), hay còn gọi là văn phạm, được biểu diễn bởi một hệ văn phạm hình thức cụ thể nào đó Văn phạm điển hình đã được sử dụng trong bài toán phân tích cú pháp

thành phần như là văn phạm phi ngữ cảnh (CFG- Context Free Grammar), lần đầu

tiên đã được đề xuất bởi Chomsky [39], các giai đoạn tiếp theo, văn phạm này đã

được chuyển sang văn phạm phi ngữ cảnh kết hợp xác xuất (PCFG- Probability

Context Free Grammar) sử dụng trong việc phân tích cú pháp thống kê của các

ngôn ngữ khác nhau như là tiếng Anh, tiếng Pháp, tiếng Đức,… Ngoài ra còn có một số văn phạm khác như như văn phạm phụ thuộc, văn phạm hướng trung tâm trong dự án Pragua [116] hay HPSG cho dự án Polish [117] Đặc biệt văn phạm TAG cũng đã được nghiên cứu kỹ về mặt hình thức và khả năng ứng dụng trong việc phân tích nhiều ngôn ngữ tự nhiên khác nhau [18,38, 46, 95, 96]

Việc xây dựng thủ công tập luật của văn phạm là công việc tốn rất nhiều thời gian và công sức, nhiều phương pháp tự động hoặc bán tự động đã được nghiên cứu trong thời gian qua Hầu hết các kết quả nghiên cứu về xây dựng bộ luật của văn phạm cho các hệ thống xử lý ngôn ngữ tự nhiên đã được công bố đều tập trung vào các ngôn ngữ phổ dụng như tiếng Anh, các thứ tiếng Ấn-Âu và tiếng Hoa Nhìn chung, có hai phương pháp chính để xây dựng tự động bộ luật của văn phạm Phương pháp thứ nhất sử dụng một hệ thống mô tả văn phạm bậc cao để sinh tập

luật của văn phạm Các hệ thống như vậy được gọi là các siêu văn phạm

(meta-grammar) [28] Phương pháp thứ hai là phương pháp trích rút tự động bộ luật của

văn phạm từ các kho văn bản có chú giải cú pháp gọi là ngân hàng cây cú treebank [40, 49,50,62,63]

Trang 29

Bảng 1 1 Thống kê các kho ngữ liệu đơn ngữ tiếng Việt

Các kho ngữ liệu tiếng Việt trên chủ yếu được xây dựng thủ công, bán thủ công nên kích thước còn hạn chế Tuy kho ngữ liệu từ vựng của VietLex có kích thước khá lớn nhưng việc xây dựng lại tốn rất nhiều thời gian và công sức

1.3.2 Các vấn đề được nghiên cứu trong luận án

1.3.2.1 Xây dựng kho ngữ liệu

Phương pháp thu thập kho ngữ liệu từ Internet cho tiếng Anh và một số ngôn ngữ phổ biến khác [20, 27, 88, 129] sẽ là cơ sở tốt cho việc xây dựng kho ngữ liệu tiếng Việt có kích thước lớn để có thể phục vụ cho nghiên cứu từ vựng, xây dựng từ

Trang 30

1.3.2.2 Mô hình chuẩn hóa

Khi thực hiện chú giải ngôn ngữ trên một kho ngữ liệu thô, một vấn đề cần quan tâm là chuẩn hóa lược đồ biểu diễn dữ liệu, nhằm đạt được các tiêu chí sau đây:

− Dễ chuyển đổi sang các định dạng khác nhau;

− Dễ khai thác các thông tin ngôn ngữ đã được đánh dấu;

− Dễ bổ sung nhãn ngôn ngữ mới;

− Dễ đối sánh với ngôn ngữ khác

Việc chuẩn hóa này cho phép chia sẻ và trao đổi dữ liệu một cách tối đa, tiết kiệm công sức đầu tư cho nhiệm vụ chú giải ngôn ngữ

Trong các hoạt động về chuẩn hoá tài nguyên ngôn ngữ [114] có nhóm làm việc WG2/WordSeg về vấn đề chuẩn hoá tách từ cho các ngôn ngữ, trong đó ranh giới giữa các từ không thể xác định rõ ràng chỉ dựa vào hình thức in ấn (như sử dụng dấu cách trong tiếng Anh) Nhóm làm việc này đã đưa ra một số bản thảo hướng dẫn nguyên tắc chung về việc đưa ra chuẩn tách từ Dựa vào đó cùng với đặc điểm của từ loại tiếng Việt, nhóm tác giả Nguyễn Thị Minh Huyền đã đề xuất nguyên tắc

Trang 31

tách từ cho tiếng Việt [8] Còn việc chuẩn hóa mô hình chú giải ngữ liệu MAF và SynNaf chưa được ứng dụng cho tiếng Việt, nên trong luận án sẽ tập trung vào xây dựng mô hình MAF và SynNaf cho tiếng Việt

1.3.2.3 Khai thác kho ngữ liệu thô tiếng Việt cho nghiên cứu từ vựng

Để khai thác kho ngữ liệu thô thu thập từ Internet cho nghiên cứu từ vựng tiếng Việt, trong luận án đi sâu vào nghiên cứu hệ thống truy vấn kho ngữ liệu có tên là Sketch Engine phục vụ cho việc nghiên cứu từ vựng, bởi hai lý do:

- Skech Engine – Là hệ thống truy vấn kho ngữ liệu cho phép người sử dụng xem xét ngữ cảnh theo quan hệ ngữ pháp và cung cấp thống kê về tần suất xuất hiện các từ theo mỗi quan hệ ngữ pháp, ngoài ra hệ thống còn cho phép tra cứu các từ đồng và phản nghĩa, so sánh thông tin của hai từ tương tự nhau…Hệ thống đã được

sử dụng cho nhiều ngôn ngữ khác nhau [25, 26] nhưng chưa được sử dụng cho tiếng Việt

- Đối với tiếng Việt, các nhà làm từ điển hiện nay thường mới chỉ có công cụ

để tra cứu ngữ cảnh của một từ trong kho ngữ liệu, chưa có các thống kê tự động để

so sánh, chọn lọc các ngữ cảnh Việc sử dụng một bộ công cụ như hệ thống Sketch Engine sẽ là rất hữu ích, giúp cải thiện quy mô và chất lượng từ điển

Về phần này, luận án sẽ xây dựng bộ quan hệ ngữ pháp cơ bản tiếng Việt, triển khai hệ thống Sketch Engine trên kho ngữ liệu xây dựng từ Internet cùng với bộ quan hệ ngữ pháp cho nghiên cứu từ vựng tiếng Việt Đồng thời đánh giá độ tương thích của chúng trên hệ thống Sketch Engine [phụ lục 1]

1.3.2.4 Khai thác kho ngữ liệu chú giải cho phân tích cú pháp tiếng Việt

Kho ngữ liệu thô thu được từ Internet có thể được bổ sung chú giải ngôn ngữ (từ loại, cú pháp) Với kho ngữ liệu có kích thước lớn thì công việc này không thể thực hiện bằng tay mà đòi hỏi phải dựa vào các hệ thống chú giải tự động Đối với chú giải cú pháp, mọi bộ phân tích cú pháp đều cần tới bộ luật cú pháp hay còn gọi là văn phạm, văn phạm này có thể được xây dựng từ các kho ngữ liệu đã chú giải cú pháp hoặc kho ngữ liệu cung cấp thông tin cú pháp

Trang 32

Thứ hai, văn phạm CFG là văn phạm tiêu biểu được sử dụng trong bài toán phân tích cú pháp thành phần, lần đầu tiên đã được đề xuất bởi Chomsky [39] Đây chính

là văn phạm đơn giản, làm nền tảng đặc trưng cho cú pháp thành phần, đã được phát triển sử dụng rất nhiều cho phân tích cú pháp thành phần của các ngôn ngữ khác nhau

Thứ ba, văn phạm TAG - lớp văn phạm cảm ngữ cảnh yếu (midly

context-sensitive grammar) tức là có khả năng sinh mạnh hơn các văn phạm phi ngữ cảnh,

trong khi độ phức tạp thời gian của bộ phân tích cú pháp TAG vẫn là đa thức (O(n6)) Văn phạm hình thức LTAG rất phù hợp với các ứng dụng ngôn ngữ học Người ta đã chỉ ra rằng các tính chất của văn phạm LTAG cho phép mô tả các hiện tượng cú pháp một cách tự nhiên Hơn nữa, khả năng chuyển đổi một văn phạm

LTAG sang các hệ hình thức văn phạm hợp nhất khác như LFG (Lexical Functional

Grammar) hay HPSG (Head-driven Phrase Structure Grammar) đã được chứng

minh [77]

Vì lý do trên luận án đã chọn hai văn phạm đặc trưng CFG, văn phạm TAG để

mô hình hóa cho văn phạm tiếng Việt

Cụ thể, trong chương 5 của luận án sẽ thực hiện:

Trang 33

- Xây dựng thuật toán, hệ thống trích rút tự động các luật văn phạm PCFG từ VietTreebank, xây dựng bộ phân tích cú pháp câu tiếng Việt theo phương pháp thống kê trên văn phạm PCFG, đầu vào của hệ phân tích cú pháp là mỗi câu đã được gán nhãn từ loại nên thuật toán phân tích cú pháp đã được cải biến từ thuật toán PCYK của Martin [41] bằng cách thay xác suất từ loại của mỗi từ vựng là 1 thay vì xác suất của các từ loại đối với mỗi từ vựng được tính từ TreeBank;

- Nghiên cứu về văn phạm LTAG, thuật toán trích rút tự động các luật văn phạm LTAG Thực hiện trích rút tập cây cú pháp LTAG tiếng Việt, lọc các cây cơ bản không hợp lệ với cấu trúc ngữ pháp tiếng Việt Xây dựng thuật toán trích rút cây cơ bản của LTAG từ từ điển tiếng Việt So sánh, đánh giá tập cây cơ bản trích rút từ VietTreebank

1.4 Kết chương

Chương này trình bày tổng quan về kho ngữ liệu, một số kho ngữ liệu tiêu biểu trên thế giới, nghiên cứu việc xây dựng và khai thác kho ngữ liệu chuẩn, mô hình chuẩn hóa kho ngữ liệu theo tiêu chí của tiểu ban kỹ thuật ISO/TC 37/SC 4 Trên cơ sở đó xác định mục tiêu cho việc xây dựng và khai thác kho ngữ liệu từ Internet cho tiếng Việt

Trang 34

Về cơ bản, quá trình thu thập kho ngữ liệu từ web được phát triển trong 5 bước Thứ nhất, lựa chọn một danh sách các từ hạt giống tiếng Việt có tần suất xuất hiện trung bình dùng trong việc tìm kiếm địa chỉ các trang web; Thứ 2, sử dụng các

từ hạt giống để tạo ra các truy vấn, thông qua các cổng tìm kiếm Bing hoặc Yahoo, hoặc Google để tải về các trang kết quả tìm được; Thứ 3, làm sạch văn bản, loại bỏ các thẻ HTML, các thông tin quảng cáo và các thông tin nhiễu khác; Thứ 4, loại bỏ các văn bản trùng lặp thu được kho ngữ liệu thô; Thứ 5 là chú giải ngôn ngữ Trong chương này đi sâu về phần xây dựng kho ngữ liệu thô ở bước 4

2.2 Xây dựng kho ngữ liệu thô tiếng Việt

Phần này sẽ trình bày phương pháp xây dựng kho ngữ liệu thô tiếng Việt từ web có kích thước lớn phục vụ cho nghiên cứu từ vựng và các mô hình học máy, kho ngữ liệu gồm các văn bản thuộc tất cả các lĩnh vực trong cuộc sống Phương pháp thu thập kho ngữ liệu sử dụng ở đây được dựa trên phương pháp của Aidan Finn (2001)[30] và A.Kilgarriff (2010) [27], nhưng thuật toán thu thập kho ngữ liệu chi tiết từng bước đã được lựa chọn và phát triển để phù hợp phù hợp với trang web

Trang 35

Việt Phương pháp luận của phương pháp này đã được đề xuất trong công trình

công bố số [4] “Nghiên cứu từ vựng tiếng Việt với hệ thống Sketch Engine”.

2.2.1 Lựa chọn danh sách từ hạt giống

Từ hạt giống đóng vai trò là từ khóa tìm kiếm trong việc thu thập kho ngữ liệu văn bản của mỗi ngôn ngữ Đây phải là các từ đặc trưng cho mỗi ngôn ngữ, tức

là phải có tần suất xuất hiện đáng kể và có tính phân biệt so với các từ trong ngôn ngữ khác Tập từ hạt giống này có thể thu được từ nhiều nguồn khác nhau, ví dụ như trong các kho ngữ liệu nhỏ đã tồn tại hoặc là từ nguồn Wikipedia (Wiki)- một nguồn ngữ liệu khổng lồ gồm các bài báo từ nhiều lĩnh vực Đối với tiếng Việt, danh sách từ hạt giống cũng có thể được thu thập từ Wiki tiếng Việt Danh sách từ này không đủ độ lớn, không bao phủ được hết sự thay đổi khác nhau trong mỗi kiểu văn bản phục vụ cho nghiên cứu và xây dựng từ điển nên danh sách và tần suất xuất hiện của chúng sẽ chỉ được sử dụng làm kho ngữ liệu trung gian (làm “hạt giống”) cho việc thu thập kho ngữ liệu lớn từ Web

2.2.1.1 Trích rút kho ngữ liệu từ Wiki

Để trích rút văn bản từ Wiki trước hết ta cần tải về khối dữ liệu nén XML Wiki cho tiếng Việt, tiếp theo là trích rút các trang XML (có chứa các thẻ Wiki) từ khối dữ liệu nén XML Wiki, sau đó, phân tích cú pháp các trang XML để loại bỏ các nhãn Wiki, thu được các trang XML thô Cuối cùng là trích rút văn bản thô từ các trang XML thô bằng cách sử dụng công cụ Wikipedia2text [119]

Kết quả cho thấy với 426 MB dữ liệu nén tải về từ Wiki thu được 750 MB văn bản thô Hầu hết các bài Wiki có số lượng từ quá ít như các định nghĩa ngắn gọn, tập hợp các liên kết1 có kích thước nhỏ là bị loại bỏ Ide (2002) và các cộng sự [58] đã đưa ra một ước lượng số từ tối thiểu để nhận biết một mục tài liệu là 2000

từ Dựa vào đó, có thể coi các tệp tin Wiki cần thiết phải có dung lượng lớn hơn 10

KB (mặc dù trong thực tế có những tệp lớn hơn 10KB cũng không chứa văn bản liên quan, tuy nhiên ảnh hưởng của chúng về mặt thống kê không lớn) Sau khi loại

1 Các mục liên kết tới các mục khác hoặc các trang khác

Trang 36

ở đây chính là thuật toán khớp tối đa sử dụng trong việc xây dựng công cụ tách từ

tiếng Việt VnTokenizer2 của nhóm tác giả Lê Hồng Phương

Ví dụ: “ Học sinh học sinh học” được tách thành “ Học sinh|học sinh| học” Cách lựa chọn này rõ ràng không phải bao giờ cũng chính xác, nhưng sai số

là chấp nhận được cho mục đích lập danh sách tần suất từ

2.2.1.3 Lựa chọn từ hạt giống trong danh sách tần suất

Tiêu chí lựa chọn từ hạt giống của mỗi ngôn ngữ là khác nhau, ví dụ với tiếng

Hà Lan thì chỉ các từ có độ dài ít nhất là 5 kí tự là được lựa chọn Đối với tiếng Việt thì độ dài của từ không phải là tiêu chí để lựa chọn, qua khảo sát các văn bản tiếng Việt cho thấy phần lớn các từ có chứa kí tự không thuộc phạm vi ASCII Bởi vậy, ở đây tiêu chí được chọn cho tiếng Việt là từ hạt giống phải có ít nhất 1 kí tự Unicode không thuộc phạm vi ASCII, các từ khác sẽ không được xét, các chữ số hoặc các mục không phải kí tự cũng sẽ bị loại trừ Danh sách từ hạt giống, được sắp xếp theo chiều giảm dần của tần suất, trong đó 1000 từ có tần suất cao nhất được bỏ qua vì

chúng thường được coi là các từ dừng (stop word)3 đối với các máy tìm kiếm, 5000

từ tiếp theo trong danh sách tần suất thuộc nhóm từ có tần suất trung bình được sử dụng làm từ hạt giống

2 http://mim.hus.vnu.edu.vn/phuonglh/softwares/vnTokenizer

3 Các từ xuất hiện quá nhiều trong các văn bản

Trang 37

2.2.2 Thu thập địa chỉ URL

Tập từ hạt giống được sử dụng cho việc thu thập các địa chỉ URL của các trang web Về cơ bản, quá trình thu thập được thực hiện qua 2 bước:

Bước1: Sinh truy vấn, lựa chọn ngẫu nhiên một số từ trong số các từ hạt giống để tạo nên một truy vấn

Bước 2: Thu thập URL, gửi truy vấn tới một máy tìm kiếm (như Bing,

Google hay Yahoo), tải về tất cả các tài liệu kết quả của máy tìm kiếm và lưu lại

Quá trình này được lặp đi lặp lại nhiều lần cho đến khi kho ngữ liệu đủ lớn

2.2.2.1 Sinh truy vấn

Truy vấn được sinh ra từ tập các từ hạt giống, các truy vấn sinh ra có độ dài n

bằng cách rút ngẫu nhiên n từ được thực hiện bằng Thuật toán 2.2 Độ phức tạp của

thuật toán là O(n 2)

Mỗi truy vấn là bộ n từ không giống hệt nhau và cũng không là hoán vị của

nhau Độ dài hợp lý của mỗi truy vấn phải được xác định để xác suất kết quả tìm kiếm thuộc ngôn ngữ cần tìm là cao, đồng thời phải đảm bảo số lượng các URL tìm được là không nhỏ đối với hầu hết các truy vấn Chừng nào số lượng URL tìm được lớn hơn 10 cho hầu hết các truy vấn (chẳng hạn 90%) thì độ dài của truy vấn được coi là hợp lệ Ở đây, độ dài truy vấn tốt nhất là độ dài tối đa của một truy vấn mà trong đó số lượng kết quả được tìm ra hầu hết là lớn hơn 10 Thuật toán 2.1, xác định độ dài tốt nhất cho mỗi truy vấn;

Bảng 2.1, cho thấy kết quả đồ dài cho mỗi truy vấn tốt nhất là 4

Bảng 2 1 Thống kê số URL thu được của thuật toán 2.1

Thuật toán 2.2 generate(int n, long totalQuery)

totalQuery là tổng số truy vấn cần lấy

int n là độ dài của truy vấn

output là mảng kết quả đầu ra chứa các truy vấn

select là mảng chứa các từ hạt giống để tạo ra một truy vấn

Trang 38

Input: Tập từ hạt giống,n, totalQuery

Output: Danh sách các truy vấn

theo thứ tự từ điển thành xâu có độ dài n lưu vào biến str;

12 select=∅;}}

return (output); }

2.2.2.2 Thu thập địa chỉ trang Web

Để thu thập địa chỉ URL của các trang web, các truy vấn được gửi đến máy tìm kiếm Bing, ở đây mỗi truy vấn thu lấy 10 kết quả tìm kiếm đầu tiên Việc tìm kiếm đối với các truy vấn phụ thuộc rất nhiều vào tốc độ đường truyền Internet (hàng mấy chục ngàn truy vấn) Để cải thiện tốc độ thực hiện nhiều truy vấn khi cài đặt có thể sử dụng đa luồng để thực hiện đồng thời các truy vấn

Việc tìm kiếm với nhiều truy vấn làm xuất hiện một số URL trùng nhau Nếu một URL xuất hiện nhiều lần thì chỉ giữ lại duy nhất một URL Trước tiên cần sắp xếp các URL theo thứ tự sau đó so sánh nếu thấy các URL nào giống nhau thì loại

bỏ và chỉ giữ lại một URL giống nhau đó Việc sắp xếp với nhiều URL cần sử dụng thuật toán thích hợp để các URL được sắp xếp nhanh, làm cho chương trình chạy nhanh hơn ở đây luận án sử dụng thuật toán sắp xếp (cây nhị phân) để sắp xếp các URL

- Sắp xếp các URL theo thứ tự tăng dần

Sử dụng phương pháp sắp xếp HeapSort để sắp xếp các địa chỉ URL, độ

phức tạp thuật toán là Cmax = Ctb = O (n log n)

Trang 39

- Xóa các URL trùng lặp nhau

Xóa các địa chỉ URL trùng lặp nhau từ mảng kết quả thu được ở bước trên (mảng array[] đã được sắp xếp theo chiều tăng dần) Thuật toán gọi tới mảng các URL đã được sắp xếp, sau đó duyệt từ đầu mảng đến cuối mảng, giả sử đã duyệt đến vị trí thứ i của mảng, kiểm tra vị trí i+1, nếu thấy vị trí i+1 có URL khác URL tại vị trí i thì lưu URL tại vị trí thứ i vào mảng kết quả và chuyển đến duyệt vị trí

i+1 như cách đã duyệt với vị trí thứ i

2.2.3 Lọc nội dung chính của các trang web (URLs)

Khi các URL được tải về, thông tin MIME4 cho URL cũng như kích cỡ của trang là có sẵn, chỉ thu lấy các trang có kiểu MIME là text hoặc HTML và có dung lượng lớn hơn 5 KB (để xác suất các tệp này có tính kết nối văn bản5 lớn hơn) bởi

vì các tập tin có độ lớn này là rất thường xuyên chứa các đoạn liên kết tới các tập tin

và văn bản không có tính kết nối cao Các tệp có dung lượng lớn hơn 2 MB cũng được loại bỏ để tránh bất kì tệp thuộc miền đặc biệt nào thống trị thành phần của kho ngữ liệu

Những trang được tải về bao hàm cả các dấu (thẻ) của HTML, văn bản

‘boilerplate’- các thanh menu, quảng cáo Đó là các phần tài liệu không hợp pháp,

tạm gọi là phần đánh dấu Thuật toán rút trích phần thân văn bản BTE (Body Text

Extraction) được phát triển từ thuật toán gốc của Aidan Fin - loại bỏ những phần

đánh dấu và chỉ trích rút những văn bản kết nối [30](có tính kết nối văn bản)

BTE đã thực hiện trên tất cả các trang tải xuống để thu được các trang văn bản thô Những trang văn bản thô này lại tiếp tục được loại bỏ nhũng trang văn bản

có tỷ lệ từ chức năng thấp [36] Việc kiểm tra thực hiện như sau: giả định 500 từ đầu trong danh sách tần số (được lấy từ kho ngữ liệu Wiki) bao gồm hầu hết các từ

chức năng Để thiết lập một ngưỡng tính tỷ lệ dấu hiệu (token), tất cả các tệp tin

Trang 40

Wiki được sắp xếp giảm dần theo tỷ lệ các từ trong tệp với 500 từ chức năng, kết quả cho thấy hầu hết các tệp Wiki ở phía dưới (phía sau 75-80%) của danh sách đã được sắp xếp này không có tính kết nối Đây hoặc là do công cụ Wikipedia2Text không tốt hoặc vì trang văn bản thực sự không có tính kết nối Tệp tin Wiki ở vị trí thứ 70% của danh sách đã sắp xếp sẽ được sử dụng để thiết lập các ngưỡng: Nếudanh sách 500 từ đầu chiếm 65% của tất cả các từ trong tệp thứ 70% trở về trước sẽ được giữ lại, bất kỳ tệp nào ít hơn 65% sẽ bị loại bỏ

Trong phần sau sẽ trình bày thuật toán cải tiến BTE (Body Text Extraction)

để trích rút nội dung thân văn bản của trang Web (Thuật toán 2.4) cùng với thử nghiệm và đánh giá Cuối cùng là kiểm tra độ lớn của các của các văn bản thu được

và tính kết nối văn bản

2.2.3.1 Phát triển thuật toán BTE

Dựa vào việc quan sát, thuật toán BTE (Body Text Extractor) [30] được

Aidan Finn phát triển bằng cách sử dụng thông tin mật độ chữ văn bản và mật độ thẻ để đánh dấu cho các phần khác nhau của trang web.Ý tưởng chính của thuật

toán BTE được Aidan Finn đề xuất như sau :

Xác định hai điểm i, j sao cho số thẻ HTML (tag-tokens) dưới i và trên j là tối đa, đồng thời số dấu hiệu văn bản (text-tokens) giữa i và j là tối đa Kết quả trích rút chính là các dấu hiệu văn bản giữa đoạn [i, j] được tách ra

Aidan Fin đã thử nghiệm sử dụng thuật toán BTE để trích nội dung văn bản phục vụ cho phân loại nội dung văn bản thư viện điện tử số, chủ yếu chỉ thu thập các bài báo mới thuộc lĩnh vực thể thao và chính trị trong các trang web tin tức Thuật toán trên có ưu điểm là việc bóc tách không phụ thuộc vào ngưỡng cho trước hay phụ thuộc vào ngôn ngữ, nhưng thuật toán không phù hợp với các trang web tin tức tiếng Việt khi có chứa một số thẻ HTML nâng cao

Bắt đầu từ việc quan sát một số trang web tin tức khác nhau cho thấy các trang web tin tức nói chung có đặc điểm chính là trong mã HTML của mỗi trang, phần thân văn bản là phần chứa ít thẻ và nhiều dấu hiệu văn bản nhất

Định dạng
Số trang	150
Dung lượng	1,5 MB