Các vấn đề được nghiên cứu trong luận án

1.3.2.1. Xây dựng kho ngữ liệu

Phương pháp thu thập kho ngữ liệu từ Internet cho tiếng Anh và một số ngôn ngữ phổ biến khác [20, 27, 88, 129] sẽ là cơ sở tốt cho việc xây dựng kho ngữ liệu tiếng Việt có kích thước lớn để có thể phục vụ cho nghiên cứu từ vựng, xây dựng từ

điển và các mô hình học máy nâng cao hiệu suất trong bài toán gán nhãn (chú giải) tiếng Việt.

Ý tưởng chủ đạo của phương pháp xây dựng kho ngữ liệu là thu thập tự động kho ngữ liệu văn bản từ Internet thông qua địa chỉ các trang web (URL), sau đó sẽ

sử dụng các công cụ tựđộng để chú giải ngôn ngữ. Vấn đề quan trọng cần làm là lập danh sách từ hạt giống cho ngôn ngữ Việt và lựa chọn hoặc xây dựng công cụ

phù hợp để tự động chú giải ngôn ngữ. Mặt khác để phù hợp với trang web tiếng Việt, thuật toán từng bước phải được phát triển và lựa chọn. Chẳng hạn, để thu thập

được dữ liệu từ web thuật toán trích rút tựđộng thân văn bản trang web của bước 3

được cải tiến từ thuật toán của Aidan Finn [30] nhằm giảm thiểu những dữ liệu nhiễu không phải nội dung văn bản cần lấy. Thuật toán cải tiến đã xóa hết được các thẻ HTML và dữ liệu nhiễu không phải nội dung văn bản trong các trang web tin tức tiếng Việt.

1.3.2.2. Mô hình chuẩn hóa

Khi thực hiện chú giải ngôn ngữ trên một kho ngữ liệu thô, một vấn đề cần quan tâm là chuẩn hóa lược đồ biểu diễn dữ liệu, nhằm đạt được các tiêu chí sau đây:

− Dễ chuyển đổi sang các định dạng khác nhau;

− Dễ khai thác các thông tin ngôn ngữđã được đánh dấu;

− Dễ bổ sung nhãn ngôn ngữ mới;

− Dễđối sánh với ngôn ngữ khác.

Việc chuẩn hóa này cho phép chia sẻ và trao đổi dữ liệu một cách tối đa, tiết kiệm công sức đầu tư cho nhiệm vụ chú giải ngôn ngữ.

Trong các hoạt động về chuẩn hoá tài nguyên ngôn ngữ [114] có nhóm làm việc WG2/WordSeg về vấn đề chuẩn hoá tách từ cho các ngôn ngữ, trong đó ranh giới giữa các từ không thể xác định rõ ràng chỉ dựa vào hình thức in ấn (như sử dụng dấu cách trong tiếng Anh). Nhóm làm việc này đã đưa ra một số bản thảo hướng dẫn nguyên tắc chung về việc đưa ra chuẩn tách từ. Dựa vào đó cùng với đặc điểm của từ loại tiếng Việt, nhóm tác giả Nguyễn Thị Minh Huyền đã đề xuất nguyên tắc

tách từ cho tiếng Việt [8]. Còn việc chuẩn hóa mô hình chú giải ngữ liệu MAF và SynNaf chưa được ứng dụng cho tiếng Việt, nên trong luận án sẽ tập trung vào xây dựng mô hình MAF và SynNaf cho tiếng Việt.

1.3.2.3. Khai thác kho ngữ liệu thô tiếng Việt cho nghiên cứu từ vựng

Để khai thác kho ngữ liệu thô thu thập từ Internet cho nghiên cứu từ vựng tiếng Việt, trong luận án đi sâu vào nghiên cứu hệ thống truy vấn kho ngữ liệu có tên là Sketch Engine phục vụ cho việc nghiên cứu từ vựng, bởi hai lý do:

- Skech Engine – Là hệ thống truy vấn kho ngữ liệu cho phép người sử dụng xem xét ngữ cảnh theo quan hệ ngữ pháp và cung cấp thống kê về tần suất xuất hiện các từ theo mỗi quan hệ ngữ pháp, ngoài ra hệ thống còn cho phép tra cứu các từ đồng và phản nghĩa, so sánh thông tin của hai từ tương tự nhau…Hệ thống đã được sử dụng cho nhiều ngôn ngữ khác nhau [25, 26] nhưng chưa được sử dụng cho tiếng Việt.

- Đối với tiếng Việt, các nhà làm từđiển hiện nay thường mới chỉ có công cụ để tra cứu ngữ cảnh của một từ trong kho ngữ liệu, chưa có các thống kê tựđộng để

so sánh, chọn lọc các ngữ cảnh. Việc sử dụng một bộ công cụ như hệ thống Sketch Engine sẽ là rất hữu ích, giúp cải thiện quy mô và chất lượng từđiển.

Về phần này, luận án sẽ xây dựng bộ quan hệ ngữ pháp cơ bản tiếng Việt, triển khai hệ thống Sketch Engine trên kho ngữ liệu xây dựng từ Internet cùng với bộ

quan hệ ngữ pháp cho nghiên cứu từ vựng tiếng Việt. Đồng thời đánh giá độ tương thích của chúng trên hệ thống Sketch Engine [phụ lục 1].

1.3.2.4. Khai thác kho ngữ liệu chú giải cho phân tích cú pháp tiếng Việt

Kho ngữ liệu thô thu được từ Internet có thểđược bổ sung chú giải ngôn ngữ (từ

loại, cú pháp). Với kho ngữ liệu có kích thước lớn thì công việc này không thể thực hiện bằng tay mà đòi hỏi phải dựa vào các hệ thống chú giải tự động. Đối với chú giải cú pháp, mọi bộ phân tích cú pháp đều cần tới bộ luật cú pháp hay còn gọi là văn phạm, văn phạm này có thểđược xây dựng từ các kho ngữ liệu đã chú giải cú pháp hoặc kho ngữ liệu cung cấp thông tin cú pháp.

Luận án đã lựa chọn văn phạm phi ngữ cảnh (CFG- Context Free Grammar) và văn phạm kết nối cây (TAG-Tree Adjoining Grammar) là các văn phạm được xây dựng (trích rút) từ VietTreebank và từđiển điện tử tiếng Việt phục vụ cho việc phân tích cú pháp bởi ba lý do chính:

Thứ nhất, từ điển và VietTreebank có một cơ sở ngôn ngữ học vững chắc, nó chứa thông tin ngôn ngữ học gắn với lý thuyết văn phạm cảm sinh được khởi xướng bởi Chomsky và lý thuyết ngữ pháp chức năng. Đây là những lý thuyết có ảnh hưởng lớn trong cả nghiên cứu ngôn ngữ học lẫn ngôn ngữ học tính toán. Trong tiếng Việt, sự ảnh hưởng này được thể hiện điển hình qua các nghiên cứu của Vũ

Dũng [5] và Cao Xuân Hạo [6].

Thứ hai, văn phạm CFG là văn phạm tiêu biểu được sử dụng trong bài toán phân tích cú pháp thành phần, lần đầu tiên đã được đề xuất bởi Chomsky [39]. Đây chính là văn phạm đơn giản, làm nền tảng đặc trưng cho cú pháp thành phần, đã được phát triển sử dụng rất nhiều cho phân tích cú pháp thành phần của các ngôn ngữ khác nhau.

Thứ ba, văn phạm TAG - lớp văn phạm cảm ngữ cảnh yếu (midly context- sensitive grammar) tức là có khả năng sinh mạnh hơn các văn phạm phi ngữ cảnh, trong khi độ phức tạp thời gian của bộ phân tích cú pháp TAG vẫn là đa thức (O(n6)). Văn phạm hình thức LTAG rất phù hợp với các ứng dụng ngôn ngữ học. Người ta đã chỉ ra rằng các tính chất của văn phạm LTAG cho phép mô tả các hiện tượng cú pháp một cách tự nhiên. Hơn nữa, khả năng chuyển đổi một văn phạm LTAG sang các hệ hình thức văn phạm hợp nhất khác như LFG (Lexical Functional

Grammar) hay HPSG (Head-driven Phrase Structure Grammar) đã được chứng

minh [77].

Vì lý do trên luận án đã chọn hai văn phạm đặc trưng CFG, văn phạm TAG để

mô hình hóa cho văn phạm tiếng Việt.

- Xây dựng thuật toán, hệ thống trích rút tựđộng các luật văn phạm PCFG từ

VietTreebank, xây dựng bộ phân tích cú pháp câu tiếng Việt theo phương pháp thống kê trên văn phạm PCFG, đầu vào của hệ phân tích cú pháp là mỗi câu đã

được gán nhãn từ loại nên thuật toán phân tích cú pháp đã được cải biến từ thuật toán PCYK của Martin [41] bằng cách thay xác suất từ loại của mỗi từ vựng là 1 thay vì xác suất của các từ loại đối với mỗi từ vựng được tính từ TreeBank;

- Nghiên cứu về văn phạm LTAG, thuật toán trích rút tự động các luật văn phạm LTAG. Thực hiện trích rút tập cây cú pháp LTAG tiếng Việt, lọc các cây cơ

bản không hợp lệ với cấu trúc ngữ pháp tiếng Việt. Xây dựng thuật toán trích rút cây cơ bản của LTAG từ từđiển tiếng Việt. So sánh, đánh giá tập cây cơ bản trích rút từ VietTreebank.

1.4 Kết chương

Chương này trình bày tổng quan về kho ngữ liệu, một số kho ngữ liệu tiêu biểu trên thế giới, nghiên cứu việc xây dựng và khai thác kho ngữ liệu chuẩn, mô hình chuẩn hóa kho ngữ liệu theo tiêu chí của tiểu ban kỹ thuật ISO/TC 37/SC 4. Trên cơ sở đó xác định mục tiêu cho việc xây dựng và khai thác kho ngữ liệu từ

2. CHƯƠNG 2. XÂY DỰNG KHO NGỮ LIỆU THÔ TỪ

INTERNET

2.1 Giới thiệu

Nghiên cứu từ vựng đòi hỏi xây dựng kho ngữ liệu có kích thước càng lớn càng tốt. Trước kia công việc này đòi hỏi khá nhiều thời gian và công sức, ngày nay nó có thể được thực hiện dễ dàng hơn nhiều nhờ vào các trang web sẵn có trên Internet. Tuy nội dung các văn bản thu thập từ web có thể mắc phải một số lỗi nhỏ

nhưng với mục tiêu để nghiên từ vựng (nghiên cứu ngữ cảnh, thống kê và nghiên cứu hành vi của mỗi từ) thì một sai số nhỏ trong nội dung văn bản có thể chấp nhận

được. Kho ngữ liệu thu thập từ web lại có ưu điểm là cho phép cập nhập dữ liệu thường xuyên, phát hiện những hiện tượng ngôn ngữ đa dạng và phong phú một cách khách quan hơn so với thu thập dữ liệu truyền thống.

Về cơ bản, quá trình thu thập kho ngữ liệu từ web được phát triển trong 5 bước. Thứ nhất, lựa chọn một danh sách các từ hạt giống tiếng Việt có tần suất xuất hiện trung bình dùng trong việc tìm kiếm địa chỉ các trang web; Thứ 2, sử dụng các từ hạt giống để tạo ra các truy vấn, thông qua các cổng tìm kiếm Bing hoặc Yahoo, hoặc Google để tải về các trang kết quả tìm được; Thứ 3, làm sạch văn bản, loại bỏ

các thẻ HTML, các thông tin quảng cáo và các thông tin nhiễu khác; Thứ 4, loại bỏ

các văn bản trùng lặp thu được kho ngữ liệu thô; Thứ 5 là chú giải ngôn ngữ. Trong chương này đi sâu về phần xây dựng kho ngữ liệu thô ở bước 4.

2.2 Xây dựng kho ngữ liệu thô tiếng Việt

Phần này sẽ trình bày phương pháp xây dựng kho ngữ liệu thô tiếng Việt từ

web có kích thước lớn phục vụ cho nghiên cứu từ vựng và các mô hình học máy, kho ngữ liệu gồm các văn bản thuộc tất cả các lĩnh vực trong cuộc sống. Phương pháp thu thập kho ngữ liệu sử dụng ở đây được dựa trên phương pháp của Aidan Finn (2001)[30] và A.Kilgarriff (2010) [27], nhưng thuật toán thu thập kho ngữ liệu chi tiết từng bước đã được lựa chọn và phát triển để phù hợp phù hợp với trang web

Việt. Phương pháp luận của phương pháp này đã được đề xuất trong công trình công bố số [4] “Nghiên cứu từ vựng tiếng Việt với hệ thống Sketch Engine”.

2.2.1 Lựa chọn danh sách từ hạt giống

Từ hạt giống đóng vai trò là từ khóa tìm kiếm trong việc thu thập kho ngữ

liệu văn bản của mỗi ngôn ngữ. Đây phải là các từđặc trưng cho mỗi ngôn ngữ, tức là phải có tần suất xuất hiện đáng kể và có tính phân biệt so với các từ trong ngôn ngữ khác. Tập từ hạt giống này có thể thu được từ nhiều nguồn khác nhau, ví dụ

như trong các kho ngữ liệu nhỏ đã tồn tại hoặc là từ nguồn Wikipedia (Wiki)- một nguồn ngữ liệu khổng lồ gồm các bài báo từ nhiều lĩnh vực. Đối với tiếng Việt, danh sách từ hạt giống cũng có thểđược thu thập từ Wiki tiếng Việt. Danh sách từ

này không đủđộ lớn, không bao phủđược hết sự thay đổi khác nhau trong mỗi kiểu văn bản phục vụ cho nghiên cứu và xây dựng từđiển nên danh sách và tần suất xuất hiện của chúng sẽ chỉ được sử dụng làm kho ngữ liệu trung gian (làm “hạt giống”) cho việc thu thập kho ngữ liệu lớn từ Web.

2.2.1.1. Trích rút kho ngữ liệu từ Wiki

Để trích rút văn bản từ Wiki trước hết ta cần tải về khối dữ liệu nén XML Wiki cho tiếng Việt, tiếp theo là trích rút các trang XML (có chứa các thẻ Wiki) từ

khối dữ liệu nén XML Wiki, sau đó, phân tích cú pháp các trang XML để loại bỏ

các nhãn Wiki, thu được các trang XML thô. Cuối cùng là trích rút văn bản thô từ

các trang XML thô bằng cách sử dụng công cụ Wikipedia2text [119]

Kết quả cho thấy với 426 MB dữ liệu nén tải về từ Wiki thu được 750 MB văn bản thô. Hầu hết các bài Wiki có số lượng từ quá ít như các định nghĩa ngắn gọn, tập hợp các liên kết1 có kích thước nhỏ là bị loại bỏ. Ide (2002) và các cộng sự

[58] đã đưa ra một ước lượng số từ tối thiểu để nhận biết một mục tài liệu là 2000 từ. Dựa vào đó, có thể coi các tệp tin Wiki cần thiết phải có dung lượng lớn hơn 10 KB (mặc dù trong thực tế có những tệp lớn hơn 10KB cũng không chứa văn bản liên quan, tuy nhiên ảnh hưởng của chúng về mặt thống kê không lớn). Sau khi loại

bỏ các tệp nhỏ hơn 10 KB, thu được 57 MB văn bản tiếng Việt (6.8 triệu âm tiết). Kho văn bản này được dùng để xây dựng danh sách tần suất các từ.

2.2.1.2. Lập danh sách tần suất

Danh sách tần suất các từ trong kho ngữ liệu Wiki được xây dựng từ việc tách từ (tách từng dấu hiệu từ) các văn bản trong kho ngữ liệu và một danh sách từ

tiếng Việt được sử dụng để nhận dạng từ và tính tần suất. Thuật toán sử dụng là duyệt theo từng câu, mỗi câu được duyệt từ trái sang phải và chọn từ có nhiều âm tiết nhất có mặt trong từđiển rồi tiếp tục cho từ kế tiếp đến kết thúc câu. Thuật toán

ở đây chính là thuật toán khớp tối đa sử dụng trong việc xây dựng công cụ tách từ

tiếng Việt VnTokenizer2 của nhóm tác giả Lê Hồng Phương.

Ví dụ: “ Học sinh học sinh học” được tách thành “ Học sinh|học sinh| học”. Cách lựa chọn này rõ ràng không phải bao giờ cũng chính xác, nhưng sai số

là chấp nhận được cho mục đích lập danh sách tần suất từ. 2.2.1.3. Lựa chọn từ hạt giống trong danh sách tần suất

Tiêu chí lựa chọn từ hạt giống của mỗi ngôn ngữ là khác nhau, ví dụ với tiếng Hà Lan thì chỉ các từ có độ dài ít nhất là 5 kí tự là được lựa chọn. Đối với tiếng Việt thì độ dài của từ không phải là tiêu chí để lựa chọn, qua khảo sát các văn bản tiếng Việt cho thấy phần lớn các từ có chứa kí tự không thuộc phạm vi ASCII. Bởi vậy, ở đây tiêu chí được chọn cho tiếng Việt là từ hạt giống phải có ít nhất 1 kí tự Unicode không thuộc phạm vi ASCII, các từ khác sẽ không được xét, các chữ số hoặc các mục không phải kí tự cũng sẽ bị loại trừ. Danh sách từ hạt giống, được sắp xếp theo chiều giảm dần của tần suất, trong đó 1000 từ có tần suất cao nhất được bỏ qua vì chúng thường được coi là các từ dừng (stop word)3 đối với các máy tìm kiếm, 5000 từ tiếp theo trong danh sách tần suất thuộc nhóm từ có tần suất trung bình được sử

dụng làm từ hạt giống.

2http://mim.hus.vnu.edu.vn/phuonglh/softwares/vnTokenizer

2.2.2 Thu thập địa chỉ URL

Tập từ hạt giống được sử dụng cho việc thu thập các địa chỉ URL của các trang web. Về cơ bản, quá trình thu thập được thực hiện qua 2 bước:

Bước1: Sinh truy vấn, lựa chọn ngẫu nhiên một số từ trong số các từ hạt giống để tạo nên một truy vấn.

Bước 2: Thu thập URL, gửi truy vấn tới một máy tìm kiếm (như Bing, Google hay Yahoo), tải về tất cả các tài liệu kết quả của máy tìm kiếm và lưu lại.

Quá trình này được lặp đi lặp lại nhiều lần cho đến khi kho ngữ liệu đủ lớn. 2.2.2.1. Sinh truy vấn

Truy vấn được sinh ra từ tập các từ hạt giống, các truy vấn sinh ra có độ dài n

bằng cách rút ngẫu nhiên n từđược thực hiện bằng Thuật toán 2.2. Độ phức tạp của thuật toán là O(n2).

Mỗi truy vấn là bộn từ không giống hệt nhau và cũng không là hoán vị của

Các vấn đề được nghiên cứu trong luận án

Lựa chọn danh sách từ hạt giống

Phát hiện sự trùng lặp gần nhau