Các công cụ hỗ trợ thực nghiệm

3.2.1. Công cụ TreeBank Editor

TreeBank Editor (TBE) là công cụ trợ giúp người làm dữ liệu gán nhãn cho câu ở nhiều mức độ khác nhau (tách từ, gán nhãn từ loại, xây dựng cây cú pháp). Các sửa đổi trên dữ liệu sẽ được lưu lại dạng file log (để thống kê, theo dõi tiến độ). Hiện tại TBE chưa được tích hợp các công cụ phân tích tự động.

3.2.2. Bộ phân tích cú pháp Bikel

Các nhiệm vụ cơ bản của bộ phân tích cú pháp của Bikel: Tiền xử lý:

- Loại bỏ một số nút không cần thiết - Thêm vào nút cơ bản của NP (NPBs) - Chỉnh sửa lại những nhãn NP

- Thêm vào thông tin gap - Loại bỏ các thành phần rỗng - Phát triển dấu câu

- Xác định tham số của ký tự không kết thúc - Bỏ qua một số đối số của ký tự không kết thúc - Chỉnh sửa các câu không có chủ ngữ

Liên kết các cụm từ là khái niệm quan trọng và một số bước tiền xử lý dựa vào khái niệm này. Một nút được biểu diễn là liên kết giữa cụm từ nếu:

- Nó không chứa các thành phần trung tâm trong nốt con và là chứa liên từ - Là liên từ

- Là ký tự đứng sau head nhưng không kết thúc

- Là ký tự đứng ngay trước head nhưng không là ký tự bắt đầu

Trong Penn Treebank, liên từ được gán nhãn CC, còn trong Viet Treebank nhãn là C.

Huấn luyện: Công việc của bộ huấn luyện là phân tích dữ liệu huấn luyện (cây cú pháp của câu được gán nhãn từ loại) thành chuỗi head và các bước sinh thành phần bổ trợ, thực hiện việc xác định xác suất trong mỗi bước. Tại mỗi bước, thành phần H, Li, Ri đều được sinh ra dựa vào trạng thái trước đó, và mỗi sự kiện đều sinh ra các thành phần và một vài giá trị ngữ cảnh được đếm. Tuy nhiên, trong quá trình phân tích, vẫn còn tồn tại một số vấn đề, vì vậy xác suất cần được làm mịn (smoothing)

3.3. Cài đặt thuật toán rút gọn văn bản

3.3.1. Thuật toán rút gọn văn bản trong ngôn ngữ ký hiệu Việt Nam

Ý tưởng chính của thuật toán rút gọn văn bản, tôi sử dụng phương pháp được trình bày trong [10]. Chính là việc dựa trên tập dữ liệu về những từ có thể giản lược trong câu của ngôn ngữ kí hiệu, đó chính là việc xây dựng tập hợp tất cả các từ tiếng Việt là giới từ, liên từ và từ tình thái có thể giản lược. Ngoài ra, để giải quyết một nhiệm vụ quan trọng nữa là các từ không thể tìm thấy trong từ điển ngôn ngữ kí hiệu, sẽ được dịch sang bằng cách thay thế các từ đồng nghĩa. Hiện từ điển ngôn ngữ kí hiệu Việt Nam đang được xây dựng và phát triển với vốn từ vựng khoảng 3000 từ, nhỏ hơn rất nhiều so với từ điển tiếng Việt. Chúng tôi tiến hành phân chia nhóm cho các từ thuộc từ điển

thành 2 dạng là từ và cụm từ- tôi tạm gọi là đơn vị ngôn ngữ. Với mỗi một đơn vị ngôn ngữ trong từ điển tôi xây dựng một số từ đồng nghĩa tương ứng.

Đối với thuật toán tôi sử dụng dưới đây được trình bày trong [10], có đề cập đến khái niệm “ Trọng số từ vựng”. Trong khi xem xét ngữ nghĩa của một văn bản, người ta cảm thấy rằng dường như một số từ thể hiện ngữ nghĩa nhiều hơn các từ khác. Hơn nữa, có sự phân biệt cơ bản giữa những từ ngữ chức năng và những từ ngữ mang nội dung. Trong đó một số từ ngữ mang nội dung dường như thể hiện nhiều các chủ để hơn những từ khác. Bất kể phương pháp nào dùng cho việc gán trọng số cho từ vựng chỉ cần đòi hỏi miễn sao nguyên tắc gán trọng số có thể diễn giải được tốt về tầm quan trọng của từ vựng trong văn bản. Đặc biệt là trong ngôn ngữ kí hiệu, những từ ngữ có trọng số được gán bằng 0 sẽ tương ứng với các từ loại được chỉ ra ở trên như là: giới từ, liên từ, từ chỉ tình thái… Trọng số có thể dựa trên mô hình phân bố từ, chẳng hạn như phân bố Poison hay sự đánh giá thông tin về các chủ đề thông qua Entropy.

Một sơ đồ trọng số được dùng thông dụng là tf * idf với tf là tần suất của một từ vựng trong văn bản và idf là nghịch đảo của số lượng văn bản mà từ đó từ vựng xuất hiện. Vì trọng số của từ vựng trong mô hình không gian vecto ảnh hưởng trực tiếp đến kết quả của việc rút gọn, do dậy các kết quả cụ thể phụ thuộc chủ yếu vào phương pháp gán trọng số.

Các bước của thuật toán rút gọn văn bản được tiến hành như sau:

Bước 1: Máy tách từ ( sử dụng công cụ phân tích cú pháp Bikel và cây cấu trúc cú pháp Viet treebank) trả về dữ liệu cho việc tiền xử lý. Dữ liệu bao gồm danh sách các từ và cụm từ đã được gán nhãn

Bước 2: Bằng một phương pháp gán trọng số cho từ loại ta sắp xếp từ và cụm từ theo độ quan trọng.

Bước 3: Giản lược các thành phần của câu theo trọng số và sinh ra câu rút gọn.

Sơ đồ của thuật toán rút gọn văn bản tiếng Việt sang dạng văn bản ngôn ngữ kí hiệu được thể hiện như hình dưới đây.

Hình 3.1. Sơ đồ thuật toán rút gọn văn bản

3.3.2. Đánh giá thực nghiệm

BLEU là một phương pháp để đánh giá chất lượng của các tài liệu được dịch tự động bằng máy, do IBM đề xuất vào năm 2002 và được sử dụng làm phương pháp đánh giá chính cho nghiên cứu dịch máy. Nguyên lý ban đầu của phương pháp này là so sánh hai tài liệu được dịch tự động bằng máy và được các chuyên gia ngôn ngữ dịch. Việc so sánh được thực hiện bằng cách phân tích thống kê sự trùng khớp ngẫu nhiên của các từ trong hai tài liệu có tính đến thứ tự các từ trong các câu sử dụng n-grams. Cụ thể, điểm BLEU được tính bằng cách phân tích thống kê mức độ trùng hợp giữa n-gram của các tài liệu được dịch tự động bằng máy và bằng tay được dịch bởi các chuyên gia ngôn ngữ chất lượng cao.

Điểm số BLEU có thể được tính như sau:

- NRj: số n-gram trong phân đoạn j trong bản dịch tham khảo (theo chuyên gia) với một tham số tham chiếu phù hợp xảy ra trong phân đoạn

- NTj: số n-gram trong đoạn j trong bản dịch (bằng máy) đang được đánh giá.

- wi = N1

- Lref: số từ trong bản dịch tham chiếu (theo chuyên gia) có độ dài gần nhất đối với bản dịch được ghi.

- Ltra: Số từ trong bản dịch (bằng máy) được ghi.

Giá trị score đánh giá mức độ tương ứng giữa hai bản dịch và nó được thực hiện trên từng phân đoạn, ở đây phân đoạn được hiểu là đơn vị tối thiểu trong các bản dịch, thông thường mỗi đoạn thường là một hoặc vài câu. Các số liệu thống kê n-gram đồng xuất hiện, dựa trên bộ n-gram cho các phân đoạn thử nghiệm và tham khảo, được tính cho mỗi phân đoạn này và sau đó được tích lũy trên tất cả các phân đoạn. Sản lượng của BLEU luôn là một số từ 0 đến 1. Giá trị này cho thấy văn bản ứng cử viên tương tự như thế nào với các tài liệu tham khảo, với các giá trị gần 1 đại diện cho nhiều văn bản tương tự hơn.

3.3.3. Kết quả đánh giá thực nghiệm rút gọn văn bản.

Với dữ liệu 200 câu đầu vào, 200 câu rút gọn chuẩn được tham khảo từ tài liệu dùng cho người điếc do các chuyên gia ngôn ngữ ký hiệu cung cấp, chúng tôi sử dụng thuật toán rút gọn được trình bày ở trên để có được 200 câu tương ứng rút gọn tự động. Sau đó chúng tôi dựa trên phương pháp đánh giá

bảng 3.2). Tỉ lệ các câu rút gọn đúng (tương ứng với điểm BLEU = 1) chiếm 97.5%. Các trường hợp còn lại rút gọn chưa đạt do tính phức tạp trong vấn đề nhập nhằng ngữ nghĩa chưa được giải quyết hoàn toàn.

Bảng 3.1. Điểm số của BLEU

ID Sentence Linput NRj NTj Lref Ltra BLEU score

1 3 7 7 3 3 1.000 2 5 12 12 4 4 1.000 3 8 15 15 6 6 1.000 4 9 26 20 9 7 0.7515 5 5 14 14 5 5 1.0000 … … … … 99 7 22 16 7 6 0.8465 100 8 24 24 8 8 1.0000 … … … … 199 7 23 23 7 7 1.000 200 6 13 18 5 6 0.9762

Với kết quả được đánh giá phía trên, chúng tôi đã phân tích và cài đặt thành công thuật toán rút gọn văn bản văn bản tiếng Việt sang dạng văn bản giản lược của ngôn ngữ kí hiệu. Tuy nhiên, thời gian nghiên cứu có hạn nên chúng tôi chỉ mới đánh giá được trên tập dữ liệu nhỏ.

Kết quả của nghiên cứu này là tiền đề cho việc xây dựng hệ thống dịch tự động văn bản tiếng Việt sang dạng văn bản đúng chuẩn cú pháp của ngôn ngữ kí hiệu. Trong đó bao gồm việc chuyển đổi cú pháp văn bản tiếng Việt dựa trên đặc tính quan trọng thứ 2, đó là trật tự từ trong ngôn ngữ kí hiệu mang những đặc điểm riêng, khác biệt so với tiếng Việt thông thường.

3.4. Cài đặt thuật toán chuyển đổi cú pháp

3.4.1. Xây dựng cây chuyển đổi cú pháp tương ứng trong ngôn ngữ kí hiệu. hiệu.

Sau khi phân tích cú pháp trong văn bản tiếng Việt tiến hành xây dựng luật chuyển đổi cú pháp, tôi sử dụng phương pháp đã được trình bày trong [11]. Trên tập dữ liệu phân tích được, kết hợp các luật chuyển đổi cú pháp đã phân tích ở trên, đưa ra cây chuyển đổi cú pháp tương ứng trong ngôn ngữ kí hiệu như sau:

Hình 3.2. Cấu trúc cây cú pháp chuyển đổi tương ứng sang dạng NNKH câu đơn

Hình 3.4. Cấu trúc cây cú pháp chuyển đổi tương ứng sang dạng NNKH câu phủ định dạng 2

Hình 3.5. Cấu trúc cây cú pháp chuyển đổi tương ứng sang dạng NNKH câu nghi vấn dạng 1

Hình 3.6. Cấu trúc cây cú pháp chuyển đổi tương ứng sang dạng NNKH câu nghi vấn dạng 2

Hình 3.7. Cấu trúc cây cú pháp chuyển đổi tương ứng sang dạng NNKH câu đơn có bao gồm số từ.

3.4.2. Cài đặt thuật toán

Từ những phân tích ở trên và các cấu trúc cây cú pháp chuyển đổi tương ứng chúng tôi tiến hành cài đặt thuật toán chuyển đổi cú pháp như sau:

Hình 3.8. Sơ đồ thuật toán chuyển đổi cú pháp

Bước 1: Đầu vào bao gồm câu văn bản tiếng Việt thông thường cần dịch. Ngoài ra, ta cần kết hợp với dữ liệu là từ điển ngôn ngữ kí hiệu được

xây dựng bao gồm các từ/cụm từ biểu diễn được trong ngôn ngữ kí hiệu, được gán nhãn và xây dựng các từ đồng nghĩa.

Bước 2: Phân tích cấu trúc cú pháp. Ở đây sử dụng phương pháp phân tích cú pháp tiếp thống kê dựa trên kho ngữ liệu Viettree Bank và công cụ phân tích cú pháp Bikel.

Bước 3: Tiến hành gán nhãn từ và cụm từ trong câu, nhằm mục đích kết hợp với cú pháp được phân tích để tìm kiếm cấu trúc câu phù hợp với các luật chuyển đổi cú pháp đã xây dựng.

Bước 4: Từ kết quả của bước 3 nhằm mục đích kết hợp với cú pháp được phân tích, ở bước này ta tìm kiếm cấu trúc câu phù hợp với các luật chuyển đổi cú pháp đã xây dựng.

Bước 5: Chuyển đổi cú pháp dạng đúng trong ngôn ngữ kí hiệu từ 6 luật chuyển đổi đã xây dựng ở trên.

3.4.3. Đánh giá, kết quả thực nghiệm

Để thực hiện phương pháp dịch tự động câu tiếng việt sang dạng câu đúng ngữ pháp trong ngôn ngữ kí hiệu đề xuất ở trên, các kết quả đánh giá của câu dịch đạt yêu cầu được trợ giúp bởi chuyên gia về ngôn ngữ kí hiệu. Các câu trong mô hình dữ liệu đã được sáp nhập vào các cấu trúc ngữ pháp thu được bằng cách tổng quát hóa cấu trúc. Ví dụ như câu "Anh ấy đi", "Cô ấy đi", "Người đàn ông đi", vv đã được sáp nhập vào cấu trúc ngữ pháp "{Anh ấy, cô ấy, người đàn ông ...} đi". Bằng cách phân tích các tập hợp từ trên các tham số tổng quát các cấu trúc ngữ pháp đã được xây dựng.

Để kiểm tra thuật toán dịch, 200 câu đơn giản đã được lấy từ tài liệu dùng cho những người điếc. Chúng tôi cũng dựa trên phương pháp đánh giá BLEU để xem xét các kết quả của thuật toán chuyển đổi cú pháp ngôn ngữ kí hiệu.

Bảng 3.2. Điểm BLEU đánh giá tập dữ liệu của thuật toán chuyển đổi cú pháp NNKH

ID sentence Linput BLEU Score

1 5 1.000 2 3 1.000 3 7 0.253 4 5 1.000 … … … … … … 196 6 0.2778 197 7 1.000 198 5 0.5250 199 4 1.000 200 3 1.000

Kết quả là, 67% câu được dịch tự động (tương ứng với điểm BLEU=1), 21% không được dịch vì thiếu từ tương ứng với cử chỉ biểu diễn được trong ngôn ngữ kí hiệu, 12% không được dịch vì thiếu các cấu trúc ngữ pháp tổng quát.

Hình 3.9. Kết quả dịch tự động câu tiếng Việt sang dạng câu đúng ngữ pháp trong ngôn ngữ kí hiệu Việt Nam

3.5. Xây dựng phần mềm thực nghiệm rút gọn văn bản và chuyển đổi cú pháp pháp

Với mục tiêu đặt ra của luận văn là xây dựng phần mềm thực nghiệm hỗ trợ rút gọn văn bản và chuyển đổi cú pháp tôi lựa chọn ngôn ngữ C# cho việc cài đặt thuật toán và xây dựng phần mềm. Hình 3.10 dưới đây minh họa giao diện phần mềm rút gọn và chuyển đổi cú pháp ngôn ngữ ký hiệu Việt Nam.

Hình 3.10. Giao diện phần mềm thực nghiệm rút gọn và chuyển đổi cú pháp

Hình 3.11. Giao diện phần mềm thực nghiệm rút gọn và chuyển đổi cú pháp

Hình 3.12. Giao diện phần mềm thực nghiệm rút gọn và chuyển đổi cú pháp

KẾT LUẬN

Với đề tài “ Nghiên cứu phương pháp rút gọn văn bản và chuyển đổi cú pháp ngôn ngữ ký hiệu Việt Nam”, tác giả đã đạt được những kết quả nhất định, phần mềm xây dựng trên ngôn ngữ C# hoạt động ổn định, kết quả chuyển đổi tốt. Đề tài có nhiều khả năng mở rộng và ứng dụng nhưng cũng còn nhiều vấn đề cần nghiên cứu và phát triển.

Những kết quả mà luận văn đã đạt được: Luận văn tập trung nghiên cứu về ngôn ngữ ký hiệu Việt Nam, vấn đề rút gọn, chuyển đổi cú pháp đối với ngôn ngữ ký hiệu Việt Nam, nghiên cứu các luật, các thuật toán và xây dựng phần mềm rút gọn văn bản, chuyển đổi cú pháp đối với ngôn ngữ ký hiệu Việt Nam làm cầu nối giao tiếp giữa người khiếm thính và người nghe được thuận lợi.

Về mặt lý thuyết: Luận văn đã tìm hiểu về ngôn ngữ ký hiệu, ngôn ngữ ký hiệu Việt Nam, tính rút gọn, trật tự cú pháp, thu thập các luật, cài đặt các thuật toán và tìm hiểu ngôn ngữ lập trình C# để xây dựng môi trường thực nghiệm hệ thống rút gọn văn bản và chuyển đổi cú pháp.

Về thực tiễn: Luận văn đã xây dựng thành công phần mềm rút gọn văn bản và chuyển đổi cú pháp có khả năng rút gọn và chuyển đổi đạt kết quả tốt

Các hạn chế: Phần mềm xây dựng còn đơn giản, chưa có nhận dạng văn bản dạng âm thanh, hình ảnh, chưa có chiều chuyển ngược từ văn bản rút gọn sang ngôn ngữ ký hiệu.

Hướng phát triển: Tiếp tục nghiên cứu để xây dựng hệ thống phần mềm có nhiều tính năng hơn có khả năng rút gọn, chuyển đổi cú pháp nhiều loại ngôn ngữ ký hiệu hơn.

Khuyến nghị: Do thời gian nghiên cứu có hạn và điều kiện còn hạn chế nên kết quả đạt được còn chưa đạt yêu cầu về khả năng ứng dụng thực tiễn. Tác giả mong muốn có thể hoàn thiện trong tương lai, trong quá trình thực hiện có thể còn nhiều thiếu xót, hi vọng nhận được sự đóng góp ý kiến

TÀI LIỆU THAM KHẢO

Tiếng Việt

[1]. Báo cáo Tổng điều tra dân số, Tổng cục thống kê, 2009.

[2]. Đỗ Văn Ba, Báo cáo đề tài KHCN cấp Bộ “Hình thành thống nhất hệ

Cơ sở dữ liệu văn bản tiếng Việt

Phân tích dữ liệu văn bản tiếng Việt