3 Ứng dụng cho tiếng Việt
2.4 Kết quả hệ thống Stanford tại cuộc thi năm 2013
Chương 3
Ứng dụng cho tiếng Việt
Phương pháp xác định đồng sở chỉ bằng cách sử dụng sàng nhiều lượt và áp dụng luật thực thể trung tâm và xếp hạng độ chính xác là một phương pháp có độ chính xác cao khi áp dụng cho tiếng Anh và có khả năng áp dụng tốt cho các ngôn ngữ khác. Một số ngôn ngữ khác như: tiếng Trung, tiếng Ả-rập đã áp dụng phương pháp này và cho các kết quả khả quan. Phần này của báo cáo trình bày áp dụng phương pháp trên cho tiếng Việt.
3.1 Các cơng cụ đã có cho xử lý tiếng Việt
Hệ thống xác định đồng sở chỉ bằng phương pháp sàng nhiều lượt được xây dựng cho tiếng Anh của nhóm xử lý ngơn ngữ Đại học Stanford có kết quả cao. Một trong các lý do để đạt được kết quả đó là hệ thống xác cơng cụ hỗ trợ được xây dựng như: công cụ tách từ, công cụ gán nhãn, công cụ xác định cú pháp thành phần, công cụ xác định cú pháp phụ thuộc, công cụ xác định nhãn thực thể định danh. Trước khi trình bày ứng dụng phương pháp trên cho tiếng Việt, luận văn giới thiệu một số cơng cụ xử lý ngơn ngữ đã có với tiếng Việt để hỗ trợ cho quá trình ứng dụng.
3.1.1 Công cụ tách từ, gán nhãn từ loại
Tác giả Lê Hồng Phương, Đại học Quốc gia Hà Nội đã xây dựng một bộ các công cụ để hỗ trợ cho quá trình xử lý tách từ và gán nhãn từ loại:
• vnTokenizer 1 với độ chính xác 96%-98%.
• vnTagger 2 với độ chính xác 94%-95%.
3.1.2 Kho ngữ liệu có gán nhãn cú pháp thành phần
Một bộ dữ liệu được sử dụng rộng rãi trong các nghiên cứu về xử lý ngôn ngữ với tiếng Việt là VietTreebank - một sản phẩm của nhánh đề tài "Xử lí văn bản" là một phần của đề tài KC01.01/06-10 "Nghiên cứu phát triển một số sản phẩm thiết yếu về xử lí tiếng nói và văn bản tiếng Việt" (VLSP) 3, với hơn 10000 câu được gán nhãn cú pháp thành phần [16].
Chi tiết về bộ dữ liệu và các nhãn được sử dụng trong bộ dữ liệu mơ tả trong phụ lục Vietnamese Treebank.
3.1.3 Kho ngữ liệu có gán nhãn cú pháp phụ thuộc
Thông tin về cú pháp phụ thuộc là một thơng tin hữu ích, được sử dụng song song với cú pháp thành phần. Thơng tin cú pháp phụ thuộc giúp trích xuất quan hệ giữa các thành phần câu dễ dàng hơn. Xem thêm phụ lục Vietnamese Treebank.
Năm 2013, nhóm tác giả: Nguyễn Thị Lương, Hà Mỹ Linh, Nguyễn Việt Hùng, Nguyễn Thị Minh Huyền, Lê Hồng Phương đã giới thiệu một hệ thống quy ước về cú pháp thành phần và xây dựng bộ dữ liệu có thơng tin cú pháp thành phần dựa trên bộ dữ liệu VietTreebank [8].
Các lượt sàng có so khớp từ chính trong hệ thống sàng nhiều lượt sử dụng rất nhiều thông tin về cú pháp thành phần.
3.1.4 Kho ngữ liệu có gán nhãn vai nghĩa
Thơng tin về vai nghĩa làm rõ vai trị của các cụm từ (cụm danh từ, cụm động từ, cụm tính từ,...) trong câu. Các động từ sẽ được coi là thông tin trung tâm, các cụm từ khác sẽ được xác định rõ quan hệ với động từ này. Xem thêm phụ lục Phân tích vai nghĩa.
1 http://mim.hus.vnu.edu.vn/phuonglh/softwares/vnTokenizer 2 http://mim.hus.vnu.edu.vn/phuonglh/softwares/vnTagger 3 http://vlsp.vietlp.org:8080/
Năm 2014, nhóm tác giả: Ha My Linh, Nguyen Thi Luong, Nguyen Viet Hung, Nguyen Thi Minh Huyen, Le Hong Phuong, Phan Thi Hue đã giới thiệu bộ nhãn thông tin vai nghĩa mẫu và bộ dữ liệu có thơng tin vai nghĩa dựa trên bộ dữ liệu VietTreebank [6].
Trong các lượt sàng xác định quan hệ giữa các đề cập trong hệ thống xác định đồng sở chỉ bằng sàng nhiều lượt, thông tin vai nghĩa giúp dễ dàng trích xuất quan hệ giữa các đề cập. Lượt sàng xác định người nói và lượt sàng xác định các trường hợp quan hệ đồng sở chỉ đặc biệt sử dụng rất nhiều thông tin vai nghĩa này.
3.2 Phương pháp sàng nhiều lượt cho tiếng Việt
Hệ thống xác định đồng sở chỉ cho tiếng Việt cũng xây dựng bằng cách kế thừa kiến trúc nhiều tầng của hệ thống trong tiếng Anh. Luật thực thể trung tâm và xếp hạng độ chính xác cũng được bảo lưu cho hệ thống tiếng Việt. Hệ thống cho tiếng Việt sẽ giữ nguyên một số lượt sàng và thay đổi một số lượt sàng cho phù hợp với tiếng Việt.
Các cơng việc cần làm cho tiếng Việt
• Lựa chọn lại các lượt sàng phù hơp
• Lựa chọn lại tập đặc trưng phù hợp
• Bổ sung thêm q trình kiểm tra sau một số lượt sàng.
3.2.1 Các lượt sàng
Các lượt sàng được áp dụng cho tiếng Việt là:
Lượt Nội dung
1 Xác định người nói 2 So khớp các chuỗi chặt chẽ 3 So khớp các chuỗi nới lỏng 4 Một số trường hợp đặc biệt chính xác 5 So khớp từ chính chặt chẽ 6 Phân cụm các đề cập còn lại