6 .Đóng góp chính của luận án
2.5. Kết luận Chương 2
( )× ( )
Trong đó, score(wiwj) là điểm của hai từ đứng cạnh nhau được thống kê từ
kho ngữ liệu đơn ngữ số lượng lớn; count(wiwj) là số lần xuất hiện cụm từ wiwj, count(wi) là số lần xuất hiện của từ wi, δ là hệ số để loại trừ các cụm từ xuất hiện với tần suất thấp. Từ điểm số trên, có thể điều chỉnh và chọn một ngưỡng phù hợp để các từ đứng cạnh nhau có xác suất cao là các từ ghép trong tiếng Việt.
Phương pháp này dễ dàng triển khai vì chỉ cần kho ngữ liệu đơn ngữ để xây dựng mơ hình mà khơng cần đến từ điển hay, các ví dụ mẫu hay các giải pháp tiền xử lý phức tạp khác. Các kho ngữ liệu đơn ngữ dễ dàng thu thập được từ nhiều nguồn tài nguyên số khác nhau. Kết quả xác định ranh giới từ có độ chính xác cao khi dữ liệu
đầu vào có số lượng lớn. Ngồi ra, có thể loại bỏ các từ nối, từ chuyển tiếp và sử dụng thêm từ điển để loại bỏ các kết quả không phù hợp sẽ làm tăng chất lượng của thuật tốn.
Q trình thực nghiệm tách từ tiếng Việt được thực hiện như sau:
- Thu thập kho ngữ liệu tiếng Việt: luận án sử dụng các phương pháp rút trích
tự động để lấy về các bài viết trên trang vnexpress.net, tuoitre.vn và một số trang web khác. Kết quả thu được 2.241.987 câu tiếng Việt ở tất cả các lĩnh vực. Dữ liệu được tiền xử lý để loại bỏ các ký tự đặc biệt, chuyển về định dạng Unicode…
- Huấn luyện mơ hình: sử dụng ngơn ngữ Python để chuẩn bị và tiền xử lý dữ liệu, sau đó sử dụng thư viện Gensim (gensim.models.phrases) để huấn luyện và lưu trữ mơ hình học máy từ kho ngữ liệu tiếng Việt.
Để tính tốn điểm số trên bộ dữ liệu này, thực nghiệm sử dụng các thông số:
- Kích thước bộ từ vựng max_vocab_size = 40000000;
- Số lượng từ được bỏ qua nếu số lần xuất hiện ít δ = min_count = 5;
- Ngưỡng điểm số cận dưới: threshold = 3.
- Sử dụng mơ hình để tách từ: từ mơ hình đã huấn luyện, khi đưa một câu làm dữ liệu đầu vào thì hệ thống sẽ cho kết quả với các từ ghép đã được tách. Theo lý thuyết, số lượng kho ngữ liệu dùng để học tập càng lớn thì kết quả càng chính xác, vì mơ hình học được sự phân bố và mối quan hệ giữa các từ ở nhiều ngữ cảnh khác nhau.
87
Hình 2.16. Kết quả xác định ranh giới từ tiếng Việt
Như mơ tả tại Hình 2.16, một số kết quả tách từ như sau:
(1) Câu nguồn: "chính phủ ban hành nghị định quy định về xử phạt vi phạm
hành chính lĩnh vực tài ngun nước và khống sản"
Kết quả tách từ: “chính_phủ ban_hành nghị_định quy_định về xử_phạt
vi_phạm hành_chính lĩnh_vực tài_ngun nước và khống_sản”
(2) Câu nguồn: “các bộ trưởng, thủ trưởng cơ quan ngang bộ, thủ
trưởng cơ
quan thuộc chính phủ, chủ tịch ủy ban nhân dân tỉnh, thành phố trực thuộc trung ương và các cá nhân liên quan chịu trách nhiệm thi hành nghị định này”
Kết quả tách từ: “các bộ_trưởng, thủ_trưởng cơ_quan ngang_bộ, thủ_trưởng
cơ_quan thuộc chính_phủ, chủ_tịch ủy_ban nhân_dân tỉnh, thành_phố trực_thuộc trung_ương và các cá_nhân liên_quan chịu_trách nhiệm thi_hành nghị_định này”.
Đánh giá vai trò của kho ngữ liệu đối với kết quả hệ thống dịch
Để làm rõ hơn vai trò của kho ngữ liệu đối với chất lượng các hệ thống dịch, nghiên cứu sinh đã tiến hành thu thập kho ngữ liệu lớn và tổ chức đánh giá.
Đối với các cặp ngơn ngữ phổ biến như tiếng Anh-Pháp, đã có các cơng trình nghiên cứu chứng minh sự ảnh hưởng và mối quan hệ mật thiết giữa chất lượng và khối lượng của kho ngữ liệu với chất lượng dịch của các hệ thống dịch tự động. Trong sự nghiệp nghiên cứu hơn 50 năm về lĩnh vực xử lý ngôn ngữ tự nhiên và dịch tự động, GS. Christian Boitet, phịng thí nghiệm LIG, trường Đại học Joseph Fourier, Grenoble, Pháp đã chứng minh sự ảnh hưởng và mối quan hệ mật thiết giữa chất lượng và khối lượng của kho ngữ liệu với chất lượng dịch của các hệ thống dịch tự động trong cơng trình cơng bố của mình [14]. Tuy nhiên, đối với tiếng Việt hiện nay vẫn chưa có các số liệu đánh giá chi tiết để thể hiện vai trò của kho ngữ liệu đối với các mơ hình dịch khác nhau.
Hiện nay, các nghiên cứu liên quan đến bài toán dịch tự động chủ yếu tập trung
ở hai phương pháp: (1) Phương pháp dịch thống kê; (2) Phương pháp dịch sử dụng mạng nơ ron. Các hệ thống dịch tự động được sử dụng rộng rãi như Google Translate, Microsoft Translator… cũng đang sử dụng các mơ hình dịch này và cho kết quả dịch
khá tốt so với các phương pháp dịch trước đây. Về cơ bản, các phương pháp dịch này sử dụng số lượng lớn dữ liệu về các cặp câu đã được dịch, từ đó sử dụng các mơ hình học máy để huấn luyện và tạo ra mơ hình dịch phù hợp.
Các nghiên cứu liên quan đến xây dựng và cải tiến hệ thống dịch tự động tiếng Việt đã có nhiều thực nghiệm trên các bộ dữ liệu khác nhau, với kích thước kho ngữ liệu ở nhiều mức độ về mặt số lượng. Chính vì vậy, khó có thể có cái nhìn tổng thể về vai trò của khối lượng kho ngữ liệu trong vấn đề chất lượng của hệ thống dịch tiếng Việt. Luận án triển khai thực nghiệm xây dựng hệ thống dịch với kho ngữ liệu có độ lớn khác nhau, sau đó triển khai đánh giá mơ hình dịch thu được trên cùng một bộ dữ liệu đánh giá để xem xét chất lượng của mơ hình dịch này. Thực nghiệm này được triển khai sau khi nghiên cứu sinh xây dựng được hệ thống dịch tự động sử dụng mạng nơ ron (trình bày ở mục 2.4) và thực hiện đối với cặp ngơn ngữ Anh – Việt.
Quy trình xây dựng hệ thống và triển khai đánh giá thể hiện trong Hình 2.17.
Kho ngữ liệu 1 Kho ngữ liệu 2 Kho ngữ liệu N
Huấn luyện Mơ hình dịch thống kê Huấn luyện Mơ hình dịch mạng nơ ron Mơ hình dịch Mơ hình dịch Đánh giá
chất lượng đánh giáDữ liệu
Đánh giá chất lượng
89
Hình 2.17. Quy trình đánh giá sự ảnh hưởng của số lượng kho ngữ liệu đến chất lượng bản dịch
Bước 1: Chuẩn bị kho ngữ liệu.
Kho ngữ liệu thu được để sử dụng để huấn luyện và kiểm thử: Gồm gần 800.000 cặp câu song ngữ Anh – Việt ở tất cả các lĩnh vực. Chi tiết về dữ liệu thể hiện trong bảng sau:
Bảng 2.8. Số liệu kho ngữ liệu sử dụng để đánh giá sự ảnh hưởng đến chất lượng
Dữ liệu huấn luyện Dữ liệu đánh giá chất lượng hệ thống dịch
Để huấn luyện hệ thống dịch thống kê, nghiên cứu sử dụng tỷ lệ dữ liệu cho bộ dữ liệu huấn luyện, bộ dữ liệu điều chỉnh tham số và bộ dữ liệu đánh giá tương ứng là 70%-10%-20%. Ngoài ra, đối với hệ thống dịch thống kê Moses, nghiên cứu sử dụng 2.241.987 câu tiếng Việt được thu thập từ các trang báo điện tử để làm kho ngữ liệu đơn ngữ phục vụ huấn luyện mơ hình ngơn ngữ tiếng Việt.
Bước 2: Xây dựng hệ thống dịch và huấn luyện mơ hình dịch.
Nghiên cứu sử dụng hai mã nguồn nổi tiếng nhất liên quan đến phương pháp dịch thống kê và phương pháp dịch sử dụng mạng nơ ron là Moses và OpenNMT. Quá trình cài đặt và huấn luyện với các mã nguồn này, nghiên cứu sử dụng các tham số mặc định đã được khuyến nghị với mục đích nhận được sự nhất quán của kết quả.
Kết quả của bước 2 là các mơ hình dịch đã được huấn luyện theo hai phương pháp đã đề xuất.
Bước 3: Đánh giá chất lượng của mơ hình dịch nhận được
Từ mơ hình dịch đã nhận được ở bước 2, tiến hành đánh giá chất lượng của hệ thống dịch bằng cách sử dụng cùng một bộ dữ liệu đầu vào bằng tiếng Anh để nhận được bản dịch tương ứng. Bản dịch nhận được sẽ được so sánh với bản dịch chuẩn
thông qua chỉ số BLEU. Sau khi thực nghiệm bằng bộ dữ liệu cụ thể nêu trên, chất lượng của các mơ hình dịch nhận được ở Bảng 2.9.
Bảng 2.9. Chất lượng các mơ hình dịch nhận được
Ngơn ngữ Anh Việt Anh Việt Anh Việt Anh Việt Anh Việt Từ bảng trên, chúng ta nhận được biểu đồ thể hiện các số liệu tương quan
giữa độ lớn kho ngữ liệu và điểm chất lượng BLEU ở Hình 2.18.
Hình 2.18. So sánh tương quan giữa số lượng kho ngữ liệu và chất lượng hệ thống dịch
Từ kết quả trên có thể nhận xét, khi xây dựng hệ thống dịch với kho ngữ liệu càng lớn thì chất lượng dịch càng tăng. Như vậy, rõ ràng chất lượng của kho ngữ liệu ảnh hưởng đến chất lượng của hệ thống dịch tự động Anh – Việt. Quan sát thực tế dữ liệu cũng có thể thấy rằng, khi số lượng lớn các cặp câu song ngữ làm dữ liệu đầu vào để huấn luyện mơ hình dịch càng ít, thì kết quả dịch sẽ khơng đầy đủ và nhiều từ khơng được dịch, vì vậy chất lượng kết quả dịch sẽ giảm.
91
2.4. Giải pháp cải tiến chất lượng dịch tiếng Việt dựa vào mơ hình máy học mạng nơ ron
Tổng quan
Như đã trình bày ở Chương 1, đến nay đã có nhiều phương pháp khác nhau để xây dựng các hệ thống dịch. Trong đó, dịch máy thống kê xây dựng trên cơ sở các mơ hình thống kê có các tham số được huấn luyện từ việc phân tích các cặp câu song ngữ. Đây là một phương pháp theo cách tiếp cận dựa vào dữ liệu, là một hướng phát triển đầy tiềm năng, thu hút được sự quan tâm của các nhà nghiên cứu. Dịch máy thống kê cho thấy tính linh hoạt, mềm dẻo trong việc tự động học các tri thức dịch dựa trên dữ liệu. Tuy nhiên, phương pháp dịch này thường phức tạp để xây dựng và bảo trì. Mỗi cặp ngơn ngữ muốn dịch cần rất nhiều nguồn lực để điều chỉnh trọng số trong chuỗi dịch thuật gồm rất nhiều bước.
Bên cạnh đó, chất lượng của các hệ thống dịch tự động theo phương pháp thống kê vẫn cịn nhiều hạn chế. Đối với những cặp ngơn ngữ tương đồng nhau về cú pháp như các cặp ngôn ngữ Anh-Pháp, Anh-Tây Ban Nha, các hệ dịch máy thống kê đạt chất lượng khá tốt, nhưng còn gặp nhiều hạn chế đối với các cặp ngơn ngữ có cú pháp khác nhau như tiếng Anh-tiếng Việt. Có nhiều cơng trình nghiên cứu về giải pháp cải tiến chất lượng mơ hình dịch như thống kê trong thời gian vừa qua, tuy nhiên kết quả thực tế của các hệ thống dịch qua tổ chức đánh giá cho thấy có chất lượng cịn thấp. Chính vì vậy, cần thực nghiệm xây dựng mơ hình dịch theo các phương pháp mới để tìm ra mơ hình phù hợp đối với dịch tự động tiếng Việt.
Giải pháp cải tiến chất lượng dịch tiếng Việt bằng mơ hình học máy mạng nơ ron
Việc lựa chọn phương pháp dịch sẽ quyết định đến chất lượng của hệ thống dịch, vì vậy sử dụng phương pháp dịch tối ưu sẽ giúp cho kết quả dịch tiến gần hơn đến ngôn ngữ của con người. Trong luận án này, NCS đề xuất hướng tiếp cận sử dụng phương pháp dịch tự động sử dụng mạng nơ ron (Neural Machine Translation – NMT) kết hợp kho ngữ liệu lớn cho việc dịch tự động tiếng Việt nhằm cải tiến chất lượng của hệ thống dịch như mơ hình tại Hình 2.19.
Hình 2.19. Mơ hình dịch tự động sử dụng mạng nơ ron
Theo các tài liệu đã được công bố, Google bắt đầu áp dụng GNMT (Google Neural Machine Translation – Hệ thống dịch máy sử dụng mạng nơ ron của Google) để thay thế cho mơ hình dịch thống kê cho 8 ngơn ngữ: Anh, Pháp, Đức, Tây Ban Nha, Thổ Nhĩ Kỳ, Trung Quốc, Nhật Bản, Hàn Quốc và Thổ Nhĩ Kỳ từ tháng 11/2016. Đến tháng 03/2017, GNMT áp dụng cho tiếng Hindi, tiếng Nga và tiếng Việt. Hệ thống dịch Microsoft Translator cũng đã áp dụng NMT cho hệ thống dịch từ tháng 05/2018.
Các nghiên cứu ứng dụng NMT thuộc đề tài nghiên cứu này được bắt đầu từ năm 2016. Trên cơ sở đó, nghiên cứu sinh đã hồn thành nghiên cứu và nộp bài báo tại Hội thảo Quốc gia “Một số vấn đề chọn lọc của Công nghệ thông tin và Truyền thông” (Hội thảo @) vào tháng 06/2017, báo cáo trực tiếp tại Hội thảo vào tháng 11/2017. Vì vậy, các kết quả nghiên cứu và đề xuất trong chương này được trình bày trên cơ sở nghiên cứu đã có trong q trình thực hiện đề tài và kết quả đạt được từ năm 2017. Đề xuất áp dụng mơ hình học máy mạng nơ ron cho hệ thống dịch tự động tiếng Việt tại thời điểm nghiên cứu mang tính thời sự và mở ra hướng tiếp cận để cải thiện chất lượng của các hệ thống dịch.
Dịch máy sử dụng mạng nơ rơn đã bắt đầu được nghiên cứu trong những năm gần đây [57][58] và được đánh giá cao khi thực nghiệm với các cặp ngôn ngữ như
93
tiếng Anh – tiếng Pháp, tiếng Anh – tiếng Đức. NMT thường là một mạng nơ ron kích thước lớn được đã được huấn luyện, lưu trữ các véc tơ biểu diễn thông tin liên kết giữa các từ trong ngữ cảnh, chính vì vậy có khả năng dịch tốt các câu văn bản dài. Không giống như mơ hình dịch truyền thống dựa trên cụm từ, phụ thuộc vào các cụm từ riêng biệt để dịch và ghép nối như mơ hình dịch thống kê, NMT sẽ huấn luyện từ dữ liệu đầu vào để tạo ra một mạng nơ ron có lớn có thể đọc các câu nguồn và tái tạo câu đích dựa trên nguyên tắc hoạt động của các mạng nơ ron hồi quy (Recurrent Neural Networks).
Về cơ bản, nguyên tắc chung của RNN [59] là một mạng nơ ron có khả năng xử lý được thơng tin dạng chuỗi, trong đó trạng thái đầu ra ở thời điểm hiện tại được tính tốn phụ thuộc vào kết quả của các trạng thái ở thời điểm trước đó. Như vậy, RNN là một mơ hình có trí nhớ và có thể nhớ được thơng tin của một chuỗi có chiều dài bất kỳ.
Mơ hình RNN bao gồm các trạng thái ẩn (hidden state) h và cho kết quả đầu ra y khi nhận được chuỗi đầu vào x = (x1, x2, … xT). Tại mỗi thời điểm t, trạng thái
ẩn h<t> của mơ hình RNN được cập nhật theo cơng thức: h<t> = f(h<t-1>,xt)
trong đó f là hàm kích hoạt phi tuyến (chẳng hạn hàm sigmoid, hàm tanh).
Hình 2.20. Nguyên tắc hoạt động của mạng RNN
Từ các dữ liệu huấn luyện đầu vào, mạng RNN có thể học được xác suất phân bố của các chuỗi và dự đoán từ tiếp theo trong một chuỗi được đưa vào. Tại thời điểm t, xác suất xuất hiện của chuỗi xt là p(xt|xt-1…x1). Xét trong tập hợp K từ
(2.7) Với j = 1..K, trong đó wj là dịng thứ j của ma trận trọng số W.
Khi đó, xác suất để xuất hiện chuỗi x sẽ là
(2.8) Từ mơ hình phân bố xác suất đã học được, mạng RNN sẽ tái tạo các câu đầu ra từng bước một thông qua các trạng thái ẩn của mơ hình.
Hệ thống NMT cũng xây dựng bộ mã hóa – giải mã để xử lý đối với các trường hợp câu đầu vào và đầu ra có chiều dài bất kỳ, mã hóa các câu và biểu diễn thơng qua một véc tơ có chiều dài cố định bằng cách sử dụng thêm ma trận c để lưu trữ tổng thông tin các trạng thái (ngữ cảnh). Khi đó trạng thái ẩn tại thời điểm t sẽ được cập nhật bởi công thức:
h<t>=f(h<t-1>,yt-1,c) (2.9) Tương tự, xác suất điều kiện để xuất hiện ký tự tiếp theo yt sẽ có sự phụ thuộc vào trạng thái tổng c:
P(yt|yt-1,yt-2,…,y1,c) = g(h<t>,yt-1,c) Với f, g các các hàm kích hoạt phi tuyến tính.
Hình 2.21. Minh họa bộ mã hóa – giải mã
Hình 2.21 mơ tả kiến trúc của mơ hình RNN Encoder – Decoder. Thành phần mã hóa và giải mã được huấn luyện để tìm các tham số của mơ hình sao cho các chuỗi đầu ra dự đoán với xác suất cực đại: