Báo cáo toàn văn Kỷ yếu hội nghị khoa học lần IX Trường Đại học Khoa học Tự nhiên, ĐHQG-HCM
VII-O-13
THAY ĐỔI TRỌNG SỐ MÔ HÌNH GIẢI MÃ TRONG DỊCH MÁY THỐNG KÊ
Lê Phúc Thịnh
Trường Đại học Tôn Đức Thắng
lephucthinh@tdt.edu.vn
TÓM TẮT
Mỗi cặp ngôn ngữ khác nhau sẽ có những đặc thù khác nhau, vì thế mô hình dịch máy thống kê
dựa trên cụm từ (Phrase-based Statistical Machine Translation – PBSMT) dùng bộ trọng số để điều
chỉnh cho phù hợp với các đặc thù này và giá trị của chúng được học từ ngữ liệu trong giai đoạn tối ưu
các tham số. Giai đoạn này cải thiện chất lượng dịch một cách rõ rệt. Tuy nhiên, trên cùng một ngôn
ngữ thì các đặc thù này cũng không đồng nhất, do đó việc sử dụng giá trị bộ trọng số này một cách
cứng nhắc không thay đổi trong suốt quá trình dịch sau này là một hạn chế của PBSMT. Để khắc
phục hạn chế này, chúng tôi phân chia ngôn ngữ ra thành những phạm vi riêng biệt sao cho trên mỗi
phạm vi thì sự đa dạng và phức tạp không còn nữa và chúng tôi sẽ học các giá trị của bộ trọng số trên
từng phạm vi riêng này. Khi cần dịch một câu chúng tôi phân tích xem câu này thuộc phạm vi nào để
dịch với bộ trọng số tương ứng. Để phân chia ngôn ngữ thành các phạm vi riêng biệt chúng tôi thực
hiện theo hai cách: phân chia theo đặc trưng ngôn ngữ và phân chia theo thuật toán tối đa hóa điểm
BLEU. Kết quả thực nghiệm trên tập ngữ liệu song ngữ Anh-Việt cho thấy hướng tiếp cận của chúng
tôi giúp PBSMT tăng 0.6 điểm BLEU.
Từ khóa: dịch máy thống kê, tối ưu trọng số, trọng số của mô hình giải mã.
GIỚI THIỆU
Dịch máy (Machine Translation - MT) là một trong những hướng ứng dụn g chính của xử lý ngôn ngữ tự
nhiên (Natural Language Processing - NLP). Trong dịch máy có các hướng tiếp cận như: dịch máy dựa trên luật
(Rule-based Machine Translation - RBMT), dịch máy dựa trên thống kê (Statistic Machine Translation - SMT),
dịch máy dựa trên phương pháp lai giữa luật và thống kê (Hybrid Machine Translation). Trong các hướng tiếp
cận này, dịch máy thống kê dựa trên cụm từ (Phrase-based SMT) là mô hình dịch hiệu quả nhất.
Mỗi cặp ngôn ngữ khác nhau có đặc thù khác nhau, vì thế mô hình dịch dựa trên ngữ dùng bộ trọng số để
điều chỉnh cho phù hợp với các đặc thù này và giá trị của chúng được học từ ngữ liệu trong giai đoạn tối ưu các
tham số.Giai đoạn này cải thiện chất lượng dịch một cách rõ rệt. Tuy nhiên, trên cùng một cặp ngôn ngữ thì các
đặc thù này cũng không đồng nhất, do đó việc sử dụng giá trị bộ trọng số này một cách cứng nhắc không thay
đổi trong suốt quá trình dịch sau này là một hạn chế của mô hình.
Nếu trong quá trình dịch ta chọn các giá trị trọng số khác nhau cho phù hợp với sự không đồng nhất của
ngôn ngữ thì có thể sẽ làm tăng cao hiệu quả của quá trình dịch. Xét các trường hợp về sự thay đổi trọng số của
ví dụ sau đây:
Ví dụ
Câu
Nguồn
Tham khảo
Dịch với bộ
trọng số MERT
Dịch với trọng
số khác
Nội dung
"protecting life and property is not as simple as issuing
a forecast," Hayes said.
Ông Hayes nói , "bảo vệ cuộc sống và tài sản là không
đơn giản như việc ban hành dự báo".
"bảo vệ tài sản và không đơn giản như phát hành một
dự báo Hayes nói, ".
"bảo vệ cuộc sống và tài sản là không đơn giản như
phát hành một dự báo Hayes nói, ".
Trọng số
MHNN
BLEU
0.0565924
0.3745
0.0265924
0.6703
Với ví dụ này chúng ta nhận thấy rằng chất lượng dịch có thể được cải tiến bằng cách linh động thay đổi
trọng số mô hình ngôn ngữ cho phù hợp.Nhưng vấn đề đặt ra ở đây là thay đổi trọng số như thế nào là phù
hợp.Để giải quyết vấn đề vừa nêu chúng tôi đi tìm cách để hiệu chỉnh trọng số của mô hình giải mã theo sự
không đồng nhất của ngôn ngữ. Hướng tiếp cận của chúng tôi là sử dụng phương pháp chia để trị. Chúng tôi
thực hiện gom nhóm sao cho một tập ngữ liệu không đồng nhất ban đầu sẽ được gom lại thành các tập con có sự
đồng nhất cao hơn, sau đó sẽ tìm bộ trọng số tối ưu cho từng tập con này, mỗi tập con sẽ cho một bộ trọng số tối
ưu. Như vậy tập hợp các bộ trọng số này sẽ giải quyết được bài toán tối ưu trọng số trên toàn cục theo phương
ISBN: 978-604-82-1375-6
81
Báo cáo toàn văn Kỷ yếu hội nghị khoa học lần IX Trường Đại học Khoa học Tự nhiên, ĐHQG-HCM
pháp chia để trị. Tương tự cho khi dịch một câu ta phân lớp câu này vào một trong số các nhóm đã được chia và
dịch nó với bộ trọng số tương ứng của nhóm đó.
Phần còn lại của bài báo sẽ bao gồm các nội dung sau: phần 2 trình bày về những hướng tiếp cận liên quan
hiện nay, phần 3 trình bày chi tiết các bước xây dựng mô hình để giải quyết bài toán, phần 4 trình bày các thực
nghiệm để đánh giá mô hình, phần 5 kết luận về tính khả thi của mô hình và định hướng phát triển.
Các Công Trình Liên Quan
Các công trình tối ưu trọng số dựa trên một số phương thức như: sự tương tự (Och và Ney 2002), tối thiểu
hóa tỷ lệ lỗi (MERT) (Och 2003; Bertoldi cùng cộng sự 2009; Galley và Quirk 2011), biên độ (Chiang cùng
cộng sự 2008), xếp hạng (Hopkins và May 2011)trong đó MERT là phổ biến nhất.
Để khắc phục sự không đồng nhất và đa dạng của ngôn ngữthì có hai nhánh chính là chọn dữ liệu và chọn
trọng số: các công trình theo hướng tiếp cận chọn dữ liệu rút trích từ tập tổng quát ra tập câu có liên quan với tập
hoặc câu cần dịchsau đó tối ưu lại bộ trọng số trước khi dịch (Zhao 2004;Hildebrand 2005; Lü 2007; Moore và
Lewis 2010; Axelrod 2011;Liu 2012), các công trình theo hướng tiếp cận chọn trọng số gán lại trọng số cho phù
hợp giữa ngữ liệu huấn luyện với câu hoặc tập các câu cần dịch (Matsoukas 2009;Mohit và cộng sự 2010;
Zhao2011).
Không giống như các công trình của Zhao (2011) và Matsoukas (2009) chỉ xử lý trên những lĩnh vực
chuyên biệt nào đó ví dụ như văn bản luật, văn bản thể thao…, phương pháp của chúng tôi xử lý các câu trên
lĩnh vực bất kỳ. Trong khi các công trình của Liu (2012), Axelrod (2011) và Lewis (2010) phải tối ưu lại giá trị
bộ trọng số trước khi dịch, phương pháp của chúng tôi tính trước giá trị các bộ trọng số, do đó tối ưu hơn về mặt
thời gian.
Mô Hình
Trong các hướng tiếp cận dịch máy liên quan đến việc tối ưu bộ trọng số, chúng tôi chọn hướng tiếp cận là
phân chia tập ngữ liệudùng để tối ưu bộ trọng số (chúng tôi tạm gọi tập ngữ liệu này là tập dev) thành các tập
con có tính đồng nhất cao hơn tập dev. Tính đồng nhất ở đây có nghĩa là giá trị trọng số giữa các câu tương
đương và xấp xỉ nhau.Tương ứng với mỗi tập con và tập dev chúng tôi tìm được một giá trị tối ưu của bộ trọng
số. Khi cần dịch một câu chúng tôi phân tích xem câu này cần dịch với bộ trọng số nào trong số các bộ trọng số
vừa tìm là phù hợp nhất. Để phân tập dev thành các tập con chúng tôi sử dụng hai phương pháp:Gom nhóm dựa
trên đặc trưng ngôn ngữ và gom nhóm dựa trên tối đa hóa điểm BLEU mà chúng tôi sẽ trình bày ở các phần tiếp
theo.
Mô hình gom nhóm dựa trên đặc trƣng ngôn ngữ
Trong mô hình này chúng tôi cố gắng tìm kiếm khai thác các đặc trưng ngôn ngữ có thể dùng để gom
nhóm nhằm phát hiện ra các đặc trưng có ảnh hưởng đến sự phân bố giá trị của các trọng số.Đồng thời cũng
dùng đặc trưng này để quyết định một câu đầu vào sẽ được dịch bằng bộ giá trị trọng số nào.Đầu tiên, chúng tôi
áp dụng cho từng đặc trưng riêng biệt để phát hiện đặc trưng nào thật sự có ảnh hưởng đến giá trị của bộ trọng
số, sau đó kết hợp các đặc trưng này lại để gom nhóm.
Các đặc trưng mà chúng tôi sử dụng là cross-entropy, chiều dài câu nguồn, từ chưa biết, từ không được
gióng hàng, từ được gióng hàng với nhiều từ, gióng hàng chéo.
Cross-entropy
Cross-entropy của một câu cho ta biết mức độ phổ biến của câu đó, nếu một câu có cross-entropy càng nhỏ
thì câu đó càng phổ biến tức là xác suất câu đó xuất hiện trong ngữ liệu càng lớn.Ngược lại nếu cross-entropy
càng lớn thì xác suất xuất hiện của nó càng nhỏ.
Chiều dài câu nguồn
Chiều dài của một câu cũng có thể ảnh hưởng đến bộ trọng số, vì một câu dài thì cấu trúc và ngữ nghĩa
phức tạp hơn một câu ngắn.Trong thực tế, một câu dài có cấu trúc phức tạp vì nó chứa các mệnh đề chính/phụ
hoặc các cấu trúc lồng ghép nhau. Do đó, việc phân chúng ra thành hai nhóm: nhóm câu dài và nhóm câu ngắn
để xử lý cũng có thể đem lại hiệu quả tốt hơn.
Từ chưa biết
Khi dịch một câu đầu vào hệ thống có thể gặp phải một từ chưa từng xuất hiện trong dữ liệu học.Trong
trường hợp ngữ liệu song ngữ đủ lớn, từ này có thể là dấu hiệu cho một câu ít xuất hiện hoặc thuộc một lĩnh vực
khác. Do đó, từ chưa biết cũng có thể là một đặc trưng để gom nhóm ngữ liệu.
Từ không được gióng hàng
Từ không được gióng hàng thể hiện sự không đồng bộ giữa hai ngôn ngữ. Ta có thể hiểu một từ không
được gióng hàng của ngôn ngữ nguồn là từ mà không được dịch bằng bất kỳ từ nào trong ngôn ngữ đích. Từ
không được gióng hàng là một thách thức lớn đối với dịch máy thống kê.Khi xuất hiện một từ không được gióng
hàng thì có thể coi đây là một trường hợp đặc biệt và được xử lý riêng. Do đó trong phương pháp này chúng tôi
ISBN: 978-604-82-1375-6
82
Báo cáo toàn văn Kỷ yếu hội nghị khoa học lần IX Trường Đại học Khoa học Tự nhiên, ĐHQG-HCM
chia tập dev thành hai nhóm, nhóm các câu có từ không được gióng hàng và nhóm các câu không có từ không
được gióng hàng.
Từ được gióng hàng với nhiều từ
Một thử thách nữa của hệ thống dịch máy thống kê là trường hợp một từ được gióng hàng với nhiều từ.Từ
gióng hàng với nhiều từ là từ (thuộc ngôn ngữ nguồn) được dịch thành 1 ngữ (gồm nhiều từ) trong ngôn ngữ
đích.Từ gióng hàng với nhiều từ sẽ dẫn đến chiều dài câu nguồn và câu đích không đồng bộ với nhau. Nó có thể
là nhân tố ảnh hưởng đến bộ trọng số, do đó trong phương pháp này chúng tôi chia tập tối thành hai nhóm, nhóm
các câu có từ gióng hàng với nhiều từ (nhóm đa gióng hàng) và nhóm các câu không có từ gióng hàng với nhiều
từ (nhóm đơn gióng hàng).
Gióng hàng chéo
Gióng hàng chéo là một thách thức lớn nhất đối với dịch máy thống kê, đặc biệt là đối cặp song ngữ AnhViệt thì mức độ gióng hàng chéo rất cao.Đây cũng là một yếu tố có thể ảnh hưởng rất lớn đến bộ trọng số.Vì thế
chúng tôi cố gắng phân chúng ra thành những trường hợp riêng biệt để xử lý.Trong phần này chúng tôi phân tập
dev thành hai nhóm là nhóm gióng hàng chéo và nhóm thường.
Gom nhóm dựa trên tối đa hóa điểm BLEU
MERT thực hiện tối ưu bộ trọng số bằng cách giảm tối đa tỉ lệ lỗi nhằm tăng tối đa điểm BLEU trong tập
dev với kỳ vọng rằng bộ trọng số này cũng đem lại hiệu quả cao nhất cho tập kiểm nghiệm. Áp dụng ý tưởng này
chúng tôi cũng tìm phương pháp để tối đa hóa điểm BLEU trên tập dev và sau đó áp dụng lại cho tập kiểm
nghiệm với hy vọng là mang lại hiệu quả tốt nhất cho tập kiểm nghiệm.
Bộ giá trị trọng số mà MERT tìm được chỉ là bộ trọng số tối ưu trên toàn tập dev chứ không tối ưu trên tất
cả các câu. Có rất nhiều câu dịch bằng trọng số khác cho điểm BLEU cao hơn nhiều so với trọng số của MERT,
bảng 1 trình bày kết quả thống kê của chúng tôi về việc tăng điểm BLEU bằng cách dịch với những trọng số
khác. Điều này cho thấy rằng chỉ có một bộ trọng số sẽ không thể hiện được sự đa dạng của ngôn ngữ.Do đó cần
phải chia tập dev thành các tập con có độ đồng nhất cao hơn.
Một cách tiếp cận khác ngoài cách tiếp cận sử dụng đặc trưng ngôn ngữ để phân chia tập dev thành các tập
con có độ đồng nhất cao hơn là dựa trực tiếp trên điểm BLEU. Điểm BLEU là tiêu chuẩn vàng để đánh giá độ
đồng nhất giữa hai tập câu A và B. Chúng tôi gọi 𝜆𝐴 là bộ giá trị tối ưu của tập A, 𝜆𝐵 là bộ giá trị tối ưu của tập
1 𝑛
𝜆
𝑀𝑎𝑥
B, độ bất đồng nhất của tập A là Δ𝐴𝐵𝐿𝐸𝑈 =
− 𝐵𝐿𝐸𝑈𝑖 𝐴 ) và độ bất đồng nhất của tập B là
𝑖=1 (𝐵𝐿𝐸𝑈𝑖
Δ𝐵𝐿𝐸𝑈
=
𝐵
1
𝑚
𝑚
𝑀𝑎𝑥
𝑖=1(𝐵𝐿𝐸𝑈𝑖
𝜆
𝑛
𝜆𝐴
− 𝐵𝐿𝐸𝑈𝑖 𝐵 ) trong đó n là số câu của tập A, m là số câu tập B, 𝐵𝐿𝐸𝑈𝑖
là điểm
𝜆
𝜆𝐴 , 𝐵𝐿𝐸𝑈𝑖 𝐵
BLEU của câu thứ i dịch với bộ trọng số
là điểm BLEU của câu thứ i dịch với bộ trọng số 𝜆𝐴 ,
𝑀𝑎𝑥
𝐵𝐿𝐸𝑈𝑖
là điểm BLEU tối đa của câu thứ i có thể dịch bằng bất cứ bộ trọng số nào. Nếu Δ𝐴𝐵𝐿𝐸𝑈 < Δ𝐵𝐿𝐸𝑈
ta nói
𝐵
tập A có độ đồng nhất cao hơn tập B.
Bảng 1. So sánh điểm BLEU giữa bộ trọng số của MERT và 9 bộ trọng số khác trên tập dev
Tổng số câu
Số câu tăng điểm
1000
457
Trung bình số điểm tăng/1 câu
5.22
Mục đích của việc chia tập dev thành các tập con là nhằm tìm cho mỗi câu một bộ trọng số tối ưu sao cho
điểm BLEU của câu đó cao nhất. Chúng tôi lấy điểm BLEU tối ưu của MERT làm điểm cơ sở. Thuật toán gồm
các bước như sau:
Bước 1: Tính điểm BLEU cao nhất cho từng câu trong tập dev (𝐵𝐿𝐸𝑈𝑖𝑀𝑎𝑥 ), tối ưu và dịch tương ứng
trên từng câu.
Bước 2: Tính điểm BLEU trên từng câu trong tập dev (𝐵𝐿𝐸𝑈𝑖𝑀𝐸𝑅𝑇 ) bằng trọng số của tập dev.
Bước 3: Tính (∆𝐵𝐿𝐸𝑈𝑖 ) khả năng điểm BLEU có thể tăng so với điểm BLEU trong bước 1 cho từng
câu trong tập dev bằng công thức (3.2.5).
∆𝐵𝐿𝐸𝑈𝑖 = Max 0, 𝐵𝐿𝐸𝑈𝑖𝑀𝑎𝑥 − 𝐵𝐿𝐸𝑈𝑖𝑀𝐸𝑅𝑇
(3.2.5)
Khởi tạo cho tổng số nhóm (N=0)
Bước 4: Tìm trong tập dev câu có BLEU lớn nhất (chỉ tìm một câu). Tối ưu trọng số cho câu vừa tìm
được bằng MERT.
Bước 5: Dịch lại tập dev sử dụng bộ trọng số vừa tìm được ở bước 4 và tính điểm BLEU cho từng câu
𝑗
(𝐵𝐿𝐸𝑈𝑖 ).
ISBN: 978-604-82-1375-6
83
Báo cáo toàn văn Kỷ yếu hội nghị khoa học lần IX Trường Đại học Khoa học Tự nhiên, ĐHQG-HCM
Bước 6: Lưu danh sách điểm BLEU vào mảng, tăng số nhóm lên 1 (N=N+1) và cập nhật ∆BLEU cho
từng câu bằng công thức (3.2.6).
𝑗
∆𝐵𝐿𝐸𝑈𝑖 = Min 𝐵𝐿𝐸𝑈𝑖𝑀𝑎𝑥 − 𝐵𝐿𝐸𝑈𝑖 , 𝐵𝐿𝐸𝑈𝑖𝑀𝑎𝑥 − 𝐵𝐿𝐸𝑈𝑖𝑀𝐸𝑅𝑇
(3.2.6)
Bước 7: Nếu còn tồn tại ∆𝐵𝐿𝐸𝑈𝑖 > 0 thì quay về bước 4.
Bước 8: Nếu không còn ∆BLEUi > 0 thì ta có kết quả tổng số nhóm là N nhóm. Câu i thuộc vào nhóm j
j
khi mà điểm BLEUi là lớn nhất với 1 i tổng số câu trong tập dev, 1 j N.
Sau khi áp dụng thuật toán tối đa hóa điểm BLEU thì sẽ xuất hiện nhiều nhóm nhỏ rất đặc thù với số lượng
câu rất ít, để giảm độ phức tạp tính toán và nhiễu chúng tôi nhập những nhóm này vào nhóm lớn gần nhất với
nó.Các nhóm có số câu lớn hơn số câu của nhóm dịch bằng trọng số của MERT là nhóm lớn, các nhóm còn lại là
nhóm nhỏ.Sau đó đi tìm giá trị tối ưu tương ứng cho tường nhóm lớn này.
Một vấn đề ở đây là khi cần dịch câu đầu vào chúng tôi sẽ phải dịch bằng bộ trọng số nào? Chúng tôi sẽ
giải quyết bài toán này theo hai cách. Thứ nhất chúng tôi sẽ dùng các đặc trưng như TF-IDF, cross-entropy,
chiều dài câu nguồn, từ chưa biết, từ không được gióng hàng, từ được gióng hàng với nhiều từ, gióng hàng chéo
để phân lớp cho câu đầu vào, thứ hai chúng tôi dịch câu đầu vào với tất cả các bộ trọng số và sử dụng mô hình
xếp hạng để chọn câu đầu ra tốt nhất.
Phân lớp cho câu đầu vào theo các đặc trƣng
Phân lớp dựa trên TF-IDF
Tương tự như các công trình Lü cùng cộng sự (2007) và Liu cùng cộng sự (2012) chúng tôi sử dụng tf-idf
để đo sự tương tự của câu đầu vào với các phân nhóm. Sau đó phân nhóm cho câu đầu vào dựa vào độ đo này,
câu được phân vào nhóm nào sẽ được dịch bằng bộ trọng số của nhóm đó.
Phân lớp dựa trên các đặc trưng ngôn ngữ
Một khi chúng tôi đã gom nhóm được ngữ liệu huấn luyện và có các bộ trọng số tối ưu tương ứng, thì vấn
đề còn lại là làm thế nào để phân lớp chính xác câu đầu vào để nó được dịch với bộ trọng số tốt nhất và mang lại
kết quả cao nhất. Chúng tôi chọn một công cụ điển hình cho bài toán phân lớp là công cụ SVM(Support Vecter
Machine). Trong thử nghiệm này chúng tôi sử dụng công cụ multi-SVM để phân lớp.
Để SVM đạt được hiệu quả tốt thì cần có một tập các đặc trưng tốt vì câu đầu vào thuộc ngôn ngữ nguồn
nên chúng tôi chỉ có thể khai thác các đặc trưng trên ngôn ngữ nguồn. Các đặc trưng mà chúng tôi sử dụng để
phân lớp gồm các đặc trưng như sau:
Trung bình tần số của các từ trong câu
Cross-entropy của câu
Chiều dài câu
Số từ chưa biết trong câu
Trung bình xác suất gióng hàng chéo của các từ trong câu
Trung bình số từ không gióng hàng của một câu
Trung bình số từ đa gióng hàng trong một câu
Số từ chức năng trong một câu
Các từ xuất hiện trên 5 lần
Công cụ multi-SVM cần một tập huấn luyện để học trước khi phân lớp và chúng tôi sử dụng tập dev để làm
tập huấn luyện với số phân lớp chính là số nhóm đã được gom bằng phương pháp tối đa hóa điểm BLEU. Sau
khi phân lớp cho các đầu vào thì chúng tôi tiến hành dịch với trọng số tương ứng cho từng câu.
Xếp hạng câu đầu ra
Tương ứng với số bộ trọng số của giai đoạn gom nhóm chúng tôi có số câu dịch ứng cử viên. Chúng tôi
phải cho ra một ứng cử viên dịch tốt nhất. Chúng tôi so sánh ứng cử viên của MERT lần lượt với các ứng cử viên
khác. Như vậy mỗi lần so sánh chúng tôi chỉ so sánh hai ứng cử viên. Nếu không có ứng viên nào tốt hơn ứng
viên của MERT chúng tôi sẽ chọn nó làm câu dịch cuối cùng, nếu có nhiều ứng viên tốt hơn MERT chúng tôi sẽ
chọn ứng viên của bộ trọng số có số câu trong nhóm nhiềuhơn.
Mô hình xếp hạng của chúng tôi phân làm hai giai đoạn: giai đoạn phân loại các cặp câu dịch và giai đoạn
phân tích quyết định chọn ứng cử viên tốt nhất.
Phân loại các cặp câu dịch
Theo quan sát và phân tích của chúng tôi thì sự khác biệt của hai ứng cử viên dịch bắt nguồn từ ba lỗi sai
cơ bản sau: lỗi chọn sai nghĩa, lỗi trật tự từ, lỗi chèn hoặc xóa từ không hợp lý. Dựa trên nguồn gốc hình thành
sự khác biệt này chúng tôi chia chúng thành bốn loại để xử lý riêng.
ISBN: 978-604-82-1375-6
84
Báo cáo toàn văn Kỷ yếu hội nghị khoa học lần IX Trường Đại học Khoa học Tự nhiên, ĐHQG-HCM
Loại 1: Sự khác biệt của hai ứng cử viên dịch chỉ bắt nguồn từ lỗi chọn sai từ.
Loại 2: Sự khác biệt của hai ứng cử viên dịch chỉ bắt nguồn từ lỗi trật tự từ.
Loại 3: Sự khác biệt của hai ứng cử viên dịch chỉ bắt nguồn từ lỗi chèn hoặc xóa từ không hợp lý.
Loại 4: Tổng hợp các trường hợp, có thể bao gồm cả ba lỗi.
Chọn ứng cử viên tốt nhất
Để xếp hạng cho hai ứng cử viên dịch, một là ứng cử viên dịch bằng bộ trọng số của MERT và ứng cử viên
còn lại là ứng cử viên được dịch bằng một trong số các bộ trọng số của nhóm lớn được tạo ra trong giai đoạn tối
ưu hóa điểm BLEU, chúng tôi phân loại chúng vào một trong số bốn loại đã nêu như trên vàsau đó xử lý như
sau:
Nếu là loại 1, 2, 3 chúng tôi sử dụng tiêu chí Ngram trùng khớp với ngữ liệu để so sánh hai ứng cử viên
dịch và chọn ứng cử viêntốt hơn.Nếu tiêu chí này không phân biệt ứng cử viên nào tốt hơn chúng tôi sẽ chọn ứng
cử viên dịchbằngbộ trọng số của MERT.Nếu là loại 4 chúng tôi sẽ chọn ứng cử viên của MERT.
KÊT QUẢ THỰC NGHIỆM VÀ ĐÁNH GIÁ
Chương này sẽ mô tả chi tiết về các thí nghiệm đã thực hiện để đánh giá hiệu quả hướng tiếp cận của chúng
tôi, đồng thời so sánh hiệu quả dịch của mô hình với mô hình của Och (2003).
Ngữ liệu
Ngữ liệu được sử dụng để huấn luyện và kiểm chứng trong hệ thống của chúng tôi là một phần của bộ ngữ
liệu song ngữ Anh – Việt của nhóm VCL (Vietnamese Computation Linguistic) gồm 20000 câu được chuẩn hóa
theo tiêu chí: đồng bộ về mặt nội dung, đồng bộ về mặt hình thức (dấu câu, số liệu, tên riêng,…), kiểm lỗi chính
tả, loại bỏ câu trùng, tất cả các từ trong câu đều được viết thường nhằm làm giảm độ nhiễu loạn trong đánh giá
chất lượng dịch.
Ngữ liệu được chia ngẫu nhiên thành 3 tập con: tập huấn luyện (Train), tập tối ưu (Dev), tập kiểm nghiệm
(Test) lần lượt theo tỉ lệ 9:0,5:0,5. Các đặc trưng của ngữ liệu được trình bày trong bảng 2.
Bảng 2. Các đặc trưng của ngữ liệu
Tập NL
Trainset
Devset
Testset
Số cặp câu
18,000
1,000
1,000
Chiều dài trung bình câu
Anh
Việt
25.47
35.16
26.28
35.21
27.81
39.46
Tiêu chuẩn đánh giá chất lƣợng dịch
Trong bài báo này, chúng tôi sử dụng BLEU (Bilingual Evaluation Understudy) của Kishore Papineni và
cộng sự (2002), đây là một độ đo thường được sử dụng trong dịch máy thống kê. BLEU là thuật giải đánh giá
chất lượng của kết quả do máy dịch so với câu tham chiếu do con người dịch và được dùng phổ biến nhất hiện
nay. Câu kết quả càng gần với người dịch thì được đánh giá càng cao.Ý tưởng chính của phương pháp này là tìm
xem n-gram trong câu dịch có thuộc câu tham chiếu không. Các n-gram gồm: 1-gram, 2-gram, 3-gram và 4gram. BLEU sẽ được tính dựa trên trung bình hình học (geometric mean) số lần đồng xuất hiện của các n-gram ở
câu dịch tự động và câu dịch tham chiếu. Điểm BLEU có giá trị trong khoảng [0,1], theo tiêu chuẩn này thì có
rất ít câu dịch đạt được điểm tối đa, ngoại trừ những câu thực sự khớp với câu dịch mà hệ thống đánh giá tham
chiếu tới. Với độ đo BLEU thì điểm càng cao nghĩa là hệ thống dịch càng tốt.
Kết quả thực nghiệm
Mô hình gom nhóm dựa trên đặc trưng ngôn ngữ
Để tránh trường hợp số lượng câu trong từng nhóm con không đủ lớn để tiến hành tối ưu trọng số, chúng
tôi chỉ chia tập dev (1000 câu) thành hai nhóm và chọn ngưỡng sau cho hai nhóm con có số lượng câu gần bằng
nhau.
Cross-entropy
Trong thử nghiệm này chúng tôi chỉchia tập devthành hai nhóm.Nhóm phổ biến là nhóm các câu có
perplexity nhỏ hơn 5.8, nhóm không phổ biếnlà nhóm các câu có perplexity lớn hơn 5.8.sau đó dụng phương
pháp MERT để tối ưu hóa trọng số và cũng dùng ngưỡng này cho câu đầu vào.
Chúng tôi thử nghiệm trên 3 hình thức dịch như sau và so sánh với MERT:
Dịch PB-M: dịch phân lớp phổ biến bằng bộ trọng số phổ biến, phân lớp không phổ biến bằng bộ trọng số
của MERT.
ISBN: 978-604-82-1375-6
85
Báo cáo toàn văn Kỷ yếu hội nghị khoa học lần IX Trường Đại học Khoa học Tự nhiên, ĐHQG-HCM
Dịch M-KPB: dịch phân lớp phổ biến bằng bộ trọng số MERT, phân lớp không phổ biến bằng bộ trọng số
không phổ biến.
Dịch PB-KPB: dịch tương ứng phân lớp phổ biến bằng bộ trọng số phổ biến, phân lớp không phổ biến
bằng bộ trọng số không phổ biến.
Chiều dài câu nguồn
Trong thử nghiệm này, chúng tôi dùng ngưỡng 26 từ (token) phân lớp cũng như chia nhóm.Câu có số từ
nhỏ hơn 26được xem là câu ngắn, câu có số từ lớn hơn 26được xem là câu dài.
Chúng tôi cũng thử nghiệm trên 3 hình thức dịch như sau và so sánh với MERT:
Dịch N-M: dịch phân lớp câu ngắn bằng bộ trọng số câu ngắn, phân lớp câu dài bằng bộ trọng số MERT.
Dịch M-D: dịch phân lớp câu ngắn bằng bộ trọng số MERT, phân lớp câu dài bằng bộ trọng số câu dài.
Dịch N-D: dịch tương ứng phân lớp câu ngắn bằng bộ trọng số câu ngắn, phân lớp câu dài bằng bộ trọng số
câu dài.
Từ chưa biết
Trong thử nghiệm này, chúng tôi chia tập dev vào hai nhóm, nhóm dễ dịch và nhóm khó dịch.Các câu có từ
chưa biết vào nhóm khó dịch, các câu còn lại vào nhóm dễ dịch.Và cũng thử nghiệm trên 3 hình thức dịch sau đó
so sánh với MERT.
Dịch DB-M: dịch phân lớp chưa biết với bộ trọng số chưa biết, phân lớp chưa biết với bộ trọng số MERT.
Dịch M-CB: dịch phân lớp chưa biết với bộ trọng số MERT, phân lớp chưa biết với bộ trọng số chưa biết.
Dịch CB-DB: dịch tương ứng phân lớp chưa biết với bộ trọng số chưa biết, phân lớp đã biết với bộ trọng số
đã biết.
Từ không được gióng hàng
Kết quả tính toán trên tập dev cho ta thấy rằng trung bình xác suất số từ không gióng hàng trong một câu
lớn nhất là 0.140284 nhỏ nhất là 0.006356 và trung bình là 0.055114.Chúng tôi quyết định dùng giá trị trung
bình làm ngưỡng để chia tập dev thành hai nhóm và khi dịch chúng tôi cũng thử nghiệm trên 3 hình thức và so
sánh với MERT.
Dịch KGH-M: dịch phân lớp từ không gióng hàng với bộ trọng từ không gióng hàng, phân lớp không có từ
không gióng hàng với bộ trọng số MERT.
Dịch M-GH: dịch phân lớp từ không gióng hàng với bộ trọng số MERT, phân lớp không có từ không gióng
hàng với bộ trọng số không có từ không gióng hàng.
Dịch KGH-GH: dịch phân lớp từ không gióng hàng với bộ trọng từ không gióng hàng, phân lớp không có
từ không gióng hàng với bộ trọng số không có từ không gióng.
Từ được gióng hàng với nhiều từ
Chúng tôi sử dụng 0.817738 làm ngưỡng để phân chia tập dev và phân lớp câu đầu vào thành hai
nhóm.Chúng tôi cũng thử nghiệm trên 3 hình thức dịch và so sánh với MERT.
Dịch DA-M: dịch phân lớp từ đa gióng hàng với bộ trọng từ đa gióng hàng, phân lớp đơn gióng hàng với
bộ trọng số MERT.
Dịch M-DON: dịch phân lớp đa gióng hàng với bộ trọng số MERT, phân lớp đơn gióng hàng với bộ trọng
số đơn gióng hàng.
Dịch DA-DON: dịch phân lớp từ đa gióng hàng với bộ trọng từ đa gióng hàng, phân lớp đơn gióng hàng
với bộ trọng số đơn gióng hàng.
Gióng hàng chéo
Chúng tôi cũng tính toán được xác suất gióng hàng chéo trên từng câu trong tập dev với giá cao nhất
0.6327, thấp nhất 0.2005 và trung bình 0.3960.Chúng tôi sử dụng ngưỡng 0.3960 để chia tập dev thành hai
nhóm, sau đó sử dụng chúng để tối ưu trọng số.Chúng tôi cũng thử nghiệm trên 3 hình thức dịch và so sánh với
MERT.
Dịch GHC-M: dịch phân lớp gióng hàng chéo với bộ trọng gióng hàng chéo, phân lớp gióng hàng thường
với bộ trọng số MERT.
Dịch M-GHT: dịch phân lớp gióng hàng chéo với bộ trọng số MERT, phân lớp gióng hàng thường với bộ
trọng số gióng hàng thường.
Dịch GHC-GHT: dịch phân lớp gióng hàng chéo với bộ trọng gióng hàng chéo, phân lớp gióng hàng
thường với bộ trọng số gióng hàng thường.
Kết hợp các đặc trưng
ISBN: 978-604-82-1375-6
86
Báo cáo toàn văn Kỷ yếu hội nghị khoa học lần IX Trường Đại học Khoa học Tự nhiên, ĐHQG-HCM
Chúng tôi sử dùng 6 đặc trưng trên để gom nhóm và sử dụng phương pháp K-Means và độ đo khoảng cách
euclidean để gom nhóm.
Kết quả
Toàn bộ kết quả thực nghiệm của phương pháp gom nhóm dựa trên các đặc trưng ngôn ngữ được trình bày
trong bảng 3, kết quả này cho thấy rằng việc thay đổi trọng số theo các đặc trưng hầu hết là giúp cho hệ thống
dịch tốt hơn. Có trường hợp cho điểm BLEU tăng đến 0.65 điểm.
Bảng 3. Kết quả thực nghiệm trên đặc trưng ngôn ngữ
Đặc trƣng
Cross entropy
Chiều dài câu
Từ chưa biết
Từ không gióng
hàng
Từ đa gióng hàng
Gióng hàng chéo
Tổng hợp các đặc
trưng
Phƣơng pháp
Cơ sở
MERT
Phổ Biến-MERT
MERT-Không Phổ Biến
Phổ Biến-Không Phổ Biến
Ngắn-MERT
MERT-Dài
Ngắn-Dài
Dễ-MERT
MERT-Khó
Dễ-Khó
Không gióng hàng-MERT
MERT-gióng hàng
Không gióng hàng-gióng hàng
Đa gióng hàng-MERT
MERT-đơn gióng hàng
Đa gióng hàng-đơn gióng hàng
Gióng Hàng Chéo-MERT
MERT-Gióng Hàng Thường
Gióng Hàng Chéo-Gióng HàngThường
K-Mean
BLEU
43.71
43.79
43.60
44.01
44.36
43.90
43.89
44.04
43.14
44.07
44.31
43.90
43.81
43.95
43.70
43.82
43.95
43.93
43.65
43.42
NIST
9.6218
9.6999
9.6974
9.7163
9.8128
9.7108
9.7145
9.7419
9.6458
9.7222
9.8102
9.7162
9.7155
9.7315
9.6901
9.7081
9.7327
9.7077
9.7002
9.6160
43.81
9.6952
Gom nhóm dựa trên tối đa hóa điểm BLEU
Chúng tôi áp dụng thuật toán này lên 1000 câu của tập dev và thu được 83 nhóm. Trong các nhóm này,
nhóm có số câu ít nhất là 1 câu, nhóm có số câu nhiều nhất là 57 câu, nhóm với trọng số của MERT là 39 câu.
Chúng tôi lấy con số 39 này làm ngưỡng cho việc loại bỏ các nhóm quá đặc trưng (các nhóm có số câu ... nghiệm hình thức dịch sau so sánh với MERT: Dịch N-M: dịch phân lớp câu ngắn trọng số câu ngắn, phân lớp câu dài trọng số MERT Dịch M-D: dịch phân lớp câu ngắn trọng số MERT, phân lớp câu dài trọng. .. tối ưu lại giá trị trọng số trước dịch, phương pháp tính trước giá trị trọng số, tối ưu mặt thời gian Mô Hình Trong hướng tiếp cận dịch máy liên quan đến việc tối ưu trọng số, chọn hướng tiếp... chưa biết với trọng số MERT Dịch M-CB: dịch phân lớp chưa biết với trọng số MERT, phân lớp chưa biết với trọng số chưa biết Dịch CB-DB: dịch tương ứng phân lớp chưa biết với trọng số chưa biết,