Xây dựng tập ngữ liệu huấn luyện và thử nghiệm

Một phần của tài liệu Đồ án tốt nghiệp Xây dựng thử nghiệm hệ dịch tự động Anh - Việt theo hướng tiếp cận So khớp tập mẫu (Trang 94)

Tập ngữ liệu huấn luyện (tập mẫu) được tác giả sử dụng trong chương trình là các

cặp câu song ngữ Anh-Việt được lấy chủ yếu từ bộ sách “The world of

microcomputer”, do Nhà xuất bản thống kê phát hành. Nguồn ngữ liệu thô này được huấn luyện (Phân tích cú pháp, xây dựng lớp, xây dựng đồ thị, liên kết từ…) nhằm phục vụ quá trình dịch sau này.Sau đây là các thông số về tập mẫu và kết quả của giai đoạn huấn luyện:

Tổng số cặp câu 4775 (cặp)

Chiều dài câu Tiếng Anh ngắn nhất: 2

Chiều dài câu Tiếng Anh dài nhất: 54

Chiều dài trung bình: 14.75

Số đồ thị được xây dựng: 263

Kích thước trung bình của 1 đồ thị: 18.15 (câu)

Số cặp câu đã được liên kết bằng tay: 300

Bảng 5. 1: Các thông số của tập ngữ liệu huấn luyện.

Khi bắt tay xây dựng một hệ dịch từ động, hẳn ai cũng đều hướng tới một điều lý tưởng là: Hệ dịch đó có thể đáp ứng được cho mọi câu Tiếng Anh, hay hẹp hơn, những câu thuộc về một chủ đề cho trước, với chất lượng dịch chấp nhận được. Với một hệ dịch EBMT, như đã trình bày ở phần lý thuyết, cái đích trên sẽ càng gần nếu số lượng câu trong tập mẫu là vô cùng lớn (đơn vị có thể tới hàng chục, thậm chí

hàng trăm triệu cặp câu). Vì thế, với kích thước khiêm tốn là gần 5000 cặp câu, tác giả không có tham vọng hệ thống này sẽ áp dụng được vào thực tiễn. Xin phép được nhắc lại, đây chỉ là chương trình mang tính chất demo, minh hoạ cho tính đúng đắn của một lý thuyết dịch mới mà tác giả nghiên cứu. Do đó, khi thiết kế Cơ sở dữ liệu để thử nghiệm, nếu lấy ngay các câu bất kỳ để hệ thống dịch, chắc chắn hiệu suất dịch sẽ rất thấp. Đối với các hệ thống có kích thước tập mẫu thô là “khá lớn” (khoảng vài trăm nghìn cặp câu), có thể trích rút ngẫu nhiên một số lượng nhất định các cặp câu làm ngữ liệu thử nghiệm, phần còn lại là ngữ liệu huấn luyện. Trong chương trình này, tác giả đã đề xuất việc xây dựng Cơ sở dư liệu thử nghiệm như sau:

 Trích rút ngẫu nhiên một số cặp câu “thô” trong tập mẫu ban đầu (cụ thể, tác

giả trích rút khoảng 1/10 kích thước của nó). Sau đó, đối với mỗi câu Tiếng Anh vừa được trích rút để thử nghiệm, tuỳ vào độ dài, có thể biến đổi một số lượng từ nhất định của nó (thay thế bằng từ khác cùng kiểu từ loại, xoá, thêm từ mới…) sao cho không làm thay đổi quá nhiều cấu trúc ngữ pháp của câu.

Câu sau biến đổi được sử dụng làm ngữ liệu thử nghiệm. (Loại 1)

 Thêm vào đó, tiến hành lấy một số câu bất kỳ (không quan tâm nó có trong

tập mẫu hay không) làm ngữ liệu thử nghiệm.Tuy nhiên, các câu được lấy phải thoả mãn: Là các câu ngắn (độ dài không quá 6), cấu trúc ngữ pháp đơn

giản. (Loại 2)

Sau quá trình chọn lựa và biến đổi, tập ngữ liệu thử nghiệm có các thông số:

Tổng số cặp câu 300 (cặp)

Số câu loại 1: 250 (câu)

Số câu loại 2: 50 (câu)

Chiều dài trung bình: 9.667

Bảng 5. 2: Các thông số của tập ngữ liệu thử nghiệm. 5.2.2. Các độ đo sử dụng

• Hiệu suất của pha phân tích cú pháp Tiếng Anh = (Số cây phân tích đúng) /

Tổng số câu thử nghiệm

• Hiệu suất so khớp=(Tổng số câu tìm thấy ngữ liệu) /Tổng số câu thử nghiệm

• Hiệu suất dịch = (Số câu dịch E+ Số câu dịch M)/ Tổng số câu thử nghiệm

( E: Câu dịch tốt, không mắc sai sót về ngữ pháp và ngữ nghĩa, M: Câu dịch chấp nhận được, nghĩa là: Có thể có một số từ dịch chưa sát nghĩa, hoặc có cụm từ mà trật tự các thành phần sắp xếp sai, song người đọc vẫn có thể hiểu được, B: Câu dịch tồi, mắc nhiều lỗi về ngữ pháp và ngữ nghĩa, khiến người đọc không hiểu được)

5.2.3. Kết quả thử nghiệm

Tập mẫu thử nghiệm đã được tác giả sử dụng để xem xét hiệu năng của ba pha: (1) Phân tích cú pháp (2) Pha so khớp để tìm ngữ liệu tương tự nhất và (3) Pha xây

dựng và hoàn thiện câu dịch cuối cùng. Dưới đây là một số kết quả được trích ra từ quá trình thử nghiệm pha Dịch – chức năng chính của chương trình (Kết quả trích của pha So khớp xin theo dõi thêm ở phần Phụ lục)

STT Câu Tiếng Anh Câu dịch Tiếng Việt Đánh giá

1 Can you see the keyboard, RAM, and mouse ? Bạn có thể thấy bàn phím , RAM , và chuột ? E

2 The bonus is sent into the worker 's salary . Tiền thưởng (bị/được) gửi vào tiền lương của người lao động . E

3 The mouse, trackball enable you to draw or point on the screen .

Chuột , Trackball cho phép bạn vẽ hoặc trỏ trên màn hình . E

4 The usage of an main output device is to present encoded data to the user .

Cách dùng của một thiết bị xuất chính là biểu diễn dữ liệu (bị/được) ghi thành mật mã cho người sử dụng .

E

5 The monitor, and speakers are useful output devices . Màn hình , và các loa là các thiết bị xuất có ích . E

6 The ROUTER is one type of network device . ROUTER là một kiểu phương sách nối mạng . M

7 Animals include the following main classes : Những động vật có những giai cấp chính sau : M

8 This experiment is the Newton experiment . Cuộc thí nghiệm này là cuộc thí nghiệm NEWTON . E

9 Identify three main features of important problems . Xác định ba đặc trưng chính của những vấn đề quan trọng . E 10 The information technology has grown extremely in

the past decade .

Kỹ thuật sự cung cấp tin tức lớn mạnh vô cùng trong thập kỷ qua . M

11 A file that user can use is often called a document . Một tập tin mà người sử dụng có thể dùng thường được gọi là tài

liệu . E

12 Multiple Choice . Đa lựa chọn . E

13 Computers consist of the following models : Những máy điện toán gồm có những kiểu sau : M

14 Can you find the mother, and father ? Bạn có thể thấy mẹ , và cha ? E

15 Journalists need a special environment . Những nhà báo cần một môi trường đặc biệt . E

16 The FUSIGIN is one type of network software . FUSIGIN là một kiểu phần mềm nối mạng . E

17 Using a computer, protect each device you can know . Khi sử dụng máy tính , bảo vệ cho mỗi thiết bị bạn có thể biết được . E

18 So, what types of information can you estimate about the system memory?

Vậy , những loại thông tin gì mà bạn có thể đánh giá về sự nhớ hệ thống ?

E

19 The main function of keyboard is to get data . Chức năng chính của bàn phím là được dữ liệu . M

20 The function of keyboard is to input data . Chức năng của bàn phím là dữ liệu cái cho vào . B

21 Compare the character between lion and tiger . Hãy so tính nết giữa con sư tử và hổ . M

22 Remember the relationship between sport and our health .

Hãy nhớ mối quan hệ giữa thể thao và sức khoẻ của chúng ta . E

23 If so, many young people are certainly not alone . Nếu có , thì chắc chắn chẳng phải một mình đâu . những dân tộc trẻ

nhiều B

24 The earth is a round, big object that spins around its axis .

Cái đất là một vật tròn , to xoay quanh trục của nó . M

25 Their functions are different, but they work in same

ways .

Các chức năng của chúng thì khác , nhưng chúng làm việc theo những cách đều đều .

M

26 Data can consist of letters, numbers, sounds . Dữ liệu có thể bao gồm những ký tự , các con số , những âm thanh . E

27 Some types of hardware can act as both input and output devices .

Một số loại phần cứng có thể làm việc như cả hai thiết bị nhập và xuất .

E

28 Avoid the interaction between fire and electricity . Hãy tránh sự ảnh hưởng lẫn nhau giữa lửa và điện . E

29 The responsibility of doctor is to help patients . Trách nhiệm của bác sĩ y khoa là giúp đỡ những người bệnh . E

30 It just be a combination of hydrogen and oxygen . Nó chỉ là một sự kết hợp Hyddrô và Oxy . E

31 Scientists finished a complicated experiment . Những nhà khoa học đã hoàn thành một cuộc thí nghiệm phức tạp . E

32 The principal meeting has delayed tremendously in the last week .

Cuộc mít tinh chính (bị/được) làm chậm trễ khủng khiếp trong tuần lễ cuối cùng .

E

33 Can you answer the question, Nam ? Bạn có thể trả lời câu hỏi , NAM ? E

34 The processor is integrated into the robot 's brain . Máy chế biến (bị/được) hợp thành một thể thống nhất vào óc của người máy .

M

35 You control the machine by moving it across a flat surface and pressing its buttons .

Bạn điều khiển cái máy móc bằng cách di chuyển nó ngang qua một bề mặt phẳng và nhấn những nút của chúng .

E

36 Using a machine, remember each component you can identify .

Khi sử dụng máy móc , nhớ cho mỗi thành phần bạn có thể xác định được .

E

37 You understand its important ideas and points . Bạn hiểu những mũi nhọn mũi kim và những quan niệm quan trọng

của nó . M

38 Security software lets you detect and destroy viruses of all types .

Phần mềm sự yên ổn cho bạn dò ra và phá những virut thuộc tất cả

các kiểu . M

39 When it finds the operating system, the computer loads a portion of it into memory .

Khi nó tìm thấy hệ điều hành , máy tính nạp một phần của nó vào bộ

nhớ . E

40 Despite their differences in usage and function, all these computers are part of a complete

communication system .

Ngoại trừ sự khác nhau của chúng về cách dùng và chức năng , tất cả các máy tính này đều là một thành phần của một hệ thống sự truyền đạt đầy đủ .

M

Bảng 5. 3: Một số kết quả dịch thử nghiệm. Ghi chú:

• E: Câu dịch tốt, không mắc sai sót về ngữ pháp và ngữ nghĩa.,M: Câu dịch chấp nhận được, nghĩa là: Có thể có một số từ dịch chưa sát nghĩa, hoặc có cụm từ mà trật tự các thành phần sắp xếp sai, song người đọc vẫn có thể hiểu được.,B: Câu dịch tồi, mắc nhiều lỗi về ngữ pháp và ngữ nghĩa, khiến người đọc không hiểu được.

5.2.4. Đánh giá thử nghiệm5.2.4.1. Đánh giá về hiệu suất 5.2.4.1. Đánh giá về hiệu suất

Với tập dữ liệu đã thiết kế (xem mục [5.2.1]), tác giả đã tiến hành thử nghiệm cho cả 3 pha trong chương trình: Phân tích cú pháp Tiếng Anh, Chọn ngữ liệu tương tự nhất và Dịch. Kết quả thử nghiệm cho các pha được thống kê trong bảng sau:

STT Tên pha Chỉ tiêu thống kê Số lượng Hiệu suất

1 Phân tích cú pháp Số lượng câu phân tích đúng 257 85.66 %

2 Chọn ngữ liệu tương tự nhất

Số câu có ngữ liệu tương tự nhất

246 82 %

3 Dịch Các loại câu dịch (phân lớp theo chất lượng): E: 127 M: 86 B: 33 42.333 % 28.667 % 11.00 %

Bảng 5. 4: Bảng hiệu suất các pha chính. Từ đó rút ra:

Hiệu suất dịch = (Tổng số câu E + Tổng số câu M) / Tổng số câu thử nghiệm

= (127 + 86)/300 = 71 % Một số nhận xét:

Đối với pha “Chọn ngữ liệu tương tự nhất”, mặc dù khi thiết kế ngữ liệu huấn luyện, chúng ta cố tình chọn câu rất sát với ngữ liệu, và chắc chắn rằng khi thử nghiệm, sẽ thu được chính ngữ liệu đó. Tuy nhiên, kết quả lại không như mong muốn: Hệ thống không tìm thấy ngữ liệu tương tự. Vì sao vậy? Chỉ có một nguyên

nhân duy nhất, đó là hoặc câu đầu vào, hoặc câu ngữ liệu, hoặc cả hai đã bị phân

tích cú pháp sai. Chính vì vậy, khi so khớp sẽ xuất hiện sai sót, ví dụ: hai từ tương ứng trong 2 câu, đáng lẽ có thể thay thế được cho nhau vì cùng kiểu từ loại, nhưng vì phân tích cú pháp sai, dẫn đến khác kiểu từ loại, do đó bộ so khớp phải dùng đến 2 phép xử lý là D và I, làm chi phí so khớp tăng lên nhiều, vượt ngưỡng tối đa cho phép. Vì thế, không có kết quả như mong muốn.

Còn đối với chức năng dịch, một số nguyên nhân dẫn đến câu dịch bị sai lệch về ngữ pháp và ngữ nghĩa là:

Phân tích cú pháp sai, dẫn đến nhãn từ loại sai và vì thế nghĩa tra được trong từ điển cũng sai.

Hệ thống chưa giải quyết được bài toán: Nghĩa của từ trong văn

cảnh.Chẳng hạn khi chúng ta tra từ điển đối với danh từ “class”, giá trị trả về

là một tập các nghĩa: lớp học, giai cấp, tầng lớp…Chương trình không thể

biết được đâu là nghĩa phù hợp nhất trong văn cảnh của câu tương ứng mà chỉ lấy nghĩa đầu tiên của từ trong tập hợp đó làm kết quả. Vì thế, có thể dẫn đến chọn nghĩa sai.

Tập luật chuyển đổi cú pháp còn thiếu, dẫn đễn trật tự chuyển đổi các từ trong ngữ (khi dịch sang Tiếng Việt) bị sai. Chẳng hạn: Với danh ngữ “These five nice gifts” (NP=DT+CD+JJ+NNS), trong tập luật chưa xây dựng luật chuyển đổi cho danh ngữ này nên khi chuyển qua Tiếng Việt, hệ thống vẫn giữ nguyên trật tự các từ như trong Tiếng Anh, dẫn đến dịch sai.

Để khắc phục những hạn chế này, cần tăng cả về lượng và tính đa dạng của tập ngữ liệu và tập luật chuyển đổi cú pháp.

5.2.4.1. Đánh giá về tốc độ xử lý

Thời gian xử lý trung bình đối với từng pha được cho trong bảng sau:

Phân tích cú pháp So khớp Dịch

0.031s 0.646s 0.648s

Bảng 5. 5: Tốc độ xử lý của các pha chính.

Nhìn vào bảng trên ta thấy: thời gian dịch gần như phụ thuộc hoàn toàn vào thời gian so khớp (vì pha phân tích cú pháp chiếm thời gian không đáng kể). Với thời gian dịch trung bình là 0.648 (s), tốc độ dịch thuộc mức khá.Tác giả hy vọng trong tương lai có thể nghiên cứu thêm và đề xuất những phương pháp cải tiến thuật toán so khớp hiện có để có thể tối ưu hơn nữa tốc độ dịch.

Kết chương

Chương này đề cập đến việc thử nghiệm và đánh giá hiệu năng của hệ thống vừa mới xây dựng. Một số kết quả chính thu được như sau:

• Tập mẫu xây dựng gồm 4775 cặp câu, đã được huấn luyện theo mô hình thiết

kế thành 263 đồ thị, tập luật chuyển đổi cú pháp gồm 51 luật.

• Tập ngữ liệu thử nghiệm gồm 300 câu (250 câu được biến đổi từ các câu

trong tập mẫu + 50 câu bất kỳ)

• Kết quả thử nghiệm cho thấy hiệu suất dịch của hệ thống là khá cao với 71%

số câu dịch chấp nhận được. Một số chức năng khác cũng cho kết quả khả quan là: Phân tích cú pháp (85.66%) và So khớp (82%).

• Về tốc độ xử lý: Tốc độ dịch trung bình là: 0.648 (s)

• Đây chỉ mới là các kết quả kiểm thử ban đầu. Hy vọng rằng một khi tập ngữ

liệu được làm giàu thêm thì chúng sẽ còn khả quan hơn nữa.

KẾT LUẬN VÀ ĐỊNH HƯỚNG PHÁT TRIỂN 1. Những kết quả đã đạt được

Dịch máy là một bài toán lớn, muốn thu được kết quả tốt đòi hỏi không những một sự nghiên cứu nghiêm túc, khả năng giải quyết nhiều vấn đề phát sinh về ngôn ngữ, mà bên cạnh đó là sự tỉ mẩn, bền bỉ và vấn đề thời gian. Trong thời gian làm đồ án, tác giả đã cố gắng và đạt được một số kết quả nhất định sau:

• Tìm hiểu và nghiên cứu một lý thuyết dịch khá mới - Dịch dựa vào tập mẫu

-bên cạnh các phương pháp dịch truyền thống đang được triển khai trên thế giới và Việt Nam hiện nay.Từ những nghiên cứu đó, bên cạnh việc kế thừa tư tưởng, tác giả đề xuất một số cải tiến để nâng sao hiệu suất và thời gian dịch.

• Từ tập ngữ liệu thô sưu tầm được gồm 4775 cặp câu song ngữ Anh-Việt, xây

dựng được chiến lược huấn luyện thông qua các giai đoạn: Phân tích cú pháp, Xây dựng lớp và xây dựng đồ thị. Ngữ liệu huấn luyện được lưu trữ theo cấu trúc hợp lý.

• Xây dựng được một website để huy động sự giúp đỡ của cộng đồng để làm

giàu thêm tập ngữ liệu thô và tập ngữ liệu huấn luyện. Trên site này, cộng đồng có thể: tiến hành liên kết cho các cặp câu có sẵn trong CSDL còn chưa được liên kết, cung cấp thêm các cặp câu mới và đặt liên kết cho chúng.

• Xây dựng được một chương trình dịch tự động theo mô hình đã nghiên cứu.

Hệ thống có các đặc điểm:

o Thời gian dịch ở mức chấp nhận được, phụ thuộc vào số lượng đồ thị

Một phần của tài liệu Đồ án tốt nghiệp Xây dựng thử nghiệm hệ dịch tự động Anh - Việt theo hướng tiếp cận So khớp tập mẫu (Trang 94)

Tải bản đầy đủ (DOC)

(113 trang)
w