Giới thiệu chương trình

Một phần của tài liệu Đồ án tốt nghiệp Xây dựng thử nghiệm hệ dịch tự động Anh - Việt theo hướng tiếp cận So khớp tập mẫu (Trang 89)

Hình 5. 1: Giao diện chính của chương trình

Trong chương trình, có một số module chính như sau:

91

Những nội dung chính:

Giới thiệu chương trình (giao diện cùng một số chức năng chính).

Xây dựng tập ngữ liệu kiểm thử và các độ đo cần thiết, sau đó tiến hành thử nghiệm cho 3 pha: Phân tích cú pháp, So khớp tìm ngữ liệu tương tự nhất và Dịch.

Đánh giá hệ thống về hiệu suất dịch cũng như tốc độ xử lý dựa trên kết quả thống kê, tìm hiểu nguyên nhân của các hạn chế của hệ thống.

5.1.1. Module phân tích cú pháp Tiếng Anh :

Dưới đây là giao diện thiết kế cho module Phân tích cú pháp Tiếng Anh. Kết quả phân tích cú pháp cho một câu Tiếng Anh đầu vào sẽ được biểu diễn rất trực quan dưới dạng cây cú pháp:

Hình 5. 2: Màn hình chức năng Phân tích cú pháp Tiếng Anh 5.1.2. Module so khớp, tìm ngữ liệu tương tự nhất

Cho phép xem câu Tiếng Anh trong tập mẫu “gần giống” với câu đầu vào nhất. Bên cạnh đó, có thể quan sát quá trình so khớp thể hiện trên trạng thái so khớp đầy đủ

Hình 5. 3 Màn hình chức năng Tìm ngữ liệu tương tự nhất. 5.1.3. Module Dịch

Dịch và hiển thị câu dịch của câu đầu vào (màn hình giống như hình 5.1)

5.1.4. Module quản lý Từ điển

Có hai loại từ điển cần quản lý, đó là: Từ điển Anh-Việt và Từ điển đồng nghĩa, tương ứng với hai màn hình được thiết kế sau đây

5.1.4.1. Màn hình quản lý Từ điển Anh-Việt

Cho phép: Xem toàn bộ các từ, xem nghĩa của từng từ, cập nhật, biên tập hay xoá từ trong Từ điển Anh-Việt

Hình 5. 4: Màn hình chức năng Quản lý từ điển Anh - Việt 5.1.4.2. Màn hình quản lý Từ điển đồng nghĩa

Với màn hình này, có thể thực hiện các thao tác: Tính khoảng cách ngữ nghĩa (từ đó suy ra độ tương tự) giữa hai từ nội dung (content word) có trong từ điển WordNet, xem tập các từ đồng nghĩa với một từ cho trước.

5.1.5. Module quản lý tập luật chuyển đổi cú pháp Anh-Việt

Dưới đây là màn hình quản lý tập luật chuyển đổi cú pháp Anh-Việt. Màn hình này chỉ cho phép: Xem các luật đã có, thêm các luật mới. Việc biên tập và xoá các luật đã có chưa được hỗ trợ:

Hình 5. 5: Màn hình chức năng Quản lý tập luật chuyển đổi cú pháp 5.1.6. Module quản lý tập mẫu song ngữ

Cho phép thực hiện các thao tác sau:

 Nhập thêm các cặp câu mới, tiến hành đặt liên kết cho chúng.

 Đặt liên kết cho các cặp câu đã có trong CSDL còn chưa được tiến hành.

 Xem toàn bộ các cặp câu trong tập mẫu hiện có.

Hình 5. 6: Màn hình chức năng quản lý tập mẫu song ngữ 5.2. Thử nghiệm kết quả:

5.2.1. Xây dựng tập ngữ liệu huấn luyện và thử nghiệm

Tập ngữ liệu huấn luyện (tập mẫu) được tác giả sử dụng trong chương trình là các

cặp câu song ngữ Anh-Việt được lấy chủ yếu từ bộ sách “The world of

microcomputer”, do Nhà xuất bản thống kê phát hành. Nguồn ngữ liệu thô này được huấn luyện (Phân tích cú pháp, xây dựng lớp, xây dựng đồ thị, liên kết từ…) nhằm phục vụ quá trình dịch sau này.Sau đây là các thông số về tập mẫu và kết quả của giai đoạn huấn luyện: (adsbygoogle = window.adsbygoogle || []).push({});

Tổng số cặp câu 4775 (cặp)

Chiều dài câu Tiếng Anh ngắn nhất: 2

Chiều dài câu Tiếng Anh dài nhất: 54

Chiều dài trung bình: 14.75

Số đồ thị được xây dựng: 263

Kích thước trung bình của 1 đồ thị: 18.15 (câu)

Số cặp câu đã được liên kết bằng tay: 300

Bảng 5. 1: Các thông số của tập ngữ liệu huấn luyện.

Khi bắt tay xây dựng một hệ dịch từ động, hẳn ai cũng đều hướng tới một điều lý tưởng là: Hệ dịch đó có thể đáp ứng được cho mọi câu Tiếng Anh, hay hẹp hơn, những câu thuộc về một chủ đề cho trước, với chất lượng dịch chấp nhận được. Với một hệ dịch EBMT, như đã trình bày ở phần lý thuyết, cái đích trên sẽ càng gần nếu số lượng câu trong tập mẫu là vô cùng lớn (đơn vị có thể tới hàng chục, thậm chí

hàng trăm triệu cặp câu). Vì thế, với kích thước khiêm tốn là gần 5000 cặp câu, tác giả không có tham vọng hệ thống này sẽ áp dụng được vào thực tiễn. Xin phép được nhắc lại, đây chỉ là chương trình mang tính chất demo, minh hoạ cho tính đúng đắn của một lý thuyết dịch mới mà tác giả nghiên cứu. Do đó, khi thiết kế Cơ sở dữ liệu để thử nghiệm, nếu lấy ngay các câu bất kỳ để hệ thống dịch, chắc chắn hiệu suất dịch sẽ rất thấp. Đối với các hệ thống có kích thước tập mẫu thô là “khá lớn” (khoảng vài trăm nghìn cặp câu), có thể trích rút ngẫu nhiên một số lượng nhất định các cặp câu làm ngữ liệu thử nghiệm, phần còn lại là ngữ liệu huấn luyện. Trong chương trình này, tác giả đã đề xuất việc xây dựng Cơ sở dư liệu thử nghiệm như sau:

 Trích rút ngẫu nhiên một số cặp câu “thô” trong tập mẫu ban đầu (cụ thể, tác

giả trích rút khoảng 1/10 kích thước của nó). Sau đó, đối với mỗi câu Tiếng Anh vừa được trích rút để thử nghiệm, tuỳ vào độ dài, có thể biến đổi một số lượng từ nhất định của nó (thay thế bằng từ khác cùng kiểu từ loại, xoá, thêm từ mới…) sao cho không làm thay đổi quá nhiều cấu trúc ngữ pháp của câu.

Câu sau biến đổi được sử dụng làm ngữ liệu thử nghiệm. (Loại 1)

 Thêm vào đó, tiến hành lấy một số câu bất kỳ (không quan tâm nó có trong

tập mẫu hay không) làm ngữ liệu thử nghiệm.Tuy nhiên, các câu được lấy phải thoả mãn: Là các câu ngắn (độ dài không quá 6), cấu trúc ngữ pháp đơn

giản. (Loại 2)

Sau quá trình chọn lựa và biến đổi, tập ngữ liệu thử nghiệm có các thông số:

Tổng số cặp câu 300 (cặp)

Số câu loại 1: 250 (câu)

Số câu loại 2: 50 (câu)

Chiều dài trung bình: 9.667

Bảng 5. 2: Các thông số của tập ngữ liệu thử nghiệm. 5.2.2. Các độ đo sử dụng

• Hiệu suất của pha phân tích cú pháp Tiếng Anh = (Số cây phân tích đúng) /

Tổng số câu thử nghiệm

• Hiệu suất so khớp=(Tổng số câu tìm thấy ngữ liệu) /Tổng số câu thử nghiệm

• Hiệu suất dịch = (Số câu dịch E+ Số câu dịch M)/ Tổng số câu thử nghiệm

( E: Câu dịch tốt, không mắc sai sót về ngữ pháp và ngữ nghĩa, M: Câu dịch chấp nhận được, nghĩa là: Có thể có một số từ dịch chưa sát nghĩa, hoặc có cụm từ mà trật tự các thành phần sắp xếp sai, song người đọc vẫn có thể hiểu được, B: Câu dịch tồi, mắc nhiều lỗi về ngữ pháp và ngữ nghĩa, khiến người đọc không hiểu được)

5.2.3. Kết quả thử nghiệm

Tập mẫu thử nghiệm đã được tác giả sử dụng để xem xét hiệu năng của ba pha: (1) Phân tích cú pháp (2) Pha so khớp để tìm ngữ liệu tương tự nhất và (3) Pha xây

dựng và hoàn thiện câu dịch cuối cùng. Dưới đây là một số kết quả được trích ra từ quá trình thử nghiệm pha Dịch – chức năng chính của chương trình (Kết quả trích của pha So khớp xin theo dõi thêm ở phần Phụ lục) (adsbygoogle = window.adsbygoogle || []).push({});

STT Câu Tiếng Anh Câu dịch Tiếng Việt Đánh giá

1 Can you see the keyboard, RAM, and mouse ? Bạn có thể thấy bàn phím , RAM , và chuột ? E

2 The bonus is sent into the worker 's salary . Tiền thưởng (bị/được) gửi vào tiền lương của người lao động . E

3 The mouse, trackball enable you to draw or point on the screen .

Chuột , Trackball cho phép bạn vẽ hoặc trỏ trên màn hình . E

4 The usage of an main output device is to present encoded data to the user .

Cách dùng của một thiết bị xuất chính là biểu diễn dữ liệu (bị/được) ghi thành mật mã cho người sử dụng .

E

5 The monitor, and speakers are useful output devices . Màn hình , và các loa là các thiết bị xuất có ích . E

6 The ROUTER is one type of network device . ROUTER là một kiểu phương sách nối mạng . M

7 Animals include the following main classes : Những động vật có những giai cấp chính sau : M

8 This experiment is the Newton experiment . Cuộc thí nghiệm này là cuộc thí nghiệm NEWTON . E

9 Identify three main features of important problems . Xác định ba đặc trưng chính của những vấn đề quan trọng . E 10 The information technology has grown extremely in

the past decade .

Kỹ thuật sự cung cấp tin tức lớn mạnh vô cùng trong thập kỷ qua . M

11 A file that user can use is often called a document . Một tập tin mà người sử dụng có thể dùng thường được gọi là tài

liệu . E

12 Multiple Choice . Đa lựa chọn . E

13 Computers consist of the following models : Những máy điện toán gồm có những kiểu sau : M

14 Can you find the mother, and father ? Bạn có thể thấy mẹ , và cha ? E

15 Journalists need a special environment . Những nhà báo cần một môi trường đặc biệt . E

16 The FUSIGIN is one type of network software . FUSIGIN là một kiểu phần mềm nối mạng . E

17 Using a computer, protect each device you can know . Khi sử dụng máy tính , bảo vệ cho mỗi thiết bị bạn có thể biết được . E

18 So, what types of information can you estimate about the system memory?

Vậy , những loại thông tin gì mà bạn có thể đánh giá về sự nhớ hệ thống ?

E

19 The main function of keyboard is to get data . Chức năng chính của bàn phím là được dữ liệu . M

20 The function of keyboard is to input data . Chức năng của bàn phím là dữ liệu cái cho vào . B

21 Compare the character between lion and tiger . Hãy so tính nết giữa con sư tử và hổ . M

22 Remember the relationship between sport and our health . (adsbygoogle = window.adsbygoogle || []).push({});

Hãy nhớ mối quan hệ giữa thể thao và sức khoẻ của chúng ta . E

23 If so, many young people are certainly not alone . Nếu có , thì chắc chắn chẳng phải một mình đâu . những dân tộc trẻ

nhiều B

24 The earth is a round, big object that spins around its axis .

Cái đất là một vật tròn , to xoay quanh trục của nó . M

25 Their functions are different, but they work in same

ways .

Các chức năng của chúng thì khác , nhưng chúng làm việc theo những cách đều đều .

M

26 Data can consist of letters, numbers, sounds . Dữ liệu có thể bao gồm những ký tự , các con số , những âm thanh . E

27 Some types of hardware can act as both input and output devices .

Một số loại phần cứng có thể làm việc như cả hai thiết bị nhập và xuất .

E

28 Avoid the interaction between fire and electricity . Hãy tránh sự ảnh hưởng lẫn nhau giữa lửa và điện . E

29 The responsibility of doctor is to help patients . Trách nhiệm của bác sĩ y khoa là giúp đỡ những người bệnh . E

30 It just be a combination of hydrogen and oxygen . Nó chỉ là một sự kết hợp Hyddrô và Oxy . E

31 Scientists finished a complicated experiment . Những nhà khoa học đã hoàn thành một cuộc thí nghiệm phức tạp . E

32 The principal meeting has delayed tremendously in the last week .

Cuộc mít tinh chính (bị/được) làm chậm trễ khủng khiếp trong tuần lễ cuối cùng .

E

33 Can you answer the question, Nam ? Bạn có thể trả lời câu hỏi , NAM ? E

34 The processor is integrated into the robot 's brain . Máy chế biến (bị/được) hợp thành một thể thống nhất vào óc của người máy .

M

35 You control the machine by moving it across a flat surface and pressing its buttons .

Bạn điều khiển cái máy móc bằng cách di chuyển nó ngang qua một bề mặt phẳng và nhấn những nút của chúng .

E

36 Using a machine, remember each component you can identify .

Khi sử dụng máy móc , nhớ cho mỗi thành phần bạn có thể xác định được .

E

37 You understand its important ideas and points . Bạn hiểu những mũi nhọn mũi kim và những quan niệm quan trọng (adsbygoogle = window.adsbygoogle || []).push({});

của nó . M

38 Security software lets you detect and destroy viruses of all types .

Phần mềm sự yên ổn cho bạn dò ra và phá những virut thuộc tất cả

các kiểu . M

39 When it finds the operating system, the computer loads a portion of it into memory .

Khi nó tìm thấy hệ điều hành , máy tính nạp một phần của nó vào bộ

nhớ . E

40 Despite their differences in usage and function, all these computers are part of a complete

communication system .

Ngoại trừ sự khác nhau của chúng về cách dùng và chức năng , tất cả các máy tính này đều là một thành phần của một hệ thống sự truyền đạt đầy đủ .

M

Bảng 5. 3: Một số kết quả dịch thử nghiệm. Ghi chú:

• E: Câu dịch tốt, không mắc sai sót về ngữ pháp và ngữ nghĩa.,M: Câu dịch chấp nhận được, nghĩa là: Có thể có một số từ dịch chưa sát nghĩa, hoặc có cụm từ mà trật tự các thành phần sắp xếp sai, song người đọc vẫn có thể hiểu được.,B: Câu dịch tồi, mắc nhiều lỗi về ngữ pháp và ngữ nghĩa, khiến người đọc không hiểu được.

5.2.4. Đánh giá thử nghiệm5.2.4.1. Đánh giá về hiệu suất 5.2.4.1. Đánh giá về hiệu suất

Với tập dữ liệu đã thiết kế (xem mục [5.2.1]), tác giả đã tiến hành thử nghiệm cho cả 3 pha trong chương trình: Phân tích cú pháp Tiếng Anh, Chọn ngữ liệu tương tự nhất và Dịch. Kết quả thử nghiệm cho các pha được thống kê trong bảng sau:

STT Tên pha Chỉ tiêu thống kê Số lượng Hiệu suất

1 Phân tích cú pháp Số lượng câu phân tích đúng 257 85.66 %

2 Chọn ngữ liệu tương tự nhất

Số câu có ngữ liệu tương tự nhất

246 82 %

3 Dịch Các loại câu dịch (phân lớp theo chất lượng): E: 127 M: 86 B: 33 42.333 % 28.667 % 11.00 %

Bảng 5. 4: Bảng hiệu suất các pha chính. Từ đó rút ra:

Hiệu suất dịch = (Tổng số câu E + Tổng số câu M) / Tổng số câu thử nghiệm

= (127 + 86)/300 = 71 % Một số nhận xét:

Đối với pha “Chọn ngữ liệu tương tự nhất”, mặc dù khi thiết kế ngữ liệu huấn luyện, chúng ta cố tình chọn câu rất sát với ngữ liệu, và chắc chắn rằng khi thử nghiệm, sẽ thu được chính ngữ liệu đó. Tuy nhiên, kết quả lại không như mong muốn: Hệ thống không tìm thấy ngữ liệu tương tự. Vì sao vậy? Chỉ có một nguyên

nhân duy nhất, đó là hoặc câu đầu vào, hoặc câu ngữ liệu, hoặc cả hai đã bị phân

tích cú pháp sai. Chính vì vậy, khi so khớp sẽ xuất hiện sai sót, ví dụ: hai từ tương ứng trong 2 câu, đáng lẽ có thể thay thế được cho nhau vì cùng kiểu từ loại, nhưng vì phân tích cú pháp sai, dẫn đến khác kiểu từ loại, do đó bộ so khớp phải dùng đến 2 phép xử lý là D và I, làm chi phí so khớp tăng lên nhiều, vượt ngưỡng tối đa cho phép. Vì thế, không có kết quả như mong muốn.

Còn đối với chức năng dịch, một số nguyên nhân dẫn đến câu dịch bị sai lệch về ngữ pháp và ngữ nghĩa là:

Phân tích cú pháp sai, dẫn đến nhãn từ loại sai và vì thế nghĩa tra được trong từ điển cũng sai.

Hệ thống chưa giải quyết được bài toán: Nghĩa của từ trong văn (adsbygoogle = window.adsbygoogle || []).push({});

cảnh.Chẳng hạn khi chúng ta tra từ điển đối với danh từ “class”, giá trị trả về

là một tập các nghĩa: lớp học, giai cấp, tầng lớp…Chương trình không thể

biết được đâu là nghĩa phù hợp nhất trong văn cảnh của câu tương ứng mà chỉ lấy nghĩa đầu tiên của từ trong tập hợp đó làm kết quả. Vì thế, có thể dẫn đến chọn nghĩa sai.

Tập luật chuyển đổi cú pháp còn thiếu, dẫn đễn trật tự chuyển đổi các từ trong ngữ (khi dịch sang Tiếng Việt) bị sai. Chẳng hạn: Với danh ngữ “These five nice gifts” (NP=DT+CD+JJ+NNS), trong tập luật chưa xây dựng luật chuyển đổi cho danh ngữ này nên khi chuyển qua Tiếng Việt, hệ thống vẫn giữ nguyên trật tự các từ như trong Tiếng Anh, dẫn đến dịch sai.

Để khắc phục những hạn chế này, cần tăng cả về lượng và tính đa dạng của tập ngữ liệu và tập luật chuyển đổi cú pháp.

5.2.4.1. Đánh giá về tốc độ xử lý

Thời gian xử lý trung bình đối với từng pha được cho trong bảng sau:

Phân tích cú pháp So khớp Dịch

0.031s 0.646s 0.648s

Bảng 5. 5: Tốc độ xử lý của các pha chính.

Nhìn vào bảng trên ta thấy: thời gian dịch gần như phụ thuộc hoàn toàn vào thời

Một phần của tài liệu Đồ án tốt nghiệp Xây dựng thử nghiệm hệ dịch tự động Anh - Việt theo hướng tiếp cận So khớp tập mẫu (Trang 89)