Định hướng nghiên cứu và phát triển đề tài

Một phần của tài liệu Đồ án tốt nghiệp Xây dựng thử nghiệm hệ dịch tự động Anh - Việt theo hướng tiếp cận So khớp tập mẫu (Trang 102)

Mặc dù đã đạt được một số kết quả nhất định như trên, nhưng hệ dịch vẫn chỉ dừng lại ở mức demo, kiểm nghiệm thuật toán mà chưa thể sử dụng được trong thực tế. Để đạt được mục tiếu đó, tác giả đã vạch ra một số hướng nghiên cứu và phát triển đề tài trong thời gian tới như sau:

• Bổ sung (làm giàu) tập ngữ liệu song ngữ Anh-Việt, đi đôi với nó là việc đặt

liên kết cho các cặp câu mới này và huấn luyện chúng theo mô hình đã có. Đây là công việc được ưu tiên hàng đầu.

• Xây dựng thêm một số luật chuyển đổi cú pháp dưới sự trợ giúp của các chuyên gia ngôn ngữ, nhằm giải quyết tốt hơn khâu dịch khi câu đầu vào phát sinh từ cần thêm so với ngữ liệu tương tự nhất.

• Tiếp tục nghiên cứu và đề xuất giải pháp để tối ưu hơn nữa tốc độ dịch của

hệ thống.

• Xử lý nhiều loại file, nhiều định dạng khác nhau cho văn bản tiếng Anh.

• Nghiên cứu cách kết hợp giữa hướng tiếp cận này với các hướng nghiên cứu

truyền thống để lợi dụng được lợi thế của mỗi phương pháp…

Phần phụ lục

PHỤ LỤC 1

H Ệ THỐNG NHÃN TỪ LOẠI CỦA PENN TREE BANK

STT Nhãn từ loại Ý nghĩa

1 CC Liên từ kết hợp

2 CD Số đếm

3 DT Định từ

4 EX "có" (Existential "There")

5 FW Từ tiếng nước ngoài

6 IN Giới từ hay liên từ với mệnh đề phụ

7 JJ Tính từ

8 JJR Tính từ so sánh hơn

9 JJS Tính từ so sánh hơn nhất

10 LS Dấu liệt kê

11 MD Động từ khuyết thiếu

12 NN Danh từ số ít hay không đếm được

13 NNS Danh từ số nhiều

14 NNP Danh từ riêng số ít

15 NPS Danh từ riêng số nhiều

16 PDT Tiền chỉ định từ

17 POS Dấu cuối của sở hữu cách

18 PP Đại từ nhân xưng (adsbygoogle = window.adsbygoogle || []).push({});

19 PP$ Đại từ sở hữu

20 RB Trạng từ

21 RBR Trạng từ so sánh hơn

22 RBS Trạng từ so sánh hơn nhất

23 RP Tiểu từ

Phần Phụ lục bao gồm một số nội dung sau:

Phụ lục 1: Hệ thống nhãn ngữ pháp của Penn Tree Bank Phụ lục 2: Một số luật chuyển đổi cú pháp.

Phụ lục 3: Một số kết quả dịch

Phụ lục 4: Một số kết quả so sánh giữa hai hệ dịch Phần Phụ lục bao gồm một số nội dung sau:

Phụ lục 1: Hệ thống nhãn ngữ pháp của Penn Tree Bank Phụ lục 2: Một số luật chuyển đổi cú pháp.

Phụ lục 3: Một số kết quả dịch

Phụ lục 4: Một số kết quả so sánh giữa hai hệ dịch

24 SYM Ký hiệu

25 TO Từ "To"

26 UH Thán từ

27 VB Động từ nguyên mẫu không "to"

28 VBD Động từ thì quá khứ

29 VBG Danh động từ hay hiện tại phân từ

30 VBN Qúa khứ phân từ

31 VBP Động từ không phải ngôi thứ 3 số ít thời hiện tại.

32 VBZ Động từ ngôi thứ 3 số ít thời hiện tại.

33 WDT Định từ bắt đầu bằng -Wh

34 WP Đại từ bắt đầu bằng -Wh

35 WP$ Đại từ sở hữu bắt đầu bằng -Wh

36 WRB Trạng từ bắt đầu bằng -Wh

PHỤ LỤC 2

MỘT SỐ LUẬT CHUYỂN ĐỔI CÚ PHÁP MỨC NGỮ

STT Nội dung luật chuyển đổi

1 prpos=({NP}) & pos(1,2)=({NN},{CD}) & idx(1,2)=({2},{1}) : idx(1,2)=({1},{2})

2 prpos=({NP}) & pos(1,3)=({DT},{NN},{POS}) & wrd(1)=({DT},{the}) & idx(1,3)=({2},{3}, {1}) : idx(1,3)=({1},{3},{2}) (adsbygoogle = window.adsbygoogle || []).push({});

3 prpos=({NP}) & pos(1,2)=({NNP},{CD}) & idx(1,2)=({2},{1}) : idx(1,2)=({1},{2}) 4 prpos=({VP}) & pos(1,3)=({MD},{ADVP},{VP}) & idx(1,3)=({1},{2},{3}) : idx(1,3)=({2},

{1},{3})

5 prpos=({NP}) & pos(1,3)=({DT},{ORD},{NN}) & idx(1,3)=({1},{2},{3}) : idx(1,3)=({1},{3}, {2})

6 prpos=({ADJP}) & pos(1,2)=({RB},{JJR}) & wrd(1)=({RB},{much}) & idx(1,2)=({1},{2}) : idx(1,2)=({2},{1})

7 prpos=({SQ}) & pos(1,3)=({MD},{NP},{VP}) & idx(1,3)=({1},{2},{3}) : idx(1,3)=({2},{1}, {3})

8 prpos=({ADVP}) & pos(1,2)=({RBS},{RB}) & idx(1,2)=({1},{2}) : idx(1,2)=({2},{1}) 9 prpos=({NP}) & pos(1,3)=({VB},{NN},{CD}) & idx(1,3)=({1},{3},{2}) : idx(1,3)=({1},{2},

{3})

10 prpos=({SBARQ}) & pos(1,3)=({WHADVP},{SQ},{.}) & idx(1,3)=({1},{2},{3}) : idx(1,3)=({2},{1},{3})

11 prpos=({NP}) & pos(1,4)=({DT},{NN},{NN},{POS}) & idx(1,4)=({2},{4},{3},{1}) : idx(1,4)=({1},{4},{3},{2})

12 prpos=({ADJP}) & pos(1,3)=({RBS},{RB},{VBN}) & idx(1,3)=({1},{2},{3}) : idx(1,3)=({3}, {2},{1})

13 prpos=({NP}) & pos(1,4)=({DT},{JJ},{NN},{POS}) & wrd(1)=({DT},{the}) & idx(1,4)=({2}, {4},{3},{1}) :

idx(1,4)=({1},{4},{3},{2})

14 prpos=({NP}) & pos(1,3)=({DT},{JJ},{NN}) & wrd(2)=({JJ},{great}) & idx(1,3)=({1},{3}, {2}) : idx(1,3)=({1},{2},{3})

15 prpos=({NP}) & pos(1,4)=({JJ},{:},{NN},{NNS}) & idx(1,4)=({1},{2},{4},{3}) : idx(1,4)=({4},{1},{3},{2})

PHỤ LỤC 3: MỘT SỐ KẾT QUẢ DỊCH THỬ NGHIỆM

STT Câu Tiếng Anh Câu dịch Tiếng Việt Đánh giá

1. Scientists finished a complicated experiment . Những nhà khoa học đã hoàn thành một cuộc thí nghiệm phức tạp . E 2. Can you see the keyboard, RAM, and mouse ? Bạn có thể thấy bàn phím , RAM , và chuột ? E 3. The bonus is sent into the worker 's salary . Tiền thưởng (bị/được) gửi vào tiền lương của người lao động . E 4. The Laser is not limited to sciences. <kỹ> không chỉ giới hạn với những khoa học . B 5. The information technology has grown extremely in the past decade . Kỹ thuật sự cung cấp tin tứcqua . lớn mạnh vô cùng trong thập kỷ M 6. The monitor, and speakers are useful output devices . Màn hình , và các loa là các thiết bị xuất có ích . E 7. Animals include the following main classes : Những động vật có những giai cấp chính sau : M 8. Most word processing features are used to format the document. Hầu hết các tính năng xử lý văn bản đều được sử dụng để định

dạng tài liệu. E

9. Fonts have names like Times Roman, Helvetica, and Palatino. Các font có các tên gọi như Times Roman, Helvetica, và

Palatino. E

10. There are no true loves. Không những lòng yêu thật có . B 11. These productivity programs are the primary working tools in many

organizations. Các chương trình nghiệp vụ này là những công cụ làm việc chủ yếu trong nhiều tổ chức. E 12. Many documents, such as business letters, require margins of a

standard width. Nhiều tài liệu, chẳng hạn như các thư thương mại, đòi hỏi các lề có một độ rộng tiêu chuẩn. E 13. The vertical dotted lines represent the left and right margins on the

page. Các đường kẻ dọc đứt quãng đại diện cho các lề trái và phải trên trang giấy. E 14. The mouse, trackball enable you to draw or point on the screen . Chuột , Trackball cho phép bạn vẽ hoặc trỏ trên màn hình . E 15. These machines are known as washing machines. Những máy móc này được gọi là đang rửa những máy móc . B 16. If so, many young people are certainly not alone . Nếu có , thì chắc chắn chẳng phải một mình đâu . những dân tộc trẻ nhiều B 17. Computers consist of the following models : Những máy điện toán gồm có những kiểu sau : M 18. The usage of an main output device is to present encoded data to the user . Cách dùng của một thiết bị xuất chính là biểu diễn dữ liệu (bị/được) ghi thành mật mã cho người sử dụng . E

19. Đơn lựa chọn . Single choice . E

20. Back Up Your Hard Disk. Sao lưu đĩa cứng của bạn. E

21. It just be a combination of hydrogen and oxygen . Nó chỉ là một sự kết hợp Hyddrô và Oxy . E 22. The main function of keyboard is to get data . Chức năng chính của bàn phím là được dữ liệu . M 23. This experiment is the Newton experiment . Cuộc thí nghiệm này là cuộc thí nghiệm NEWTON . E 24. Compare the character between lion and tiger . Hãy so tính nết giữa con sư tử và hổ . M 25. The responsibility of doctor is to help patients . Trách nhiệm của bác sĩ y khoa là giúp đỡ những người bệnh . E 26. Identify three main features of important problems . Xác định ba đặc trưng chính của những vấn đề quan trọng . E 27. You understand its important ideas and points . Bạn hiểu trọng của nó .những mũi nhọn mũi kim và những quan niệm quan M

28. A file that user can use is often called a document . Một tập tin mà người sử dụng có thể dùng thường được gọi là tài liệu . E 29. The earth is a round, big object that spins around its axis . Cái đất là một vật tròn , to xoay quanh trục của nó . M 30. Some types of hardware can act as both input and output devices . Một số loại phần cứng có thể làm việc như cả hai thiết bị nhập và xuất . E 31. Columns are effective formats for certain types of documents. Các cột là những định dạng hiệu quả đối với một số những loại

tài liệu. E

32. Their functions are different, but they work in same ways . Các chức năng của chúng thì khác , nhưng chúng làm việc theo những cách đều đều . M 33. The principal meeting has delayed tremendously in the last week . Cuộc mít tinh chính (bị/được) làm chậm trễ khủng khiếp trong tuần lễ cuối cùng . E 34. Avoid the interaction between fire and electricity . Hãy tránh sự ảnh hưởng lẫn nhau giữa lửa và điện . M 35. Can you answer the question, Nam ? Bạn có thể trả lời câu hỏi , NAM ? E 36. The processor is integrated into the robot 's brain . Máy chế biếncủa người máy . (bị/được) hợp thành một thể thống nhất vào óc M 37. You control the machine by moving it across a flat surface and pressing its buttons . Bạn điều khiển cái máy móc bằng cách di chuyển nó ngang qua một bề mặt phẳng và nhấn những nút của chúng . E 38. Security software lets you detect and destroy viruses of all types . Phần mềm cả các kiểu .sự yên ổn cho bạn dò ra và phá những virut thuộc tất M 39. Using a machine, remember each component you can identify . Khi sử dụng máy móc , nhớ cho mỗi thành phần bạn có thể xác định được . E 40. At this moment, the family can issue decisions to the son . Vào trai .chốc này , gia đình có thể ra những sự giải quyết cho con M 41. Many tables also include a special first column that describes the (adsbygoogle = window.adsbygoogle || []).push({});

contents of each row. Nhiều bảng còn kèm theo một cột đầu tiên đặc biệt vốn mô tả nội dung của mỗi hàng. E 42. Some features of Windows 2000 include the following: Một số các tính năng của Windows 2000 gồm có như sau: E 43. Test the result when you are done. Hãy thử thách kết quả này khi bạn làm xong . M 44. Practice some basic formatting: Luyện tập một số thao tác định dạng đơn giản: E 45. Using the hand, push a rock. Sử dụng tay , hãy một đá . M 46. It is easy to find information about Linux. Dễ tìm các thông tin về Linux. E 47. Many new techniques also provide the templates. Nhiều những kỹ xảo mới cũng cung cấp cái các khuôn mẫu . M 48. Data can consist of letters, numbers, sounds . Dữ liệu có thể bao gồm những ký tự , các con số , những âm thanh . E 49. DOS is a single-user OS that supports only 640 KB of memory. DOS là một hệ điều hành đơn người sử dụng, hỗ trợ chỉ 640 KB

bộ nhớ. E

50. Document dimensions are also decided by the orientation of the paper. Các số đo kích thước của tài liệu cũng hướng xoay của giấy . (bị/được) giải quyết bởi M 51. You can take a picture, then leave the money. Bạn có thể cầm một bức tranh , sau đó để lại tiền . E 52. DOS supports only one user and a single processor. DOS chỉ hỗ trợ một người sử dụng và một bộ xử lý đơn. E 53. You can have a bath, then eat the turkey. Bạn có thể có một sự tắm , sau đó ăn gà tây . M 54. If the pro-gram prompts you to save the file, choose No. Nếu chương trình nhắc bạn lưu tập tin, bạn hãy chọn No. E 55. The resulting page, as it appears on the Web, is shown in Figure 1.21. Trang kết quả, như nó xuất hiện trên Web, được minh họa trong

Hình 1.21. E

56. Select the word again and click the Bold tool to turn off the effect. Hãy chọn từ này một lần nữa và nhấn vào công cụ Bold để tắt

hiệu ứng . E

57. To mark text for editing, you select the text to be edited. Muốn đánh dấu văn bản để biên tập, bạn chọn những chữ cần

được biên tập. E

58. Although a word processing program cannot make you a good writer,

it can help. Tuy một chương trình xử lý văn bản không thể biến bạn thành một nhà văn giỏi, nhưng nó có thể giúp đỡ. E 59. Devices consist of the following models : Những phương sách gồm có những kiểu sau : M 60. Distinguish desktop publishing software from word processing

software. Phân biệt phần mềm chế bản điện tử với phần mềm xử lý văn bản. E 61. Changing an existing document is called editing the document. Việc thay đổi một tài liệu có sẵn được gọi là biên tập tài liệu đó. E

62. So, what types of information can you estimate about the memory? system Vậy , những loại thông tin gì mà bạn có thể đánh giá về hệ thống ? sự nhớ M 63. It features a command-line interface Nó có một giao diện dòng lệnh E 64. WORD PROCESSING PROGRAMS AND THEIR USES CÁC CHƯƠNG TRÌNH XỬ LÝ VĂN BẢN VÀ NHỮNG

CÔNG DỤNG CỦA CHÚNG E

65. The ROUTER is one type of network device . ROUTER là một kiểu phương sách nối mạng . M

66. LESSON QUIZ KIỂM TRA BÀI HỌC E

67. Remember the relationship between sport and our health . Hãy nhớ mối quan hệ giữa thể thao và sức khoẻ của chúng ta . E 68. Popular Web browsers also provide editors that enable you to create

feature-rich Web pages. Các trình duyệt Web phổ biến cũng cung cấp các trình biên tập vốn cho phép bạn tạo ra các trang Web giàu tính năng. E 69. Then select the word by pressing an yellow key on the keyboard. Sau đó lựa chọn từ này bằng cách ấn vào một phím vàng trên bàn phím . E

70. Language Tools Các công cụ ngôn ngữ E

71. These documents are known as Web pages. Các tài liệu này được gọi là các trang Web. E 72. Using a computer, protect each device you can know . Khi sử dụng máy tính , bảo vệ cho mỗi thiết bị bạn có thể biết được . E 73. Four places of bus stops. Bốn những nơi điểm ngừng xe buýt . E 74. The only time you need to press Enter is at the end of a paragraph. Lần duy nhất bạn cần nhấn Enter là ở cuối một đoạn . E 75. For this main reason and others, any two Windows 98 systems can

look same. Vì 98 bất kỳ có thể trông này chính lý do và một số lý do khác, hai hệ thống Windows đều đều. B 76.

Despite their differences in usage and function, all these computers are

part of a complete communication system . Ngoại trừ sự khác nhau của chúng về cách dùng và chức năng , tất cả các máy tính này đều là một thành phần của một hệ thống sự truyền đạt đầy đủ . M 77. The second section is a three-column format. Phần thứ hai là một định dạng gồm ba cột. E 78. In a word processor, you press New to open a new document. Trong một trình xử lý văn bản , bạn nhấn mới để mở một văn kiện mới . E 79. Name five types of utilities that enhance an operating system's

functioning. Nêu tên năm loại tiện ích vốn nâng cao khả năng hoạt động của một hệ điều hành. E 80. One of the most exciting things of the Titanic is its shape. Một trong những cái lý thú nhất của TITANIC là hình của nó . M 81. Newspapers, magazines, documents, and advertisements crowd your mailbox each day. Các báo , các tạp chí , những văn kiện , và các tờ quảng cáo nhét đầy hộp thư của bạn mỗi ngày . E 82. List all the interesting PC operating systems. Liệt kê các hệ điều hành PC làm quan tâm. M 83. Requestingbeers and coffees Đang thỉnh cầunhững rượu bia và những cà phê M 84. The FUSIGIN is one type of network software . FUSIGIN là một kiểu phần mềm nối mạng . E 85. Journalists need a special environment . Những nhà báo cần một môi trường đặc biệt . E 86. You will understand about variety types of system software in later chapters . Bạn sẽ hiểu các loại thống ở những chương sau .trạng thái khác nhau của phần mềm hệ M 87. Most new computers come equipped with these modern devices . Hầu hết các máy vi tính mới đều được trang bị với này thiết bị hiện đại . E 88. When it finds the operating system, the computer loads a portion of it into memory . Khi nó tìm thấy hệ điều hành , máy tính nạp một phần của nó vào bộ nhớ . E 89. Can you find the mother, and father ? Bạn có thể thấy mẹ , và cha ? E 90. One of the most important projects of the Google is its expansion. Một trong những kế hoạch quan trọng nhất của GOOGLE là sự mở rộng của nó . E 91. This can also lead to career advancement opportunities . Điều này cũng còn có thể dẫn đến các cơ hội làm việc thuận tiện hơn . E 92. The second subject is a geometric problem. Chủ đề thứ hai là một vấn đề hình học . E 93. The new modern technologies are also being used to map the human genome, or DNA structure . Cái những kỹ thuật hiện đại mới cũng được dùng để vẽ sơ đồ cấu tạo gen của con người , hoặc cấu trúc DNA . E

94. Page Formats Các định dạng trang E

95. Water can be especially important in fields. Nước có thể đặc biệt quan trọng trong những đồng ruộng . E

Một phần của tài liệu Đồ án tốt nghiệp Xây dựng thử nghiệm hệ dịch tự động Anh - Việt theo hướng tiếp cận So khớp tập mẫu (Trang 102)