Kiến trúc của hệ học dịch - AA Đánh giá về mô hình- 123docz.net

l AA Đánh giá về mô hình tăng trưởng

5.1.2 Kiến trúc của hệ học dịch

T ư ơ n g tự n h ư hệ d]ch, hệ học dịch được xây dựng trên nền J2 E E /E JB Fram ew ork, cô n g n g h ệ JS P /S ervlet v à đ ượ c viết bằng n g ô n n gữ Java/JSP. N goài ra, hệ sử dụng chu n g khối hạ tầng dữ liệu (gồm động cơ từ điển và cơ sở tri thức được viết bằng C + + ) với hệ dịch. H ệ h ọ c dịch cũng được xây dựng như là m ộ t dịch vụ web, người

Trư ơng Xuân N a m - Trang 79 - Luận văn (hạc sĩ

sử d ụ n s (chính xác là người xây d ự n e mâu dịch) khai thác dịch vụ thông qua một w eb b ro w ser bất kỳ. H ình 5-3 dưới đây thể hiện kiến trúc của hệ học dịch.

---►

í ^

Đ ộ n g cơ từ điển ---►

Cơ sở tri thức T ừ điển song n aữ <--- (Visual C + + /C O M + )

^ y1 -4--- R M I/IIO P B usiness L ogic (C + + /Ja v a/E JB ) V________ W eb S erver (JSP/Servlet) Presentation (JSP) D ó n g hàng văn bản V J Sinh tri thức dịch Tổ họp tri thức _y Câu nguồn -> ► WEB Clients Câu đích tương đương H ì n h 5-3: K iến trúc của hệ học dịch.

Có thể nhận thấy kiến trúc của hệ dịch và hệ học dịch hoàn toàn tươ ng tự nhau, điều khác biệt qu a n trọng nh ấ t g iữa hai hệ thống này là các khối x ử lý dữ liệu đặt trong tầng A pplicatio n L o gic. T ro n g hệ học dịch, tầng A pplication L o gic gồm:

• K h ố i d ó n g h à n g v ă n b ả n : T h ự c hiện dóng hàn g m ẫu dịch tươ ng đương. • K h ố i s in h t r i t h ứ c d ịc h : Thực hiện việc sinh tri thức dịch từ kết quả dóng

hàng và bổ s u n g v à o cơ sở tri thức.

• K h ố i tố h ọ p t r i t h ứ c : T ổ hợp các luật cơ bản để sinh tri thức mới.

Trương Xuân Nam - Trang 80 - Luận văn thạc sĩ

5.2 Một số cấu trúc dư liệu chính trong chương trình

T r o n g phần này luận văn sẽ trình bày về một sô cấu trúc dữ liệu chính trong chương trình, đây là các cấu trúc dữ liệu cơ bản để biểu diễn ngôn n g ừ và các thành phần của nó.

5.2.1 Luật ngữ pháp

Liên quan đến luật ng ữ pháp g ồ m có hai câu trúc chính:

• Lớp Rule: T h ể hiện cấu trúc dữ liệu của m ột luật văn p h ạ m gồ m kiểu luật văn phạm, kí hiệu vế phải, danh sách các kí hiệu vế trái và tập các kí hiệu kết thúc (sử dụ ng trong trư ờ n g hợp luật văn phạm thứ cấp).

• Lớp S y n ta x R u Ie : T hể hiện toàn bộ thông tin về luật gồ m phần thân luật và 3 loại cú pháp điều khiển đi kèm.

B ản g 5-1 sau đây thể hiện n h ữ n g khai báo chi tiết bên trong các lớp.

p u b l i c class R u l e { int ruleType; int leftTerm; int [] r i g h t T e r m s ; St r i n g [] terms ; } p u b l i c class S y n t a x R u l e { R u 1e t h e R u 1 e ; St r i n g s y n L l ; St r i n g s y n L 2 ; String s y n L 3 ; } B ả n g 5-1: C ác cấu trúc dữ liệu ngữ pháp. 5.2.2 Thông tin về từ tố

C ấu trúc d ữ liệu từ tố g ồ m 4 loại liên quan, đã được đề cập đến trong H ình 4-2, đó là:

Tr ư ơn g Xuân Nam - Trang 81 - Luận vản thạc sĩ

• Lớp E x a m p le : Thể hiện thông tin về ví dụ sử dụng từ vựng.

• Lớp S e m a n tic : Lưu trữ thông tin về một lớp ngữ nghĩa của từ bao gồm nội d u n s củ a nơhĩa, tập các thuộc tính của nghĩa và danh sách các ví dụ sử dụng của ngh ĩa đó.

• Lớp W o r d F o r m : Lưu trữ thông tin về một phân loại n g ữ pháp của từ gồm phân loại ngữ pháp, các biến thê ne;ữ pháp, các luật thứ cấp đi kèm với phân loại n g ữ pháp và tập các lớp nơữ nghĩa có thể có trong phân loại ngữ pháp hiện tại.

• Lớp W o r d : C hứa tất cả các thành phần về một từ tố.

B ản» 5-2 dưới đây thể hiện các thành phần chi tiết bên trong mỗi lớp.

p u b l i c class E x a mple { int status; St r i n g source; S t r i n g target; p u b l i c class Semantic { St r i n g [] contents ; b o o l e a n [] attribute?; Ex a m p l e [] examples; p u b l i c class W o r d F o r m { int grammarType; St r i n g [] forms ; Rule [] rules ; S ema n t i c [] meanings; p u b l i c class W o r d { S t r i n g theWord; b o o l e a n isOriginal; W o r d F o r m [] forms ; B ả n g 5-2 : Các cấu trúc dữ liệu từ tố. C H Ư Ơ N G T R Ì N H V À T H Ử NG HI ỆM

rrương Xuân Nam - fra il g 82 - Luận văn thạc sĩ

5.2.3 Cây phân tích ngữ pháp

Cây phân tích ngữ pháp dược sử dụng trong chương trình là cấu trúc cây đa phân (m ột nút cha có thể có nhiều nút con, mỗi nút con có một nút cha duy nhất). Lớp T reeN ođ e dưới dây mô tả cấu trúc của m ột nút trong cây. Chú ý rằng ch ương trình sử d ụ n s trực tiếp kiểu dữ liệu cây đa phân (trong nút cha có m ảng các nút con) chứ không đưa về d ạng cây nhị phân truyền thong, c ấ u trúc trực tiếp nh ư vậy làm giảm độ phức tạp khi xây dựng các khối xử lý ng ữ nghĩa (đòi hỏi duyệt các nút con).

p u b l i c class TreeNode { int g r a m m a r T y p e ; St r i n g word; W o r d F o r m form; S y n t a x R u l e rule; T r e e N o d e [] c h i l d s ; }

B ả n g 5-3: Các cấu trúc cây phân tích ngữ pháp.

5.3 Các số liệu và thử nghiệm

N gôn ngũ’ & cô n g cụ sử dụng:

■ N g ô n n g ữ C++, trình biên dịch: Visual c + + 6.0 SP5. * N g ô n n g ữ Java, trình biên dịch: Borland JBuilder X. ■ W eb server: A pache T o m cat 4 .1 ,27-LE.

C ấu hình m áy tính sử dụng (server):

■ H ệ điều hành: M icrosoft W indow s X P Professional SP1. ■ Bộ n h ớ trong: 512 M B

■ B ộ vi x ử lý Petium 4 2.0 GHz. N g u ồ n d ữ liệu s ử d ụ n g :

■ T ừ điển Anh-V iệt: 150000 từ (nguồn: M TD 301).

■ M au câu Anh-V iệt: 37000 mẫu (nguồn: T ự lọc từ các sách dạy tiếng Anh).

Trương Xuân Nam - Trang 83 - Luận văn thạc sĩ

■ Luật văn phạm tiếng Anh tổng quát: 729 luật (nguồn: Babylon G ram N et). C h ạ y t h ử n g h iệ m : C hươn g trình chạy theo 5 lượt với số lượng mẫu tăns; dần (200 mẫu, 1000 m ẫu. 5000 mẫu, 15000 mẫu và cuối cùng là toàn bộ 37000 mẫu), các m ẫu k h ô n g được lấy ngẫu nhiên mà được lấy lân lượt theo thứ tự.

STT Số m ẫ u k iể m tra Thời gian (giây) Số mẫu khớp Số luật thứ cấp Số luật tổ hợp 1 200 / 37000 3 174 169 12 2 1000 / 37000 41 881 839 71 3 5000 / 37000 233 4237 3985 407 4 15000 / 37000 825 12970 11782 1116 5 37000 / 37000 2564 33567 30914 3239

B ả n g 5-4: s ố liệu thực hiện c hương trình học dịch.

5.4 Một số đánh giá về chương trình

Q ua số liệu thực hiện chương trình của bảng trên, có thể có m ột số đánh giá về hệ học dịch nhu sau:

• Thời gian hoạt động của hệ thống tăng tỉ lệ với số m ẫu cần học, điều này hoàn toàn phù hợp với nhận định về độ phức tạp tính toán của thuật toán học dịch (xem B ảng 4-1).

• Số lượ ng m ẫu dóng hàng được dao động trong khoảng 7 3 % -9 1 % , như vậy chất lượ ng m ẫu và chất lượng thuật toán dóng hàng là tươ ng đôi tốt.

• Số luật thứ cấp bổ sung được vào cơ sở tri thức là trên 9 1% số m ẫ u dóng h àn g được, số 9% m ẫu dóng hàng được n h ư n g không được bổ sung vào cơ sở tri thức là do p hát hiện được là đã có m ẫu tương tự trong cơ sở tri thức. C ó thể nhận định rằng đây không phải là kết quả tốt của phép kiểm tra tri thức vì trên lý thuyết nếu cơ sở tri thức càng lớn thì khả năn g bổ su ng vào cơ sở tri thức càng nhỏ và như vậy nếu số m ẫu thử ng hiệm càng lớn thì tỉ lệ bổ

Trưcmii Xuân Nam - Trang 84 - Luận văn thạc sĩ

sun g vào cơ sở tri thức phải giảm đi nhiêu (trona, khi đó tỉ lệ bổ sung vào cơ sở tri thức của hệ học dịch luôn tròn 91%).

• Số luật tổ hợp phát sinh được cỡ khoảng từ 8% đến 10% số luật thứ cấp, đây là con sổ chấp nhận được khi tô hợp luật.

• D o số lượng m ẫu quá lớn và chưa có các tiêu chí đánh giá cụ thể nên luận văn chưa thể đưa ra các đánh giá về chất lượnơ của tri thức được sinh ra.

Trương Xuâ n Na m - Trano 85 - Luận văn thạc sĩ

KÉT LUẬN

Luận v ăn đặt ra m ục tiêu là nghiên cứu phươn« pháp xây d ự n g cơ sở tri thức cho hệ dịch tự động. Đ ư ợ c trình bảy trong 5 chương, luận văn đã đạt được những kết quả sau:

1. K h ả o cứu: Tìm hiểu và nghiên cứu về các hệ thống dịch m áy và các mô hình x ử lý ngữ nghĩa trong dịch máy. K et quả được trình bày trong các c h ư ơ n g 1, 2 và 3; gồm các kết quả chính sau:

o T rình bày, liên hệ và so sánh giữa các chiến lược dịch m áy khác nhau, từ những hướng tiếp cận cổ điển (dịch trực tiếp, dịch chuyển đổi,...) đến những hướng tiếp cận mới (dịch b ang thống kê, dịch bằng ví dụ,...).

o T rình bày cấu trúc một hệ dịch tự động hoàn chỉnh từ bước khởi đầu (tiền x ử lý, phân tích hình thái) đến các bước xử lý chính và ra kết quả cuối cùng (phân tích ngữ pháp, xử lý n g ữ nghĩa,...),

o N g h iê n cứu sâu về xử lý ngừ nghĩa trong dịch tự động đặc biệt là p h ư ơ n g pháo xử lv bằng cú nháp điều khiển,

o Đ ư a ra các phân tích, đánh giá về ưu nhượ c điểm của p h ư ơ n g pháp xử lý ngữ nghĩa bằng cú pháp điều khiển qua đó đề ra p h ư ơ n g hướng khắc phục bằng các xây dựng hệ học dịch tự động.

2. Đ ề x u ấ t m ó i: Xây dựng một mô hình học dịch thông qua các m ẫu văn bản so n g n g ữ tư ơ n g đương. Nội dung được trình bày trong c h ư ơ n g 4, trong đó giải quyết được các vấn đề sau:

o X ây dựng thuật toán dóng hàng văn bản nhanh để phục vụ cho việc sinh tự động các tri thức dịch,

o X â y dự ng thuật toán kiểm tra sự tương đ ươ ng giữa hai m ẫu dịch, qua đó xây dựng được ph ươ n g pháp đánh giá xem m ột m ẫu dịch đã có trong cơ sở tri thức hay chưa.

Trương Xuân N a m - Tra ng 86 - Luận vfin thạc sĩ

o X ây dựns; thuật toán sinh tự độn g liai loại cú pháp điều khiển (cú pháp điều khiển chọn n ° h ĩa và cú pháp diều khiển sinh câu).

3. T h ử n g h iệ m : X ây d ự n g c h ư ơ n g trình thử n g h iệ m các đề x u ấ t của c h ư ơ n g 4. Các kết quả của thử ng h iệ m được trình bày trong c h ư ơ n g 5, bao gồm:

o T hiết kế kiến trúc hệ thốnơ cho hệ dịch và hệ học dịch trên nền tảng kiến trúc E JB /J2 E E .

o C ác cấu trúc dữ liệu chính yếu đ ư ợ c sử d ụ n g khi x ây dự n g hai hệ thống.

o C ác kết quả kiểm ch ứ n g và đánh giá kết quả điểm chứng.

Để p hát triển hoàn thiện hơn m ô hình học tự độ ng theo m ẫu, các kết quả của luận văn sẽ được tiếp tục p hát triển theo các h ư ớ n g sau:

• X ây d ự n g cấu trúc dữ liệu thích hợp để lưu trữ cơ sở tri thức dịch n h à m tăng tốc độ tìm kiếm v à cập n hật tri thức dịch.

• X ây d ự n g cấu trúc d ữ liệu biểu diễn k h ô n g gian n g ữ ng h ĩa thích hợp: H iện tại hệ th ố n g biểu diễn n g ữ nghĩa bàng tập hợp các thu ộc tính, cách biểu diễn này chỉ thích hợp với việc trích chọn đặc trư ng n g ữ n g h ĩa v à so sánh băng nhau g iữ a các tập thuộc tính. P h ư ơ n g p háp b iểu diễn hiện tại k h ô n g cho phép hệ th ố n g định ngh ĩa các phép so sánh có thứ tự dẫn đến hệ q u ả là kh ô n g thể thực h iệ n các p h é p cụ thể hóa v à trừu tư ợ n g hóa trong k h ô n g g ian n g ữ nghĩa cũng n h ư k h ô n g thể sắp thứ tự các giá trị ng ữ nghĩa.

• X ây d ự n g p h ư ơ n g p háp tổng quát hóa các luật văn p h ạ m thứ cấp nhằm cho phép hệ học dịch khả n ăn g tổ h ọp nhiều luật văn p h ạ m th ứ cấp th à n h m ộ t luật tổ n g quát hơn. L u ậ t tổng quát này cho p h é p hệ dịch có thể dịch m ột tập p h o n g p h ú hơn các câu nguồn.

• X ây d ự n g p h ư ơ n g ph áp học luật cơ bản b ằ n g cách tìm các điể m tư ơ n g đông c ơ bản trong hệ luật của cơ sở tri th ứ c (chia n hỏ luật lớn) và tổ n g quát hóa các đặc điểm này thành các luật mới.

Tr ư ơn g Xuân N a m - Trang 87 - Luận văn thạc sĩ

• Ket hợp với các phươ ng pháp thông kê nhằm xây dựng hàm lượne; giá độ kh ớ p từ v ự n g tốt hơn (xem phần 4.2.3).

• Cải tiến thuật toán dóng h à n g văn bản nhanh nhằm khắc phục một số nhược điểm của thuật toán hiện tại (coi độ quan trọng của các từ là như nhau, dẫn đến việc đôi khi ưu tiên cho nh ữ n g từ không quan trọng tron g câu m à bỏ mất ng h ĩa của nh ữ n g từ khác). Phươna, h ư ớ n g khắc p hục dự kiến sẽ là xây dựng m ột dan h sách các từ được ưu tiên hơn (chính xác hơn là tiến hành phân lớp từ và sử đụn» thuật toán với từ n s lớp từ có độ ưu tiên bằng nhau). Ví dụ: Ưu tiên cho các từ quan trọng đóng vai trò hình thành n gữ nghĩa của câu như đ ộ n g từ và danh từ.

• Phát triển thử nghiệm hiện tại trở thành m ột dịch vụ h o à n chỉnh, cho phép ngườ i sử dụng xem kết quả dịch tự động các trang w e b tiếng Anh.

TÀI LIỆU THAM KHẢO T à i liệu t h a m k h ả o tiế n g V iệ t

[1 ] L ê A n h C ư ờ n g (2 0 0 1 ), X â v d ự n g b ộ p h â n t í c h c ủ p h á p t i ế n g A n h t r o n g h ệ

dịch tự động Anh-V iệt, Luận văn thạc sĩ, K h o a C ông nghệ, Đại học Q uốc gia

Hà Nội.

[2] Đ in h Điền, N guyễn V ăn Toàn, N gô Q uốc H ưng, N g u y ễ n L ư u T hùy N gân , Đ ỗ X u â n Q uang, Phạm Phú Hội (2001), “C ác tiếp cận dựa trên sự p hân lớp cho việc liên kết từ A n h-V iệt”, K ỷ yếu h ộ i n g hị khoa học: K i niệm 25 năm

thành lập viện CNTT, trang 306-312.

[3] T rư ơ n g X uân N a m (2001), “M ột p h ư ơ ng pháp nâng cao hiệu n ăng củ a các ô tô m á t đoán nhận văn phạm phi ngữ cản h ” , K ỷ yếu H ộ i thảo Quốc g ia : M ộ t

số vấn đề chọn lọc của CNTT, N X B K H K T , Hà Nội, 2002, trang 158-162.

[4] T rư ơ n g X u ân N am , Hồ Sĩ Đàm, N g u y ễ n T hanh Tùng, (2002), “X ây d ự n g bộ sinh c h ư ơ n g trình dịch các ngôn n g ữ thuộc lớp p h i-n g ữ -c ả n h ” , K ỷ yếu H ộ i

thảo Quốc g ia : M ộ t sổ vấn ãề chọn lọc của CNTT, N h a Trang.

[5] T r ư ơ n g X uân N am , Hồ Sĩ Đ à m (2004), “ Som e issues on processing sem antics in autom atic translation o f natural lan gu age” , Tạp c h i B un chính

Viễn thông (Posts and Telecommunications J o u rn a l - ISSN 0866-7039), SÔ

225 (2 /2 0 0 4 ), tra n g 42-46.

[6] N g u y ễ n Q uốc Quân, Trần H ữu N hân (1996), “E n V iM A T : M ộ t hệ th ố n g ph iê n dịch tự động từ A nh sang V iệ t”, K ỳ yếu Đ ạ i h ộ i Quốc tế 1996

(P roceeding o f In te rn a tio n a l conference 1996), 2/3, trang 99-119.

Tài liệu tham khảo tiếng Anh

[7] A rn o ld D., B alkan L., H um ph reys R. L., M eijer s., Sadler L. (1994),

M a chine tra n sla tio n : An in tro du cto ry guide, B lack w ells/N C C , London.

T r ư ơ n g Xuân N a m - Trang 88 - Luận văn thạc sĩ

Trương Xuân Nam - Trang 89 - I ,uận văn thạc sĩ

[8] Brill E. (1995), " T ra n sfo rm ation -B ased Error-D riven Learning and Natural L a n g u a g e Processing: A Case Study in Part o f Speech T a g g in g ” .

C om p u ta tio n al L in g u istics 1995.

[9] B ro w n R. D. (1999), Exam ple-based machine tra n s la tio n, [O N LIN E] at h ttp ://w \v\v.cs.cm u.edu/afs/cs.cm u.edu/user/ralfp»b/W W W /ebm Ư ebm t.htm l

[1 0 ] C a rl P o lla rd , Iv a n A . Sag, (1 9 9 4 ), H e a d - d r i v e n P h r a s e S t r u c t u r e G r a m m a r .

T h e U niversity o f C h icago Press.

[11] C h o u e k a Y. et al. (2000), “ A know ledge-lite approach to w o rd align m ent” ,

P a ra lle l Text P rocessing (edited by Jean Veronis), K lw er A c ad em ic Press,

p age 97-116.

[12] C hiristian F. et al. (2000), “Parallel text alignm ent using crosslingual info rm atio n retrieval te chn iqu es” , P a ra lle l Text Processing (edited by Jean V eronis), K lw e r A c a d e m ic Press, p age 187-200.

[13] C h risto p h e r D. M a n n in g , H inrich Schiitze, (1999), Foundations o f S tatistical

N a tu ra l Language Processing. The M IT Press.

[14] E u g e n e C harniak, (1996), S ta tistica l Language L e a rn in g, T h e M IT Press. [15] Fujisak i T., Jelin ek F., C o ck e J., B lack E. (1991), “A Probabilistic Parsing

M e th o d for Sen tence D isam b ig u atio n ” , C urre n t issues in P arsing

Technology, C a rne gie M e llo n U n i., page 139-152.

[16] H u tc h in s w . J., S o m ers H. L. (1992), An in tro d u ctio n to machine

translation, A c a d e m i c P r e s s , L o n d o n .

[17] K a y M. (1973), “A u to m a tic translation o f natural lan g u ag e s” , Deadalus,

102(3), page 217-230.

[18] K a y M . (1984), “ F un ctio nal U nification G ram m ar: A form alism for m achine tra n slatio n ” , Proceedings o f the 10th In te rn a tio n a l Conference on C o m p u ta tio n al L in g u is tic s (C O L IN G ’84), page 75-78.

[19] K e r s . J., C h an g J. s . (1997), “A C lass-based A p p ro a ch to W ord A lig n m e n t”, C o m p u ta tio n a l L in g u is tic s , 23(2), page 313-343.

T r ư ơ n g Xuân Nam - Trang 90 - Luận văn thạc sĩ

[20] K oichi Takeda, (1996), “ Pattern-based M achine T ran sla tio n ”, P ro c .o f C olin g '96, page 1 154-1158.

[21] Isahara H., H a ru n o M. (2000), “Jap anese-E nglish aligned bilingual co rp o ra ” , P a ra lle l Text Processing (edited by Jean Veronis), K lw er A c ad e m ic Press, page 313-334.

[22] M e la m e d I. D. (2000), ‘'Pattern recognition for m ap ping bitext c o rre sp o n d e n c e ” , P a ra lle l Text Processing (edited by Jean V eronis), K lw er A c ad e m ic Press, page 25-48.

[23] N atalia z . (2000), “ L earning sense disam biguation rules for M achine