X ử lý n g ữ ng h ĩa trong dịch tự động thực chất là giải quyết vấn đề chọn nghĩa chính xác cho từ v ự n g trong câu đích.
L ý d o p h ả i c ó v i ệ c c h ọ n n g h ĩ a c h o t ừ l à v ì t h ô n g t h ư ờ n g m ộ t t ừ c ó t h ể c ó n h i ề u n g h ĩ a , m ộ t t h ố n g k ê c h o t h â y r a n g m o i t ừ t i ế n g A n h c ó t r u n g b ì n h 1 , 8 n g h ĩ a k h á c n h a u . T ừ c ó n h i ề u n g h ĩ a n h c ý t r o n g t i ế n g A n h ỉ à t ừ “ s e t ” v ớ i 1 9 5 n g h ĩ a , t r o n g đ ó c ó 5 8 n g h ĩ a t h u ộ c l o ạ i d a n h t ừ , 1 2 7 n g h ĩ a t h u ộ c l o ạ i đ ộ n g t ừ v à 1 0 n g h ĩ a t h u ộ c l o ạ i t í n h t ừ .
N h ư vậy, việc một từ có nhiều nghĩa là m ột đặc trưng của ngôn n g ữ tự nhiên và việc chọn n g hĩa là một ph ần bắt buộc khi xây dựng hệ dịch tự động. T heo [25], có ba cách tiếp cận trong việc chọn nghĩa.
3.1.1 Chọn nghĩa đơn giản
Việc chọn n g h ĩa đơn giản được sử dụng vào thời kỳ đầu của các hệ dịch tự động, khi m à n ă n g lực của m áy tính còn thấp và các thuật toán xử lý văn p h ạ m cũng chưa phát triển. V iệc chọn nghĩa cho từ được thực hiện dựa trên m ột số quy tắc giản đơn cô định, n g hĩa của m ột từ được quyết định chủ yếu bởi từ loại của từ đứ n g trước hoặc từ đ ứ n g sau. P h ư ơ n g p h á p c h ọ n n g h ĩ a đ ơ n g i ả n đ ư ợ c s ử d ụ n g c h ủ y ế u t r o n g t i ế p c ậ n d ị c h t r ự c t i ế p . T r o n g t i ế p c ậ n n à y , p h ầ n c h ọ n n g h ĩ a g ồ m h a i g i a i đ o ạ n, l ự a c h ọ n t ừ l o ạ i v à l ự a c h ọ n n g h ĩ a . C ả h a i g i a i đ o ạ n đ ề u đ ư ợ c x â y d ự n g d ự a t r ẽ n c á c q u y t a c đ ơ n g i ả n , v ỉ d ụ : đ ứ n g s a u t í n h t ừ c h ỉ c ó t h ể l à m ộ t d a n h t ừ h o ặ c t í n h t ừ , m ộ t t ừ v i ế t h o a t h ì l à t ê n r i ê n g , . . . N ế u s a u k h i á p d ụ n g c á c q u y t ắ c m à v ẫ n c ó n h i ề u l ự a c h ọ n c h o n g h ĩ a c ủ a t ừ t h ì l ấ y n g h ĩ a t h ư ờ n g d ù n g n h ấ t ( n g h ĩ a c ó t ầ n s u ấ t s ử d ụ n g n h i ề u n h ấ t t h e o t ừ đ i ể n ) h o ặ c c h ọ n l ấ y n g ẫ u n h i ê n m ộ t n g h ĩ a n à o đ ó . X Ử LÝ N G Ữ N G H Ĩ A B Ả N G c ú P HÁ P Đ I Ề U KHI ÊN
T r ư ơ n g Xuân Nam - Trang 41 - Luận văn thạc sĩ
T ất nhiên quy tác chọn nghĩa giản đơn như vậy sẽ không cho kết quả đúng t r o n s
phần nhiều các trư ờ n c hợp và đây chính là một trong n h ữ n e lý do chính dẫn đến thất bại của những chươn g trình dịch thời kỳ mới được phát triển. Dù sao, ý tưởng chọn ng h ĩa của từ dựa trên các từ khác có liên quan trong câu cũng rất đúng đắn và ý tư ở n g này đã được phát triển xa hơn trở thành những p h ư ơ n g pháp x ử lý ngữ n s h ĩa hiện đại ngày nay.
3.1.2 Chọn nghĩa dựa trên thống kê - xác suất
P h ư ơ n g pháp chọn nghĩa dựa trên th ố n e kê được phát triển rất m ạnh trong những năm gần đây do sức m ạnh tính toán của máy tính đã được tăng cư ờ n g đán g kể và các k h o dữ liệu ngôn ngữ đã được tích lũy rất lớn đủ để đáp ứng các phép đo thống kê. H ầ u hết các hệ dịch chọn nghĩa dựa trên thống kê không hề có quá trình xử lý ng ữ n g h ĩa như các hệ dịch khác, việc chọn nghĩa hoàn toàn dựa trên các kết quả đo được về độ khớp của từ to w trong ngôn n g ữ nguồn với nghĩa s trong ngôn ngữ đích [13] [14], V â n đ ề h ó c b ủ a n h a i c ù a p h ư ơ n g p h á o c h ợ r . n g h ĩ a d ự a t r ê n t h ố n g k ê l à đ ị n h n g h ĩ a h à m đ o đ ộ k h ớ p M ( W , S ) n h ư t h ế n à o v à x â y d ự n g m ộ t p h ư ơ n g p h á p h i ệ u q u ả đ ể t í n h g i á t r ị h à m đ ó . R õ r à n g r a n g đ ộ k h ớ p M k h ô n g c h ỉ p h ụ t h u ộ c v à o w v à s v ì trong m ô i v ă n c ả n h t h ì w c ó t h ể n h ậ n c á c n g h ĩ a k h á c n h a u . N h ư v ậ y đ ơ n g i ả n n h ấ t t h ì h à m M c ũ n g p h ụ t h u ộ c v à o c ấ u t r ú c c â u đ ầ u v à o . C á c h t i ế p c ậ n v ă n p h ạ m x á c s u ấ t s ử d ụ n g đ ị n h n g h ĩ a h à m đ o đ ộ k h ớ p l à m ộ t h à m 3 t h a m s ổ M ( W , s , R ) , t r o n g đ ỏ R l à l u ậ t v ă n p h ạ m c h ứ a W ; n h ư v ậ y v ớ i m ỗ i m ộ t l u ậ t c ủ p h á p, t a c ỏ m ộ t đ ộ k h ớ p g i ữ a c ặ p W - S k h á c n h a u .
P h ư ơ n g pháp chọn ngh ĩa dựa trên thống kê - xác suất chỉ áp dụng được khi hệ dịch có m ột kho tư liệu lớn các cặp câu song ngữ tương đương, chính vì vậy giá thành xây d ự n g m ột hệ dịch theo tiếp cận này là rất cao do chi phí xây dự ng kho n g ữ liệu và chi phí thực hiện tính toán trên khối dữ liệu đó. N g ư ợ c lại, do là kết quả thố ng kê
Tri rơng Xuân Na m - Trang 42 - Luận văn thạc sĩ
Sổ lớn nên chất lư ợ n s của các cặp câu son» ngừ không cần quá cao v à nếu có dừ liệu sai thì dữ liệu đó cũng không làm thay đổi quá nhiều chất lượ ng của hệ dịch. 3.1.3 Chọn nghĩa dựa trên phân tích và tổ hợp ngữ nghĩa
P h ư ơ n g pháp chọn nghĩa dựa trên phân tích và tổ hợp n g ữ n g h ĩa g ồ m hai giai đoạn: T ổ hợp n g ữ ng h ĩa và chọn nghĩa. Giai đoạn đầu là q uá trình tổ hợp n g ữ nghĩa của cụm (hoặc câu) từ các th ô n g tin ngữ nghĩa của các thàn h phần con, kết thúc giai đoạn này ta có th ô n g tin n g ữ nghĩa của cả cụm. Giai đoạn ch ọ n n g h ĩa ng ư ợ c lại, sử dụ ng thô ng tin về c ụ m để loại bỏ các ng ữ nghĩa không thích hợp của các thàn h phần con, ngoài ra có thể đánh giá mức độ thích hợp của các p h ư ơ n g án ch ọ n ngh ĩa khác nhau [10].
Đ ể m i n h h ọ a v ề p h ư ơ n g p h á p c h ọ n n g h ĩ a d ự a t r ê n p h â n t í c h v à t ổ h ợ p n g ữ n g h ĩ a ,
hãy xem xét l u ậ t văn p h ạ m sau: [cụm danh từ] = [tính từ ] [danh từ]
G i à t h i ế t t r o n g m ộ t v ă n c ả n h n à o đ ổ ; ítính t ừ ] c ó h a i n g h ĩ a , m ộ t c h o “ n g ư ờ i ” , m ộ t c h o “ đ ồ v ậ t ” ; [ d a n h t ừ ] c ó h a i n g h ĩ a , m ộ t c h o “ s ự v ậ t ” ; m ộ t c h o “ n g ư ờ i ” .
N h ư v ậ y q u á t r ì n h x ử l ý s ẽ g ồ m h a i g i a i đ o ạ n n h ư s a u :
1 . G i a i đ o ạ n m ộ t : T ổ h ợ p đ ư ợ c [ c ụ m d a n h t ừ ] c ó t í n h " n g ư ờ i ”
2 . G i a i đ o ạ n h a i : L o ạ i b ỏ đ ư ợ c n g h ĩ a c h o " đ ồ v ậ t ” c ủ a [tính từ ] v à n g h ĩ a dành cho “ sự v ậ t” của [danh từ].
Đ iểm m ạ n h củ a p h ư ơ n g pháp chọn nghĩa này là sự tỉ mỉ (v à chính xác) tron g việc lựa chọn các p h ư ơ n g án n g ữ nghĩa khác nhau. Hai điể m y ế u c ơ bản của p h ư ơ n g pháp này là việc đòi hỏi xây dựng thông tin n g ữ nghĩa rất cô n g p h u cho từ n g từ tổ và trong n h ữ n g trư ờ n g hợp người dùng sử dụ ng cách h à n h v ă n đặc biệt thì sự tổ hợp ngữ ng h ĩa k h ô n g chín h xác. Đ e khắc phục tình trạng trên, có thể k ết hợ p p h ư ơ n g pháp chọn n g h ĩa này với p h ư ơ n g pháp chọn nghĩa d ự a trên th ố n g kê để giải quyết những trư ờ n g h ợ p k h ô n g đầy đủ thông tin hoặc tổ hợp n g ữ n g h ĩa thất bại.
Trương Xuân Nam - Trang 43 - Luận văn thạc sĩ
3.2 Xử lý ngữ nghĩa bằng cú pháp điều khiển
Đ ể thực hiện được việc chọn nghĩa dựa trên phân tích và tổ hợp n g ữ ngh ĩa cần phải có m ộ t cấu trúc điều khiển m ềm dẻo để điều khiển quá trình x ử lý ngữ nghĩa. M ột tronơ n hữ n g giải pháp làm m ềm dẻo quá trình xử lý ng ữ nghĩa là sử dụ ng cú pháp điều khiển. L ý g i ả i m ộ t c á c h c ụ t h ế h ơ n , n ế u c h ủ n g t a x â y d ự n g m ộ t k h ố i x ử l ý n g ữ n g h ĩ a c ố đ ị n h s ẽ d ẫ n đ ế n v i ệ c c h o r a đ ờ i m ộ t c h ư ơ n g t r ì n h c ứ n g n h ắ c , m ỗ i k h i c ó t h ê m c ấ u t r ú c m ớ i c ầ n x ử l ý p h á i v i ế t l ạ i c h ư ơ n g t r ì n h d ị c h . Đ e l à m g i ả m s ự c ứ n g n h ắ c n à y , t h a y v ì v i ế t c á c đ o ạ n c h ư ơ n g t r ì n h x ử l ý n g ữ n g h ĩ a , t a c ó t h ể c h u y ể n c á c p h ầ n x ử l ý n g ữ n g h ĩ a t h à n h d ữ l i ệ u l u ậ t ( ờ d ạ n g c á c q u y t ắ c x ử l ý d ữ l i ệ u ) v à x â y d ự n g k h ố i x ử lý ngữ nghĩa thực thi các luật đó. M ỗi khi có thêm cấu trúc mới cần xử lý, chỉ cần b ổ x u n g t h ê m l u ậ t t ư ơ n g ứ n g .
3.2.1 Khái niệm cú pháp điều khiển
Cú pháp điều khiển là tập các luật đi kèm với m ột nút trên cây p h â n tích cú p háp để điều khiển c h ư e n g trình xử lý cây p h ân tích [8] r 10]
M ộ t v í d ụ v ề c ú p h á p đ i ể u k h i ể n :
■ L uật văn p h ạ m : [cụm d a n h từ ]= [tính từ] [danh từ]
■ C ú p h á p đ i ề u khiển s i n h c â u t i ế n g V i ệ t : $ 2 $1
K h i c h ư ơ n g t r ì n h s i n h c â u t i ế n g V i ệ t s ẽ h o á n đ ổ i v ị t r í c ủ a [ t í n h t ừ ] v à [ d a n h t ừ ] c h o n h a u ( t h e o q u y t ắ c $ 2 $ 1 ) . V í d ụ : [ o l d ] [ b o o k ] = > [ s á c h ] [ c ũ ]
3.2.2 Phân loại cú pháp điều khiển
Với định n g hĩa rất rộng như trên, cú pháp điều khiển có thể có rất nhiều d ạn g khác nhau tùy thuộc vào yêu cầu dữ liệu cần xử lý của từng loại h ệ dịch. T rư ờ n g hợp đon giản, cú pháp điều khiển có thể chỉ là m ột vài trọng số để thay đổi cách làm việc của hệ thống. P h ứ c tạp hơn một chút, cú pháp điều khiển có thể ở d ạ n g luật, các quy tac
Tr ư ơn g Xuân Nam - Trang 44 - Luận văn thạc sĩ
để điều khiển hoạt động của hệ thống (như trone; ví dụ ở phần 3.2.1). T rư ờ n g hợp dặc biệt, cú pháp điều khiển có thể làm m ột ngôn ngữ lập trình được xây dự n g công phu dể điều khiển hoạt động của cả hệ dịch.
3.2.3 Hoạt động của cú pháp điều khiển trong việc xử lý ngữ nghĩa Cú pháp điều khiển được chia làm 3 lớp ứng với 3 quá trình xử lý n gừ n ghĩa của c h ư ơ n g trình. Khối xử lý ngữ nghĩa lần lượt thực hiện 3 lóp cú pháp điều khiển để sinh ra câu đích [5],
Le vel ỉ - “ C ú p h áp điều kh iể n chọn c â y ": C ú pháp điều khiển loại này chỉ là một trọns; số đánh giá “ độ thích h ợ p ” của cấu trúc văn phạm hiện tại. H ệ số đánh giá được tính d ự a trên m ức độ chi tiết của văn phạm và tần suất sử dụn g văn phạm thống kê được.
C ó n h i ề u c á c h q u y đ ị n h m ứ c đ ộ c h i t i ế t c ủ a v ă n p h ạ m , t r o n g h ệ t h ố n g c ủ a c h ú n g t a , m ứ c đ ộ c h i t i ế t c ủ a v ă n p h ạ m đ ư ợ c t í n h t o á n t ừ “ đ ộ s á u t ừ l o ạ i ” c ủ a c ú c t h à n h p h ầ n t ạ o n ê n v ă n p h ạ m đ ó . “ Đ ộ s â u t ừ l o ạ i " đ ư ợ c q u y đ ị n h n h ư s a u :
■ M ứ c 0 - C á c t ừ t ổ c ụ t h ể : ỉ , y o u , b o o k s , g o i n g , d o n e , . . .
■ Mức 1 - Các từ gốc: book, go, do,...
■ Mức 2 - Các phân loại chỉ tiết: [danh từ - sổ ít], [động từ - phân từ 2],...
■ Mức 3 - Các phân loại từ loại: [danh từ], [động từ], [tỉnh từ],...
■ M ứ c 4 - C á c p h â n l o ạ i c ụ m : [ n g ữ d a n h t ừ ] , [ n g ữ đ ộ n g t ừ ] , . . . m
■ M ứ c 7 - C â u v ă n .
N h ư v ậ y d ự a t r ê n “ đ ộ s â u t ừ l o ạ i ” t a c ó t h ể ư ớ c l ư ợ n g đ ư ợ c m ứ c đ ộ c h i t i ế t c ủ a m ộ t c ấ u t r ú c v ă n p h ạ m d ự a t r ê n n g u y ê n l ý : M ộ t c ẩ u t r ú c c ó m ứ c đ ộ c h i t i ê t c à n g cao thì “ độ sâu từ loại ” của cả cấu trúc càng thấp.
Để hiểu rõ khái niệm m ức độ chi tiết của văn p h ạ m chúng ta xem xét ví dụ sau:
Trương Xuân Nam - Trang 45 - Luận văn thạc sĩ
Xét câu tiếng A nh đơn giàn “ I have hair cut” .
Câu tiếng A nh trên có thể được phân tích bởi hai cấu trúc:
* [câu] => [đại từ] [trợ động từ] [ngữ danh từ] [động từ] ■ [câu] => [đại từ] [have] [danh từ] [động từ - phân từ 2]
Cấu trúc thứ hai nên được đánh giá cao hơn do chi tiết hơn (gần với câu gốc hơn - dẫn đến việc có thể dịch sát nghĩa hơn).
Le vel 2 - “ C ủ p h áp điều kh iể n chọn n g h ĩa ” : Cú pháp điều khiển chọn nghĩa chỉ có ở nút lá để tiến hành chọn nghĩa thích hợp cho từ tố. Cú pháp điều khiển loại này bao gồm tập các luật ngữ nghĩa theo cặp “nghĩa - phân loại”, trong đó khái niệm thứ nhất làm d ạng ng ữ nghĩa của từ hiện tại còn khái niệm thứ hai là dạng ngữ nghĩa của các từ có liên quan trong luật văn phạm .
Trương Xuân Na m - Trang 46 - Luận văn thạc sĩ
IN P U T :
C ây phân tích cú pháp của câu nơuồn
Tập luật văn phạm (sử dụng cú pháp điều khiển level-2)
O U TPU T:
- C ây phân tích cú pháp sau khi đã thực hiện việc chọn nghĩa (chính xác hơn là thực hiện việc loại bỏ các nghĩa không thích hợp v à đánh giá độ thích hợp củ a các n s h ĩa còn lại).
PR OC ESS:
B iróc 1: Thực hiện trên cây phân tích theo h ướ ng từ dưới lên trên (d uy ệt đệ quy từ nút lá trở về các nút cha cho đến nút gốc) việc tổ hợp ng ữ nghĩa. D ạng ngữ nghĩa được chọn của nút cha là giao của dạng n gữ nghĩa của các nút con.
B ư ó c 2: T hự c hiện trên cây phân tích theo hướ ng từ trên xu ốn g dưới (duyệt đệ quy từ nút gốc xuống các nút con cho đến các nút lá) việc loại bỏ ng ữ nghĩa. D ạng n g ữ nghĩa được chọn của nút con phải kế thừa từ dạng ngữ ng h ĩa của nút cha, các n g ữ nghĩa không thuộc dạng này đều không sử dụng.
B u ó c 3: N ế u có m ột nút nào đó không còn dạng ngữ nghĩa để sử dụn g thì sử dụ ng n g ữ nghĩa có tần xuất sử dụng lớn nhất nếu nó là nút phụ hoặc sử dụng d ạng ngữ nghĩa của nút chính.
B u ■óc 4: T h ự c hiện việc chọn nghĩa tại các nút lá theo tập luật.
T h u ậ t to á n 3-1: T hự c hiện cú pháp điều khiển chọn nghĩa ở m ột n út luật. Hãy x e m xét ví dụ sau để thấy rõ hơn quá trình thực hiện cú p háp điều khiển chọn nghĩa, m ộ t cấu trúc cây có sử dụng luật sinh:
[C ụm danh từ] => [tính từ] [danh từ]
T ron g đó:
■ [tính từ] có 2 dạng n g ữ ngh ĩa [người] v à [đồ vật]. * [danh từ] có 2 dạng ng ữ nghĩa [người] và [con vật].
■ [danh từ] là nút chính, [tính từ] là nút phụ bổ nghĩa cho danh từ. Thự c hiện:
Trưcmg Xuân Nam - Trang 47 - Luận văn thạc sĩ
■ B 1 cho kết quả [cụm danh từ] có dạng ngữ nghĩa [người].
■ B2 bỏ dạng n e ữ nghĩa [đồ vật] ở nút [tính từ], [con vật] ở nút [danh từ]. ■ B4 sẽ chọn nghĩa [tính từ] thích hợp nhất cho [người].
L e vel 3 - “ C ủ p h á p điều k h iể n sinh c â u ” : Cú pháp điều khiển loại này được sử đ ụ n s để sinh câu ở ngôn ngữ đích đúng với định dạng m ong m uốn, tro n ç thực tế đây chỉ là m ột chuỗi m ệnh lệnh quy định trình tự sinh câu. C h ư ơ n g trình thực hiện cú pháp điều khiển này theo thuật toán sau:
INPU T:
C ây p hân tích cú pháp của câu nguồn
Tập luật văn phạm (sử dụng cú pháp điều khiển level-3)
O U T P U T :
- Câu ở dạng ngôn ngữ đích
P R O C E S S :
B u ó c 1: T h ự c hiện trên cây ph ân tích theo hướ ng từ dưới lên trên việc sinh câu (đệ quy theo cây phân tích từ nút là đến các nút con và trở về nút gốc).
B u ó c 2: V ớ i từn g nút, đọc cú pháp điều khiển tuơng ứng v à íhực hiện:
B ư ớ c 2.1: N e u xâu chỉ định một số thứ tự, thực hiện việc sinh câu với nút tư ơ n g ứng theo số thứ tự đó.
B u Ó'C 2.2: N ế u xâu k hô ng chỉ định một số thứ tự, trực tiếp đẩy xâu vừa nhận được ra xâu đích.
T h u ậ t t o á n 3-2: T h ự c hiện cú pháp điều khiển sinh câu trên cây p h ân tích. Xét ví dụ sau để thấy rõ quá trình sinh câu:
■ C âu nguồn: “I have hair c u t”
■ C ấu trúc phân tích: [câu] => [đại từ] [have] [danh từ] [động từ - p hân từ 2]
■ C ú pháp sinh câu: [câu] => $1 $4 $3 “rồi”
■ C â u đích: [tôi] [cắt] [tóc] [rồi]
Trương Xuân Na m - Trang 48 - Luận văn thạc sĩ
3.3 Các vấn đề trong xử lý ngữ nghĩa bằng cú pháp điều khiển
Cú pháp điều khiển là m ột phươ ng pháp tươno đối vạn năng trong việc m ở rộng khả nă n g của hệ dịch tự động. K hông chỉ dừng lại trong việc xử lý ng ữ nghĩa, m ộ t số hệ thố ng d ịch tự động (B A B Y L O N , T R A N S L A T O R ,...) còn m ở rộng cú ph áp điều khiển trở thành m ột cấu trúc điều khiển trong mọi thành phần của hệ dịch. V ới quan điểm n hư vậy, người ta xây dựng hệ dịch là m ột “k hu ng ” xử lý cú pháp điều khiển, còn mọi tri thức dịch đều được nạp vào từ bên ngoài ở dạng từ điển, luật văn phạm và cú ph áp điều khiển. C ách xây dựng có tính “m ở ” như vậy cho phép m ở rộng hệ dịch cho mọi cặp ngôn n g ữ bất kể các đặc thù từ vựng, ngữ pháp v à n gữ nghĩa của chún^. Hệ quả là hiện nay hệ dịch B A B Y L O N hỗ trợ dịch đến 43 ngôn n g ừ khác nhau.
K h ô n g phải chỉ có điểm mạnh, x ử lý bằng cú pháp điều khiển cũng có n h ữ n g điểm yếu riêng, đó là tính phức tạp và cứng nhắc (khó m ở rộng). M ột cú p h áp điều khiển càng m ạnh, càng có khả năng xử lý được nhiều vấn đề thì cú p háp điều khiển ấy cũng càng phải đổi m ặt với vấn đề của tính phức tạp và cưng nhắc. N gười xây dựng hệ dịch cần phải có nhữ n g cân nhắc v à lựa chọn để đảm bảo được sự cân bằng giữa những điểm m ạnh và điểm yếu của p h ư ơ ng p háp này.
3.3.1 Tính phức tạp của cú pháp điều khiển