Các thành phần khác

Một phần của tài liệu Một phương pháp xây dựng hệ cơ sở tri thức cho chương trình dịch tự động (Trang 38)

2.6.1 Khối tiền xử lý

K hối tiền x ử lý nằm trước khối x ử lý từ v ự n g trong m ột hệ dịch, n h ư vậy, nếu một hệ dịch có khối tiền xử lý thì đó chính là khối đầu tiên của hệ dịch. N h iệ m vụ của phần tiền x ử lý là thực thi một vài đánh giá về văn bản nguồn để các khối kh ác có thể làm việc tốt hơn. Ví dụ, khối tiền x ử lý có thể sử dụng m ột vài phép thố ng kê qua đó xác định được lĩnh vực của văn bản cần dịch giúp hệ dịch có định h ư ớ n g tốt hơn khi sinh câu đích, hoặc, th ông qua m ột số phân tích về văn bản nguồn có thể “ tiền d ịc h ” m ộ t số cấu trúc rất đặc thù của ngôn n gữ (như là tục ngữ, thành ngữ, các câu th ôn g dụng, chữ viết tắt, các ký hiệu,...). Với m ột hệ th ống dịch thực sự, cần phải làm rất nhiều việc để nâng cao chất lượng câu nguồn để có thể tiến hành phân tích từ v ự n g m ộ t cách thuận lợi, có thể xem n h ư khối tiền x ử lý bao gồm tất cả các công việc n h ư vậy [25],

Trương Xuân Nam - Trang 37 - Luận văn thạc sĩ

2.6.2 Khối thu thập và quản lý tri thức

N ế u m ột hệ thống dịch không có khối thu thập và quản lý tri thức thì gần nh ư chắc chắn hệ thống đó không thể ứng dụng thực tể được. Vì không thể xây dựng ngay từ đầu m ột hệ dịch có lượng tri thức lớn đến m ức có thê bao quát mọi hiện tượ ng ngữ pháp và n g ữ nghĩa trong cuộc sống. Khi xuất hiện một trường hợp không xử lý được bằng lượng tri thức hiện tại, hệ thống cần được bổ sung tri thức mới để có thể siải quyết vấn đề. V iệc p hân tích, xây dựng và bổ sung tri thức cho một hệ dịch là việc làm thườ ng xuyên và k h ô n e có kết thúc. Đe công việc này có hiệu quả, người xây dự n g tri thức dịch cần m ột chương trình cho phép kiểm tra và đánh giá được chất lượng tri thức bổ sung (tri thức mới có giúp hệ thống giải quyết được trường hợp mới không, tri thức mới có xung đột với tri thức cũ hay không,...). Đ ó chính là khối thu thập và quản lý tri thức.

N ói m ột cách ngắn gọn, khối thu thập và quản lý tri thức giúp người xây dựng cơ sở tri thức của hệ dịch quản lý tri thức dịch một cách hiệu quả. K hối thu thập và quản lý tri thức không phải là công cụ của người sử dụng hệ dịch m à là công cụ của người xây dựng hệ dịch.

N h iề u tài liệu về dịch m áy không đề cập đen việc xây dựng khối thu thập và quản lý tri thức do quan điểm là hệ dịch máy có thể xây dựng độc lập với hệ cơ sở tri thức. N h ư n g trong quan điểm xây dựng hệ dịch m áy của luận văn thì khối cơ sở tri thức (bao g ồm khối thu thập tri thức, khối quản lý tri thức và khối tự động bổ sung tri thức dịch) là thành phần k hô ng thể tách rời khỏi hệ dịch.

2.7 Nhìn lại các vấn đề của hệ dịch■ ■ ■

Tron g nh ữ ng phần trình bày trên, hầu hết các thành p hần của hệ dịch tự đ ộ n g theo tiếp cận dịch chuyển đổi đã được đề cập m ột cách tươ ng đối chi tiết về n hiệm vụ, chức năng, h oạt động, các kỹ thuật được sử dụng và cả các vấn đề còn tôn tại. T rước khi chuyển sang c hương 3 bàn về x ử lý ngữ nghĩa, có thể tổng kết lại các trở ngại khi xây dựng m ột hệ dịch như sau:

Trương Xuân Nam - Trang 38 - Luận văn thạc sĩ

(1) V ấn đề tiền xử lý dừ liệu: C huân hóa văn bản cần dịch, lấy th ô n g tin chủ đề củ a văn bản giúp định hướng dịch tốt hơn.

(2) V ấn đề tách từ trong câu: Chia cắt m ộ t câu cần dịch thành các từ tố để có thể lấy thông tin hình thái chính xác. Đ ây không phải là vấn đề k hó với m ột sổ ngôn ngữ châu Au.

(3) V ấn đề hiệu năng của bộ phân tích văn phạm : V ới văn p h ạ m của m ộ t ngôn ng ữ tự nhiên, hiện chưa có bộ p h â n tích văn p h ạ m nào đủ nhanh (thời gian phân tích ngắn) và đủ m ạnh (xử lý được các cấu trúc xấu) để có thể đáp ứng được nhu cầu của chương trình dịch tự động thực tế.

(4) V ấn đề lựa chọn cây phân tích cú pháp: T ron g m ộ t số trư ờ n g hợp, m ộ t câu nguồn đầu vào có thể có nhiều cây phân tích cú p háp tư ơ n £ ứng. V iệc lựa chọn đủng cây phân tích đòi hỏi phải có p h ư ơ n g pháp đánh giá xem cây phân tích nào là thích hợp nhất. H iện tại ch ư a có p h ư ơ n g p h á p đánh giá nào thực sự hiệu quả.

(5) V ấ n đề chọn nghĩa: C hư a có p h ư ơ n g ph áp đánh giá để chọn n g h ĩa n ào đủ tốt để có thể sử dụng được trong thực tế.

(6) V ấ n đề quản lý tri thức dịch: C h ư a có p h ư ơ n g ph áp q uản lý tri thứ c dịch m ộ t cách hiệu quả. Khi bổ sung tri thức dịch n h ư luật văn p h ạ m m ới hoặc quy tắc chọn nghĩa mới, người làm tri thức cho hệ dịch k h ô n g đánh giá được độ ổn định của tập tri thức m ới, phải tự m ình k iể m n g h iệ m b ằ n g kinh n g h iệ m hoặc ví dụ thực tế.

T ro n g các vấn đề trên thì vấn đề chính yếu là v ấn đề cuối cùng - việc q uản lý tri thức dịch, có thể thấy rõ rằng các vấn đề (3), (4) và (5) là hệ quả c ủ a việc c h ư a có p h ư ơ n g p h á p quản lý tri thức hiệu quả. Vì quản lý tri th ứ c c h ư a h iệu q u ả nên các tri thức c h ọ n nghĩa phải luôn luôn đối p h ó với các trư ờn g hợ p mới, ch ư a đ ư ợ c ghi nhận từ trước, dẫn đến việc chọn ng h ĩa sai (do k h ô n g có đủ th ô n g tin). C ũ n g vì quản lý tri thức chưa tốt nên dẫn đến việc xuất hiện nh ữ n g cấu trúc v ă n p h ạ m xấu, thực chât là n h ữ n g cấu trúc văn p h ạ m c hư a đư ợ c ghi nh ậ n m ột cách đầy đủ trong; quá trình xây dựng tri thức cho hệ dịch. V à, điều khó kh ăn nhất, đó là khi b ổ sung

Trương Xuãn Nam - Tr a n g 39 - Luận văn thạc sĩ

tri thức mới, rất có thể làm m ất ổn định của kho tri thức. V iệc mất ổn định của kho tri thức thể hiện trong hai vấn đề: T h ứ nhất, tri thức mới m â u thuẫn với tri thức cũ; thứ hai, tri thức mới làm yếu tri thức cũ, ch ẳn g hạn làm cho xuất hiện nhiều cây phân tích mới hoặc nhiều lựa chọn nghĩa mới.

Trương Xuân Nam - Trang 40 - Luận văn thạc sĩ

CHƯƠNG 3 - XỬ LÝ NGỮ NGHĨA BẢNG c ú PHÁP ĐIÈU KHIÊN

3.1 Một số phương pháp xử lý ngữ nghĩa trong dịch tự động

X ử lý n g ữ ng h ĩa trong dịch tự động thực chất là giải quyết vấn đề chọn nghĩa chính xác cho từ v ự n g trong câu đích.

L ý d o p h ả i c ó v i ệ c c h ọ n n g h ĩ a c h o t ừ l à v ì t h ô n g t h ư ờ n g m ộ t t ừ c ó t h ể c ó n h i ề u n g h ĩ a , m ộ t t h ố n g k ê c h o t h â y r a n g m o i t ừ t i ế n g A n h c ó t r u n g b ì n h 1 , 8 n g h ĩ a k h á c n h a u . T ừ c ó n h i ề u n g h ĩ a n h c ý t r o n g t i ế n g A n h ỉ à t ừ “ s e t ” v ớ i 1 9 5 n g h ĩ a , t r o n g đ ó c ó 5 8 n g h ĩ a t h u ộ c l o ạ i d a n h t ừ , 1 2 7 n g h ĩ a t h u ộ c l o ạ i đ ộ n g t ừ v à 1 0 n g h ĩ a t h u ộ c l o ạ i t í n h t ừ .

N h ư vậy, việc một từ có nhiều nghĩa là m ột đặc trưng của ngôn n g ữ tự nhiên và việc chọn n g hĩa là một ph ần bắt buộc khi xây dựng hệ dịch tự động. T heo [25], có ba cách tiếp cận trong việc chọn nghĩa.

3.1.1 Chọn nghĩa đơn giản

Việc chọn n g h ĩa đơn giản được sử dụng vào thời kỳ đầu của các hệ dịch tự động, khi m à n ă n g lực của m áy tính còn thấp và các thuật toán xử lý văn p h ạ m cũng chưa phát triển. V iệc chọn nghĩa cho từ được thực hiện dựa trên m ột số quy tắc giản đơn cô định, n g hĩa của m ột từ được quyết định chủ yếu bởi từ loại của từ đứ n g trước hoặc từ đ ứ n g sau. P h ư ơ n g p h á p c h ọ n n g h ĩ a đ ơ n g i ả n đ ư ợ c s ử d ụ n g c h ủ y ế u t r o n g t i ế p c ậ n d ị c h t r ự c t i ế p . T r o n g t i ế p c ậ n n à y , p h ầ n c h ọ n n g h ĩ a g ồ m h a i g i a i đ o ạ n, l ự a c h ọ n t ừ l o ạ i v à l ự a c h ọ n n g h ĩ a . C ả h a i g i a i đ o ạ n đ ề u đ ư ợ c x â y d ự n g d ự a t r ẽ n c á c q u y t a c đ ơ n g i ả n , v ỉ d ụ : đ ứ n g s a u t í n h t ừ c h ỉ c ó t h ể l à m ộ t d a n h t ừ h o ặ c t í n h t ừ , m ộ t t ừ v i ế t h o a t h ì l à t ê n r i ê n g , . . . N ế u s a u k h i á p d ụ n g c á c q u y t ắ c m à v ẫ n c ó n h i ề u l ự a c h ọ n c h o n g h ĩ a c ủ a t ừ t h ì l ấ y n g h ĩ a t h ư ờ n g d ù n g n h ấ t ( n g h ĩ a c ó t ầ n s u ấ t s ử d ụ n g n h i ề u n h ấ t t h e o t ừ đ i ể n ) h o ặ c c h ọ n l ấ y n g ẫ u n h i ê n m ộ t n g h ĩ a n à o đ ó . X Ử LÝ N G Ữ N G H Ĩ A B Ả N G c ú P HÁ P Đ I Ề U KHI ÊN

T r ư ơ n g Xuân Nam - Trang 41 - Luận văn thạc sĩ

T ất nhiên quy tác chọn nghĩa giản đơn như vậy sẽ không cho kết quả đúng t r o n s

phần nhiều các trư ờ n c hợp và đây chính là một trong n h ữ n e lý do chính dẫn đến thất bại của những chươn g trình dịch thời kỳ mới được phát triển. Dù sao, ý tưởng chọn ng h ĩa của từ dựa trên các từ khác có liên quan trong câu cũng rất đúng đắn và ý tư ở n g này đã được phát triển xa hơn trở thành những p h ư ơ n g pháp x ử lý ngữ n s h ĩa hiện đại ngày nay.

3.1.2 Chọn nghĩa dựa trên thống kê - xác suất (adsbygoogle = window.adsbygoogle || []).push({});

P h ư ơ n g pháp chọn nghĩa dựa trên th ố n e kê được phát triển rất m ạnh trong những năm gần đây do sức m ạnh tính toán của máy tính đã được tăng cư ờ n g đán g kể và các k h o dữ liệu ngôn ngữ đã được tích lũy rất lớn đủ để đáp ứng các phép đo thống kê. H ầ u hết các hệ dịch chọn nghĩa dựa trên thống kê không hề có quá trình xử lý ng ữ n g h ĩa như các hệ dịch khác, việc chọn nghĩa hoàn toàn dựa trên các kết quả đo được về độ khớp của từ to w trong ngôn n g ữ nguồn với nghĩa s trong ngôn ngữ đích [13] [14], V â n đ ề h ó c b ủ a n h a i c ù a p h ư ơ n g p h á o c h ợ r . n g h ĩ a d ự a t r ê n t h ố n g k ê l à đ ị n h n g h ĩ a h à m đ o đ ộ k h ớ p M ( W , S ) n h ư t h ế n à o v à x â y d ự n g m ộ t p h ư ơ n g p h á p h i ệ u q u ả đ ể t í n h g i á t r ị h à m đ ó . R õ r à n g r a n g đ ộ k h ớ p M k h ô n g c h ỉ p h ụ t h u ộ c v à o w v à s v ì trong m ô i v ă n c ả n h t h ì w c ó t h ể n h ậ n c á c n g h ĩ a k h á c n h a u . N h ư v ậ y đ ơ n g i ả n n h ấ t t h ì h à m M c ũ n g p h ụ t h u ộ c v à o c ấ u t r ú c c â u đ ầ u v à o . C á c h t i ế p c ậ n v ă n p h ạ m x á c s u ấ t s ử d ụ n g đ ị n h n g h ĩ a h à m đ o đ ộ k h ớ p l à m ộ t h à m 3 t h a m s ổ M ( W , s , R ) , t r o n g đ ỏ R l à l u ậ t v ă n p h ạ m c h ứ a W ; n h ư v ậ y v ớ i m ỗ i m ộ t l u ậ t c ủ p h á p, t a c ỏ m ộ t đ ộ k h ớ p g i ữ a c ặ p W - S k h á c n h a u .

P h ư ơ n g pháp chọn ngh ĩa dựa trên thống kê - xác suất chỉ áp dụng được khi hệ dịch có m ột kho tư liệu lớn các cặp câu song ngữ tương đương, chính vì vậy giá thành xây d ự n g m ột hệ dịch theo tiếp cận này là rất cao do chi phí xây dự ng kho n g ữ liệu và chi phí thực hiện tính toán trên khối dữ liệu đó. N g ư ợ c lại, do là kết quả thố ng kê

Tri rơng Xuân Na m - Trang 42 - Luận văn thạc sĩ

Sổ lớn nên chất lư ợ n s của các cặp câu son» ngừ không cần quá cao v à nếu có dừ liệu sai thì dữ liệu đó cũng không làm thay đổi quá nhiều chất lượ ng của hệ dịch. 3.1.3 Chọn nghĩa dựa trên phân tích và tổ hợp ngữ nghĩa

P h ư ơ n g pháp chọn nghĩa dựa trên phân tích và tổ hợp n g ữ n g h ĩa g ồ m hai giai đoạn: T ổ hợp n g ữ ng h ĩa và chọn nghĩa. Giai đoạn đầu là q uá trình tổ hợp n g ữ nghĩa của cụm (hoặc câu) từ các th ô n g tin ngữ nghĩa của các thàn h phần con, kết thúc giai đoạn này ta có th ô n g tin n g ữ nghĩa của cả cụm. Giai đoạn ch ọ n n g h ĩa ng ư ợ c lại, sử dụ ng thô ng tin về c ụ m để loại bỏ các ng ữ nghĩa không thích hợp của các thàn h phần con, ngoài ra có thể đánh giá mức độ thích hợp của các p h ư ơ n g án ch ọ n ngh ĩa khác nhau [10].

Đ ể m i n h h ọ a v ề p h ư ơ n g p h á p c h ọ n n g h ĩ a d ự a t r ê n p h â n t í c h v à t ổ h ợ p n g ữ n g h ĩ a ,

hãy xem xét l u ậ t văn p h ạ m sau: [cụm danh từ] = [tính từ ] [danh từ]

G i à t h i ế t t r o n g m ộ t v ă n c ả n h n à o đ ổ ; ítính t ừ ] c ó h a i n g h ĩ a , m ộ t c h o “ n g ư ờ i ” , m ộ t c h o “ đ ồ v ậ t ” ; [ d a n h t ừ ] c ó h a i n g h ĩ a , m ộ t c h o “ s ự v ậ t ” ; m ộ t c h o “ n g ư ờ i ” .

N h ư v ậ y q u á t r ì n h x ử l ý s ẽ g ồ m h a i g i a i đ o ạ n n h ư s a u :

1 . G i a i đ o ạ n m ộ t : T ổ h ợ p đ ư ợ c [ c ụ m d a n h t ừ ] c ó t í n h " n g ư ờ i ”

2 . G i a i đ o ạ n h a i : L o ạ i b ỏ đ ư ợ c n g h ĩ a c h o " đ ồ v ậ tc ủ a [tính từ ] v à n g h ĩ a dành cho “ sự v ậ t” của [danh từ].

Đ iểm m ạ n h củ a p h ư ơ n g pháp chọn nghĩa này là sự tỉ mỉ (v à chính xác) tron g việc lựa chọn các p h ư ơ n g án n g ữ nghĩa khác nhau. Hai điể m y ế u c ơ bản của p h ư ơ n g pháp này là việc đòi hỏi xây dựng thông tin n g ữ nghĩa rất cô n g p h u cho từ n g từ tổ và trong n h ữ n g trư ờ n g hợp người dùng sử dụ ng cách h à n h v ă n đặc biệt thì sự tổ hợp ngữ ng h ĩa k h ô n g chín h xác. Đ e khắc phục tình trạng trên, có thể k ết hợ p p h ư ơ n g pháp chọn n g h ĩa này với p h ư ơ n g pháp chọn nghĩa d ự a trên th ố n g kê để giải quyết những trư ờ n g h ợ p k h ô n g đầy đủ thông tin hoặc tổ hợp n g ữ n g h ĩa thất bại.

Trương Xuân Nam - Trang 43 - Luận văn thạc sĩ

3.2 Xử lý ngữ nghĩa bằng cú pháp điều khiển

Đ ể thực hiện được việc chọn nghĩa dựa trên phân tích và tổ hợp n g ữ ngh ĩa cần phải có m ộ t cấu trúc điều khiển m ềm dẻo để điều khiển quá trình x ử lý ngữ nghĩa. M ột tronơ n hữ n g giải pháp làm m ềm dẻo quá trình xử lý ng ữ nghĩa là sử dụ ng cú pháp điều khiển. L ý g i ả i m ộ t c á c h c ụ t h ế h ơ n , n ế u c h ủ n g t a x â y d ự n g m ộ t k h ố i x ử l ý n g ữ n g h ĩ a c ố đ ị n h s ẽ d ẫ n đ ế n v i ệ c c h o r a đ ờ i m ộ t c h ư ơ n g t r ì n h c ứ n g n h ắ c , m ỗ i k h i c ó t h ê m c ấ u t r ú c m ớ i c ầ n x ử l ý p h á i v i ế t l ạ i c h ư ơ n g t r ì n h d ị c h . Đ e l à m g i ả m s ự c ứ n g n h ắ c n à y , t h a y v ì v i ế t c á c đ o ạ n c h ư ơ n g t r ì n h x ử l ý n g ữ n g h ĩ a , t a c ó t h ể c h u y ể n c á c p h ầ n x ử l ý n g ữ n g h ĩ a t h à n h d ữ l i ệ u l u ậ t ( ờ d ạ n g c á c q u y t ắ c x ử l ý d ữ l i ệ u ) v à x â y d ự n g k h ố i x ử lý ngữ nghĩa thực thi các luật đó. M ỗi khi có thêm cấu trúc mới cần xử lý, chỉ cần b ổ x u n g t h ê m l u ậ t t ư ơ n g ứ n g .

3.2.1 Khái niệm cú pháp điều khiển

Cú pháp điều khiển là tập các luật đi kèm với m ột nút trên cây p h â n tích cú p háp để điều khiển c h ư e n g trình xử lý cây p h ân tích [8] r 10]

M ộ t v í d ụ v ề c ú p h á p đ i ể u k h i ể n :

L uật văn p h ạ m : [cụm d a n h từ ]= [tính từ] [danh từ]

C ú p h á p đ i ề u khiển s i n h c â u t i ế n g V i ệ t : $ 2 $1

K h i c h ư ơ n g t r ì n h s i n h c â u t i ế n g V i ệ t s ẽ h o á n đ ổ i v ị t r í c ủ a [ t í n h t ừ ] v à [ d a n h t ừ ] c h o n h a u ( t h e o q u y t ắ c $ 2 $ 1 ) . V í d ụ : [ o l d ] [ b o o k ] = > [ s á c h ] [ c ũ ]

3.2.2 Phân loại cú pháp điều khiển

Với định n g hĩa rất rộng như trên, cú pháp điều khiển có thể có rất nhiều d ạn g khác nhau tùy thuộc vào yêu cầu dữ liệu cần xử lý của từng loại h ệ dịch. T rư ờ n g hợp đon giản, cú pháp điều khiển có thể chỉ là m ột vài trọng số để thay đổi cách làm việc của hệ thống. P h ứ c tạp hơn một chút, cú pháp điều khiển có thể ở d ạ n g luật, các quy tac

Tr ư ơn g Xuân Nam - Trang 44 - Luận văn thạc sĩ

để điều khiển hoạt động của hệ thống (như trone; ví dụ ở phần 3.2.1). T rư ờ n g hợp dặc biệt, cú pháp điều khiển có thể làm m ột ngôn ngữ lập trình được xây dự n g công phu dể điều khiển hoạt động của cả hệ dịch.

3.2.3 Hoạt động của cú pháp điều khiển trong việc xử lý ngữ nghĩa Cú pháp điều khiển được chia làm 3 lớp ứng với 3 quá trình xử lý n gừ n ghĩa của c h ư ơ n g trình. Khối xử lý ngữ nghĩa lần lượt thực hiện 3 lóp cú pháp điều khiển để sinh ra câu đích [5],

Le vel ỉ - “ C ú p h áp điều kh iể n chọn c â y ": C ú pháp điều khiển loại này chỉ là một trọns; số đánh giá “ độ thích h ợ p ” của cấu trúc văn phạm hiện tại. H ệ số đánh giá được tính d ự a trên m ức độ chi tiết của văn phạm và tần suất sử dụn g văn phạm

Một phần của tài liệu Một phương pháp xây dựng hệ cơ sở tri thức cho chương trình dịch tự động (Trang 38)