Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 101 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
101
Dung lượng
41,84 MB
Nội dung
ĐẠI HỌC QUỐC GIA HÀ NỘI HỆ THỐNG DỊCH VÀ TĨM TẮT - VĂN BẢN ANH-VIỆT • - - - (B o c áo tổ n g hợp đề tài nghiên cứu kh oa học cấp Đại học Q uốc gia H N ội K hoa C ô ng nghệ q u ản lý) M ã số: Q C 03.02 C h ủ nhiệm đề tài: ThS Lẽ A n h C n g Đ A I HOC Q UỐ C GIA HÀ NÒI TRUNG TẨM TH Ô N G TIN THƯ VIÊN DT/ Ồ U Hà Nội - 2004 MỤC LỤC C H Ư Ơ N G GIỚI T H IỆ U .4 1.1 Đặt vấn đ ề 1.2 Nội dune đề t i 1.3 Cấu trúc báo c o .4 CH Ư Ơ N G TỔNG Q U A N VẼ DỊCH MẢY VÀ TÓM TẮT VÃN B À N 2.1 Tồng quan vè dịch m y 2.1.1 Thế dịch máy, vai trò vị t r í 2.1.2 Các chiến lược dịch máy b ả n 2.1.3 Một sổ tiếp cận m i 10 2.1.4 Tiếp cận xây dựnơ hệ thòng dịch cùa chúng tỏi 13 2.2 Tịns quan tóm tăt văn bàn 14 2.2.1 T o ns quan tóm tẳt văn b n 14 2.2.2 rỏm Tnch lọc (extraction) 15 2.2.3 Tóm tát cị đọnii (abstraction) 16 2.3 Két luận c h n g 17 C H Ư Ơ N G HẸ TH O N G DỊCH CHUYỂN Đ Ỏ I 18 3.1 Kiến trúc hệ th ò n g 18 3.2 rư điên sone n a 19 3.3 Phàn tích hinh thai 19 3.4 Gán nhãn từ lo i 21 3.5 Phàn tích cu p h a p 21 3.6 Xứ lý nhập nhủnơ rmừ n sh ĩa 23 Sinh càu tiéns V iệ t 25 3.8 Xâv dựns dừ liệu d ịc h 27 3.9 Một số còn2 c ụ 27 3.10 pcết qua thí n g h iệ m 28 3.12 Kèt luận c h n s 28 C H Ư Ơ N G MỌT s ỏ PHƯƠNG PHAP TOM TÁT VĂN BAN M Ớ I 30 4.1 Mỏ ta hệ t h ố n g 30 4.2 Tóm lát vãn ban dựa trèn M E M 30 4.3 Tóm tãt vãn băn dựa trẽn C o-M EM 31 4.4 Rút iiọn c u 32 4.5 Kèt quà thực níih iệm 37 4.6 Kết luận chương .42 C H Ư Ơ N G KẾT L U Ậ N 43 5.1 Kết luận kiến n g h ị 43 TÀI LIỆU THAM K H Ả O 44 PHỤ L Ụ C -t5 Danh sách người tham gia thực đề tài ThS Lẽ Anh Cường (chủ trì), Trường ĐH Cơng nghệ PGS TS Hồ Sĩ Đàm, Trườne ĐH Công nghệ PGS TS Đinh Mạnh Tường, Trường ĐH Cônơ nghệ TS Nguvễn Lè Minh, Viện Khoa học Công nghệ Tiên tiến Nhật Bàn (JAIST) ThS Nguyễn Phương Thái, Trường ĐH Công nghệ CN Nguyễn Văn Vinh, Công ty Lạc Việt Danh mục bảng số liệu B ans Bans đánh Ìá két quà dịch m y 28 B áns Sự phàn bố dừ liệu học kiêu l p 37 Burm So sánh Liiừa phương pháp chuns phươrm pháp cùa Kniaht Marcu (20 02 ) 41 Danh mục hình Hình 2.1 Sơ đồ tồng quan hệ dịch m y Hình 272 Hệ thốns dịch trực t i ế p Hình 2.3 Hệ thống dịch chuyển đ i Hình 2.4 Lược đồ quan hệ giừa mơ hình chun đơi liẻn n s ữ 10 Hình 3.1 Kiến trúc hệ thốns dịch chuyển đ i 18 Hình 3.2 Cơnơ cụ biên soạn từ điển song n 19 Hình 3.3 Sơ đồ thành phần phàn tích hình thái hai m ứ c 21 Hình 3.4 Một cú pháp 23 Hình 2.5 Mơ hinh hệ dịch Anh V iệ t .25 Hình 4.1 Mồ tả q trình chun đơi câu dài thành câu ngấn 34 Hình 4.2 Các ĩhuộc tính ngừ nghĩa 35 Hình 4.3 Mô tả hiệu nãng Co-MEM sử dụng phàn cùa liệu học M EM sử dụng toàn dừ liệu học 39 Hình 4.4 Mơ tả hiệu Co-MEM, MEM, Lead với kích thước tóm tắt thay đ ổ i 40 Hình 4.5 Một sị ví dụ rút ọn càu ap dụns phươne phap MEM phươnơ pháp Decision-Tree .42 CHƯƠNG GIỚI THIỆU 1.1 Đ ặ t vấn đề Hiện vấn đề xử lý ngơn ngừ tự nhièn Việt Nam dans có tính thừi thu hút nhiều quan tâm nhà khoa học Tuy nhiên kết đạt cịn hạn chế coi chúne ta băt đầu nhừne bước khởi độne trona lĩnh vực T rone xử lý ngôn ngữ tự nhiên, lĩnh vực dịch máy có nhu cầu cấp thiết, việc phát triên nghiên cứu ứng dụns để xảy dựng hệ dịch từ tiếng Anh sang tiếnơ Việt Bẽn cạnh đó, lĩnh vực nehiẽn cứu nhiêu trẻn giới tóm tắt văn cịn ý Việt nam M ột kêt hợp siừa tóm tăt dịch văn từ tiếng Anh sang tiếng Việt áẽ có nhiều ứng dụng mang lại lợi ích thiết thực trợ giúp neười sử dụng nám thơng tin nềy càns lớn, tài liệu tiếng Anh người không thạo tiếng Anh 1.2 Nội d u n g đề tài Tìm hiêu dịch máy Anh-Việt tóm tắt văn tiếne Anh Bước dâu xày dim s thừ nghiệm hệ thịng tóm tất dịch văn bàn từ tiêng Anh sans tiẻng Việt trons sò chủ đê hạn chẻ Tin học, Kinh tế Xàv dựng sị cơns cụ dử liệu cuns câp cho việc nghiên cứu xử lv ngôn nơừ tự nhièn khoa 1.3 Cấu trúc báo cáo Mục tiêu đề tài nshièn cửu bước đẳu xảy dựna hệ thống dịch tóm tất tự đ ộ n s văn Anh-Việt Do chúng tơi trình bày hai phằn: hệ thốnơ dịch Anh-Việt tóm tăt văn bán tiêng Anh Hệ thơng dịch Anh-Việt chúnơ phát triẻn từ nhiều năm trước (Phạm H ồns Neuyèn cộng sự, 2003) N hưng đê tiện theo dõi, chúnơ trinh bày lại kiến trúc hệ thốns siới thiệu ve từnơ thành phan Tronơ trình bày chúng tỏi sẻ nhấn mạnh côn s việc mà chúnơ thực cùnơ với kết đạt trona khuôn kho dự án nghiên cứu Thèm vào chủns tơi cùn® đề cập đến tình hình nghiên cứu dịch máy nước ta phần tảng quan vấn đề nghiẻn cưu Vàn dê tóm tat ván ban tiếng Anh dược trình bay tương dối độc lập với vấn đề dịch máy Tiếp cận chúng tỏi sừ dụne học máy đê tóm tăt văn Báo cáo gồm chương: - C hươns 1: Đặt vấn đề mục tiêu đề tài - Chương 2: Giới thiệu tơng quan vè dịch máy tóm tăt văn ban - Chương 3: Trình bày hệ thống dịch chuyển đổi, thành phần kỹ thuật - Chươne 4: Trình bày số phưome pháp tóm tát văn mứi tóm tắt văn điều khiến bời cú pháp, tóm tát văn sử dụns SVM, hay tóm tắt văn với định C hươns 5: Kêt luận kiên nghị Phụ lục: Một sị báo cáo khoa học khố luận thực trons khuôn khồ đề tài CHƯƠNG TỎNG ỌUAN VÈ DỊCH MÁY VÀ TÓM TẮT VĂN BẢN 2.1 T ổ n g quan dịch máy 2.1.1 Thế dịch máy, vai trò vị trí Trải qua thập kỉ, vắn đề dịch máv đà nhiều nhà khoa học quan tâm họ đưa nhiều khái niệm dịch máy, nhiên ý tưởng họ (Hutchins Somers 1992): Các hệ dịch m áy (machine translation system-M T) hệ thống sử dụng mảy tính đẽ dịch tài liệu từ thứ tiêng (trong ngôn ngữ tự nhiên) sang vài thứ tiêng khác N eỏn ngừ vãn cằn dịch gọi ngôn neừ nguồn hay ngôn nsử vào Ngôn ngừ văn dịch gọi ngịn ngừ đích hay nsơn neừ Theo thống kẻ Liên hợp quốc có gằn 10.000 ngơn ngừ tồn giới Nhờ có ngơn ngừ khác lồi người có văn hố đa dạng, lượns nsôn neữ nhiều rào càn phát triền thươ ns mại Ĩao liru thỏnơ tin quôc tê Đê khãc phục càn trờ nàv loài người phái dùne đội nsũ phiẻn địch/bièn dịch viên ràt lớn dê dịch văn tủi liệu, lời nói từ tiêng nước sang tiẻng nước khác Đó cịna việc thủ cịne n ặns nhọc nhưns nãns suât thảp siá thành cao, trone khối lượnơ văn cần dịch lại neàv nhiêu Mặt khác, với phát triên nhanh chỏng cùa Internet dần tới nguồn thông tin truy cập từ khấp nơi ơiới với nhiều ngôn ngừ khác Điêu làm tăng nhu câu dịch từ ngôn ngữ nàv sans ngôn nơừ khác với tôc độ nhanh mà-việc dịch thủ cỏnơ khơna cịn đáp íme Do vậy, dịch máy nhu câu tât vêu Nó đóns vai trò quan trọne trons đời sống xã hội có tính kinh tê cao Dịch máy bẳt đẩu nsièn cứu sau xuất chiẻc máy tính điện tử đâu tiẻn Tuv nhiên, dịch máv khône chi ứng dụng tin học phi số tuý mà cịn cần lượns lớn tri thức dịch Do mà việc giải quyẻt triệt đê nsơn ngừ tự nhiên điều vị khó khăn đến rât nhiều vàn đê càn tiẻp tục nshiẻn cứu Chủnơ ta có thẻ hinh du ns hệ dịch máv qua sơ đồ sau: Văn bàn vào - + Tiền xử lv — ► Hâu xử lý Văn Hình 2.1 Sơ đồ tỏng quan hệ dịch m áv Đầu vào cùa hệ dịch máv thông thườnơ văn bàn viết nsôn n£ừ neuôn Văn bủn có thê lâv từ hệ soạn tháo văn hệ nhận dạng chừ viết hay tiêng nói Sau dó văn bủn có thẻ dược kiêm tra lại nhờ khỏi soạn tháo, kiêm tra tả trước đưa máy dịch Trons trình dịch máy hè thống thường phái sử đụng đên lượn" lớn trí thức dịch Tri thức dịch bao 2ồm loại từ điển hình thái, từ diên từ vựns, từ điên luật v.v Đẩu ià văn bàn thuộc nsôn n sữ đích Với văn ban ta phai hiộu chình soạn thào cho phù hợp với việc sử dụns 2.1.2 Các chiến lirợc dịch máy bán Các hệ thốns dịch máy thông thường phản loại theo chiến lược ban sau đâv (Hutchins Somers 1992): 2.1.2.1 Dịch trực tiếp Các hệ thons dịch trực tièp liên quan đẽn việc đối sánh mẫu xâu việc sáp xếp lại xâu đích cho thích hợp với ngơn ngử đích Rất nhiều hệ thốns trước c ủ n s số phàn dịch máy cho máy tính cá nhản dùng chièn lược Các hệ thòng theo tièp cận thiẻt kè cho cặp nsôn n sừ cụ thè tiẻn trinh dịch trực tiẻp từ ngòn n non sans nsịn ngừ đích Hệ ihịns bao ÒĨĨ1 từ điẻn song ngừ lớn sô qui tăc từ \ạrn sư dụns cho phàn tích tư đièn thu tục xư lý đặc trims cho việc chuyèn đỏi aiừa hai ngôn ngừ Sau tồng kết bốn giai đoạn thường dùng cho hệ thống dịch máy trực tiếp: Phân tích hình thái câu nguồn: Cơng việc giai đoạn phân câu thành từ phân tích hình thái cho từ nàv Chun đơi nội duns từ vựng từ nsôn n sừ n uồn sans nsỏn n đích: chọn nội dung dịch tương đương từ ưong ngịn ngữ đích Cơng việc sử dụng từ điển song ngữ Một số hệ thống việc sử dụng từ điển sons n cịn sử dụng thủ tục chọn nghĩa từ dựa vào ngừ cảnh lân cận X lý đặc trưng: phần việc ưong giai đoạn nàv phụ thuộc vào khác giừa ngôn ngữ đích nsơn nsừ nguồn mà thực xử lý liên quan đến từ ơhép, cụm danh từ, cụm độns từ, giới từ, hay liên quan đến vị trí s v o (chù từ, động từ, túc từ), Sinh câu đích: giai đoạn cuối thường sinh hình thái cho nsịn n đích, mà thường liên quan đến động từ (các thì, ni, số) danh từ (số nhiều, số ít) Càu vào thc ngơn ngữ nguồn Phản tích hình V ! thái - Tìm kiếm từ điẽn song ngữ ' Xử lý đăc trưng ^ Cảu thc ngón ngữ đích Hình 2.2 Hệ [hóng dịch trực tiêp u đièm phương pháp dịch trực tiẻp đơn siản nhưns nhược diêm chẩt lượng dịch khòns tòt cho cặp ngòn n sừ khơng có nhiẻu tươns đồns tử vựng cấu trúc Anh-Việt Nó chì đạt chất lượng tươne đối cho cặp nn ngừ có nhiều tươns đồne Anh-Pháp Thực tế phương pháp dùn£ độc lập mà thường kết hợp với phương pháp dịch dựa rrèn luật đề xử lý câu mà phân tích khơng nhận 2.1.2.2 Dịch chuyển đổi M ột hệ thống dịch chuyển đổi thiết kế để dịch cặp rmỏn ngử nhảt định, hoạt động hệ thống bao gồm: phản tích, chuyển đối sinh cảu Thơne thườne trình dịch diễn sau: câu vào phàn tích hinh thái, sau nhận dạna bơi phàn tích cú phap ma kết qua thương biếu diễn dạng cú pháp, tiếp câv cú pháp chuvén đôi sana dạng tương đươnơ ngịn nsừ đích từ máy sinh cáu thuộc n Ịn nsừ đích Hìnlĩ 2.3 Hệ íhỏng dịch chun đói Các hệ thịrm dịch chuvèn đơi có im diêm chuvẻn tai dược càu trúc cu phap I12Ừ nshĩa từ vựng nhiên khỏ khăn nhập nhăns từ vựng (một lừ co thè có nhiều từ loại nhiêu nghĩa) nhập nhăns câu trúc (một càu co thê co nhiêu càv cú pháp) Do vậv naười ta thưởng kêt hợp phương pháp với phươns pháp khác dịch trực tiếp troQơ việc xử lý trường hợp càu có cấu trúc khòns tốt (khònơ nhận dược băns phân tích cú pháp) 2.1.2.3 Dịch liên ngử Trorm hệ thơng dịch liên ngữ trước tièn càu nsn phân tích biểu diễn chuns, sau từ biẻu diễn nàv sinh càu đích Dịch liên nsừ bao Ịm hai íia i đoạn: từ ngịn neừ nsuòn tới neòn nsừ chung, từ nsòn ngừ chuns tới nsịn n sừ đích Như vậv hệ thỏns dịch liên nsừ dùnơ kí hiệu dừ liệu mị tà hạt nhàn ìiọi liên nsữ Liên n định nghĩa tập khái niệm quan hệ iỉiừa khái niệm Liên rmừ biêu thị V níihĩa cua càu R e fe re n c e s [ ] Christopher D Manning and Hinrich Schutze "Foundations of Statistical Natural Language Processing'* MIT 1Q99 [2] Zeynep Orhan, "Confidence factor assignment to translation template”, master ihesis Bilkent University, Turkey, 1998 [3 ] Brown, R-, Hutchinson, R., Bennett P.M Carbonell J.G., and Jasen p (2003) Reducing boundary friction using tfanslation-fragment overlap In MT-Submit IX [4 ] Brown.p Pietra S.A.D., Pietra V.j.D., and Mercer R.L (1993) The mathematics of statistical machine translation: Parameters estimation Computational linguistic 16(2): 79-85 [5] H Phe Từ Điển Tiếng Việt (Vietnamese Dictionary) Center of Lexicography Da N a n g Publisher 1988 [6 ] Jay Earley “An efficient context-free parsing algorithm" Communications of the ACM 14, 1970 [7] Le Anh Cuong and Ho Si Dam, "A chart-based Algorithm for Completed Partial Parsing of unrestricted text" in Proceedings of International Conference on East Asian Language Processing and Internet Information Technology, Hanoi, Viemam 2002 Vol II page 37-42 KIỂM LỎI CHÍNH TẢ TIỀNG VIỆT s DỤNG DANH SÁCH QUYẾT ĐỊNH Nguyễn Phương Thái12 Nguyẻn Qc Tồn' Lẽ A n h Cường12 Nguyẻn Vản Vinh12 ‘Khoa Công nghệ - Đai học Quốc gia Hà Nội ^ n g ty Tin hoc Lac Vièt Email: toannq@vnu.edu.vn; npthái2001, vinhnv200l, lacuongtxxạyahoo.com Stevenson, 1998), lext-to-speech (Yarowsky, 1997), khỏi phuc dấu đa ngỏn ngữ (Yarowskv, 1994) phân lớp thực thể ten (Collins Singer, 1999), kiểm lỗi tả (Golding 1995) Tóm tát Trong lĩnh vực xử lý ngồn ngữ tự nhiên thốnơ kê, danh sách quvết định ứng dụng đế giải nhiều vấn đề xử lý nhập nhầns từ vựng đạt độ xác cao, có tốn kiểm lỗi tả cảm ngữ cảnh Bài báo trình bày vể kiểm lỗi tả tiếng Việt sứ dụng học máy danh sách dịnh Bài báo tập trung vào lớp lỏi sai từ àm tiết Các loại thuộc tính cùa danh sách định lữ ghép, collocation từ ngữ cảnh Thí nghiệm tiến hành trẻn corpus báo PC World Việt Nam Các kết thí nghiệm cho thấy phương pháp dat dộ xác vượt xa phương pháp kiểm lỏi tả sử dụng từ điển Thêm vào đó, dễ dàng triển khai vào lĩnh vực khác, u cẩu có corpus văn thơ cho việc huấn luyện Phương pháp khai thác loại dấu hiệu đa dạng khòns độc lập xác suất bầng cách nhận dạng sử dụng dấu hiệu khử nhập nhàng tót ngữ cảnh đích Thèm vào dó cịn có ưu điểm rát đơn aiàn kết quà (output) dễ hiểu, dẻ áp duní: cho lĩnh vạrc Golding (1995) sử dụng danh sách định với loại íhuộc tính collocation từ ngữ cành Collocation ràng buộc cú pháp cục bơ, cịn từ ngữ cảnh ràng buộc *‘khỏng khí" từ vựng Danh sách định báo có loại thuộc tính từ ghép, collocation từ ngữ cành Phương pháp đánh giá số điều kiện liệu, độ xác so sánh với phương pháp sử dụng từ điển T khố: kiểm lỗi tả cảm ngữ cảnh, danh sách định, collocation, từ ngữ cành, corpus, corpus văn thô Giới thiệu Danh sách quvết định (Rivest, 1987) dược ứng dụng hiệu vào việc giải toán sau: xử lv nhập nhăng nghĩa cùa từ (Yarowsky, 1994, 1995? 1999: Mooney, 1996; Wilks and K iểm lỗi tả dựa vào từ điển Phương pháp base-line để so sánh với phương pháp danh sách định 'Câu vào: Sản pliủm có íón doanh so cao Ta dẻ nhận tháy lòn khõng thuộc vé rừ 2.1 Tập nhầm lẩn àm tiết Tập nhầm lẫn cúa âm tiết s tập hợp àm tiết mà mỏi âm tiết tập bị nhầm lẫn thành s Nguyên nhản nhầm lẫn đánh máy phát âm (phương I12 ỮÌ hav đặc trưng hệ nhận dạng chữ Bài báo sử dụng tập nhầm lẫn đánh máy (xem [15]) phát âm (Hoàng Phẻ, 1999) cả, có khả nãng âm tiết lỗi (càu không phàn đoạn àm tiết này) Phương pháp khòns bát lỗi từ đơn (àm tiết đúng, phàn đoạn từ thành công) hay mắc lỗi tiêu cực sau: Vi du Test chương trình Vietspell 2000 VƠI mức độ kiếm tra bàng Cảu vào: Pliuơng tliức sấp chữ bang ỉax kliiến người công nhàn rjn vất Báo lỗi: bần% tay -> bàn tav Vi du: khléu r r — iliic u J iU N it; - « khiéu Các thuộc tính Các thuộc tính cho (template) ngữ cành iln é u chủ k ih ie u chữ li 'x * hiếu ta mẫu 3.1 Từ ghép Để chọn xác âm tiết tập nhám lẫn, la cần dựa vào âm tiết xung quanh Đơn vị ngõn ngữ nhò nhát si úp ta làm vièc từ shép kiếu 2.2 Kiếm lõi chinh ta dưa vào từ điển Hai ý tướnìỉ cùa phương pháp sau: - Có kha nãns inỏt âm tiết lỗi tổn ủm tiết tập nhám lẫn cũa kết hơp với âm tiết xung quanh tao thành từ ghép - Nếu càu khỏng chia thành dãy từ có âm tiết vị trí bị ngát lỗi (Nguvẻn Công Tú 1998) 3.2 Collocation Thuật ngừ collocation irons báo nàv hiếu theo nghĩa rộng Nghĩa từ xuất ké gần nhau, không chi gồm cụm từ thành ngữ có nghĩa khơng tố hợp từ nghĩa thành phán Các loai collocation -SỜ là: Ị + Từ kè bên phái (+1 W) + Từ kề bén trái (-1 w ) ị + Cãp từ offset -2 -1 ! + Cặp từ offset -1 +1 Ị + Cặp từ offset +1 +2 V i du I: Câu vào: M icrosoft vừa mắt hệ diều hành Xét tập nhầm lần cua âm tiết diều, ta thấy có àm tiết diêu kèt hơp với âm tiết hệ hànli tạo thành từ hệ diêu liànli, có năn2 diêu sai Nếu có thêm tn thức nsịn naử khác, chảng han từ loại, ta có the mơ rộng kiểu thc tính Ví du: SSotu_ SPhutu_ Vi du 2: _SDanhturieng Trong thí nghiộm phần sau, chúng tỏi sử dụng mảu collocation chứa từ loại, giới hạn hai từ loại số từ danh từ riêng (do chưa có POS-tagger tiếng Việt hồn chinh) •■Khơng phái từ hũu ích phân biệt từ tập nhầm lẫn Có hai loại, thứ nhát từ xuất nhiéu chức ngữ pháp cùa nó, thứ hai từ mà ước lượng xác suất khỏng xác thiếu liệu Ta nên loại bỏ chúníĩ để tiết kiệm hò nhớ Các phàn phối collocation ước lượng dựa vào tần suất n-gram từ (word n-gram), gồm có unigram, bigram, trigram Ví du: Trong tiếng việt có rừ loại phụ từ (những, đang, V.V.), sổ từ (m ột hai, vài, V.V.), quan hệ từ (khi do, bời, v.v.) coi từ chức nãng Ví du: Dưới sỏ bigram tần suất tương ứng (corpus báo PC World Việt Nam): Bigram Tần suát mav # mặc may # may # rộng hẹp máy # bán hàng máy # bỏ túi máy tính # SDanhturieng 216 máy tính # diển hình 29 máy tính # điện tử nam # thường nam # l nam # 2569 nám # SSotu 186 nám # qua Chúng bỏ qua từ chức giai đoạn huấn luyện, heuristics làm giảm khoảng 60% vêu cáu nhớ Có nhiều cách để lọc bớt cập từ mà việc chúng xuất với ngẫu nhiên hoăc ước lượng xác suất khơng chuẩn thiếu liệu Đó kiểm định giả thuyết thống kè, ngưỡng tần suất, mutual information -V.V (xem Manning Schutze, 1998, Chương 5) Trong báo chúns tòi sử dụng ngưỡng tàn suát với giá trị 10 , heuristics làm giám tới 94% yèu cáu nhớ Vi du: Một số cáp từ ngữ cánh Lần suất tương ứng (corpus báo PC World Việt Nam): Cảp từ ngữ cành Tán suất an ninh, hệ thống 21 an toàn, máy 25 24 an toàn, bảo mật 34 an toàn, cách 11 an tồn, biện pháp camera, hình 18 17 Ị camera, hình ảnh camera, loại 11 i camera, máv 29 camera, máv tính 10 ! camera, máv in 3.3 Từ ngữ cành Đầu mối để nhận biết từ nhập nhăng từ xung quanh Ví dụ ta cần phân biệt banh bánh, ta quan sát thấy gần có từ kẹo, mía, hay sữa chúng gợi ý từ bánh Khi xét từ ngữ cảnh, ta bò qua thứ tự cùa từ Tham số mà ta có thê điéu chỉnh K, nửa độ rộng cứa sổ ngữ cảnh Yarovvsky (1994) K bàng thích hợp cho giải nhập nhãng cú pháp, giá trị lớn (20 tới 50) thích hợp cho giải nhâp nhằng ngữ nghĩa Trong báo chúns tòi chon K bans 10 3.4 H uân luyện Chúng thống kè unigram, bigram, trigram từ ngữ cảnh sử dụng cấu trúc liệu suffix-tree Cấu trúc có hai ưu điểm nén liệu truy cập nhanh Thêm vào âm tiết tiếns Việt mã ìiố bằna số (2 byte) nèn âm tiết chi chiém nhớ bầng kv tự Unicode Chi tiết chúng tỏi khơng trình bày đâv Các tần suất C(vv), C ( f ) , C( w f ) lưu suffix-tree sờ để tính ước lượn2 xác suất sau .4.1 Thuạt toán kiêm lui Giả sử càu vào phân tích từ tơ (từ tố bao gồm àm tiết tiếng Việt, dâíu cảu, số, V V ) , v tính tập nhầm lẩn àm tiết Thủ tục áp dụng cho àm tiết câu vào: Phién bán dành cho tiéng Việt cùa thuàt toán mà G old in g (1995) dưa r a Nêu ủm tiết không thuộc từ đươc chọn thực bước sau: (1 ) Phàn từ, kết !à tập nhầm lẫn từs (2) Với mỏi từ w thuộc S: Xác định túi thuộc tính c„ Việc huấn luvện thưc corpus vãn bán dã phàn (loạn từ Mô hinh phàn doạn từ mà sử dụng HMM, cho kết tốt phương pháp Maximalmatching (Nguvẻn Phương Thái, 2003) khònơ chứa thuộc tính xung đột với thuộc tính đươc chấp nhận trước Tính điém từ bới score ( iv ) = max P( w ! / ) ;e< xác định /„ = arg max P(w I / ) '«< T h u ậ t to án kiếm lỗi Từ đày sứ dụng tàp nhầm lán từ ký hiệu !à s Tập nhám lán từ tạo bơi tập nhám lẫn àm tiết âm tiết xưng quanh Các lừ ihuộc s nhàp nhàng với nhuư cá vé phàn đoạn lản tà a = a r g m a x s c o r e ị IV) »*€.v Ghi nhớ thuộc tính / = { \ V _ K Í t ' , , Í t ' , W K } u Vi du: Xét càu lỗi: "Microsoft dang giới thiệu hệ diếu hành ” Ta có đố thị rừ phụ thuộc xác suất sau: { w _ , , IV,, F Với thuộc tính f thuộc C: P(w\f) = dé kiêm tra xune đỏt vi tri khác, đánh dâu àm tiết cùa câu vào mà a '‘chỏng" lẽn. _ Ta đê ý túi thc tính mà mịt từ w có là: c „ Ị (3) Từ chon C(w f) cự) Xác suất ưu liên cùa từ (theo phương pháp làm trơn Cộng Thêm Một (Jurafsky, 2000 )): ; j Oơi P ( ÌV) = -1 Z — V + V trons N sơ từ V kích thước từ vựng cùa corpus hn lun •= Trong đố thị ưên: nầm ưẻn trục ngaiig nút biểu diẻn âm tiết câu vào, chúng nối mũi tên đứt đoạn thể thứ tự xem xét; nút có chấm từ ta quan sác được; cung biểu diễn phụ thuộc xác suát từ ứng cử viẻn từ ca quan sát được, ba f w,score{\»))\ cung đậm thể từ ta quan sát bị khoá chọn từ ứng cử viên (ví dụ ta chọn “đang” “giới thiệu” bị khố); nút có viển đậm từ chọn; nút trục dọc thuộc danh sách quvết định; không vẽ từ ứng vièn mà xác suất (có nhiều từ vậy) dụng (Từ điến Tiêng Việt Viện Ngổn ngữ học có khoảng 40000 mục từ) □ Từ điển ầm tiết tiếng Việt (được nhập vào từ [Hồng Phê 1999]): có 6753 ảm tiết □ Từ điển tâp nhầm lẫn phát âm (được nhập vào từ [Hồng Phê, 1999]): có 3419 tập nhầm lảnT Tập nhầm lẫn đánh máy lạo tự động thuật toán Minimum-editdistance dựa vào từ điển àm tiết (xem [15]) 5.1 Bộ test Để test tự động, ta cần test gổm tập câu có lỗi (dùng làm input cho máy) tập càu dúng tương ứng (dùng làm chuán so sánh với output cùa máy) Trong nghiên cứu kiểm lỗi tả, test thường tạo tự động (Golding, 1995) Chúng tỏi làm 4.2 Đánh giá độ phức tạp Giả sử N số âm tiết câu vào, L độ dài cực đại từ (tính số àm tiết), M số phần tử cực đại cúa tập nhầm lẫn âm tiết, K nửa độ rộng cừa sổ xét ngữ cảnh Ta giả sử mỏi từ có không âm tiết sai Độ phức tạp cùa thuật toán kiểm lỗi 0{ \ L : \ I K ) , tuyến tính theo độ dài càu vào (chi tiết xin xem trono [151) Chuns tòi sử duns tập âm tiết test gổm 21 âm tiết sau: Am tiết sách trone càp mans quang cài Đ ánh giá Dưới chúng tơi trình bày kết thí nghiệm corpus PCWorld Việt Nam Corpus dược chia làm hai phẩn sau: Tên Kích thước (Mb) Toàn 21 Mb Phần huấn luvên 19 Mb Phần test Mb quan cày, cai năm ! thường i lớn nam, lăm thường, thương lờn lợi doanh lơi, lời chương cịng Ngồi cịn có tài nguyên ngôn ngữ là: □ Từ điển Việt-Anh công ty Lạc Việt (chỉ sử dụng đầu mục từ) Từ điển có khoảng 70000 đầu mục từ, sơ lượng từ khơng phải từ điển thơng Dang sai xách, ách chong, trịne vập mãng, mang chúng sảp đan2 danh trương, chưng cong trúng, chung xáp đa, đả dang I bán _ I ban, bàn, ván khách biến khác, hách biẻn, viên 5.2 Đọ đo Giả sử N tổng số âm tiết sai, tòng số âm tiết sai đưọc máy nhận dạng đúng, độ xác là: c Sau đó, lọc từ corpus test tập cảu chứa âm tiết tập Với câu test chúnơ tòi tạo lỗi báng c c h tìm thay um accuracy - 100 * — V tiết test bời dạng sai (được chọn ngẫu nhiên), không qu hai àm tiết sai cảu Đò đo đươc nhiều nsười sử dung, cháng hạn: (Goldin g, 1995), (Golding Schabes 1996) (Golding Roth 1999) Vi du: ị Tập càu test trước dươc gáv lỏi _ ; Thực chất hai lại ỉoàn trang Ị Web nhung bạn muốn lưu mỏỉ số lớp i Web site , đáu liên site náy phái dươc 5.3 K ết q u th o luận Kết huấn luvèn: Kích thước từ vung corpus 17570 Sò từ corpus Số lượng bi-2ram Số lượng cặp từ ngữ cánh 3028048 432820 85829 : bò sung vào danh sách Favorite sau dó i bạn chọn Organize Favorites dé thực I tùy chọn làm cho trở thành ngoại tuyến < s> M icrosoft thùa nhận liọ dã pliá vỡ Các kết quà thí nshiẽm đảỵ chon dỏ sai âm tiết K=10 Bans kết quà so sánh phương pháp nguvên tác [rong việc dật giữ cho liệ diều hành , Tập càu test sau dươc gay lỏi _ Thực cliất lù hcii lại [ồn (raiiíỊ i Web ban muốn lưu sò lớp Web site , dâu (lén site nùx phải dược bổ sung vào danh xách tt#sãcli##&&ilaiiii_sácli&& Favorite san dó bạn cliọn Organize Favorites dỡ ỉhực nhũng tùy cliọn lảm clio trừ tliành ngoại tuyến Microsoft thùa nhận họ dà : # # d ã p h v ỡ nguyên tác trỏnẹ ##trongứ# Cơng nghè CN N guvễn Văn Vinh CNTT Cịns tv Tin học Lạc Viẻt - số đăng ký đề tài I số chứng nhận đăng ký kết nghiên cứu 1 I ; Bảo mât A Phò biên rỏnz rãi B Phò bièn hạn chè c L I I I Bào mật N sàv Ngày Tóm tăt kêt nghiên cứu: Thứ nhàt dê tài dã tim hièu vẻ dịch :náv Anh-Việt tóm tăt ván ban tiê n g A n h v ẻ dịch m áv A nh-V iệt dẻ tài dà tim niêu m ị hình dịch m á\ cư ban bao iiỏm mơ hình dựa luật va cue inỏ lìinh dựa trẽn corpus đ ị n £ thời di sàu vào m ị hình dịch chuvẽn dơi Đè tài dã n a h iẻ n cưu kèt liợp '_ũữa m ỏ hình dựa luật m hinh thòna kè sò lĩiai doạn cua dịch c h u v ẽ n dơi dó s n nhãn từ loại xư K nhập nhăng Iiỉiử nenĩa cua lừ Kct qua thư nshiệm tốt trèn hệ dịch mav Anh-Việt Vê tóm tãt vãn ban ĩ iế n s A n h đề ĩài ù m hivìu rịng quan VC tom ĩăt văn ban sau J ó vào n a h iẻ n c ứ u m ò hinh tom tãt vãn ban inới m ỏ hình tom tát vãn ban diều khiến bơi cú phap tóm tát văn ban sư dụng Support Vector Machines, tóm tắt văn ban dựa trèn học máy cày quyèt dinh Kẻt qua thư nghiệm tòĩ trèn c o rp u s - Thứ hai đề tài đà bươc dâu xày dựng ihư nghiêm hệ thịng tóm tăt va dịch văn ban từ tiéna Anh sans tiếng Việt sò chu đê han chẻ Tin học Kinh tẻ Thứ ba đề tai dã xàv dựns số cóng cụ va dừ liệu cung cap cho việc nưhièn cứu xư lv nơỏn ngừ tự nhiên :ại khoa, v ẻ còng cụ đẻ rãi dã xây đự ns dược số còng cụ chương trinh phàn đoạn từ tiêng Việt, chương, trình ihỏns kè tàn suàt xàu rong corpus Vè dử ỉiệu sè :ai \à v dựns đươc corpus tiếng Việt ^ỏm CJC ván ban đà dirơc nhan loai I theo chủ đề vả corpus song ngữ A nh-V iệt gôm khoảng 20000 cặp câu thuộc chủ đề hội thoại thơng dụng C orpus dùng cho nghiên cứu dich máy dưa corpus Kiên nghị vê quy mô đôi tượng áp dụng kêt nghiên cứu: Các kết đê tài có thê chia sè cho quan tâm nghiẻn cửu xảy dựng chương trình ứng dụng Chức vụ Chủ nhiệm đề Thù trườns Chủ tịch hội đông p ĩh ù trường tài quan chu trì dề đánh giá thức tài quan quàn lv đề tai ị Họ Lẻ Anh Cường J Ỵ A /cề^ tẻn HIỆU TRƯƠNG Thạc SV Học vị Tsf cf i P rS T s I Ký tên ị / -ĐAI! V \ onwr % ầ k dâu £ ! GSTo" l * ỉ Đ óns * ĩ> ỉ'ă/71 * ; ! ... cửu bước đẳu xảy dựna hệ thống dịch tóm tất tự đ ộ n s văn Anh- Việt Do chúng tơi trình bày hai phằn: hệ thốnơ dịch Anh- Việt tóm tăt văn bán tiêng Anh Hệ thông dịch Anh- Việt chúnơ phát triẻn từ... tiếng Anh người không thạo tiếng Anh 1.2 Nội d u n g đề tài Tìm hiêu dịch máy Anh- Việt tóm tắt văn tiếne Anh Bước dâu xày dim s thừ nghiệm hệ thòng tóm tất dịch văn bàn từ tiêng Anh sans tiẻng Việt. .. xảy dựng hệ dịch từ tiếng Anh sang tiếnơ Việt Bẽn cạnh đó, lĩnh vực nehiẽn cứu nhiêu trẻn giới tóm tắt văn cịn ý Việt nam M ột kêt hợp siừa tóm tăt dịch văn từ tiếng Anh sang tiếng Việt áẽ có