(Luận văn) nghiên cứu phương pháp rút gọn văn bản và chuyển đổi cú pháp ngôn ngữ ký hiệu việt nam

70 3 0
(Luận văn) nghiên cứu phương pháp rút gọn văn bản và chuyển đổi cú pháp ngôn ngữ ký hiệu việt nam

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

ĐẠI HỌC THÁI NGUYÊN TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG MA NGỌC KHÁNH lu an n va NGHIÊN CỨU PHƯƠNG PHÁP RÚT GỌN VĂN BẢN VÀ CHUYỂN ĐỔI CÚ PHÁP NGÔN NGỮ KÝ HIỆU VIỆT NAM ie gh tn to p Chuyên ngành: Khoa học máy tính Mã số: 8480101 d oa nl w ll u nf va an lu LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH m oi Người hướng dẫn khoa học: PGS.TS PHÙNG TRUNG NGHĨA z at nh z m co l gm @ an Lu THÁI NGUYÊN, 2018 n va ac th si MỤC LỤC MỞ ĐẦU CHƯƠNG TỔNG QUAN VỀ NGÔN NGỮ KÝ HIỆU VIỆT NAM 1.1 Tổng quan ngôn ngữ ký hiệu 1.1.1 Khái niệm ngôn ngữ ký hiệu 1.1.2 Đặc điểm ngôn ngữ học ngôn ngữ ký hiệu lu 1.1.3 Vai trị ngơn ngữ kí hiệu với cộng đồng người khiếm thính an va 1.2 Tổng quan ngôn ngữ ký hiệu Việt Nam n 1.3 Tính rút gọn ngơn ngữ ký hiệu Việt Nam 11 gh tn to 1.4 Trật tự cú pháp ngôn ngữ ký hiệu Việt Nam 12 p ie 1.5 Ứng dụng công nghệ thông tin dịch ngôn ngữ ký hiệu 13 1.6 Mục tiêu luận văn 15 oa nl w CHƯƠNG LUẬT RÚT GỌN VĂN BẢN VÀ CHUYỂN ĐỔI CÚ PHÁP ĐỐI VỚI NGÔN NGỮ KÝ HIỆU VIỆT NAM .16 d an lu 2.1 Thu thập luật rút gọn ngôn ngữ ký hiệu Việt Nam 16 u nf va 2.1.1 Thu thập luật rút gọn giới từ liên từ 16 2.1.2 Thu thập luật rút gọn từ tính thái 22 ll oi m 2.2 Thu thập luật chuyển đổi cú pháp ngôn ngữ ký hiệu Việt Nam 25 z at nh 2.2.1 Vấn đề xây dựng ngân hàng câu giải cú pháp 25 2.2.2 Tổng kết đặc điểm trật tự cú pháp ngơn ngữ kí hiệu Việt z @ Nam 31 l gm 2.3 Cơ sở liệu văn tiếng Việt 33 m co 2.3.1 Đặc trưng văn tiếng Việt 33 2.3.2 Phân tích liệu văn tiếng Việt 36 an Lu 2.3.3 Các vấn đề phân tích cú pháp Tiếng Việt 38 n va ac th si CHƯƠNG XÂY DỰNG HỆ THỐNG RÚT GỌN VĂN BẢN VÀ CHUYỂN ĐỔI CÚ PHÁP NGÔN NGỮ KÝ HIỆU VIỆT NAM .47 3.1 Môi trường thực nghiệm hệ thống rút gọn văn chuyển đổi cú pháp 47 3.2 Các công cụ hỗ trợ thực nghiệm 47 3.2.1 Công cụ TreeBank Editor 47 3.2.2 Bộ phân tích cú pháp Bikel 47 3.3 Cài đặt thuật toán rút gọn văn 48 lu 3.3.1 Thuật toán rút gọn văn ngôn ngữ ký hiệu Việt Nam 48 an 3.3.2 Đánh giá thực nghiệm 50 va n 3.4 Cài đặt thuật toán chuyển đổi cú pháp 53 to hiệu 53 ie gh tn 3.4.1 Xây dựng chuyển đổi cú pháp tương ứng ngơn ngữ kí p 3.4.2 Cài đặt thuật toán 56 nl w 3.4.3 Đánh giá, kết thực nghiệm 57 d oa 3.5 Xây dựng phần mềm thực nghiệm rút gọn văn chuyển đổi cú an lu pháp 59 u nf va KẾT LUẬN 61 TÀI LIỆU THAM KHẢO 62 ll oi m z at nh z m co l gm @ an Lu n va ac th si DANH MỤC HÌNH Hình 1.1 Ngơn ngữ kí hiệu hệ thông Arthrological Hình 2.1 Quá trình gán nhãn 31 Hình 2.2 Cây cú pháp câu "tơi nhìn gái với ống nhịm” 39 Hình 2.3 Dẫn xuất phân tích top - down 42 Hình 2.4 Dẫn xuất phân tích bottom - up 45 Hình 3.1 Sơ đồ thuật tốn rút gọn văn .50 lu Hình 3.2 Cấu trúc cú pháp chuyển đổi tương ứng sang dạng NNKH câu đơn 53 an Hình 3.3 Cấu trúc cú pháp chuyển đổi tương ứng sang dạng NNKH câu phủ va n định dạng 53 gh tn to Hình 3.4 Cấu trúc cú pháp chuyển đổi tương ứng sang dạng NNKH câu phủ ie định dạng 54 p Hình 3.5 Cấu trúc cú pháp chuyển đổi tương ứng sang dạng NNKH câu nghi nl w vấn dạng .54 d oa Hình 3.6 Cấu trúc cú pháp chuyển đổi tương ứng sang dạng NNKH câu nghi an lu vấn dạng .54 u nf va Hình 3.7 Cấu trúc cú pháp chuyển đổi tương ứng sang dạng NNKH câu đơn có bao gồm số từ .55 ll oi m Hình 3.8 Sơ đồ thuật tốn chuyển đổi cú pháp .56 z at nh Hình 3.9 Kết dịch tự động câu tiếng Việt sang dạng câu ngữ pháp ngơn ngữ kí hiệu Việt Nam 58 z Hình 3.10 Giao diện phần mềm thực nghiệm rút gọn chuyển đổi cú pháp 59 @ l gm Hình 3.11 Giao diện phần mềm thực nghiệm rút gọn chuyển đổi cú pháp 60 m co Hình 3.12 Giao diện phần mềm thực nghiệm rút gọn chuyển đổi cú pháp 60 an Lu n va ac th si DANH MỤC BẢNG BIỂU Bảng 1.1 So sánh câu tiếng việt câu ngôn ngữ ký hiệu 12 Bảng 2.1 Một số mẫu câu rút gọn giới từ liên từ 22 Bảng 2.2 Tập nhãn từ loại 26 Bảng 2.3 Tập nhãn cụm từ 28 Bảng 2.4 Nhãn mệnh đề .28 Bảng 2.5 Nhãn chức cú pháp 29 lu Bảng 2.6 Nhãn chức trạng ngữ 30 an Bảng 2.7 Bảng thành phần âm tiết 34 va n Bảng 3.1 Điểm số BLEU 52 gh tn to Bảng 3.2 Điểm BLEU đánh giá tập liệu thuật toán chuyển đổi cú pháp p ie NNKH 58 d oa nl w ll u nf va an lu oi m z at nh z m co l gm @ an Lu n va ac th si LỜI CAM ĐOAN Tôi là: Ma Ngọc Khánh Lớp: CK15 Khoá học: 2016 - 2018 Chuyên ngành: Khoa học máy tính Mã số chuyên ngành: 8480101 Cơ sở đào tạo: Trường Đại học Công nghệ thông tin Truyền thông Thái lu Nguyên an Giáo viên hướng dẫn: PGS.TS Phùng Trung Nghĩa va n Tôi xin cam đoan luận văn “Nghiên cứu phương pháp rút gọn văn gh tn to chuyển đổi cú pháp ngôn ngữ ký hiệu Việt Nam” cơng trình nghiên ie cứu riêng hướng dẫn PGS.TS Phùng Trung Nghĩa Các số p liệu sử dụng luận văn trung thực Các kết nghiên cứu trình nl w bày luận văn chưa cơng bố cơng trình khác d oa Thái Nguyên, ngày 30 tháng năm 2018 ll u nf va an lu HỌC VIÊN oi m z at nh Ma Ngọc Khánh z m co l gm @ an Lu n va ac th si LỜI CẢM ƠN Học viên xin gửi lời cảm ơn chân thành tới Thầy hướng dẫn PGS.TS Phùng Trung Nghĩa, Trường Đại học Công nghệ Thông tin Truyền thơng Đại học Thái Ngun, người tận tình hướng dẫn giúp học viên hoàn thành luận văn tốt nghiệp Học viên xin gửi lời cảm ơn sâu sắc đến thầy cô giáo Trường Đại học Công nghệ Thông tin Truyền thông - Đại học Thái lu Nguyên, thầy cô giáo Viện Công nghệ thông tin - Viện khoa học an Việt Nam nhiệt tình giảng dạy, truyền đạt kiến thức cho học viên va n suốt năm học để học viên hồn thành luận văn gh tn to p ie Ma Ngọc Khánh d oa nl w ll u nf va an lu oi m z at nh z m co l gm @ an Lu n va ac th si MỞ ĐẦU Hiện theo thống kê, Việt Nam có khoảng 2.5 triệu người khiếm thính [1] Do khả nghe bị suy giảm nên khả giao tiếp lời cộng đồng người khiếm thính bị hạn chế nhiều Để thay cho khả giao tiếp tiếng nói, ngơn ngữ ký hiệu, ngơn ngữ tượng hình sử dụng biểu diễn, chuyển động bàn tay, thể, sắc thái biểu cảm khuôn mặt đời Tuy nhiên, việc sử dụng ngôn ngữ ký hiệu chưa phát huy lu hiệu giúp người khiếm thính hịa nhập với xã hội việc giao an tiếp người khiếm thính người nghe tốt cịn gặp nhiều khó khăn va n Trên giới nghiên cứu phát triển đưa nhiều gh tn to dịch vụ thông dịch sản phẩm công nghệ nhằm hỗ trợ người khiếm thính ie giao tiếp xã hội máy trợ thính dành cho người nghe kém, găng tay p chuyển đổi ngôn ngữ ký hiệu thành giọng nói [9], phần mềm dịch từ văn nl w bản/giọng nói sang ngơn ngữ ký hiệu hay từ điển tra cứu ngôn ngữ ký d oa hiệu online [12], v.v… Tuy nhiên nghiên cứu hay sản phẩm có an lu hạn chế chưa đáp ứng việc hỗ trợ giao tiếp hai chiều u nf va người khiếm thính người nghe tốt thực tế Việc nghiên cứu xử lý ngơn ngữ ký hiệu máy tính nước ta ll oi m mẻ Chúng ta chưa thực có hệ thống ngơn ngữ đồng cho z at nh ngôn ngữ ký hiệu tiếng Việt [6] Bên cạnh vấn đề ngôn ngữ học, việc phát triển sản phẩm ứng dụng công nghệ để phát huy ngôn ngữ ký hiệu nhằm nâng z cao trình độ, tiếp nhận thơng tin, khả giao tiếp cho người khiếm thính lại l gm @ hiệu m co Với quan tâm đặc biệt Đảng Nhà nước, có nhiều trường học, trung tâm hỗ trợ dạy học việc làm riêng cho người khiếm thính Vì an Lu việc nghiên cứu thuật toán xây dựng phần mềm rút gọn văn n va ac th si bản, chuyển đổi cú pháp ngôn ngữ ký hiệu Việt Nam cần thiết [2] Do tơi chọn đề tài “Nghiên cứu phương pháp rút gọn văn chuyển đổi cú pháp ngôn ngữ ký hiệu Việt Nam” Mục tiêu luân văn Nghiên cứu lý thuyết có để phân tích, đánh giá tính chất, luật rút gọn, chuyển đổi cú pháp ngôn ngữ ký hiệu Việt Nam Dựa sở lý thuyết phân tích, đánh giá nghiên cứu cài đặt thực nghiệm thuật toán rút gọn, chuyển đổi cú pháp xây dựng phần mềm hỗ trợ rút gọn chuyển đổi cú pháp ngôn ngữ ký lu hiệu Việt Nam an Nội dung luận văn bao gồm chương: va n Chương Tổng quan ngôn ngữ ký hiệu Việt Nam to gh tn Chương Luật rút gọn văn chuyển đổi cú pháp ngôn Chương Xây dựng hệ thống rút gọn văn chuyển đổi cú pháp p ie ngữ ký hiệu Việt Nam nl w ngôn ngữ ký hiệu Việt Nam d oa Khi viết báo cáo học viên cố gắng để đạt mục tiêu an lu định hướng nghiên cứu đề ban đầu, song điều kiện thời gian lực u nf va hạn chế nên khơng tránh khỏi thiếu sót Học viên mong nhận góp ý thầy giáo hướng dẫn, thầy giáo để học viên có kinh ll z at nh hoàn thiện oi m nghiệm thực tế bổ ích để sau xây dựng chương trình z m co l gm @ an Lu n va ac th si CHƯƠNG TỔNG QUAN VỀ NGÔN NGỮ KÝ HIỆU VIỆT NAM 1.1 Tổng quan ngôn ngữ ký hiệu 1.1.1 Khái niệm ngôn ngữ ký hiệu Ngôn ngữ ký hiệu (hay ngôn ngữ dấu hiệu, thủ ngữ) ngôn ngữ dùng biểu bàn tay thay cho âm tiếng nói Ngơn ngữ ký hiệu người điếc tạo nhằm giúp họ giao tiếp với cộng đồng tiếp thu tri thức xã hội Việc thay âm lu tiếng nói liên quan đến đồng thời kết hợp hình dạng tay, hướng an n va chuyển động bàn tay, cánh tay thể, nét mặt để thể trôi tn to chảy suy nghĩ người nói Ngơn ngữ kí hiệu có nhiều điểm tương gh đồng với ngơn ngữ nói (đơi gọi "ngơn ngữ miệng" - mà phụ p ie thuộc chủ yếu vào âm thanh), lý ngơn ngữ học xem xét hai w dạng ngôn ngữ ngơn ngữ tự nhiên Tuy nhiên có số khác biệt oa nl đáng kể ngôn ngữ ký hiệu ngơn ngữ nói Đặc biệt khơng nên d nhầm lẫn ngơn ngữ kí hiệu với ngơn ngữ thể, loại giao tiếp phi ngôn va an lu ngữ u nf Bất đâu cộng đồng người khiếm thính giới, ngơn ngữ ll ký hiệu phát triển Ngơn ngữ kí hiệu không sử dụng m oi người điếc mà sử dụng người nghe thấy, z at nh thể chất bị hạn chế để nói chuyện bình thường Ngơn ngữ kí z hiệu có thuộc tính ngơn ngữ riêng biệt Hiện nay, hàng trăm ngôn ngữ gm @ ký hiệu sử dụng giới phát triển cộng đồng người khiếm l thính tất quốc gia Một số ngôn ngữ ký hiệu có cơng nhận pháp m co lý, số khác mang tính cục bộ, địa phương an Lu Một quan niệm sai lầm phổ biến tất ngôn ngữ ký hiệu toàn giới hoàn toàn giống ngôn ngữ ký hiệu ngôn ngữ n va ac th si 49 thành dạng từ cụm từ- tạm gọi đơn vị ngôn ngữ Với đơn vị ngôn ngữ từ điển xây dựng số từ đồng nghĩa tương ứng Đối với thuật tốn tơi sử dụng trình bày [10], có đề cập đến khái niệm “ Trọng số từ vựng” Trong xem xét ngữ nghĩa văn bản, người ta cảm thấy dường số từ thể ngữ nghĩa nhiều từ khác Hơn nữa, có phân biệt từ ngữ chức từ ngữ mang nội dung Trong số từ ngữ mang nội dung dường thể nhiều chủ để từ khác Bất kể phương lu pháp dùng cho việc gán trọng số cho từ vựng cần đòi hỏi an nguyên tắc gán trọng số diễn giải tốt tầm quan trọng từ va n vựng văn Đặc biệt ngơn ngữ kí hiệu, từ ngữ có gh tn to trọng số gán tương ứng với từ loại ie là: giới từ, liên từ, từ tình thái… Trọng số dựa mơ hình phân bố p từ, chẳng hạn phân bố Poison hay đánh giá thông tin chủ đề nl w thông qua Entropy d oa Một sơ đồ trọng số dùng thông dụng tf * idf với tf tần suất an lu từ vựng văn idf nghịch đảo số lượng văn mà u nf va từ từ vựng xuất Vì trọng số từ vựng mơ hình khơng gian vecto ảnh hưởng trực tiếp đến kết việc rút gọn, dậy kết cụ ll oi m thể phụ thuộc chủ yếu vào phương pháp gán trọng số z at nh Các bước thuật toán rút gọn văn tiến hành sau: Bước 1: Máy tách từ ( sử dụng công cụ phân tích cú pháp Bikel z @ cấu trúc cú pháp Viet treebank) trả liệu cho việc tiền xử lý Dữ liệu bao l gm gồm danh sách từ cụm từ gán nhãn cụm từ theo độ quan trọng m co Bước 2: Bằng phương pháp gán trọng số cho từ loại ta xếp từ an Lu n va ac th si 50 Bước 3: Giản lược thành phần câu theo trọng số sinh câu rút gọn Sơ đồ thuật toán rút gọn văn tiếng Việt sang dạng văn ngơn ngữ kí hiệu thể hình lu an n va p ie gh tn to d oa nl w Hình 3.1 Sơ đồ thuật tốn rút gọn văn an lu 3.3.2 Đánh giá thực nghiệm u nf va BLEU phương pháp để đánh giá chất lượng tài liệu ll dịch tự động máy, IBM đề xuất vào năm 2002 sử dụng làm m oi phương pháp đánh giá cho nghiên cứu dịch máy Nguyên lý ban đầu z at nh phương pháp so sánh hai tài liệu dịch tự động máy chuyên gia ngôn ngữ dịch Việc so sánh thực cách z gm @ phân tích thống kê trùng khớp ngẫu nhiên từ hai tài liệu có tính đến thứ tự từ câu sử dụng n-grams Cụ thể, điểm BLEU l m co tính cách phân tích thống kê mức độ trùng hợp n-gram tài liệu dịch tự động máy tay dịch an Lu chuyên gia ngôn ngữ chất lượng cao n va ac th si 51 Điểm số BLEU tính sau: - NRj: số n-gram phân đoạn j dịch tham khảo (theo chuyên gia) với tham số tham chiếu phù hợp xảy phân đoạn lu - NTj: số n-gram đoạn j dịch (bằng máy) an n va đánh giá to - wi = N1 gh tn - Lref: số từ dịch tham chiếu (theo chuyên gia) có độ dài gần p ie dịch ghi w - Ltra: Số từ dịch (bằng máy) ghi d oa nl Giá trị score đánh giá mức độ tương ứng hai dịch thực phân đoạn, phân đoạn hiểu đơn vị tối thiểu dịch, thông thường đoạn thường vài câu Các số liệu thống kê n-gram đồng xuất hiện, dựa n-gram cho phân đoạn thử nghiệm tham khảo, tính cho phân đoạn sau tích lũy tất phân đoạn Sản lượng BLEU số từ đến Giá trị cho thấy văn ứng cử viên tương tự với tài liệu tham khảo, với giá trị gần đại diện cho nhiều văn tương tự ll u nf va an lu oi m z at nh z m co l gm @ 3.3.3 Kết đánh giá thực nghiệm rút gọn văn Với liệu 200 câu đầu vào, 200 câu rút gọn chuẩn tham khảo từ tài liệu dùng cho người điếc chuyên gia ngôn ngữ ký hiệu cung cấp, sử dụng thuật tốn rút gọn trình bày để có 200 câu tương ứng rút gọn tự động Sau chúng tơi dựa phương pháp đánh giá BLEU để xem xét kết thuật toán rút gọn (kết thể an Lu n va ac th si 52 bảng 3.2) Tỉ lệ câu rút gọn (tương ứng với điểm BLEU = 1) chiếm 97.5% Các trường hợp lại rút gọn chưa đạt tính phức tạp vấn đề nhập nhằng ngữ nghĩa chưa giải hoàn toàn Bảng 3.1 Điểm số BLEU Linput NRj NTj Lref Ltra BLEU score 7 3 1.000 12 12 4 1.000 15 15 6 1.000 26 20 0.7515 5 14 14 5 1.0000 … … … … … … … 99 22 16 0.8465 100 24 24 8 1.0000 … … … … … … … 23 23 7 1.000 lu ID Sentence an n va p ie gh tn to nl w 199 d oa 200 13 18 0.9762 Với kết đánh giá phía trên, chúng tơi phân tích cài đặt lu va an thành cơng thuật tốn rút gọn văn văn tiếng Việt sang dạng văn u nf giản lược ngơn ngữ kí hiệu Tuy nhiên, thời gian nghiên cứu có hạn nên ll chúng tơi đánh giá tập liệu nhỏ m oi Kết nghiên cứu tiền đề cho việc xây dựng hệ thống dịch z at nh tự động văn tiếng Việt sang dạng văn chuẩn cú pháp ngơn z ngữ kí hiệu Trong bao gồm việc chuyển đổi cú pháp văn tiếng Việt @ gm dựa đặc tính quan trọng thứ 2, trật tự từ ngơn ngữ kí hiệu m co l mang đặc điểm riêng, khác biệt so với tiếng Việt thông thường an Lu n va ac th si 53 3.4 Cài đặt thuật toán chuyển đổi cú pháp 3.4.1 Xây dựng chuyển đổi cú pháp tương ứng ngôn ngữ kí hiệu Sau phân tích cú pháp văn tiếng Việt tiến hành xây dựng luật chuyển đổi cú pháp, sử dụng phương pháp trình bày [11] Trên tập liệu phân tích được, kết hợp luật chuyển đổi cú pháp phân tích trên, đưa chuyển đổi cú pháp tương ứng ngơn ngữ kí hiệu sau: lu an n va p ie gh tn to d oa nl w an lu Hình 3.2 Cấu trúc cú pháp chuyển đổi tương ứng sang dạng ll u nf va NNKH câu đơn oi m z at nh z m co l gm @ NNKH câu phủ định dạng an Lu Hình 3.3 Cấu trúc cú pháp chuyển đổi tương ứng sang dạng n va ac th si 54 Hình 3.4 Cấu trúc cú pháp chuyển đổi tương ứng sang dạng lu NNKH câu phủ định dạng an n va p ie gh tn to d oa nl w NNKH câu nghi vấn dạng ll u nf va an lu Hình 3.5 Cấu trúc cú pháp chuyển đổi tương ứng sang dạng oi m z at nh z m co l gm @ NNKH câu nghi vấn dạng an Lu Hình 3.6 Cấu trúc cú pháp chuyển đổi tương ứng sang dạng n va ac th si 55 lu an Hình 3.7 Cấu trúc cú pháp chuyển đổi tương ứng sang dạng n va NNKH câu đơn có bao gồm số từ p ie gh tn to d oa nl w ll u nf va an lu oi m z at nh z m co l gm @ an Lu n va ac th si 56 3.4.2 Cài đặt thuật toán Từ phân tích cấu trúc cú pháp chuyển đổi tương ứng tiến hành cài đặt thuật toán chuyển đổi cú pháp sau: lu an n va p ie gh tn to d oa nl w ll u nf va an lu oi m z at nh z gm @ l Hình 3.8 Sơ đồ thuật toán chuyển đổi cú pháp m co Bước 1: Đầu vào bao gồm câu văn tiếng Việt thơng thường cần an Lu dịch Ngồi ra, ta cần kết hợp với liệu từ điển ngơn ngữ kí hiệu n va ac th si 57 xây dựng bao gồm từ/cụm từ biểu diễn ngơn ngữ kí hiệu, gán nhãn xây dựng từ đồng nghĩa Bước 2: Phân tích cấu trúc cú pháp Ở sử dụng phương pháp phân tích cú pháp tiếp thống kê dựa kho ngữ liệu Viettree Bank cơng cụ phân tích cú pháp Bikel Bước 3: Tiến hành gán nhãn từ cụm từ câu, nhằm mục đích kết hợp với cú pháp phân tích để tìm kiếm cấu trúc câu phù hợp với luật chuyển đổi cú pháp xây dựng lu Bước 4: Từ kết bước nhằm mục đích kết hợp với cú pháp an phân tích, bước ta tìm kiếm cấu trúc câu phù hợp với luật va n chuyển đổi cú pháp xây dựng to gh tn Bước 5: Chuyển đổi cú pháp dạng ngôn ngữ kí hiệu từ ie luật chuyển đổi xây dựng p 3.4.3 Đánh giá, kết thực nghiệm nl w Để thực phương pháp dịch tự động câu tiếng việt sang dạng câu d oa ngữ pháp ngơn ngữ kí hiệu đề xuất trên, kết đánh giá an lu câu dịch đạt yêu cầu trợ giúp chun gia ngơn ngữ kí hiệu u nf va Các câu mơ hình liệu sáp nhập vào cấu trúc ngữ pháp thu cách tổng qt hóa cấu trúc Ví dụ câu "Anh đi", "Cô ll oi m đi", "Người đàn ông đi", vv sáp nhập vào cấu trúc ngữ pháp z at nh "{Anh ấy, cô ấy, người đàn ơng } đi" Bằng cách phân tích tập hợp từ tham số tổng quát cấu trúc ngữ pháp xây dựng z Để kiểm tra thuật toán dịch, 200 câu đơn giản lấy từ tài liệu @ l gm dùng cho người điếc Chúng dựa phương pháp đánh giá hiệu m co BLEU để xem xét kết thuật toán chuyển đổi cú pháp ngơn ngữ kí an Lu n va ac th si 58 Bảng 3.2 Điểm BLEU đánh giá tập liệu thuật toán chuyển đổi cú pháp NNKH ID sentence Linput BLEU Score lu an n va gh tn to 1.000 1.000 0.253 1.000 … … … … … … 196 0.2778 197 1.000 198 0.5250 199 1.000 200 1.000 p ie Kết là, 67% câu dịch tự động (tương ứng với điểm BLEU=1), 21% khơng dịch thiếu từ tương ứng với cử biểu diễn ngơn ngữ kí hiệu, 12% khơng dịch thiếu cấu trúc ngữ pháp tổng quát d oa nl w ll u nf va an lu oi m z at nh z m co l gm @ Hình 3.9 Kết dịch tự động câu tiếng Việt sang dạng câu an Lu ngữ pháp ngơn ngữ kí hiệu Việt Nam n va ac th si 59 3.5 Xây dựng phần mềm thực nghiệm rút gọn văn chuyển đổi cú pháp Với mục tiêu đặt luận văn xây dựng phần mềm thực nghiệm hỗ trợ rút gọn văn chuyển đổi cú pháp lựa chọn ngơn ngữ C# cho việc cài đặt thuật tốn xây dựng phần mềm Hình 3.10 minh họa giao diện phần mềm rút gọn chuyển đổi cú pháp ngôn ngữ ký hiệu Việt Nam lu an n va p ie gh tn to d oa nl w va an lu ll u nf Hình 3.10 Giao diện phần mềm thực nghiệm rút gọn chuyển đổi oi m cú pháp z at nh z m co l gm @ an Lu n va ac th si 60 lu an n va to gh tn Hình 3.11 Giao diện phần mềm thực nghiệm rút gọn chuyển đổi cú pháp p ie d oa nl w ll u nf va an lu oi m z at nh z gm @ cú pháp m co l Hình 3.12 Giao diện phần mềm thực nghiệm rút gọn chuyển đổi an Lu n va ac th si 61 KẾT LUẬN Với đề tài “ Nghiên cứu phương pháp rút gọn văn chuyển đổi cú pháp ngôn ngữ ký hiệu Việt Nam”, tác giả đạt kết định, phần mềm xây dựng ngôn ngữ C# hoạt động ổn định, kết chuyển đổi tốt Đề tài có nhiều khả mở rộng ứng dụng nhiều vấn đề cần nghiên cứu phát triển Những kết mà luận văn đạt được: Luận văn tập trung nghiên cứu ngôn ngữ ký hiệu Việt Nam, vấn đề rút gọn, chuyển đổi cú pháp ngôn ngữ ký hiệu Việt Nam, nghiên cứu luật, thuật toán xây lu an dựng phần mềm rút gọn văn bản, chuyển đổi cú pháp ngôn ngữ ký n va hiệu Việt Nam làm cầu nối giao tiếp người khiếm thính người nghe Về mặt lý thuyết: Luận văn tìm hiểu ngôn ngữ ký hiệu, ngôn gh tn to thuận lợi p ie ngữ ký hiệu Việt Nam, tính rút gọn, trật tự cú pháp, thu thập luật, cài đặt thuật tốn tìm hiểu ngơn ngữ lập trình C# để xây dựng mơi trường thực nl w nghiệm hệ thống rút gọn văn chuyển đổi cú pháp d oa Về thực tiễn: Luận văn xây dựng thành công phần mềm rút gọn văn an lu chuyển đổi cú pháp có khả rút gọn chuyển đổi đạt kết tốt va Các hạn chế: Phần mềm xây dựng đơn giản, chưa có nhận dạng oi m gọn sang ngơn ngữ ký hiệu ll u nf văn dạng âm thanh, hình ảnh, chưa có chiều chuyển ngược từ văn rút z at nh Hướng phát triển: Tiếp tục nghiên cứu để xây dựng hệ thống phần mềm có nhiều tính có khả rút gọn, chuyển đổi cú pháp nhiều z loại ngôn ngữ ký hiệu gm @ Khuyến nghị: Do thời gian nghiên cứu có hạn điều kiện cịn hạn l chế nên kết đạt chưa đạt yêu cầu khả ứng dụng thực m co tiễn Tác giả mong muốn hồn thiện tương lai, q trình q thầy, cơ, bạn bè đồng nghiệp an Lu thực cịn nhiều thiếu xót, hi vọng nhận đóng góp ý kiến n va ac th si 62 TÀI LIỆU THAM KHẢO Tiếng Việt [1] Báo cáo Tổng điều tra dân số, Tổng cục thống kê, 2009 [2] Đỗ Văn Ba, Báo cáo đề tài KHCN cấp Bộ “Hình thành thống hệ thống ký hiệu cử điệu cho người điếc Việt Nam”, 1997 [3] Phạm Thị Cơi (1988), Q trình hình thành ngơn ngữ nói người điếc Việt Nam, Luận án Phó tiến sĩ khoa học Ngữ văn, Viện Ngôn ngữ học, Tr 31 lu [4] Nguyễn Văn Khang (2012) Ngôn ngữ học xã hội, NXB Giáo dục , Tr an va 367 n [5] Đỗ Thị Hiên (2012), Ngơn ngữ kí hiệu cộng đồng người khiếm thính gh tn to Việt Nam: thực trạng giải pháp, Báo cáo tổng hợp đề tài nghiên cứu khoa p ie học cấp bộ, Viện Khoa học xã hội Việt Nam, Tr 156 [ 6] Đặng Sinh, Truyền hình dùng ngơn ngữ ký hiệu, người điếc câm lại oa nl w không hiểu, Báo điện tử Infonet, 2012 [7] Nguyễn Đức Tồn, Mấy vấn đề cú pháp ngơn ngữ kí hiệu Việt d an lu Nam, 2012 u nf va [8] Vương Hồng Tâm, Nghiên cứu cách biểu đạt ngơn ngữ kí hiệu người Điếc Việt Nam, Báo cáo tổng kết đề tài khoa học công nghệ cấp ll m oi Viện, Viện khoa học giáo dục Việt Nam, 2009 z at nh Tiếng Anh [9] Bich, D N T., Phung, T N., Tat, T V., & Tung, L P (2016, z gm @ December) Special Characters of Vietnamese Sign Language Recognition System Based on Virtual Reality Glove International Conference on l Springer International Publishing m co Advances in Information and Communication Technology (pp 572-581) an Lu n va ac th si 63 [10] Thi Bich Diep Nguyen, Trung-Nghia Phung, Tat-Thang Vu, A rulebased method for text shortening in Vietnamese sign language translation, 4th International Conference on Information System Design and Intelligent Applications (INDIA - 2017), Springer International Publishing [11] Thi Bich Diep Nguyen and Trung-Nghia Phung, Some issues on syntax transformation in Vietnamese sign language translation, IJCSNS Vol 17 No pp 292-297 [12] M Boulares, et al Mobile sign language translation system for deaf lu community, International Cross-Disciplinary Conference on Web an Accessibility, 2012 va n [13] Bauman, Dirksen, Open your eyes: Deaf studies talking University of gh tn to Minnesota Press ISBN 0-8166-4619-8, 2008 p ie [14] Pablo Bonet, J de eduction de las letras y Arte para enseñar ablar los Mudos Ed Abarca de Angulo, Madrid, ejemplar facsímil accesible en la [1], oa nl w online (spanish) scan of book, held at University of Sevilla, Spain, 1620 [15] John Bulwer's "Chirologia: or the natural language of the hand.", d an lu London, mentions that alphabets are in use by deaf people, although Bulwer u nf va presents a different system which is focused on public speaking, 1644 [16] Bulwer, J Philocopus, or the Deaf and Dumbe Mans Friend, London: ll oi m Humphrey and Moseley, 1648 Oxford: Halton, 1680 z at nh [17] Dalgarno, George Didascalocophus, or, The deaf and dumb mans tutor z Language Studies 2(3), p.p 322-334, 2002 m co l gm @ [18] Montgomery, G "The Ancient Origins of Sign Handshapes" Sign an Lu n va ac th si

Ngày đăng: 21/07/2023, 09:14

Tài liệu cùng người dùng

Tài liệu liên quan