NGHIÊN CỨU ĐỀ XUẤT GIẢI PHÁP TỰ ĐỘNG CHUYỂN BẢN TIN THỜI SỰ ĐÀI TRUYỀN HÌNH SANG NGÔN NGỮ DẤU HIỆU DÀNH CHO NGƯỜI KHIẾM THÍNH

19 215 1
NGHIÊN CỨU ĐỀ XUẤT GIẢI PHÁP TỰ ĐỘNG CHUYỂN BẢN TIN THỜI SỰ ĐÀI TRUYỀN HÌNH SANG NGÔN NGỮ DẤU HIỆU DÀNH CHO NGƯỜI KHIẾM THÍNH

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC CẦN THƠ BÁO CÁO TÓM TẮT ĐỀ TÀI KHOA HỌC VÀ CÔNG NGHỆ CẤP BỘ NGHIÊN CỨU ĐỀ XUẤT GIẢI PHÁP TỰ ĐỘNG CHUYỂN BẢN TIN THỜI SỰ ĐÀI TRUYỀN HÌNH SANG NGƠN NGỮ DẤU HIỆU DÀNH CHO NGƯỜI KHIẾM THÍNH Mã số: B2013-16-31 Chủ nhiệm đề tài: PGS TS NGUYỄN CHÍ NGƠN Cần Thơ, 12/2015 Thành viên nghiên cứu thực đề tài: PGS TS Nguyễn Chí Ngơn MSCB: 1062 Bộ mơn Tự Động Hóa, Khoa Cơng Nghệ, Trường Đại Học Cần Thơ KS Quách Luyn Đa Trường Đại học Tây Đô ThS Trương Thị Thanh Tuyền MSCB: 1068 Bộ môn Kỹ thuật phần mềm, Khoa Công nghệ Thông tin Truyền Thông, Trường Đại Học Cần Thơ PGS TS Nguyễn Thái Nghe MSCB: 1352 Bộ môn Hệ thống thông tin, Khoa Công nghệ Thông tin Truyền Thông, Trường Đại Học Cần Thơ Những sinh viên sau đại học đào tạo: Trần Bá Duy Chuyên ngành Thạc sĩ Hệ thống thông tin K17, Khoa Công nghệ thông tin Truyền Thông, trường Đại học Cần Thơ Quách Luyn Đa Chuyên ngành Thạc sĩ Hệ thống thông tin K19, Khoa Công nghệ thông tin Truyền Thông, trường Đại học Cần Thơ Đơn vị phối hợp chính: Trung tâm Nghiên cứu Giáo dục Người khiếm thính (CED) 96/14A Duy Tân, Phường 15, Q Phú Nhuận, TP Hồ Chí Minh MỤC LỤC DANH MỤC VIẾT TẮT THÔNG TIN KẾT QUẢ NGHIÊN CỨU Tổng quan tình hình nghiên cứu Tính cấp thiết Mục tiêu Nội dung nghiên cứu Kết nghiên cứu 5.1 Qui trình xây dựng từ điển NNDH 5.2 Chuyển đổi câu tiếng Việt sang cấu trúc NNDH 10 5.3 Xây dựng sở liệu 10 5.4 Cây định ID3 chuyển đổi cú pháp 12 5.5 EBMT chuyển trật tự từ NNDH 13 5.6 Giới thiệu chương trình 14 5.7 Thực nghiệm đánh giá sở 15 KẾT LUẬN 17 ĐỀ NGHỊ 18 TÀI LIỆU THAM KHẢO 18 DANH MỤC VIẾT TẮT NNDH : Ngôn ngữ dấu hiệu HamNoSys : The Hamburg Sign Language Notation System CED : Trung tâm nghiên cứu giáo dục người khiếm thính Tp.HCM EBMT : Example-based machine translation TER : Translation Error Rate THÔNG TIN KẾT QUẢ NGHIÊN CỨU Thông tin chung - Tên đề tài: Nghiên cứu đề xuất giải pháp tự động chuyển tin thời đài truyền hình sang NNDH dành cho người khiếm thính - Mã số: B2013-16-31 - Chủ nhiệm: PGS TS Nguyễn Chí Ngơn - Cơ quan chủ trì: Trường Đại Học Cần Thơ - Thời gian thực hiện: 2013 – 2015 Mục tiêu Đề xuất giải pháp hỗ trợ biên soạn dựng hình ảnh NNDH Việt từ văn tiếng Việt, ứng dụng xây dựng chương trình thời hỗ trợ NNDH dành cho người khiếm thính Tính sáng tạo Nghiên cứu tiên phong việc xây dựng công cụ tự động chuyển đổi văn tiếng Việt sang video mô tả NNDH dành cho người Việt khiếm thính, chưa cộng đồng khoa học nước thực Nghiên cứu đóng góp điểm sau: - Xây dựng mơ hình ứng dụng dịch máy vào việc chuyển đổi cấu trúc câu tiếng Việt sang cấu trúc câu rút gọn NNDH, với độ xác đạt 97,464% - Xây dựng quy trình diễn đạt NNDH Việt phần mềm mô tả nhân vật ảo HamNoSys, với từ điển gồm 2.352 từ, đủ lớn để sử dụng thực tế có cơng cụ cho người sử dụng bổ sung từ điển để mở rộng - Xây dựng phần mềm ứng dụng để chuyển văn tiếng Việt sang video diễn đạt NNDH Kết nghiên cứu Kết nghiên cứu cso thể tóm tắt sau: - Xây dựng từ điển NNDH Việt gồm 2.352 từ (đăng ký 1000 từ); - Xây dựng quy trình diễn đạt NNDH Việt phần mềm mơ tả nhân vật ảo HamNoSys với động tác chuyển động tay, vai biểu cảm gương mặt gồm cưr miệng, mắt…; - Xây dựng mơ hình ứng dụng dịch máy vào việc chuyển đổi cấu trúc câu tiếng Việt sang cấu trúc câu rút gọn NNDH, với độ xác đạt 97,464%; - Xây dựng qui trình cơng cụ cho phép biên tập, bổ sung từ điển NNDH Việt; - Xây dựng phần mềm ứng dụng để chuyển văn tiếng Việt sang video diễn đạt NNDH, tích hợp vào việc biên tập tin thời truyền hình - Đã viết báo cáo khoa học gồm: báo cáo tổng kết đề tài báo khoa học đăng tạp chí khoa học nước 5 Sản phẩm TT Tên sản phẩm Bộ liệu chuyển đổi từ cụm từ tiếng Việt mẫu sang NNDH Phần mềm chuyển đổi tin thời đài truyền hình sang NNDH dành cho người khiếm thính Bài báo khoa học đăng tạp chí nước Thực tế đạt Yêu cầu khoa học Khoảng 1.000 từ cụm từ thông dụng, đảm bảo người khiếm thính hiểu nội dung 95% Đảm bảo người khiếm thính hiểu nội dung cần truyền đạt với độ xác 95% SL đăng ký 1 (độ xác 97,06%) Dự kiến chủ đề: “Một giải pháp XD phần mềm chuyển đổi tin thời truyền hình sang NNDH dành cho người khiếm thính” Dự kiến tạp chí: Tin học Điều khiển học – ISSN: 1813-9663 1 (T.B Duy N C (2.352 từ, độ xác 97,464%;) Ngơn, “Bước đầu NC xây dựng HT chuyển đổi văn tiếng Việt sang NNDH,” Tạp chí KH ĐHĐN, số 1(62), trang 47-53 ISSN: 1859-1531) Bài báo khoa học đăng kỷ yếu hội nghị khoa học quốc tế (tổ chức Việt nam) Dự kiến chủ đề: “Bước đầu thực việc chuyển đổi văn tiếng Việt sang đồ họa NNDH” Đào tạo thạc sĩ ngành Hệ thống thông tin Bảo vệ thành công luận văn tốt nghiệp thạc sĩ (đã viết tham gia 2016, kết đạt vào cuối năm nên hết hội nghị 2015) (1 bảo vệ 2/2016) Hiệu quả, phương thức chuyển giao kết khả áp dụng - Hiệu khoa học: Cung cấp cho ngành Khoa học máy tính thơng tin giải pháp để chuyển đổi văn tiếng Việt sang đồ họa vi tính NNDH - Hiệu đào tạo: Bổ sung vào chương trình đào tạo bậc đại học sau đại học ngành Hệ thống thông tin, Công nghệ phần mềm, Điện tử… Trường Đại Học Cần Thơ cơng cụ hữu ích, triển khai thực tập học phần: Xử lý ảnh, Nhận dạng, AudioVideo, thực đồ án môn học, luận văn tốt nghiệp… tảng nghiên cứu Ngồi ta, thơng qua nghiên cứu này, lực nhóm nâng lên bước đáng kể kỹ phát triển phần mềm ứng dụng, lực giảng dạy tích lũy qua q trình trao đổi nhóm - Hiệu kinh tế: Cung cấp giải pháp khả thi để tự động dựng đồ họa vi tính NNDH cho đài truyền hình, giúp giảm thiểu thời gian chi phí dựng phim người thật - Hiệu xã hội: Góp phần cụ thể hóa sách Đảng nhà nước việc hỗ trợ người khiếm thính hòa nhập tốt vào cộng đồng - Phương thức chuyển giao: Chuyển giao cho Trung tâm nghiên cứu Giáo Dục người khiếm thính – CED triển thử nghiệm công tác giảng dạy Sau nhận góp ý hồn thiện sản phẩm, nhóm chuyển giao cho đài truyền hình địa phương TỔNG QUAN TÌNH HÌNH NGHIÊN CỨU Cộng đồng người khiếm thính nước tự phát triển hệ thống NNDH riêng theo điều kiện lịch sử, văn hóa ngôn ngữ họ Việc chuyển đổi từ văn sang NNDH nhiều nhóm nghiên cứu giới quan tâm, chẳng hạn dự án xây dựng công cụ ViSiCast (ViSiCast, 2012), phần mềm SiSi – Say it Sign it System IBM (Al-Ohali, 2010), phần mềm Vcom3D – Sign Smith Studio (Jason Stewart, 2012), công cụ Sign to me (Waterfall Rainbows, 2005),… Theo Stewart (2012), với việc ứng dụng công cụ Computer Character Annimation hay Virtual Signer cách tiếp cận tốt, mềm dẽo thuận tiện giải vấn đề xây dựng đồ họa vi tính cho NNDH Liên quan đến vấn đề nghiên cứu ngơn ngữ tiếng Việt nhiều nhóm tác giả nước quan tâm năm qua, chẳng hạn nhóm Hồ Tường Vinh ctv (2008), nhóm Nguyễn Quốc Thể cộng (2009), … Nổi bậc hết, kể đến đề tài KC01.01/06-10 "Nghiên cứu phát triển số sản phẩm thiết yếu xử lí tiếng nói văn tiếng Việt" thuộc Chương trình Khoa học Cơng nghệ cấp Nhà nước KC01/06-10 thành cơng việc "Xử lí văn tiếng Việt" (VLSP, 2012; Hồ Tú Bảo, KC01.01/06-10) Tuy nhiên, qua tìm hiểu chúng tơi thấy ngồi nước chưa có cơng trình nghiên cứu hay sản phẩm liên quan đến việc chuyển đổi văn Tiếng Việt sang NNDH Việt Các sản phẩm có dừng lại việc xây dựng từ điển, DVD dạy NNDH Việt dạng video (Cao Thị Xuân Mỹ 2004, 2007; Nguyễn Thị Hoàng Yến, 2006), kể việc dạy NNDH đài truyền hình Việt Nam thời gian gần Có thể nói, việc tự động chuyển đổi văn tiếng Việt sang NNDH cho người khiếm thính Việt Nam hướng nghiên cứu ứng dụng mẽ nước, mà nhóm nghiên cứu chưa tìm thấy công bố thực nhiệm vụ Mục đích nghiên cứu nhằm chuyển đổi văn Tiếng Việt sang động tác tương ứng NNDH tiếng Việt Các động tác NNDH nhân vật ảo dạng 3D (virtual signer) thể cách mềm mại, sống động Kết nghiên cứu tảng để phát triển ứng dụng liên quan như: xây dựng phần mềm hỗ trợ biên soạn đoạn video thể tin tức thời sự, clip giải trí dành cho người khiếm thính từ văn tiếng Việt dùng truyền hình; xây dựng website cho phép thực chuyển đổi trực tuyến; hay xây dựng phần mềm hỗ trợ học NNDH,… TÍNH CẤP THIẾT Theo số liệu Tổng cục Thống kê năm 2009, Việt Nam có khoảng 6,7 triệu người khuyết tật, triệu người khiếm thính, chiếm khoảng 6,3% dân số Như vậy, dạng khuyết tật thính lực chiếm tỉ lệ lớn dạng khuyết tật nói chung người Việt Đảng nhà nước ta ban hành chủ trương, sách nhằm giúp người tàn tật hòa nhập cộng đồng Theo đó, Hội Người khuyết tật thành phố Hà Nội phối hợp với Viện Khoa học Giáo dục Việt Nam, Ban Khoa giáo Đài THVN tích cực phát triển chương trình "Dạy ngơn ngữ ký hiệu truyền hình" (Bảo Minh, 2012 – Báo Giáo dục Thời đại) Mặc dù tin thời Truyền hình Việt nam VTV2 có thơng tin NNDH Tuy nhiên, việc xây dựng tin truyền hình NNDH người thật nhiều thời gian chi phí Vì vậy, nhu cầu cấp thiết đặt phải nghiên cứu sử dụng nhân vật ảo cho mục đích để khắc phục hạn chế việc dựng phim, giảm thiểu chi phí thời gian sản xuất phim người thật mà đáp ứng yêu cầu truyền đạt thông tin đến đối tượng người khiếm thính, giúp họ hòa nhập cộng đồng tốt MỤC TIÊU Nghiên cứu nhằm đề xuất giải pháp hỗ trợ biên soạn dựng hình ảnh NNDH Việt từ văn tiếng Việt, ứng dụng xây dựng chương trình thời hỗ trợ NNDH dành cho người khiếm thính NỘI DUNG NGHIÊN CỨU Các nội dung nghiên cứu mà đề tài đăng ký gồm có: - Nội dung 1: Xây dựng công cụ ánh xạ 1:1 từ vựng tiếng Việt khoảng 1.000 từ, cụm từ thường dùng tin thời địa phương NNDH tương ứng - Nội dung 2: Xây dựng giao diện người dùng để nhập tin thời hiển thị đồ họa nhân vật ảo - Nội dung 3: Phân tích ngữ nghĩa tin thời tiếng Việt chuyển đổi sang “ngôn ngữ trung gian” – cấu trúc rút gọn NNDH - Nội dung 4: Xây dựng nhân vật ảo thư viện đồ họa NNDH cho nhân vật ảo - Nội dung 5: Dựng đồ họa NNDH cho nhân vật ảo tương ứng với tin thời truyền hình nhập vào cửa sổ văn giao diện người dùng - Nội dung 6: Thử nghiệm với tin thời truyền hình đánh giá phần mềm KẾT QUẢ NGHIÊN CỨU 5.1 Qui trình xây dựng từ điển NNDH Như trình bày chương 2, từ NNDH cấu thành dựa yếu tố: (i)Vị trí làm kí hiệu, (ii)Hình dạng bàn tay, (iii)Chuyển động bàn tay, (iv)Chiều hướng lòng bàn tay, (v)Sự diễn đạt không tay HamNoSys cung cấp 200 biểu tượng bao gồm hình dạng, vị trí, cấu hình chuyển động bàn tay Thứ tự biểu tượng chuỗi cố định, viết dấu hiệu nhiều cách khác Một từ NNDH gồm chuỗi liên tiếp hành động, trạng thái hình dạng, phương hướng vị trí bàn tay so với vị trí khác thể thời điểm chuyển đến hành động tương ứng thời điểm khác sử dụng chuyển hướng bàn tay để thay đổi trạng thái, tạo liền mạch trình chuyển trạng thái từ Bên cạnh đó, Hamnosys cho phép sử dụng dạng ký hiệu không tay như: - Khẩu hình miệng: Cung cấp kiểu gán hành động: o Dựa từ đưa vào: Sử dụng đơn vị từ đưa vào HamNoSys xây dựng hành động tương ứng với từ Tuy nhiên, hành động tiếng Việt có độ xác tương đối thấp chương trình hỗ trợ cho tiếng Anh - - - - - - o Dựa hành động HamNoSys xây dựng: HamNoSys cung cấp 71 hành động chia làm nhóm, mã hóa theo chữ viết hoa số xác định di chuyển Cử động thể: dấu mốc cho thay đổi trạng thái, có 10 mã cử động cụ thể với hành động tương ứng như: quay trái, quay phải, … Ví dụ: để diễn đạt từ cám ơn, cần phải gập người Cử động đầu: hành động gật đầu, lắc đầu,…thể trạng thái kèm theo từ NNDH để diễn đạt đầy đủ ý nghĩa từ HamNoSys cung cấp 11 cử động để kèm theo trình diễn đạt từ NNDH Cử động vai: Nhìn chung, vai hành động ý ngơn ngữ nói ngơn ngữ kí hiệu Tuy nhiên, số từ thể đồng ý hay không đồng ý cần hỗ trợ vai cách di chuyển vai để thể đầy đủ nghĩa từ HamNoSys cung cấp mã cử động vai cụ thể Trạng thái mắt: Mắt đóng vai trò quan trọng việc diễn đạt ngơn ngữ, thể tình cảm mà người dùng muốn truyền đạt như: trố mắt để thể kinh ngạc,…HamNoSys cung cấp 11 mã cử động vai Trạng thái chân mày: giận dỗi, cau có, … thể chân mày Tuy nhiên, NNDH diễn đạt truyền hình khơng cần thiết HamNoSys cung cấp mà chuyển động Trạng thái mi mắt: Ít quan tâm nhân vật diễn đạt người thật, nhân vật ảo cần tạo nét sinh động cho nhân nên cần hỗ trợ trạng thái HamNoSys cung cấp 13 mã hành động cho trạng thái mi mắt Qui trình xây dựng NNDH tay, xác định sau: - Bước 1: Xác định hình dạng bàn tay, bao gồm hình dạng kết hợp với vị trí ngón cái, vị trí mở rộng, kết nối với ngón độ mở ngón kí hiệu mở rộng Bên cạnh đó, độ mở ngón tay thay đổi thêm ngón Cuối cùng, muốn thể ý nghĩa trung gian ký tự HamNoSys sử dụng dấu “\” - Bước 2: Lựa chọn phương hướng bàn tay, bao gồm thơng soosL hướng ngón tay hướng lòng bàn tay Có bước thực hiện: (i) đầu tiên, xác định hướng trục bàn tay, (ii) tiếp theo, xác định việc định hướng bàn thay dọc theo trục thân người, (iii) ký hiệu “\” dùng để mô tả ký hiệu trung gian - Bước 3: Xác định vị trí, tổng cộng có 41 biểu tượng, 17 biểu tượng tham chiếu bàn tay ngón tay, ký hiệu mơ tả khoảng cách không gian Và ký hiệu “\” dùng để diễn tả trung gian vị trí - Bước 4: Để chuyển đổi trạng thái, vị trí làm kí hiệu Các cách di chuyển gồm trực tiếp, gián tiếp, di chuyển thay thế, di chuyển theo đường thẳng, đường cong, đường vòng hay lặp lại Và quay lại bước Ngồi ra, HamNoSys thiết kế để sử dụng cho tay với kí hiệu trục đứng hay trục ngang, tay chiếm chủ động hay khác nhau, chuyển động đối xứng hay bất đối xứng Cuối lựa chọn ký hiệu diễn đạt không tay, miệng, thân, vai, mắt, … Nghiên cứu xây dựng tập liệu gồm có 2.352 từ diễn tả NNDH 5.2 Chuyển đổi câu tiếng Việt sang cấu trúc NNDH Trật tự từ NNDH gắn liền với trật tự từ cụm danh từ, cụm động từ câu Với câu chia làm loại: - Trật tự từ câu khẳng định: với vị trí cụm động từ, cụm danh từ bổ ngữ thể vị trí khác - Trật tự từ câu nghi vấn: xác định dựa từ để hỏi nằm cụm danh từ hay bổ ngữ để xếp vị trí từ câu - Các loại trật tự từ ngữ trạng từ Nhìn chung, trật tự từ gắn liền với cụm từ loại từ để xác định vị trí loại câu Để phân tích loại câu, chương trình dựa từ loại để xác định câu thuộc loại nào? Qua thống kê, kết nghiên cứu chương trình nghiên cứu JVnTagger phiên 1.6 xây dựng khuông khổ đề tài cấp nhà nước VLSP nhóm Hồ Tú Bảo ctv (2006) với 9.229 câu với 15.2076 từ loại 70.180 cụm từ (đã loại bỏ số cụm xác định dấu câu) Cấu trúc câu NNDH khác biệt lớn khơng có quy luật, vậy, nghiên cứu áp dụng thuật toán: Khai phá liệu định ID3 EBMT chuyển đổi cú pháp 5.3 Xây dựng sở liệu Nghiên cứu tiến hành trình xử lý văn 740 câu đầu vào định dạng sau: STT 01 02 03 … Câu giáo viên thích nho giáo viên thích nho xanh giáo viên ăn cóc xanh … Q trình tiền xử lý văn bản, thực sau: Tách từ: Thực chương trình VnTokenizer, với kết có dạng sau: STT Câu 01 Giáo_viên thích nho 02 Giáo_viên thích nho xanh 03 Giáo_viên ăn cóc xanh … … Gán nhãn từ loại tiếng Việt: thực chương trình JvnTagger, kết dạng sau: TT Câu 01 giáo_viên/N thích/V nho/N / 02 giáo_viên/N thích/V những/L quả/Nc nho/N xanh/A / 03 giáo_viên/N ăn/V quả/Nc cóc/N xanh/A / … … 10 Đánh số thứ tự từ loại theo thứ tự từ loại, với định dạng sau: Word1/type1Index1 Word2/type2Index2 Word3/type3Index3… WordN/ typeNIndexN TT 01 02 03 … Câu giáo_viên/N1 thích/V2 nho/N3 / giáo_viên/N1 thích/V2 những/L3 quả/Nc4 nho/N5 xanh/A6 / giáo_viên/N1 ăn/V2 quả/Nc3 cóc/N4 xanh/A5 / … Kết hợp với kết chuyển đổi theo trật tự từ NNDH kiểm tra thành viên Trung tâm nghiên cứu giáo dục người khiếm thính (CED) - thành phố Hồ Chí Minh, ta có kết chuyển đổi dạng sau: TT 01 02 03 … Câu giáo_viên/N1 thích/V2 nho/N3 / giáo_viên/N1 thích/V2 những/L3 quả/Nc4 nho/N5 xanh/A6 / giáo_viên/N1 ăn/V2 quả/Nc3 cóc/N4 xanh/A5 / … Câu chuyển đổi giáo_viên/N1 nho/N3 thích/V2 / giáo_viên/N1 nho/N5 xanh/A6 thích/V2 / giáo_viên/N1 cóc/N4 xanh/A5 ăn/V2 / Q trình chọn lọc kết từ loại, kết sau: Type1 type2 type3 type4 … typeN classifier N1 N2 P3 E2 N3 … True True True False False … … C25 Classifier False N2 P3 N1 Tóm lại, q trình xây dựng sở liệu mơ tả tóm tắt Hình Hình 1: Quá trình xây dựng liệu 11 5.4 định ID3 chuyển đổi cú pháp 5.4.1 Huấn luyện Lấy danh sách từ loại: - Đầu vào: Dữ liệu sau trình tiền xử lý văn - Đầu ra: Danh sách thuộc tính - Giải thuật: GetListAttribute (Tập_dữ_liệu) Khai báo tập_thuộc_tính While tập_dữ_liệu ≠  Lấy danh_sách_từ_loại câu xét While danh_sách_từ_loại ≠  If từ_loại xét khơng nằm danh_sách_tập_thuộc_tính Thêm từ_loại vào danh_sách_tập_thuộc_tính End If End End Tạo tập liệu huấn luyện: - Đầu vào: Tập liệu tập thuộc tính - Đầu ra: Tập liệu huấn luyện định dạng: Type1 T/F T/F … T/F Type2 T/F T/F Type3 T/F T/F … … … TypeN T/F T/F classifier Class1 Class2 T/F T/F … T/F ClassN Quá trình học: Hệ thống huấn luyện tập liệu huấn luyện để nhận mơ hình phân lớp định ID3, có tập luật gồm có 695 luật, với kết sau: N1 P3 N2 N2 P3 N1 N1 P3 N2 A4 N1 N2 P3 A4 … 695 V1 N3 L2 N5 V1 N3 N5 5.4.2 Nhận dạng phân lớp Nhận dạng thực tập liệu nhận dạng Nghiên cứu tiến hành kiểm tra tỉ lệ lỗi trình chuyển đổi trật tự cú pháp câu tiếng Việt sang trật tự từ theo NNDH Nghiên cứu tiến hành kiểm tra độ xác câu dựa tỉ lệ lỗi công cụ TER, với câu chuyển đổi đánh mã tương ứng làm tập liệu: - File chứa văn tham khảo, định dạng sau: 12 Sentence1 (SignVNTP1) … SentenceN (SignVNTPN) - Hyp_file: file chứa văn giả thuyết Sentence1 (SignVNTP1) … SentenceN (SignVNTPN) - Output_prefix: file chứa đầu sau chạy lệnh Kết thực tập liệu 740 câu có tỉ lệ lỗi 26.461%, nội dung file output_prefix có dạng sau: Sent Id | Ins | Del | Sub | Shft | WdSh | NumEr | NumWd | TER SignVNTP1:1 | | | | | | 0.0 | 4.000 | 0.000 SignVNTP2:1 | | | | | | 0.0 | 4.000 | 0.000 SignVNTP3:1 | | | | | | 0.0 | 4.000 | 0.000 … SignVNTP738:1 | | 10 | | | | 10.0 | 14.000 | 71.429 SignVNTP739:1 | | 32 | | | | 33.0 | 35.000 | 94.286 SignVNTP740:1 | | 18 | | | | 20.0 | 21.000 | 95.238 TOTAL | 19 | 940 | 113 | 128 | 134 | 1200.0 | 4535.000 | 26.461 5.5 EBMT chuyển trật tự từ NNDH Áp dụng mơ hình EBMT (Example-based machine translation), với trình so khớp sử dụng độ đo theo tỉ lệ: Tổng số từ có câu = Tổng số từ câu Trong đó, quan tâm nhiều đến dấu kết thúc câu, với trình thực nhận diện sau: - Đầu vào: Câu, Tập_dữ_liệu - Đầu ra: Câu sau chuyển đổi - Giải thuật: Khai báo giá trị max luật (nhận nhận diện) While tập_dữ_liệu ≠  Khai báo biến đếm count=0; Nhận diện câu luật kiểm tra trả kết so khớp count; Khai bao biến tile = count/tổng_số_từ_trong_câu; If tile > max max = tile; luật = luật xét; End if End End 13 Với trình tái tổ hợp tập liệu 740 câu, cách sử dụng công cụ TER với định dạng tương tự liệu nhận diện định, kết thu với tỉ lệ lỗi 2.536%, tập kết output_prefix lúc có nội dung dạng sau: Sent Id | Ins | Del | Sub | Shft | WdSh | NumEr | NumWd | TER SignVNTP1:1 | | | | | | 0.0 | 4.000 | 0.000 SignVNTP2:1 | | | | | | 0.0 | 4.000 | 0.000 SignVNTP3:1 | | | | | | 0.0 | 4.000 | 0.000 … SignVNTP738:1 | | | | | | 0.0 | 14.000 | 0.000 SignVNTP739:1 | | | | | | 1.0 | 35.000 | 2.857 SignVNTP740:1 | | | | | | 0.0 | 21.000 | 0.000 TOTAL | | 59 | 20 | 27 | 28 | 115.0 | 4535.000 | 2.536 Tóm lại, cách tiếp cận sử dụng phương pháp EBMT có độ xác 97.464%, cao so với phương pháp tiếp cận sử dụng máy học định ID3 (73.539%) Nguyên nhân dẫn đến kết chênh lệch tập liệu huấn luyện với số câu 5.6 Giới thiệu chương trình Giao diện chương trình Hình 2, gồm vùng, với chức sau: - Vùng 1: Thanh menu chức - Vùng 2: Vùng nhập văn - Vùng 3: Nút chức thực việc chuyển đổi: tách từ tiếng Việt, gán nhãn cú pháp số thứ tự, chuyển đổi trật tự từ hiển thị kết vùng - Vùng 4: Hiển thị kết sau thực việc chuyển đổi - Vùng 5: Nút lệnh gửi liệu qua vùng diễn đạt - Vùng 6: Avata diễn đạt NNKH - Vùng 7: Thanh điều chỉnh tốc độ diễn đạt avata Hình 2: Giao diện chương trình 14 5.7 Thực nghiệm đánh giá sở 5.7.1 Nội dung thực nghiệm Nghiên cứu trích chọn từ tin thời phát Đài truyền hình TP Cần Thơ Từ đó, tiến hành biên dịch, cho chuyên gia NNDH kiểm tra, kết xuất lồng ghép video mô tả NNDH tương ứng vào tin thời Đoạn tin thời số (Hình 3): Tin gốc: Tết 2016, TT QL điều hành vận tải khách công cộng Tp.HCM tăng 868 tuyến xe buýt để phục vụ cho nhân dân Có 15 tuyến tăng chuyến tập trung cho chuyến có điểm đến điểm vui chơi, du lịch bến xe tỉnh Chuyến xe Đồng Nai Bình Dương tăng tuyến lượng khách tăng Bến Thành tới Đại học Quốc Tế Bến Thành tới Đại học Tôn Đức Thắng ngưng hoạt động sinh viên nghỉ lễ Bản dịch: Tết - 2016 - TT - QL - - điều hành - vận tải - khách - công cộng TP.HCM - tăng 868 - xe buýt - tuyến - - để -phục vụ - nhân dân 15 – tuyến – có – chuyến – tăng – tập trung – chuyến – đến – nơi – vui chơi – du lịch – bến xe – tỉnh Đồng Nai – tới – Bình Dương – tuyến – tăng – – khách hàng – tăng Bến Thành – tới – đại học – quốc tế – – bến thành – tới – đại học – tôn đức thắng – chạy – – – sinh viên – lễ - nghỉ Hình 3: Bản tin thời số Đoạn tin thời số (Hình 4): Tin gốc: Kiểm tra sách dân tộc quận Ơ Mơn năm 2015 Quận có dân tộc thiểu số với ngàn người, chủ yếu Khme Hoa 2015, quận hỗ trợ xây dựng nhà đại đoàn kết hỗ trợ vay vốn cho người dân tộc tỷ trăm triệu đồng Đầu 2015 hộ nghèo có 210 giảm 118, hộ sử dụng nước chiếm 99,3% Cơng tác nâng cao dân trí thực tốt Qua kiểm tra, ông Lương Văn Trừ - Trưởng ban dân tộc thành phố yêu cầu quận: khai thác chức khu văn hóa – thể dục thể thao quận phục vụ cho người dân, hoàn thành hạng mục điện nước phường Trường Lạc Bản dịch: Chính sách - dân tộc - - quận - Ơ Mơn - Kiểm tra - năm - 2015 Quận - dân tộc thiểu số - - có - với - người - ngàn - hơn, Khơ me - – Hoa - chủ yếu 2015 - quận - xây dựng - hỗ trợ - nhà - đại đoàn kết - - hỗ trợ - người dân tộc - vốn - vay – - tỷ - - trăm - triệu - đồng- Đầu - 2015 – gia đình - nghèo - 210 - giảm - 118, gia đình - 99,3% - nước - – sử dụng Công tác - dân trí - nâng cao - thực - tốt Khi - kiểm tra, Lương - Văn - Trừ - ban - dân tộc - thành phố - Trưởng - yêu cầu - quận: khai 15 thác - chức - khu - văn hóa - – thể dục thể thao - quận - - phục vụ - người dân - hoàn thành - hạng mục - - điện - nước - - phường - Trường - Lạc Hình 4: Bản tin thời số Đoạn tin thời số (Hình 5): Tin gốc: Hôm nay, ban ATGT quận Ninh Kiều tiến hành tháo dỡ thu nhỏ lại phần vòng xoay Võ Văn Kiệt Nguyễn Văn Cừ bán kính từ 13 mét xuống mét Đây điểm đen ùn tắc giao thông vào cao điểm 2015 ban ATGT đầu tư trăm triệu đồng để lắp đặt hệ thống đèn đường giao thông Từ tháng 12 năm 2015 việc lưu thông qua tuyến đường điều tiết qua tín hiệu đèn khơng hiệu vòng xoay lấn phần mặt đường Việc thu nhỏ vòng xoay biện pháp để giải vấn đề Sau đó, quận nâng cấp lại mặt đường, kẻ lại biển báo vạch đường Bản dịch: Hôm - sáng, ban - ATGT - quận - Ninh - Kiều - tiến hành - tháo dỡ - thu nhỏ - Võ Văn Kiệt - - Nguyễn Văn Cừ - vòng xoay - bán kính - 13 mét – giảm - mét Đây - đen - điểm - giao thông - ùn tắc - cao điểm - 2015 - ban - ATGT - đầu tư – - trăm - triệu - đồng - hệ thống - đèn - đường - giao thông - lắp - tháng - 12 năm - 2015 - xe - lưu thơng - tuyến đường – - - tín hiệu - đèn - điều tiết - - hiệu - khơng – - vòng xoay - đường - mặt - lấn - thu nhỏ - vòng xoay - - biện pháp - giải - vấn đề Sau - quận - nâng cấp đường - mặt - lại - , biển báo - vạch - đường - kẻ - lại Hình 5: Bản tin thời số 16 5.7.2 Khảo sát mức độ hiểu nội dung tin người khiếm thính Sau hồn tất đoạn clips trên, nhóm nghiên cứu tiến hành khảo sát khoảng 98 người khiếm thính thuộc: Câu lạc NNDH Thành phố Cần Thơ, CED Câu lạc NNDH Thành phố Hồ Chí Minh Bản khảo sát trình bày Phục lục A Kết khảo sát sau: - Bản tin thời số 1: o Tổng số câu khảo sát: 98 người x câu/người = 490 câu o Số câu trả lời đúng: 476 (tỉ lệ 97,14%) - Bản tin thời số 2: o Tổng số câu khảo sát: 98 người x câu/người = 588 câu o Số câu trả lời đúng: 562 (tỉ lệ 95,58%) - Bản tin thời số 3: o Tổng số câu khảo sát: 98 người x câu/người = 196 câu o Số câu trả lời đúng: 193 (tỉ lệ 98,47%) - Có 95/98 người (tỉ lệ 96,94%) người nhận xét nhân vật ảo mơ tả xác NNDH từ mức trung bình trở lên - Có 100% người khiếm thính “Rất quan tâm” đến chương trình; - Có 100% người khiếm thính đánh giá chương trình “Rất cần thiết” họ Từ kết khảo sát, thống kê cho thấy mức độ hiểu nội dung người khiếm thính khảo sát trung bình 97.06% họ kỳ vọng vào việc ứng dụng phần mềm KẾT LUẬN Qua thời gian thực hiện, nghiên cứu gặp khơng khó khan, việc ứng dụng máy dịch, liệu huấn luyện giới hạn Thêm vào đó, dịch máy hỗ trợ việc dịch chuyển đổi từ ngôn ngữ sang ngôn ngữ khác, chưa hạn chế dịch chuyển đổi cấu trúc ngơn ngữ Ngồi ra, tài liệu nghiên cứu NNDH Việt nhiều hạn chế, chưa chuẩn hóa cơng bố thống Với mong muốn tạo bước tiền đề cho phát triển thống NNDH Việt Nam, nghiên cứu đạt số kết sau: - Đã nắm mơ hình ứng dụng dịch máy vào việc dịch chuyển đổi cấu trúc câu tiếng Việt sang cấu trúc rút gọn NNDH Việt - Đã thiết lập cơng cụ qui trình xây dựng NNDH HamNoSys, với từ điển 2.352 từ có khả mở rộng trình sử dụng - Đã xây dựng chương trình máy tính cho phép chuyển đổi tin thời truyền hình sang video diễn tả NNDH, với chế cho phép biên tập, sửa đổi, bổ sung nhằm nâng cao cao xác sở liệu Tuy vậy, chương trình chuyển đổi vài hạn chế sau: - Việc thiết lập sở liệu phục vụ trình chuyển đổi ngữ pháp tiếng Việt sang ngữ pháp NNDH hạn chế, nội dung liên quan đến trị - xã hội, dẫn đến độ xác q trình dịch máy cần tiếp tục cải thiện, thơng qua việc bổ sung sở liệu huấn luyện lại công cụ nhận dạng - Sử dụng NNDH để diễn đạt nội dung văn dấu hiệu chậm so nhiều so với sử dụng tiếng nói, vậy, việc chuyển tải nội dung tin thời truyền hình sang NNDH đòi hỏi phải tóm tắt văn trước tiến hành biên dịch phần mềm 17 ĐỀ NGHỊ Từ hạn chế nêu trên, nghiên cứu đề xuất tiếp tục phát triển hệ thống theo hướng tích hợp lên website để cộng đồng tham gia biên tập, bổ sung từ điển đồ họa NNDH Khi sở liệu đủ lớn, việc áp dụng phương pháp máy dịch thống kê trở nên dễ dàng hơn, giúp cho việc lựa chọn phương pháp có độ xác cao tốc độ xử lý nhanh trở nên dễ dàng TÀI LIỆU THAM KHẢO Brown, P F., Pietra, V J D., Pietra, S A D., and Mercer, R L., 1993 “The mathematics of statistical machine translation: parameter estimation, ” Computational Linguistics, No 19(2), pp 263–311 Cao Thị Xuân Mỹ, 2014 “Tìm hiểu quy luật diễn đạt kí hiệu giao tiếp người khiếm thính Việt Nam,” Đề tài NCKH cấp Bộ, ĐH Sư phạm TP Hồ Chí Minh Cao Thị Xuân Mỹ, 2004 “Từ điển NNDH Việt VsDic,” ĐH Sư phạm Tp HCM Cao Thị Xuân Mỹ, 2007 “CD Hỗ trợ trẻ khiểm thính bậc tiểu học,” ĐH Sư phạm Tp HCM Chai, X., G., Li, 2013 “Sign Language Recognition and Translation with Kinect,” Microsoft Research Asia, the FiDiPro Program of Tekes and Natural Science Foundation of China under contracts Nos 61001193 and 60973067 Chéragui, M.A., 2012 “Theoretical Overview of Machine translation,” Proc ICWIT 2012, p.160-169 Cranias, L., H Papageorgiou and S Piperidis, 1994 “A Matching Technique in Example-Based Machine Translation,” in Coling, pp 100–104 Cranias, L., H Papageorgiou and S Piperidis, 1997 “Example Retrieval from a Translation Memory,” Natural Language Engineering 3, pp 255–277 Diệp Quang Ban, 2009 “Ngữ pháp tiếng Việt,” NXB Giáo dục Việt Nam Đỗ Thanh Nghị, Lê Thanh Vân, 2012 “Giáo trình Các hệ tri thức khai thác liệu,” NXB Đại học Cần Thơ Đỗ Thị Hiên cộng sự, 2012 “Ngôn ngữ kí hiệu cộng đồng người khiếm thính Việt Nam: thực trạng giải pháp,” Đề tài NCKH cấp Bộ, Viện Khoa học xã hội Việt Nam Đỗ Thị Hiên, 2014 “Lựa chọn ngôn ngữ cho hoạt động dạy học cac trung tâm khiếm thính Việt Nam, Ngơn ngữ học Việt Nam bối cảnh đổi hội nhập (The linguistics of Vietnam in the context of renovation and intergration),” Kỷ yếu Hội thảo KH quốc tế, tr25- 33, NXB KHXH Gales, M., S Young, 2007 “The Application of Hidden Markov Models in Speech Recognition,” Foundations and TrendsR in Signal Processing Vol 1, No 3, p.195–304 Hanke, T., 2001a “Interface Definitions, Virtual Signing: Capture, Animation, Storage and Transmission,” Deliverable D5-1 Hanke, T., H Popescu, 2003 "Intelligent Sign Editor, ESIGN D2.3 Report,” Institute ofGermanSign Language and Deaf Communication, Univ of Hamburg, 9/2003 Hanke, T., I Marshall, E Safar, C Schmaling, G Langer, C Metzger, 2001b "Interface Definitions", ViSiCAST Report D5.1 Hồ Tú Bảo, Lương Chi Mai “Về xử lý tiếng Việt công nghệ thông tin,” Viện NTT, Viện KH Công nghệ Tiên tiến Nhật VLSP - KC01.01/06-10 Hồ Tú Bảo Lương Chi, 2006 “Về xử lý tiếng Việt công nghệ thông tin,” Viện Khoa học Công nghệ Tiên tiến Nhật Bản Hutchins, W J and Somers, H L., 1992 “An introduction to machine translation,” Academic Press, London Hutchins, W.J., 1995 “Machine translation: a brief history, Concise history of the language sciences: from the Sumerians to the cognitivists,” Oxford: Pergamon Press, p.431-445 Jason Stewart, 2012 VCom3D - Sign Smith studio Kala, R et.al., 2010 “Offline Handwriting Recognition using Genetic Algorithm,” IJCSI Inter J of Computer Science Issues, Vol.7, Issue 2, No.1, p.16-25 Kennaway., R "Experience with and requirements for a gesture description language for synthetic animation," http://www.visicast.cmp.uea.ac.uk (accessed 12/2015) 18 Lafferty, J., A McCallum, and F Pereira, 2001 “Conditional random fields: Probabilistic models for segmenting and labeling sequence data,” Proc ICML, pp.282-289 Lê Hồng Phương, Nguyễn Thị Minh and Hồ Tường Vinh, 2008 “Vietnam a Hybrid Approach to Word Segmentation of Vietnamese Texts,” 2nd Inter Conf on Language and Automata Theory and Applications - LATA 2008, 5196 (2008), pp 240-249 Michael Kipp, Alexis Heloir and Quan Nguyen, 2008 “Sign Language Avatars: Animation and Comprehensibility” DFKI - Embodied Agents Research Group, Saarbruecken Michael Kipp, Alexis Heloir and Quan Nguyen, 2011 “Signing Avatars: a Feasibility Study,” DFKI – Embodied Agents Research Group, Saarbruecken, Germany Nicolas Courty and Sylvie Gibet, 2010 “Why is the Creation of a Virtual Signer Challenging Computer Animation,” Motion in Games 2010, Netherlands Nigam, K., A McCallum, S Thrun and T Mitchell, 1999 “Text classification from labeled and unlabeled documents using EM Machine Learning” Nguyễn Chí Hòa, 2004 “Ngữ pháp tiếng Việt thực hành,” NXB ĐHQG Hà Nội Nguyễn Hữu Quỳnh, 2007 “Ngữ pháp Tiếng Việt,” NXB Từ điển bách khoa Nguyễn Thị Hoàng Yến, 2006 “Phương pháp giao tiếp trẻ khiếm thính (Phần 3: Thực hành sử dụng NNDH),” Trường ĐH Sư phạm Hà Nội Nguyễn Thị Phương Nguyễn Đức Tồn, 2012 “Mấy vấn đề cú pháp ngôn ngữ kí hiệu Việt Nam,” Tạp chí Ngơn ngữ, số 4, trang 17-31 Nguyễn Quốc Thể Lê Thanh Hương, 2009 “Phân tích cú pháp tiếng Việt sử dụng văn phạm phi ngữ cảnh từ vựng hoá, kết hợp xác suất,” Khoa Công nghệ Thông tin - Trường ĐH Bách khoa Hà Nội Phan, X.H., M.L Nguyen, C.T Nguyen, 2005 “FlexCRFs: Flexible Conditional Random Field Toolkit” Phuong, L.H., N.T.M.Huyen, R.Azim, H.T Vinh, 2008 “A hybrid approach to word segmentation of Vietnamese texts,” Proc.of the 2nd Inter Conf on Language and Automata Theory and Applications, LATA 2008, Springer, Spain Pradeep, J., E Srinivasan and S Himavathi, 2011 “Diagonal based feature extraction for hand witten alphabets recognition system using neural network,” Inter J of Computer Science & Info Tech (IJCSIT), Vol 3, No 1, Feb 2011,p.27-38 Quinlan, J., 1993 “C4.5: Programs for Machine Learning,” Morgan Kaufmann Publishers Somers H., 2001 “Review Article: Example-based Machine Translation,” Machine Translation 14, pp 113–157 Shannon C-E., 1948 “A mathematical theory of communication,” Bell System Technological Journal (27), pp 379-423, pp 623-656 Sharon M Walter, 1990 “Natural language processing: A tutorial,” Rome Air Development Center, Air Force Systems Command, Air Force Griffiss Base, NY 13441-5700 Snover M., B Dorr, R Schwartz, L Micciulla and J Makhoul, 2006 "A Study of Translation Edit Rate with Targeted Human Annotation," Proc of Association for Machine Translation in the America Tripathi, S and J.K Sarkhel, 2010 “Approaches to machine translation,” Annals of Library and Information Studies, Vol 57, pp 388-393 UEA, 2015b http://vhg.cmp.uea.ac.uk/tech/jas/std/ (accessed Dec 2015) UEA, 2015a http://vhg.cmp.uea.ac.uk/tech/jas/095s/index.html (accessed Dec 2015) Vauquois, B 1968 “A Survey of Formal Grammars and Algorithms for Recognition and Transformation in Machine Translation,” Proc of the IFIP Congress-6, pp 254–260 ViSiCast, 2012 “ViSiCAST Project” VLSP, 2012 “Tài nguyên cho tiếng Việt,” Nhánh đề tài xử lý văn chương trình KC01/06-10, GS Hồ Tú Bảo chủ trì Waterfall Rainbows, 2005 “Sign to Me (BSL) - User Guide” Yousef Al-Ohali, 2010 “Identification of Most Desirable Parameters in SIGN Language Tools: A Comparative Study,” Global Journal of Computer Science and Technology, Vol 10, Issue 6, Ver.1.0, pp 23-29 Zhao et al., 2000 “A Machine Translation System from English to American Sign Language,” Association for Machine Translation in the America 19 ... dục người khiếm thính Tp.HCM EBMT : Example-based machine translation TER : Translation Error Rate THÔNG TIN KẾT QUẢ NGHIÊN CỨU Thông tin chung - Tên đề tài: Nghiên cứu đề xuất giải pháp tự động. .. cần truyền đạt với độ xác 95% SL đăng ký 1 (độ xác 97,06%) Dự kiến chủ đề: “Một giải pháp XD phần mềm chuyển đổi tin thời truyền hình sang NNDH dành cho người khiếm thính Dự kiến tạp chí: Tin. .. NNDH đài truyền hình Việt Nam thời gian gần Có thể nói, việc tự động chuyển đổi văn tiếng Việt sang NNDH cho người khiếm thính Việt Nam hướng nghiên cứu ứng dụng mẽ nước, mà nhóm nghiên cứu chưa

Ngày đăng: 08/11/2017, 12:15