Quốc tế về tiếng nói tại Châu Âu hoặc Mỹ seminar khoa học về Đề tài và những nghiên cứu liên quan đến dịch các ngôn ngữ nói, tại Trung tâm Nghiên cứu Quốc tế về Công nghệ truyền thông t
Trang 1BỘ KHOA HỌC VÀ CÔNG NGHỆ VIỆN CÔNG NGHỆ THÔNG TIN
CHƯƠNG TRÌNH KHCN CẤP NHÀ NƯỚC KC01/06-10
BÁO CÁO TỔNG HỢP KẾT QUẢ KHOA HỌC CÔNG NGHỆ ĐỀ TÀI NGHÊN CỨU PHÁT TRIỂN MỘT SỐ SẢN PHẨM
THIẾT YẾU VỀ XỬ LÝ TIẾNG NÓI
VÀ VĂN BẢN TIẾNG VIỆT
MÃ SỐ: KC 01.01/06-10
Cơ quan chủ trì đề tài:
Viện Công nghệ thông tin, Viện Khoa học và Công nghệ Việt Nam Chủ nhiệm đề tài: PGS.TS Lương Chi Mai
Trang 2BỘ KHOA HỌC VÀ CÔNG NGHỆ VIỆN CÔNG NGHỆ THÔNG TIN
CHƯƠNG TRÌNH KHCN CẤP NHÀ NƯỚC KC01/06-10
BÁO CÁO TỔNG HỢP KẾT QUẢ KHOA HỌC CÔNG NGHỆ ĐỀ TÀI NGHÊN CỨU PHÁT TRIỂN MỘT SỐ SẢN PHẨM
THIẾT YẾU VỀ XỬ LÝ TIẾNG NÓI
VÀ VĂN BẢN TIẾNG VIỆT
MÃ SỐ: KC 01.01/06-10
Chủ nhiệm đề tài Cơ quan chủ trì đề tài
PGS.TS Lương Chi Mai PGS.TS Vũ Đức Thi
Ban chủ nhiệm chương trình Bộ Khoa học và Công nghệ
GS.TS Nguyễn Thúc Hải
Trang 3VIỆN CÔNG NGHỆ THÔNG TIN
VIỆN KHOA HỌC VÀ CÔNG NGHỆ
VIỆT NAM
CỘNG HOÀ XÃ HỘI CHỦ NGHĨA VIỆT NAM
Độc lập - Tự do - Hạnh phúc
Hà nội, ngày 28 tháng 07 năm 2009.
BÁO CÁO THỐNG KÊ KẾT QUẢ THỰC HIỆN ĐỀ TÀI
I THÔNG TIN CHUNG
1 Tên đề tài: Nghiên cứu và phát triển một số sản phẩm thiết yếu về
tiếng nói và văn bản tiếng Việt
Mã số đề tài: KC01.01/06-10
Thuộc:
Chương trình (tên, mã số chương trình): Nghiên cứu phát triển
và ứng dụng Công nghệ thông tin và Truyền thông, mã số KC01
2 Chủ nhiệm đề tài:
Họ và tên: Lương Chi Mai Ngày, tháng, năm sinh: 30/04/1958 Nữ: Học hàm, học vị: PGS.TS
Chức danh khoa học: Nghiên cứu viên chính
Chức vụ: Trương Phòng chuyên môn, Phó Viện trưởng Điện thoại: Tổ chức: 04-37563559, Nhà riêng: 04-37163892 Mobile: 0904100610
Fax: 04-37564217 E-mail: lcmai@ioit.ac.vn Tên tổ chức đang công tác: Phòng Nhận dạng và Công nghệ tri thức, Viện Công nghệ thông tin, Viện KHCN VN Địa chỉ tổ chức: 18 Hoàng Quốc Việt, Cầu Giấy, Hà nội Địa chỉ nhà riêng: 14 Phan Huy Ích, Ba đình, Hà nội
3 Tổ chức chủ trì đề tài:
Tên tổ chức chủ trì đề tài: Viện Công nghệ thông tin, Viện Khoa học và
Trang 4Điện thoại: 04-37164405 Fax: 04-37564217
E-mail: vanthu@ioit.ac.vn
Website: www.ioit.ac.vn
Địa chỉ: 18 Hoàng Quốc Việt, Cầu Giấy, Hà Nội
Họ và tên thủ trưởng tổ chức: PGS.TS Vũ Đức Thi
Số tài khoản:
Ngân hàng:
Tên cơ quan chủ quản đề tài: Bộ Khoa học và Công nghệ
II TÌNH HÌNH THỰC HIỆN
1 Thời gian thực hiện đề tài:
- Theo Hợp đồng đã ký kết: từ tháng 05/2007 – 05/2009
- Thực tế thực hiện: từ tháng 05/2007 đến tháng 31/08/2009
- Được gia hạn (nếu có):
- Lần 1 từ tháng 05/2009 đến tháng 31/08/2009
- Lần 2
2 Kinh phí và sử dụng kinh phí:
a) Tổng số kinh phí thực hiện: 3.000 tr.đ, trong đó:
+ Kính phí hỗ trợ từ SNKH: 3.000 tr.đ
+ Kinh phí từ các nguồn khác: không
b) Tình hình cấp và sử dụng kinh phí từ nguồn SNKH:
Theo kế hoạch Thực tế đạt được
Số
TT Thời gian (Tháng,
năm)
Kinh phí (Tr.đ)
Thời gian (Tháng, năm)
Kinh phí (Tr.đ)
Ghi chú
(Số đề nghị quyết toán)
Trang 5c) Kết quả sử dụng kinh phí theo các khoản chi:
Đối với đề tài:
- Lý do thay đổi (nếu có):
3 Các văn bản hành chính trong quá trình thực hiện đề tài/dự án:
(Liệt kê các quyết định, văn bản của cơ quan quản lý từ công đoạn xác định nhiệm vụ, xét chọn,
phê duyệt kinh phí, hợp đồng, điều chỉnh (thời gian, nội dung, kinh phí thực hiện nếu có); văn
bản của tổ chức chủ trì đề tài, dự án (đơn, kiến nghị điều chỉnh nếu có)
Số
TT
Số, thời gian ban
1 22/09/2006 Quyết định số 2089/QĐ-BKHCN ngày 22
tháng 9 năm 2006 của Bộ trưởng Bộ Khoa học và Công nghệ về việc phê duyệt nội dung và kinh phí các đề tài đã trúng tuyển thuộc Chương trình khoa học và công nghệ trọng điểm cấp nhà nước giai đoạn 2006-2010, mã số KC.01.01/06-10;
2 15/5/2007 Hợp đồng “Nghiên cứu phát triển một số
sản phẩm thiết yếu về xử lý tiếng nói và
văn bản tiếng Việt”, mã số KC01.01/06-10
thuộc Chương trình KC.01/06-10 theo các
Trang 6nội dung trong Thuyết minh Đề tài
10/05/2009 Công văn số 118/CNTT của Viện Công
nghệ thông tin ký ngày 10/05/2009 về việc xin gia hạn thời gian thực hiện đề tài
3 04/06/2009 Quyết định số 917/QĐ-BKHCN về việc
điều chỉnh thời gian thực hiện của đề tài KC01.01/06-10 thuộc chương trình KH&CN trọng điểm cấp nhà nước giai đoạn 2006-2010, mã số KC01/06-10
4 01/04/2009 Quyết định số 481/QĐ BKHCN về việc cử
đoàn đi công tác nước ngoài
5 17/04/2009 Quyết định số 619/QĐ BKHCN về việc cử
đoàn đi công tác nước ngoài
6 15/06/2009 Bản qui chế chi tiêu kinh phí của đề tài
“Nghiên cứu phát triển một số sản phẩm thiết yếu về xử lý tiếng nói và văn bản tiếng Việt”, mã số KC01.01/06-10 giữa lãnh đạo đơn vị chủ trì và chủ nhiệm đề tài
4 Tổ chức phối hợp thực hiện đề tài, dự án:
Nội dung tham gia chủ yếu
Sản phẩm chủ yếu đạt được
1 Viện Công nghệ
thông tin, Viện
KHCN VN
Viện Công nghệ thông tin, Viện KHCN
VN
– Xây dựng Hệ thống tổng hợp tiếng nói cho người khiếm thị – Xây dựng Hệ thống tổng hợp tiếng nói, tích hợp cho các cổng tiếng nói
– Xây dựng Hệ thống đối thoại
sử dụng công nghệ tổng hợp và nhận dạng tiếng tiếng Việt trên môi trường thiết bị di động dòng công nghệ mới
SP1.1 SP1.2 SP1.3
Trang 7– Xây dựng kho ngữ liệu ngữ
âm cho nhận dạng tiếng Việt – Xây dựng Kho ngữ liệu ngữ
âm cho đọc chữ số tiếng Việt, tên người, địa danh trên môi trường điện thoại
SP6.1 SP6.2 SP6.3
3 Trung tâm
Quốc tế MICA,
ĐHBK HN
Trung tâm Quốc tế MICA, ĐHBK
HN
– Hệ thống giám sát và điều khiển quá trình sử dụng kỹ thuật nhận dạng tiếng Việt
– Hệ thống phân tích luồng âm thanh
SP1.4 SP1.5
4 Trung tâm Từ
điển học, Hà
nội
Trung tâm Từ điển học, Hà nội
– Xây dựng Từ điển từ tiếng
HN
– Xây dựng Kho ngữ liệu câu tiếng Việt được chú giải (Viet Treebank)
– Xây dựng Kho ngữ liệu song ngữ Anh – Việt
HN
- JAIST
– Xây dựng công cụ Phân loại
từ Việt – Xây dựng công cụ Gộp nhóm
từ Việt
SP8.3 SP8.4
8 Khoa CNTT,
Đại học Bách
Khoa Hà nội
Khoa CNTT, Đại học Bách Khoa Hà nội
– Xây dựng công cụ Phân tích
Toán-– Xây dựng công cụ Phân đoạn
- Lý do thay đổi (nếu có):
Trang 85 Cá nhân tham gia thực hiện đề tài, dự án:
(Người tham gia thực hiện đề tài thuộc tổ chức chủ trì và cơ quan phối hợp, không quá 10 người kể cả chủ nhiệm)
Nội dung tham gia chính
Sản phẩm chủ yếu đạt được
Ghi chú*
Tham gia đóng góp cho xây dựng SP1.3
Chủ nhiệm
và SP6.x
Chủ nhiệm, phụ trách phần xử
lý tiếng nói
- Tham gia SP7.2
Phụ trách khối Xử
lý văn bản và SP3
Phụ trách khối Xử
lý văn bản và
3 KS.Ngô Cao
Sơn
KS.Ngô Cao Sơn
Thư ký đề tài Thư ký
Điều hành SP1.4
và SP1.5
sử dụng kỹ thuật nhận dạng tiếng Việt
SP1.4
Trang 9Yến Công Phương
9 CN.Vũ Xuân
Lương
CN.Vũ Xuân Lương
Nghiên cứu, xây dựng Từ điển từ tiếng Việt cho máy tính
SP7.2
Phương Thái
Xây dựng Kho ngữ liệu câu tiếng Việt được chú giải (Viet Treebank)
SP7.3
11 TS Hồ Bảo
Quốc
TS Hồ Bảo Quốc
Nghiên cứu xây dựng Kho ngữ liệu song ngữ Anh – Việt
SP7.4
12 TS.Nguyễn Thị
Minh Huyền
TS.Nguyễn Thị Minh Huyền
Nghiên cứu, xây dựng công cụ Phân đoạn từ Việt
SP8.2
13 TS Phan Xuân
Hiếu
TS Phan Xuân Hiếu
Nghiên cứu, xây dựng công cụ Phân loại từ Việt
SP8.3
14 TS.Nguyễn Lê
Minh
TS.Nguyễn Lê Minh
Nghiên cứu, xây dựng công cụ Gộp nhóm từ Việt
SP8.4
15 TS Lê Thanh
Hương
TS Lê Thanh Hương
Nghiên cứu, xây dựng công cụ Phân tích câu Việt
SP.8.5
- Lý do thay đổi ( nếu có):
Đề tài tập hợp đội ngũ cán bộ nghiên cứu tại 8 cơ sở khác nhau với 15 nhánh sản phẩm, vì vậy Đề tài kiến nghị Bộ Khoa học và Công nghệ xác nhận danh sách những người thực hiện chính theo các sản phẩm phụ trách như trên Danh sách được sắp xếp theo thứ tự Ban Chủ nhiệm và Thư ký, sau đó theo thứ tự đánh số của phân nhóm theo thiết kế của các sản phẩm Khi đăng ký, chỉ đề 10 người đại diện chính, một cơ sở có thể thực hiện một số Sản phẩm, nên chỉ nêu danh sách người phụ trách, chịu trách nhiệm quản lý, tuy nhiên trong Nội dung chi tiết cũng đã nêu những người thực hiện Hiện tại trong danh sách trên là những người thực hiện chính của từng sản phẩm
1 Tham dự Hội nghị Khoa học – Trao đổi Khoa học, trình bày Theo kế
Trang 10Quốc tế về tiếng nói tại Châu Âu
hoặc Mỹ
seminar khoa học về Đề tài và những nghiên cứu liên quan đến dịch các ngôn ngữ nói, tại Trung tâm Nghiên cứu Quốc tế về Công nghệ truyền thông tiến tiến InterACT (International Center for Advanced Communication Technologies), Đại học Carnegie Mellon, Pittsburgh – Trình bày seminar khoa học tại CSLU với các nội dung chủ yếu như đã trình bày trên, có điểm nhấn về khía cạnh ứng dụng của Nhận dạng cho smarrtphone và Tổng hợp tiếng nói cho người khiếm thị (Center
of Spoken Language Understanding – Trung tâm nghiên cứu về hiểu ngôn ngữ nói), Oregon Graduate Instiutute, Portland
– Số lượng người: 01, số lượng đoàn: 01, kinh phí: 36,24 triệu
hoạch
2 Tham dự Hội nghị quốc tế tại
Châu Á – Tham dự hội nghị Quốc tế lần thứ 12
“Oriental-COCOSDA” 10-12/08/2009 về thiết kế, xây dựng, CSDL ngữ
âm và các công cụ đánh giá trong các nước Châu Á, tại Bác Kinh, Trung Quốc,
– Số lượng người: 01, số lượng đoàn: 01, kinh phí: 18,4 triệu.
Theo kế hoạch
3 Tham gia dự án A-STAR ( Asian
Speech Advanced Technology
Research Consortium) ,
Tham gia xây dựng các hệ thống dịch tiếng nói sang tiếng nói thông qua mạng máy tính trong khu vực Châu Á Đã phát triển các engine trong lĩnh vực du lịch
1 Nhận dạng tiếng Việt liên tục
2 Tổng hợp tiêng Việt
3 Dịch tự động Anh – Việt, Việt – Anh
và đã tích hợp vào Hệ thống dịch tiêng nói sang tiếng nói giữa các ngôn ngữ sau: Anh, Nhật, Trung quốc, Hàn, Thái,
Được phát triển trong quá trình thực hiện Đề tài
Trang 11Indonessia, Ấn độ, Mã lai, Việt Nam
4 Đang triển khai hợp tác với Công
ty Axonite (Hoa kỳ) đưa hệ thống
tổng hợp tiếng Việt – VieTalk
trên nền của VOIP
- Gửi một tin nhắn bằng tiếng nói tổng hợp đến bất kỳ một máy điện thoại để bàn hoặc mobile với nội dung văn bản được soạn trước
- Các ứng dụng tiếp theo trong hợp tác với Công ty Axonite là:
Hệ thống Cổng tiếng nói để trả lời tự động các thông tin được ghi sẵn trong CSDL bằng giọng nói tổng hợp, gửi thông điệp
và tin nhắn bằng tiếng nói trong các ứng dụng của Ngân hàng, Hàng không để chuyển các thông tin tới khách hàng
Được phát triển trong quá trình thực hiện Đề tài
5 Tham dự Hội thảo Oriental
COCOSDA 2008 (Kyoto), 2009
(Beijing)
Có 02 báo cáp khoa học về Nhận dangjt hanh điệu và xây dựng mạng tìm kiếm
Được phát triển trong quá trình thực hiện Đề tài
6 Được mời báo cáo về xây dựng
tài nguyên cho NLP tại
International Symposium on
Asian Language Resources
(ALR) tại Thailand,
20-21/03/2009
Có báo cáo mời về tài nguyên văn bản của Đề atif để chia sẻ với cộng đồng
Được phát triển trong quá trình thực hiện Đề tài
7 TCAST (Technology and Corpora
for Asia-Pacific Speech
Translation, 2009, Singapore
Có 01 báo cáo khoa học về nghiên cứu và phát triển Hệ thống Tổng hợp tiếng Việt dựa trên mô hình Markov ẩn
Được phát triển trong quá trình thực hiện Đề tài
8 Cử các cán bộ nghiên cứu trẻ
(được tài trợ toàn phần hoặc một
phần) tham dự trường quốc tế
Châu Á về NLP, xử lý tiếng nói,
nhận dạng chữ… tại Thái lan các
năm 2007, 08, 09 (ADD School)
Cử 3 đợt các cán bộ nghiên cứu trẻ trong 3 năm sang tham dự khoa học về xử lý ngôn ngữ tự nhiên và tiếng nói
Được phát triển trong quá trình thực hiện Đề tài
- Lý do thay đổi (nếu có): Hoàn thành theo Đề cương và thực hiện vượt kế hoạch trong quá trình thực hiện Đề tài
Trang 127 Tình hình tổ chức hội thảo, hội nghị:
6-Thực hiện theo
kế hoạch
tổ chức SLTU (Spoken Languages Technologies for Under-resources
Languages), 5-7/5/2008 tại ĐHBK Hà nội
Thực hiện vượt
kế hoạch
- Lý do thay đổi (nếu có):
8 Tóm tắt các nội dung, công việc chủ yếu:
(Nêu tại mục 15 của thuyết minh, không bao gồm: Hội thảo khoa học, điều tra khảo sát trong nước và nước ngoài)
Người,
cơ quan thực hiện
1 Nghiên cứu và triển khai để xây
trưng của ngữ âm, thanh điệu
và ngôn điệu tiếng Việt
− Nghiên cứu các công nghệ
nhằm tích hợp vào các môi
Trong cả giai đoạn thực hiện đề tài
Trong cả giai đoạn thực hiện đề tài
Viện CNTT MICA
Trang 13trường ứng dụng: đọc màn
hình cho người khiếm thị, tích
hợp vào cổng tiếng nói, các
thiết bị di động dòng công
nghệ mới, điều khiển thiết bị,
phân tích luồn âm thanh trong
ngôi nhà thông minh…
2 Nghiên cứu và triển khai để xây
dựng các kho ngữ liệu ngữ âm cho
− Kho ngữ liệu ngữ âm đặc thù,
mười chữ số tiếng Việt, tên
người, địa danh.
Trong cả giai đoạn thực hiện đề tài
Trong cả giai đoạn thực hiện đề tài
Viện CNTT MICA
3 Nghiên cứu và triển khai để xây
dựng các tài nguyên cơ bản cho xử
lý văn bản tiếng Việt
− Từ điển từ tiếng Việt cho máy
tính
− Kho ngữ liệu câu tiếng Việt
được chú giải ngữ pháp (Viet
TreeBank)
Kho ngữ liệu các cặp câu
Anh-Việt được chú giải nghĩa và kho
ngữ liệu các cặp câu song ngữ thô
Anh-Việt
Trong cả giai đoạn thực hiện đề tài
Trong cả giai đoạn thực hiện đề tài
- Trung tâm từ điển học, - Đại học Công nghệ
4 Nghiên cứu và triển khai để xây
dựng các công cụ cơ bản của xử
Trong cả giai đoạn thực hiện đề
Trang 14III SẢN PHẨM KH&CN CỦA ĐỀ TÀI, DỰ ÁN
1 Sản phẩm KH&CN đã tạo ra:
o Thay đổi được tốc độ phát âm
- Nâng cao chất lượng giọng nói tổng hợp so với giai đoạn 2001-2004
o Chất lượng âm tổng hợp ở mức độ âm tiết tốt hơn
- Phân tích và chuyển đổi văn bản tiếng Việt với mã Unicode, VNI thành tiếng nói
- Phát âm chữ cái, dấu thanh, chữ số, các dấu nhảy đơn, nhảy kép, mở ngoặc thành tiếng nói khi người
sử dụng đang gõ văn bản trong Word, Outlook, hoặc một điều khiển sọan thảo bất kỳ của một ứng dụng đang chạy, hỗ trợ tiếng nói khi duyệt Web
- Phát âm bằng tiếng Anh các từ tiếng Anh (không đánh vần từng ký tự)
- Kết xuất in ra tài liệu chữ nổi: phần mềm chuyển đổi tệp văn bản được soạn thảo bằng MS Word, Wordpad … với các bộ font VnTime (ABC), vni- times (VNI), Times New Roman (UNICODE) sang tệp văn bản chữ bơ-rai tiếng Việt, tuân thủ theo luật
ký hiệu chữ bơ-rai do hội người mù Việt nam quy định, đảm bảo chuyển đổi định dạng cơ bản nhất như dòng tiêu đề, đoạn văn bản, chữ đậm… Người khiếm thị có thể đọc được hầu hết các tệp văn bản bao gồm
cả tệp siêu văn bản html, các văn bản bơ-rai có thể được in ra trên tất cả các máy in chữ nổi phổ biến trên thế giới
- Thử nghiệm thêm chức năng phát âm khi ngừời sử dụng sọan thảo trong Word với phần mềm nguồn mở
Unikey
Hoàn toàn đạt được theo kế hoạch
Trang 15o Thay đổi bộ đơn vị phụ thuộc ngữ cảnh để tăng
độ tự nhiên khi đọc từ và câu
- Nâng cao chất lượng giọng nói tổng hợp so với giai đoạn 2001-2004
o Chất lượng âm tổng hợp ở mức độ âm tiết tốt hơn
o Phát triển, cài đặt thêm các phương pháp tổng hợp tốt hơn TD-PSOLA (cộng chồng đồng bộ miền thời gian)
o Chất lượng âm tổng hợp cho từ, cụm từ và câu
- Chạy được trong 2 chế độ: đồng bộ và không đồng
bộ
- Thay đổi được tốc độ phát âm nhanh hoặc chậm
- Chương trình trình diễn: Một cổng thoại báo điểm học tập, tu dưỡng của học sinh Các thông tin được lưu trong cơ sở dữ liệu SQL Server với vài chục nghìn bản ghi
Đạt được theo kế hoạch
- Thiết kế và cài đặt hệ thống đối thoại bằng tiếng nói
sử dụng công nghệ tổng hợp và nhận dạng tiếng Việt
- Nhận dạng:
o Cho phép người dùng đọc mười chữ số tiếng Việt, kiểu đọc chuỗi số liên tục và một số lệnh
Đạt được theo kế hoạch
Trang 16o Tiêu chuẩn đánh giá độ chính xác trên bộ dữ liệu test đủ lớn về: số lượng câu, số lượng người, giọng 2 miền Bắc và Nam, giới tính, nói bình thường không qua nhanh
- Tổng hợp
o Đọc các tin nhắn bằng tiếng Việt, phát âm rõ các
âm tiết tiếng Việt
o Đánh giá độ hiểu tiếng Việt tổng hợp đạt quãng 90% Tiêu chuẩn đánh giá: 1/ đánh gía theo các tham số ngữ âm của tiếng tổng hợp, 2/ đánh giá theo các nhóm người nghe về học vấn, tuổi, giới tính, có/không chuyên môn về ngôn ngữ, …
- Các module nhận dạng bao gồm: khối phân tích tín hiệu tiếng nói (đặc tính phổ) và khối nhận dạng (bằng HMM hoặc mạng nơ ron)
- Tối ưu hóa để có thể chạy trên các bộ vi xử lý nhúng như là các DSP (Texas Instruments)
- Khối điều khiển hành động: Có khả năng hoạt động trong các hệ thống nhúng và hệ thống tự chủ
- Độ chính xác nhận dạng khoảng 90% trong môi trường không quá ồn, tốc độ nhanh
- Trình diễn sản phẩm: thực hiện một ứng dụng điều khiển phần mềm trong môi trường Windows, Unix
để quản lý các tệp hồ sơ tài liệu (mở , đóng , xoá, lưu giữ tệp ), ra các lệnh điều khiển văn bản đơn giản (cắt, dán, copy )
Đạt được theo kế hoạch
- Phân loại tiếng nói và các âm thanh khác (với tiếng
ồn và tiếng nhạc): Hệ thống phân tích trong thời gian thực luồng dữ liệu âm thanh ghi vào từ micro nhằm mục đích phân loại xem âm thanh ghi được
Đạt được theo kế hoạch
Trang 17thuộc loại nào : tiếng người nói, tiếng âm nhạc hay các loại tiếng động khác trong cuộc sống thường nhật
- Quá trình phân tích, dò tìm tự động tiến hành trong thời gian thực bằng cách khai thác các đặc tính phổ của âm thanh
- Độ chính xác phân loại 80%
- Trong trường hợp nhận ra sự có mặt của tín hiệu giọng nói, hệ thống sẽ có thể kết nối với bộ nhận dạng các câu lệnh giọng nói (như lmô tả trong SP1.4) để điều khiển một phần mềm hoặc một thiết
• Áp dụng thuật toán dò tìm sự kiện âm
• Áp dụng thuật toán phân tích luồng âm thanh, sử dụng các kỹ thuật đã liệt kê ở phần trên
• Trong trường hợp dò được tín hiệu tiếng nói thì kích hoạt hệ thống điều khiển
a - Dữ liệu văn bản dành cho thu âm:
- Về nguồn dữ liệu, văn bản được chọn để đọc có thể
là đoạn trích văn học hoặc truyện ngắn hoặc các câu trích từ hai nguồn trên đảm bảo tính phong phú về từ vựng Các câu được chọn có độ dài trung bình khoảng
10 âm tiết, dễ phát âm (không gồm những câu khó dễ gây đọc nhầm)
- Về mặt ngữ âm học, dữ liệu đảm bảo cân bằng về:
• Âm tiết: ít nhất bao gồm đủ 300 âm tiết khác nhau không kể thanh điệu thường xuyên được sử dụng trong tiếng Việt với số lượng cân bằng
• Âm vị: đủ tất cả các âm vị khác nhau của tiếng Việt gồm 22 âm đầu, 16 âm chính, 8 âm cuối và
2 âm đệm với số lượng cân bằng
• Thanh điệu: đủ 6 thanh điệu của tiếng Việt gồm ngang (không dấu), hỏi, sắc, nặng, huyền và ngã với số lượng cân bằng
b Độ lớn và chất lượng:
• Số giờ thu âm: 3-5 giờ
Đạt được theo kế hoạch
Trang 18• Số lượng âm tiết là khoảng 3000 tương đương với số lượng 300 câu với độ dài trung bình 10-15
âm tiết
• Chất lượng âm thanh ghi ở dạng PCM, tần số lấy mẫu 16kHz và mã hoá 16 bit
c Người nói và điều kiện thu âm:
• Người nói gồm 01 nam giọng cao và 01 nữ giọng trầm tình trạng sức khoẻ tốt, tuổi trong khoảng 18-45, giọng phát thanh viên miền Bắc Hà nội chuẩn, tốc độ đọc chuẩn của phát thanh viên
• Điều kiện thu âm: Môi trường phòng thu tiêu chuẩn cách âm
• Mỗi đơn vị dữ liệu gồm 01 file âm thanh và một
số file gán nhãn dạng text tương ứng Tổ chức bằng cách sử dụng cơ sở dữ liệu quan hệ với mỗi đơn vị là một bản ghi trong bảng Các trường của bảng là metadata của dữ liệu và link tới file dữ liệu
a Dữ liệu văn bản dành cho thu âm:
• Về nguồn dữ liệu, văn bản được chọn để đọc là các câu trong đoạn văn gồm những từ được thường xuyên sử dụng trong nhiều lĩnh vực khác nhau như tin tức thời sự, văn hoá xã hội, thể thao, khoa học công nghệ, chính trị, sức khoẻ, kinh doanh, thời tiết Dữ liệu có thể dưới dạng đoạn hội thoại, đoạn văn bản và các chữ số lấy từ website, sách hoặc báo chí Các câu được chọn bởi chuyên gia hoặc tự động đảm bảo cân bằng
âm tiết theo thống kê thực tế từ dữ liệu thu được
Đạt được theo kế hoạch
Trang 19một cách ngẫu nhiên qua các websites
b Độ lớn và chất lượng:
• Số giờ thu âm: 100 giờ
• Số câu trên 20.000 với độ dài trung bình 10 âm tiết mỗi câu
• Chất lượng âm thanh ghi ở dạng PCM, tần số lấy mẫu 16kHz và mã hoá 16 bit
c Người nói và điều kiện thu âm:
• Số lượng đối tượng thu âm khoảng 50-60 người, trong đó 50% nam và 50% nữ, độ tuổi từ 18 đến
45, sức khoẻ tốt, giọng đọc với tỷ lệ cân bằng miền Bắc và miền Nam, tốc độ đọc bình thường
Mỗi câu đọc 3 lần cho mỗi giọng đọc, tốc độ đọc bình thường
• Điều kiện thu âm là điều kiện phòng thu đạt tiêu chuẩn về cách âm
a Dữ liệu văn bản dành cho thu âm:
• Đối với 10 chữ số: Nguồn dữ liệu là các chuỗi số ngẫu nhiên được đọc liên tục lấy từ các số điện thoại cố định và di động Về mặt ngữ âm học, ngoài cách đọc chuẩn, dữ liệu còn bao gồm các biến thể khác của các chữ số, ví dụ: 5 có thể đọc
là “lăm”, “nhăm” và “năm” Do đó, bộ dữ liệu gồm 17 âm vị khác nhau Tần suất xuất hiện của các âm vị là tương đương nhau
• Về tên người Việt: nguồn có thể là họ tên đầy đủ lấy danh sách cán bộ hoặc danh sách học sinh đảm bảo thu thập đủ những tên phổ biến trong tiếng Việt
• Tên địa danh: tên các tỉnh, thành phố và địa phương cấp thấp hơn của Việt nam
Trang 20• Chất lượng âm thanh ghi ở dạng PCM, tần số lấy mẫu 16kHz và mã hoá 16 bit
c Người nói và điều kiện thu âm:
• Số lượng người nói 30-50 người với tỷ lệ nam nữ cân bằng, độ tuổi 18-45, sức khoẻ tốt, giọng đọc
Hà nội chuẩn và địa phương miền Bắc Thu âm 3 lần mỗi câu cho mỗi giọng đọc
• Điều kiện thu âm là phòng thu tiêu chuẩn Riêng đối với chữ số có thêm dữ liệu thu ở điều kiện văn phòng, mức độ tiếng ồn thấp, không có nhiễu đặc biệt và thiết bị thu là điện thoại di động với tiêu chuẩn kỹ thuật của âm thanh tương đương
- Kho ngữ liệu 10.000 câu được gán nhãn cú pháp đầy
đủ, khuôn dạng như các TreeBank khác
- Tài liệu hướng dẫn
Đạt được theo kế hoạch
- Công cụ chuẩn hóa ngữ liệu song ngữ
- 100,000 cặp câu song ngữ thô cho 2 ngôn ngữ Anh
và Việt, trong đó có 10,000 câu về một lĩnh vực chuyên ngành (CNTT)
Đạt được theo kế hoạch
Trang 21- Hệ phân loại từ tiếng Việt dạng phần mềm mã nguồn
mở xây dựng các hệ phân lớp từ loại từ tiếng Việt (Bộ phân lớp từ loại đến mức 4)
- Mã nguồn mở với khả năng kết nối trong các phần mềm khác
- Độ chính xác dự kiến khoảng 90% trở lên, huấn luyện bộ phân lớp trên tập dữ liệu câu gắn nhãn sẵn (khoảng 10.000 câu)
- Tài liệu đặc tả chính xác quá trình phát triển, các nguyên lý, quy tắc tuân theo và tài liệu hướng dẫn sử
dụng đi kèm
Đạt được theo kế hoạch
- Giao diện thân thiện với người dùng
Tài liệu hướng dẫn
Đạt được theo kế hoạch
- Câu vào đã được phân tích từ loại (POS)
- Hệ phân tích cú pháp tiếng Việt (syntax parser): hệ cho phép phân tích các loại câu tiếng Việt (câu thông báo – câu đơn và câu ghép, câu hỏi, câu cảm thán,
…) với độ chính xác trên 80% Phân tích cú pháp dựa trên bộ luật theo văn phạm LCFG
- Mã nguồn mở với khả năng kết nối trong các phần mềm khác
- Tập luật ngữ pháp tiếng Việt dùng cho xử lý tự động ngôn ngữ: Có sự đồng thuận với các nhà ngôn ngữ học
Đạt được theo kế hoạch
Trang 22- Lý do thay đổi (nếu có):
Các bài báo công bố trong
các tuyển tập Hội nghị, hội
1 Thang Tat Vu, Mai Chi Luong, Satoshi Nakamura, “An HMM-based Vietnamese
Speech Synthesis System”, O-COCOSDA 2009 proceedings, also be included in IEEE
Xplorer, 10-13 August, 2009, China
2 Thang Tat Vu, Khanh Tang Nguyen, Le Thanh Ha, Mai Chi Luong, Satoshi
Nakamura, “Toward Asian Speech Translation: The Development of Speech and Text Corpora for Vietnamese language”, Accepted to the Proceeding of Workshop on Technologies and Corpora for Asia-Pacific Speech Translation (TCAST 2009), August
2, 2009, Suntec, Singapore
3 Thang Tat Vu, Khanh Nguyen Tang, Son Hai Le, Mai Chi Luong, “Vietnamese tone recognition based on Multi-layer Perceptron network”, Proceedings of Oriental COCOSDA, Kyoto, 25-27 December 2008, pp.242-45
4 Bui Quang Trung, Luong Chi Mai, Le Hai Son, “A Lexical Tree Based Search Network
in Continuous Vietnamese Speech Recognition”, Proceedings of Oriental COCOSDA,
Kyoto, 25-27 December 2008, pp.253-256
5 Tran Do Dat, Eric Castelli, “Register of Vietnamese tone in continuous speech”,
The first International Workshop on Spoken Languages Technologies for
Under-resourced languages (SLTU - 2008), Hanoi, 3/2008
Trang 236 Viet-Bac Le, Laurent Besacie, Sopheap Seng, Brigitte Bigi, Thi-Ngoc-Diep Do,
“Recent advances in automatic speech recognition for Vietnamese”, The first
International Workshop on Spoken Languages Technologies for Under-resourced languages (SLTU - 2008), Hanoi, 3/2008
7 ROSSIGNOL, Mathias and TRẦN, Đỗ Đạt, “Introducing Hoa Sen, a modular and portable software toolkit for speech analysis and recognition”, in: ICT.rda '08, 2008
8 NGUYỄN, Thị Minh Tuyền and ROSSIGNOL, Mathias, “ADRPhone: a Lightweight, Standalone Phonetizer for Vietnamese and its Dialects”, in: 10th Worksphop of the
Oriental chapter of the International Committee for the Co-ordination and
Standardization of Speech Databases and Assessment Techniques (Oriental
COCOSDA ’07), 2007
9 Bui Quang Trung, Luong Chi Mai, Vu Tat Thang, Nguyen Trung Thanh, Nguyen Tien
Dung, “ A smartphone Spoken Dialog System using Vietnamese Text-To-Speech and Speech recognition”, Proceeding of FAIR, Nha trang, 10-12 August, 2007
Phần xử lý Văn bản
10 Nguyen, L.M., Nguyen, H.T., Nguyen, P.T., Ho, T.B., Shimazu, A., “An Empirical
Study of Vietnamese Noun Phrase Chunking with Discriminative Sequence Models”,
7th Workshop on Asian Language Resources at 47th Annual Meeting of the
Association for Computational Linguistics, ACL-IJCNLP 2009, 2-7 August,
Singapore, 2009
11 Phuong-Thai Nguyen, Xuan-Luong Vu, Thi-Minh-Huyen Nguyen, Van-Hiep Nguyen,
Hong-Phuong Le “Building a Large Syntactically-Annotated Corpus of Vietnamese”
Proceedings of the 3rd Linguistic Annotation Workshop (LAW) at ACL-IJCNLP 2009
12 Anh-Cuong Le, Phuong-Thai Nguyen, Hoai-Thu Vuong, Minh-Thu Pham, Tu-Bao Ho,
“An Experimental Study on Lexicalized Statistical Parsing for Vietnamese” The First
International Conference on Knowledge and System Engineering (KSE 2009)
13 Huong-Thao Nguyen, Phuong-Thai Nguyen, Quang-Thuy Ha, and Le-Minh Nguyen,
“Vietnamese Noun Phrase Chunking based on Conditional Random Fields” The First International Conference on Knowledge and System Engineeing, KSE, 2009
14 Nguyen, P.T., Shimazu, A., Ho, T.B., Nguyen, L.M., Nguyen, V.V., “A Tree-to-String
Phrase-based Model for Statistical Machine Translation”, Twelfth Conference on
Computational Natural Language Learning, Manchester, 16-17 August, 143-150, 2008
15 Nguyen, P.T., Le, A.C., Shimazu, A., Ho, T.B., “Intergration of Word sense
Disambiguation into Pharse base”Empirical Md Statistical Machine Translation” Empirical Methods for Asian Language Processing Workshop (EMALP 2008), in
conjunction with Tenth Pacific Rim International Conference on Artificial Intelligence (PRICAI-08), December 16-19, Hanoi, 114-122, 2008., 114-122
16 Nguyễn Phương Thái, Vũ Xuân Lương, Nguyễn Thị Minh Huyền, “Xây dựng treebank tiếng Việt”, In Proc of the 4rd National Symposium on Research, Development and Application of Information and Communication Technology (ICTrda'2008, August 8-
9, Ha Noi, Viet Nam), Science and Technics Publishing House, 249-257
Trang 24trên các phương pháp học máy thống kê”, ICT.rda 2008, Hà Nội, Việt Nam
18 Ho, T.B., Pham, N.K., Ha, T.L., Nguyen, P.T., “Issues and First Phase Development of
the English-Vietnamese Translation System EVSMT1.0”, Special Issue in Journal of
Science, Natural Sciences and Technology, Vol 24, N3S, Vietnam National
University- Hanoi Publishers, 59-66, 2008
19 Ho, T.B., “Vietnamese Language Processing: Issues and Challenges”, Special Issue in
Journal of Science, Natural Sciences and Technology, Vol 24, N3S, Vietnam National
University- Hanoi Publishers, 10-16, 2008
20 N.T.M Huyen, R Mathias, L.H Phuong, D.Q Thang, V.X Luong, N.C Tu, “Word
segmentation of Vietnamese texts: a comparison of approaches”, Proceedings of the
6th Language Resources and Evaluation Conference LREC 2008, 2008
21 P T Ha, N T M Huyen, L H Phuong, L V Tang, “Building a Syntactic Annotation
Framework for Vietnamese”, Proceedings of the National Symposium on Research,
Development and Application of Information and Communication Technology
ICT.rda, Vietnam, 8/2008
22 Đỗ Bá Lâm, Lê Thanh Hương 2008 Xây dựng hệ thống phân tích cú pháp tiếng Việt
sử dụng văn phạm HPSG Kỷ yếu hội thảo ICT.rda’08, Hà Nội, Việt Nam
• Số lượng bài theo đăng ký là 04:
02 bài báo đăng trên các kỷ yếu Hội nghị Quốc tế/Trong nước liên quan đến Xử lý
tiếng nói, 02 bài báo đăng trên các kỷ yếu Hội nghị Quốc tế/Trong nước liên quan đến
Xử lý văn bản
• Số lượng bài trên thực tế tổng cộng là 22 bài, trong đó đăng ở nước ngoài: 10,
với 3 bài ở Hội nghị lớn có tầm quốc tế và rất khó được nhận: ACL-IJCNLP
2009, CoNLL (Conference on Computational Natural Language Learning),
Cấp đào tạo, Chuyên
ngành đào tạo Theo kế
hoạch
Thực tế đạt được
Ghi chú
(Thời gian kết thúc)
Đào tạo:
- Thạc sỹ: đã hoàn thành
Nguyễn Thị Thanh Mai, 2008
Nguyễn Thị Phương Thảo, 2008
Nguyễn Cẩm Tú, 2008
Trang 25Nguyễn Thị Hương Thảo, 2009
- Tiến sỹ (đã thực hiện trước khi bắt đầu đề tài nhưng theo hướng nghiên cứu của Đề tài):
Phan Xuân Hiếu, 2008
Nguyễn Phương Thái, 2008
Nguyễn Công Phương, 2009
Đang thực hiện:
Ngô Hoàng Huy
đ) Tình hình đăng ký bảo hộ quyền sở hữu công nghiệp
Ghi chú
(Thời gian kết thúc)
2
- Lý do thay đổi (nếu có):
e) Thống kê danh mục sản phẩm KHCN đã được ứng dụng vào thực tế
2
2 Đánh giá về hiệu quả do đề tài, dự án mang lại:
a) Hiệu quả về khoa học và công nghệ:
(Nêu rõ danh mục công nghệ và mức độ nắm vững, làm chủ, so sánh với trình độ công
nghệ so với khu vực và thế giới…)
Các sản phẩm của đề tài đều không mua được từ bên ngoài Các chỉ tiêu kỹ thuật,
công nghệ nghiên cứu đều theo các chỉ tiêu của các sản phẩm cùng loại làm tại
nước ngoài Dưới đây là một vài thí dụ:
Trang 26− Ngân hàng câu được chú giải cú pháp (treebank) là kho ngữ liệu rất quan trọng trong nghiên cứu và xây dựng ứng dụng xử lý ngôn ngữ tự nhiên Tiếng Việt là ngôn ngữ còn thiếu nhiều tài nguyên trong đó có treebank
− Treebank thường được dùng để xây dựng các hệ phân tích cú pháp, gán nhãn
từ loại, tách từ Các hệ đó lại có thể được dùng cho các ứng dụng như trích rút thông tin, dịch tự động, hỏi đáp, và tóm tắt văn bản Ngoài ra treebank còn có thể được dùng cho các nghiên cứu ngôn ngữ học, chẳng hạn như khảo sát hiện tượng ngôn ngữ đặc thù nào đó Gần đây cùng với sự ra đời của các phương pháp thống kê trên dữ liệu lớn thì treebank và các kho ngữ liệu khác càng đóng vai trò quan trọng hơn
● Hệ phân tách từ (SP8.2)
− Công cụ này thuộc nhóm công cụ/tài nguyên cơ bản làm nền tảng cho việc phát triển các ứng dụng xử lí tiếng Việt
− Sản phẩm đã phát triển bước đầu trong đề tài KC01-03 Trong nước cũng đã
có một số nhóm khác phát triển sản phẩm này Mục đích của đề tài là phát triển một công cụ có độ chính xác cao nhất từ trước đến nay, và có tính chuẩn mực, sử dụng lại được cho nhiều ứng dụng đa dạng
● Hệ phân loại từ Việt (SP8.3)
− Sản phẩm JVnTagger được xây dựng bằng ngôn ngữ Java, và cùng với các sản phẩm khác trong dự án VLSP sẽ là một phần mềm/công cụ mã nguồn mở thông qua đó có thể đem lại lợi ích cho cộng đồng xử lý ngôn ngữ tiếng Việt
và cho giới xây dựng ứng dụng Cụ thể hơn:
− Phần mềm mã nguồn mở nên có thể được sửa lỗi, kiểm thử, và xây dựng bởi người sử dụng hay những người phát triển ứng dụng khác, qua đó cải tiến và nâng cao chất lượng gắn nhãn từ loại
− Phần mềm cung cấp các APIs (giao diện lập trình ứng dụng) cùng với các tài liệu đặc tả và hướng dẫn lập trình đầy đủ để người sử dụng và những người xây dựng ứng dụng có thể tích hợp JVnTagger một cách dễ dàng vào sản phẩm của họ
b) Hiệu quả về kinh tế xã hội:
(Nêu rõ hiệu quả làm lợi tính bằng tiền dự kiến do đề tài, dự án tạo ra so với các sản phẩm cùng loại trên thị trường…)
SP1.1 Sử dụng cho cộng đồng người khiếm thị đọc thông tin trên máy tính
SP1.2 Sử dụng cho các hệ thống cổng tiếng nói cho các trường phổ thông, các cổng tiếng nói phục vụ thông tin cộng đồng như thời tiết, văn bản pháp quy, SP1.3 Có thể sử dụng cho cộng đồng rất rộng lớn dùng điện thoại di động bằng sử dụng tiếng nói Việt
SP1.4 Có khả năng ứng dụng trong các ứng dụng dân sự cũng như trong các nhà máy công nghiệp để điều khiển các hệ thống, thiết bị bằng tiếng nói tiếng Việt
Trang 27SP1.5 Sử dụng trong các ứng dụng y tế để giám sát người bệnh, người già yếu và người tàn tật
SP6, 7 Sản phẩm cung cấp tài nguyên cơ bản, chuẩn mực, thiết yếu cho việc phát triển các ứng dụng xử lí tiếng Việt
SP8 Sản phẩm là các công cụ cơ bản, chuẩn mực, thiết yếu cho tất cả các nghiên cứu, phát triển ứng dụng của cộng đồng nghiên cứu xử lý tiếng Việt
Khả năng cạnh tranh về giá thành và chất lượng của sản phẩm
• Các sản phẩm về xử lý tiếng nói tiếng Việt có khả năng đóng góp vào các sản phẩm truyền thông, các hệ thống giao tiếp tự động
• Các sản phẩm về xử lý văn bản có khả năng giúp nâng cao hiệu suất lao động trong rất nhiều ngành kinh tế và trình độ dân trí Nếu đạt được các mục tiêu, có thể tin tưởng đây là các sản phẩm tốt nhất trong kĩnh vực này
Khả năng liên doanh liên kết với các doanh nghiệp ngay trong quá trình nghiên cứu
Trong quá trình thực hiện đề tài, đã tạo ra được hợp tác trong dự án Quốc tế về dịch tiếng nói sang tiếng nói (speech-to-speech translation) trong khuôn khổ A-STAR về chủ đề du lịch (travelling) và đã có những bước đi vững chắc về mặt công nghệ, để tiếp tục cùng với cộng đồng dưới sự chủ trì của đối tác Nhật bản (Viện Nghiên cứu thông tin và Truyền thông NICT – Kyoto, Nhật bản), hoàn thành một dự án dịch tiếng nói đa ngôn ngữ, bước đầu đã có tiếng Nhật, Anh, Trung quốc, Tháilan, Hàn Quốc, Ấn độ, Malaysia, Indonessia
Phương thức chuyển giao
(chuyển giao công nghệ trọn gói, chuyển giao công nghệ có đào tạo, chuyển giao
theo hình thức trả dần theo tỷ lệ % của doanh thu, liên kết với doanh nghiệp để sản xuất hoặc góp vốn (với đơn vị phối hợp nghiên cứu hoặc với cơ sở sẽ áp dụng kết quả nghiên cứu) theo tỷ lệ đã thoả thuận để cùng triển khai sản xuất, tự thành lập
doanh nghiệp trên cơ sở kết quả nghiên cứu tạo ra, )
• Các sản phẩm của đề tài được chia làm nhiều phương thức chuyển giao:
- Sản phẩm đầu cuối ứng dụng nhằm ứng dụng trong thực tế, như SP1.1, SP1.3 Chuyển giao công nghệ có đào tạo như SP1.2, SP1.4, SP1.5
- Các sản phẩm dạng tài nguyên được cung cấp tùy thưeo các đối tượng nghiên cứu hay phát triển sản phẩm kinh doanh Việc này cần có chính sách từ Bộ KHCN, các sản phẩm về tài nguyên có thể được đưa lên LDC như SP7.3 cho cộng đồng nghiên cứu sử dụng và làm giàu lên theo thời gian
Trang 283 Tình hình thực hiện chế độ báo cáo, kiểm tra của đề tài, dự án:
Số
TT Nội dung
Thời gian Thực hiện
- Về chất lượng: Là bước đầu trong giai đoạn nghiên cứu, đang khảo sát và thiết kế
- Đang thực hiện đúng tiến độ Lần 2:
18/04/2008
4/2008
11/2007 Về số lượng: Đảm bảo về số lượng nghiên cứu các đầu mục cần thiết
- Các nghiên cứu theo đúng kế hoạch để có thể đảm bảo chất lượng theo đăng ký
- Đang thực hiện đúng tiến độ Lần 3:
25/09/2008
05/2008- 10/2008
- Về số lượng: Đảm bảo về số lượng nghiên cứu các đầu mục cần thiết
- Các nghiên cứu theo đúng kế hoạch để có thể đảm bảo chất lượng theo đăng ký
- Đang thực hiện đúng tiến độ Lần 4:
15/03/2009
3/2009
11/2008 Về số lượng: Đảm bảo về số lượng nghiên cứu các đầu mục cần thiết
- Các nghiên cứu theo đúng kế hoạch để có thể đảm bảo chất lượng theo đăng ký
- Đang thực hiện đúng tiến độ
- Chủ trì: GS.TS Nguyễn Thúc Hải Lần 2 05/05/2008 - Đề tài và các nhánh đã thực hiện các nhiệm
vụ theo đúng tiến độ đăng ký
- Đã sử dụng kinh phí cấp phát một cách hợp
lý
- Chủ trì: GS.TS Nguyễn Thúc Hải
Trang 29Lần 3 13/10/2008 - Đề tài hoàn thành tốt các nhiệm vụ chuyên
môn
- Tiến độ thực hiện theo đúng kế hoạch
- Chủ trì: GS.TS Nguyễn Thúc Hải Lần 4 09/04/2009 - Thực hiện đúng tiến độ
- Lưu ý để nghiệm thu cấp cơ sở
- Chủ trì: GS.TS Nguyễn Thúc Hải III Nghiệm thu cơ
Trang 30MỤC LỤC
MỞ ĐẦU: TÓM TẮT VỀ ĐỀ TÀI 32 MỤC TIÊU ĐỀ TÀI 33 TỔNG QUAN TÌNH HÌNH NGHIÊN CỨU TRONG VÀ NGOÀI NƯỚC 35 CHƯƠNG 1 XỬ LÝ TIẾNG NÓI VÀ KẾT QUẢ 40 1.1 Kết quả nghiên cứu về Tổng hợp và Nhận dạng tiếng Việt 40
1.1.1 Khảo sát về ngữ âm tiếng Việt 40 1.1.2 Nghiên cứu cải tiến cho PSOLA 43 1.1.3 Nghiên cứu và phát triển phương pháp Tổng hợp tiếng nói dựa trên mô hình Markov ẩn (HMM-based TTS) 54 1.1.4 Tài liệu tham khảo 60
1.2 Hệ thống Tổng hợp tiếng nói cho người khiếm thị SP1.1 61
1.2.1 Chuyển mã chữ thường sang mã chữ nổi sử dụng Dbtw 61 1.2.2 Chuyển đổi mã và in chữ nổi sử dụng duxbury 62 1.2.3 Tích hợp bộ module Tổng hợp tiếng Việt vào bộ soạn thảo Unikey cho Ms Word 63 1.2.4 Tài liệu tham khảo 63
1.3 Hệ thống tổng hợp tiếng nói, tích hợp cho các cổng tiếng nói SP1.2 63
1.3.1 Tích hợp Module đọc tiếng Việt cho hệ thống cổng thoại 63 1.3.2 Tính năng và mô hình của hệ thống 63 1.3.3 Mô phỏng hoạt động cụ thể của hệ thống 64 1.3.4 Tài liệu tham khảo 67
1.4 Hệ thống đối thoại sử dụng công nghệ tổng hợp và nhận dạng tiếng tiếng Việt trên môi trường thiết bị di động dòng công nghệ mới SP1.3 69
1.4.1 Mục tiêu của nhận dạng tiếng Việt 69 1.4.2 Phát triển hệ thống nhận dạng chuỗi số, tên người và lệnh điều khiển trong môi trường độ
ồn thấp 69 1.4.3 Tài liệu tham khảo 80
1.5 Hệ thống giám sát và điều khiển quá trình sử dụng kỹ thuật nhận dạng tiếng Việt SP1.4 81
1.5.1 Trích trọn các đặc trưng âm học 81 1.5.2 Nhận dạng thanh điệu 81 1.5.3 Mô hình âm học: Các tham số và huấn luyện 82 1.5.4 Thích nghi theo người nói 82 1.5.5 Giao diện đồ họa và tích hợp vào hệ điều hành 83 1.5.6 Khai thác các thư viện phần mềm 83 1.5.7 Xây dựng hệ thống trên các modul : Phần mềm Hoa Sen 84 1.5.8 Hoạt động của hệ thống, tài liệu hướng dẫn 84 1.5.9 Đánh giá 87 1.5.10 Tài liệu tham khảo 90
1.6 Hệ thống phân tích luồng âm thanh SP1.5 91
1.6.1 Giới thiệu 91 1.6.2 Phương pháp nghiên cứu và kết quả 92 1.6.3 Tài liệu thiết kế, quy trình sản phẩm 92 1.6.4 Kết quả đánh giá sản phẩm 104 1.6.5 Tài liệu tham khảo 104
1.7 Xây dựng các kho ngữ liệu cho tổng hợp và nhận dang tiếng Việt SP6.x 105
1.7.1 Giới thiệu 105 1.7.2 Quy trình xây dựng 1 CSDL tiếng nói 105 1.7.3 Cấu trúc CSDL dữ liệu tiếng nói 105
Trang 311.7.4 Lựa chọn giọng đọc 106 1.7.5 Nhận dạng chính tả 106 1.7.6 Quy tắc phiên âm cho CSDL 107 1.7.7 Nguyên tắc gán nhãn 111 1.7.8 Tài liệu tham khảo 113
CHƯƠNG 2 XỬ LÝ VĂN BẢN VÀ KẾT QUẢ 114 2.1 Từ điển tiếng Việt dùng cho Xử lý ngôn ngữ tự nhiên (viết tắt là VCL) SP7.2 115
2.1.1 Giới thiệu 115 2.1.2 Phương pháp nghiên cứu và kết quả 116 2.1.3 Tài liệu thiết kế, quy trình sản phẩm 120 2.1.4 Kết quả đánh giá sản phẩm 121 2.1.5 Tài liệu tham khảo 122
2.2 Kho ngữ liệu câu tiếng Việt có chú giải (VieTreeBank) SP7.3 123
2.2.1 Giới thiệu 123 2.2.2 Phương pháp nghiên cứu và kết quả 124 2.2.3 Tài liệu thiết kế, qui trình sản phẩm 126 2.2.4 Tài liệu tham khảo 130
2.3 Hai kho ngữ liệu câu Anh - Việt phổ quát và chuyên ngành SP7.4 132
2.3.1 Giới thiệu 132 2.3.2 Phương pháp nghiên cứu và kết quả 133 2.3.3 Khai thác dữ liệu song ngữ từ Internet 138 2.3.4 Kết quả đạt được 139 2.3.5.Tài liệu tham khảo 146
2.4 Hệ phân tách từ Việt SP8.2 149
2.4.1 Giới thiệu 149 2.4.2 Phương pháp nghiên cứu và kết quả 151 2.4.3 Tài liệu thiết kế, quy trình sản phẩm 153 2.4.5 Kết quả đánh giá sản phẩm 157 2.4.6 Tài liệu tham khảo 159
2.5 Hệ phân loại từ Việt SP8.3 161
2.5.1 Bài toán gán nhãn từ loại 161 2.5.2 Phương pháp nghiên cứu và kết quả 163 2.5.3 Tài liệu thiết kế, qui trình sản phẩm 166 2.5.4 Kết quả đánh giá sản phẩm 169 2.5.5 Tài liệu tham khảo 173
2.6 Hệ phân cụm từ Việt SP8.4 174
2.6.1 Giới thiệu 174 2.6.2 Phương pháp nghiên cứu 175 2.6.3 Kết quả của sản phẩm 181 2.6.4 Tài liệu tham khảo 185
2.7 Hệ phân tích cú pháp tiếng Việt SP8.5 187
2.7.1 Bài toán phân tích cú pháp 187 2.7.2 Mục tiêu, phương pháp tiếp cận 188 2.7.3 Phương pháp nghiên cứu và kết quả 189 2.7.4 Tài liệu thiết kế, qui trình sản phẩm 191 2.7.5 Kết quả đánh giá sản phẩm 193 2.7.6 Tài liệu tham khảo 197
CHƯƠNG 3 CÁC KẾT QUẢ NGHIÊN CỨU, ĐÀO TẠO VÀ HỢP TÁC QUỐC TẾ.199 KẾT LUẬN VÀ KIẾN NGHỊ 204
Trang 32MỞ ĐẦU: TÓM TẮT VỀ ĐỀ TÀI
Đề tài được thực hiện trong 2 năm, trên cơ sở xây dựng một dự án dài hơi cho xử lý tiếng nói và văn bản tiếng Việt, ít nhất là 5 năm kể từ 2006-2010 Tuy vậy, theo quyết định chung của chương trình KC01/06-10, đề tài được thực hiện trong 2 năm,
vì vậy đề tài đã phải hạn chế một số đầu công việc và sản phẩm
Đặc điểm chính của đề tài là:
(1) Đối tượng nghiên cứu là các loại dữ liệu phức tạp (tiếng nói và chữ viết) với đặc thù của tiếng Việt đòi hỏi phải có tiếp cận phù hợp và hiệu qủa;
(2) Thực hiện một khối lượng công việc rất lớn, bao gồm vừa nghiên cứu cơ bản
để tìm ra phương pháp mới, vừa phát triển sản phẩm định hướng sử dụng cho người dùng cuối với giao diện tiếng nói, vừa xây dựng tài nguyên, công cụ dùng cho chính đề tài và dùng lâu dài của cả cộng đồng;
(3) Có sự tham gia của 08 cơ quan khắp trong Nam ngoài Bắc và ở nước ngoài (phần lớn các tập thể và cá nhân làm nghiên cứu, phát triển về xử lý ngôn ngữ và xử lý tiếng nói Việt)
Để đạt mục tiêu làm ra các sản phẩm của đề tài, chúng tôi xác định tiếp cận theo hai khía cạnh: khoa học và quản lý
Các nguyên tắc tiếp cận về khoa học:
(1) Với mỗi sản phẩm, yêu cầu khảo sát để hiểu được các phương pháp chính đã được dùng trên thế giới, phân tích chọn phương pháp hiệu quả và phù hợp với tiếng Việt, học tập các giải pháp và thành bại trong việc xử lý các ngôn ngữ khác, đặc biệt các ngôn ngữ gần với tiếng Việt như tiếng Trung quốc, tiếng Nhật Cách làm này sẽ giúp tránh rủi ro nhầm đường, và rút ngắn thời gian đạt được kết quả mong muốn cho xử lý tiếng Việt
(2) Hướng đến sử dụng rộng rãi các phương pháp học thống kê trên các kho ngữ liệu lớn để thực hiện các sản phẩm, là tiếp cận hiệu quả nhất đã được thừa nhận rộng rãi Đặc biệt Nhóm xử lý băn bản của đề tài nhằm tạo ra các công
cụ và tài nguyên thiết yếu nhất cho việc xử lý văn bản tiếng Việt bằng máy tính Trong thời gian giới hạn 2 năm, điểm chú trọng của đề tài không ở việc làm ra các sản phẩm cuối hoặc kích thước tài nguyên lớn, mà là việc xác định các tiêu chí, cách làm cho đúng và hợp lý để cho giới nghiên cứu và phát triển có thể tiếp tục hoàn thiện (không phải làm lại), sử dụng chúng vào các nghiên cứu khác Các sản phẩm sẽ được để ở dạng mã nguồn mở, có thể tích hợp vào các ứng dụng (việc xác định quyền sở hữu trí tuệ và các điều kiện sử dụng sẽ sớm được xác định) Hy vọng việc này có nhiều ý nghĩa và đóng góp xây dựng "hạ tầng cơ sở" của công việc này
(3) Đánh giá kỹ lưỡng các thiết kế trước khi thực hiện sản phẩm để đảm bảo giá trị sử dụng lâu dài, bền vững và chất lượng của sản phẩm
Trang 33(4) Các sản phẩm được xây dựng dựa trên sự tương hỗ giữa nhóm sản phẩm cho người dùng SP1.x, và nhóm tài nguyên, công cụ SP6, SP7 và SP8 Đề tài sẽ tiếp cận theo kiểu “làm mịn dần” (refinement approach) để các sản phẩm cho người dùng từng bước được nâng chất lượng tương ứng với sự tiến bộ về chất lượng và kích thước của các kho ngữ liệu và công cụ Ngược lại các công cụ và kho ngữ liệu sẽ được điều chỉnh theo đánh giá thử nghiệm của người phát triển nhóm sản phẩm kia
Các nguyên tắc tiếp cận về quản lý:
(1) Hai người chịu trách nhiệm chính của hai hướng nghiên cứu và sản phẩm: phần xử lý tiếng nói và phần xử lý văn bản
(2) Mỗi sản phẩm được giao cho một nhóm 2-3 người phụ trách không thuộc cùng một cơ quan, trong đó một người chịu trách nhiệm chính Kinh phí và trách nhiệm sẽ được giao trực tiếp cho nhóm phụ trách sản phẩm thông qua
cơ quan Nhóm phụ trách sẽ xác định thành viên thực hiện qua bàn bạc với phụ trách đề tài nhánh, lãnh đạo cơ quan chủ quản
(3) Có sinh hoạt chuyên môn của các tập thể thực hiện trong Đề tài giữa kỳ (khối xử lý văn bản 4 kỳ, nhóm tiếng nói có tổ chức xemine khoa học thường xuyên) để đánh giá tiến độ và đánh giá chất lượng sản phẩm qua sinh hoạt học thuật Các sản phẩm có báo cáp tiến độ 6 tháng / lần
MỤC TIÊU ĐỀ TÀI
Mục tiêu1: Nghiên cứu và xây dựng một số sản phẩm tiêu biểu về xử lý tiếng
nói và văn bản tiếng Việt, nhằm cho đông đảo người sử dụng máy tính và Internet
Mục tiêu2: Xây dựng các tài nguyên và công cụ thiết yếu nhất cho xử lý tiếng
nói và văn bản tiếng Việt, nhằm thực hiện mục tiêu 1 và dùng cho nghiên cứu-phát triển lâu dài
Những mục tiêu đặt ra yêu cầu cộng đồng nghiên cứu trong lĩnh vực này phải theo đuổi lâu dài và từng bước đạt những kết quả mang tính kế thừa, kể cả đối với xây dựng tài nguyên, công cụ lẫn phát triển các sản phẩm đầu cuối Để đạt được những mục tiêu trên, phải tính được lộ trình của từng giai đoạn và xác định tính kế thừa của nó
Phân tích và thiết kế trong giai đoạn 5 năm thực hiện, bao gồm các sản phẩm sau:
Trang 34Trong giai đoạn 5/2007 – 5/2009, các sản phẩm của đề tài do thời gian hạn chế chỉ, nên tập trung vào một số sản phẩm, tài nguyên và công cụ sau, và một số sản phẩm về xử lý tiếng nói cho người dùng cuối:
Trang 35TÌNH HÌNH NGHIÊN CỨU TRONG VÀ NGOÀI NƯỚC
Các đặc điểm nghiên cứu, phát triển và tình hình công nghệ trên thế giới liên quan đến đề tài nói chung và các sản phẩm cụ thể của đề tài nói riêng là:
Vai trò vượt trội của các phương pháp học thống kê trên các kho ngữ liệu lớn trong xử lý tiếng nói và văn bản: Nhiều lý thuyết và kỹ thuật đã ra đời và được thử nghiệm hơn nửa thế kỷ qua như các mô hình hữu hạn trạng trái (finite state models), tiêu biểu là mô hình Markov ẩn (HMM) Sự thành bại của các phương
pháp khác nhau đã chứng tỏ vai trò vượt trội của các phương pháp học thống kê
trên các kho ngữ liệu lớn (corpora) Gần đây, đã có sự thừa nhận rộng rãi rằng chất lượng của các kho ngữ liệu cùng sự thích hợp của các phương pháp học thống kê là các yếu tố chính của sự thành công trong hầu hết các giai đoạn của xử
lý tiếng nói và văn bản Xu thế này đã làm cho xử lý tiếng nói và văn bản – vốn tách riêng từ các năm 1960 − gặp lại nhau trên cùng một lộ trình Nhiều mô hình gần đây tiếp tục ra đời, huấn luyện được trên các kho ngữ liệu lớn, có hiệu quả cao như Maximum Entropy Markov Model (MEMM, 2000), Conditional Random Fields (CRF, 2001), … Nhiều kho ngữ liệu được xây dựng (tiếng Anh) tiêu biểu
là Penn Treebank, WordNet, MUC, vv
Internet và truyền thông nhanh chóng thúc đẩy các nhu cầu và công nghệ mới: Một đặc điểm nổi bật trên thế giới trong một số năm qua là sự bùng nổ các lĩnh vực khoa học-công nghệ mới liên quan đến Internet và Web, như tìm kiếm và trích chọn thông tin trên Web, khai phá văn bản, Web ngữ nghĩa, E-learning, E-
Commerce,… Công nghệ xử lý ngôn ngữ gắn với khai thác Internet là một con
đường để người dân mỗi quốc gia, đặc biệt các nước không dùng phổ thông tiếng Anh như Việt Nam, sử dụng được nguồn thông tin toàn cầu Công nghệ truyền thông đang thúc đẩy các nghiên cứu chuyển tiếng nói thành văn bản (nhận dạng tiếng) hay văn bản thành tiếng nói (tổng hợp tiếng) vào các sản phẩm truyền thông
Tình hình các nước xung quanh: Nhiều quốc gia ở châu Á hay trong khu vực đã đầu tư lớn cho nghiên cứu xử lý tiếng nói và ngôn ngữ của họ Nhật bản đã có truyền thống nhiều chục năm trong lĩnh vực này, với các dự án lớn như Viện từ điển điện tử EDR (1982-1992), cùng giai đoạn với đề án máy tính thế hệ thứ năm FGCS (1982-1992) Cũng từ giữa các năm 1980, Nhật bản đã chủ trì và tài trợ một đề án dịch máy giữa một số ngôn ngữ châu Á với sự tham gia của Nhật bản, Trung Quốc, Malaysia, Thailand và Indonesia Đề án này đã không đạt được kết quả mong muốn Đáng chú ý là vào cuối 2005, Nhật bản lại chuẩn bị khởi động và đầu tư cho một dự
án dịch máy giữa một số nước châu Á mà nòng cốt là công ty Fujitsu dưới quản lý của Bộ Nội vụ và Truyền thông (Ministry of Internal Affairs and Communication, MIC), và Việt Nam có thể là một nước thành viên (chúng tôi đã có tiếp xúc ban đầu) Trung quốc cũng đầu tư lớn cho nghiên cứu xử lý tiếng nói và văn bản tiếng Hoa, như dịch Anh-Hoa, Nhật-Hoa, vv Chinese Treebank, Wordnet đã hoàn thành cho tiếng Trung quốc với các chú giải ngữ pháp đầy đủ Hiện nay, bắt đầu từ năm
2005, A-STAR (Asian Speech Translation Advanced Research Consortium) với
Trang 36mục tiêu xây dựng các hệ thống dịch tiếng nói sang tiếng nói thông qua mạng máy tính trong khu vực Châu Á, tổ chức nghiên cứu tiên tiến về dịch tiếng nói các nước Châu Á (A-STAR) đã được thành lập vào tháng 06 năm 2006 bởi trung tâm NICT/ATR (Nhật Bản) Mạng lưới A-STAR ban đầu có 6 thành viên: Nhật Bản, (NICT/ATR), Hàn Quốc (ETRI), Thái Lan (NECTEC), Indonesia (BPPT), Trung Quốc (NLPR-CASIA), và Ấn Độ (CDAC) Trong năm 2008, Việt Nam (cụ thể là Phòng Nhận dạng và Công nghệ tri thức, Viện Công nghệ thông tin) và Singapore (I2R) cũng đã gia nhập vào mạng lưới này A-STAR được thành lập tạo ra một cơ
sở hạ tầng cơ bản cho việc giao tiếp ngôn ngữ nói để vượt qua những rào cản ngôn ngữ trong khu vực các nước Châu Á-Thái Bình Dương A-STAR làm việc theo phương pháp cộng tác để thu thập ngữ liệu các ngôn ngữ Châu Á, tạo ra hệ nhận dạng tiếng nói chung và các từ điển dịch, phát triển các mô hình dịch tiếng nói dựa trên dịch vụ Web cho các ngôn ngữ, chuẩn hóa giao diện và định dạng dữ liệu cho việc kết nối các mô hình dịch tiếng nói theo tiêu chuẩn quốc tế A-STAR hướng tới tạo ra một nhóm chuyên gia về APT ASTAP (chương trình chuẩn hóa giao tiếp từ
xa các nước Châu Á – Thái Bình Dương) để phát triển một đề án với một giao diện chuẩn và định dạng dữ liệu, cho phép kết nối các mô hình dịch tiếng nói trong khu vực Châu Á-Thái Bình Dương thông qua mạng Internet Trong quá trình nghiên cứu các ngôn ngữ có những tương đồng với tiếng Việt của những nền khoa học phát triển, ta có thể học được nhiều từ thành bại của các kỹ thuật xử lý tiếng nói và ngôn ngữ họ đã sử dụng
Trong nước
Hai đặc điểm chung nổi bật nhất của tình hình trong nước là:
Trong hai năm qua, so sánh với đánh giá về tình hình trong nước khi đăng ký đề tài, tuy không có những kết quả mang tính nhảy vọt nhưng có thể thấy rằng số lượng những người quan tâm trong hướng nghiên cứu về xử lý ngôn ngữ tự nhiên
và tiếng nói ngày càng gia tăng, đặc biệt về xử lý ngôn ngữ tự nhiên Điều này thể hiện qua số lượng các sinh viên và sinh viên cao học đăng ký làm khóa luận tốt nghiệp, các khóa giảng trong chương trình cao học tại các Đại học, các bài báo cáo tại các Hội thảo quốc gia… Một số doanh nghiệp đã có những theo đuổi lâu dài về ngôn ngữ tiếng Việt nói chung vẫn tiếp tục theo đuổi và cho ra mắt một số sản phẩm về dịch máy như Lạc Việt http://www.vietgle.vn/beta/default.aspx., một số Công ty khác như Tinh Vân cũng cho ra đời sản phẩm dịch dựa trên luật
http://dich.xalo.vn/, Công ty VIEGRID http://www.viegrid.com/Home/ vừa cho ra mắt sản phẩm phần mềm BOCOHAN hỗ trợ biên dịch Anh – Việt, bộ công cụ Việt soát lỗi tiếng Việt trong văn bản, công cụ giúp người sử dụng tự xây dựng tài nguyên phù hợp với công việc Google cũng đã thêm tiếng Việt vào hệ dịch máy
mở của mình Hiện tại cũng chưa có những phản hồi hoặc các nghiên cứu thống kê đánh giá về độ tin cậy trong sử dụng của các sản phẩm này, nhưng nó cũng đã chứng tỏ nhu cầu sử dụng và mối quan tâm của xã hội
Trường Đại học Khoa học Tự nhiên, ĐHQG-HCM cũng chủ trì để tài cấp nhà nước
Trang 37“Nghiên cứu, xây dựng một số hệ thống khai thác thông tin đa phương tiện có hỗ trợ tiếng Việt” mã số KC.01.16/06-10 Đề tài này có hai nhánh Nhánh thứ nhất nghiên cứu xây dựng cơ sở tri thức Anh-Việt phục vụ việc tìm kiếm xuyên ngữ Anh-Việt có hỗ trợ ngữ nghĩa Nhánh thứ hai xây dựng hệ thống tìm kiếm dữ liệu video dựa trên công nghệ nhận dạng tiếng nói và xử lý hình ảnh Trường ĐH Khoa học Tự nhiên, ĐHQG-HCM cũng chủ trì đề tài cấp trọng điểm ĐHQG “Xây dựng
hệ thống tổng hợp tiếng nói tiếng Việt dựa trên việc ghép nối các đơn vị ngữ âm cơ sở”, là nghiên cứu ban đầu nhằm tiến tới công nghệ tổng hợp tiếng nói tiếng Việt theo cách tiếp cận dựa trên kho ngữ liệu – mà hiện nay Đề tài chúng tôi đã thực hiện thành công Trường ĐH Khoa học Tự nhiên, ĐHQG-HCM cũng đã chủ trì đề tài nghiên cứu cơ bản (NCCB) “Nghiên cứu cơ sở cho bài toán dịch máy Anh-Việt theo phương pháp BTL” và chủ trì đề tài cấp Thành phố Hồ Chí Minh về dịch máy Anh-Việt Ngoài ra còn có thể kể thêm một số nhóm nghiên cứu về xử lý tiếng nói ở
ĐH Bách Khoa Hà Nội, về dịch máy của ĐH Bách Khoa Tp.HCM
Điều quan trọng là đã có một lực lượng vài chục cán bộ nghiên cứu về xử lý tiếng Việt tại nhiều cơ quan trên cả nước Họ có kiến thức, có ít nhiều kinh nghiệm, có mong muốn và hy vọng đẩy được hướng nghiên cứu, phát triển này lên, và đặc biệt
ý thức được sự hạn chế của tình hình nghiên cứu, phát triển về xử lý tiếng Việt Trong giai đoạn 2006-2010, đã và sẽ có thêm khoảng một hai chục nghiên cứu sinh trong và ngoài nước tốt nghiệp về chuyên ngành này Riêng trong đề tài, do có 8 đơn vị tham gia phối hợp thực hiện, đã có 5 Tiến sĩ đã tốt nghiệp về xử lý ngôn ngữ
tự nhiên liên quan đến tiếng Việt và xử lý tiếng nói Một số Đại học có truyền thống theo đuổi các nghiên cứu về xử lý tiếng nói và văn bản một số năm qua vẫ đang tiếp tục cùng với khả năng bổ sung lực lượng như: Đại học Bách khoa Hà Nội, Đại học Bách Khoa và Đại học Khoa hoc Tự nhiên TpHCM (ĐHQG TpHCM), Đại học Khoa học Tự nhiên và Trường Công nghệ (ĐHQGHN), Trung tâm nghiên cứu đa phương tiện, truyền thông và ứng dụng MICA, Trung tâm Từ điển, Viện Ứng dụng Công nghệ (Bộ KH&CN), Viện Công nghệ Thông tin (Viện KH&CN VN), … Với các kết quả hiện tại có cơ sở khoa học, là bước khởi đầu tốt cho việc xác định các nhiệm vụ chuyên sâu cho giai đoạn tiếp theo
Các kỹ thuật đã sử dụng
Kỹ thuật liên quan đến các sản phẩm xử lý tiếng nói của đề tài:
• Về tổng hợp tiếng nói: 3 phương pháp tổng hợp tiếng nói để có thể áp dụng cho tiếng Việt: (1) ghi âm thuần tuý (cho toàn bộ từ điển); (2) kết nối các đơn
vị âm cơ bản của ngôn ngữ (các âm cơ bản được ghi sẵn) để tạo thành một mẫu âm thanh cho âm tiết bất kỳ (số đơn vị cơ bản là rất nhỏ, không hạn chế
số lượng từ), (3) tái tạo lại tiếng trên cơ sơ phân tích các tham số âm học của tiếng nói (như các phooc măng, tần số cơ bản) Tổng hợp thanh điệu trong các ngôn ngữ có thanh điệu yêu cầu có một mô hình âm học và sinh học phù hợp
Trang 38ngôn ngữ có thanh điệu Hiện tại một phương pháp mới nổi lên và đã chứng tỏ
có nhiều ưu việt, đó là phương pháp tổng hợp dựa trên Mô hình Markov ẩn trên cơ sở học tham số từ dữ liệu, đề tài đã nghiên cứu và cài đặt thành công cho tổng hợp tiếng Việt và mặc dù không được đăng ký trong nội dung nghiên cứu của Đề tài lúc ban đầu Ưu điểm nổi bật của phương pháp tổng hợp dựa trên HMM là cho phép sinh tiếng nói từ tham số, dễ dàng thay đổi đặc điểm giọng nói, dễ áp dụng cho các ngôn ngữ khác nhau Khi áp các mô hình để nâng cao độ tự nhiên của tiếng nói tổng hợp là có cơ sở toán học, khi các tham
số của mô hình được đánh giá thống kê trên cơ sở dữ liệu văn bản và được đưa vào tính toán
• Về nhận dạng tiếng nói: Các phương pháp mô hình Markov ẩn, mạng nơ ron nhân tạo vẫn là các phương pháp kinh điển và tỏ ra có hiệu quả trong nhận dạng tiếng nói Tuy nhiên với từng ngôn ngữ, việc trích chọn các đặc trưng phù hợp cho nhận dạng là vấn đề cốt lõi Ví dụ như đối với các ngôn ngữ có thanh điệu, việc nhận dạng thanh điệu đóng vai trò quan trọng để nâng cao độ chính xác của các hệ thống nhận dạng từ vựng cỡ trung bình và lớn Ngoài ra, một vấn đề quan trọng khác là cải tiến tốc độ nhận dạng trong việc làm giảm không gian tìm kiếm, đặc biệt trong những môi trường có tài nguyên hạn chế như các ứng dụng nhúng Đề tài đã nghiên cứu và cài đặt thành công các phương pháp dựa trên cây từ vựng và bước đầu nghiên cứu WFST – Weighted Finite State Tranducer – Mô hình hữu hạn trạng thái có trọng số
Kỹ thuật liên quan đến các sản phẩm xử lý văn bản của đề tài:
• Tài nguyên và công cụ của xử lý tiếng nói và văn bản: Tất cả các nước đều đầu tư vào xây dựng các kho ngữ liệu của tiếng nói và ngôn ngữ của mình, xem như việc xây dựng hạ tầng cơ sở Nhiều kho ngữ liệu đã được phổ biến
và xử dụng rộng rãi như MUC, Penn Treebank, Medline, ACL, WordNet, Protégé, …
Cũng như con người, để có thể dịch một văn bản từ ngôn ngữ này sang ngôn ngữ khác, máy cần có một từ điển song ngữ tương ứng, và mộtt từ điển giải nghĩa Các hệ thống dịch chất lượng đều cần những từ điển như vậy (machine readable dictionary)
Phân loại từ (còn gọi là gán nhãn từ loại – part-of-speech tagging) là một trong những nhiệm vụ cơ bản tạo tiền đề cho các nghiên cứu mức cao hơn trong xử
lý ngôn ngữ tự nhiên nói chung và xử lý tiếng Việt nói riêng Trong những năm gần đây, phân loại từ cho các ngôn ngữ phổ dụng như tiếng Anh, Pháp, Đức, Trung Quốc, đã đạt được kết quả cao nhờ vào sự tiến bộ của tính toán thống kê mà cụ thể hơn là các phương pháp xây dựng các mô hình phân lớp, đoán nhận dựa trên các tập ngữ liệu lớn Một thí dụ cụ thể là phân loại từ tiếng Anh đã đạt độ chính xác 97.24% nhờ vào một mô hình thống kê trên gần một triệu lượt từ và kiểm thử trên 150.000 lượt từ của World Street Journal (Penn TreeBank Corpus)
Trang 39• Về dịch máy: Cùng với các phương pháp dịch máy dựa trên các lý thuyết
ngôn ngữ (linguistic-based machine translation), hai thập kỷ vừa qua đã chứng
kiến sự ra đời và kết quả của các phương pháp không dựa trên lý thuyết ngôn
ngữ (non-linguistic-based paradigms) Tiêu biểu cho tiếp cận này là các
phương pháp dựa trên thống kê (stastical-based machine translation, SBMT) khởi đầu bởi IBM vào cuối những 1980s, và phương pháp dựa trên thí dụ (example-based machine translation) đề xuất bởi Nagao vào năm 1984 Các phương pháp này phụ thuộc rất nhiều vào sự tồn tại và chất lượng của các kho ngữ liệu
Cũng từ thập kỷ 1980, phương pháp song ngữ (Martin Kay và Martin Roscheisen, 1987) được đưa vào sử dụng trong dịch máy dựa trên thống kê Từ
đó đến nay, đã có nhiều phương pháp liên kết văn bản song ngữ ra đời, liên kết trên các cấp độ: đoạn, câu, từ, ngữ,… Gần đây, ngữ liệu song ngữ được sử dụng nhiều trong các hệ thống dịch máy dựa trên thống kê (SBMT), theo kiểu dựa trên thí dụ EBMT (example-based machine translation) hoặc trong các hệ trợ giúp phiên dịch HAMT (human-aided MT)
Ngoài ra, các phương pháp học máy (machine learning) đã được áp dụng rộng rãi trên những kho ngữ liệu song ngữ để rút ra các qui luật tương đồng và dị biệt giữa các cặp ngôn ngữ ở các cấp độ khác nhau (từ, ngữ, câu, ), trên các khía cạnh khác nhau (hình thái, ngữ pháp, ngữ nghĩa, ) Các tiếp cận này đã chứng tỏ được hiệu quả cao, đặc biệt khi cộng đồng nghiên cứu xây dựng được nhiều kho ngữ liệu hơn, và các máy tính hiệu năng cao ngày càng trở nên phổ biến Mặc dù không nằm trong đăng ký, nhưng dịch tự động dựa trên phương pháp thống kê cũng đã được thử nghiệm trên cơ sở các kho ngữ liệu song ngữ được xây dựng trong Đề tài
Trang 40
CHƯƠNG 1 XỬ LÝ TIẾNG NÓI VÀ KẾT QUẢ
1.1 Kết quả nghiên cứu về Tổng hợp và Nhận dạng tiếng Việt
1.1.1 Khảo sát về ngữ âm tiếng Việt
Để có thể tiến hành nghiên cứu về tổng hợp cũng như nhận dạng tiếng Việt, đề tài ban đầu phải tập trung vào nghiên cứu các khía cạnh ngữ âm của tiếng Việt Tiếng Việt là ngôn ngữ đơn âm (monosyllable) và có thanh điệu (tonal) Tiếng Việt
có 6 thanh theo truyền thống (thanh không, hỏi, ngã, nặng, sắc, huyền), và 8 thanh theo ngữ âm học, có khoảng 6.700 âm tiết có nghĩa (trong số hơn 19.000 âm tiết có thể) Âm tiết nào của tiếng Việt cũng mang một thanh điệu và cấu trúc ổn định Cấu trúc tổng quát của âm tiết tiếng Việt được trình bày như sau
Cấu trúc tổng quát của một âm tiết tiếng Việt là (C1)(w)V(C2) Trong đó C1 là phụ âm đầu, (w) là âm đệm, V là âm chính và C2 là âm cuối Âm đầu thường là phụ
âm, được gọi là phụ âm đầu Âm đệm nằm giữa âm đầu và âm chính làm thay đổi
âm sắc của âm tiết Âm chính luôn luôn có mặt trong mọi âm tiết và có chức năng qui định âm sắc chủ yếu của âm tiết Âm chính luôn là nguyên âm Âm cuối là phụ
âm hoặc là bán nguyên âm, có chức năng là cơ sở để phân chia loại hình âm tiết, để nhận ra sự phân bố, xuất hiện của thanh điệu Âm đầu, âm đệm và âm cuối có thể khuyết trong một số trường hợp Thanh điệu luôn có mặt trong âm tiết và có chức năng khu biệt âm tiết về cao độ và thanh điệu là yếu tố siêu đoạn tính
Tiếng Việt gồm 22 phụ âm đầu, 20 phần chính (âm đệm và nguyên âm chính) và
155 phần vần không dấu
Âm vị và các hệ thống âm vị tiếng Việt
Âm vị là đơn vị tối thiểu của hệ thống ngữ âm của một ngôn ngữ dùng để cấu tạo và phân biệt vỏ âm thanh của các đơn vị có nghĩa của ngôn ngữ Âm vị còn có thể được coi là một chùm hoặc một tổng thể đặc trưng các nét khu biệt được thể hiện đồng thời
Phân biệt âm tố với âm vị Biến thể của âm vị
Âm vị là một đơn vị trừu tượng còn âm tố là một đơn vị cụ thể Âm vị được thể hiện ra bằng các âm tố và âm tố là sự thể hiện của âm vị Những âm tố cùng thể hiện một âm vị được gọi là các biến thể của âm vị