Nghiên cứu phát triển một số sản phẩm thiết yếu về xử lý tiếng nói và văn bản tiếng việt

Quốc tế về tiếng nói tại Châu Âu hoặc Mỹ seminar khoa học về Đề tài và những nghiên cứu liên quan đến dịch các ngôn ngữ nói, tại Trung tâm Nghiên cứu Quốc tế về Công nghệ truyền thông t

Trang 1

BỘ KHOA HỌC VÀ CÔNG NGHỆ VIỆN CÔNG NGHỆ THÔNG TIN

CHƯƠNG TRÌNH KHCN CẤP NHÀ NƯỚC KC01/06-10

BÁO CÁO TỔNG HỢP KẾT QUẢ KHOA HỌC CÔNG NGHỆ ĐỀ TÀI NGHÊN CỨU PHÁT TRIỂN MỘT SỐ SẢN PHẨM

THIẾT YẾU VỀ XỬ LÝ TIẾNG NÓI

VÀ VĂN BẢN TIẾNG VIỆT

MÃ SỐ: KC 01.01/06-10

Cơ quan chủ trì đề tài:

Viện Công nghệ thông tin, Viện Khoa học và Công nghệ Việt Nam Chủ nhiệm đề tài: PGS.TS Lương Chi Mai

Trang 2

BỘ KHOA HỌC VÀ CÔNG NGHỆ VIỆN CÔNG NGHỆ THÔNG TIN

CHƯƠNG TRÌNH KHCN CẤP NHÀ NƯỚC KC01/06-10

BÁO CÁO TỔNG HỢP KẾT QUẢ KHOA HỌC CÔNG NGHỆ ĐỀ TÀI NGHÊN CỨU PHÁT TRIỂN MỘT SỐ SẢN PHẨM

THIẾT YẾU VỀ XỬ LÝ TIẾNG NÓI

VÀ VĂN BẢN TIẾNG VIỆT

MÃ SỐ: KC 01.01/06-10

Chủ nhiệm đề tài Cơ quan chủ trì đề tài

PGS.TS Lương Chi Mai PGS.TS Vũ Đức Thi

Ban chủ nhiệm chương trình Bộ Khoa học và Công nghệ

GS.TS Nguyễn Thúc Hải

Trang 3

VIỆN CÔNG NGHỆ THÔNG TIN

VIỆN KHOA HỌC VÀ CÔNG NGHỆ

VIỆT NAM

CỘNG HOÀ XÃ HỘI CHỦ NGHĨA VIỆT NAM

Độc lập - Tự do - Hạnh phúc

Hà nội, ngày 28 tháng 07 năm 2009.

BÁO CÁO THỐNG KÊ KẾT QUẢ THỰC HIỆN ĐỀ TÀI

I THÔNG TIN CHUNG

1 Tên đề tài: Nghiên cứu và phát triển một số sản phẩm thiết yếu về

tiếng nói và văn bản tiếng Việt

Mã số đề tài: KC01.01/06-10

Thuộc:

Chương trình (tên, mã số chương trình): Nghiên cứu phát triển

và ứng dụng Công nghệ thông tin và Truyền thông, mã số KC01

2 Chủ nhiệm đề tài:

Họ và tên: Lương Chi Mai Ngày, tháng, năm sinh: 30/04/1958 Nữ: Học hàm, học vị: PGS.TS

Chức danh khoa học: Nghiên cứu viên chính

Chức vụ: Trương Phòng chuyên môn, Phó Viện trưởng Điện thoại: Tổ chức: 04-37563559, Nhà riêng: 04-37163892 Mobile: 0904100610

Fax: 04-37564217 E-mail: lcmai@ioit.ac.vn Tên tổ chức đang công tác: Phòng Nhận dạng và Công nghệ tri thức, Viện Công nghệ thông tin, Viện KHCN VN Địa chỉ tổ chức: 18 Hoàng Quốc Việt, Cầu Giấy, Hà nội Địa chỉ nhà riêng: 14 Phan Huy Ích, Ba đình, Hà nội

3 Tổ chức chủ trì đề tài:

Tên tổ chức chủ trì đề tài: Viện Công nghệ thông tin, Viện Khoa học và

Trang 4

Điện thoại: 04-37164405 Fax: 04-37564217

E-mail: vanthu@ioit.ac.vn

Website: www.ioit.ac.vn

Địa chỉ: 18 Hoàng Quốc Việt, Cầu Giấy, Hà Nội

Họ và tên thủ trưởng tổ chức: PGS.TS Vũ Đức Thi

Số tài khoản:

Ngân hàng:

Tên cơ quan chủ quản đề tài: Bộ Khoa học và Công nghệ

II TÌNH HÌNH THỰC HIỆN

1 Thời gian thực hiện đề tài:

- Theo Hợp đồng đã ký kết: từ tháng 05/2007 – 05/2009

- Thực tế thực hiện: từ tháng 05/2007 đến tháng 31/08/2009

- Được gia hạn (nếu có):

- Lần 1 từ tháng 05/2009 đến tháng 31/08/2009

- Lần 2

2 Kinh phí và sử dụng kinh phí:

a) Tổng số kinh phí thực hiện: 3.000 tr.đ, trong đó:

+ Kính phí hỗ trợ từ SNKH: 3.000 tr.đ

+ Kinh phí từ các nguồn khác: không

b) Tình hình cấp và sử dụng kinh phí từ nguồn SNKH:

Theo kế hoạch Thực tế đạt được

Số

TT Thời gian (Tháng,

năm)

Kinh phí (Tr.đ)

Thời gian (Tháng, năm)

Kinh phí (Tr.đ)

Ghi chú

(Số đề nghị quyết toán)

Trang 5

c) Kết quả sử dụng kinh phí theo các khoản chi:

Đối với đề tài:

- Lý do thay đổi (nếu có):

3 Các văn bản hành chính trong quá trình thực hiện đề tài/dự án:

(Liệt kê các quyết định, văn bản của cơ quan quản lý từ công đoạn xác định nhiệm vụ, xét chọn,

phê duyệt kinh phí, hợp đồng, điều chỉnh (thời gian, nội dung, kinh phí thực hiện nếu có); văn

bản của tổ chức chủ trì đề tài, dự án (đơn, kiến nghị điều chỉnh nếu có)

Số

TT

Số, thời gian ban

1 22/09/2006 Quyết định số 2089/QĐ-BKHCN ngày 22

tháng 9 năm 2006 của Bộ trưởng Bộ Khoa học và Công nghệ về việc phê duyệt nội dung và kinh phí các đề tài đã trúng tuyển thuộc Chương trình khoa học và công nghệ trọng điểm cấp nhà nước giai đoạn 2006-2010, mã số KC.01.01/06-10;

2 15/5/2007 Hợp đồng “Nghiên cứu phát triển một số

sản phẩm thiết yếu về xử lý tiếng nói và

văn bản tiếng Việt”, mã số KC01.01/06-10

thuộc Chương trình KC.01/06-10 theo các

Trang 6

nội dung trong Thuyết minh Đề tài

10/05/2009 Công văn số 118/CNTT của Viện Công

nghệ thông tin ký ngày 10/05/2009 về việc xin gia hạn thời gian thực hiện đề tài

3 04/06/2009 Quyết định số 917/QĐ-BKHCN về việc

điều chỉnh thời gian thực hiện của đề tài KC01.01/06-10 thuộc chương trình KH&CN trọng điểm cấp nhà nước giai đoạn 2006-2010, mã số KC01/06-10

4 01/04/2009 Quyết định số 481/QĐ BKHCN về việc cử

đoàn đi công tác nước ngoài

5 17/04/2009 Quyết định số 619/QĐ BKHCN về việc cử

đoàn đi công tác nước ngoài

6 15/06/2009 Bản qui chế chi tiêu kinh phí của đề tài

“Nghiên cứu phát triển một số sản phẩm thiết yếu về xử lý tiếng nói và văn bản tiếng Việt”, mã số KC01.01/06-10 giữa lãnh đạo đơn vị chủ trì và chủ nhiệm đề tài

4 Tổ chức phối hợp thực hiện đề tài, dự án:

Nội dung tham gia chủ yếu

Sản phẩm chủ yếu đạt được

1 Viện Công nghệ

thông tin, Viện

KHCN VN

Viện Công nghệ thông tin, Viện KHCN

VN

– Xây dựng Hệ thống tổng hợp tiếng nói cho người khiếm thị – Xây dựng Hệ thống tổng hợp tiếng nói, tích hợp cho các cổng tiếng nói

– Xây dựng Hệ thống đối thoại

sử dụng công nghệ tổng hợp và nhận dạng tiếng tiếng Việt trên môi trường thiết bị di động dòng công nghệ mới

SP1.1 SP1.2 SP1.3

Trang 7

– Xây dựng kho ngữ liệu ngữ

âm cho nhận dạng tiếng Việt – Xây dựng Kho ngữ liệu ngữ

âm cho đọc chữ số tiếng Việt, tên người, địa danh trên môi trường điện thoại

SP6.1 SP6.2 SP6.3

3 Trung tâm

Quốc tế MICA,

ĐHBK HN

Trung tâm Quốc tế MICA, ĐHBK

HN

– Hệ thống giám sát và điều khiển quá trình sử dụng kỹ thuật nhận dạng tiếng Việt

– Hệ thống phân tích luồng âm thanh

SP1.4 SP1.5

4 Trung tâm Từ

điển học, Hà

nội

Trung tâm Từ điển học, Hà nội

– Xây dựng Từ điển từ tiếng

HN

– Xây dựng Kho ngữ liệu câu tiếng Việt được chú giải (Viet Treebank)

– Xây dựng Kho ngữ liệu song ngữ Anh – Việt

HN

- JAIST

– Xây dựng công cụ Phân loại

từ Việt – Xây dựng công cụ Gộp nhóm

từ Việt

SP8.3 SP8.4

8 Khoa CNTT,

Đại học Bách

Khoa Hà nội

Khoa CNTT, Đại học Bách Khoa Hà nội

– Xây dựng công cụ Phân tích

Toán-– Xây dựng công cụ Phân đoạn

Trang 8

5 Cá nhân tham gia thực hiện đề tài, dự án:

(Người tham gia thực hiện đề tài thuộc tổ chức chủ trì và cơ quan phối hợp, không quá 10 người kể cả chủ nhiệm)

Nội dung tham gia chính

Sản phẩm chủ yếu đạt được

Ghi chú*

Tham gia đóng góp cho xây dựng SP1.3

Chủ nhiệm

và SP6.x

Chủ nhiệm, phụ trách phần xử

lý tiếng nói

- Tham gia SP7.2

Phụ trách khối Xử

lý văn bản và SP3

Phụ trách khối Xử

lý văn bản và

3 KS.Ngô Cao

Sơn

KS.Ngô Cao Sơn

Thư ký đề tài Thư ký

Điều hành SP1.4

và SP1.5

sử dụng kỹ thuật nhận dạng tiếng Việt

SP1.4

Trang 9

Yến Công Phương

9 CN.Vũ Xuân

Lương

CN.Vũ Xuân Lương

Nghiên cứu, xây dựng Từ điển từ tiếng Việt cho máy tính

SP7.2

Phương Thái

Xây dựng Kho ngữ liệu câu tiếng Việt được chú giải (Viet Treebank)

SP7.3

11 TS Hồ Bảo

Quốc

TS Hồ Bảo Quốc

Nghiên cứu xây dựng Kho ngữ liệu song ngữ Anh – Việt

SP7.4

12 TS.Nguyễn Thị

Minh Huyền

TS.Nguyễn Thị Minh Huyền

Nghiên cứu, xây dựng công cụ Phân đoạn từ Việt

SP8.2

13 TS Phan Xuân

Hiếu

TS Phan Xuân Hiếu

Nghiên cứu, xây dựng công cụ Phân loại từ Việt

SP8.3

14 TS.Nguyễn Lê

Minh

TS.Nguyễn Lê Minh

Nghiên cứu, xây dựng công cụ Gộp nhóm từ Việt

SP8.4

15 TS Lê Thanh

Hương

TS Lê Thanh Hương

Nghiên cứu, xây dựng công cụ Phân tích câu Việt

SP.8.5

- Lý do thay đổi ( nếu có):

Đề tài tập hợp đội ngũ cán bộ nghiên cứu tại 8 cơ sở khác nhau với 15 nhánh sản phẩm, vì vậy Đề tài kiến nghị Bộ Khoa học và Công nghệ xác nhận danh sách những người thực hiện chính theo các sản phẩm phụ trách như trên Danh sách được sắp xếp theo thứ tự Ban Chủ nhiệm và Thư ký, sau đó theo thứ tự đánh số của phân nhóm theo thiết kế của các sản phẩm Khi đăng ký, chỉ đề 10 người đại diện chính, một cơ sở có thể thực hiện một số Sản phẩm, nên chỉ nêu danh sách người phụ trách, chịu trách nhiệm quản lý, tuy nhiên trong Nội dung chi tiết cũng đã nêu những người thực hiện Hiện tại trong danh sách trên là những người thực hiện chính của từng sản phẩm

1 Tham dự Hội nghị Khoa học – Trao đổi Khoa học, trình bày Theo kế

Trang 10

Quốc tế về tiếng nói tại Châu Âu

hoặc Mỹ

seminar khoa học về Đề tài và những nghiên cứu liên quan đến dịch các ngôn ngữ nói, tại Trung tâm Nghiên cứu Quốc tế về Công nghệ truyền thông tiến tiến InterACT (International Center for Advanced Communication Technologies), Đại học Carnegie Mellon, Pittsburgh – Trình bày seminar khoa học tại CSLU với các nội dung chủ yếu như đã trình bày trên, có điểm nhấn về khía cạnh ứng dụng của Nhận dạng cho smarrtphone và Tổng hợp tiếng nói cho người khiếm thị (Center

of Spoken Language Understanding – Trung tâm nghiên cứu về hiểu ngôn ngữ nói), Oregon Graduate Instiutute, Portland

– Số lượng người: 01, số lượng đoàn: 01, kinh phí: 36,24 triệu

hoạch

2 Tham dự Hội nghị quốc tế tại

Châu Á – Tham dự hội nghị Quốc tế lần thứ 12

“Oriental-COCOSDA” 10-12/08/2009 về thiết kế, xây dựng, CSDL ngữ

âm và các công cụ đánh giá trong các nước Châu Á, tại Bác Kinh, Trung Quốc,

– Số lượng người: 01, số lượng đoàn: 01, kinh phí: 18,4 triệu.

Theo kế hoạch

3 Tham gia dự án A-STAR ( Asian

Speech Advanced Technology

Research Consortium) ,

Tham gia xây dựng các hệ thống dịch tiếng nói sang tiếng nói thông qua mạng máy tính trong khu vực Châu Á Đã phát triển các engine trong lĩnh vực du lịch

1 Nhận dạng tiếng Việt liên tục

2 Tổng hợp tiêng Việt

3 Dịch tự động Anh – Việt, Việt – Anh

và đã tích hợp vào Hệ thống dịch tiêng nói sang tiếng nói giữa các ngôn ngữ sau: Anh, Nhật, Trung quốc, Hàn, Thái,

Được phát triển trong quá trình thực hiện Đề tài

Trang 11

Indonessia, Ấn độ, Mã lai, Việt Nam

4 Đang triển khai hợp tác với Công

ty Axonite (Hoa kỳ) đưa hệ thống

tổng hợp tiếng Việt – VieTalk

trên nền của VOIP

- Gửi một tin nhắn bằng tiếng nói tổng hợp đến bất kỳ một máy điện thoại để bàn hoặc mobile với nội dung văn bản được soạn trước

- Các ứng dụng tiếp theo trong hợp tác với Công ty Axonite là:

Hệ thống Cổng tiếng nói để trả lời tự động các thông tin được ghi sẵn trong CSDL bằng giọng nói tổng hợp, gửi thông điệp

và tin nhắn bằng tiếng nói trong các ứng dụng của Ngân hàng, Hàng không để chuyển các thông tin tới khách hàng

5 Tham dự Hội thảo Oriental

COCOSDA 2008 (Kyoto), 2009

(Beijing)

Có 02 báo cáp khoa học về Nhận dangjt hanh điệu và xây dựng mạng tìm kiếm

6 Được mời báo cáo về xây dựng

tài nguyên cho NLP tại

International Symposium on

Asian Language Resources

(ALR) tại Thailand,

20-21/03/2009

Có báo cáo mời về tài nguyên văn bản của Đề atif để chia sẻ với cộng đồng

7 TCAST (Technology and Corpora

for Asia-Pacific Speech

Translation, 2009, Singapore

Có 01 báo cáo khoa học về nghiên cứu và phát triển Hệ thống Tổng hợp tiếng Việt dựa trên mô hình Markov ẩn

8 Cử các cán bộ nghiên cứu trẻ

(được tài trợ toàn phần hoặc một

phần) tham dự trường quốc tế

Châu Á về NLP, xử lý tiếng nói,

nhận dạng chữ… tại Thái lan các

năm 2007, 08, 09 (ADD School)

Cử 3 đợt các cán bộ nghiên cứu trẻ trong 3 năm sang tham dự khoa học về xử lý ngôn ngữ tự nhiên và tiếng nói

- Lý do thay đổi (nếu có): Hoàn thành theo Đề cương và thực hiện vượt kế hoạch trong quá trình thực hiện Đề tài

Trang 12

7 Tình hình tổ chức hội thảo, hội nghị:

6-Thực hiện theo

kế hoạch

tổ chức SLTU (Spoken Languages Technologies for Under-resources

Languages), 5-7/5/2008 tại ĐHBK Hà nội

Thực hiện vượt

kế hoạch

8 Tóm tắt các nội dung, công việc chủ yếu:

(Nêu tại mục 15 của thuyết minh, không bao gồm: Hội thảo khoa học, điều tra khảo sát trong nước và nước ngoài)

Người,

cơ quan thực hiện

1 Nghiên cứu và triển khai để xây

trưng của ngữ âm, thanh điệu

và ngôn điệu tiếng Việt

− Nghiên cứu các công nghệ

nhằm tích hợp vào các môi

Trong cả giai đoạn thực hiện đề tài

Viện CNTT MICA

Trang 13

trường ứng dụng: đọc màn

hình cho người khiếm thị, tích

hợp vào cổng tiếng nói, các

thiết bị di động dòng công

nghệ mới, điều khiển thiết bị,

phân tích luồn âm thanh trong

ngôi nhà thông minh…

dựng các kho ngữ liệu ngữ âm cho

− Kho ngữ liệu ngữ âm đặc thù,

mười chữ số tiếng Việt, tên

người, địa danh.

Viện CNTT MICA

dựng các tài nguyên cơ bản cho xử

lý văn bản tiếng Việt

− Từ điển từ tiếng Việt cho máy

tính

− Kho ngữ liệu câu tiếng Việt

được chú giải ngữ pháp (Viet

TreeBank)

Kho ngữ liệu các cặp câu

Anh-Việt được chú giải nghĩa và kho

ngữ liệu các cặp câu song ngữ thô

Anh-Việt

- Trung tâm từ điển học, - Đại học Công nghệ

dựng các công cụ cơ bản của xử

Trong cả giai đoạn thực hiện đề

Trang 14

III SẢN PHẨM KH&CN CỦA ĐỀ TÀI, DỰ ÁN

1 Sản phẩm KH&CN đã tạo ra:

o Thay đổi được tốc độ phát âm

- Nâng cao chất lượng giọng nói tổng hợp so với giai đoạn 2001-2004

o Chất lượng âm tổng hợp ở mức độ âm tiết tốt hơn

- Phân tích và chuyển đổi văn bản tiếng Việt với mã Unicode, VNI thành tiếng nói

- Phát âm chữ cái, dấu thanh, chữ số, các dấu nhảy đơn, nhảy kép, mở ngoặc thành tiếng nói khi người

sử dụng đang gõ văn bản trong Word, Outlook, hoặc một điều khiển sọan thảo bất kỳ của một ứng dụng đang chạy, hỗ trợ tiếng nói khi duyệt Web

- Phát âm bằng tiếng Anh các từ tiếng Anh (không đánh vần từng ký tự)

- Kết xuất in ra tài liệu chữ nổi: phần mềm chuyển đổi tệp văn bản được soạn thảo bằng MS Word, Wordpad … với các bộ font VnTime (ABC), vni- times (VNI), Times New Roman (UNICODE) sang tệp văn bản chữ bơ-rai tiếng Việt, tuân thủ theo luật

ký hiệu chữ bơ-rai do hội người mù Việt nam quy định, đảm bảo chuyển đổi định dạng cơ bản nhất như dòng tiêu đề, đoạn văn bản, chữ đậm… Người khiếm thị có thể đọc được hầu hết các tệp văn bản bao gồm

cả tệp siêu văn bản html, các văn bản bơ-rai có thể được in ra trên tất cả các máy in chữ nổi phổ biến trên thế giới

- Thử nghiệm thêm chức năng phát âm khi ngừời sử dụng sọan thảo trong Word với phần mềm nguồn mở

Unikey

Hoàn toàn đạt được theo kế hoạch

Trang 15

o Thay đổi bộ đơn vị phụ thuộc ngữ cảnh để tăng

độ tự nhiên khi đọc từ và câu

- Nâng cao chất lượng giọng nói tổng hợp so với giai đoạn 2001-2004

o Chất lượng âm tổng hợp ở mức độ âm tiết tốt hơn

o Phát triển, cài đặt thêm các phương pháp tổng hợp tốt hơn TD-PSOLA (cộng chồng đồng bộ miền thời gian)

o Chất lượng âm tổng hợp cho từ, cụm từ và câu

- Chạy được trong 2 chế độ: đồng bộ và không đồng

bộ

- Thay đổi được tốc độ phát âm nhanh hoặc chậm

- Chương trình trình diễn: Một cổng thoại báo điểm học tập, tu dưỡng của học sinh Các thông tin được lưu trong cơ sở dữ liệu SQL Server với vài chục nghìn bản ghi

Đạt được theo kế hoạch

- Thiết kế và cài đặt hệ thống đối thoại bằng tiếng nói

sử dụng công nghệ tổng hợp và nhận dạng tiếng Việt

- Nhận dạng:

o Cho phép người dùng đọc mười chữ số tiếng Việt, kiểu đọc chuỗi số liên tục và một số lệnh

Trang 16

o Tiêu chuẩn đánh giá độ chính xác trên bộ dữ liệu test đủ lớn về: số lượng câu, số lượng người, giọng 2 miền Bắc và Nam, giới tính, nói bình thường không qua nhanh

- Tổng hợp

o Đọc các tin nhắn bằng tiếng Việt, phát âm rõ các

âm tiết tiếng Việt

o Đánh giá độ hiểu tiếng Việt tổng hợp đạt quãng 90% Tiêu chuẩn đánh giá: 1/ đánh gía theo các tham số ngữ âm của tiếng tổng hợp, 2/ đánh giá theo các nhóm người nghe về học vấn, tuổi, giới tính, có/không chuyên môn về ngôn ngữ, …

- Các module nhận dạng bao gồm: khối phân tích tín hiệu tiếng nói (đặc tính phổ) và khối nhận dạng (bằng HMM hoặc mạng nơ ron)

- Tối ưu hóa để có thể chạy trên các bộ vi xử lý nhúng như là các DSP (Texas Instruments)

- Khối điều khiển hành động: Có khả năng hoạt động trong các hệ thống nhúng và hệ thống tự chủ

- Độ chính xác nhận dạng khoảng 90% trong môi trường không quá ồn, tốc độ nhanh

- Trình diễn sản phẩm: thực hiện một ứng dụng điều khiển phần mềm trong môi trường Windows, Unix

để quản lý các tệp hồ sơ tài liệu (mở , đóng , xoá, lưu giữ tệp ), ra các lệnh điều khiển văn bản đơn giản (cắt, dán, copy )

- Phân loại tiếng nói và các âm thanh khác (với tiếng

ồn và tiếng nhạc): Hệ thống phân tích trong thời gian thực luồng dữ liệu âm thanh ghi vào từ micro nhằm mục đích phân loại xem âm thanh ghi được

Trang 17

thuộc loại nào : tiếng người nói, tiếng âm nhạc hay các loại tiếng động khác trong cuộc sống thường nhật

- Quá trình phân tích, dò tìm tự động tiến hành trong thời gian thực bằng cách khai thác các đặc tính phổ của âm thanh

- Độ chính xác phân loại 80%

- Trong trường hợp nhận ra sự có mặt của tín hiệu giọng nói, hệ thống sẽ có thể kết nối với bộ nhận dạng các câu lệnh giọng nói (như lmô tả trong SP1.4) để điều khiển một phần mềm hoặc một thiết

• Áp dụng thuật toán dò tìm sự kiện âm

• Áp dụng thuật toán phân tích luồng âm thanh, sử dụng các kỹ thuật đã liệt kê ở phần trên

• Trong trường hợp dò được tín hiệu tiếng nói thì kích hoạt hệ thống điều khiển

a - Dữ liệu văn bản dành cho thu âm:

- Về nguồn dữ liệu, văn bản được chọn để đọc có thể

là đoạn trích văn học hoặc truyện ngắn hoặc các câu trích từ hai nguồn trên đảm bảo tính phong phú về từ vựng Các câu được chọn có độ dài trung bình khoảng

10 âm tiết, dễ phát âm (không gồm những câu khó dễ gây đọc nhầm)

- Về mặt ngữ âm học, dữ liệu đảm bảo cân bằng về:

• Âm tiết: ít nhất bao gồm đủ 300 âm tiết khác nhau không kể thanh điệu thường xuyên được sử dụng trong tiếng Việt với số lượng cân bằng

• Âm vị: đủ tất cả các âm vị khác nhau của tiếng Việt gồm 22 âm đầu, 16 âm chính, 8 âm cuối và

2 âm đệm với số lượng cân bằng

• Thanh điệu: đủ 6 thanh điệu của tiếng Việt gồm ngang (không dấu), hỏi, sắc, nặng, huyền và ngã với số lượng cân bằng

b Độ lớn và chất lượng:

• Số giờ thu âm: 3-5 giờ

Trang 18

• Số lượng âm tiết là khoảng 3000 tương đương với số lượng 300 câu với độ dài trung bình 10-15

âm tiết

• Chất lượng âm thanh ghi ở dạng PCM, tần số lấy mẫu 16kHz và mã hoá 16 bit

c Người nói và điều kiện thu âm:

• Người nói gồm 01 nam giọng cao và 01 nữ giọng trầm tình trạng sức khoẻ tốt, tuổi trong khoảng 18-45, giọng phát thanh viên miền Bắc Hà nội chuẩn, tốc độ đọc chuẩn của phát thanh viên

• Điều kiện thu âm: Môi trường phòng thu tiêu chuẩn cách âm

• Mỗi đơn vị dữ liệu gồm 01 file âm thanh và một

số file gán nhãn dạng text tương ứng Tổ chức bằng cách sử dụng cơ sở dữ liệu quan hệ với mỗi đơn vị là một bản ghi trong bảng Các trường của bảng là metadata của dữ liệu và link tới file dữ liệu

a Dữ liệu văn bản dành cho thu âm:

• Về nguồn dữ liệu, văn bản được chọn để đọc là các câu trong đoạn văn gồm những từ được thường xuyên sử dụng trong nhiều lĩnh vực khác nhau như tin tức thời sự, văn hoá xã hội, thể thao, khoa học công nghệ, chính trị, sức khoẻ, kinh doanh, thời tiết Dữ liệu có thể dưới dạng đoạn hội thoại, đoạn văn bản và các chữ số lấy từ website, sách hoặc báo chí Các câu được chọn bởi chuyên gia hoặc tự động đảm bảo cân bằng

âm tiết theo thống kê thực tế từ dữ liệu thu được

Trang 19

một cách ngẫu nhiên qua các websites

b Độ lớn và chất lượng:

• Số giờ thu âm: 100 giờ

• Số câu trên 20.000 với độ dài trung bình 10 âm tiết mỗi câu

• Số lượng đối tượng thu âm khoảng 50-60 người, trong đó 50% nam và 50% nữ, độ tuổi từ 18 đến

45, sức khoẻ tốt, giọng đọc với tỷ lệ cân bằng miền Bắc và miền Nam, tốc độ đọc bình thường

Mỗi câu đọc 3 lần cho mỗi giọng đọc, tốc độ đọc bình thường

• Điều kiện thu âm là điều kiện phòng thu đạt tiêu chuẩn về cách âm

a Dữ liệu văn bản dành cho thu âm:

• Đối với 10 chữ số: Nguồn dữ liệu là các chuỗi số ngẫu nhiên được đọc liên tục lấy từ các số điện thoại cố định và di động Về mặt ngữ âm học, ngoài cách đọc chuẩn, dữ liệu còn bao gồm các biến thể khác của các chữ số, ví dụ: 5 có thể đọc

là “lăm”, “nhăm” và “năm” Do đó, bộ dữ liệu gồm 17 âm vị khác nhau Tần suất xuất hiện của các âm vị là tương đương nhau

• Về tên người Việt: nguồn có thể là họ tên đầy đủ lấy danh sách cán bộ hoặc danh sách học sinh đảm bảo thu thập đủ những tên phổ biến trong tiếng Việt

• Tên địa danh: tên các tỉnh, thành phố và địa phương cấp thấp hơn của Việt nam

Trang 20

• Số lượng người nói 30-50 người với tỷ lệ nam nữ cân bằng, độ tuổi 18-45, sức khoẻ tốt, giọng đọc

Hà nội chuẩn và địa phương miền Bắc Thu âm 3 lần mỗi câu cho mỗi giọng đọc

• Điều kiện thu âm là phòng thu tiêu chuẩn Riêng đối với chữ số có thêm dữ liệu thu ở điều kiện văn phòng, mức độ tiếng ồn thấp, không có nhiễu đặc biệt và thiết bị thu là điện thoại di động với tiêu chuẩn kỹ thuật của âm thanh tương đương

- Kho ngữ liệu 10.000 câu được gán nhãn cú pháp đầy

đủ, khuôn dạng như các TreeBank khác

- Tài liệu hướng dẫn

- Công cụ chuẩn hóa ngữ liệu song ngữ

- 100,000 cặp câu song ngữ thô cho 2 ngôn ngữ Anh

và Việt, trong đó có 10,000 câu về một lĩnh vực chuyên ngành (CNTT)

Trang 21

- Hệ phân loại từ tiếng Việt dạng phần mềm mã nguồn

mở xây dựng các hệ phân lớp từ loại từ tiếng Việt (Bộ phân lớp từ loại đến mức 4)

- Mã nguồn mở với khả năng kết nối trong các phần mềm khác

- Độ chính xác dự kiến khoảng 90% trở lên, huấn luyện bộ phân lớp trên tập dữ liệu câu gắn nhãn sẵn (khoảng 10.000 câu)

- Tài liệu đặc tả chính xác quá trình phát triển, các nguyên lý, quy tắc tuân theo và tài liệu hướng dẫn sử

dụng đi kèm

- Giao diện thân thiện với người dùng

Tài liệu hướng dẫn

- Câu vào đã được phân tích từ loại (POS)

- Hệ phân tích cú pháp tiếng Việt (syntax parser): hệ cho phép phân tích các loại câu tiếng Việt (câu thông báo – câu đơn và câu ghép, câu hỏi, câu cảm thán,

…) với độ chính xác trên 80% Phân tích cú pháp dựa trên bộ luật theo văn phạm LCFG

- Mã nguồn mở với khả năng kết nối trong các phần mềm khác

- Tập luật ngữ pháp tiếng Việt dùng cho xử lý tự động ngôn ngữ: Có sự đồng thuận với các nhà ngôn ngữ học

Trang 22

Các bài báo công bố trong

các tuyển tập Hội nghị, hội

1 Thang Tat Vu, Mai Chi Luong, Satoshi Nakamura, “An HMM-based Vietnamese

Speech Synthesis System”, O-COCOSDA 2009 proceedings, also be included in IEEE

Xplorer, 10-13 August, 2009, China

2 Thang Tat Vu, Khanh Tang Nguyen, Le Thanh Ha, Mai Chi Luong, Satoshi

Nakamura, “Toward Asian Speech Translation: The Development of Speech and Text Corpora for Vietnamese language”, Accepted to the Proceeding of Workshop on Technologies and Corpora for Asia-Pacific Speech Translation (TCAST 2009), August

2, 2009, Suntec, Singapore

3 Thang Tat Vu, Khanh Nguyen Tang, Son Hai Le, Mai Chi Luong, “Vietnamese tone recognition based on Multi-layer Perceptron network”, Proceedings of Oriental COCOSDA, Kyoto, 25-27 December 2008, pp.242-45

4 Bui Quang Trung, Luong Chi Mai, Le Hai Son, “A Lexical Tree Based Search Network

in Continuous Vietnamese Speech Recognition”, Proceedings of Oriental COCOSDA,

Kyoto, 25-27 December 2008, pp.253-256

5 Tran Do Dat, Eric Castelli, “Register of Vietnamese tone in continuous speech”,

The first International Workshop on Spoken Languages Technologies for

Under-resourced languages (SLTU - 2008), Hanoi, 3/2008

Trang 23

6 Viet-Bac Le, Laurent Besacie, Sopheap Seng, Brigitte Bigi, Thi-Ngoc-Diep Do,

“Recent advances in automatic speech recognition for Vietnamese”, The first

International Workshop on Spoken Languages Technologies for Under-resourced languages (SLTU - 2008), Hanoi, 3/2008

7 ROSSIGNOL, Mathias and TRẦN, Đỗ Đạt, “Introducing Hoa Sen, a modular and portable software toolkit for speech analysis and recognition”, in: ICT.rda '08, 2008

8 NGUYỄN, Thị Minh Tuyền and ROSSIGNOL, Mathias, “ADRPhone: a Lightweight, Standalone Phonetizer for Vietnamese and its Dialects”, in: 10th Worksphop of the

Oriental chapter of the International Committee for the Co-ordination and

Standardization of Speech Databases and Assessment Techniques (Oriental

COCOSDA ’07), 2007

9 Bui Quang Trung, Luong Chi Mai, Vu Tat Thang, Nguyen Trung Thanh, Nguyen Tien

Dung, “ A smartphone Spoken Dialog System using Vietnamese Text-To-Speech and Speech recognition”, Proceeding of FAIR, Nha trang, 10-12 August, 2007

Phần xử lý Văn bản

10 Nguyen, L.M., Nguyen, H.T., Nguyen, P.T., Ho, T.B., Shimazu, A., “An Empirical

Study of Vietnamese Noun Phrase Chunking with Discriminative Sequence Models”,

7th Workshop on Asian Language Resources at 47th Annual Meeting of the

Association for Computational Linguistics, ACL-IJCNLP 2009, 2-7 August,

Singapore, 2009

11 Phuong-Thai Nguyen, Xuan-Luong Vu, Thi-Minh-Huyen Nguyen, Van-Hiep Nguyen,

Hong-Phuong Le “Building a Large Syntactically-Annotated Corpus of Vietnamese”

Proceedings of the 3rd Linguistic Annotation Workshop (LAW) at ACL-IJCNLP 2009

12 Anh-Cuong Le, Phuong-Thai Nguyen, Hoai-Thu Vuong, Minh-Thu Pham, Tu-Bao Ho,

“An Experimental Study on Lexicalized Statistical Parsing for Vietnamese” The First

International Conference on Knowledge and System Engineering (KSE 2009)

13 Huong-Thao Nguyen, Phuong-Thai Nguyen, Quang-Thuy Ha, and Le-Minh Nguyen,

“Vietnamese Noun Phrase Chunking based on Conditional Random Fields” The First International Conference on Knowledge and System Engineeing, KSE, 2009

14 Nguyen, P.T., Shimazu, A., Ho, T.B., Nguyen, L.M., Nguyen, V.V., “A Tree-to-String

Phrase-based Model for Statistical Machine Translation”, Twelfth Conference on

Computational Natural Language Learning, Manchester, 16-17 August, 143-150, 2008

15 Nguyen, P.T., Le, A.C., Shimazu, A., Ho, T.B., “Intergration of Word sense

Disambiguation into Pharse base”Empirical Md Statistical Machine Translation” Empirical Methods for Asian Language Processing Workshop (EMALP 2008), in

conjunction with Tenth Pacific Rim International Conference on Artificial Intelligence (PRICAI-08), December 16-19, Hanoi, 114-122, 2008., 114-122

16 Nguyễn Phương Thái, Vũ Xuân Lương, Nguyễn Thị Minh Huyền, “Xây dựng treebank tiếng Việt”, In Proc of the 4rd National Symposium on Research, Development and Application of Information and Communication Technology (ICTrda'2008, August 8-

9, Ha Noi, Viet Nam), Science and Technics Publishing House, 249-257

Trang 24

trên các phương pháp học máy thống kê”, ICT.rda 2008, Hà Nội, Việt Nam

18 Ho, T.B., Pham, N.K., Ha, T.L., Nguyen, P.T., “Issues and First Phase Development of

the English-Vietnamese Translation System EVSMT1.0”, Special Issue in Journal of

Science, Natural Sciences and Technology, Vol 24, N3S, Vietnam National

University- Hanoi Publishers, 59-66, 2008

19 Ho, T.B., “Vietnamese Language Processing: Issues and Challenges”, Special Issue in

Journal of Science, Natural Sciences and Technology, Vol 24, N3S, Vietnam National

University- Hanoi Publishers, 10-16, 2008

20 N.T.M Huyen, R Mathias, L.H Phuong, D.Q Thang, V.X Luong, N.C Tu, “Word

segmentation of Vietnamese texts: a comparison of approaches”, Proceedings of the

6th Language Resources and Evaluation Conference LREC 2008, 2008

21 P T Ha, N T M Huyen, L H Phuong, L V Tang, “Building a Syntactic Annotation

Framework for Vietnamese”, Proceedings of the National Symposium on Research,

Development and Application of Information and Communication Technology

ICT.rda, Vietnam, 8/2008

22 Đỗ Bá Lâm, Lê Thanh Hương 2008 Xây dựng hệ thống phân tích cú pháp tiếng Việt

sử dụng văn phạm HPSG Kỷ yếu hội thảo ICT.rda’08, Hà Nội, Việt Nam

• Số lượng bài theo đăng ký là 04:

02 bài báo đăng trên các kỷ yếu Hội nghị Quốc tế/Trong nước liên quan đến Xử lý

tiếng nói, 02 bài báo đăng trên các kỷ yếu Hội nghị Quốc tế/Trong nước liên quan đến

Xử lý văn bản

• Số lượng bài trên thực tế tổng cộng là 22 bài, trong đó đăng ở nước ngoài: 10,

với 3 bài ở Hội nghị lớn có tầm quốc tế và rất khó được nhận: ACL-IJCNLP

2009, CoNLL (Conference on Computational Natural Language Learning),

Cấp đào tạo, Chuyên

ngành đào tạo Theo kế

hoạch

Thực tế đạt được

Ghi chú

(Thời gian kết thúc)

Đào tạo:

- Thạc sỹ: đã hoàn thành

Nguyễn Thị Thanh Mai, 2008

Nguyễn Thị Phương Thảo, 2008

Nguyễn Cẩm Tú, 2008

Trang 25

Nguyễn Thị Hương Thảo, 2009

- Tiến sỹ (đã thực hiện trước khi bắt đầu đề tài nhưng theo hướng nghiên cứu của Đề tài):

Phan Xuân Hiếu, 2008

Nguyễn Phương Thái, 2008

Nguyễn Công Phương, 2009

Đang thực hiện:

Ngô Hoàng Huy

đ) Tình hình đăng ký bảo hộ quyền sở hữu công nghiệp

Ghi chú

(Thời gian kết thúc)

2

e) Thống kê danh mục sản phẩm KHCN đã được ứng dụng vào thực tế

2

2 Đánh giá về hiệu quả do đề tài, dự án mang lại:

a) Hiệu quả về khoa học và công nghệ:

(Nêu rõ danh mục công nghệ và mức độ nắm vững, làm chủ, so sánh với trình độ công

nghệ so với khu vực và thế giới…)

Các sản phẩm của đề tài đều không mua được từ bên ngoài Các chỉ tiêu kỹ thuật,

công nghệ nghiên cứu đều theo các chỉ tiêu của các sản phẩm cùng loại làm tại

nước ngoài Dưới đây là một vài thí dụ:

Trang 26

− Ngân hàng câu được chú giải cú pháp (treebank) là kho ngữ liệu rất quan trọng trong nghiên cứu và xây dựng ứng dụng xử lý ngôn ngữ tự nhiên Tiếng Việt là ngôn ngữ còn thiếu nhiều tài nguyên trong đó có treebank

− Treebank thường được dùng để xây dựng các hệ phân tích cú pháp, gán nhãn

từ loại, tách từ Các hệ đó lại có thể được dùng cho các ứng dụng như trích rút thông tin, dịch tự động, hỏi đáp, và tóm tắt văn bản Ngoài ra treebank còn có thể được dùng cho các nghiên cứu ngôn ngữ học, chẳng hạn như khảo sát hiện tượng ngôn ngữ đặc thù nào đó Gần đây cùng với sự ra đời của các phương pháp thống kê trên dữ liệu lớn thì treebank và các kho ngữ liệu khác càng đóng vai trò quan trọng hơn

● Hệ phân tách từ (SP8.2)

− Công cụ này thuộc nhóm công cụ/tài nguyên cơ bản làm nền tảng cho việc phát triển các ứng dụng xử lí tiếng Việt

− Sản phẩm đã phát triển bước đầu trong đề tài KC01-03 Trong nước cũng đã

có một số nhóm khác phát triển sản phẩm này Mục đích của đề tài là phát triển một công cụ có độ chính xác cao nhất từ trước đến nay, và có tính chuẩn mực, sử dụng lại được cho nhiều ứng dụng đa dạng

● Hệ phân loại từ Việt (SP8.3)

− Sản phẩm JVnTagger được xây dựng bằng ngôn ngữ Java, và cùng với các sản phẩm khác trong dự án VLSP sẽ là một phần mềm/công cụ mã nguồn mở thông qua đó có thể đem lại lợi ích cho cộng đồng xử lý ngôn ngữ tiếng Việt

và cho giới xây dựng ứng dụng Cụ thể hơn:

− Phần mềm mã nguồn mở nên có thể được sửa lỗi, kiểm thử, và xây dựng bởi người sử dụng hay những người phát triển ứng dụng khác, qua đó cải tiến và nâng cao chất lượng gắn nhãn từ loại

− Phần mềm cung cấp các APIs (giao diện lập trình ứng dụng) cùng với các tài liệu đặc tả và hướng dẫn lập trình đầy đủ để người sử dụng và những người xây dựng ứng dụng có thể tích hợp JVnTagger một cách dễ dàng vào sản phẩm của họ

b) Hiệu quả về kinh tế xã hội:

(Nêu rõ hiệu quả làm lợi tính bằng tiền dự kiến do đề tài, dự án tạo ra so với các sản phẩm cùng loại trên thị trường…)

SP1.1 Sử dụng cho cộng đồng người khiếm thị đọc thông tin trên máy tính

SP1.2 Sử dụng cho các hệ thống cổng tiếng nói cho các trường phổ thông, các cổng tiếng nói phục vụ thông tin cộng đồng như thời tiết, văn bản pháp quy, SP1.3 Có thể sử dụng cho cộng đồng rất rộng lớn dùng điện thoại di động bằng sử dụng tiếng nói Việt

SP1.4 Có khả năng ứng dụng trong các ứng dụng dân sự cũng như trong các nhà máy công nghiệp để điều khiển các hệ thống, thiết bị bằng tiếng nói tiếng Việt

Trang 27

SP1.5 Sử dụng trong các ứng dụng y tế để giám sát người bệnh, người già yếu và người tàn tật

SP6, 7 Sản phẩm cung cấp tài nguyên cơ bản, chuẩn mực, thiết yếu cho việc phát triển các ứng dụng xử lí tiếng Việt

SP8 Sản phẩm là các công cụ cơ bản, chuẩn mực, thiết yếu cho tất cả các nghiên cứu, phát triển ứng dụng của cộng đồng nghiên cứu xử lý tiếng Việt

Khả năng cạnh tranh về giá thành và chất lượng của sản phẩm

• Các sản phẩm về xử lý tiếng nói tiếng Việt có khả năng đóng góp vào các sản phẩm truyền thông, các hệ thống giao tiếp tự động

• Các sản phẩm về xử lý văn bản có khả năng giúp nâng cao hiệu suất lao động trong rất nhiều ngành kinh tế và trình độ dân trí Nếu đạt được các mục tiêu, có thể tin tưởng đây là các sản phẩm tốt nhất trong kĩnh vực này

Khả năng liên doanh liên kết với các doanh nghiệp ngay trong quá trình nghiên cứu

Trong quá trình thực hiện đề tài, đã tạo ra được hợp tác trong dự án Quốc tế về dịch tiếng nói sang tiếng nói (speech-to-speech translation) trong khuôn khổ A-STAR về chủ đề du lịch (travelling) và đã có những bước đi vững chắc về mặt công nghệ, để tiếp tục cùng với cộng đồng dưới sự chủ trì của đối tác Nhật bản (Viện Nghiên cứu thông tin và Truyền thông NICT – Kyoto, Nhật bản), hoàn thành một dự án dịch tiếng nói đa ngôn ngữ, bước đầu đã có tiếng Nhật, Anh, Trung quốc, Tháilan, Hàn Quốc, Ấn độ, Malaysia, Indonessia

Phương thức chuyển giao

(chuyển giao công nghệ trọn gói, chuyển giao công nghệ có đào tạo, chuyển giao

theo hình thức trả dần theo tỷ lệ % của doanh thu, liên kết với doanh nghiệp để sản xuất hoặc góp vốn (với đơn vị phối hợp nghiên cứu hoặc với cơ sở sẽ áp dụng kết quả nghiên cứu) theo tỷ lệ đã thoả thuận để cùng triển khai sản xuất, tự thành lập

doanh nghiệp trên cơ sở kết quả nghiên cứu tạo ra, )

• Các sản phẩm của đề tài được chia làm nhiều phương thức chuyển giao:

- Sản phẩm đầu cuối ứng dụng nhằm ứng dụng trong thực tế, như SP1.1, SP1.3 Chuyển giao công nghệ có đào tạo như SP1.2, SP1.4, SP1.5

- Các sản phẩm dạng tài nguyên được cung cấp tùy thưeo các đối tượng nghiên cứu hay phát triển sản phẩm kinh doanh Việc này cần có chính sách từ Bộ KHCN, các sản phẩm về tài nguyên có thể được đưa lên LDC như SP7.3 cho cộng đồng nghiên cứu sử dụng và làm giàu lên theo thời gian

Trang 28

3 Tình hình thực hiện chế độ báo cáo, kiểm tra của đề tài, dự án:

Số

TT Nội dung

Thời gian Thực hiện

- Về chất lượng: Là bước đầu trong giai đoạn nghiên cứu, đang khảo sát và thiết kế

- Đang thực hiện đúng tiến độ Lần 2:

18/04/2008

4/2008

11/2007 Về số lượng: Đảm bảo về số lượng nghiên cứu các đầu mục cần thiết

- Các nghiên cứu theo đúng kế hoạch để có thể đảm bảo chất lượng theo đăng ký

25/09/2008

05/2008- 10/2008

- Về số lượng: Đảm bảo về số lượng nghiên cứu các đầu mục cần thiết

15/03/2009

3/2009

11/2008 Về số lượng: Đảm bảo về số lượng nghiên cứu các đầu mục cần thiết

- Đang thực hiện đúng tiến độ

- Chủ trì: GS.TS Nguyễn Thúc Hải Lần 2 05/05/2008 - Đề tài và các nhánh đã thực hiện các nhiệm

vụ theo đúng tiến độ đăng ký

- Đã sử dụng kinh phí cấp phát một cách hợp

lý

- Chủ trì: GS.TS Nguyễn Thúc Hải

Trang 29

Lần 3 13/10/2008 - Đề tài hoàn thành tốt các nhiệm vụ chuyên

môn

- Tiến độ thực hiện theo đúng kế hoạch

- Chủ trì: GS.TS Nguyễn Thúc Hải Lần 4 09/04/2009 - Thực hiện đúng tiến độ

- Lưu ý để nghiệm thu cấp cơ sở

- Chủ trì: GS.TS Nguyễn Thúc Hải III Nghiệm thu cơ

Trang 30

MỤC LỤC

MỞ ĐẦU: TÓM TẮT VỀ ĐỀ TÀI 32 MỤC TIÊU ĐỀ TÀI 33 TỔNG QUAN TÌNH HÌNH NGHIÊN CỨU TRONG VÀ NGOÀI NƯỚC 35 CHƯƠNG 1 XỬ LÝ TIẾNG NÓI VÀ KẾT QUẢ 40 1.1 Kết quả nghiên cứu về Tổng hợp và Nhận dạng tiếng Việt 40

1.1.1 Khảo sát về ngữ âm tiếng Việt 40 1.1.2 Nghiên cứu cải tiến cho PSOLA 43 1.1.3 Nghiên cứu và phát triển phương pháp Tổng hợp tiếng nói dựa trên mô hình Markov ẩn (HMM-based TTS) 54 1.1.4 Tài liệu tham khảo 60

1.2 Hệ thống Tổng hợp tiếng nói cho người khiếm thị SP1.1 61

1.2.1 Chuyển mã chữ thường sang mã chữ nổi sử dụng Dbtw 61 1.2.2 Chuyển đổi mã và in chữ nổi sử dụng duxbury 62 1.2.3 Tích hợp bộ module Tổng hợp tiếng Việt vào bộ soạn thảo Unikey cho Ms Word 63 1.2.4 Tài liệu tham khảo 63

1.3 Hệ thống tổng hợp tiếng nói, tích hợp cho các cổng tiếng nói SP1.2 63

1.3.1 Tích hợp Module đọc tiếng Việt cho hệ thống cổng thoại 63 1.3.2 Tính năng và mô hình của hệ thống 63 1.3.3 Mô phỏng hoạt động cụ thể của hệ thống 64 1.3.4 Tài liệu tham khảo 67

1.4 Hệ thống đối thoại sử dụng công nghệ tổng hợp và nhận dạng tiếng tiếng Việt trên môi trường thiết bị di động dòng công nghệ mới SP1.3 69

1.4.1 Mục tiêu của nhận dạng tiếng Việt 69 1.4.2 Phát triển hệ thống nhận dạng chuỗi số, tên người và lệnh điều khiển trong môi trường độ

ồn thấp 69 1.4.3 Tài liệu tham khảo 80

1.5 Hệ thống giám sát và điều khiển quá trình sử dụng kỹ thuật nhận dạng tiếng Việt SP1.4 81

1.5.1 Trích trọn các đặc trưng âm học 81 1.5.2 Nhận dạng thanh điệu 81 1.5.3 Mô hình âm học: Các tham số và huấn luyện 82 1.5.4 Thích nghi theo người nói 82 1.5.5 Giao diện đồ họa và tích hợp vào hệ điều hành 83 1.5.6 Khai thác các thư viện phần mềm 83 1.5.7 Xây dựng hệ thống trên các modul : Phần mềm Hoa Sen 84 1.5.8 Hoạt động của hệ thống, tài liệu hướng dẫn 84 1.5.9 Đánh giá 87 1.5.10 Tài liệu tham khảo 90

1.6 Hệ thống phân tích luồng âm thanh SP1.5 91

1.6.1 Giới thiệu 91 1.6.2 Phương pháp nghiên cứu và kết quả 92 1.6.3 Tài liệu thiết kế, quy trình sản phẩm 92 1.6.4 Kết quả đánh giá sản phẩm 104 1.6.5 Tài liệu tham khảo 104

1.7 Xây dựng các kho ngữ liệu cho tổng hợp và nhận dang tiếng Việt SP6.x 105

1.7.1 Giới thiệu 105 1.7.2 Quy trình xây dựng 1 CSDL tiếng nói 105 1.7.3 Cấu trúc CSDL dữ liệu tiếng nói 105

Trang 31

1.7.4 Lựa chọn giọng đọc 106 1.7.5 Nhận dạng chính tả 106 1.7.6 Quy tắc phiên âm cho CSDL 107 1.7.7 Nguyên tắc gán nhãn 111 1.7.8 Tài liệu tham khảo 113

CHƯƠNG 2 XỬ LÝ VĂN BẢN VÀ KẾT QUẢ 114 2.1 Từ điển tiếng Việt dùng cho Xử lý ngôn ngữ tự nhiên (viết tắt là VCL) SP7.2 115

2.2 Kho ngữ liệu câu tiếng Việt có chú giải (VieTreeBank) SP7.3 123

2.2.1 Giới thiệu 123 2.2.2 Phương pháp nghiên cứu và kết quả 124 2.2.3 Tài liệu thiết kế, qui trình sản phẩm 126 2.2.4 Tài liệu tham khảo 130

2.3 Hai kho ngữ liệu câu Anh - Việt phổ quát và chuyên ngành SP7.4 132

2.3.1 Giới thiệu 132 2.3.2 Phương pháp nghiên cứu và kết quả 133 2.3.3 Khai thác dữ liệu song ngữ từ Internet 138 2.3.4 Kết quả đạt được 139 2.3.5.Tài liệu tham khảo 146

2.4 Hệ phân tách từ Việt SP8.2 149

2.5 Hệ phân loại từ Việt SP8.3 161

2.5.1 Bài toán gán nhãn từ loại 161 2.5.2 Phương pháp nghiên cứu và kết quả 163 2.5.3 Tài liệu thiết kế, qui trình sản phẩm 166 2.5.4 Kết quả đánh giá sản phẩm 169 2.5.5 Tài liệu tham khảo 173

2.6 Hệ phân cụm từ Việt SP8.4 174

2.6.1 Giới thiệu 174 2.6.2 Phương pháp nghiên cứu 175 2.6.3 Kết quả của sản phẩm 181 2.6.4 Tài liệu tham khảo 185

2.7 Hệ phân tích cú pháp tiếng Việt SP8.5 187

2.7.1 Bài toán phân tích cú pháp 187 2.7.2 Mục tiêu, phương pháp tiếp cận 188 2.7.3 Phương pháp nghiên cứu và kết quả 189 2.7.4 Tài liệu thiết kế, qui trình sản phẩm 191 2.7.5 Kết quả đánh giá sản phẩm 193 2.7.6 Tài liệu tham khảo 197

CHƯƠNG 3 CÁC KẾT QUẢ NGHIÊN CỨU, ĐÀO TẠO VÀ HỢP TÁC QUỐC TẾ.199 KẾT LUẬN VÀ KIẾN NGHỊ 204

Trang 32

MỞ ĐẦU: TÓM TẮT VỀ ĐỀ TÀI

Đề tài được thực hiện trong 2 năm, trên cơ sở xây dựng một dự án dài hơi cho xử lý tiếng nói và văn bản tiếng Việt, ít nhất là 5 năm kể từ 2006-2010 Tuy vậy, theo quyết định chung của chương trình KC01/06-10, đề tài được thực hiện trong 2 năm,

vì vậy đề tài đã phải hạn chế một số đầu công việc và sản phẩm

Đặc điểm chính của đề tài là:

(1) Đối tượng nghiên cứu là các loại dữ liệu phức tạp (tiếng nói và chữ viết) với đặc thù của tiếng Việt đòi hỏi phải có tiếp cận phù hợp và hiệu qủa;

(2) Thực hiện một khối lượng công việc rất lớn, bao gồm vừa nghiên cứu cơ bản

để tìm ra phương pháp mới, vừa phát triển sản phẩm định hướng sử dụng cho người dùng cuối với giao diện tiếng nói, vừa xây dựng tài nguyên, công cụ dùng cho chính đề tài và dùng lâu dài của cả cộng đồng;

(3) Có sự tham gia của 08 cơ quan khắp trong Nam ngoài Bắc và ở nước ngoài (phần lớn các tập thể và cá nhân làm nghiên cứu, phát triển về xử lý ngôn ngữ và xử lý tiếng nói Việt)

Để đạt mục tiêu làm ra các sản phẩm của đề tài, chúng tôi xác định tiếp cận theo hai khía cạnh: khoa học và quản lý

Các nguyên tắc tiếp cận về khoa học:

(1) Với mỗi sản phẩm, yêu cầu khảo sát để hiểu được các phương pháp chính đã được dùng trên thế giới, phân tích chọn phương pháp hiệu quả và phù hợp với tiếng Việt, học tập các giải pháp và thành bại trong việc xử lý các ngôn ngữ khác, đặc biệt các ngôn ngữ gần với tiếng Việt như tiếng Trung quốc, tiếng Nhật Cách làm này sẽ giúp tránh rủi ro nhầm đường, và rút ngắn thời gian đạt được kết quả mong muốn cho xử lý tiếng Việt

(2) Hướng đến sử dụng rộng rãi các phương pháp học thống kê trên các kho ngữ liệu lớn để thực hiện các sản phẩm, là tiếp cận hiệu quả nhất đã được thừa nhận rộng rãi Đặc biệt Nhóm xử lý băn bản của đề tài nhằm tạo ra các công

cụ và tài nguyên thiết yếu nhất cho việc xử lý văn bản tiếng Việt bằng máy tính Trong thời gian giới hạn 2 năm, điểm chú trọng của đề tài không ở việc làm ra các sản phẩm cuối hoặc kích thước tài nguyên lớn, mà là việc xác định các tiêu chí, cách làm cho đúng và hợp lý để cho giới nghiên cứu và phát triển có thể tiếp tục hoàn thiện (không phải làm lại), sử dụng chúng vào các nghiên cứu khác Các sản phẩm sẽ được để ở dạng mã nguồn mở, có thể tích hợp vào các ứng dụng (việc xác định quyền sở hữu trí tuệ và các điều kiện sử dụng sẽ sớm được xác định) Hy vọng việc này có nhiều ý nghĩa và đóng góp xây dựng "hạ tầng cơ sở" của công việc này

(3) Đánh giá kỹ lưỡng các thiết kế trước khi thực hiện sản phẩm để đảm bảo giá trị sử dụng lâu dài, bền vững và chất lượng của sản phẩm

Trang 33

(4) Các sản phẩm được xây dựng dựa trên sự tương hỗ giữa nhóm sản phẩm cho người dùng SP1.x, và nhóm tài nguyên, công cụ SP6, SP7 và SP8 Đề tài sẽ tiếp cận theo kiểu “làm mịn dần” (refinement approach) để các sản phẩm cho người dùng từng bước được nâng chất lượng tương ứng với sự tiến bộ về chất lượng và kích thước của các kho ngữ liệu và công cụ Ngược lại các công cụ và kho ngữ liệu sẽ được điều chỉnh theo đánh giá thử nghiệm của người phát triển nhóm sản phẩm kia

Các nguyên tắc tiếp cận về quản lý:

(1) Hai người chịu trách nhiệm chính của hai hướng nghiên cứu và sản phẩm: phần xử lý tiếng nói và phần xử lý văn bản

(2) Mỗi sản phẩm được giao cho một nhóm 2-3 người phụ trách không thuộc cùng một cơ quan, trong đó một người chịu trách nhiệm chính Kinh phí và trách nhiệm sẽ được giao trực tiếp cho nhóm phụ trách sản phẩm thông qua

cơ quan Nhóm phụ trách sẽ xác định thành viên thực hiện qua bàn bạc với phụ trách đề tài nhánh, lãnh đạo cơ quan chủ quản

(3) Có sinh hoạt chuyên môn của các tập thể thực hiện trong Đề tài giữa kỳ (khối xử lý văn bản 4 kỳ, nhóm tiếng nói có tổ chức xemine khoa học thường xuyên) để đánh giá tiến độ và đánh giá chất lượng sản phẩm qua sinh hoạt học thuật Các sản phẩm có báo cáp tiến độ 6 tháng / lần

MỤC TIÊU ĐỀ TÀI

Mục tiêu1: Nghiên cứu và xây dựng một số sản phẩm tiêu biểu về xử lý tiếng

nói và văn bản tiếng Việt, nhằm cho đông đảo người sử dụng máy tính và Internet

Mục tiêu2: Xây dựng các tài nguyên và công cụ thiết yếu nhất cho xử lý tiếng

nói và văn bản tiếng Việt, nhằm thực hiện mục tiêu 1 và dùng cho nghiên cứu-phát triển lâu dài

Những mục tiêu đặt ra yêu cầu cộng đồng nghiên cứu trong lĩnh vực này phải theo đuổi lâu dài và từng bước đạt những kết quả mang tính kế thừa, kể cả đối với xây dựng tài nguyên, công cụ lẫn phát triển các sản phẩm đầu cuối Để đạt được những mục tiêu trên, phải tính được lộ trình của từng giai đoạn và xác định tính kế thừa của nó

Phân tích và thiết kế trong giai đoạn 5 năm thực hiện, bao gồm các sản phẩm sau:

Trang 34

Trong giai đoạn 5/2007 – 5/2009, các sản phẩm của đề tài do thời gian hạn chế chỉ, nên tập trung vào một số sản phẩm, tài nguyên và công cụ sau, và một số sản phẩm về xử lý tiếng nói cho người dùng cuối:

Trang 35

TÌNH HÌNH NGHIÊN CỨU TRONG VÀ NGOÀI NƯỚC

Các đặc điểm nghiên cứu, phát triển và tình hình công nghệ trên thế giới liên quan đến đề tài nói chung và các sản phẩm cụ thể của đề tài nói riêng là:

Vai trò vượt trội của các phương pháp học thống kê trên các kho ngữ liệu lớn trong xử lý tiếng nói và văn bản: Nhiều lý thuyết và kỹ thuật đã ra đời và được thử nghiệm hơn nửa thế kỷ qua như các mô hình hữu hạn trạng trái (finite state models), tiêu biểu là mô hình Markov ẩn (HMM) Sự thành bại của các phương

pháp khác nhau đã chứng tỏ vai trò vượt trội của các phương pháp học thống kê

trên các kho ngữ liệu lớn (corpora) Gần đây, đã có sự thừa nhận rộng rãi rằng chất lượng của các kho ngữ liệu cùng sự thích hợp của các phương pháp học thống kê là các yếu tố chính của sự thành công trong hầu hết các giai đoạn của xử

lý tiếng nói và văn bản Xu thế này đã làm cho xử lý tiếng nói và văn bản – vốn tách riêng từ các năm 1960 − gặp lại nhau trên cùng một lộ trình Nhiều mô hình gần đây tiếp tục ra đời, huấn luyện được trên các kho ngữ liệu lớn, có hiệu quả cao như Maximum Entropy Markov Model (MEMM, 2000), Conditional Random Fields (CRF, 2001), … Nhiều kho ngữ liệu được xây dựng (tiếng Anh) tiêu biểu

là Penn Treebank, WordNet, MUC, vv

Internet và truyền thông nhanh chóng thúc đẩy các nhu cầu và công nghệ mới: Một đặc điểm nổi bật trên thế giới trong một số năm qua là sự bùng nổ các lĩnh vực khoa học-công nghệ mới liên quan đến Internet và Web, như tìm kiếm và trích chọn thông tin trên Web, khai phá văn bản, Web ngữ nghĩa, E-learning, E-

Commerce,… Công nghệ xử lý ngôn ngữ gắn với khai thác Internet là một con

đường để người dân mỗi quốc gia, đặc biệt các nước không dùng phổ thông tiếng Anh như Việt Nam, sử dụng được nguồn thông tin toàn cầu Công nghệ truyền thông đang thúc đẩy các nghiên cứu chuyển tiếng nói thành văn bản (nhận dạng tiếng) hay văn bản thành tiếng nói (tổng hợp tiếng) vào các sản phẩm truyền thông

Tình hình các nước xung quanh: Nhiều quốc gia ở châu Á hay trong khu vực đã đầu tư lớn cho nghiên cứu xử lý tiếng nói và ngôn ngữ của họ Nhật bản đã có truyền thống nhiều chục năm trong lĩnh vực này, với các dự án lớn như Viện từ điển điện tử EDR (1982-1992), cùng giai đoạn với đề án máy tính thế hệ thứ năm FGCS (1982-1992) Cũng từ giữa các năm 1980, Nhật bản đã chủ trì và tài trợ một đề án dịch máy giữa một số ngôn ngữ châu Á với sự tham gia của Nhật bản, Trung Quốc, Malaysia, Thailand và Indonesia Đề án này đã không đạt được kết quả mong muốn Đáng chú ý là vào cuối 2005, Nhật bản lại chuẩn bị khởi động và đầu tư cho một dự

án dịch máy giữa một số nước châu Á mà nòng cốt là công ty Fujitsu dưới quản lý của Bộ Nội vụ và Truyền thông (Ministry of Internal Affairs and Communication, MIC), và Việt Nam có thể là một nước thành viên (chúng tôi đã có tiếp xúc ban đầu) Trung quốc cũng đầu tư lớn cho nghiên cứu xử lý tiếng nói và văn bản tiếng Hoa, như dịch Anh-Hoa, Nhật-Hoa, vv Chinese Treebank, Wordnet đã hoàn thành cho tiếng Trung quốc với các chú giải ngữ pháp đầy đủ Hiện nay, bắt đầu từ năm

2005, A-STAR (Asian Speech Translation Advanced Research Consortium) với

Trang 36

mục tiêu xây dựng các hệ thống dịch tiếng nói sang tiếng nói thông qua mạng máy tính trong khu vực Châu Á, tổ chức nghiên cứu tiên tiến về dịch tiếng nói các nước Châu Á (A-STAR) đã được thành lập vào tháng 06 năm 2006 bởi trung tâm NICT/ATR (Nhật Bản) Mạng lưới A-STAR ban đầu có 6 thành viên: Nhật Bản, (NICT/ATR), Hàn Quốc (ETRI), Thái Lan (NECTEC), Indonesia (BPPT), Trung Quốc (NLPR-CASIA), và Ấn Độ (CDAC) Trong năm 2008, Việt Nam (cụ thể là Phòng Nhận dạng và Công nghệ tri thức, Viện Công nghệ thông tin) và Singapore (I2R) cũng đã gia nhập vào mạng lưới này A-STAR được thành lập tạo ra một cơ

sở hạ tầng cơ bản cho việc giao tiếp ngôn ngữ nói để vượt qua những rào cản ngôn ngữ trong khu vực các nước Châu Á-Thái Bình Dương A-STAR làm việc theo phương pháp cộng tác để thu thập ngữ liệu các ngôn ngữ Châu Á, tạo ra hệ nhận dạng tiếng nói chung và các từ điển dịch, phát triển các mô hình dịch tiếng nói dựa trên dịch vụ Web cho các ngôn ngữ, chuẩn hóa giao diện và định dạng dữ liệu cho việc kết nối các mô hình dịch tiếng nói theo tiêu chuẩn quốc tế A-STAR hướng tới tạo ra một nhóm chuyên gia về APT ASTAP (chương trình chuẩn hóa giao tiếp từ

xa các nước Châu Á – Thái Bình Dương) để phát triển một đề án với một giao diện chuẩn và định dạng dữ liệu, cho phép kết nối các mô hình dịch tiếng nói trong khu vực Châu Á-Thái Bình Dương thông qua mạng Internet Trong quá trình nghiên cứu các ngôn ngữ có những tương đồng với tiếng Việt của những nền khoa học phát triển, ta có thể học được nhiều từ thành bại của các kỹ thuật xử lý tiếng nói và ngôn ngữ họ đã sử dụng

Trong nước

Hai đặc điểm chung nổi bật nhất của tình hình trong nước là:

Trong hai năm qua, so sánh với đánh giá về tình hình trong nước khi đăng ký đề tài, tuy không có những kết quả mang tính nhảy vọt nhưng có thể thấy rằng số lượng những người quan tâm trong hướng nghiên cứu về xử lý ngôn ngữ tự nhiên

và tiếng nói ngày càng gia tăng, đặc biệt về xử lý ngôn ngữ tự nhiên Điều này thể hiện qua số lượng các sinh viên và sinh viên cao học đăng ký làm khóa luận tốt nghiệp, các khóa giảng trong chương trình cao học tại các Đại học, các bài báo cáo tại các Hội thảo quốc gia… Một số doanh nghiệp đã có những theo đuổi lâu dài về ngôn ngữ tiếng Việt nói chung vẫn tiếp tục theo đuổi và cho ra mắt một số sản phẩm về dịch máy như Lạc Việt http://www.vietgle.vn/beta/default.aspx., một số Công ty khác như Tinh Vân cũng cho ra đời sản phẩm dịch dựa trên luật

http://dich.xalo.vn/, Công ty VIEGRID http://www.viegrid.com/Home/ vừa cho ra mắt sản phẩm phần mềm BOCOHAN hỗ trợ biên dịch Anh – Việt, bộ công cụ Việt soát lỗi tiếng Việt trong văn bản, công cụ giúp người sử dụng tự xây dựng tài nguyên phù hợp với công việc Google cũng đã thêm tiếng Việt vào hệ dịch máy

mở của mình Hiện tại cũng chưa có những phản hồi hoặc các nghiên cứu thống kê đánh giá về độ tin cậy trong sử dụng của các sản phẩm này, nhưng nó cũng đã chứng tỏ nhu cầu sử dụng và mối quan tâm của xã hội

Trường Đại học Khoa học Tự nhiên, ĐHQG-HCM cũng chủ trì để tài cấp nhà nước

Trang 37

“Nghiên cứu, xây dựng một số hệ thống khai thác thông tin đa phương tiện có hỗ trợ tiếng Việt” mã số KC.01.16/06-10 Đề tài này có hai nhánh Nhánh thứ nhất nghiên cứu xây dựng cơ sở tri thức Anh-Việt phục vụ việc tìm kiếm xuyên ngữ Anh-Việt có hỗ trợ ngữ nghĩa Nhánh thứ hai xây dựng hệ thống tìm kiếm dữ liệu video dựa trên công nghệ nhận dạng tiếng nói và xử lý hình ảnh Trường ĐH Khoa học Tự nhiên, ĐHQG-HCM cũng chủ trì đề tài cấp trọng điểm ĐHQG “Xây dựng

hệ thống tổng hợp tiếng nói tiếng Việt dựa trên việc ghép nối các đơn vị ngữ âm cơ sở”, là nghiên cứu ban đầu nhằm tiến tới công nghệ tổng hợp tiếng nói tiếng Việt theo cách tiếp cận dựa trên kho ngữ liệu – mà hiện nay Đề tài chúng tôi đã thực hiện thành công Trường ĐH Khoa học Tự nhiên, ĐHQG-HCM cũng đã chủ trì đề tài nghiên cứu cơ bản (NCCB) “Nghiên cứu cơ sở cho bài toán dịch máy Anh-Việt theo phương pháp BTL” và chủ trì đề tài cấp Thành phố Hồ Chí Minh về dịch máy Anh-Việt Ngoài ra còn có thể kể thêm một số nhóm nghiên cứu về xử lý tiếng nói ở

ĐH Bách Khoa Hà Nội, về dịch máy của ĐH Bách Khoa Tp.HCM

Điều quan trọng là đã có một lực lượng vài chục cán bộ nghiên cứu về xử lý tiếng Việt tại nhiều cơ quan trên cả nước Họ có kiến thức, có ít nhiều kinh nghiệm, có mong muốn và hy vọng đẩy được hướng nghiên cứu, phát triển này lên, và đặc biệt

ý thức được sự hạn chế của tình hình nghiên cứu, phát triển về xử lý tiếng Việt Trong giai đoạn 2006-2010, đã và sẽ có thêm khoảng một hai chục nghiên cứu sinh trong và ngoài nước tốt nghiệp về chuyên ngành này Riêng trong đề tài, do có 8 đơn vị tham gia phối hợp thực hiện, đã có 5 Tiến sĩ đã tốt nghiệp về xử lý ngôn ngữ

tự nhiên liên quan đến tiếng Việt và xử lý tiếng nói Một số Đại học có truyền thống theo đuổi các nghiên cứu về xử lý tiếng nói và văn bản một số năm qua vẫ đang tiếp tục cùng với khả năng bổ sung lực lượng như: Đại học Bách khoa Hà Nội, Đại học Bách Khoa và Đại học Khoa hoc Tự nhiên TpHCM (ĐHQG TpHCM), Đại học Khoa học Tự nhiên và Trường Công nghệ (ĐHQGHN), Trung tâm nghiên cứu đa phương tiện, truyền thông và ứng dụng MICA, Trung tâm Từ điển, Viện Ứng dụng Công nghệ (Bộ KH&CN), Viện Công nghệ Thông tin (Viện KH&CN VN), … Với các kết quả hiện tại có cơ sở khoa học, là bước khởi đầu tốt cho việc xác định các nhiệm vụ chuyên sâu cho giai đoạn tiếp theo

Các kỹ thuật đã sử dụng

Kỹ thuật liên quan đến các sản phẩm xử lý tiếng nói của đề tài:

• Về tổng hợp tiếng nói: 3 phương pháp tổng hợp tiếng nói để có thể áp dụng cho tiếng Việt: (1) ghi âm thuần tuý (cho toàn bộ từ điển); (2) kết nối các đơn

vị âm cơ bản của ngôn ngữ (các âm cơ bản được ghi sẵn) để tạo thành một mẫu âm thanh cho âm tiết bất kỳ (số đơn vị cơ bản là rất nhỏ, không hạn chế

số lượng từ), (3) tái tạo lại tiếng trên cơ sơ phân tích các tham số âm học của tiếng nói (như các phooc măng, tần số cơ bản) Tổng hợp thanh điệu trong các ngôn ngữ có thanh điệu yêu cầu có một mô hình âm học và sinh học phù hợp

Trang 38

ngôn ngữ có thanh điệu Hiện tại một phương pháp mới nổi lên và đã chứng tỏ

có nhiều ưu việt, đó là phương pháp tổng hợp dựa trên Mô hình Markov ẩn trên cơ sở học tham số từ dữ liệu, đề tài đã nghiên cứu và cài đặt thành công cho tổng hợp tiếng Việt và mặc dù không được đăng ký trong nội dung nghiên cứu của Đề tài lúc ban đầu Ưu điểm nổi bật của phương pháp tổng hợp dựa trên HMM là cho phép sinh tiếng nói từ tham số, dễ dàng thay đổi đặc điểm giọng nói, dễ áp dụng cho các ngôn ngữ khác nhau Khi áp các mô hình để nâng cao độ tự nhiên của tiếng nói tổng hợp là có cơ sở toán học, khi các tham

số của mô hình được đánh giá thống kê trên cơ sở dữ liệu văn bản và được đưa vào tính toán

• Về nhận dạng tiếng nói: Các phương pháp mô hình Markov ẩn, mạng nơ ron nhân tạo vẫn là các phương pháp kinh điển và tỏ ra có hiệu quả trong nhận dạng tiếng nói Tuy nhiên với từng ngôn ngữ, việc trích chọn các đặc trưng phù hợp cho nhận dạng là vấn đề cốt lõi Ví dụ như đối với các ngôn ngữ có thanh điệu, việc nhận dạng thanh điệu đóng vai trò quan trọng để nâng cao độ chính xác của các hệ thống nhận dạng từ vựng cỡ trung bình và lớn Ngoài ra, một vấn đề quan trọng khác là cải tiến tốc độ nhận dạng trong việc làm giảm không gian tìm kiếm, đặc biệt trong những môi trường có tài nguyên hạn chế như các ứng dụng nhúng Đề tài đã nghiên cứu và cài đặt thành công các phương pháp dựa trên cây từ vựng và bước đầu nghiên cứu WFST – Weighted Finite State Tranducer – Mô hình hữu hạn trạng thái có trọng số

Kỹ thuật liên quan đến các sản phẩm xử lý văn bản của đề tài:

• Tài nguyên và công cụ của xử lý tiếng nói và văn bản: Tất cả các nước đều đầu tư vào xây dựng các kho ngữ liệu của tiếng nói và ngôn ngữ của mình, xem như việc xây dựng hạ tầng cơ sở Nhiều kho ngữ liệu đã được phổ biến

và xử dụng rộng rãi như MUC, Penn Treebank, Medline, ACL, WordNet, Protégé, …

Cũng như con người, để có thể dịch một văn bản từ ngôn ngữ này sang ngôn ngữ khác, máy cần có một từ điển song ngữ tương ứng, và mộtt từ điển giải nghĩa Các hệ thống dịch chất lượng đều cần những từ điển như vậy (machine readable dictionary)

Phân loại từ (còn gọi là gán nhãn từ loại – part-of-speech tagging) là một trong những nhiệm vụ cơ bản tạo tiền đề cho các nghiên cứu mức cao hơn trong xử

lý ngôn ngữ tự nhiên nói chung và xử lý tiếng Việt nói riêng Trong những năm gần đây, phân loại từ cho các ngôn ngữ phổ dụng như tiếng Anh, Pháp, Đức, Trung Quốc, đã đạt được kết quả cao nhờ vào sự tiến bộ của tính toán thống kê mà cụ thể hơn là các phương pháp xây dựng các mô hình phân lớp, đoán nhận dựa trên các tập ngữ liệu lớn Một thí dụ cụ thể là phân loại từ tiếng Anh đã đạt độ chính xác 97.24% nhờ vào một mô hình thống kê trên gần một triệu lượt từ và kiểm thử trên 150.000 lượt từ của World Street Journal (Penn TreeBank Corpus)

Trang 39

• Về dịch máy: Cùng với các phương pháp dịch máy dựa trên các lý thuyết

ngôn ngữ (linguistic-based machine translation), hai thập kỷ vừa qua đã chứng

kiến sự ra đời và kết quả của các phương pháp không dựa trên lý thuyết ngôn

ngữ (non-linguistic-based paradigms) Tiêu biểu cho tiếp cận này là các

phương pháp dựa trên thống kê (stastical-based machine translation, SBMT) khởi đầu bởi IBM vào cuối những 1980s, và phương pháp dựa trên thí dụ (example-based machine translation) đề xuất bởi Nagao vào năm 1984 Các phương pháp này phụ thuộc rất nhiều vào sự tồn tại và chất lượng của các kho ngữ liệu

Cũng từ thập kỷ 1980, phương pháp song ngữ (Martin Kay và Martin Roscheisen, 1987) được đưa vào sử dụng trong dịch máy dựa trên thống kê Từ

đó đến nay, đã có nhiều phương pháp liên kết văn bản song ngữ ra đời, liên kết trên các cấp độ: đoạn, câu, từ, ngữ,… Gần đây, ngữ liệu song ngữ được sử dụng nhiều trong các hệ thống dịch máy dựa trên thống kê (SBMT), theo kiểu dựa trên thí dụ EBMT (example-based machine translation) hoặc trong các hệ trợ giúp phiên dịch HAMT (human-aided MT)

Ngoài ra, các phương pháp học máy (machine learning) đã được áp dụng rộng rãi trên những kho ngữ liệu song ngữ để rút ra các qui luật tương đồng và dị biệt giữa các cặp ngôn ngữ ở các cấp độ khác nhau (từ, ngữ, câu, ), trên các khía cạnh khác nhau (hình thái, ngữ pháp, ngữ nghĩa, ) Các tiếp cận này đã chứng tỏ được hiệu quả cao, đặc biệt khi cộng đồng nghiên cứu xây dựng được nhiều kho ngữ liệu hơn, và các máy tính hiệu năng cao ngày càng trở nên phổ biến Mặc dù không nằm trong đăng ký, nhưng dịch tự động dựa trên phương pháp thống kê cũng đã được thử nghiệm trên cơ sở các kho ngữ liệu song ngữ được xây dựng trong Đề tài

Trang 40

CHƯƠNG 1 XỬ LÝ TIẾNG NÓI VÀ KẾT QUẢ

1.1 Kết quả nghiên cứu về Tổng hợp và Nhận dạng tiếng Việt

1.1.1 Khảo sát về ngữ âm tiếng Việt

Để có thể tiến hành nghiên cứu về tổng hợp cũng như nhận dạng tiếng Việt, đề tài ban đầu phải tập trung vào nghiên cứu các khía cạnh ngữ âm của tiếng Việt Tiếng Việt là ngôn ngữ đơn âm (monosyllable) và có thanh điệu (tonal) Tiếng Việt

có 6 thanh theo truyền thống (thanh không, hỏi, ngã, nặng, sắc, huyền), và 8 thanh theo ngữ âm học, có khoảng 6.700 âm tiết có nghĩa (trong số hơn 19.000 âm tiết có thể) Âm tiết nào của tiếng Việt cũng mang một thanh điệu và cấu trúc ổn định Cấu trúc tổng quát của âm tiết tiếng Việt được trình bày như sau

Cấu trúc tổng quát của một âm tiết tiếng Việt là (C1)(w)V(C2) Trong đó C1 là phụ âm đầu, (w) là âm đệm, V là âm chính và C2 là âm cuối Âm đầu thường là phụ

âm, được gọi là phụ âm đầu Âm đệm nằm giữa âm đầu và âm chính làm thay đổi

âm sắc của âm tiết Âm chính luôn luôn có mặt trong mọi âm tiết và có chức năng qui định âm sắc chủ yếu của âm tiết Âm chính luôn là nguyên âm Âm cuối là phụ

âm hoặc là bán nguyên âm, có chức năng là cơ sở để phân chia loại hình âm tiết, để nhận ra sự phân bố, xuất hiện của thanh điệu Âm đầu, âm đệm và âm cuối có thể khuyết trong một số trường hợp Thanh điệu luôn có mặt trong âm tiết và có chức năng khu biệt âm tiết về cao độ và thanh điệu là yếu tố siêu đoạn tính

Tiếng Việt gồm 22 phụ âm đầu, 20 phần chính (âm đệm và nguyên âm chính) và

155 phần vần không dấu

Âm vị và các hệ thống âm vị tiếng Việt

Âm vị là đơn vị tối thiểu của hệ thống ngữ âm của một ngôn ngữ dùng để cấu tạo và phân biệt vỏ âm thanh của các đơn vị có nghĩa của ngôn ngữ Âm vị còn có thể được coi là một chùm hoặc một tổng thể đặc trưng các nét khu biệt được thể hiện đồng thời

Phân biệt âm tố với âm vị Biến thể của âm vị

Âm vị là một đơn vị trừu tượng còn âm tố là một đơn vị cụ thể Âm vị được thể hiện ra bằng các âm tố và âm tố là sự thể hiện của âm vị Những âm tố cùng thể hiện một âm vị được gọi là các biến thể của âm vị

Định dạng
Số trang	1.037
Dung lượng	28,37 MB