Xây dựng ứng dụng đọc báo điện tử

Một phần của tài liệu Thiết kế board nhúng hệ điều hành linux, xây dựng ứng dụng tổng hợp tiếng việt trong đọc báo điện tử (Trang 85 - 92)

CHƯƠNG 3: XÂY DỰNG HỆ THỐNG TTS TIẾNG VIỆT VÀ ỨNG DỤNG ĐỌC BÁO ĐIỆN TỬ

3.3. Xây dựng ứng dụng đọc báo điện tử

Ứng dụng đọc báo điện tử phải đáp ứng được tính thời gian thực và dễ dàng với lựa chọn tin tức đối với người sử dụng. Bộ điều khiển và lấy nội dung từ website

được xây dựng trên board iHearTech và kết hợp với hệ thống TTS ở trên để tạo thành một ứng dụng đọc báo điện tử hoàn thiện. Bộ điều khiển và lấy nội dung từ website có nhiệm vụ cập nhập các tin mới và cho người dùng lựa chọn tin tức nào được phát thì ứng dụng sẽ lưu tin đó về board dạng file “.TXT”. Và hệ thống TTS sẽ tiếp tục tổng hợp từ file .TXT vừa được lưu về board thành âm thanh. Ứng dụng đọc báo điện tử được hệ thống gồm hai phần như Hình 3-6.

Bộ điều khiển và lấy nội dung trang web gồm hai module con gồm:

- Module nhận dạng giọng nói: Chương trình sử dụng công cụ HTK toolkit với bộ dữ liệu đã được huấn luyện sẵn trước đó. Người dùng sử dụng giọng nói để lựa chọn nội dung tin tức muốn đọc từ một danh sách các tin tức được cập nhập sẵn. Sau khi người dùng lựa chọn tin tức muốn đọc, module này sẽ gởi đường dẫn tương ứng tới module trích nội dung trang web.

- Module trích nội dung trang web: Sau khi nhận được link, module này sẽ tải nội dung trang web (định dạng html) về thực hiện trích xuất các nội dung trong trang web. Ngõ ra của module này là file văn bản chứa nội dung đã

được trích xuất.

Hình 3-6 Ứng dụng đọc báo điện tử 3.3.1. Module nhận dạng giọng nói

Module nhận dạng giọng nói có nhiệm vụ ghi nhận những câu lệnh của người

nói liên tục hoàn toàn dựa vào việc sử dụng công cụ HTK. HTK (Hidden Markov Model Toolkit) là bộ công cụ phần mềm để xử lý HMMs. Công cụ HTK này chủ yếu dành cho nhận dạng giọng nói, nhưng đã được sử dụng trong nhiều ứng dụng nhận dạng mẫu khác có sử dụng HMMs, bao gồm tổng hợp giọng nói, nhận dạng ký tự và giải trình tự DNA. HTK được phát triển tại Phòng thí nghiệm Machine Intelligence Laboratory (trước đây gọi là Speech Vision and Robotics Group) của Cục Kỹ thuật Đại học Cambridge (CUED).

3.3.1.1. Dữ liệu huấn luyện

Hệ thống được xây dựng bao gồm nhận dạng 10 câu Tiếng Việt sau đây và các dạng ngắn gọn của chúng:

- Tôi muốn nghe tin chính trị xã hội - Tôi muốn nghe tin kinh tế

- Tôi muốn nghe tin pháp luật - Tôi muốn nghe tin văn hóa giải trí - Tôi muốn nghe tin thế giới

- Tôi muốn nghe tin số một - Tôi muốn nghe tin số hai - Tôi muốn nghe tin số ba - Tôi muốn nghe tin số bốn - Tôi muốn nghe tin số năm

Các câu dùng cho huấn luyện và nhận dạng là các mẫu khác nhau, được thu cùng giọng của một người, trong điều kiện giống nhau và ở nhiều thời điểm khác nhau.

Mỗi câu ở trên được huấn luyện với 100 lần đọc cho một câu. Như vậy với 10 câu thì có 1000 lần huấn luyện. Ứng với 10 câu trên thì bộ từ vựng lúc này gồm 24 từ đơn bao gồm các từ sau: “ba”, “bốn”, “chính”, “dục”, “giải”, “giáo”, “giới”, “hai”, “hóa”,

“hội”, “kinh”, “một”, “muốn”, “năm”, “nghe”, “số”, “tế”, “thế”, “tin”, “tôi”, “trí”,

“trị”, “văn”, “xã”. Ứng dụng có thể nhận dạng các câu lệnh linh hoạt của người dùng cho hệ thống đọc báo điện tử với các cú pháp như sau:

- Tôi muốn nghe tin chính trị xã hội - Nghe tin chính trị xã hội

- Tin chính trị xã hội - Chính trị xã hội

Một yếu tố rất quan trọng trong khi thu thập dữ liệu huấn luyện là môi trường trong lúc thu âm có nhiều tín hiệu nhiễu hay không? Để mang tính chất thực tế, không thể nhận dạng trong môi trường thích hợp nhất (gần như không có nhiễu âm thanh) như: phòng nhỏ, không có tiếng của máy quạt, không có gió … Mà quá trình thu âm được thực hiện trong môi trường ít nhiễu âm thanh như: gió nhẹ, trong phòng rộng, tiếng người khác nói nhỏ …

3.3.1.2. Mô hình từ vựng

Mô hình từ vựng được sử dụng để chia các từ thành các phone theo phiên âm của chúng. Nó sẽ giúp cho việc phân rã các mô hình ngữ âm cho từ thành các mô hình nhỏ hơn, mô hình dựa trên phone. Dựa theo tập các câu huấn luyện ở trên, bộ từ vựng tương ứng của nó là 24 từ đơn và âm lặng (silence).

Bảng 3-5 Bộ từ điển phiên âm được áp dụng trong đề tài Từ Cách phiên âm Từ Cách phiên âm

ba b a nghe ngh e

bốn b oos n pháp ph as p

chính ch is nh silence sil

giải d ari số s oos

giới d owsi tế t ees

hai h ai thế th ees

hóa h oas tin t i n

hội h ooji tôi t ooi

Từ Cách phiên âm Từ Cách phiên âm

kinh k i nh trị tr ij

luật l uaaj t trí tr is

một m ooj t văn v aw n

muốn m uoos n xã x ax

năm n aw m 3.3.1.3. Mô hình ngôn ngữ

Mô hình ngôn ngữ (Language Model): lưu trữ các thuộc tính về ngôn ngữ học của ngôn ngữ và cung cấp xác suất xảy ra theo thứ tự của một dãy các từ. Từ góc nhìn của lý thuyết thông tin, cú pháp, ngữ nghĩa và các quy định của ngôn ngữ có thể được xem như là các phần dư thừa. Bởi vì trạng thái tự nhiên của thống kê thật sự là dư thừa, các mô hình ngôn ngữ thường được xây dựng dựa trên các khái niệm thống kê.

tôi muốn nghe

năm

chính trị xã hội

kinh tế

pháp luật

văn hóa giải trí

thế giới

một

số hai

ba bốn Bắt đầu

câu Kết thúc

tin câu

Hình 3-7 Mô hình ngữ pháp trong ứng dụng

Chú thích: Các ô có dấu nền Caro là các từ có thể xuất hiện hoặc không xuất hiện trong câu nhận dạng.

Phương pháp sử dụng ở đây là sử dụng “mô hình ngôn ngữ” bao gồm ngữ pháp và ngữ nghĩa, để phát hiện và thống kê lại một từ thường đi chung với từ nào, trước và sau từ đó là các từ như thế nào để tạo thành câu hay đoạn có nghĩa. Trong những trường hợp cụ thể, mô hình ngôn ngữ giúp cho việc nhận dạng câu nói chính xác hơn là nhận dạng từ đơn.

Mô tả một mô hình đơn giản tương ứng với các từ điểu khiển của ứng dụng đọc báo điện tử được mô tả như Hình 3-7. Trong hình, những ô được đánh dấu caro nghĩa là có thể có hoặc không xuất hiện trong câu điều khiển. Những câu ví dụ trong Mục 3.3.1.1 sẽ có cùng chung một lệnh điều khiển sau khi nhận dạng.

3.3.2. Module trích nội dung trang web

Trong trang web thường có nhiều nội dung khác nhau, việc sử dụng các biểu thức chính quy giúp dễ dàng cô lập được nội dung chính trong file html và lưu các đoạn chuỗi được cắt vào file văn bản. Việc lấy nội dung trên website cũng gặp nhiều khó khăn vì lý do định dạng chữ viết trên các trang báo khác nhau như: UNICODE, UTF- 8, TCVN-3 … Nên hiện tại, trong giới hạn của đề tài, chỉ trích xuất được nội dung của trang báo điện tử Tuổi Trẻ.

Nội dung trang web có cấu trúc của định dạng file html, các dạng chuỗi để đánh dấu nội dung trong trang web để nhận biết gồm:

- Các vị trí đánh dấu đầu chuỗi: “<p>”, “<p class="txt-head">

- Các vị trí đánh dấu cuối chuỗi: “</p>”

Bước đầu tiên, liên kết chứa tin tức được chọn lựa sau khi nhận dạng câu điều khiển phải được nạp vào vùng nhớ đệm. Sau đó, file html mới được lưu trữ. Khi lưu trữ file html của các trang báo điện tử xong, thường định dạng của file html chứa rất nhiều các thông tin khác như đề mục, màu sắc, quảng cáo, hình động … với rất nhiều định dạng trong file. Nhờ có các chuỗi đánh dấu ở trên mà nội dung của trang báo điện tử được xác định chính xác. Khi đã xác định được nội dung, một file .txt được tạo ra để lưu trữ toàn bộ nội dung này chở bước xử lý tiếp theo của quá trình tổng hợp. Lưu đồ giải thuật của module trích nội dung trang báo điện tử được thể hiện trong Hình 3-8.

Bắt đầu

Load file chứa link tin tức muốn đọc

Gọi hàm wget tải file html

Tìm trong file html các chuỗi đánh dấu

vị trí nội dung

Hết file html?

Lưu file text nội dung vừa cắt

Đ

S

Kết thúc

Hình 3-8 Lưu đồ giải thuật module trích nội dung trang web

Một phần của tài liệu Thiết kế board nhúng hệ điều hành linux, xây dựng ứng dụng tổng hợp tiếng việt trong đọc báo điện tử (Trang 85 - 92)

Tải bản đầy đủ (PDF)

(104 trang)