1. Trang chủ
  2. » Luận Văn - Báo Cáo

Nghiên cứu thiết kế chế tạo thiết, hệ thống tự động hoá thông minh sử dụng tương tác người máy bằng tiếng nói trong điều khiển

254 647 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 254
Dung lượng 5,15 MB

Nội dung

BỘ KHOA HỌC VÀ CÔNG NGHỆ BỘ GIÁO DỤC VÀ ĐÀO TẠO CHƯƠNG TRÌNH KHCN CẤP NHÀ NƯỚC KC03 BÁO CÁO TỔNG HỢP KẾT QUẢ KHOA HỌC CÔNG NGHỆ ĐỀ TÀI NGHIÊN CỨU THIẾT KẾ CHẾ TẠO CÁC THIẾT BỊ VÀ HỆ TH

Trang 1

BỘ KHOA HỌC VÀ CÔNG NGHỆ BỘ GIÁO DỤC VÀ ĐÀO TẠO

CHƯƠNG TRÌNH KHCN CẤP NHÀ NƯỚC KC03

BÁO CÁO TỔNG HỢP KẾT QUẢ KHOA HỌC CÔNG NGHỆ ĐỀ TÀI

NGHIÊN CỨU THIẾT KẾ CHẾ TẠO CÁC THIẾT BỊ VÀ HỆ THỐNG TỰ ĐỘNG HÓA THÔNG MINH SỬ DỤNG TƯƠNG TÁC NGƯỜI MÁY BẰNG TIẾNG NÓI TRONG ĐIỀU KHIỂN

MÃ SỐ: KC.03.15/06-10

Cơ quan chủ trì đề tài/dự án: Trường Đại học Bách Khoa Hà Nội Chủ nhiệm đề tài/dự án: GS TS Phạm Thị Ngọc Yến

Hà Nội - 2010

Trang 2

BỘ KHOA HỌC VÀ CÔNG NGHỆ BỘ GIÁO DỤC VÀ ĐÀO TẠO

CHƯƠNG TRÌNH KHCN CẤP NHÀ NƯỚC KC03

BÁO CÁO TỔNG HỢP KẾT QUẢ KHOA HỌC CÔNG NGHỆ ĐỀ TÀI

NGHIÊN CỨU THIẾT KẾ CHẾ TẠO CÁC THIẾT BỊ VÀ HỆ THỐNG TỰ ĐỘNG HÓA THÔNG MINH SỬ DỤNG TƯƠNG TÁC NGƯỜI MÁY BẰNG TIẾNG NÓI TRONG ĐIỀU KHIỂN

Trang 3

1

MỤC LỤC

DANH MỤC CÁC BẢNG 8

DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ 10

DANH MỤC CÁC TỪ VIẾT TẮT 17

Chương 1 Mở đầu 19

1.1 Các thông tin chung về đề tài 19

1.2 Các vấn đề chung 20

1.2.1 Đánh giá sự phát triển của hệ thống thiết bị tự động hóa sử dụng giao tiếp người máy bằng tiếng nói trên thế giới và Việt nam 20

1.2.2 Sản phẩm KHCN của đề tài 24

Tài liệu tham khảo 27

Chương 2 Thiết kế, xây dựng hệ thống giám sát điều khiển sử dụng giao tiếp người máy bằng tiếng nói 30

2.1 Nghiên cứu tương tác người – máy 30

2.1.1 Phân tích đặc tính của con người đối với bài toán điều khiển 30

2.1.2 Các mô hình của tài nguyên tương tác của con người 31

2.1.3 Các mô hình xử lý, ra quyết định và thực thi của con người, các yêu cầu về thông tin của người vận hành 35

2.1.4 Nghiên cứu các yêu cầu đặc trưng về ergonomie của bài toán ứng dụng trung tâm 43

2.2 Sơ đồ kiến trúc liên kết các khối cấu thành của lớp tương tác người-máy trên các hệ thống giám sát điều khiển 55

2.2.1 Xây dựng giải pháp tích hợp và tổ chức các khối chức năng phần cứng cấu thành 55

Trang 4

2

2.2.2 Xây dựng giải pháp tích hợp và tổ chức các khối chức năng phần

mềm cấu thành 63

2.3 Khối giao tiếp thu thập tín hiệu và truyền tin 67

2.3.1 Khối giao tiếp người máy bằng tiếng nói 67

2.3.2 Khối thu thập tín hiệu âm thanh 71

2.3.3 Các phương thức truyền số liệu 73

2.3.4 Mô đun phần cứng tích hợp các khối giao tiếp, thu thập dữ liệu, truyền tin kết nói với máy tính trung tâm 76

2.4 Khối xử lý trung tâm 76

2.4.1 Mô đun trích chọn thông tin 76

2.4.2 Mô đun nhận dạng câu lệnh 85

2.4.3 Mô đun phản hồi thông tin bằng tiếng nói 98

2.4.4 Mô đun lọc nhiễu và nâng cao tín hiệu 113

2.4.5 Hệ chuyên gia phân tích xử lý câu lệnh 119

2.5 Phòng thông minh điều khiển bằng tiếng nói 129

2.5.1 Phân tích thiết kế phòng thông minh điều khiển bằng tiếng nói 129

2.5.2 Kịch bản triển khai điều khiển các thiết bị trong phòng thông minh 130 2.5.3 Điều khiển cửa bằng tiếng nói 132

2.5.4 Điều khiển điều hòa bằng tiếng nói 133

2.5.5 Điều khiển vô tuyến bằng tiếng nói 134

2.5.6 Điều khiển đèn bằng tiếng nói 134

2.5.7 Điều khiển camera bằng tiếng nói 135

2.5.8 Thử nghiệm/Đánh giá hệ thống 135

Trang 5

3

2.6 Hệ thống giám sát điều khiển tính toán đường đáy, hiệu chỉnh trận địa pháo phòng không và tự động nạp tham số cự ly mục tiêu bằng tiếng

nói 136

2.6.1 Giới thiệu chung 136

2.6.2 Các thuật toán 137

2.6.3 Thiết kế hệ thống 144

2.6.4 Phương pháp tương tác 146

2.6.5 Chỉ tiêu kỹ thuật của hệ thống 148

2.6.6 Ưu điểm nổi trội của phương pháp so với các phương pháp khác 149 Tài liệu tham khảo 152

Chương 3 Thiết kế, xây dựng các thiết bị sử dụng tương tác người máy bằng tiếng nói trên hệ thống nhúng 161

3.1 Đặc điểm chung của thiết bị sử dụng tương tác người máy bằng tiếng nói trên hệ thống nhúng 161

3.2 Cấu trúc hệ thống 161

3.3 Khối giao tiếp, thu thập dữ liệu và truyền tin 163

3.3.1 Tương tác người máy bằng tiếng nói trong các ứng dụng nhúng 163

3.3.2 Mô đun thu thập dữ liệu 166

3.3.3 Các mô đun truyền tin 166

3.4 Khối xử lý trung tâm trên các vỉ phát triển vi xử lý 170

3.4.1 Mô đun xử lý tín hiệu và trích chọn đặc trưng 170

3.4.2 Triển khai và thích nghi các mô-đun nhận dạng từ đơn âm tiết và đa âm tiết 171

Trang 6

4

3.4.3 Mô đun tổng hợp tiếng Việt phục vụ bài toán tương tác người máy

bằng tiếng nói 173

3.5 Mô đun quản lý CSDL tiếng nói trên DSP 179

3.5.1 Phân tích, phân nhóm CSDL theo kích thước và theo các yếu tố đặc thù của các tương tác người máy trong các ứng dụng nhúng 179

3.5.2 Thiết kế, xây dựng không gian bộ nhớ quản lý lưu trữ cơ sở dữ liệu trên ứng dụng nhúng 180

3.6 Rô bốt BIOLOID điều khiển bằng tiếng nói 183

3.6.1 Giới thiệu chung 183

3.6.2 Sơ đồ điều khiển 185

3.6.3 Nguyên lý hoạt động 187

3.6.4 Phương pháp tương tác 189

3.6.5 Chỉ tiêu kỹ thuật 190

3.6.6 Thử nghiệm/Đánh giá 190

3.7 Điều khiển quạt bằng tiếng nói 191

3.7.1 Sơ đồ điều khiển 191

3.7.2 Nguyên lý hoạt động 193

3.7.3 Phương pháp tương tác 196

3.7.4 Chỉ tiêu kỹ thuật 197

3.7.5 Thử nghiệm/Đánh giá 197

Tài liệu tham khảo 198

Chương 4 Phần mềm quản lý cơ sở dữ liệu tiếng nói 200

4.1 Giới thiệu chung về quá trình xây dựng CSDL 200

4.2 Các vướng mắc trong quá trình thu thập cơ sở nhập liệu (CSNL) 200

Trang 7

5

4.3 Các yêu cầu quản lý CSNL 201

4.3.1 Yêu cầu về môi trường 202

4.3.2 Yêu cầu về kiến trúc hệ thống 202

4.4 Mô tả chi tiết các chức năng chính 204

4.4.1 Tìm kiếm dữ liệu 204

4.4.2 Thêm các dữ liệu vào một ngữ liệu, thêm một ngữ liệu mới vào CSNL 205

4.4.3 Sửa dữ liệu trong CSNL 206

4.4.4 Xóa ngữ liệu trong CSNL 206

4.4.5 Hiển thị dữ liệu 207

4.5 Giao diện mẫu chương trình 208

4.6 Thiết kế hệ thống 210

4.6.1 Mô hình của hệ thống 210

4.6.2 Thiết kế sơ bộ các chức năng của hệ thống 211

4.6.3 Cơ sở dữ liệu 213

4.7 Kết quả thực hiện 214

4.8 Kiểm thử và đánh giá 215

4.9 Hướng phát triển 215

Chương 5 Định hướng phát triển hệ thống trong môi trường tương tác thực có nhiễu 216

5.1 Giới thiệu 216

5.2 Phương pháp sử dụng mảng microphone 217

5.2.1 Phương pháp sử dụng kỹ thuật tạo chùm (beamforming) 218

Trang 8

6

5.2.2 Phương pháp sử dụng kỹ thuật che thời gian- tần số (time-frequency

masking) 219

5.2.3 Phương pháp sử dụng kỹ thuật tách nguồn mù (Blind source separation) 220

5.2.4 Phương pháp sử dụng kỹ thuật phân tích dựa trên mô hình thính giác CASA (Computational Auditory Scene Analysis) 221

5.3 Phương pháp chuẩn hóa vec-tơ đặc trưng 221

5.3.1 Phương pháp chuẩn hoá trung bình hệ số giả phổ CMN (Cepstral Mean Normalization) 222

5.3.2 Chuẩn hóa phương sai hệ số giả phổ CVN (Cepstral variance normalization) 223

5.3.3 Chuẩn hóa biểu đồ giả phổ CHN (Cepstral Histogram Normalization) 223

5.3.4 Xác định tiếng nói VAD (Voice Activity Detection) 224

5.4 Phương pháp thích nghi mô hình âm học 225

5.4.1 Huấn luyện lại mô hình 225

5.4.2 Phương pháp chuỗi vec-tơ Tay-lo VTS (Vector Taylor Series) 226

5.4.3 Phương pháp MLLR (Maximum Likelihood Linear Regression) 227 5.4.4 Phương pháp kết hợp mô hình song song PMC (Parallel Model Combination) 228

Chương 6 Đánh giá kết quả thực hiện 230

6.1 Kết quả thực hiện 230

6.1.1 Về sản phẩm 230

6.1.2 Về tài liệu khoa học 231

Trang 9

7

6.1.3 Về đào tạo 231

6.2 Đánh giá hiệu quả của đề tài 231

6.2.1 Hiệu quả kinh tế 231

6.2.2 Hiệu quả xã hội 232

6.2.3 Hiệu quả về khoa học công nghệ 232

6.3 Đánh giá tính mới, tính sáng tạo của đề tài 234

6.3.1 Tính mới của đề tài 234

6.3.2 Tính sáng tạo 234

6.4 Đánh giá mức độ hoàn thành của đề tài 234

6.4.1 Về sản phẩm 234

6.4.2 Về kinh phí 234

Lời cảm ơn 236

Trang 10

8

DANH MỤC CÁC BẢNG

Bảng 2-1: Đặc tính kỹ thuật của microphone AKG Perception 400 72

Bảng 2-2: Các thông số của mạch chuẩn hóa 73

Bảng 2-3: so sánh đặc tính cơ bản các phương thức truyền tin không dây Bluetooth, Zigbee,Wifi 75

Bảng 2-4: Các từ trong CSDL điều khiển 101

Bảng 2-6: Các loại đơn vị âm trong tiếng Việt 103

Bảng 2-7: Tỉ sổ tín hiệu trên nhiễu phân đoạn cải thiện được của 3 phương pháp: trừ phổ, MMSE và OMLSA ở 0dB 118

Bảng 2-8: Tỉ sổ tín hiệu trên nhiễu phân đoạn cải thiện được của 3 phương pháp: trừ phổ, MMSE và OMLSA ở 5dB 118

Bảng 2-8: Tương tác người – máy điều khiển mở cửa 132

Bảng 2-10: Hệ thống tương tác người-máy điều khiển điều hòa 133

Bảng 2-11: Hệ thống tương tác người-máy điều khiển vô tuyến 134

Bảng 2-12: Hệ thống tác người-máy điều khiển đèn chiếu sáng 135

Bảng 2-13: Hệ thống tương tác người-máy điều khiển camera 135

Bảng 3-3: Phân nhóm CSDL theo tài nguyên sử dụng 179

Bảng 3-4: Các đặc tính của động cơ AX-12 183

Bảng 3-5: Các đặc tính của cảm biến AX-S1 185

Bảng 3-6: Tập lệnh điều khiển robot 189

Bảng 3-5: Các câu lệnh điều khiển quạt 193

Bảng 3-6: GPIO của các chân cổng mở rộng 194

Bảng 4-1: Bảng account 213

Bảng 4-2: Bảng CSDL 213

Trang 11

9

Bảng 4-3: Bảng account CSDL 214

Bảng 4-4: Bảng người nói 214

Bảng 4-5: Bảng dữ liệu 214

Bảng 4-6: Bảng kiểu ngôn ngữ và kiểu dữ liệu 214

Bảng 4-7: Đánh giá kết quả chạy chương trình trên IE 6.0 và Firefox 1.5 215

Trang 12

10

DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ Hình 1-1: Điều khiển robot bằng tiếng nói giao tiếp bằng micro đeo tai [Pires

2005] 21

Hình 2-1: Các hoạt động nhận thức, trí não, vật lý của người vận hành [Villemeur 88] 30

Hình 2-2: Ba hệ thống lưu giữ thông tin 31

Hình 2-3: Mô hình của bộ nhớ con người [Card 83] 32

Hình 2-4: Mô hình ACT* 33

Hình 2-5: Mô hình thang ra quyết định 36

Hình 2-6: Ba dạng phối hợp cơ bản 37

Hình 2-7: Bảy bước của lý thuyết hành động Norman đã được thích nghi cho bối cảnh giám sát 38

Hình 2-8: Hai cách xây dựng hướng dẫn ergonomie và hướng dẫn về cách trình bày 45

Hình 2-9: Một số định dạng hiển thị 47

Hình 2-10: Phân chia màn hình thành 4 vùng chiến lược 47

Hình 2-11: Các hình thức biểu diễn thông thường trong cuộc sống hàng ngày 49 Hình 2-12: Ví dụ về cách biểu diễn đúng và sai các hàm động có cùng đơn vị và cùng dải đo 49

Hình 2-13: Các chức năng chính của hệ thống 56

Hình 2-14: Các hệ thống phần cứng con của hệ điều khiển trung tâm 57

Hình 2-15: Các thành phần phần cứng cơ bản của hệ thống giám sát và điều khiển của phòng điều khiển trung tâm / nhà thông minh 57

Hình 2-16: Mô hình MVC 59

Trang 13

11

Hình 2-17: Mô hình phân cấp các cái nhìn trong MVC 59

Hình 2-18:Kiến trúc của một hệ thống tương tác bằng các đối tượng PAC 60

Hình 2-19:Mô hình kiến trúc theo kênh 60

Hình 2-20: Giải pháp tích hợp và tổ hợp các khối chức năng phần cứng cho kênh nhận dạng tiếng nói 61

Hình 2-21: Giải pháp tích hợp các kênh phản hồi âm thanh (tổng hợp tiếng) với mô hình MVC làm mô hình tham chiếu 62

Hình 2-22: Cấu trúc của mô hình kiến trúc 5 lớp 64

Hình 2-23: Kiến trúc của mẫu mô hình kiến trúc theo kênh 64

Hình 2-24: Mô hình hóa hệ tương tác [Foley 82] 65

Hình 2-25: Mô hình SEEHEM 65

Hình 2-26: Mô hình MVC 66

Hình 2-27: Kiến trúc của một hệ thống tương tác bằng các đối tượng PAC 66

Hình 2-28: Sơ đồ khối tổng quát của khối tương tác người-máy bằng tiếng nói của một hệ thống giám sát 67

Hình 2-29: Các mô-đun con của mô-đun tương tác người – máy đa phương thức 68

Hình 2-30: Các mô hình trong mô-đun tương tác nhận thức 69

Hình 2-31: Sơ đồ mạch tiền khuếch đại với microphone 72

Hình 2-32: Mạch chuẩn hóa của micrphone 73

Hình 2-33: Kiến trúc hệ thống truyền tin hữu tuyến 74

Hình 2-34: Sơ đồ tích hợp khối thu thập số liệu và truyền tin 76

Hình 2-35: Sơ đồ của một bộ trích chọn đặc trưng 77

Hình 2-36: Nguyên lý tính hệ số MFCC 78

Trang 14

12

Hình 2-37: Cửa sổ Hamming 79

Hình 2-38: Minh họa các bộ lọc mel-scale tam giác (triangle mel-scale filters) 80 Hình 2-39: Nguyên lý tính hệ số PLP 81

Hình 2-40: (a) Dạng sóng của tín hiệu tiếng nói hữu thanh ; (b) Dạng sóng dao động của dây thanh 84

Hình 2-41: Xác định tần số cơ bản dựa trên cepstrum 85

Hình 2-42: Mô hình quá trình tạo và nhận dạng tiếng nói 85

Hình 2-43: Sơ đồ khối của hệ thống nhận dạng tiếng nói 86

Hình 2-44: Giao diện của chương trình nhận dạng 98

Hình 2-45: Cấu trúc cơ bản của một hệ thống tổng hợp tiếng nói 99

Hình 2-46: Các loại đơn vị âm cho tổng hợp 103

Hình 2-47: Xây dựng CSDL đơn vị âm 104

Hình 2-48: Một đơn vị âm được trích chọn và thông tin ngữ cảnh của nó, mô-đun quản lý dữ liệu đơn vị âm tổng hợp 104

Hình 2-49: Giao diện mô-đun quản lý đơn vị âm 104

Hình 2-50: Ví dụ về quá trình phân đoạn các nhóm sử dụng cây quyết định 105

Hình 2-51: Chọn lựa các đơn vị âm tốt nhất để tổng hợp câu “chào chị” 106

Hình 2-52: Biến đổi cao độ tín hiệu với TD-PSOLA trong trường hợp β>1[Moulines 1995] 106

Hình 2-53: Biến đổi trường độ tín hiệu với TD-PSOLA trong trường hợp tăng trường độ[Moulines 1995] 107

Hình 2-54: Sự không liên tục về pha [Huang 2001] 107

Hình 2-55: Ví dụ về sự không liên tục về phổ khi tổng hợp âm tiết /do/ từ các đơn vị âm /_do/ và /o_/ 108

Trang 15

13

Hình 2-56: Đánh dấu đỉnh 108

Hình 2-57: Ghép nối đơn vị âm để tổng hợp câu nói “Tôi tên là Hương” 109

Hình 2-58: Tín hiệu dạng sóng, spectrogram và đường cong F0 của câu nói tổng hợp “Tôi tên là Hương” 109

Hình 2-59: Tính toán các điểm đánh dấu cao độ theo phương pháp biến đổi tần số cơ bản (β = 3/2) [Moulines 1995] 110

Hình 2-60: Biến đổi trường độ của tiếng nói 111

Hình 2-61: Biến đổi cao độ tín hiệu với TD-PSOLA trong trường hợp β>1 [Moulines 1995] 112

Hình 2-62: Biến đổi trường độ tín hiệu với TD-PSOLA trong trường hợp tăng trường độ [Moulines 1995] 112

Hình 2-63: Biến đổi trường độ của tiếng nói 113

Hình 2-64: Âm tiết /ba/ với 6 thanh điệu của tiếng Việt 113

Hình 2-65: Lưu đồ thuật toán của phương pháp trừ phổ 115

Hình 2-66: Lưu đồ thuật toán phương pháp MMSE 115

Hình 2-67: Lưu đồ thuật toán phương pháp OM-LSA 116

Hình 2-68: Lưu đồ thuật toán nâng cao chất lượng tiếng nói theo phương pháp OM-LSA 117

Hình 2-69: Tính toán hệ số khuếch đại trong miền tần số 117

Hình 2-70: Ước lượng công suất của nhiễu theo thuật toán IRMCA 117

Hình 2-71: Tín hiệu tiếng nói có nhiễu (bên trái), tín hiệu tiếng nói sau khi loại bỏ nhiễu (bên phải) 118

Hình 2-72: Cấu trúc cơ bản của hệ thống hiểu tri thức ngôn ngữ nói 119

Hình 2-73: Cấu trúc cơ bản của hội thoại: khởi tạo và trả lời 124

Trang 16

14

Hình 2-74: Các hệ thống con của hệ thống tạo và biểu diễn thông điệp 128

Hình 2-75: Sơ đồ cấu trúc của kết nối của các thiết bị trong phòng điều khiển trung tâm 131

Hình 2-76: Ví dụ màn hình giao diện trong phòng thông minh 132

Hình 2-77: Sơ đồ khối của bộ điều khiển điều hòa 133

Hình 2-78: Thuật toán xác định cự ly mục tiêu 139

Hình 2-79: Hệ tọa độ cầu 140

Hình 2-80: Hệ tọa độ Descartre 141

Hình 2-81: Sơ đồ hệ thống đo, tính toán ngoại suy cự ly 144

Hình 2-82: Sơ đồ hệ thống xác định số liệu đường đáy 145

Hình 3-1: Sơ đồ khối các mô-đun phần cứng hệ thống nhúng cho giao tiếp bằng tiếng nói 163

Hình 3-2: Sơ đồ khối chức năng của bộ thu thập tín hiệu tiếng nói 166

Hình 3-3: Sơ đồ khối chức năng của hệ thống truyền tin cho khối xử lý trung tâm 167

Hình 3-4: Sơ đồ khối củaTPS65950 168

Hình 3-5: Sơ đồ nguyên lý ghép nối giữa CODEC và xử lý số tín hiệu 169

Hình 3-6: Sơ đồ khối các mô-đun xử lý tín hiệu và trích chọn thông tin 170

Hình 3-7: Sơ đồ khối hệ thống nhận dạng 172

Hình 3-8: Biểu đồ hoạt động tổng quát của chương trình tổng hợp tiếng nói trên DSP 174

Hình 3-9: File phân tích văn bản đầu vào 174

Hình 3-10: Các module trong chương trình tổng hợp tiếng nói trên DSP 176

Hình 3-11: Tỷ lệ sai số nhận dạng âm tiết của hai nhóm dữ liệu 177

Trang 17

15

Hình 3-12: Kết quả bài đánh giá MOS đối với 2 nhóm dữ liệu 178

Hình 3-13: Cấu trúc của CSDL dùng cho chương trình tổng hợp tiếng nói trên DSP 181

Hình 3-14: Phần thông tin về một đơn vị âm trong CSDL 181

Hình 3-15: Tổ chức bộ nhớ SDRAM trong chương trình 182

Hình 3-16: Roobot nhện 6 chân lắp ráp từ bộ kit Bioloid 183

Hình 3-17: Sơ đồ điều khiển robot bằng tiếng nói 186

Hình 3-18: Mô hình của một chân nhện 188

Hình 3-19: Sơ đồ thiết bị 192

Hình 3-20: Các chân cổng mở rộng của bo mạch nhúng 192

Hình 3-21: Sơ đồ điều khiển 193

Hình 3-22: Sơ đồ thuật toán 196

Hình 4-1: Biểu đồ ca sử dụng 203

Hình 4-2 : Biểu đồ phân cấp chức năng của hệ thống 203

Hình 4-3: Quy trình thực hiện tìm kiếm 204

Hình 4-4: Biểu đồ phân cấp chức năng tìm kiếm 205

Hình 4-5: Tổng quan về chương trình quản lý CSDL tiếng nói 205

Hình 4-6: Quy trình thực hiện chức năng thêm dữ liệu 205

Hình 4-7: Quy trình thực hiện chức năng sửa dữ liệu 206

Hình 4-8: Quy trình thực hiện chức năng xóa dữ liệu 207

Hình 4-9: Quy trình thực hiện chức năng xem và hiển thị dữ liệu 207

Hình 4-10: Giao diện màn hình đăng nhập 208

Hình 4-11: Giao diện màn hình thêm mới dữ liệu 208

Trang 18

16

Hình 4-12: Giao diện màn hình tìm kiếm dữ liệu 209

Hình 4-13: Giao diện màn hình hiển thị kết quả tìm kiếm 209

Hình 4-14: Giao diện màn hình hiển thị tín hiệu và thông tin file 209

Hình 4-15: Mô hình Client / Server của hệ thống 210

Hình 4-16: Sơ đồ hoạt động của các công nghệ lập trình lựa chọn 210

Hình 4-17: Sơ đồ của chức năng thêm một ngữ liệu dữ liệu mới 211

Hình 4-18: Sơ đồ nhúng java applet vào trong trang web 212

Hình 4-19: Quan hệ giữa các bảng dữ liệu 213

Trang 19

17

DANH MỤC CÁC TỪ VIẾT TẮT

ACT Adative Control of Thought

ADC Analog to Digital Converter

CG Đồ thị nhận thức

CSDL Cơ sở dữ liệu

CSNL Cơ sở nhập liệu

DAC Digital to Analog Converter

DCT Discrete cosine transform

DSP Digital signal processor

FFT Fast Fourier Transformer

GPIO General purpose input/output

HMM Hidden Markov Model

IIS Internet Information Service

IMCRA Phương pháp điều khiển trung bình đệ quy cực tiểu cải tiến

LPC Linear Predictive Coding

LPF Low pass filter

MAP Maximum A Posteriori

MFCC Mel-frequency cepstral coefficients

MLLR Maximum Likelihood Linear Regression

MMSE Minimum Mean Square Error

NSNN Ngân sách nhà nước

Trang 20

18

OM-LSA Phương pháp tối ưu hóa ước lượng phổ biên độ theo thang

logarithm

PDA Personal Digital Assistant

PLC Power Line Communication

PLP Perceptual Linear Predictive

PSOLA Pitch Synchronous Overlap and Add

PWM Pulse Width Modulation

RAM Random access memory

RFID Radio frequency Identification

SNR Tỷ lệ tín hiệu trên nhiễu

SPLICE Stereo-based Piecewise Linear Compensation for

Environments TD-PSOLA Time domain Pitch Synchronous Overlap and Add

Trang 21

19

1.1 Các thông tin chung về đề tài

 Tên đề tài: Nghiên cứu thiết kế chế tạo các thiết bị và hệ thống tự động

hoá thông minh sử dụng tương tác người-máy bằng tiếng nói trong điều khiển

 Thuộc chương trình KHCN cấp Nhà nước : Nghiên cứu khoa học và phát triển công nghệ Tự động hóa, Mã số chương trình : KC.03

 Cấp quản lý : Nhà nước

 Thời gian thực hiện: 24 tháng (1/2009-12/2010)

 Kinh phí thực hiện đề tài : 3.141.000 đồng (ba tỷ một trăm bốn mươi mốt triệu đồng)

- Trong đó, từ Ngân sách nhà nước: 3.141.000 đồng (ba tỷ một trăm bốn mươi mốt triệu đồng)

- Kinh phí từ các nguồn khác:

 Tổ chức chủ trì thực hiện đề tài: Trường Đại học Bách Khoa Hà Nội

 Địa chỉ: Số 1 Đại Cồ Việt, Quận Hai Bà Trưng, Thành phố Hà Nội

 Điện thoại: (04) 38 68 30 87 Fax: (04) 38 68 35 51

 Chủ nhiệm đề tài: Phạm Thị Ngọc Yến

Trang 22

20

1.2 Các vấn đề chung

1.2.1 Đánh giá sự phát triển của hệ thống thiết bị tự động hóa sử dụng giao

tiếp người máy bằng tiếng nói trên thế giới và Việt nam

Trên thế giới , các hệ thống tương tác người máy bằng tiếng nói được phát

triển trong nhiều lĩnh vực khác nhau:

- Trong quân sự: tương tác người máy bằng tiếng nói được sử dụng trong các chương trình nhằm nâng cao khả năng tương tác của phi công trong điều khiển máy bay chiến đấu, máy bay trực thăng của quân đội Mỹ [Weinstein 1990], Pháp, Anh [Internet01], Thuỵ Điển [Englund 2004] Trong các ứng dụng này, các giao tiếp bằng tiếng nói được sử dụng để thực hiện các chức năng: thiết lập các tần số vô tuyến, ra lệnh hệ thống lái tự động, giám sát màn hình điều khiển và thiết lập toạ độ và các tham số vũ khí chiến đấu Ngoài ra, trong các hệ thống huấn luyện ảo được sử dụng trong quân đội Mỹ, Pháp, hệ thống tương tác kết hợp cả hai công nghệ nhận dạng và tổng hợp tiếng đóng vai trò như một đối tác ảo (pseudo) tương tác với người được huấn luyện

- Trong hệ thống thông tin liên lạc, các ứng dụng của công nghệ nhận dạng tiếng nói tự động đã ngày càng phổ biến, với các dịch vụ quay số bằng tiếng nói, các máy trả lời điều khiển bằng tiếng nói [Junqua 2004] [Internet02]

- Trong công nghiệp, công nghệ nhận dạng tiếng được tích hợp trong những rô bốt điều khiển công nghiệp [Pires 2005] (Hình 1-1), những rô bốt thông minh như Asimo của hãng Honda [Desesprement 2007] Năm 2005, tại triển lãm Aichi ở Nhật Bản, công ty Kokoro đã giới thiệu tới người xem rô bốt tiếp tân có khả năng giao tiếp được bằng tiếng nói và làm nhiệm vụ của một nhân viên tiếp tân

Trong lĩnh vực y tế, nhận dạng tiếng được sử dụng trong các hệ thống nhập dữ liệu Hỗ trợ người tàn tật đặc biệt là những người có khuyết tật ở tay và chân và không thể sử dụng chúng để tương tác với các thiết bị cần dùng, hay những người có thính giác kém hiện là hướng đang quan tâm của công nghệ nhận dạng tiếng nói [Internet 03]

Trang 23

21

Hình 1-1: Điều khiển robot bằng tiếng nói giao tiếp bằng micro đeo tai [Pires 2005]

Ngoài ra, có nhiều lĩnh vực khác sử dụng công nghệ xử lý tiếng nói nói chung và công nghệ nhận dạng nói riêng được sử dụng từ mức độ thấp tới mức

độ cao NASA ứng dụng công nghệ nhận dạng tiếng nói trong các phòng điều khiển đặt trên trạm vũ trụ ISS, qua đó hỗ trợ các nhà du hành giảm bớt việc di chuyển trong dự án “Những khả năng tiên tiến trong các hệ thống giao tiếp ngôn ngữ tự nhiên hội thoại bằng tiếng nói” (Advanced Capabilities for Spoken Dialogue- natural language Interface Systems) [Hockey 2008] Trong hệ thống điều khiển ô tô của hãng Ford, công nghệ nhận dạng tiếng nói được ứng dụng nhằm trợ giúp người lái điều khiển, giám sát một số chức năng bằng tiếng nói Ngoài ra công nghệ nhận dạng tiếng còn được sử dụng trong chế tạo rô bốt đồ chơi của trẻ em

Tại Việt Nam, lĩnh vực xử lý tiếng nói cho tiếng Việt mới thực sự được quan

tâm trong khoảng gần 10 năm trở lại đây với các nghiên cứu của [Nguyễn Quốc Cường 2002], [Lê Xuân Hùng 2003], [Nguyễn P.B 2003], [Lê Việt Bắc 2006] [Nguyễn Việt Sơn 2003] [Vu Tat Thang 2005] [Trần Đỗ Đạt 2007], [Nguyễn Hồng Quang 2008], và mới đây nhất là các đề tài Đề tài cấp nhà nước mã số KC 01-03 “Nghiên cứu phát triển công nghệ nhận dạng, tổng hợp và xử lý ngôn ngữ Việt”

Trang 24

22

Nghiên cứu của [Lê Xuân Hùng 2003] và [Trần Đỗ Đạt 2007] trình bày các vấn đề về tổng hợp tiếng Việt từ văn bản Trong [Trần Đỗ Đạt 2007] tác giả đã phân tích những biến đổi tần số cơ bản của thanh điệu tiếng Việt không chỉ ở trạng thái tĩnh mà còn cả trạng thái động (tức là trong lời nói liên tục) Những

mô hình về thanh điệu, và ngữ điệu và về trường độ của tiếng Việt đã được tác giả xây dựng Tuy nhiên nghiên cứu này vẫn chưa giải quyết triệt để các vấn đề

về đồng cấu âm thanh điệu, về ảnh hưởng của ngữ điệu lên thanh điệu

Các nghiên cứu của [Nguyễn Quốc Cường 2002] [Nguyễn Phú Bình 2003] [Lê Việt Bắc 2006] và [Vu Tat Thang 2005], tập trung vào việc nhận dạng tiếng Việt Trong đó nghiên cứu của [Nguyễn Quốc Cường 2002] [Nguyễn Phú Bình 2003] mới dừng lại ở mức nhận dạng các từ rời rạc Trong nghiên cứu của [Nguyễn Quốc Cường 2002], tác giả đã tập trung vào vấn đề thanh điệu của tiếng Việt, đây là một trong những đặc trưng khác biệt rõ nét của tiếng Việt so với các ngôn ngữ khác Tác giả đã chỉ ra rõ 8 thể hiện của đường cong tần số cơ bản (F0) của thanh điệu Sau khi đã phân tích sự biến đổi F0, tác giả tập trung giải quyết vấn đề nhận dạng thanh điệu của tiếng Việt Tuy nhiên tại nghiên cứu này, tác giả mới dừng lại các bài toán về thanh điệu trong trạng thái tĩnh, có nghĩa là trong các âm tiết rời rạc Nghiên cứu của [Nguyễn Hồng Quang 2008], [Lê Việt Bắc 2006] [Nguyễn Việt Sơn 2004] và [Vu Tat Thang 2005] đã bắt đầu giải quyết nhận dạng tiếng nói liên tục trong tiếng Việt Các nghiên cứu này sử dụng mô hình Markov ẩn để huấn luyện và nhận dạng tiếng nói Trong nghiên cứu của [Lê Việt Bắc 2006], tác giả có đưa ra các phương pháp thích nghi nhằm

áp dụng những mô hình đã được huấn luyện cho các ngôn ngữ giàu nguồn tài nguyên như tiếng Anh, Pháp, cho tiếng Việt Tuy nhiên cả ba nghiên cứu này chưa đề cập tới bài toán về thanh điệu của tiếng Việt trong lời nói liên tục, ngoài

ra kết quả nhận dạng còn hạn chế (độ chính xác ~70%) nếu so với các kết quả của tiếng Anh, Pháp Nghiên cứu của [Nguyễn Hồng Quang 2008] xây dựng hệ thống nhận dạng tiếng Việt từ điển lớn có sử dụng thông tin về thanh điệu để

Trang 25

23

nâng cao chất lượng nhận dạng

Trong đề tài nghiên cứu khoa học cấp nhà nước mã số KC01-03, ba vấn đề

cơ bản là, Nhận dạng tiếng nói, Tổng hợp tiếng nói và Xử lý ngôn ngữ cho tiếng Việt được đặt ra Các bài toán đưa ra để giải quyết tương đối đầy đủ, tuy nhiên mới dừng ở mức đơn giản tập trung vào nghiên cứu, chưa đi sâu vào ứng dụng đối với các bài toán cụ thể

Việc ứng dụng xử lý tiếng nói vào các lĩnh vực khác ở Việt Nam hiện nay cũng còn rất mới mẻ, chưa có ứng dụng nào đáng kể trong thực tế Cũng có một

số sản phẩm về nhận dạng cũng như tổng hợp về tiếng nói được giới thiệu như phần mềm tổng hợp tiếng Việt VnVoice 1.0 được phát triển bởi Phòng nhận dạng và công nghệ tri thức - Viện công nghệ thông tin [Internet04], phần mềm nhận dạng tiếng Việt VSpeech được phát triển bởi nhóm BK02 [Internet05] Phần mềm này được phát triển trên nền tảng dựng sẵn của Microsoft (Microsoft Recognition Engine) áp dụng cho tiếng Anh, thiếu những nghiên cứu cơ bản và chuyên sâu về các đặc tính của tiếng Việt nhằm phục vụ cho việc mở rộng các ứng dụng sau này cũng như là có thể phát triển thành hệ thống nhận dạng lời nói liên tục, lượng từ vựng lớn

Để có thể mở rộng các ứng dụng của xử lý tiếng nói (nhận dạng và tổng hợp), các ứng dụng của công nghệ này không chỉ được phát triển trên máy tính

mà cần phải được phát triển trên các hệ nhúng Tuy nhiên tại Việt Nam, vấn đề này cũng chưa thực sự phát triển, mới chỉ có những nghiên cứu thực hiện dưới dạng đề tài sinh viên, hay những đề tài khoa học cấp khoa hay cấp trường của trường đại học

Qua những phân tích trên đây, có thể thấy các trang thiết bị điều khiển giám sát bằng tiếng nói sẽ là một xu hướng phát triển tất yếu trong xã hội hiện đại sau này Chính vì vậy việc nghiên cứu chế tạo các thiết bị giao tiếp bằng tiếng nói là những yêu cầu đòi hỏi cấp thiết đối với các nhà khoa học Đề tài “Nghiên cứu thiết kế chế tạo các thiết bị và hệ thống tự động hoá thông minh sử dụng tương

Trang 26

 Nhận dạng xử lý khoảng 100 câu lệnh bằng tiếng nói bao gồm các từ đơn,

từ ghép và các câu điều khiển

- Độ chính xác của nhận dạng 90% trong môi trường văn phòng ít nhiễu

- Tốc độ nói bình thường

- Thích nghi theo phương ngữ chuẩn miền Bắc

- Tốc độ đáp ứng (dưới quan điểm tương tác người máy) < 2s

- Tạo được lời nói tổng hợp tương tác với người điều khiển

 Chất lượng âm thanh tổng hợp đánh giá trên chuẩn kiểm tra MOS >3,5/5

 Thu thập số liệu:

- Tần số lấy mẫu: 8kHz – 16 kHz

- Số bit lượng tử hoá: 16 bit

 Truyền tin theo chuẩn: RS 232, Wifi 802.11 b/g, Bluetooth 1.1

Các tính năng này tương đương với các hệ thống nhận dạng trên thế giới

Sản phẩm ứng dụng:

 Phòng thông minh, bao gồm 5 thiết bị có khả năng tương tác hai chiều (nghe/nhận/thực hiện lệnh và trả lời) với người điều khiển bằng tiếng nói tiếng việt: cửa ra vào, camera, đèn, vô tuyến, điều hòa

 Hệ thống giám sát điều khiển tính toán đường đáy, hiệu chỉnh trận địa pháo phòng không và tự động nạp tham số cự ly mục tiêu bằng tiếng nói

Trang 27

25

có các đặc tính kỹ thuật:

- Hiển thị các khẩu lệnh báo cáo từ khối xử lý tiếng nói gửi sang

- Hiển thị được các bộ tham số khoảng cách, góc phương vị, góc tà từ phương hướng bàn đến các khẩu pháo và đến đài quan sát

- Hiển thị liên tục cự ly mục tiêu, ngoại suy cự ly mục tiêu trong khoảng giữa hai lần thông báo

- Tính toán đường đáy của trận địa

- Truyền toàn bộ tham số cho hệ thống điều khiển hoả lực

Hệ thống giám sát điều khiển tính toán đường đáy, hiệu chỉnh trận địa pháo phòng không và tự động nạp tham số cự ly mục tiêu bằng tiếng nói có ưu điểm

nổi bật tiết kiệm được từ 4 đế 6 phút thời gian triển khai mới trận địa

1.2.2.2 Các thiết bị sử dụng tương tác người máy bằng tiếng nói trên hệ

thống nhúng

Cho phép tích hợp vào các ứng dụng nhúng để thực hiện tương tác người máy bằng tiếng nói Các tính năng kỹ thuật chủ yếu:

 Nhận dạng xử lý khoảng 50 lệnh bằng tiếng nói

- Độ chính xác của nhận dạng 90% trong môi trường ít nhiễu,

- Số bit lượng tử hoá: 8-16 bit

 Truyền tin theo chuẩn: Wifi 802.11 b/g, Bluetooth 1.1

Các tính năng này tương đương với các hệ thống nhận dạng trên thế giới

Trang 28

26

Sản phẩm ứng dụng:

 Rô bôt điều khiển bằng tiếng nói có khả năng tự vận hành hoặc vận hành bởi người điều khiển, có khả năng tương tác hai chiều (nghe/nhận/thực hiện lệnh và trả lời) với người điều khiển bằng tiếng nói tiếng Việt

Quạt điều khiển bằng tiếng nói có khả năng tương tác hai chiều (nghe/nhận/thực hiện lệnh và trả lời) với người điều khiển bằng tiếng nói tiếng Việt

1.2.2.3 Phần mềm quản lý CSDL tiếng nói

Phần mềm cho phép hệ thống quản lý và thích nghi với các nguồn dữ liệu tiếng nói khác nhau:

 Có thể quản lý nhiều CSDL tiếng nói

 Cho phép truy vấn tìm kiếm và lấy dữ liệu một cách dễ dàng

Cho phép sử dụng trên mạng Intranet

1.2.2.4 Các sản phẩm khác

Các thành viên tham gia đề tài đã tham gia đào tạo được 01 tiến sỹ, 07 thạc sỹ, công bố 02 bài báo trong tạp chí trong nước , 05 bài báo tham gia hội nghị khoa học quốc tế, 05 bài báo tham gia hội nghị khoa học trong nước có phản biện

Trang 29

27

Tài liệu tham khảo

[Desesprement 2007] Androide Désespérément, « ASIMO, l’ambasadeur officiel des androides », Tạp chí SVMLES grands dossier Robots, hors-serie No1, 2008

[Đỗ Thế Dũng 1998] Đỗ Thế Dũng., Trần Thiên Hương., et Boulakia G., « Intonation in vietnamese », Intonation systems: A survey of 22 languages, Hirst & Di Cristo (ed.),

Cambridge U.P, 1998

[Hirst 1998] Hirst, D., Di Cristo, A (1998), “A survey of intonation systems” In Hirst & Di

Cristo (eds) Intonation Systems: A Survey of Twenty Languages Cambridge University Press 1998, pp 1-44

[Hockey 2008] Hockey Beth Ann, James Frankie, Dowding John, Hieronymus Jim,

“Advanced capabilities for Spoken Dialogue-Natural language Interface Systems”,

Trang 30

28

thời gian thực nhận dạng các từ tiếng việt phát âm rời” , Kỷ yếu hội thảo khoa học quốc gia

lần thứ nhất về nghiên cứu, phát triển và ứng dụng công nghệ thông tin và truyền thông ICT.rda’, tháng 2, 2003

[Nguyễn Quốc Cường 2002] Nguyễn Q.C, “Reconnaissance de la parole en langue Vietnamienne”, PhD thesis INP- Grenoble, France, June 2002

[Nguyễn Thị Thanh Hoa 2004] Nguyễn Thị Thanh Hoa, « Contribution à l’étude de la prosodie du vietnamien Variations de l’intonation dans les modalités: assertive, interrogative et impérative », Thèse 2004, Doctorat de Linguistique Théorique, Formelle et

Automatique

[Nguyễn Việt Sơn 2004] Nguyễn Việt Sơn, “Nhận dạng tiếng nói tiếng Việt liên tục”, Luận văn tốt nghiệp Thạc sỹ, Chuyên ngành Đo lường và các hệ thống điều khiển, Trường Đại Học Bách Khoa Hà Nội, tháng 9 năm 2004

[Pires 2005] J.Norberto Pires, “Robot-by-voice: Experriments on commanding an industrial robot by using the human voice”, Industrial Robot, An international Journal, Emerald Group

Publishing Limited, Volume 32, Number 6, 2005

[Rabiner 1993] Rabiner, Lawrence R., and B H Juang “Fundamentals of speech recognition” Englewood Cliffs, N.J., PTR Prentice Hall, c1993 507 p

[Rogalla 2002] O Rogalla, M Ehrenmann, R Zöllner, R Becher, and R Dillmann 2002

“Using gesture and speech control for commanding a robot assistant” In Proc of the 11th

IEEE Int Workshop on Robot and Human interactive Communication, pages 454 459 ROMAN

[Trần Đỗ Đạt 2007] Tran D D., “Synthèse de la parole à partir du texte en langue vietnamienne”, PhD Thesis INP-Grenoble, France, December 2007

[Lê Thị Xuyến 1989] Lê T.X., « Etude contrastive de l’intonation expressive en français et

en vietnamien », PhD thesis , Université Paris 3, 1989

[Vũ Minh Quang 2007] Vũ M.Q (2007), « Exploitation de la prosodie pour la segmentation

et l’analyse automatique de signaux de parole », PhD thesis INP- Grenoble, France,

septembre 2007

[Vu Tat Thang 2005] Thang Tat Vu, Dung Tien Nguyen, Mai Chi Luong, John-Paul Hosom,

“Vietnamese Large Vocabulary Continuous Speech Recognition” In Proc of Interspeech

2005, p 1698 – 1692

Trang 31

29

[Weinstein 1990] Clifford J Weinstein “Opportunities for Advanced Speech Processing in Military Computer-Based Systems” Proceedings of the workshop on Speech and Natural Language, Hidden Valley, Pennsylvania, p 433 – 452, 990.

Trang 32

30

khiển sử dụng giao tiếp người máy bằng tiếng nói

2.1 Nghiên cứu tương tác người – máy

2.1.1 Phân tích đặc tính của con người đối với bài toán điều khiển

Để thiết kế được các hệ thống trợ giúp thích nghi với người điều hành trong các điều kiện thực tế, một trong những công việc quan trọng đầu tiên là cần phải hiểu rõ về người vận hành để có thể trợ giúp họ một cách tốt nhất Mô hình hoạt động nhận thức, trí não, vật lý của người vận hành được mô tả trên Hình 2-1

Hình 2-1: Các hoạt động nhận thức, trí não, vật lý của người vận hành [Villemeur 88]

Các hoạt động của con người trong phòng điều khiển công nghiệp phức tạp có thể được nhóm lại thành bốn nhóm lớn [Berliner 64]:

- Các hoạt động cảm nhận bao gồm tìm kiếm và thu thập thông tin, xác

định tình huống, đối tượng và hành động;

- Các hoạt động trí não bao gồm xử lí thông tin, giải quyết các vấn đề, ra

quyết định;

- Các hoạt động vận động (hoặc các hoạt động vật lí) gồm các hành động

rời rạc trên các phím bấm, trên các cơ cấu chấp hành và các hành động liên tục chỉnh định, điều chỉnh, truy kích hoặc điều khiển (lái) bằng tay

Trang 33

31

- Các hoạt động truyền thông bao gồm ra lệnh, trả lời, trao đổi thông tin

bằng miệng với các thành viên khác (cùng hoặc khác ê-kíp)

2.1.2 Các mô hình của tài nguyên tương tác của con người

2.1.2.1 Mô hình bộ nhớ con người

Có hai cách mô hình bộ nhớ của con người

- Mô hình hóa bộ nhớ thành ba hệ thống lưu trữ thông tin

- Mô hình sử dụng khái niệm bộ nhớ làm việc

2.1.2.2 Mô hình bộ nhớ con người thành ba hệ thống lưu trữ thông tin

Trong cách tiếp cận này, bộ nhớ con người được xem như gồm ba hệ thống lưu trữ thông tin riêng biệt: lưu trữ thông tin cảm nhận được từ các cơ quan cảm thụ, bộ nhớ ngắn hạn, và bộ nhớ dài hạn (Hình 2-2)

Hình 2-2: Ba hệ thống lưu giữ thông tin

- Thanh ghi lưu thông tin cảm thụ: lưu ảnh gần chính xác và toàn diện của

thế giới thực được thu nhận thông qua các cơ quan cảm thụ và sẽ bị mất sau một khoảng thời gian bất chấp ý muốn chủ quan của cá thể

- Bộ nhớ ngắn hạn: cho phép thu thập, trong khoảng thời gian trung bình

2 giây, một diễn giải trung gian của các sự kiện, có được bằng các tổng hợp và cấu trúc thông tin chứa trong các thanh ghi lưu thông tin cảm thụ

- Bộ nhớ dài hạn: được tạo thành từ một tổ chức phức tạp các kiến thức, tổ

Trang 34

32

hợp các sơ đồ nhận thức Khả năng của nó về mặt thực tế là vô hạn Tất nhiên, tồn tại hiện tượng quên và biến dạng một số thông tin Các hiện tượng này không bắt nguồn từ khả năng của bộ nhớ con người mà bắt nguồn từ việc tổ chức và mã hóa các thông tin này trong bộ nhớ

- Mô hình bộ nhớ con người của Card: được sử dụng rộng rãi, và được lựa chọn do nó nhằm đến các khía cạnh thời gian của tương tác người-máy Xuất phát từ các khía cạnh thời gian này, ta có thể hiểu và dự báo được hiệu năng của hệ thống người-máy

Hình 2-3: Mô hình của bộ nhớ con người [Card 83]

- Người vận hành có thể được biễu diễn bởi một hệ thống xử lí thông tin có đặc điểm: (i) bị chi phối bởi tập hợp các luật; (ii) bao gồm một tập hợp các bộ nhớ và các bộ xử lí liên thông với nhau Mỗi bộ nhớ được đặc trưng bằng ba tham số: khả năng lưu trữ (sức chứa), thời gian lưu trữ (thời gian dữ liệu có thể tồn tại trong bộ nhớ mà không bị mất đi), và dạng thông tin được lưu trữ (Hình 2-3)

Trang 35

33

- Các thông tin được lưu trữ được khai thác và cập nhật bởi các bộ xử lí bên ngoài Mỗi tác vụ có thể được phân thành các thao tác cơ sở Các thao tác cơ sở này có thể tiếp tục được nối liền với nhu cầu ghi nhớ tiềm năng của con người Do đó, cần thiết phải có sự trợ giúp của tin học

2.1.2.3 Mô hình hóa bộ nhớ con người như “bộ nhớ làm việc”

Trong mô hình biểu tượng ACT* (Adaptive Control of Thought) đề xuất bởi Anderson (83) (Hình 2-4), bộ nhớ làm việc được đặt trong mối liên hệ với một

bộ nhớ khai báo cố định và một bộ nhớ thủ tục cố định [Richard 90], trong đó:

- Bộ nhớ khai báo cố định lưu trữ các thông tin thực hoặc các khái niệm

trong một lưới ngữ nghĩa dưới một định dạng khác nhau (ví dụ hình ảnh, xâu chuỗi, hoặc mệnh đề);

- Bộ nhớ thủ tục cố định lưu trữ các thủ tục dưới dạng các luật sản xuất

(vận hành) gắn liền với các ứng dụng Các thủ tục ứng với từng ứng dụng được tiến hành trên nội dung có được trong bộ nhớ làm việc Các ứng dụng này có thể sinh ra các kiến thức khai báo mới, tạo ra các luật sản xuất mới hoặc thay đổi các luật sản xuất cũ

Hình 2-4: Mô hình ACT*

Trong Hình 2-4 ta bắt gặp năm quá trình xác định tính động của hệ thống:

- (1) Mã hóa: thu thập thông tin và chuyển nó đển bộ nhớ làm việc

Trang 36

34

- (2) Lưu trữ: tạo ra các biểu diễn trong vùng bộ nhớ khai báo cố định

- (3) Truy xuất: thao tác lấy lại các phần tử đã lưu trữ trong bộ nhớ khai báo cố định, nạp vào bộ nhớ làm việc

- (4) Ghép đối (so sánh): so sánh nội dung của bộ nhớ làm việc với các điều kiện của các luật sản xuất trong bộ nhớ thủ tục cố định

- (5) Thực thi: chuyển vào bộ nhớ làm việc phần hành động của luật sản xuất tương ứng với cặp ghép đôi thành công

2.1.2.4 Đặc tính của bộ nhớ con người và ergonomie

Cho dù sử dụng cách tiếp cận mô hình hóa nào thì các giới hạn liên quan đến đặc tính của bộ nhớ con người đều có ảnh hưởng trực tiếp đến ergonomie của các công cụ trợ giúp phục vụ cho người vận hành Các ảnh hưởng này có thể được tóm tắt:

- Xét một cách tổng thể, giao diện người-máy được thiết kế như là phần

mở rộng của bộ nhớ ngắn hạn của người vận hành [Boy 88]

- Một giao diện người-máy có thể được xem thiết kế như là phần mở rộng của bộ nhớ dài hạn của người vận hành, ví dụ (i) chúng tập hợp các thủ

tục sẵn có và giúp người vận hành truy xuất dễ dàng các thủ tục này để sửa lỗi hoặc (ii) lưu lại các hành động lỗi có thể mắc phải bởi người dùng

và là nguyên nhân dẫn đến vận hành sai

Từ hai nhận xét trên, một số khuyến cáo ergonomie được đưa ra như:

- Các thông điệp gửi đến người vận hành (thông qua việc hiển thị hoặc các kênh giao tiếp khác) cần ngắn gọn vì chúng được tạo thành từ hơn 8 phần

tử thông tin, và do đó chúng không dễ nhớ và dễ khai thác;

- Giao diện không được thể hiện các thông tin vô ích đối với tác vụ hiện tại đang cần thực hiện, vì chúng làm giảm khả năng làm việc và hiệu suất của người vận hành

Trang 37

35

2.1.3 Các mô hình xử lý, ra quyết định và thực thi của con người, các yêu

cầu về thông tin của người vận hành

2.1.3.1 Mô hình xử lí và ra quyết định khi giải quyết vấn đề của con người

a Mô hình của Rasmussen

Đây là mô hình « thang ra quyết định » gồm nhiều bước xử lí thông tin kế tiếp nhau, biểu diễn các bước tạo ra giải pháp của con người khi gặp một vấn đề (Hình 2-5)

Thang ra quyết định cung cấp một khuôn mẫu để phân tích sự “phối hợp nhận thức” của con người từ đó đề xuất một giao diện người-máy thích nghi với từng

sự phối hợp Rasmussen phân biệt ba dạng phối hợp cơ bản (Rasmussen 83):

- Dạng phối hợp bề mặt (Hình 2-6 dưới cùng): Được triển khai dựa trên

kinh nghiệm Người vận hành thực hiện các giải pháp một cách gần như

vô thức ứng với các thông tin nhận được Sự kết hợp này bao gồm hai bước « Khởi động » và « Thực hiện » của mô hình thang ra quyết định Dạng phối hợp này thường gặp trong các tác vụ điều khiển động cơ bằng tay, trong các tác vụ điều khiển công cụ, thiết bị kiểm định và cân chỉnh

- Dạng phối hợp thủ tục (Hình 2-6 ở giữa): Người dùng khi gặp phải các tình huống quen thuộc, hoặc đã được lập lịch trình sẵn sẽ áp dụng tập hợp các luật để xác định trạng thái của hệ thống và lựa chọn thủ tục thích hợp

Sự kết hợp này chuyển trực tiếp từ trạng thái phát hiện trạng thái không bình thường của hệ thống, hoặc quan sát các thông tin và dữ liệu sang trạng thái định nghĩa tác vụ hoặc xác định thủ tục để sửa lỗi

- Dạng phối hợp dựa trên kiến thức (Hình 2-6 trên cùng) được triển khai khi người dùng phải đối diện với các tình huống mới hoặc không lường trước Sự kết hợp này bao gồm tất các các trạng thái của thang ra quyết định Dạng phối hợp này thích nghi một cách thông minh các suy luận, đặt ra các giả thiết, kiểm tra chúng và đoán trước sự tiến triển của quá trình ứng với các hành động can thiệp vào hệ thống để sửa lỗi

Trang 38

Mục đích cuối cùng Không rõ ràng

Định nghĩa tác vụ

Tác vụ

Xác định thủ tục;

Lập lịch trình các hành động tuần tự cần thực hiện

Mục đích mong muốn

Thủ tục

Thực hiện; Hợp tác để thực hiện thủ tục

Xác định trạng thái hiện tại của

hệ thống

Trạng thái của hệ thống

Hoạt động xử lí thông tin

Trạng thái nhận thức (tri thức) - kết quả của hoạt động

xử lí thông tin

Hình 2-5: Mô hình thang ra quyết định

- Ở mô hình thang ra quyết định này xuất hiện, một cách không tường minh, khái niệm tiết kiệm nhận thức Mô hình thang ra quyết định đã giả thiết rằng kinh nghiệm có được bởi người vận hành đã dẫn đến việc tổ chức các tri thức đảm bảo sao cho trong các tình huống đã biết hoặc mang tính thủ tục, các kiến thức đã được thích nghi sẽ được sử dụng và từ đó sẽ giảm tải nhận thức

Trang 39

37

Hình 2-6: Ba dạng phối hợp cơ bản

b Lý thuyết hành động của Norman

Lý thuyết hành động của Norman [Norman 86] sử dụng khái niệm mô hình

khái niệm và lý giải các bước nhận thức khác nhau khi thực hiện một tác vụ với

sự giúp đỡ của hệ thống thông tin Mô hình khái niệm được tương ứng với một biễu diễn trí não dưới dạng các biến tâm lý : mỗi khái niệm, một đơn vị tri thức

hoặc đối tượng cần quan tâm sẽ tương ứng với một biến tâm lý

Lý thuyết hành động của Norman gồm 7 bước :

- Xây dựng mục tiêu

- Xây dựng chủ định

- Chương trình hành động

- Thực thi chương trình hành động

- Nhận biết trạng thái mới của hệ thống

- Diễn giải sự thay đổi của các biến vật lí dưới dạng tâm lý

- Ước lượng trạng thái của hệ thống so với các chủ đích và mục đích được xây dựng

Trang 40

Xác định chương trình hành động

Chủ đích (Mục tiêu)

Hệ thống phức tạp Hoạt động

vật lí

Hoạt động trí não

Cách tiếp cận của mô hình này đã thể hiện một cách rõ ràng tầm quan trọng của giao diện người-máy Trên thực tế, trong suốt quá trình hoạt động của mình,

người điều khiển tự xây dựng một thế giới ảo phản ánh hình ảnh của thế giới

thực thông qua các giao diện Các giao diện này phải làm dễ dàng việc làm

tương ứng giữa các biến tâm lý của thế giới ảo với các biến vật lý của thế giới thực Bên cạnh đó, các giao diện này cũng thiết lập gắn kết giữa các biến vật lý

và các thiết bị giám sát Có như vậy, ứng với mỗi tình huống gặp phải, người điều khiển thích ứng sự phối hợp một cách tiết kiệm nhất có thể, và như vậy sẽ

sử dụng các kiến thức thích ứng nhất với việc thực hiện tác vụ hiện tại

Ngày đăng: 24/05/2014, 00:18

HÌNH ẢNH LIÊN QUAN

Hình 1-1: Điều khiển robot bằng tiếng nói giao tiếp bằng micro đeo tai [Pires 2005] - Nghiên cứu thiết kế chế tạo  thiết, hệ thống tự động hoá thông minh sử dụng tương tác người máy bằng tiếng nói trong điều khiển
Hình 1 1: Điều khiển robot bằng tiếng nói giao tiếp bằng micro đeo tai [Pires 2005] (Trang 23)
Hình 2-5: Mô hình thang ra quyết định - Nghiên cứu thiết kế chế tạo  thiết, hệ thống tự động hoá thông minh sử dụng tương tác người máy bằng tiếng nói trong điều khiển
Hình 2 5: Mô hình thang ra quyết định (Trang 38)
Hình 2-6: Ba dạng phối hợp cơ bản - Nghiên cứu thiết kế chế tạo  thiết, hệ thống tự động hoá thông minh sử dụng tương tác người máy bằng tiếng nói trong điều khiển
Hình 2 6: Ba dạng phối hợp cơ bản (Trang 39)
Hình 2-7: Bảy bước của lý thuyết hành động Norman đã được thích nghi cho bối cảnh - Nghiên cứu thiết kế chế tạo  thiết, hệ thống tự động hoá thông minh sử dụng tương tác người máy bằng tiếng nói trong điều khiển
Hình 2 7: Bảy bước của lý thuyết hành động Norman đã được thích nghi cho bối cảnh (Trang 40)
Hình 2-8: Hai cách xây dựng hướng dẫn ergonomie và hướng dẫn về cách trình bày - Nghiên cứu thiết kế chế tạo  thiết, hệ thống tự động hoá thông minh sử dụng tương tác người máy bằng tiếng nói trong điều khiển
Hình 2 8: Hai cách xây dựng hướng dẫn ergonomie và hướng dẫn về cách trình bày (Trang 47)
Hình 2-9: Một số định dạng hiển thị - Nghiên cứu thiết kế chế tạo  thiết, hệ thống tự động hoá thông minh sử dụng tương tác người máy bằng tiếng nói trong điều khiển
Hình 2 9: Một số định dạng hiển thị (Trang 49)
Hình 2-21: Giải pháp tích hợp các kênh phản hồi âm thanh (tổng hợp tiếng) với mô - Nghiên cứu thiết kế chế tạo  thiết, hệ thống tự động hoá thông minh sử dụng tương tác người máy bằng tiếng nói trong điều khiển
Hình 2 21: Giải pháp tích hợp các kênh phản hồi âm thanh (tổng hợp tiếng) với mô (Trang 64)
Hình 2-22: Cấu trúc của mô hình kiến trúc 5 lớp - Nghiên cứu thiết kế chế tạo  thiết, hệ thống tự động hoá thông minh sử dụng tương tác người máy bằng tiếng nói trong điều khiển
Hình 2 22: Cấu trúc của mô hình kiến trúc 5 lớp (Trang 66)
Hình 2-33: Kiến trúc hệ thống truyền tin hữu tuyến - Nghiên cứu thiết kế chế tạo  thiết, hệ thống tự động hoá thông minh sử dụng tương tác người máy bằng tiếng nói trong điều khiển
Hình 2 33: Kiến trúc hệ thống truyền tin hữu tuyến (Trang 76)
Hình 2-38: Minh họa các bộ lọc mel-scale tam giác (triangle mel-scale filters) - Nghiên cứu thiết kế chế tạo  thiết, hệ thống tự động hoá thông minh sử dụng tương tác người máy bằng tiếng nói trong điều khiển
Hình 2 38: Minh họa các bộ lọc mel-scale tam giác (triangle mel-scale filters) (Trang 82)
Hình 2-40: (a) Dạng sóng của tín hiệu tiếng nói hữu thanh ; (b) Dạng sóng dao động - Nghiên cứu thiết kế chế tạo  thiết, hệ thống tự động hoá thông minh sử dụng tương tác người máy bằng tiếng nói trong điều khiển
Hình 2 40: (a) Dạng sóng của tín hiệu tiếng nói hữu thanh ; (b) Dạng sóng dao động (Trang 86)
Hình 2-41: Xác định tần số cơ bản dựa trên cepstrum - Nghiên cứu thiết kế chế tạo  thiết, hệ thống tự động hoá thông minh sử dụng tương tác người máy bằng tiếng nói trong điều khiển
Hình 2 41: Xác định tần số cơ bản dựa trên cepstrum (Trang 87)
Hình 2-48: Một đơn vị âm được trích chọn và thông tin ngữ cảnh của nó, mô-đun - Nghiên cứu thiết kế chế tạo  thiết, hệ thống tự động hoá thông minh sử dụng tương tác người máy bằng tiếng nói trong điều khiển
Hình 2 48: Một đơn vị âm được trích chọn và thông tin ngữ cảnh của nó, mô-đun (Trang 106)
Hình 2-51: Chọn lựa các đơn vị âm tốt nhất để tổng hợp câu “chào chị” - Nghiên cứu thiết kế chế tạo  thiết, hệ thống tự động hoá thông minh sử dụng tương tác người máy bằng tiếng nói trong điều khiển
Hình 2 51: Chọn lựa các đơn vị âm tốt nhất để tổng hợp câu “chào chị” (Trang 108)
Hình 2-53: Biến đổi trường độ tín hiệu với TD-PSOLA trong trường hợp tăng trường - Nghiên cứu thiết kế chế tạo  thiết, hệ thống tự động hoá thông minh sử dụng tương tác người máy bằng tiếng nói trong điều khiển
Hình 2 53: Biến đổi trường độ tín hiệu với TD-PSOLA trong trường hợp tăng trường (Trang 109)

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w