BỘ KHOA HỌC VÀ CÔNG NGHỆ BỘ GIÁO DỤC VÀ ĐÀO TẠO CHƯƠNG TRÌNH KHCN CẤP NHÀ NƯỚC KC03 BÁO CÁO TỔNG HỢP KẾT QUẢ KHOA HỌC CÔNG NGHỆ ĐỀ TÀI NGHIÊN CỨU THIẾT KẾ CHẾ TẠO CÁC THIẾT BỊ VÀ HỆ TH
Trang 1BỘ KHOA HỌC VÀ CÔNG NGHỆ BỘ GIÁO DỤC VÀ ĐÀO TẠO
CHƯƠNG TRÌNH KHCN CẤP NHÀ NƯỚC KC03
BÁO CÁO TỔNG HỢP KẾT QUẢ KHOA HỌC CÔNG NGHỆ ĐỀ TÀI
NGHIÊN CỨU THIẾT KẾ CHẾ TẠO CÁC THIẾT BỊ VÀ HỆ THỐNG TỰ ĐỘNG HÓA THÔNG MINH SỬ DỤNG TƯƠNG TÁC NGƯỜI MÁY BẰNG TIẾNG NÓI TRONG ĐIỀU KHIỂN
MÃ SỐ: KC.03.15/06-10
Cơ quan chủ trì đề tài/dự án: Trường Đại học Bách Khoa Hà Nội Chủ nhiệm đề tài/dự án: GS TS Phạm Thị Ngọc Yến
Hà Nội - 2010
Trang 2BỘ KHOA HỌC VÀ CÔNG NGHỆ BỘ GIÁO DỤC VÀ ĐÀO TẠO
CHƯƠNG TRÌNH KHCN CẤP NHÀ NƯỚC KC03
BÁO CÁO TỔNG HỢP KẾT QUẢ KHOA HỌC CÔNG NGHỆ ĐỀ TÀI
NGHIÊN CỨU THIẾT KẾ CHẾ TẠO CÁC THIẾT BỊ VÀ HỆ THỐNG TỰ ĐỘNG HÓA THÔNG MINH SỬ DỤNG TƯƠNG TÁC NGƯỜI MÁY BẰNG TIẾNG NÓI TRONG ĐIỀU KHIỂN
Trang 31
MỤC LỤC
DANH MỤC CÁC BẢNG 8
DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ 10
DANH MỤC CÁC TỪ VIẾT TẮT 17
Chương 1 Mở đầu 19
1.1 Các thông tin chung về đề tài 19
1.2 Các vấn đề chung 20
1.2.1 Đánh giá sự phát triển của hệ thống thiết bị tự động hóa sử dụng giao tiếp người máy bằng tiếng nói trên thế giới và Việt nam 20
1.2.2 Sản phẩm KHCN của đề tài 24
Tài liệu tham khảo 27
Chương 2 Thiết kế, xây dựng hệ thống giám sát điều khiển sử dụng giao tiếp người máy bằng tiếng nói 30
2.1 Nghiên cứu tương tác người – máy 30
2.1.1 Phân tích đặc tính của con người đối với bài toán điều khiển 30
2.1.2 Các mô hình của tài nguyên tương tác của con người 31
2.1.3 Các mô hình xử lý, ra quyết định và thực thi của con người, các yêu cầu về thông tin của người vận hành 35
2.1.4 Nghiên cứu các yêu cầu đặc trưng về ergonomie của bài toán ứng dụng trung tâm 43
2.2 Sơ đồ kiến trúc liên kết các khối cấu thành của lớp tương tác người-máy trên các hệ thống giám sát điều khiển 55
2.2.1 Xây dựng giải pháp tích hợp và tổ chức các khối chức năng phần cứng cấu thành 55
Trang 42
2.2.2 Xây dựng giải pháp tích hợp và tổ chức các khối chức năng phần
mềm cấu thành 63
2.3 Khối giao tiếp thu thập tín hiệu và truyền tin 67
2.3.1 Khối giao tiếp người máy bằng tiếng nói 67
2.3.2 Khối thu thập tín hiệu âm thanh 71
2.3.3 Các phương thức truyền số liệu 73
2.3.4 Mô đun phần cứng tích hợp các khối giao tiếp, thu thập dữ liệu, truyền tin kết nói với máy tính trung tâm 76
2.4 Khối xử lý trung tâm 76
2.4.1 Mô đun trích chọn thông tin 76
2.4.2 Mô đun nhận dạng câu lệnh 85
2.4.3 Mô đun phản hồi thông tin bằng tiếng nói 98
2.4.4 Mô đun lọc nhiễu và nâng cao tín hiệu 113
2.4.5 Hệ chuyên gia phân tích xử lý câu lệnh 119
2.5 Phòng thông minh điều khiển bằng tiếng nói 129
2.5.1 Phân tích thiết kế phòng thông minh điều khiển bằng tiếng nói 129
2.5.2 Kịch bản triển khai điều khiển các thiết bị trong phòng thông minh 130 2.5.3 Điều khiển cửa bằng tiếng nói 132
2.5.4 Điều khiển điều hòa bằng tiếng nói 133
2.5.5 Điều khiển vô tuyến bằng tiếng nói 134
2.5.6 Điều khiển đèn bằng tiếng nói 134
2.5.7 Điều khiển camera bằng tiếng nói 135
2.5.8 Thử nghiệm/Đánh giá hệ thống 135
Trang 53
2.6 Hệ thống giám sát điều khiển tính toán đường đáy, hiệu chỉnh trận địa pháo phòng không và tự động nạp tham số cự ly mục tiêu bằng tiếng
nói 136
2.6.1 Giới thiệu chung 136
2.6.2 Các thuật toán 137
2.6.3 Thiết kế hệ thống 144
2.6.4 Phương pháp tương tác 146
2.6.5 Chỉ tiêu kỹ thuật của hệ thống 148
2.6.6 Ưu điểm nổi trội của phương pháp so với các phương pháp khác 149 Tài liệu tham khảo 152
Chương 3 Thiết kế, xây dựng các thiết bị sử dụng tương tác người máy bằng tiếng nói trên hệ thống nhúng 161
3.1 Đặc điểm chung của thiết bị sử dụng tương tác người máy bằng tiếng nói trên hệ thống nhúng 161
3.2 Cấu trúc hệ thống 161
3.3 Khối giao tiếp, thu thập dữ liệu và truyền tin 163
3.3.1 Tương tác người máy bằng tiếng nói trong các ứng dụng nhúng 163
3.3.2 Mô đun thu thập dữ liệu 166
3.3.3 Các mô đun truyền tin 166
3.4 Khối xử lý trung tâm trên các vỉ phát triển vi xử lý 170
3.4.1 Mô đun xử lý tín hiệu và trích chọn đặc trưng 170
3.4.2 Triển khai và thích nghi các mô-đun nhận dạng từ đơn âm tiết và đa âm tiết 171
Trang 64
3.4.3 Mô đun tổng hợp tiếng Việt phục vụ bài toán tương tác người máy
bằng tiếng nói 173
3.5 Mô đun quản lý CSDL tiếng nói trên DSP 179
3.5.1 Phân tích, phân nhóm CSDL theo kích thước và theo các yếu tố đặc thù của các tương tác người máy trong các ứng dụng nhúng 179
3.5.2 Thiết kế, xây dựng không gian bộ nhớ quản lý lưu trữ cơ sở dữ liệu trên ứng dụng nhúng 180
3.6 Rô bốt BIOLOID điều khiển bằng tiếng nói 183
3.6.1 Giới thiệu chung 183
3.6.2 Sơ đồ điều khiển 185
3.6.3 Nguyên lý hoạt động 187
3.6.4 Phương pháp tương tác 189
3.6.5 Chỉ tiêu kỹ thuật 190
3.6.6 Thử nghiệm/Đánh giá 190
3.7 Điều khiển quạt bằng tiếng nói 191
3.7.1 Sơ đồ điều khiển 191
3.7.2 Nguyên lý hoạt động 193
3.7.3 Phương pháp tương tác 196
3.7.4 Chỉ tiêu kỹ thuật 197
3.7.5 Thử nghiệm/Đánh giá 197
Tài liệu tham khảo 198
Chương 4 Phần mềm quản lý cơ sở dữ liệu tiếng nói 200
4.1 Giới thiệu chung về quá trình xây dựng CSDL 200
4.2 Các vướng mắc trong quá trình thu thập cơ sở nhập liệu (CSNL) 200
Trang 75
4.3 Các yêu cầu quản lý CSNL 201
4.3.1 Yêu cầu về môi trường 202
4.3.2 Yêu cầu về kiến trúc hệ thống 202
4.4 Mô tả chi tiết các chức năng chính 204
4.4.1 Tìm kiếm dữ liệu 204
4.4.2 Thêm các dữ liệu vào một ngữ liệu, thêm một ngữ liệu mới vào CSNL 205
4.4.3 Sửa dữ liệu trong CSNL 206
4.4.4 Xóa ngữ liệu trong CSNL 206
4.4.5 Hiển thị dữ liệu 207
4.5 Giao diện mẫu chương trình 208
4.6 Thiết kế hệ thống 210
4.6.1 Mô hình của hệ thống 210
4.6.2 Thiết kế sơ bộ các chức năng của hệ thống 211
4.6.3 Cơ sở dữ liệu 213
4.7 Kết quả thực hiện 214
4.8 Kiểm thử và đánh giá 215
4.9 Hướng phát triển 215
Chương 5 Định hướng phát triển hệ thống trong môi trường tương tác thực có nhiễu 216
5.1 Giới thiệu 216
5.2 Phương pháp sử dụng mảng microphone 217
5.2.1 Phương pháp sử dụng kỹ thuật tạo chùm (beamforming) 218
Trang 86
5.2.2 Phương pháp sử dụng kỹ thuật che thời gian- tần số (time-frequency
masking) 219
5.2.3 Phương pháp sử dụng kỹ thuật tách nguồn mù (Blind source separation) 220
5.2.4 Phương pháp sử dụng kỹ thuật phân tích dựa trên mô hình thính giác CASA (Computational Auditory Scene Analysis) 221
5.3 Phương pháp chuẩn hóa vec-tơ đặc trưng 221
5.3.1 Phương pháp chuẩn hoá trung bình hệ số giả phổ CMN (Cepstral Mean Normalization) 222
5.3.2 Chuẩn hóa phương sai hệ số giả phổ CVN (Cepstral variance normalization) 223
5.3.3 Chuẩn hóa biểu đồ giả phổ CHN (Cepstral Histogram Normalization) 223
5.3.4 Xác định tiếng nói VAD (Voice Activity Detection) 224
5.4 Phương pháp thích nghi mô hình âm học 225
5.4.1 Huấn luyện lại mô hình 225
5.4.2 Phương pháp chuỗi vec-tơ Tay-lo VTS (Vector Taylor Series) 226
5.4.3 Phương pháp MLLR (Maximum Likelihood Linear Regression) 227 5.4.4 Phương pháp kết hợp mô hình song song PMC (Parallel Model Combination) 228
Chương 6 Đánh giá kết quả thực hiện 230
6.1 Kết quả thực hiện 230
6.1.1 Về sản phẩm 230
6.1.2 Về tài liệu khoa học 231
Trang 97
6.1.3 Về đào tạo 231
6.2 Đánh giá hiệu quả của đề tài 231
6.2.1 Hiệu quả kinh tế 231
6.2.2 Hiệu quả xã hội 232
6.2.3 Hiệu quả về khoa học công nghệ 232
6.3 Đánh giá tính mới, tính sáng tạo của đề tài 234
6.3.1 Tính mới của đề tài 234
6.3.2 Tính sáng tạo 234
6.4 Đánh giá mức độ hoàn thành của đề tài 234
6.4.1 Về sản phẩm 234
6.4.2 Về kinh phí 234
Lời cảm ơn 236
Trang 108
DANH MỤC CÁC BẢNG
Bảng 2-1: Đặc tính kỹ thuật của microphone AKG Perception 400 72
Bảng 2-2: Các thông số của mạch chuẩn hóa 73
Bảng 2-3: so sánh đặc tính cơ bản các phương thức truyền tin không dây Bluetooth, Zigbee,Wifi 75
Bảng 2-4: Các từ trong CSDL điều khiển 101
Bảng 2-6: Các loại đơn vị âm trong tiếng Việt 103
Bảng 2-7: Tỉ sổ tín hiệu trên nhiễu phân đoạn cải thiện được của 3 phương pháp: trừ phổ, MMSE và OMLSA ở 0dB 118
Bảng 2-8: Tỉ sổ tín hiệu trên nhiễu phân đoạn cải thiện được của 3 phương pháp: trừ phổ, MMSE và OMLSA ở 5dB 118
Bảng 2-8: Tương tác người – máy điều khiển mở cửa 132
Bảng 2-10: Hệ thống tương tác người-máy điều khiển điều hòa 133
Bảng 2-11: Hệ thống tương tác người-máy điều khiển vô tuyến 134
Bảng 2-12: Hệ thống tác người-máy điều khiển đèn chiếu sáng 135
Bảng 2-13: Hệ thống tương tác người-máy điều khiển camera 135
Bảng 3-3: Phân nhóm CSDL theo tài nguyên sử dụng 179
Bảng 3-4: Các đặc tính của động cơ AX-12 183
Bảng 3-5: Các đặc tính của cảm biến AX-S1 185
Bảng 3-6: Tập lệnh điều khiển robot 189
Bảng 3-5: Các câu lệnh điều khiển quạt 193
Bảng 3-6: GPIO của các chân cổng mở rộng 194
Bảng 4-1: Bảng account 213
Bảng 4-2: Bảng CSDL 213
Trang 119
Bảng 4-3: Bảng account CSDL 214
Bảng 4-4: Bảng người nói 214
Bảng 4-5: Bảng dữ liệu 214
Bảng 4-6: Bảng kiểu ngôn ngữ và kiểu dữ liệu 214
Bảng 4-7: Đánh giá kết quả chạy chương trình trên IE 6.0 và Firefox 1.5 215
Trang 1210
DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ Hình 1-1: Điều khiển robot bằng tiếng nói giao tiếp bằng micro đeo tai [Pires
2005] 21
Hình 2-1: Các hoạt động nhận thức, trí não, vật lý của người vận hành [Villemeur 88] 30
Hình 2-2: Ba hệ thống lưu giữ thông tin 31
Hình 2-3: Mô hình của bộ nhớ con người [Card 83] 32
Hình 2-4: Mô hình ACT* 33
Hình 2-5: Mô hình thang ra quyết định 36
Hình 2-6: Ba dạng phối hợp cơ bản 37
Hình 2-7: Bảy bước của lý thuyết hành động Norman đã được thích nghi cho bối cảnh giám sát 38
Hình 2-8: Hai cách xây dựng hướng dẫn ergonomie và hướng dẫn về cách trình bày 45
Hình 2-9: Một số định dạng hiển thị 47
Hình 2-10: Phân chia màn hình thành 4 vùng chiến lược 47
Hình 2-11: Các hình thức biểu diễn thông thường trong cuộc sống hàng ngày 49 Hình 2-12: Ví dụ về cách biểu diễn đúng và sai các hàm động có cùng đơn vị và cùng dải đo 49
Hình 2-13: Các chức năng chính của hệ thống 56
Hình 2-14: Các hệ thống phần cứng con của hệ điều khiển trung tâm 57
Hình 2-15: Các thành phần phần cứng cơ bản của hệ thống giám sát và điều khiển của phòng điều khiển trung tâm / nhà thông minh 57
Hình 2-16: Mô hình MVC 59
Trang 1311
Hình 2-17: Mô hình phân cấp các cái nhìn trong MVC 59
Hình 2-18:Kiến trúc của một hệ thống tương tác bằng các đối tượng PAC 60
Hình 2-19:Mô hình kiến trúc theo kênh 60
Hình 2-20: Giải pháp tích hợp và tổ hợp các khối chức năng phần cứng cho kênh nhận dạng tiếng nói 61
Hình 2-21: Giải pháp tích hợp các kênh phản hồi âm thanh (tổng hợp tiếng) với mô hình MVC làm mô hình tham chiếu 62
Hình 2-22: Cấu trúc của mô hình kiến trúc 5 lớp 64
Hình 2-23: Kiến trúc của mẫu mô hình kiến trúc theo kênh 64
Hình 2-24: Mô hình hóa hệ tương tác [Foley 82] 65
Hình 2-25: Mô hình SEEHEM 65
Hình 2-26: Mô hình MVC 66
Hình 2-27: Kiến trúc của một hệ thống tương tác bằng các đối tượng PAC 66
Hình 2-28: Sơ đồ khối tổng quát của khối tương tác người-máy bằng tiếng nói của một hệ thống giám sát 67
Hình 2-29: Các mô-đun con của mô-đun tương tác người – máy đa phương thức 68
Hình 2-30: Các mô hình trong mô-đun tương tác nhận thức 69
Hình 2-31: Sơ đồ mạch tiền khuếch đại với microphone 72
Hình 2-32: Mạch chuẩn hóa của micrphone 73
Hình 2-33: Kiến trúc hệ thống truyền tin hữu tuyến 74
Hình 2-34: Sơ đồ tích hợp khối thu thập số liệu và truyền tin 76
Hình 2-35: Sơ đồ của một bộ trích chọn đặc trưng 77
Hình 2-36: Nguyên lý tính hệ số MFCC 78
Trang 1412
Hình 2-37: Cửa sổ Hamming 79
Hình 2-38: Minh họa các bộ lọc mel-scale tam giác (triangle mel-scale filters) 80 Hình 2-39: Nguyên lý tính hệ số PLP 81
Hình 2-40: (a) Dạng sóng của tín hiệu tiếng nói hữu thanh ; (b) Dạng sóng dao động của dây thanh 84
Hình 2-41: Xác định tần số cơ bản dựa trên cepstrum 85
Hình 2-42: Mô hình quá trình tạo và nhận dạng tiếng nói 85
Hình 2-43: Sơ đồ khối của hệ thống nhận dạng tiếng nói 86
Hình 2-44: Giao diện của chương trình nhận dạng 98
Hình 2-45: Cấu trúc cơ bản của một hệ thống tổng hợp tiếng nói 99
Hình 2-46: Các loại đơn vị âm cho tổng hợp 103
Hình 2-47: Xây dựng CSDL đơn vị âm 104
Hình 2-48: Một đơn vị âm được trích chọn và thông tin ngữ cảnh của nó, mô-đun quản lý dữ liệu đơn vị âm tổng hợp 104
Hình 2-49: Giao diện mô-đun quản lý đơn vị âm 104
Hình 2-50: Ví dụ về quá trình phân đoạn các nhóm sử dụng cây quyết định 105
Hình 2-51: Chọn lựa các đơn vị âm tốt nhất để tổng hợp câu “chào chị” 106
Hình 2-52: Biến đổi cao độ tín hiệu với TD-PSOLA trong trường hợp β>1[Moulines 1995] 106
Hình 2-53: Biến đổi trường độ tín hiệu với TD-PSOLA trong trường hợp tăng trường độ[Moulines 1995] 107
Hình 2-54: Sự không liên tục về pha [Huang 2001] 107
Hình 2-55: Ví dụ về sự không liên tục về phổ khi tổng hợp âm tiết /do/ từ các đơn vị âm /_do/ và /o_/ 108
Trang 1513
Hình 2-56: Đánh dấu đỉnh 108
Hình 2-57: Ghép nối đơn vị âm để tổng hợp câu nói “Tôi tên là Hương” 109
Hình 2-58: Tín hiệu dạng sóng, spectrogram và đường cong F0 của câu nói tổng hợp “Tôi tên là Hương” 109
Hình 2-59: Tính toán các điểm đánh dấu cao độ theo phương pháp biến đổi tần số cơ bản (β = 3/2) [Moulines 1995] 110
Hình 2-60: Biến đổi trường độ của tiếng nói 111
Hình 2-61: Biến đổi cao độ tín hiệu với TD-PSOLA trong trường hợp β>1 [Moulines 1995] 112
Hình 2-62: Biến đổi trường độ tín hiệu với TD-PSOLA trong trường hợp tăng trường độ [Moulines 1995] 112
Hình 2-63: Biến đổi trường độ của tiếng nói 113
Hình 2-64: Âm tiết /ba/ với 6 thanh điệu của tiếng Việt 113
Hình 2-65: Lưu đồ thuật toán của phương pháp trừ phổ 115
Hình 2-66: Lưu đồ thuật toán phương pháp MMSE 115
Hình 2-67: Lưu đồ thuật toán phương pháp OM-LSA 116
Hình 2-68: Lưu đồ thuật toán nâng cao chất lượng tiếng nói theo phương pháp OM-LSA 117
Hình 2-69: Tính toán hệ số khuếch đại trong miền tần số 117
Hình 2-70: Ước lượng công suất của nhiễu theo thuật toán IRMCA 117
Hình 2-71: Tín hiệu tiếng nói có nhiễu (bên trái), tín hiệu tiếng nói sau khi loại bỏ nhiễu (bên phải) 118
Hình 2-72: Cấu trúc cơ bản của hệ thống hiểu tri thức ngôn ngữ nói 119
Hình 2-73: Cấu trúc cơ bản của hội thoại: khởi tạo và trả lời 124
Trang 1614
Hình 2-74: Các hệ thống con của hệ thống tạo và biểu diễn thông điệp 128
Hình 2-75: Sơ đồ cấu trúc của kết nối của các thiết bị trong phòng điều khiển trung tâm 131
Hình 2-76: Ví dụ màn hình giao diện trong phòng thông minh 132
Hình 2-77: Sơ đồ khối của bộ điều khiển điều hòa 133
Hình 2-78: Thuật toán xác định cự ly mục tiêu 139
Hình 2-79: Hệ tọa độ cầu 140
Hình 2-80: Hệ tọa độ Descartre 141
Hình 2-81: Sơ đồ hệ thống đo, tính toán ngoại suy cự ly 144
Hình 2-82: Sơ đồ hệ thống xác định số liệu đường đáy 145
Hình 3-1: Sơ đồ khối các mô-đun phần cứng hệ thống nhúng cho giao tiếp bằng tiếng nói 163
Hình 3-2: Sơ đồ khối chức năng của bộ thu thập tín hiệu tiếng nói 166
Hình 3-3: Sơ đồ khối chức năng của hệ thống truyền tin cho khối xử lý trung tâm 167
Hình 3-4: Sơ đồ khối củaTPS65950 168
Hình 3-5: Sơ đồ nguyên lý ghép nối giữa CODEC và xử lý số tín hiệu 169
Hình 3-6: Sơ đồ khối các mô-đun xử lý tín hiệu và trích chọn thông tin 170
Hình 3-7: Sơ đồ khối hệ thống nhận dạng 172
Hình 3-8: Biểu đồ hoạt động tổng quát của chương trình tổng hợp tiếng nói trên DSP 174
Hình 3-9: File phân tích văn bản đầu vào 174
Hình 3-10: Các module trong chương trình tổng hợp tiếng nói trên DSP 176
Hình 3-11: Tỷ lệ sai số nhận dạng âm tiết của hai nhóm dữ liệu 177
Trang 1715
Hình 3-12: Kết quả bài đánh giá MOS đối với 2 nhóm dữ liệu 178
Hình 3-13: Cấu trúc của CSDL dùng cho chương trình tổng hợp tiếng nói trên DSP 181
Hình 3-14: Phần thông tin về một đơn vị âm trong CSDL 181
Hình 3-15: Tổ chức bộ nhớ SDRAM trong chương trình 182
Hình 3-16: Roobot nhện 6 chân lắp ráp từ bộ kit Bioloid 183
Hình 3-17: Sơ đồ điều khiển robot bằng tiếng nói 186
Hình 3-18: Mô hình của một chân nhện 188
Hình 3-19: Sơ đồ thiết bị 192
Hình 3-20: Các chân cổng mở rộng của bo mạch nhúng 192
Hình 3-21: Sơ đồ điều khiển 193
Hình 3-22: Sơ đồ thuật toán 196
Hình 4-1: Biểu đồ ca sử dụng 203
Hình 4-2 : Biểu đồ phân cấp chức năng của hệ thống 203
Hình 4-3: Quy trình thực hiện tìm kiếm 204
Hình 4-4: Biểu đồ phân cấp chức năng tìm kiếm 205
Hình 4-5: Tổng quan về chương trình quản lý CSDL tiếng nói 205
Hình 4-6: Quy trình thực hiện chức năng thêm dữ liệu 205
Hình 4-7: Quy trình thực hiện chức năng sửa dữ liệu 206
Hình 4-8: Quy trình thực hiện chức năng xóa dữ liệu 207
Hình 4-9: Quy trình thực hiện chức năng xem và hiển thị dữ liệu 207
Hình 4-10: Giao diện màn hình đăng nhập 208
Hình 4-11: Giao diện màn hình thêm mới dữ liệu 208
Trang 1816
Hình 4-12: Giao diện màn hình tìm kiếm dữ liệu 209
Hình 4-13: Giao diện màn hình hiển thị kết quả tìm kiếm 209
Hình 4-14: Giao diện màn hình hiển thị tín hiệu và thông tin file 209
Hình 4-15: Mô hình Client / Server của hệ thống 210
Hình 4-16: Sơ đồ hoạt động của các công nghệ lập trình lựa chọn 210
Hình 4-17: Sơ đồ của chức năng thêm một ngữ liệu dữ liệu mới 211
Hình 4-18: Sơ đồ nhúng java applet vào trong trang web 212
Hình 4-19: Quan hệ giữa các bảng dữ liệu 213
Trang 1917
DANH MỤC CÁC TỪ VIẾT TẮT
ACT Adative Control of Thought
ADC Analog to Digital Converter
CG Đồ thị nhận thức
CSDL Cơ sở dữ liệu
CSNL Cơ sở nhập liệu
DAC Digital to Analog Converter
DCT Discrete cosine transform
DSP Digital signal processor
FFT Fast Fourier Transformer
GPIO General purpose input/output
HMM Hidden Markov Model
IIS Internet Information Service
IMCRA Phương pháp điều khiển trung bình đệ quy cực tiểu cải tiến
LPC Linear Predictive Coding
LPF Low pass filter
MAP Maximum A Posteriori
MFCC Mel-frequency cepstral coefficients
MLLR Maximum Likelihood Linear Regression
MMSE Minimum Mean Square Error
NSNN Ngân sách nhà nước
Trang 2018
OM-LSA Phương pháp tối ưu hóa ước lượng phổ biên độ theo thang
logarithm
PDA Personal Digital Assistant
PLC Power Line Communication
PLP Perceptual Linear Predictive
PSOLA Pitch Synchronous Overlap and Add
PWM Pulse Width Modulation
RAM Random access memory
RFID Radio frequency Identification
SNR Tỷ lệ tín hiệu trên nhiễu
SPLICE Stereo-based Piecewise Linear Compensation for
Environments TD-PSOLA Time domain Pitch Synchronous Overlap and Add
Trang 2119
1.1 Các thông tin chung về đề tài
Tên đề tài: Nghiên cứu thiết kế chế tạo các thiết bị và hệ thống tự động
hoá thông minh sử dụng tương tác người-máy bằng tiếng nói trong điều khiển
Thuộc chương trình KHCN cấp Nhà nước : Nghiên cứu khoa học và phát triển công nghệ Tự động hóa, Mã số chương trình : KC.03
Cấp quản lý : Nhà nước
Thời gian thực hiện: 24 tháng (1/2009-12/2010)
Kinh phí thực hiện đề tài : 3.141.000 đồng (ba tỷ một trăm bốn mươi mốt triệu đồng)
- Trong đó, từ Ngân sách nhà nước: 3.141.000 đồng (ba tỷ một trăm bốn mươi mốt triệu đồng)
- Kinh phí từ các nguồn khác:
Tổ chức chủ trì thực hiện đề tài: Trường Đại học Bách Khoa Hà Nội
Địa chỉ: Số 1 Đại Cồ Việt, Quận Hai Bà Trưng, Thành phố Hà Nội
Điện thoại: (04) 38 68 30 87 Fax: (04) 38 68 35 51
Chủ nhiệm đề tài: Phạm Thị Ngọc Yến
Trang 2220
1.2 Các vấn đề chung
1.2.1 Đánh giá sự phát triển của hệ thống thiết bị tự động hóa sử dụng giao
tiếp người máy bằng tiếng nói trên thế giới và Việt nam
Trên thế giới , các hệ thống tương tác người máy bằng tiếng nói được phát
triển trong nhiều lĩnh vực khác nhau:
- Trong quân sự: tương tác người máy bằng tiếng nói được sử dụng trong các chương trình nhằm nâng cao khả năng tương tác của phi công trong điều khiển máy bay chiến đấu, máy bay trực thăng của quân đội Mỹ [Weinstein 1990], Pháp, Anh [Internet01], Thuỵ Điển [Englund 2004] Trong các ứng dụng này, các giao tiếp bằng tiếng nói được sử dụng để thực hiện các chức năng: thiết lập các tần số vô tuyến, ra lệnh hệ thống lái tự động, giám sát màn hình điều khiển và thiết lập toạ độ và các tham số vũ khí chiến đấu Ngoài ra, trong các hệ thống huấn luyện ảo được sử dụng trong quân đội Mỹ, Pháp, hệ thống tương tác kết hợp cả hai công nghệ nhận dạng và tổng hợp tiếng đóng vai trò như một đối tác ảo (pseudo) tương tác với người được huấn luyện
- Trong hệ thống thông tin liên lạc, các ứng dụng của công nghệ nhận dạng tiếng nói tự động đã ngày càng phổ biến, với các dịch vụ quay số bằng tiếng nói, các máy trả lời điều khiển bằng tiếng nói [Junqua 2004] [Internet02]
- Trong công nghiệp, công nghệ nhận dạng tiếng được tích hợp trong những rô bốt điều khiển công nghiệp [Pires 2005] (Hình 1-1), những rô bốt thông minh như Asimo của hãng Honda [Desesprement 2007] Năm 2005, tại triển lãm Aichi ở Nhật Bản, công ty Kokoro đã giới thiệu tới người xem rô bốt tiếp tân có khả năng giao tiếp được bằng tiếng nói và làm nhiệm vụ của một nhân viên tiếp tân
Trong lĩnh vực y tế, nhận dạng tiếng được sử dụng trong các hệ thống nhập dữ liệu Hỗ trợ người tàn tật đặc biệt là những người có khuyết tật ở tay và chân và không thể sử dụng chúng để tương tác với các thiết bị cần dùng, hay những người có thính giác kém hiện là hướng đang quan tâm của công nghệ nhận dạng tiếng nói [Internet 03]
Trang 2321
Hình 1-1: Điều khiển robot bằng tiếng nói giao tiếp bằng micro đeo tai [Pires 2005]
Ngoài ra, có nhiều lĩnh vực khác sử dụng công nghệ xử lý tiếng nói nói chung và công nghệ nhận dạng nói riêng được sử dụng từ mức độ thấp tới mức
độ cao NASA ứng dụng công nghệ nhận dạng tiếng nói trong các phòng điều khiển đặt trên trạm vũ trụ ISS, qua đó hỗ trợ các nhà du hành giảm bớt việc di chuyển trong dự án “Những khả năng tiên tiến trong các hệ thống giao tiếp ngôn ngữ tự nhiên hội thoại bằng tiếng nói” (Advanced Capabilities for Spoken Dialogue- natural language Interface Systems) [Hockey 2008] Trong hệ thống điều khiển ô tô của hãng Ford, công nghệ nhận dạng tiếng nói được ứng dụng nhằm trợ giúp người lái điều khiển, giám sát một số chức năng bằng tiếng nói Ngoài ra công nghệ nhận dạng tiếng còn được sử dụng trong chế tạo rô bốt đồ chơi của trẻ em
Tại Việt Nam, lĩnh vực xử lý tiếng nói cho tiếng Việt mới thực sự được quan
tâm trong khoảng gần 10 năm trở lại đây với các nghiên cứu của [Nguyễn Quốc Cường 2002], [Lê Xuân Hùng 2003], [Nguyễn P.B 2003], [Lê Việt Bắc 2006] [Nguyễn Việt Sơn 2003] [Vu Tat Thang 2005] [Trần Đỗ Đạt 2007], [Nguyễn Hồng Quang 2008], và mới đây nhất là các đề tài Đề tài cấp nhà nước mã số KC 01-03 “Nghiên cứu phát triển công nghệ nhận dạng, tổng hợp và xử lý ngôn ngữ Việt”
Trang 2422
Nghiên cứu của [Lê Xuân Hùng 2003] và [Trần Đỗ Đạt 2007] trình bày các vấn đề về tổng hợp tiếng Việt từ văn bản Trong [Trần Đỗ Đạt 2007] tác giả đã phân tích những biến đổi tần số cơ bản của thanh điệu tiếng Việt không chỉ ở trạng thái tĩnh mà còn cả trạng thái động (tức là trong lời nói liên tục) Những
mô hình về thanh điệu, và ngữ điệu và về trường độ của tiếng Việt đã được tác giả xây dựng Tuy nhiên nghiên cứu này vẫn chưa giải quyết triệt để các vấn đề
về đồng cấu âm thanh điệu, về ảnh hưởng của ngữ điệu lên thanh điệu
Các nghiên cứu của [Nguyễn Quốc Cường 2002] [Nguyễn Phú Bình 2003] [Lê Việt Bắc 2006] và [Vu Tat Thang 2005], tập trung vào việc nhận dạng tiếng Việt Trong đó nghiên cứu của [Nguyễn Quốc Cường 2002] [Nguyễn Phú Bình 2003] mới dừng lại ở mức nhận dạng các từ rời rạc Trong nghiên cứu của [Nguyễn Quốc Cường 2002], tác giả đã tập trung vào vấn đề thanh điệu của tiếng Việt, đây là một trong những đặc trưng khác biệt rõ nét của tiếng Việt so với các ngôn ngữ khác Tác giả đã chỉ ra rõ 8 thể hiện của đường cong tần số cơ bản (F0) của thanh điệu Sau khi đã phân tích sự biến đổi F0, tác giả tập trung giải quyết vấn đề nhận dạng thanh điệu của tiếng Việt Tuy nhiên tại nghiên cứu này, tác giả mới dừng lại các bài toán về thanh điệu trong trạng thái tĩnh, có nghĩa là trong các âm tiết rời rạc Nghiên cứu của [Nguyễn Hồng Quang 2008], [Lê Việt Bắc 2006] [Nguyễn Việt Sơn 2004] và [Vu Tat Thang 2005] đã bắt đầu giải quyết nhận dạng tiếng nói liên tục trong tiếng Việt Các nghiên cứu này sử dụng mô hình Markov ẩn để huấn luyện và nhận dạng tiếng nói Trong nghiên cứu của [Lê Việt Bắc 2006], tác giả có đưa ra các phương pháp thích nghi nhằm
áp dụng những mô hình đã được huấn luyện cho các ngôn ngữ giàu nguồn tài nguyên như tiếng Anh, Pháp, cho tiếng Việt Tuy nhiên cả ba nghiên cứu này chưa đề cập tới bài toán về thanh điệu của tiếng Việt trong lời nói liên tục, ngoài
ra kết quả nhận dạng còn hạn chế (độ chính xác ~70%) nếu so với các kết quả của tiếng Anh, Pháp Nghiên cứu của [Nguyễn Hồng Quang 2008] xây dựng hệ thống nhận dạng tiếng Việt từ điển lớn có sử dụng thông tin về thanh điệu để
Trang 2523
nâng cao chất lượng nhận dạng
Trong đề tài nghiên cứu khoa học cấp nhà nước mã số KC01-03, ba vấn đề
cơ bản là, Nhận dạng tiếng nói, Tổng hợp tiếng nói và Xử lý ngôn ngữ cho tiếng Việt được đặt ra Các bài toán đưa ra để giải quyết tương đối đầy đủ, tuy nhiên mới dừng ở mức đơn giản tập trung vào nghiên cứu, chưa đi sâu vào ứng dụng đối với các bài toán cụ thể
Việc ứng dụng xử lý tiếng nói vào các lĩnh vực khác ở Việt Nam hiện nay cũng còn rất mới mẻ, chưa có ứng dụng nào đáng kể trong thực tế Cũng có một
số sản phẩm về nhận dạng cũng như tổng hợp về tiếng nói được giới thiệu như phần mềm tổng hợp tiếng Việt VnVoice 1.0 được phát triển bởi Phòng nhận dạng và công nghệ tri thức - Viện công nghệ thông tin [Internet04], phần mềm nhận dạng tiếng Việt VSpeech được phát triển bởi nhóm BK02 [Internet05] Phần mềm này được phát triển trên nền tảng dựng sẵn của Microsoft (Microsoft Recognition Engine) áp dụng cho tiếng Anh, thiếu những nghiên cứu cơ bản và chuyên sâu về các đặc tính của tiếng Việt nhằm phục vụ cho việc mở rộng các ứng dụng sau này cũng như là có thể phát triển thành hệ thống nhận dạng lời nói liên tục, lượng từ vựng lớn
Để có thể mở rộng các ứng dụng của xử lý tiếng nói (nhận dạng và tổng hợp), các ứng dụng của công nghệ này không chỉ được phát triển trên máy tính
mà cần phải được phát triển trên các hệ nhúng Tuy nhiên tại Việt Nam, vấn đề này cũng chưa thực sự phát triển, mới chỉ có những nghiên cứu thực hiện dưới dạng đề tài sinh viên, hay những đề tài khoa học cấp khoa hay cấp trường của trường đại học
Qua những phân tích trên đây, có thể thấy các trang thiết bị điều khiển giám sát bằng tiếng nói sẽ là một xu hướng phát triển tất yếu trong xã hội hiện đại sau này Chính vì vậy việc nghiên cứu chế tạo các thiết bị giao tiếp bằng tiếng nói là những yêu cầu đòi hỏi cấp thiết đối với các nhà khoa học Đề tài “Nghiên cứu thiết kế chế tạo các thiết bị và hệ thống tự động hoá thông minh sử dụng tương
Trang 26Nhận dạng xử lý khoảng 100 câu lệnh bằng tiếng nói bao gồm các từ đơn,
từ ghép và các câu điều khiển
- Độ chính xác của nhận dạng 90% trong môi trường văn phòng ít nhiễu
- Tốc độ nói bình thường
- Thích nghi theo phương ngữ chuẩn miền Bắc
- Tốc độ đáp ứng (dưới quan điểm tương tác người máy) < 2s
- Tạo được lời nói tổng hợp tương tác với người điều khiển
Chất lượng âm thanh tổng hợp đánh giá trên chuẩn kiểm tra MOS >3,5/5
Thu thập số liệu:
- Tần số lấy mẫu: 8kHz – 16 kHz
- Số bit lượng tử hoá: 16 bit
Truyền tin theo chuẩn: RS 232, Wifi 802.11 b/g, Bluetooth 1.1
Các tính năng này tương đương với các hệ thống nhận dạng trên thế giới
Sản phẩm ứng dụng:
Phòng thông minh, bao gồm 5 thiết bị có khả năng tương tác hai chiều (nghe/nhận/thực hiện lệnh và trả lời) với người điều khiển bằng tiếng nói tiếng việt: cửa ra vào, camera, đèn, vô tuyến, điều hòa
Hệ thống giám sát điều khiển tính toán đường đáy, hiệu chỉnh trận địa pháo phòng không và tự động nạp tham số cự ly mục tiêu bằng tiếng nói
Trang 2725
có các đặc tính kỹ thuật:
- Hiển thị các khẩu lệnh báo cáo từ khối xử lý tiếng nói gửi sang
- Hiển thị được các bộ tham số khoảng cách, góc phương vị, góc tà từ phương hướng bàn đến các khẩu pháo và đến đài quan sát
- Hiển thị liên tục cự ly mục tiêu, ngoại suy cự ly mục tiêu trong khoảng giữa hai lần thông báo
- Tính toán đường đáy của trận địa
- Truyền toàn bộ tham số cho hệ thống điều khiển hoả lực
Hệ thống giám sát điều khiển tính toán đường đáy, hiệu chỉnh trận địa pháo phòng không và tự động nạp tham số cự ly mục tiêu bằng tiếng nói có ưu điểm
nổi bật tiết kiệm được từ 4 đế 6 phút thời gian triển khai mới trận địa
1.2.2.2 Các thiết bị sử dụng tương tác người máy bằng tiếng nói trên hệ
thống nhúng
Cho phép tích hợp vào các ứng dụng nhúng để thực hiện tương tác người máy bằng tiếng nói Các tính năng kỹ thuật chủ yếu:
Nhận dạng xử lý khoảng 50 lệnh bằng tiếng nói
- Độ chính xác của nhận dạng 90% trong môi trường ít nhiễu,
- Số bit lượng tử hoá: 8-16 bit
Truyền tin theo chuẩn: Wifi 802.11 b/g, Bluetooth 1.1
Các tính năng này tương đương với các hệ thống nhận dạng trên thế giới
Trang 2826
Sản phẩm ứng dụng:
Rô bôt điều khiển bằng tiếng nói có khả năng tự vận hành hoặc vận hành bởi người điều khiển, có khả năng tương tác hai chiều (nghe/nhận/thực hiện lệnh và trả lời) với người điều khiển bằng tiếng nói tiếng Việt
Quạt điều khiển bằng tiếng nói có khả năng tương tác hai chiều (nghe/nhận/thực hiện lệnh và trả lời) với người điều khiển bằng tiếng nói tiếng Việt
1.2.2.3 Phần mềm quản lý CSDL tiếng nói
Phần mềm cho phép hệ thống quản lý và thích nghi với các nguồn dữ liệu tiếng nói khác nhau:
Có thể quản lý nhiều CSDL tiếng nói
Cho phép truy vấn tìm kiếm và lấy dữ liệu một cách dễ dàng
Cho phép sử dụng trên mạng Intranet
1.2.2.4 Các sản phẩm khác
Các thành viên tham gia đề tài đã tham gia đào tạo được 01 tiến sỹ, 07 thạc sỹ, công bố 02 bài báo trong tạp chí trong nước , 05 bài báo tham gia hội nghị khoa học quốc tế, 05 bài báo tham gia hội nghị khoa học trong nước có phản biện
Trang 2927
Tài liệu tham khảo
[Desesprement 2007] Androide Désespérément, « ASIMO, l’ambasadeur officiel des androides », Tạp chí SVMLES grands dossier Robots, hors-serie No1, 2008
[Đỗ Thế Dũng 1998] Đỗ Thế Dũng., Trần Thiên Hương., et Boulakia G., « Intonation in vietnamese », Intonation systems: A survey of 22 languages, Hirst & Di Cristo (ed.),
Cambridge U.P, 1998
[Hirst 1998] Hirst, D., Di Cristo, A (1998), “A survey of intonation systems” In Hirst & Di
Cristo (eds) Intonation Systems: A Survey of Twenty Languages Cambridge University Press 1998, pp 1-44
[Hockey 2008] Hockey Beth Ann, James Frankie, Dowding John, Hieronymus Jim,
“Advanced capabilities for Spoken Dialogue-Natural language Interface Systems”,
Trang 3028
thời gian thực nhận dạng các từ tiếng việt phát âm rời” , Kỷ yếu hội thảo khoa học quốc gia
lần thứ nhất về nghiên cứu, phát triển và ứng dụng công nghệ thông tin và truyền thông ICT.rda’, tháng 2, 2003
[Nguyễn Quốc Cường 2002] Nguyễn Q.C, “Reconnaissance de la parole en langue Vietnamienne”, PhD thesis INP- Grenoble, France, June 2002
[Nguyễn Thị Thanh Hoa 2004] Nguyễn Thị Thanh Hoa, « Contribution à l’étude de la prosodie du vietnamien Variations de l’intonation dans les modalités: assertive, interrogative et impérative », Thèse 2004, Doctorat de Linguistique Théorique, Formelle et
Automatique
[Nguyễn Việt Sơn 2004] Nguyễn Việt Sơn, “Nhận dạng tiếng nói tiếng Việt liên tục”, Luận văn tốt nghiệp Thạc sỹ, Chuyên ngành Đo lường và các hệ thống điều khiển, Trường Đại Học Bách Khoa Hà Nội, tháng 9 năm 2004
[Pires 2005] J.Norberto Pires, “Robot-by-voice: Experriments on commanding an industrial robot by using the human voice”, Industrial Robot, An international Journal, Emerald Group
Publishing Limited, Volume 32, Number 6, 2005
[Rabiner 1993] Rabiner, Lawrence R., and B H Juang “Fundamentals of speech recognition” Englewood Cliffs, N.J., PTR Prentice Hall, c1993 507 p
[Rogalla 2002] O Rogalla, M Ehrenmann, R Zöllner, R Becher, and R Dillmann 2002
“Using gesture and speech control for commanding a robot assistant” In Proc of the 11th
IEEE Int Workshop on Robot and Human interactive Communication, pages 454 459 ROMAN
[Trần Đỗ Đạt 2007] Tran D D., “Synthèse de la parole à partir du texte en langue vietnamienne”, PhD Thesis INP-Grenoble, France, December 2007
[Lê Thị Xuyến 1989] Lê T.X., « Etude contrastive de l’intonation expressive en français et
en vietnamien », PhD thesis , Université Paris 3, 1989
[Vũ Minh Quang 2007] Vũ M.Q (2007), « Exploitation de la prosodie pour la segmentation
et l’analyse automatique de signaux de parole », PhD thesis INP- Grenoble, France,
septembre 2007
[Vu Tat Thang 2005] Thang Tat Vu, Dung Tien Nguyen, Mai Chi Luong, John-Paul Hosom,
“Vietnamese Large Vocabulary Continuous Speech Recognition” In Proc of Interspeech
2005, p 1698 – 1692
Trang 3129
[Weinstein 1990] Clifford J Weinstein “Opportunities for Advanced Speech Processing in Military Computer-Based Systems” Proceedings of the workshop on Speech and Natural Language, Hidden Valley, Pennsylvania, p 433 – 452, 990.
Trang 3230
khiển sử dụng giao tiếp người máy bằng tiếng nói
2.1 Nghiên cứu tương tác người – máy
2.1.1 Phân tích đặc tính của con người đối với bài toán điều khiển
Để thiết kế được các hệ thống trợ giúp thích nghi với người điều hành trong các điều kiện thực tế, một trong những công việc quan trọng đầu tiên là cần phải hiểu rõ về người vận hành để có thể trợ giúp họ một cách tốt nhất Mô hình hoạt động nhận thức, trí não, vật lý của người vận hành được mô tả trên Hình 2-1
Hình 2-1: Các hoạt động nhận thức, trí não, vật lý của người vận hành [Villemeur 88]
Các hoạt động của con người trong phòng điều khiển công nghiệp phức tạp có thể được nhóm lại thành bốn nhóm lớn [Berliner 64]:
- Các hoạt động cảm nhận bao gồm tìm kiếm và thu thập thông tin, xác
định tình huống, đối tượng và hành động;
- Các hoạt động trí não bao gồm xử lí thông tin, giải quyết các vấn đề, ra
quyết định;
- Các hoạt động vận động (hoặc các hoạt động vật lí) gồm các hành động
rời rạc trên các phím bấm, trên các cơ cấu chấp hành và các hành động liên tục chỉnh định, điều chỉnh, truy kích hoặc điều khiển (lái) bằng tay
Trang 3331
- Các hoạt động truyền thông bao gồm ra lệnh, trả lời, trao đổi thông tin
bằng miệng với các thành viên khác (cùng hoặc khác ê-kíp)
2.1.2 Các mô hình của tài nguyên tương tác của con người
2.1.2.1 Mô hình bộ nhớ con người
Có hai cách mô hình bộ nhớ của con người
- Mô hình hóa bộ nhớ thành ba hệ thống lưu trữ thông tin
- Mô hình sử dụng khái niệm bộ nhớ làm việc
2.1.2.2 Mô hình bộ nhớ con người thành ba hệ thống lưu trữ thông tin
Trong cách tiếp cận này, bộ nhớ con người được xem như gồm ba hệ thống lưu trữ thông tin riêng biệt: lưu trữ thông tin cảm nhận được từ các cơ quan cảm thụ, bộ nhớ ngắn hạn, và bộ nhớ dài hạn (Hình 2-2)
Hình 2-2: Ba hệ thống lưu giữ thông tin
- Thanh ghi lưu thông tin cảm thụ: lưu ảnh gần chính xác và toàn diện của
thế giới thực được thu nhận thông qua các cơ quan cảm thụ và sẽ bị mất sau một khoảng thời gian bất chấp ý muốn chủ quan của cá thể
- Bộ nhớ ngắn hạn: cho phép thu thập, trong khoảng thời gian trung bình
2 giây, một diễn giải trung gian của các sự kiện, có được bằng các tổng hợp và cấu trúc thông tin chứa trong các thanh ghi lưu thông tin cảm thụ
- Bộ nhớ dài hạn: được tạo thành từ một tổ chức phức tạp các kiến thức, tổ
Trang 3432
hợp các sơ đồ nhận thức Khả năng của nó về mặt thực tế là vô hạn Tất nhiên, tồn tại hiện tượng quên và biến dạng một số thông tin Các hiện tượng này không bắt nguồn từ khả năng của bộ nhớ con người mà bắt nguồn từ việc tổ chức và mã hóa các thông tin này trong bộ nhớ
- Mô hình bộ nhớ con người của Card: được sử dụng rộng rãi, và được lựa chọn do nó nhằm đến các khía cạnh thời gian của tương tác người-máy Xuất phát từ các khía cạnh thời gian này, ta có thể hiểu và dự báo được hiệu năng của hệ thống người-máy
Hình 2-3: Mô hình của bộ nhớ con người [Card 83]
- Người vận hành có thể được biễu diễn bởi một hệ thống xử lí thông tin có đặc điểm: (i) bị chi phối bởi tập hợp các luật; (ii) bao gồm một tập hợp các bộ nhớ và các bộ xử lí liên thông với nhau Mỗi bộ nhớ được đặc trưng bằng ba tham số: khả năng lưu trữ (sức chứa), thời gian lưu trữ (thời gian dữ liệu có thể tồn tại trong bộ nhớ mà không bị mất đi), và dạng thông tin được lưu trữ (Hình 2-3)
Trang 3533
- Các thông tin được lưu trữ được khai thác và cập nhật bởi các bộ xử lí bên ngoài Mỗi tác vụ có thể được phân thành các thao tác cơ sở Các thao tác cơ sở này có thể tiếp tục được nối liền với nhu cầu ghi nhớ tiềm năng của con người Do đó, cần thiết phải có sự trợ giúp của tin học
2.1.2.3 Mô hình hóa bộ nhớ con người như “bộ nhớ làm việc”
Trong mô hình biểu tượng ACT* (Adaptive Control of Thought) đề xuất bởi Anderson (83) (Hình 2-4), bộ nhớ làm việc được đặt trong mối liên hệ với một
bộ nhớ khai báo cố định và một bộ nhớ thủ tục cố định [Richard 90], trong đó:
- Bộ nhớ khai báo cố định lưu trữ các thông tin thực hoặc các khái niệm
trong một lưới ngữ nghĩa dưới một định dạng khác nhau (ví dụ hình ảnh, xâu chuỗi, hoặc mệnh đề);
- Bộ nhớ thủ tục cố định lưu trữ các thủ tục dưới dạng các luật sản xuất
(vận hành) gắn liền với các ứng dụng Các thủ tục ứng với từng ứng dụng được tiến hành trên nội dung có được trong bộ nhớ làm việc Các ứng dụng này có thể sinh ra các kiến thức khai báo mới, tạo ra các luật sản xuất mới hoặc thay đổi các luật sản xuất cũ
Hình 2-4: Mô hình ACT*
Trong Hình 2-4 ta bắt gặp năm quá trình xác định tính động của hệ thống:
- (1) Mã hóa: thu thập thông tin và chuyển nó đển bộ nhớ làm việc
Trang 3634
- (2) Lưu trữ: tạo ra các biểu diễn trong vùng bộ nhớ khai báo cố định
- (3) Truy xuất: thao tác lấy lại các phần tử đã lưu trữ trong bộ nhớ khai báo cố định, nạp vào bộ nhớ làm việc
- (4) Ghép đối (so sánh): so sánh nội dung của bộ nhớ làm việc với các điều kiện của các luật sản xuất trong bộ nhớ thủ tục cố định
- (5) Thực thi: chuyển vào bộ nhớ làm việc phần hành động của luật sản xuất tương ứng với cặp ghép đôi thành công
2.1.2.4 Đặc tính của bộ nhớ con người và ergonomie
Cho dù sử dụng cách tiếp cận mô hình hóa nào thì các giới hạn liên quan đến đặc tính của bộ nhớ con người đều có ảnh hưởng trực tiếp đến ergonomie của các công cụ trợ giúp phục vụ cho người vận hành Các ảnh hưởng này có thể được tóm tắt:
- Xét một cách tổng thể, giao diện người-máy được thiết kế như là phần
mở rộng của bộ nhớ ngắn hạn của người vận hành [Boy 88]
- Một giao diện người-máy có thể được xem thiết kế như là phần mở rộng của bộ nhớ dài hạn của người vận hành, ví dụ (i) chúng tập hợp các thủ
tục sẵn có và giúp người vận hành truy xuất dễ dàng các thủ tục này để sửa lỗi hoặc (ii) lưu lại các hành động lỗi có thể mắc phải bởi người dùng
và là nguyên nhân dẫn đến vận hành sai
Từ hai nhận xét trên, một số khuyến cáo ergonomie được đưa ra như:
- Các thông điệp gửi đến người vận hành (thông qua việc hiển thị hoặc các kênh giao tiếp khác) cần ngắn gọn vì chúng được tạo thành từ hơn 8 phần
tử thông tin, và do đó chúng không dễ nhớ và dễ khai thác;
- Giao diện không được thể hiện các thông tin vô ích đối với tác vụ hiện tại đang cần thực hiện, vì chúng làm giảm khả năng làm việc và hiệu suất của người vận hành
Trang 3735
2.1.3 Các mô hình xử lý, ra quyết định và thực thi của con người, các yêu
cầu về thông tin của người vận hành
2.1.3.1 Mô hình xử lí và ra quyết định khi giải quyết vấn đề của con người
a Mô hình của Rasmussen
Đây là mô hình « thang ra quyết định » gồm nhiều bước xử lí thông tin kế tiếp nhau, biểu diễn các bước tạo ra giải pháp của con người khi gặp một vấn đề (Hình 2-5)
Thang ra quyết định cung cấp một khuôn mẫu để phân tích sự “phối hợp nhận thức” của con người từ đó đề xuất một giao diện người-máy thích nghi với từng
sự phối hợp Rasmussen phân biệt ba dạng phối hợp cơ bản (Rasmussen 83):
- Dạng phối hợp bề mặt (Hình 2-6 dưới cùng): Được triển khai dựa trên
kinh nghiệm Người vận hành thực hiện các giải pháp một cách gần như
vô thức ứng với các thông tin nhận được Sự kết hợp này bao gồm hai bước « Khởi động » và « Thực hiện » của mô hình thang ra quyết định Dạng phối hợp này thường gặp trong các tác vụ điều khiển động cơ bằng tay, trong các tác vụ điều khiển công cụ, thiết bị kiểm định và cân chỉnh
- Dạng phối hợp thủ tục (Hình 2-6 ở giữa): Người dùng khi gặp phải các tình huống quen thuộc, hoặc đã được lập lịch trình sẵn sẽ áp dụng tập hợp các luật để xác định trạng thái của hệ thống và lựa chọn thủ tục thích hợp
Sự kết hợp này chuyển trực tiếp từ trạng thái phát hiện trạng thái không bình thường của hệ thống, hoặc quan sát các thông tin và dữ liệu sang trạng thái định nghĩa tác vụ hoặc xác định thủ tục để sửa lỗi
- Dạng phối hợp dựa trên kiến thức (Hình 2-6 trên cùng) được triển khai khi người dùng phải đối diện với các tình huống mới hoặc không lường trước Sự kết hợp này bao gồm tất các các trạng thái của thang ra quyết định Dạng phối hợp này thích nghi một cách thông minh các suy luận, đặt ra các giả thiết, kiểm tra chúng và đoán trước sự tiến triển của quá trình ứng với các hành động can thiệp vào hệ thống để sửa lỗi
Trang 38Mục đích cuối cùng Không rõ ràng
Định nghĩa tác vụ
Tác vụ
Xác định thủ tục;
Lập lịch trình các hành động tuần tự cần thực hiện
Mục đích mong muốn
Thủ tục
Thực hiện; Hợp tác để thực hiện thủ tục
Xác định trạng thái hiện tại của
hệ thống
Trạng thái của hệ thống
Hoạt động xử lí thông tin
Trạng thái nhận thức (tri thức) - kết quả của hoạt động
xử lí thông tin
Hình 2-5: Mô hình thang ra quyết định
- Ở mô hình thang ra quyết định này xuất hiện, một cách không tường minh, khái niệm tiết kiệm nhận thức Mô hình thang ra quyết định đã giả thiết rằng kinh nghiệm có được bởi người vận hành đã dẫn đến việc tổ chức các tri thức đảm bảo sao cho trong các tình huống đã biết hoặc mang tính thủ tục, các kiến thức đã được thích nghi sẽ được sử dụng và từ đó sẽ giảm tải nhận thức
Trang 3937
Hình 2-6: Ba dạng phối hợp cơ bản
b Lý thuyết hành động của Norman
Lý thuyết hành động của Norman [Norman 86] sử dụng khái niệm mô hình
khái niệm và lý giải các bước nhận thức khác nhau khi thực hiện một tác vụ với
sự giúp đỡ của hệ thống thông tin Mô hình khái niệm được tương ứng với một biễu diễn trí não dưới dạng các biến tâm lý : mỗi khái niệm, một đơn vị tri thức
hoặc đối tượng cần quan tâm sẽ tương ứng với một biến tâm lý
Lý thuyết hành động của Norman gồm 7 bước :
- Xây dựng mục tiêu
- Xây dựng chủ định
- Chương trình hành động
- Thực thi chương trình hành động
- Nhận biết trạng thái mới của hệ thống
- Diễn giải sự thay đổi của các biến vật lí dưới dạng tâm lý
- Ước lượng trạng thái của hệ thống so với các chủ đích và mục đích được xây dựng
Trang 40Xác định chương trình hành động
Chủ đích (Mục tiêu)
Hệ thống phức tạp Hoạt động
vật lí
Hoạt động trí não
Cách tiếp cận của mô hình này đã thể hiện một cách rõ ràng tầm quan trọng của giao diện người-máy Trên thực tế, trong suốt quá trình hoạt động của mình,
người điều khiển tự xây dựng một thế giới ảo phản ánh hình ảnh của thế giới
thực thông qua các giao diện Các giao diện này phải làm dễ dàng việc làm
tương ứng giữa các biến tâm lý của thế giới ảo với các biến vật lý của thế giới thực Bên cạnh đó, các giao diện này cũng thiết lập gắn kết giữa các biến vật lý
và các thiết bị giám sát Có như vậy, ứng với mỗi tình huống gặp phải, người điều khiển thích ứng sự phối hợp một cách tiết kiệm nhất có thể, và như vậy sẽ
sử dụng các kiến thức thích ứng nhất với việc thực hiện tác vụ hiện tại