Lời nói là phương tiện chính của giao tiếp giữa con người. Vì những lý do khác nhau, từ sự tò mò công nghệ, về cơ chế thực hiện cơ học khả năng nói của con người, mong muốn tự động hóa các nhiệm vụ đơn giản vốn đòi hỏi tương tác người-máy, nghiên cứu về nhận dạng tiếng nói tự động (và tổng hợp tiếng nói) bằng máy đã thu hút rất nhiều sự chú ý trong nhiều thập kỷ qua.
Tiểu luận Tóm lược lịch sử phát triển nhận dạng tiếng nói TÀI LIỆU THAM KHẢO MỤC LỤC LỜI MỞ ĐẦU PHẦN I TÓM LƯỢC LỊCH SỬ PHÁT TRIỂN NHẬN DẠNG TIẾNG NÓI I TỪ CÁC MƠ HÌNH MÁY TẠO TIẾNG NÓI ĐẾN PHỔ TIẾNG II NHỮNG HỆ THỐNG NHẬN DẠNG TIẾNG NÓI TỰ ĐỘNG ĐẦU TIÊN III CÁC ĐỊNH HƯỚNG CÔNG NGHỆ TRONG NHỮNG NĂM 1970 IV HƯỚNG CÔNG NGHỆ TRONG THẬP NIÊN 1980 VÀ 1990 11 V HƯỚNG ĐẾN MỘT CỖ MÁY CÓ THỂ GIAO TIẾP 18 VI TÓM TẮT 20 PHẦN II CÁC NGUYÊN TẮC SÁNG TẠO ĐÃ ĐƯỢC SỬ DỤNG 24 I NGUYÊN TẮC PHÂN NHỎ 24 II NGUYÊN TẮC PHẨM CHẤT CỤC BỘ 24 III NGUYÊN TẮC KẾT HỢP 24 IV NGUYÊN TẮC TÁCH KHỎI 24 V NGUYÊN TẮC LINH ĐỘNG 24 VI NGUYÊN TẮC GIẢI “THIẾU” HOẶC “THỪA” 25 VII NGUYÊN TẮC QUAN HỆ PHẢN HỒI 25 VIII NGUYÊN TẮC LIÊN TỤC TÁC ĐỘNG CĨ ÍCH 25 TÀI LIỆU THAM KHẢO 26 LỜI MỞ ĐẦU LỜI MỞ ĐẦU Lời nói phương tiện giao tiếp người Vì lý khác nhau, từ tò mò cơng nghệ, chế thực học khả nói người, mong muốn tự động hóa nhiệm vụ đơn giản vốn đòi hỏi tương tác người-máy, nghiên cứu nhận dạng tiếng nói tự động (và tổng hợp tiếng nói) máy thu hút nhiều ý nhiều thập kỷ qua Từ năm 1930, Homer Dudley phòng thí nghiệm Bell đề xuất mơ hình hệ thống cho phân tích tổng hợp tiếng nói, vấn đề nhận dạng tiếng nói tự động tiến triển liên tục, từ máy đơn giản có khả phản ứng với tập nhỏ âm đến hệ thống phức tạp có khả phản ứng với ngơn ngữ nói tự nhiên Dựa bước tiến mơ hình thống kê tiếng nói năm 1980, hệ thống nhận dạng tiếng nói tự động ngày cung cấp ứng dụng rộng rãi nhiệm vụ yêu cầu giao tiếp người – máy hệ thống xử lý gọi tự động mạng điện thoại hệ thống truy xuất thông tin cung cấp thông tin cập nhật du lịch, giá hàng hóa, chứng khốn, thơng tin thời tiết… Bài tiểu luận tóm tắt bước tiến bật nghiên cứu phát triển nhận dạng tiếng nói tự động thập kỷ gần nguyên tắc sáng tạo sử dụng việc tạo hệ thống nhận dạng tiếng nói PHẦN I TĨM LƯỢC LỊCH SỬ PHÁT TRIỂN NHẬN DẠNG TIẾNG NÓI PHẦN I TÓM LƯỢC LỊCH SỬ PHÁT TRIỂN NHẬN DẠNG TIẾNG NĨI I TỪ CÁC MƠ HÌNH MÁY TẠO TIẾNG NĨI ĐẾN PHỔ TIẾNG NÓI Nỗ lực để phát triển máy móc bắt chước khả giao tiếp tiếng nói người bắt đầu vào nửa cuối kỷ 18 Năm 1773, nhà khoa học người Nga, Christian Kratzenstein, giáo sư sinh lý học Copenhagen thành công việc tạo nguyên âm cách sử dụng ống cộng hưởng kết nối với ống organ Sau đó, Wolfgang von Kempelen Vienna xây dựng cỗ máy tạo âm tiếng nói khí (1791) kỷ 18 Charles Wheatstone xây dựng phiên cỗ máy von Kempelen cách sử dụng cộng hưởng làm da, cấu hình thay đổi kiểm sốt tay để tạo âm gần giống với tiếng nói thể hình Hình Phiên cỗ máy Kempelen Wheatstone Trong nửa đầu kỉ 20, Fletcher người khác phòng thí nghiệm Bell đưa dẫn chứng tài liệu mối quan hệ phổ tiếng nói (sự phân bố cường độ âm tiếng nói thơng qua tần số) PHẦN I TĨM LƯỢC LỊCH SỬ PHÁT TRIỂN NHẬN DẠNG TIẾNG NÓI đặc tính âm tính dễ hiểu người nghe Trong thập niên 1930, Dudley Homer, người chịu ảnh hưởng nhiều nghiên cứu Fletcher, phát triển cỗ máy tổng hợp tiếng nói gọi VODER (Voice Operating Demonstrator), phiên điện tử (với điều khiển khí) cỗ máy Wheatstone Hình cho thấy sơ đồ khối VODER bao gồm wrist bar để điều khiển tín hiệu, bàn chân đạp để kiểm sốt tần số dao động (cao độ tiếng nói tổng hợp) Các tín hiệu truyền động thơng qua thông qua mười lọc bandpass với cấp độ đầu điều khiển tay 10 lọc bandpass sử dụng để làm thay đổi phân bố lượng tín hiệu nguồn phạm vi tần số, từ xác định đặc tính âm tiếng nói loa Vì vậy, để tổng hợp câu, người điều khiển VODER phải tìm hiểu làm để kiểm soát điều khiển VODER để tạo câu nói VODER giới thiệu hội chợ giới New York City vào năm 1939 coi cột mốc quan trọng tiến triển máy nói Hình Sơ đồ khối cỗ máy VODER Những người tiên phong tiếng nói Harvery Fletcher Homer Dudley thiết lập cách vững tầm quan trọng phổ tín hiệu để xác định chắn tính chất ngữ âm tiếng nói Sau chuẩn thiết lập hai nhà khoa học xuất sắc, hầu hết hệ thống đại thuật toán nhận PHẦN I TÓM LƯỢC LỊCH SỬ PHÁT TRIỂN NHẬN DẠNG TIẾNG NĨI dạng tiếng nói dựa khái niệm đo (time-varying) phổ cường độ tiếng nói (hoặc biến thể cepstrum), phần thực tế đo phổ cường độ tiếng nói từ tín hiệu tương đối dễ dàng để thực với kỹ thuật xử lý tín hiệu kỹ thuật số đại II NHỮNG HỆ THỐNG NHẬN DẠNG TIẾNG NÓI TỰ ĐỘNG ĐẦU TIÊN Những nỗ lực sớm để thiết kế hệ thống nhận dạng tiếng nói tự động chủ yếu dẫn đường lý thuyết ngữ âm học, mơ tả yếu tố ngữ âm tiếng nói (những âm ngơn ngữ) cố gắng giải thích làm chúng nhận lời nói Những yếu tố bao gồm âm vị, vị trí tương ứng cách thức phát âm sử dụng để tạo âm ngữ cảnh ngữ âm khác Ví dụ, để tạo nguyên âm ổn định, dây âm rung (để kích thích quản), khơng khí truyền qua quản kết âm cộng hưởng cách tự nhiên giống xảy ống âm Các chế độ cộng hưởng tự nhiên gọi thành tố tần số thành tố, biểu vùng tập trung lượng phổ cường độ tiếng nói Năm 1952, Davis, Biddulph, Balashek phòng thí nghiệm Bell xây dựng hệ thống nhận biết chữ số lập người nói, cách sử dụng tần số thành tố đo (ước tính) vùng nguyên âm chữ số Hình cho thấy biểu đồ đường biểu diễn thành tố với phạm vi tần số thành tố thứ thứ hai cho chữ số từ đến Những đường biểu diễn đóng vai trò "mơ hình tham chiếu" để xác định danh tính số chưa biết PHẦN I TÓM LƯỢC LỊCH SỬ PHÁT TRIỂN NHẬN DẠNG TIẾNG NĨI Hình Biểu đồ biểu diễn thành tố chữ số Trong thập niên 1950, Olson Belar phòng thí nghiệm RCA xây dựng hệ thống nhận dạng 10 âm tiết người nói [10] Và phòng thí nghiệm MIT Lincoln, anh em nhà Forgie xây dựng nhận dạng 10 nguyên âm độc lập với người nói Trong thập niên 1960, số phòng thí nghiệm Nhật chứng minh khả xây dựng phần cứng với mục đích đặc biệt để thực nhiệm vụ nhận dạng tiếng nói Đáng ý nhận diện nguyên âm Suzuki Nakata phòng nghiên cứu vơ tuyến Tokyo, nhận diện âm vị Sakai Doshita Đại học Kyoto, nhận diện chữ số phòng thí nghiệm NEC Nghiên cứu Sakai Doshita đánh dấu việc sử dụng lần phân đoạn (segmenter) tiếng nói để phân tích nhận diện tiếng nói phần khác lời nói đầu vào Ngược lại, nhận diện chữ số bị lập ngầm giả định lời nói chứa chữ số đầy đủ (và khơng có âm tiếng nói khác xen vào) khơng cần "segmenter" rõ ràng Nghiên cứu trường Đại học Kyoto coi tiền thân hệ thống nhận dạng tiếng nói liên tục Một hệ thống nhận dạng khác Fry and Denes trường Đại học College Anh, xây dựng nhận diện âm vị để nhận nguyên âm phụ âm Bằng cách kết hợp thông tin thống kê trình tự âm vị tiếng Anh, họ tăng độ xác nhận dạng âm vị tổng thể cho từ bao gồm hai nhiều âm vị Nghiên cứu đánh dấu lần sử dụng cú pháp thống kê (ở cấp PHẦN I TÓM LƯỢC LỊCH SỬ PHÁT TRIỂN NHẬN DẠNG TIẾNG NÓI độ âm vị) nhận dạng tiếng nói tự động Một thay cho việc sử dụng phân đoạn tiếng nói khái niệm việc áp dụng time scale không thống cho việc xếp mẫu tiếng nói Khái niệm bắt đầu chấp nhận thập niên 1960 thông qua nghiên cứu Tom Martin phòng thí nghiệm RCA Vintsyuk Liên Xơ Martin thừa nhận cần thiết để đối phó với thời gian khơng thống lời nói lặp lại đề nghị loạt giải pháp, bao gồm phát điểm kết thúc lời nói, điều nâng cao độ tin cậy việc nhận diện Vintsyuk đề xuất việc sử dụng lập trình động cho liên kết thời gian hai lời nói để lấy đánh giá đầy đủ tương tự chúng Nghiên cứu ông, chưa rõ ràng trước Sakoe Chiba người khác đề xuất phương pháp thức hơn, thường biết đến dynamic time warping so sánh mẫu tiếng nói Kể từ cuối năm 1970, chủ yếu cơng bố Sakoe Chiba, lập trình động, nhiều biến thể khác (bao gồm thuật toán Viterbi), trở thành kỹ thuật thiếu nhận dạng tiếng nói tự động III CÁC ĐỊNH HƯỚNG CÔNG NGHỆ TRONG THẬP NIÊN 1970 Trong cuối năm 1960, Atal Itakura độc lập xây dựng khái niệm mã dự đoán trước tuyến tính (LPC) Nó đơn giản hóa nhiều việc đánh giá việc quản phản ứng với sóng tiếng nói Vào năm 1970, ý tưởng việc áp dụng công nghệ nhận dạng mẫu gốc để nhận dạng tiếng nói, dựa phương pháp LPC, đề xuất Itakura, Rabiner, Levinson số người khác Cũng khoảng thời gian này, dựa thành cơng trước nghiên cứu lời nói, Tom Martin thành lập cơng ty thương mại nhận dạng tiếng nói gọi Threshold Technology, Inc phát triển sản phẩm nhận dạng tiếng nói tự động thực gọi hệ thống VIP100 Hệ thống sử dụng vài ứng dụng đơn giản, chẳng hạn hãng sản xuất mặt TV (để kiểm soát chất lượng) FedEx PHẦN I TÓM LƯỢC LỊCH SỬ PHÁT TRIỂN NHẬN DẠNG TIẾNG NĨI (cho việc xếp gói hàng băng tải), tầm quan trọng cách ảnh hưởng đến Advanced Research Projects Agency (ARPA) Bộ Quốc phòng Mỹ để tài trợ cho chương trình Speech Understanding Research (SUR) thời gian đầu năm 1970 Trong số hệ thống xây dựng nhà thầu chương trình ARPA hệ thống “Harpy” Đại học Carnegie Mellon Nó nhận dạng tiếng nói cách sử dụng từ vựng 1.011 từ, với độ xác tương đối Một đóng góp đặc biệt từ hệ thống “Harpy” khái niệm làm đồ thị tìm kiếm, miêu tả ngơn ngữ nhận dạng tiếng nói mạng kết nối từ miêu tả từ, quy tắc ngữ pháp quy định ranh giới từ Trong hệ thống Harpy, tiếng nói đầu vào, sau qua phân tích tham số, phân đoạn sau chuỗi tham số phân đoạn tiếng nói so sánh với mẫu sử dụng khoảng cách Itakura Việc tìm kiếm đồ thị, dựa thuật tốn băm, biên dịch, đưa giả thuyết, cắt xén, sau kiểm tra chuỗi từ (hoặc âm thanh) nhận dạng với ràng buộc hệ thống với độ xác cao Hệ thống Harpy có lẽ hệ thống tận dụng lợi mạng trạng thái hữu hạn để giảm bớt tính toán xác định hiệu chuỗi phù hợp Tuy nhiên, phương pháp tối ưu hóa mạng trạng thái hữu hạn (FSN) (về hiệu suất loại bỏ dư thừa) đầu năm 1990 xuất Các hệ thống khác phát triển theo chương trình SUR bao gồm Hearsay-II CMU HWIM BBN Cả hai hệ thống không đạt mục tiêu hiệu suất ARPA kết thúc vào năm 1976 Tuy nhiên, cách tiếp cận đề xuất Hearsay-II sử dụng quy trình khơng đồng song song mô nguồn kiến thức cấu thành hệ thống tiếng nói khái niệm tiên phong Hệ thống Hearsay-II mở rộng phân tích nhận dạng âm (đến mức độ giả thuyết cao hơn) Các thông tin mức độ thấp chuyển đến bảng đen toàn cục nơi tri thức từ nguồn song song kết hợp để tạo giả thuyết mức độ cao Hệ thống HWIM BBN, mặt PHẦN I TÓM LƯỢC LỊCH SỬ PHÁT TRIỂN NHẬN DẠNG TIẾNG NÓI 10 khác, biết đến ý tưởng thú vị bao gồm mạng giải mã từ vựng kết hợp quy tắc phức tạp âm vị học (nhằm mục đích nhận dạng xác âm vị) Nó xử lý phân đoạn mạng lưới giả thiết thay thế, khái niệm xác minh từ mức độ tham số Một hệ thống đáng ý vào thời gian hệ thống DRAGON Jim Baker Người sau chuyển tới Massachusetts để bắt đầu cơng ty có tên đầu năm 1980 Song song với nỗ lực khởi xướng ARPA, hướng khái quát nghiên cứu nhận dạng tiếng nói bắt đầu định hình năm 1970 IBM phòng thí nghiệm Bell AT & T đưa hai trường phái khác khả ứng dụng hệ thống nhận dạng tiếng nói tự động cho ứng dụng thương mại Những nghiên cứu IBM Fred Jelinek đảm nhiệm nhằm tạo máy đánh chữ kích hoạt tiếng nói (VAT) Các chức chuyển đổi câu nói thành chuỗi chữ từ để hiển thị hình đánh giấy Hệ thống nhận dạng gọi Tangora thực hệ thống độc lập người nói (máy đánh chữ phải huấn luyện người dùng cá nhân) Tập trung kỹ thuật kích thước từ vựng nhận diện (càng lớn tốt, với mục tiêu sử dụng phù hợp với mơi trường văn phòng), cấu trúc mơ hình ngơn ngữ miêu tả quy tắc cú pháp thống kê mô tả chuỗi ký hiệu ngơn ngữ (ví dụ, âm vị từ) xuất tín hiệu tiếng nói Đây loại nhiệm vụ nhận dạng tiếng nói thường gọi phiên mã Tập hợp quy tắc ngữ pháp cú pháp thống kê gọi mơ hình ngơn ngữ, mơ hình n-gram xác định khả xuất chuỗi xếp gồm n từ thường xuyên sử dụng Mặc dù hai mô hình ngơn ngữ n-gram ngữ pháp truyền thống biểu quy tắc ngôn ngữ, vai trò chúng khác Mơ hình n-gram mơ tả mối quan n từ hệ hoàn toàn dựa thuận lợi sức mạnh việc mô tả quy tắc ngôn ngữ sử dụng thống kê Nó gây ấn tượng với việc PHẦN I TÓM LƯỢC LỊCH SỬ PHÁT TRIỂN NHẬN DẠNG TIẾNG NÓI 13 dù ý tưởng mơ hình Markov ẩn (HMM) biết đến hiểu sớm vài phòng thí nghiệm (ví dụ, IBM Viện Phân tích Quốc phòng (IDA)), phương pháp luận chưa đầy đủ năm 1980 sau công bố rộng rãi lý thuyết, mô hình Markov ẩn trở thành phương pháp ưa thích cho nhận dạng tiếng nói Sự phổ biến sử dụng HMM tảng cho hệ thống tự động nhận dạng tiếng nói hệ thống hiểu biết không thay đổi hai thập kỷ qua, đặc biệt cải tiến liên tục cơng nghệ Mơ hình Markov ẩn q trình ngẫu nhiên gấp đơi, mơ hình hóa biến đổi nội tín hiệu tiếng nói cấu trúc ngơn ngữ nói khn khổ mơ hình hóa thống kê tổng hợp qn Như biết, tín hiệu tiếng nói thực tế vốn khác (do thay đổi cách phát âm giọng, yếu tố môi trường độ vang tiếng ồn) Khi người nói từ, tín hiệu âm khơng phải giống hệt (trong thực tế chúng khác đáng kể), cấu trúc ngôn ngữ bản, cú pháp, phát âm ngữ pháp, (hoặc khơng) giống Hình thức HMM phép đo xác suất sử dụng chuỗi Markov để miêu tả cho cấu trúc ngôn ngữ tập phân bố xác suất để giải thích cho biến đổi việc nhận âm lời nói Với tập lời nói biết đến, miêu tả cho sưu tập đầy đủ biến thể từ quan tâm (gọi tập huấn luyện), người ta sử dụng phương pháp ước lượng hiệu quả, gọi thuật tốn Baum-Welch để có tập hợp tốt thông số xác định mô hình mơ hình tương ứng Việc ước tính tham số để xác định mơ hình tương đương với việc đạo tạo học tập Mơ hình kết sau sử dụng để cung cấp số khả (xác suất) lời nói thực thực từ (hoặc từ) miêu mơ hình Phép đo xác suất trình bày HMM thành phần thiết yếu hệ thống nhận dạng tiếng nói theo cách tiếp cận nhận dạng mẫu thống kê, nguồn gốc từ lý thuyết định Bayes Phương pháp luận HMM đại diện PHẦN I TÓM LƯỢC LỊCH SỬ PHÁT TRIỂN NHẬN DẠNG TIẾNG NÓI 14 cho bước tiến quan trọng từ nhận dạng mẫu đơn giản phương pháp ngữ âm sử dụng trước hệ thống nhận dạng tiếng nói tự động Ý tưởng mơ hình Markov ẩn xuất lần vào cuối năm 1960 Viện Phân tích Quốc phòng (IDA) Princeton, NJ Len Baum xem HMM tập chức xác suất chuỗi Markov, theo định nghĩa, bao gồm hai phân bố lồng nhau, liên quan đến chuỗi Markov đến tập hợp phân bố xác suất, liên quan đến trạng thái chuỗi Markov theo thứ tự Mơ hình HMM cố gắng để xác định đặc điểm chuỗi xác suất quan sát chức cố định, thay thay đổi theo chuỗi Markov Q trình ngẫu nhiên gấp đơi tìm thấy thực hữu ích số ứng dụng dự đốn thị trường chứng khốn phân tích crypto mật mã quay sử dụng rộng rãi Thế chiến II Kỹ thuật ước tính mơ hình hóa Baum lần xuất làm quan sát riêng biệt (tức là, người ta giả định giá trị từ tập hợp hữu hạn điều chỉnh phân bố xác suất rời rạc) sau quan sát ngẫu nhiên mô cách sử dụng hàm mật độ xác suất log-concave Kỹ thuật mạnh mẽ bị hạn chế Liporace, thuộc IDA, nới lỏng ràng buộc mật độ log-concave để bao gồm ràng buộc mật độ đối xứng elip (do bao gồm mật độ Gaussian mật độ Cauchy), với giúp đỡ từ miêu tả định lý cũ Fan Quá trình ngẫu nhiên gấp đơi Baum bắt đầu tìm ứng dụng lĩnh vực tiếng nói, ban đầu hệ thống nhận dạng người nói, vào cuối năm 1970 Khi kỹ thuật HMM sử dụng nhiều, bộc lộ hạn chế, hình thức chức mật độ áp đặt giới hạn hiệu suất hệ thống, đặc biệt nhiệm vụ độc lập với người nói phân phối tham số tiếng nói khơng thể mơ hình hóa đầy đủ log-concave đơn hàm mật độ đối xứng elip Vào đầu năm 1980, phòng thí nghiệm Bell, lý thuyết HMM mở rộng mật độ hỗn hợp kể từ chứng minh quan trọng sống chúng việc đảm bảo độ nhận dạng xác, PHẦN I TÓM LƯỢC LỊCH SỬ PHÁT TRIỂN NHẬN DẠNG TIẾNG NÓI 15 đặc biệt nhiệm vụ đòi hòi độc lập người nói, nhận giạng tiếng nói với vốn từ vựng lớn Việc kết hợp mơ hình Markov ẩn (với lợi tính chắn thống kê, đặc biệt việc xử lý biến đổi âm thanh) mạng trạng thái hữu hạn (với hiệu tính tốn tìm kiếm mình, đặc biệt việc xử lý giả thuyết thứ tự từ) quan trọng Hình Mơ hình tổng hợp trạng thái hữu hạn cho lời nói “show all alerts” Hình cho thấy mơ hình tổng hợp trạng thái hữu hạn cho lời nói “show all alerts”, xây dựng từ số mơ hình subword phụ thuộc vào bối cảnh để miêu tả cho âm vị giống đơn vị lời nói tương ứng (bao gồm đơn vị cho im lặng xảy vào lúc bắt đầu kết thúc câu, cuối từ câu, xảy q trình tạm dừng nói) Đồ thị trạng thái hữu hạn thực chuỗi Markov để tính khả xảy ra, dựa trình tự quan sát lời nói Lưu ý nút biểu đồ liên kết với phân bố xác suất giải thích cho biến đổi việc thực âm giống âm vị tương ứng Khả lời nói tạo mạng trạng thái hữu hạn đại diện mơ hình tính tổng khả cục (liên quan đến đơn vị mơ hình tổng hợp) sau liên kết trạng thái lập trình động thực để tối đa phù hợp đơn vị gán nhãn phần PHẦN I TÓM LƯỢC LỊCH SỬ PHÁT TRIỂN NHẬN DẠNG TIẾNG NÓI 16 tương ứng quan sát (observation) tiếng nói (ngay mơ hình trình tự từ khơng xác) Tại thời điểm bất kỳ, ln có số đơn vị giả thuyết xác định danh tính âm dựa giá trị khả tối đa Số đơn vị giả thuyết để so sánh đường để tìm kiếm vơ lớn phải u cầu thuật tốn tính tốn hiệu để giải vấn đề Một công cụ, gọi thư viện FSM (finite-state machine), thể cách tiếp cận mạng trạng thái hữu hạn khuôn khổ chuyển đổi thống phát triển vào năm 1990 trở thành thành phần hầu hết hệ thống nhận dạng hiểu tiếng nói đại Một cơng nghệ khác giới thiệu lại vào cuối năm 1980 ý tưởng mạng thần kinh nhân tạo (ANN) Các mạng thần kinh lần giới thiệu vào năm 1950, không tạo kết đáng ý Sự xuất mô hình xử lý phân phối song song (PDP) năm 1980, kết nối dày đặc thành phần tính tốn đơn giản, phương thức "đào tạo" tương ứng, gọi lan truyền ngược làm sống lại quan tâm xung quanh ý tưởng cũ bắt chước chế xử lý thần kinh người Một hình thức đặc biệt PDP perceptron nhiều lớp, miêu tả hình 5, có lẽ nhận ý nhiều nhất, khơng phải giống với xử lý thần kinh mà khả xấp xỉ hàm (đầu vào) với độ xác tùy ý, miễn khơng có giới hạn phức tạp cấu hình xử lý bị áp đặt Nếu nhận dạng mẫu xem xét thực hàm ánh xạ mẫu đầu vào vào lớp nhận dạng, perceptron nhiều lớp ứng cử viên cho mục đích Những cố gắng sử dụng mạng thần kinh cho nhận dạng tiếng nói tập trung vào nhiệm vụ đơn giản nhận vài âm vị vài từ (ví dụ, chữ số bị cô lập) với thành công tốt đẹp Tuy nhiên, vấn đề nhận dạng tiếng nói chắn đòi hỏi phải xử lý thay đổi thời gian, mạng lưới thần kinh hình thức ban đầu không đảm nhận nhiệm vụ Những nghiên cứu diễn tập trung vào PHẦN I TÓM LƯỢC LỊCH SỬ PHÁT TRIỂN NHẬN DẠNG TIẾNG NÓI 17 việc tích hợp mạng thần kinh với cấu trúc cần thiết mơ hình Markov ẩn để tận dụng khả xử lý thời gian HMM Trong năm 1990, số sáng kiến diễn lĩnh vực nhận dạng mẫu Vấn đề nhận dạng mẫu, truyền thống theo khuôn khổ Bayes yêu cầu ước tính phân bố liệu, chuyển đổi thành vấn đề tối ưu hóa liên quan đến giảm thiểu lỗi nhận dạng từ thực tế Sự thay đổi mơ hình gây công nhận thực tế hàm phân bố cho tín hiệu tiếng nói lựa chọn xác định khơng xác, lý thuyết định Bayes không áp dụng trường hợp Sau tất cả, mục tiêu thiết kế nhận dạng nên để đạt lỗi nhận dạng hàm phân phối phù hợp liệu ủng hộ tiêu chuẩn Bayes Khái niệm phân loại tối thiểu lỗi thực nghiệm sau cho đời số kỹ thuật, phân biệt đào tạo phương pháp kernel-based support vector machines (SVM) trở thành đối tượng phổ biến nghiên cứu Hình Perceptron nhiều lớp Thành cơng phương pháp thống kê khơi lại quan tâm từ DARPA vào cuối năm 1980 đầu năm 1990, dẫn đến số hệ thống nhận dạng tiếng nói bao gồm hệ thống Sphinx từ CMU, hệ thống Byblos từ BBN hệ thống DECIPHER từ SRI Hệ thống Sphinx CMU thành PHẦN I TÓM LƯỢC LỊCH SỬ PHÁT TRIỂN NHẬN DẠNG TIẾNG NĨI 18 cơng việc tích hợp phương pháp thống kê mơ hình Markov ẩn với sức mạnh mạng tìm kiếm hệ thống Harpy Do đó, đào tạo nhúng vào mơ hình âm vị phụ thuộc vào bối cảnh mạng lưới giải mã từ vựng phức tạp, đạt kết đáng ý nhận dạng tiếng nói liên tục với vốn từ vựng lớn Với hỗ trợ DARPA, việc đánh giá cơng nghệ nhận dạng tiếng nói cho loạt nhiệm vụ theo đuổi suốt năm 1990 kỷ 21 Những đánh chủ yếu dựa đo lường tỷ lệ lỗi từ (và câu) số hiệu hệ thống nhận dạng Hơn nữa, đánh giá tiến hành có hệ thống qua nhiệm vụ thiết kế cẩn thận với mức độ khó khăn tăng dần, từ nhận dạng tiếng nói liên tục với cấu trúc ngữ pháp cách điệu (như sử dụng thường xuyên nhiệm vụ quân sự) đến lời nói đàm thoại Hình cho thấy biểu đồ tóm tắt việc đo lường hiệu nhiệm vụ nhận dạng tiếng nói liên tục với vốn từ vựng lớn theo đánh giá DARPA NIST Trong biểu đồ, nhiệm vụ “quản lý tài nguồn lực” quan đến cụm từ cứng nhắc kiểu quân đội với vốn từ vựng gần 1000 từ ATIS nhiệm vụ có liên quan đến trò chuyện tự nhiên với hệ thống lấy thông tin du lịch hàng khơng tự động; lối nói tự nhiên, cấu trúc ngơn ngữ hạn chế WSJ đề cập đến phiên âm số đoạn đọc từ báo Wall Street Journal, kích thước từ vựng lên tới 60K từ Nhiệm vụ tổng đài thách thức lớn đề xuất DARPA Lối nói theo kiểu đàm thoại thơng thường, tự nhiên, với nhiều từ khơng hồn chỉnh, nói ngập ngừng… Nhận dạng câu đàm thoại kiểu (không tuân thủ theo ràng buộc ngôn ngữ) khó khăn nhiều so với nói chuyện định hướng tuân thủ nguyên tắc ngữ pháp ngữ nghĩa Ngồi ra, chương trình đánh giá cho thấy việc tăng số lượng liệu tiếng nói sử dụng để đánh giá thơng số nhận diện (như kích thước tập huấn luyện) ln dẫn đến giảm tỷ lệ lỗi từ (Một hệ thống nhận diện tiếng nói với vốn từ vựng lớn coi chấp nhận tỷ lệ lỗi từ PHẦN I TÓM LƯỢC LỊCH SỬ PHÁT TRIỂN NHẬN DẠNG TIẾNG NÓI 19 10%) Trong năm 1990 tiến to lớn từ phát triển cơng cụ phần mềm cho phép nhiều chương trình nghiên cứu cá nhân toàn giới Khi hệ thống trở nên phức tạp (nhiều hệ thống từ vựng lớn liên quan đến hàng chục ngàn mơ hình âm vị hàng triệu thông số), hệ thống phần mềm tham khảo cấu trúc tốt thiếu cho việc nghiên cứu thêm phát triển để kết hợp khái niệm thuật toán Hệ thống thực nhóm nghiên cứu Đại học Cambridge (được dẫn dắt Steve Young), gọi cơng cụ mơ hình Markov ẩn (HTK), công cụ phần mềm chấp nhận rộng rãi cho nghiên cứu nhận dạng tiếng nói Hình Đánh giá khả nhận dạng giọng nói cho số nhiệm vụ thực DARPA V HƯỚNG ĐẾN MỘT CỖ MÁY CÓ THỂ GIAO TIẾP Hầu hết nghiên cứu nhận giạng tiếng nói năm 1980 coi vấn đề nghiên cứu chuyển sóng tiếng nói thành từ ngữ Nhiều PHẦN I TÓM LƯỢC LỊCH SỬ PHÁT TRIỂN NHẬN DẠNG TIẾNG NÓI 20 nhà nghiên cứu tin trình speech-to-text bước cần thiết q trình cho phép máy tính hiểu trả lời lại tiếng nói người Trong lĩnh vực đánh giá công nghệ nhận dạng hiểu tiếng nói cho loạt nhiệm vụ, có hai điều quan trọng tìm q trình giao tiếp tiếng nói người máy móc Đầu tiên, người sử dụng tiềm hệ thống nhận dạng tiếng nói có xu hướng nói câu tự nhiên thường khơng đáp ứng đầy đủ ràng buộc ngữ pháp nhận dạng, lời nói thường xuyên bị hỏng thành phần nhiễu tiếng ồn xung quanh, âm thanh, tiếng nói khơng liên quan Thứ hai, giao tiếp người với người, ứng dụng tiếng nói thường yêu cầu đối thoại người dùng máy tính để đạt số trạng thái hiểu biết mong muốn Một hội thoại thường yêu cầu hoạt động truy vấn xác nhận, cung cấp số hạn định cho lỗi nhận dạng hiểu tiếng nói Phương pháp từ khóa trọng tâm (và ứng dụng hệ thống xử lý gọi nhận dạng tiếng nói (VRCP) AT & T đề cập phần trước), giới thiệu để đáp ứng yếu tố yếu tố thứ hai tập trung ý cộng đồng nghiên cứu vào lĩnh vực quản lý hội thoại Nhiều ứng dụng hệ thống chứng thực tầm quan trọng quản lý hội thoại qua độ xác nhận dạng từ thô hệ thống giới thiệu vào đầu năm 1990 với mục tiêu cuối tạo máy tính thực bắt chước khả giao tiếp người Trong số hệ thống này, Pegasus Jupiter phát triển Viện Công nghệ Massachusetts đạo Victor Zue ý đặc biệt, hệ thống “Làm tơi giúp bạn” (HMIHY) AT & T phát triển Al Gorin dịch vụ ý giới thiệu phần hệ thống chăm sóc khách hàng AT & T cho dịch vụ giao tiếp khách hàng họ năm 2000 Pegasus hệ thống giao tiếp tiếng nói cung cấp thơng tin tình trạng chuyến bay hãng hàng khơng đường dây điện thoại PHẦN I TÓM LƯỢC LỊCH SỬ PHÁT TRIỂN NHẬN DẠNG TIẾNG NĨI 21 thơng thường Jupiter hệ thống tương tự tập trung vào truy cập thông tin thời tiết, địa phương quốc gia Các hệ thống hình mẫu điển hình hiệu quản lý hội thoại Với việc quản lý hội thoại thiết kế cách thích đáng, hệ thống hướng dẫn người sử dụng cung cấp thông tin cần thiết để xử lý yêu cầu, tập hợp nhỏ tiềm ẩn lựa chọn trình đơn, không cần yêu cầu chi tiết rõ ràng truy vấn, chẳng hạn cách sử dụng cụm từ quản lý thoại "hãy nói buổi sáng, buổi chiều, buổi tối" khung thời gian chuyến bay trưng cầu Quản lý thoại thường kết hợp chặt chẽ với xác nhận ẩn cụm từ nhận dạng xử lý lỗi để làm cho người sử dụng phản ứng thể có nhân viên khơng phải máy tính đầu bên đường dây điện thoại Mục đích để thiết kế máy giao tiếp đơn nhận dạng từ lời nói Cuối năm 1990 đánh dấu việc triển khai ứng dụng tiếng nói thực sự, từ VRCP (tự động xử lý gọi điều hành, hỗ trợ) Universal Card Service (đường dây dịch vụ khách hàng) AT & T sử dụng hàng ngày (thường hàng triệu người), đến hệ thống thông tin chuyến bay tự động United Airlines hệ thống "Làm tơi giúp bạn? (HMIHY)” AT & T, hệ thống định tuyến cho đường dây giúp đỡ khách hàng Mặc dù hệ thống hiểu nhận dạng tiếng nói tự động hồn hảo xa đến hồn hảo tính xác, phát triển ứng dụng cách tận dụng tốt cơng nghệ có sẵn để cung cấp giá trị thực cho khách hàng, chứng số lượng mức độ hệ thống sử dụng hàng ngày hàng triệu người sử dụng VI TĨM TẮT Hình cho thấy dòng thời gian tiến công nghệ nhận dạng hiểu tiếng nói vài thập kỷ qua Chúng ta thấy năm 1960 nhận lượng nhỏ (10-100 từ) từ bị lập, dựa tính chất ngữ âm đơn giản âm tiếng nói Các cơng nghệ chủ PHẦN I TÓM LƯỢC LỊCH SỬ PHÁT TRIỂN NHẬN DẠNG TIẾNG NÓI 22 chốt phát triển khung thời gian phép phân tích lọc ranh giới, phương pháp chuẩn hóa thời gian đơn giản, khởi đầu hệ phương pháp lập trình động tinh vi Trong năm 1970, nhận số từ vựng trung bình (100-1000 từ) cách sử dụng phương pháp nhận dạng mẫu, dựa mẫu đơn giản Các công nghệ chủ chốt phát triển thời kỳ mẫu mơ hình nhận dạng mẫu, giới thiệu phương pháp LPC cho miêu tả phổ tiếng nói, phương pháp phân nhóm mẫu cho hệ thống nhận dạng độc lập người nói, giới thiệu phương pháp lập trình động để giải vấn đề nhận dạng từ nói nối với Trong năm 1980, bắt đầu để giải vấn nhận dạng tiếng nói với vốn từ vựng lớn (1000-khơng giới hạn số từ) dựa phương pháp thống kê, với loạt mạng lưới để xử lý cấu trúc ngôn ngữ Các công nghệ chủ chốt giới thiệu thời gian mơ hình Markov ẩn (HMM) mơ hình ngơn ngữ mang tính xác suất, mà chúng tạo phương pháp mạnh mẽ để xử lý vấn đề nhận dạng tiếng nói liên tục cách hiệu với hiệu suất cao Trong năm 1990, xây dựng hệ thống từ vựng lớn với mơ hình ngơn ngữ khơng bị ràng buộc, mơ hình ràng buộc cú pháp cho nhận dạng hiểu tiếng nói liên tục Các công nghệ chủ chốt phát triển thời gian phương pháp hiểu ngơn ngữ mang tính xác suất, mơ hình ngơn ngữ ngữ âm dựa thống kê, giới thiệu tảng chuyển đổi trạng thái hữu hạn (và thư viện FSM) phương pháp cho xác định giảm thiểu để thực hiệu hệ thống hiểu tiếng nói với vốn từ vựng lớn Cuối cùng, vài năm qua, thấy đời hệ thống từ vựng lớn với mơ hình đầy đủ ngữ nghĩa, tích hợp với hệ thống tổng hợp text-tospeech (TTS), đa phương thức đầu vào (pointing, bàn phím, chuột, ) Những hệ thống cho phép hệ thống hội thoại với loạt phương thức đầu vào đầu cho dễ dàng sử dụng linh hoạt việc xử lý bất lợi mơi trường, nơi tiếng nói khơng thích hợp với phương thức PHẦN I TĨM LƯỢC LỊCH SỬ PHÁT TRIỂN NHẬN DẠNG TIẾNG NÓI 23 đầu vào-đầu khác Trong thời gian này, thấy xuất hệ thống tổng hợp tiếng nói tự nhiên, việc sử dụng máy học để cải thiện việc hiểu tiếng nói đàm thoại tiếng nói, giới thiệu hệ thống thoại chủ động hỗn hợp cho phép kiểm sốt người sử dụng cần thiết Hình Các cột mốc cơng nghệ nhận dạng hiểu tiếng nói qua 40 năm nghiên cứu Sau khoảng năm thập kỷ nghiên cứu, cơng nghệ nhận dạng tiếng nói cuối bước vào thị trường, mang lại lợi ích cho người sử dụng theo nhiều cách khác Trong suốt trình phát triển hệ thống, kiến thức tạo cảm nhận tiếng nói sử dụng việc thiết lập tảng công nghệ cho nhận dạng tiếng nói Những tiến lớn xảy năm 1960 1970 thông qua việc giới thiệu mơ tả tiếng nói tiên tiến dựa phân tích LPC phương pháp phân tích Cepstral, năm 1980 thông qua việc giới thiệu phương pháp thống kê nghiêm ngặt dựa mô hình Markov ẩn Tất điều đến đóng góp nghiên cứu quan trọng từ học viện, ngành cơng nghiệp tư nhân phủ Khi công nghệ tiếp tục trưởng thành, rõ ràng nhiều ứng dụng xuất trở thành phần sống – cách tận dụng lợi máy khả PHẦN I TÓM LƯỢC LỊCH SỬ PHÁT TRIỂN NHẬN DẠNG TIẾNG NÓI 24 bắt chước phần tiếng nói người Thách thức việc thiết kế máy tính thực có chức giống người thơng minh vấn đề lớn phía trước Thành tựu chúng ta, nay, khởi đầu nhiều năm trước máy vượt qua kiểm tra Turing, cụ thể đạt hiệu suất người PHẦN II CÁC NGUYÊN TẮC SÁNG TẠO ĐÃ ĐƯỢC SỬ DỤNG 25 PHẦN II CÁC NGUYÊN TẮC SÁNG TẠO ĐÃ ĐƯỢC SỬ DỤNG I NGUYÊN TẮC PHÂN NHỎ Với hạn chế công nghệ kỹ thuật, nhận dạng tập trung nhận dạng phần nhỏ tiếng nói như: Hệ thống nhận diện chữ số cô lập người nói Davis, Biddulph Balashek; Hệ thống nhận dạng 10 âm tiết Olson Belar; Bộ nhận dạng 10 nguyên âm độc lập người nói anh em nhà Forgie Trong hệ thống Harpy, liệu tiếng nói đầu vào sau qua phân tích tham số, phân làm nhiều phân đoạn Sau đó, phân đoạn tiếng nói so sánh với mẫu II NGUYÊN TẮC PHẨM CHẤT CỤC BỘ Tín hiệu tiếng nói người khơng giống (do giọng theo địa phương, cách nói người…) nên số hệ thống tập trung vào nhận giạng tiếng nói người xác định III NGUYÊN TẮC KẾT HỢP Trong hệ thống nhận dạng tiếng nói kết hợp hàng loạt kỹ thuật, phương pháp, thuật tốn, ngun tắc ràng buộc… Ví dụ: hệ thống Harpy kết hợp đồ thị tìm kiếm, kỹ thuật phân đoạn tiếng nói, thuật toán băm, quy tắc ngữ pháp, mạng trạng thái hữu hạn… Hệ thống Sphinx CMU kết hợp phương pháp thống kê mơ hình Makov ẩn với sức mạnh mạng tìm kiếm hệ thống Harpy Sự kết hợp mơ hình Makov ẩn, mạng thần kinh nhân tạo, thư viện FSM số hệ thống nhận dạng… IV NGUYÊN TẮC TÁCH KHỎI Tiếng nói trước nhận dạng qua lọc nhiễu để loại bỏ nhiễu môi trường xung quanh… V NGUYÊN TẮC LINH ĐỘNG PHẦN II CÁC NGUYÊN TẮC SÁNG TẠO ĐÃ ĐƯỢC SỬ DỤNG 26 Phòng thí nghiệm Bell nghiên cứu loạt thuật tốn phân đoạn tiếng nói cho việc tạo mơ hình tham chiếu từ âm sử dụng với loạt người nói giọng nói khác để tạo hệ thống làm việc với lượng lớn người dùng mà không cần huấn luyện, đối phó với biến đổi âm nội tín hiệu tiếng nói Kỹ thuật từ khóa trọng tâm giúp hệ thống nhận dạng hoạt động cách linh hoạt với câu lệnh Ví dụ: người gọi điện thoại yêu cầu trả phí qua thẻ tín dụng nói câu “Tơi muốn tính phí vào thẻ tín dụng tơi” “thẻ tín dụng” hệ thống hiểu VI NGUYÊN TẮC GIẢI “THIẾU” HOẶC “THỪA” Các hệ thống nhận dạng nhận dạng xác 100% liệu tiếng nói nên chúng tập trung nhận dạng đạt đến độ xác chấp nhận (độ xác 90%) VII NGUYÊN TẮC QUAN HỆ PHẢN HỒI Hệ thống có khả phản hồi lại thông tin người sử dụng yêu cầu như: hệ thống Pegasus cung cấp thơng tin tình trạng chuyến bay hãng hàng không thông qua đường dây điện thoại; Hệ thống Jupiter trả lời thông tin truy vấn thời tiết VIII NGUYÊN TẮC LIÊN TỤC TÁC ĐỘNG CĨ ÍCH Các hệ thống nhận dạng độc lập với người nói đòi hỏi người sử dụng phải có q trình huấn luyện cho hệ thống để nhận dạng xác Hệ thống huấn luyện nhiều nhận dạng xác TÀI LIỆU THAM KHẢO 27 TÀI LIỆU THAM KHẢO [1] B.H Juang, Lawrence R Rabiner, ASR History [2] http://en.wikipedia.org/wiki/Speech_recognition [3] GS.TSKH Hồng Văn Kiếm, Bài giảng mơn Phương pháp nghiên cứu khoa học tin học, Trường Đại học Công nghệ thông tin [4] GS.TS Phan Dũng, 40 thủ thuật (nguyên tắc) sáng tạo bản, Trung tâm sáng tạo khoa học kỹ thuật, Đại học khoa học tự nhiên ... hệ thống nhận dạng tiếng nói PHẦN I TĨM LƯỢC LỊCH SỬ PHÁT TRIỂN NHẬN DẠNG TIẾNG NÓI PHẦN I TÓM LƯỢC LỊCH SỬ PHÁT TRIỂN NHẬN DẠNG TIẾNG NÓI I TỪ CÁC MƠ HÌNH MÁY TẠO TIẾNG NĨI ĐẾN PHỔ TIẾNG NĨI... đại diện PHẦN I TÓM LƯỢC LỊCH SỬ PHÁT TRIỂN NHẬN DẠNG TIẾNG NÓI 14 cho bước tiến quan trọng từ nhận dạng mẫu đơn giản phương pháp ngữ âm sử dụng trước hệ thống nhận dạng tiếng nói tự động Ý tưởng... MỞ ĐẦU PHẦN I TÓM LƯỢC LỊCH SỬ PHÁT TRIỂN NHẬN DẠNG TIẾNG NÓI I TỪ CÁC MƠ HÌNH MÁY TẠO TIẾNG NĨI ĐẾN PHỔ TIẾNG II NHỮNG HỆ THỐNG NHẬN DẠNG TIẾNG NÓI TỰ ĐỘNG ĐẦU TIÊN III CÁC