Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 31 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
31
Dung lượng
913,56 KB
Nội dung
Xử lý ngôn ngữ tự nhiên Xử lý ngôn ngữ tự nhiên Bởi: Học Viện Công Nghệ Bưu Chính Viễn Thông XỬ LÝ NGÔN NGỮ TỰ NHIÊN VÀ TRÍ TUỆ NHÂN TẠO Sự tiến hóa ngôn ngữ Vấn đề để hiểu lời nói hành động giống việc hiểu vấn đề khác, tương tự việc hiểu hình ảnh chẩn đoán y học Chúng ta đưa tập đầu vào đa nghĩa từ làm ngược lại để định trạng thái giới tạo đầu vào Hiểu vấn đề lời nói hành động phần đặc tả ngôn ngữ Một phần hiểu vấn đề giải thích lí logic Chúng ta nhận thấy chuỗi logic liên kết lại cách tốt để mô tả cách mà từ cụm từ phối hợp để tạo cụm từ lớn Phần khác việc hiểu vấn đề giải thích lí kĩ thuật không rõ ràng Thông thường có nhiều trạng thái giới mà tất hướng dẫn đến lời nói hành động tương tự, người hiểu phải định mà dễ xảy Cơ sở ngôn ngữ Một ngôn ngữ hình thức định nghĩa tập chuỗi kí tự, chuỗi kí tự chuỗi biểu tượng lấy từ tập hữu hạn gọi biểu tượng terminal Một phiền toái làm việc với ngôn ngữ tự nhiên ngôn ngữ hình thức có nhiều khác biệt hình thức kí hiệu cho việc viết ngữ pháp Tuy nhiên, hầu hết chúng tương tự cách mà chúng vào ý tưởng cấu trúc cụm từ - chuỗi kí tự soạn thảo chuỗi kí tự sở gọi cụm từ, dẫn đến phạm trù khác Các phạm trù cụm danh từ, cụm động từ, câu gọi biểu tượng nonterminal Trong kí pháp BNF quy luật viết phù hợp biểu tượng nonterminal đơn bên trái liên kết đầu cuối không đầu cuối viết bên phải Quy luật viết ví dụ sau: S → NP VP Có nghĩa đem cụm từ NP thêm vào sau cụm từ VP kết cụm từ dạng câu Các bước thành phần giao tiếp: 1/31 Xử lý ngôn ngữ tự nhiên Một đoạn giao tiếp điển hình, người nói S muốn truyền đạt lời thông báo P đến người nghe H sử dụng từ W, xếp tiến trình Ba bước người nói: Mục đích: S muốn H tin P (trong S đặc biệt tin P) Phát sinh: S chọn từ W (bởi chúng nhấn mạnh nghĩa P) Tổng hợp: S phát âm từ W ( thường chuyển thẳng chúng đến H) Bốn bước người nghe Nhận thức: H nhận thức W’( W’=W, nhận thức có thể) Phân tích : H suy luận W’ mang nghĩa P1…,Pn (từ cụm từ cónhiều nghĩa) Ý nghĩa hóa: H suy luận S có ý định truyền đạt Pi (trong ý nghĩa Pi=P, nhưngsự giải thích có thể) Hợp : H định tin tưởng vào Pi, (hoặc loại bỏ nó không Hchắc chắn tin tưởng) Khả phát sinh Ngữ pháp hình thức phân loại khả phát sinh chúng: tập ngôn ngữ mà chúng trình bày Chomsky (1957) mô tả bốn lớp ngữ pháp hình thức suy luận Các lớp xếp trật tự thứ bậc, lớp mô tả lớp có quyền, giống việc thêm vài ngôn ngữ vào Dưới danh sách lớp theo cấp bậc từ xuống dưới: Ngữ pháp đệ quy liệt kê sử dụng quy luật không giới hạn: kích thước quy luật viết lại chứa số lượng biểu tượng terminal không đầu cuối Ngữ pháp tương đương với máy Turing Ngữ pháp nhạy ngữ cảnh giới hạn bên phải phải chứa số biểu tượng phía bên trái Tên “nhạy ngữ cảnh” xuất phát từ thực tế quy luật tương tự ASB→AXB có nghĩa S viết lại X ngữ cảnh A có trước kéo theo B Trong ngữ pháp phi ngữ cảnh phía bên phải chứa biểu tượng nonterminal đơn Vì quy luật cho phép viết lại không đầu cuối bên phải ngữ cảnh Ngữ pháp thông thường lớp giới hạn Ngữ pháp thông thường tương đương máy có số trạng thái hạn chế Chúng không phù hợp cho ngôn ngữ lập 2/31 Xử lý ngôn ngữ tự nhiên trình, chúng xây dựng cách trình bày giống cân dầu mở đóng ngoặc đơn Để đưa cho bạn ý tưởng ngôn ngữ điều khiển lớp nào, ngôn ngữ anbn (một chuỗi n a kéo theo số lượng tương tự b) phát sinh ngữ pháp phi ngữ cảnh, ngữ pháp thông thường Ngôn ngữ yêu cầu ngữ pháp nhạy ngữ cảnh, ngôn ngữ a*b* (một phối hợp số a theo sau số b) mô tả lớp Một bảng tóm tắt lớp: Lớp Quy luật ví dụ Ngôn ngữ ví dụ Ngữ pháp liệt kê đệ quy AB →C Bất kì Nhạy ngữ cảnh AB→BA anbncn Ngữ cảnh tự S→ a S b anbn Thông thường S→ a S a*b* Vấn đề nói nghe Mục đích: Bằng cách hay cách khác người nói định có số mà đáng để nói với người nghe Điều thường bao gồm đức tin mục đích người nghe nói có tác dụng ao ước Trong ví dụ người nói có mục đích cho người nghe biết wumpus không sống Sự phát sinh: Người nói sử dụng kiến thức ngôn ngữ để định xem nói Trong nhiều cách khó khăn việc lật ngược vấn đề hiểu biết (ví dụ phân tích chuyển thành nghĩa) Sự phát sinh không bị ép nhiều hiểu biết trí tuệ nhân tạo, chủ yếu người hay băn khoăn nói với máy, lại không bị kích động chúng nói lại Bâygiờ cho người nghe chọn từ “the wumpus is dead” Tổng hợp: Hầu hết ngôn ngữ vào dạng hệ thống phân tích đầu trí tuệ nhân tạo hình giấy Tổng hợp lời nói phát triển rộng rãi vài hệ thống bắt đầu nghe tiếng người Chi tiết kí pháp không quan trọng, điều có nghĩa âm phân tích khác với từ nhân vật phát sinh Mặc dù từ phải liền với nhau, đặc điểm việc nói nhanh Nhận thức Bình thường lời nói, bước nhận thức gọi nhận dạng lời nói, đưa máy in, gọi nhận dạng đặc điểm quang học Cả hai chuyển đến người quan tâm Chẳng hạn, cho người nghe nhận thức âm thu lại hoàn toàn lời nói 3/31 Xử lý ngôn ngữ tự nhiên Phân tích Chúng ta phân tích chúng thành hai phần chính: cách hiểu cú pháp (hay phân tích cú pháp) giải thích ngữ nghĩa Sự giải thích ngữ nghĩa bao gồm việc hiểu nghĩa từ hợp kiến thức tình (cũng gọi giải thích thực tế) Phân tích cú pháp từ Xuất phát từ cụm từ Latin par orationis, “part of speech” ám chuyển nhượng phần lời nói (danh từ, động từ) đến từ câu nhóm từ cụm từ Một phân tích từ loại mà bên nút tương ứng với cụm từ, liên kết với ứng dụng quy luật ngữ pháp, nút tương úng với từ Nếu định nghĩa số lượng nút danh sách tất bên nút theo thứ tự từ trái sang phải Khi đó, nói ý nghĩa phân tích từ loại nút, với nhãn X xác định số lượng nút cụm từ phạm trù X Giải thích ngữ nghĩa trình rút ý nghĩa lời nói diễn đạt trình diễn ngôn ngữ Chúng ta sử dụng logic trình diễn ngôn ngữ, trình diễn ngôn ngữ khác không sử dụng Giải thích thực tế phần giải thích ngữ nghĩa mà mang tình thời vào bảng mô tả Chuyển thành ý nghĩa Hầu hết người nói không cố ý nói đa nghĩa, hầu hết lời nói có nhiều giải thích hợp lí Giao tiếp làm việc người nghe làm việc định hình nghĩa mà người nghe chắn truyền đạt ý lần chúng sử dụng từ chắn việc chuyển thành ý nghĩa tiến trình mà phụ thuộc nhiều vào lý không chắn Phân tích giải thích có thể: có nhiều giải thích tìm thấy, việc chuyển thành ý nghĩa chọn lấy ý nghĩa tốt Hợp Về tổng thể, nhân vật tin vào thứ mà nghe thấy, người thông minh xem xét từ W xuất phát từ giải thích Pi phần thêm vào chứng cân nhắc kỹ lưỡng với tất chứng khác chống lại Pi Nó làm nên câu để sử dụng ngôn ngữ nhân vật giao tiếp với người (a) hiểu ngôn ngữ thông thường, người (b) có ngữ cảnh mà vào hội thoại đó, người (c) có phần lý trí Giao tiếp không làm việc nhân vật hoàn toàn không hợp lí,bởi cách để dự báo nhân vật không hợp lí phản ứng lại lời nói hành động 4/31 Xử lý ngôn ngữ tự nhiên Hai mô hình giao tiếp Nghiên cứu trung tâm giao tiếp cách mà niềm tin nhân vật thay đổi vào từ trở lại với niềm tin kiến thức nhân vật khác Có hai cách để xem xét trình này: Mô hình tin mã hóa Mô hình tin mã hóa nói người nói xác định nhận định P ý nghĩ mã hóa gợi ý vào từ (hoặc kí hiệu) W Người nghe sau cố gắng mã hóa tin W để lấy lại nguyên P (ví dụ mã Morse) Dưới mô hình ý nghĩa đầu người nói, tin mà chuyển mà người nghe nhận tất ý nghĩ có số lượng tương tự Khi chúng không giống nguyên nhân tiếng ồn giao tiếp lỗi mã hay giải mã Mô hình tình giao tiếp Hạn chế tin mã hóa dẫn đến mô hình tình giao tiếp, mô hình cho ý nghĩa tin phụ thuộc vào từ ngữ tình mà từ phát âm Trong mô hình này, cần phép tính tình huống, hàm mã giải mã thêm vào đối số điển hình cho tình Bản mô tả cho việc mà từ tương tự có nhiều nghĩa cho tình khác Mô hình tình ngôn ngữ nguồn giao tiếp không thành công: người nói người nghe có ý tưởng khác tình thời có thể, tin không thông qua ý định Giao tiếp sử dụng ngôn ngữ hình thức Hầu hết đối tượng giao tiếp thông qua ngôn ngữ thông qua truy cập trực tiếp đến kiến thức sở Hình cho sơ đồ giao tiếp kiểu Đối tượng thực hành động mà sinh ngôn ngữ, với đối tượng khác nhận biết Ngôn ngữ giao tiếp bên khác so với ngôn ngữ mô tả bên trong, đối tượng có ngôn ngữ bên khác Chúng không cần thiết phải đồng ý kí hiệu bên miễn đối tượng vẽ đồ đáng tin cậy từ ngôn ngữ bên đến kí hiệu bên 5/31 Xử lý ngôn ngữ tự nhiên Hai đối tượng giao tiếp với ngôn ngữ Một ngôn ngữ giao tiếp bên mang theo vấn đề tổng hợp giao tiếp, nhiều nỗ lực xử lý ngôn ngữ tự nhiên dẫn đến việc định thuật toán cho hai bước Nhưng vấn đề khó khăn giao tiếp với ngôn ngữ vấn đề: phù hợp kiến thức đối tượng khác Đối tượng A nói đối tượng B dịch trạng thái phụ thuộc chủ yếu mà A B thực tin tưởng (bao gồm mà chúng tin niềm tin lẫn chúng) Điều có nghĩa đối tượng mà chúng có ngôn ngữ bên bên có thời gian dễ dàng để tổng hợp phân tích, chúng phải tìm hiểu để định phải nói với Trong phần xem xét việc phát triển từ lĩnh vực trò chơi sang hệ thống thực có hiệu công việc ngôn ngữ Chúng ta thấy vài kĩ thuật dịch câu từ tập hợp tiếng Anh đơn giản vấn đề là: Các ứng dụng thực tế: công việc ngôn ngữ tự nhiên chứng minh có hiệu Xử lý luận: vấn đề nắm bắt đoạn văn có nhiều câu Hiệu việc phân tích ngữ pháp: thuật toán phân tích cú pháp dịch câu nhanh Tăng cường thuật ngữ: quan tâm tới từ không thường dùng Tăng cường ngữ pháp: quan tâm tới ngữ pháp phức tạp Dịch theo nghĩa: số vấn đề cần dịch theo nghĩa dịch theo hàm đơn giản Ngữ nghĩa: cách chọn phép dịch Chúng ta bắt đầu xem xét hệ thống thành công việc đưa ngôn ngữ tự nhiên vào ứng dụng thực tế Các hệ thống có chung hai tính chất: chúng tập chung vào lĩnh vực định không cho phải tất cả, hai chúng tập chung vào nhiện vụ cụ thể không đòi hỏi hiểu toàn ngôn ngữ 6/31 Xử lý ngôn ngữ tự nhiên XỬ LÝ VÀ HIỂU VĂN BẢN Truy nhập sở liệu Lĩnh vực thành công việc xử lí ngôn ngữ tự nhiên truy cấp CSDL Vào năm 1970, nhiều CSDL máy tính KHUNG CHÍNH (mainframe), truy cập cách viết chương trình hoàn thiện ngôn ngữ khó hiểu Nhân viên phục vụ máy mainframe đáp ứng tất đòi hỏi người sử dụng, người sử dụng không muốn học cách lập trình Giao diện ngôn ngữ tự nhiên đưa để giải vấn đề Đầu tiên giao diện hệ thống LUNAR, phương thức xây dựng William Woods (1973) nhóm cho trung tâm NASA Nó cho phép, ví dụ, nhà địa chất hỏi liệu hoá học mẫu đất đá mặt trăng mang từ tầu Apollo Hệ thống sử dụng giới thực, kiểm nghiệm thành công 78% câu hỏi là: What is the average model plagioclase concentration for lunar samples that contain rubidium? Hệ thống sơ đồ Fernando Pereira’s (Pereira, 1983) hệ thông tương đương Nó trả lời sau câu hỏi CSDL địa lý như: Q: Which countries are bounded by two seas? A: Egypt, Iran, Israel, Saudi Arabia and Turkey Q: Whats are the counties from which a river flows into Black sea? A: Romania, Soviet Union Thuận lợi hệ thống mang lại rõ ràng Nhưng có bất lợi người sử dụng thành công từ nằm hệ thống Vào cuối kỷ trước, vài hệ thống thương mại xây dựng số lượng đủ lớn từ, ngữ pháp đáp ứng diện rộng văn Cảnh báo hệ thống tác động qua lại lẫn Người sử dụng hỏi dãy câu hỏi mà có số câu hỏi lại liên quan đến câu hỏi trả lời truớc What countries are north of the equator? How about south? Show only the ones outside Australasia? What is their total area? Một số hệ thống coi vấn đề giới hạn Trong năm 1990, nhiều công ty Natural Language Inc Symatec bán công cụ truy cập liệu sử dụng ngôn ngữ tự nhiên, khách hàng không 7/31 Xử lý ngôn ngữ tự nhiên thích mua sản phẩm dựa ngôn ngữ tự nhiên giao diện đồ hoạ Ngôn ngữ tự nhiên đường tự nhiên (ví dụ chuột click) Thu thập thông tin Thu thập thông tin lấy từ văn số liệu phù hợp với câu hỏi Một số tài liệu miêu tả đại diện, tiêu đề, danh sách từ khoá, tóm tắt Hiện có nhiều thông tin trực tuyến, tốt sử dụng toàn văn bản, chia thành đoạn, đoạn coi tài liệu riêng biệt cho việc mục đích thu thập thông tin Các câu hỏi thường danh sách từ khoá Trong hệ thống thu thập thông tin ban đầu, câu hỏi kết hợp logic từ khoá Khi câu hỏi không tìm thấy tài liệu, ví dụ, không đủ rộng để tìm vài tài liệu Chuyển “and” thành “or” khả năng; thêm vào ngăn cách khả nữa, có lại tìm thấy nhiều không đủ hướng dẫn Hầu hết hệ thống đại chuyển từ kiểu logic sang kiểu không gian vector, danh sách từ (cả tài liệu, câu hỏi) coi vettor không gian n-chiều, n số dấu hiệu phân biệt tập hợp tài liệu Nó coi vector Khi việc tìm tài liệu việc so sánh vector với tập hợp vector khác đưa véc tơ gần với Kiểu véctơ linh động kiểu logic xếp tài liệu khoảng cách tới câu hỏi, tài liệu gần báo cáo trước Kiểu có nhiều dạng Một vài hệ thống cho phép câu hỏi phát biểu hai từ phải xuất gần đếm lần, vài hệ thống khác sử dụng từ điển đồng nghĩa làm tăng thêm từ câu hỏi từ đồng nghĩa với Chỉ hệ thống tồi đếm tất số hạng vector tương đương Nhiều hệ thống đánh giá trọng lượng số hạng khác Cách tốt cho số hạng trọng lượng lớn từ đặc trưng: xuất số văn nhiều văn Phân loại văn Kỹ thuật xử lý ngôn ngữ tự nhiên (NLP: Natural Language Processing) thành công công việc liên quan: xếp văn theo chủ đề xác định Một số hệ thống thương mại truy cập thông tin điện báo theo cách Một người thuê bao hỏi tất thông tin lĩnh vực công nghiệp, thương mại, địa lí Các nhà cung cấp sử dụng kiến thức chuyên gia để xác định lớp Trong vài năm gần đây, hệ thống NLP chứng minh tính đắn, phân lớp xác 90% thông tin thời Chúng nhanh thích hợp hơn, có chuyển đổi từ thủ công sang hệ thống tự động 8/31 Xử lý ngôn ngữ tự nhiên Phân loại văn tuân theo kĩ thuật NLP gọi lại (IR : Information Retrieval) phân lớp cố định, người xây dựng hệ thống tập trung kết hợp chương trình họ với vấn đề Lấy liệu vào văn Lấy liệu từ văn lấy vài thông tin yêu cầu để đưa vào cấu trúc liệu Hiệu phân tích từ Trong phần này, xem xét tính hiệu thuật toán phân tích từ mức broadest, có ba vấn đề làm tăng hiệu quả: Không làm hai lần làm lần Không làm tránh Không trình bày riêng lẻ không cần Đặc biệt, thiết kế thuật toán phân tích từ thực sau: Chúng ta nhận thấy “the students in section of Computer Science 101” danh từ NP (Noun Phrase), ý tưởng để thấy kết cấu trúc liệu biết sơ đồ Các thuật toán gọi phân tích từ loại theo sơ đồ Bởi quan tâm tới ngữ pháp ngữ cảnh tự (context-free), mệnh đề tìm thấy ngữ cảnh nhánh không gian tìm kiếm phải làm việc nhánh khác không gian tìm kiếm Ghi nhận kết sơ đồ mẫu cho việc lập trình tránh việc lặp lại Chúng ta thấy thuật toán phân tích sơ đồ kết hợp việc xử lý xuống (top-down) lên (bottom-up) Sơ đồ phân tích câu “The agent feels a breeze” Kết thuật toán rừng đóng gói (packed forest) phân tích hợp thành không việc đếm khả Sơ đồ cấu trúc liệu mô tả kết thành phần trình phân tích dùng lại Một sơ đồ cho câu n từ gồm n+1 đỉnh số cạnh nối với vector Hình biểu diễn sơ đồ với đỉnh cạnh Ví dụ, cạnh có nhãn [0,5, S - NP VP*] 9/31 Xử lý ngôn ngữ tự nhiên có nghĩa danh từ NP (Noun Phrase) theo động từ VP (Verb Phrase) để tạo mệnh đề S (S: sentnce) mà trải theo chuỗi từ đến Dấu * cạnh tách tìm thấy từ phần lại Các cạnh với dấu * cuối gọi cạnh hoàn thiện; ví dụ cạnh [0, S - NP*VP] Ta nói NP trải chuỗi từ đến 2, tìm VP theo sau nó, có S Các cạnh với dấu chấm trước dấu kết thúc gọi cạnh không hoàn thiện, tìm VP Chúng ta biết hai cách xem xét trình xử lý Trong cách phân tích Bottom - Up trang sau, miêu tả xử lý trình xây dựng từ vào cây, quay lui cần thiết Với ngữ pháp mệnh đề định (Definite Clause Grammar), miêu tả việc xử lý mẫu suy luận logic chuỗi (string) Việc quay lui sử dụng vài qui tắc điều khiển dự đoán Bây xem cách tiếp cận thứ ba Dưới cách nhìn này, trình phân tích câu n - từ gồm sơ đồ mẫu với n + đỉnh thêm vào số cạnh để biểu diễn, cố gắng tạo cạnh hoàn thiện mà trải từ đỉnh tới đỉnh n phân lớp S Không có việc quay lui: tất thứ đặt sơ đồ Phân tích mở rộng từ sơ đồ : Đóng gói Khi thuật toán phân tích sơ đồ kết thúc, trả toàn sơ đồ, thực cần (tree) (hoặc số cây) Phụ thuộc việc phân tích sử dụng, muốn chọn toàn phân tích mà trải toàn đầu vào, muốn xem xét số mà không trải toàn đầu vào Nếu có ngữ pháp bổ sung, muốn tìm mở rộng ngữ nghĩa, bỏ qua cấu trúc cú pháp Trong trường hợp, cần khả phân tích mở rộng từ sơ đồ Cách dễ để làm việc sửa hòan thiện (Completer) cho kết hợp hai cạnh tạo thành cạnh cha Nó chứa cạnh cha danh sách cạnh mà cấu thành Sau đó, phân tích cần tìm chart[n] cho cạnh bắt đầo 0, đệ quy danh sách cạnh để tạo phân tích hoàn thiện Chỉ phép biện chứng định thực phân tích mở rộng Chúng ta kết thúc vấn đề việc phân tích độ phức tạp thuật toán O(n3) trường hợp xấu (ở n số từ đầu vào) Trường hợp tốt đạt ngữ pháp ngữ cảng tự (context-free grammar) Chú ý, thiếu rừng đóng gói, thuật toán bùng nổ trường hợp xấu nhất, khả có O(2n) phân tích khác Trong thực tế, thực thuật toán để phân tích với yêu cầu 100 từ giây, với biến đổi phụ thuộc vào độ phức tạp ngữ pháp đầu vào Dấu hiệu cú pháp Sự thay đổi động từ, giới từ sinh nhiều nhập nhằng, chúng dẫn tới vài khác biệt Ví dụ: 10/31 Xử lý ngôn ngữ tự nhiên Kiến thức âm học: để phân tích phổ xác định đặc tính âm học mẫu tiếng nói Kiến thức từ vựng: sử dụng để kết hợp khối ngữ âm thành từ cần nhận dạng Kiến thức cú pháp: nhằm kết hợp từ thành câu cần nhận dạng Kiến thức ngữ nghĩa: nhằm xác định tính logic câu nhận dạng Có nhiều cách khác để tổng hợp nguồn kiến thức vào nhận dạng tiếng nói Phương pháp thông dụng xử lý ”từ lên” Theo cách này, tiến trình xử lý hệ thống triển khai từ thấp lên cao Trong Hình 6, bước xử lý mức thấp (phân tích tín hiệu, tìm đặc tính, phân đoạn, gán nhãn) triển khai trước thực bước xử lý mức cao (phân lớp âm thanh, xác định từ, xác định câu) Mỗi bước xử lý đòi hỏi nguồn kiến thức định Ví dụ: bước phân đoạn tiếng nói cần hiểu biết sâu sắc đặc tính Âm học-Ngữ âm học đơn vị ngữ âm; bước xác định từ đòi hỏi kiến thức từ vựng; bước xác định câu đòi hỏi kiến thức mô hình ngôn ngữ (nguyên tắc ngữ pháp) Phương pháp áp dụng thành công ứng dụng nhận dạng tiếng nói thực tế Đề tài sử dụng phương pháp nhận dạng mẫu cho toán nhận dạng số từ tiếng Việt Bước trình nhận dạng trích chọn tham số tín hiệu tiếng nói Phần trình bày chi tiết phương pháp Phân tích tham số tiếng nói Trong nhận dạng, tổng hợp, mã hóa tiếng nói cần phân tích tham số Dưới đây, mô tả phương pháp phân tích cepstral theo thang đo mel để tính hệ số MFCC thông qua việc sử dụng dãy băng lọc Khái niệm phân tích tín hiệu tiếng nói phân tích thời gian ngắn (ShortTime Analysis) Trong khoảng thời gian dài, tín hiệu tiếng nói không dừng, khoảng thời gian đủ ngắn (10-30 ms) tiếng nói coi dừng Do đó, ứng dụng xử lý tiếng nói người ta thường chia tiếng nói thành nhiều đoạn có thời gian gọi khung (frame), khung có độ dài từ 10 đến 30 ms Phát tiếng nói Phát thời điểm bắt đầu, điểm kết thúc tiếng nói (tách tiếng nói khỏi khoảng lặng) phần cần thiết chương trình nhận dạng tiếng nói, đặc biệt chế độ thời gian thực Phần trình bày ba phương pháp phát tiếng nói dựa hàm lượng thời gian ngắn SE (Short Energy) tỷ lệ vượt điểm không ZCR (Zero Crossing) 17/31 Xử lý ngôn ngữ tự nhiên Phát tiếng nói dựa hàm lượng thời gian ngắn Hàm lượng thời gian ngắn tín hiệu tiếng nói tính cách chia tín hiệu tiếng nói thành khung, khung dài N mẫu Mỗi khung nhân với hàm cửa sổ W(n).Nếu hàm cửa sổ bắt đầu xét mẫu thứ m hàm lượng thời gian ngắn Em xác định sau: Trong đó: n: biểu thức rời rạc; m:số mẫu thử thứ m; N: tổng số mẫu tiếng nói Hàm cửa sổ W(n) thường dùng hàm cửa sổ chữ nhật xác định sau: Thuật toán xác định điểm đầu điểm cuối tiếng nói theo phương pháp này: 18/31 Xử lý ngôn ngữ tự nhiên Phát tiếng nói dựa hàm giả lượng tỷ lệ vượt điểm không Thuật toán xác định điểm bắt đầu, điểm kết thúc tín hiệu tiếng nói dựa hai đại lượng tĩnh tín hiệu tiếng nói là: hàm giả lượng E (Pseudo-Energy) tỷ lệ vượt điểm không ZCR (Zero Crossing Rate) Trong dãy giá trị tín hiệu tiếng nói rời rạc hóa, điểm không điểm diễn đổi dấu cường độ tín hiệu mô tả bởi: sgn[x(n+1)] ≠ sgn[x(n)] đó, sgn(.) hàm dấu Năng lượng đại lượng dùng để xác định vùng chứa âm hữu thanh, vô Nhưng hàm lượng thường nhạy cảm với nhiễu Do vậy, người ta thường sử dụng hàm giả lượng tính toán Hàm giả lượng xác định bởi: đó; E∧(n) : hàm giả lượng, N: kích thước khung cửa sổ Tỷ lệ vượt điểm không ZCR Ta thấy, khung có lượng cao tỷ lệ vượt điểm không thấp ngược lại Như vậy, tỷ lệ vượt điểm không đại lượng đặc trưng cho tần số tín hiệu tiếng nói Ở đây, cần xác định tham số ngưỡng cho hàm giả lượng với hai ngưỡng và ngưỡng tỷ lệ vượt điểm không Kí hiệu: E Up : ngưỡng lượng (cao); Edown : ngưỡng lượng (thấp); ZCR _ T : ngưỡng tỷ lệ vượt điểm không Thuật toán mô tả sau : 19/31 Xử lý ngôn ngữ tự nhiên Phát tiếng nói dựa lượng phổ ngắn hạn Ý tưởng phương pháp sử dụng điều khiển dò biên tiếng nói VAD (Voice Activity Detector) dựa việc xác định lượng phổ ngắn hạn fE khung tín hiệu tiếng nói VAD dùng để xác định khung chứa tín hiệu tiếng nói hay nhiễu Hàm đầu VAD khung thứ m v [m] Với khung chứa tiếng nói (có thể nhiễu) v [m]=1, ngược lại khung chứa nhiễu v [m]=0 Thuật toán mô tả sau: 20/31 Xử lý ngôn ngữ tự nhiên Phương pháp ngăn việc phân loại sai phụ âm sát tiếng nói cuối tín hiệu tiếng nói Các phương pháp trích chọn tham số đặc trưng tín hiệu tiếng nói Trích chọn tham số đặc trưng bước có ý nghĩa định tới kết chương trình nhận dạng tiếng nói Có nhiều phương pháp trích chọn tham số đặc trưng nhìn chung phương pháp dựa hai chế: 21/31 Xử lý ngôn ngữ tự nhiên Mô lại trình cảm nhận âm tai người Mô lại trình tạo âm quan phát âm Phân tích cepstral theo thang đo mel Phương pháp tính hệ số MFCC phương pháp trích chọn tham số tiếng nói sử dụng rộng rãi tính hiệu thông qua phân tích cepstral theo thang đo mel Phương pháp xây dựng dựa cảm nhận tai người dải tần số khác Với tần số thấp (dưới 1000 Hz), độ cảm nhận tai người tuyến tính Đối với tần số cao, độ biến thiên tuân theo hàm logarit Các băng lọc tuyến tính tần số thấp biến thiên theo hàm logarit tần số cao sử dụng để trích chọn đặc trưng âm học quan trọng tiếng nói Mô hình tính toán hệ số MFCC mô tả Hình Sơ đồ tính toán hệ số MFCC Ý nghĩa phương pháp xác định tham số khối sơ đồ mô tả sau: Khối 1: Bộ lọc hiệu chỉnh (Preemphasis) Tín hiệu tiếng nói s(n) đưa qua lọc số bậc thấp để phổ đồng hơn, giảm ảnh hưởng gây cho xử lý tín hiệu sau Thường lọc cố định bậc một, có dạng: H(z) = 1- az 1− 0.9≤ a≤ 1.0 Quan hệ tín hiệu với tín hiệu vào tuân theo phương trình Giá trị a thường chọn 0.97 22/31 Xử lý ngôn ngữ tự nhiên Khối 2: Phân khung (Frame Blocking) Trong khối tín hiệu hiệu chỉnh s(n) phân thành khung, khung có N mẫu; hai khung kề lệch M mẫu Khung chứa N mẫu, khung thứ hai bắt đầu chậm khung thứ M mẫu chồng lên khung thứ N-M mẫu Tương tự, khung thứ ba chậm khung thứ 2M mẫu (chậm khung thứ hai M mẫu) chờm lên khung thứ N-2M mẫu Quá trình tiếp tục tất mẫu tiếng nói cần phân tích thuộc nhiều khung Khối 3: Lấy cửa sổ (Windowing) Bước lấy cửa sổ cho khung riêng rẽ nhằm giảm gián đoạn tín hiệu tiếng nói đầu cuối khung Nếu w(n), ≤ n ≤ N-1, sau lấy cửa sổ được: Thông thường, sổ Hamming sử dụng Cửa sổ có dạng: Khối 4: Biến đổi Fourier rời rạc (FFT) Tác dụng FFT chuyển đổi khung với N mẫu từ miền thời gian sang miền tần số FFT thuật toán tính DFT nhanh DFT xác định Khối 5: Biến đổi sang thang đo Mel miền tần số Như nói trên, tai người không cảm nhận thay đổi tần số tiếng nói tuyến tính mà theo thang Mel Người ta chọn số 1kHz, 40 dB ngưỡng nghe 1000 Mel Do đó, công thức gần biểu diễn quan hệ tần số thang mel thang tuyến tính sau: 23/31 Xử lý ngôn ngữ tự nhiên Các băng lọc tam giác theo thang tần số Mel Một phương pháp để chuyển đổi sang thang mel sử dụng băng lọc (Hình 4.6), lọc có đáp ứng tần số dạng tam giác Số băng lọc sử dụng thường 20 băng Thông thường, người ta chọn tần số từ dến Fs/2 (Fs tần số lấy mẫu tiếng nói) Nhưng dải tần giới hạn từ LOFREQ đến HIFREQ dùng để lọc tần số không cần thiết cho xử lý Chẳng hạn, xử lý tiếng nói qua đường điện thoại lấy giới hạn dải tần từ LOFREQ=300 đến HIFREQ=3400 Sau tính FFT ta thu phổ tín hiệu (fn) Thực chất dãy lượng Cho W(n) qua dãy K băng lọc dạng tam giác, ta dãy Tính tổng dãy băng lọc, ta thu dãy hệ số Khối 6: Biến đổi Cosine rời rạc (DCT) Trong bước ta chuyển log giá trị miền thời gian cách biến đổi Cosine rời rạc (DCT) Kết phép biến đổi ta thu hệ số MFCC Thông thường, có số giá trị ic sử dụng Trong ứng dụng nhận dạng tiếng nói, người ta thường lấy 12 hệ số MFCC thêm hệ số lượng khung sau chuẩn hóa làm tham số đặc trưng cho tín hiệu tiếng nói (như tổng cộng có Q=13 hệ số) Khối 7: Cepstral có trọng số Vì độ nhạy hệ số cepstral bậc thấp làm cho phổ toàn bị đổ dốc, độ nhạy cepstral bậc cao gây nhiễu nên người ta thường sử dụng cửa sổ cepstral để cực tiểu hóa độ nhạy Công thức biểu diễn hệ số cepstral có trọng số: 24/31 Xử lý ngôn ngữ tự nhiên Khối 8: Lấy đạo hàm hệ số MFCC theo thời gian Để nâng cao chất lượng nhận dạng, người ta đưa thêm giá trị đạo hàm theo thời gian cácgiá trị hệ số MFCC vào vector hệ số tiếng nói Các giá trị tính theo: đó; θ: độ dài cửa sổ tính delta (thường chọn 3) Kết thúc bước với khung ta thu vector có 2Q thành phần biểu diễn tham số đặc trưng tiếng nói Phương pháp mã dự đoán tuyến tính LPC Mô hình LPC sử dụng để trích lọc tham số đặc trưng tín hiệu tiếng nói Kết trình phân tích tín hiệu thu chuỗi gồm khung tiếng nói Các khung biến đổi nhằm sử dụng cho việc phân tích âm học Nội dung phân tích dự báo tuyến tính là: mẫu tiếng nói xấp xỉ tổ hợp tuyến tính mẫu trước Thông qua việc tối thiểu hóa tổng bình phương sai số mẫu với mẫu dự đoán xác định tập hệ số dự báo Các hệ số s(n) dự báo trọng số sử dụng tổ hợp tuyến tính Với dãy tín hiệu tiếng nói,giá trị dự báo xác định bởi: đó;αk: hệ số đặc trưng cho hệ thống 25/31 Xử lý ngôn ngữ tự nhiên Sơ đồ xử lý LPC dùng trích chọn đặc trưng tiếng nói Sơ đồ khối phân tích LPC dùng cho trích chọn tham số đặc trưng tín hiệu tiếngnói (Hình 4.7) Hàm sai số dự báo tính theo công thức: Để cực tiểu hóa lỗi cần tìm tập giá trị {αk} phù hợp Do tín hiệu tiếng nói thay đổi theo thời gian nên hệ số dự báo phải ước lượng từ đoạn tín hiệu ngắn Vấn đề đặt tìm tập hệ số dự báo để tối thiểu hóa sai số trung bình đoạn ngắn Hàm lỗi dự báo thời gian ngắn xác định bởi: đó; sn(m) : đoạn tín hiệu tiếng nói lân cận mẫu thứ n; Tìm tập giá trị α k để tối thiểu hóa E cách phương trình: với I =1,2,…,p từ nhận 26/31 Xử lý ngôn ngữ tự nhiên Đặt: Phương trình viết: Phương pháp PLP Phương pháp kết hợp hai phương pháp trình bày Hình 10 mô tả bước xác định hệ số PLP Sơ đồ bước xác định hệ số PLP Các khối xử lý ♦ Khối 1: Biến đổi Fourier nhanh (FFT) Tương tự phương pháp MFCC, tín hiệu tiếng nói chia thành khung chuyển sang miền tần số thuật toán FFT ♦ Khối 2: Lọc theo thang tần số Bark Tín hiệu tiếng nói lọc qua lọc phân bố theo thang tần số phi tuyến, trường hợp thang tần số Bark: 27/31 Xử lý ngôn ngữ tự nhiên ♦ Khối 3: Nhấn mạnh tín hiệu dùng hàm cân đường xong cân độ ồn (equalloudnes) độ ồn (Equal-Loudnes).Bước tương tự nhấn mạnh (preemphasis) phương pháp MFCC.Hàm mô phỏng: ♦ Khối 4: Dùng luật cường độ nghe (Power Law of Hearing) Bước xử lý giống bước lấy giá trị logarit phương pháp MFCC Hàm lập phương dùng có dạng: ♦ Khối 5: Biến đổi Fourier ngược (Inverse DFT) Các hệ số tự tương quan biến đổi Fourier ngược giá trị đầu vào cho LPC ♦ Khối 6: Thuật toán Durbin Thuật toán Durbin sử dụng để tính hệ số dự báo tuyến tính phương pháp LPC ♦ Khối 7: Tính giá trị delta Phương pháp tính tương tự phương pháp hệ số MFCC Phương pháp ứng dụng trí tuệ nhân tạo cho xử lý nhận dạng tiếng nói tham khảo thêm tai liệu trích dẫn tài liêu CÁC HỆ THỐNG HỘI THOẠI Chúng ta quan tâm đến xảy bên đối tượng - từ nhận kết tri thức đến đối tượng định hành động Trong phần tập trung vào giao diện đối tượng môi trường Kết có nhận thức: thị giác, thính giác nhiều giác quan khác, kết khác có hành động: cử động cánh tay robot chẳng hạn 28/31 Xử lý ngôn ngữ tự nhiên Mặc dù bao trùm lên phần đối thoại Một nhóm đối tượng thành công hơn, cá thể hay tập thể họ đối thoại với mục tiêu hiểu biết Chúng ta xem xét cách chặt chẽ ngôn ngữ nhân loại ngôn ngữ sử dụng công cụ đối thoại Con người sử dụng số hữu hạn ký hiệu quy ước (mỉm cười, bắt tay) để giao tiếp tương tự hầu hết động vật khác Con người phát triển hệ thống kí hiệu có kiến trúc phức tạp biết ngôn ngữ mà sử dụng chúng để đối thoại hầu hết mà họ biết giới Trong hệ sở tri thức, đặc biệt hẹ chuyên gia, hệ thống đối thoai máy đươc thiết lập khâu cần thiết để xử lý thông tin, Học viên tham khảo thêm phần tài liệu trích dẫn kèm theo TỪ ĐIỂN ĐIỆN TỬ Bước việc định nghĩa ngữ pháp định nghĩa từ điển ngôn ngữ, danh sách từ vựng cho phép Các từ nhóm lại vào phạm trù phần lời nói quen thuộc đến từ điển người dùng: danh từ, đại từ, tên để biểu thị chúng, động từ để biểu thị kiện, tính từ để bổ nghĩa cho danh từ, trạng từ bổ nghĩa cho động từ Hình 11 cho từ điển ngôn ngữ nhỏ Từ điển ngôn ngữ Mỗi phạm trù kết thúc để biểu thị có từ khác phạm trù Tuy nhiên ý có hai lý khác biệt cho việc từ Đối với danh từ, động từ, tính từ trạng từ, nguyên tắc bất khả thi để hiển thị tất chúng Không có hàng ngàn hàng chục ngàn thành viên lớp, mà loại luôn bổ sung thêm vào Ví dụ, ngày “fax” danh từ động từ phổ biến đặt vài nănm trước Có bốn phạm trù gọi 29/31 Xử lý ngôn ngữ tự nhiên lớp mở Những phạm trù khác (đại từ, quán từ, giới từ, liên từ) gọi lớp đóng Chúng thường có số lượng nhỏ từ (một vài từ đến vài nhóm từ) mà liệt kê theo quy tắc thay đổi lớp đóng diễn hàng kỷ , hàng tháng Ví dụ “thee” “thou” thường sử dụng làm ại từ kỷ XVII, bị suy tàn vào kỷ XIX, ngày thấy thơ ca ngôn ngữ địa phuơng Ngữ pháp Bước phối hợp từ cụm từ sử dụng năm biểu tượng nonterminal để định nghĩa khác cụm từ: câu (S), cụm danh từ (NP), cụm động từ (VP), cụm giới từ (PP), mệnh đề quan hệ (Rel Clause)(4) Hình 12 xét ngữ pháp cho ε0 với ví dụ cho quy luật viết lại Ngữ pháp cho từđiển, với cụm từ ví dụ cho quy luật CÂU HỎI VÀ BÀI TẬP Không xem lại trả lời câu hỏi sau: bốn lớp nhắc đến ngữ pháp hình thức? Thực phiên giải thuật biểu đồ phân tích cú pháp mà kết cho tất cạnh mà mở rộng cho toàn đầu vào Trình bày phương pháp phát tiếng nói dựa lượng phổ ngắn hạn 30/31 Xử lý ngôn ngữ tự nhiên Trình bày phương pháp tính hệ số MFCC: phương pháp trích chọn tham số tiếng nói sử dụng rộng rãi tính hiệu thông qua phân tích cepstral theo thang đo mel Trình bày phương pháp mã dự đoán tuyến tính LPC 31/31