Hệ thống cung cấp thông tin chứng khoán qua mạng điện thoại và ứng dụng

MỤC LỤC

Mục tiêu luận văn

Trước đề tài này, đã có một đề tài cũng xây dựng một hệ thống tương tự, nhưng ghi nhận từ thông tin người dùng bằng cách cho người dùng nhập mã chứng khoán bằng text từ bàn phím điện thoại và đã bảo vệ thành công vào tháng 3 năm 2010.

Cấu trúc Voice Server

+ Module nhận dạng: chuyển đổi thông tin từ dạng âm thanh sang dạng text, cụ thể, tiếp nhận mã chứng khoán do người dùng đọc vào, trả về thông tin nhận dạng được dưới dạng text. + Module xử lý (Truy vấn): cập nhật thông tin trực tuyến từ Internet và lưu vào Database, tiếp nhận thông tin mã chứng khoán từ Module nhận dạng, trả về kết quả tương ứng từ database dưới dạng text.

Cấu trúc luận văn

CƠ SỞ LÝ THUYẾT

  • Module giao tiếp
    • Module nhận dạng
      • Module tổng hợp

        Để nâng cao hiệu suất nhận dạng cho dữ liệu nhiễu, một số kỹ thuật đã được đề xuất như: MLLR (Maximum Likelihood Linear Regression), PMC (Parallel Model Combination)… Cuối cùng, các ứng dụng được phát triển trong giai đoạn này gồm: hệ thống trả lời thông tin tự động cho các chuyến bay (Air Travel Information Service – ATIS), hệ thống ghi lại các bản tin phát thanh (Broadcast News Transcription System)…. Tới thời điểm này, tiếng nói được giả thiết là đã được thu âm trong môi trường bình thường, không bị ràng buộc bởi bất cứ điều kiện nào (các điều kiện giả thiết trước đây thường bao gồm tiếng nói được thu trong phòng sạch cách âm và do người bản xứ đọc). Đích hướng tới của chương trình này là khả năng nhận dạng, tóm tắt và chuyển ngữ các đoạn audio, giúp cho người đọc hiểu nhanh nội dung của chúng thay vì phải nghe toàn bộ. Chủ yếu, các nghiên cứu tập trung vào 3 nhóm chính:. - Nhận dạng tiếng nói tự nhiên: mặc dù với tiếng nói được đọc chuẩn và. trước), kết quả nhận dạng có thể lên đến 95% khi áp dụng những kĩ thuật nhận dạng tiên tiến nhất thì với tiếng nói tự nhiên, kết quả nhận dạng còn rất thấp mặc dù phạm vi ứng dụng của nhận dạng tiếng nói tự nhiên là rất lớn. Các công trình nghiên cứu cho thấy dữ liệu đa ngữ cho hiệu quả cao hơn dữ liệu đơn ngữ; đồng thời tương quan giữa ngôn ngữ nguồn (có đầy đủ tài nguyên) và ngôn ngữ đích (không có tài nguyên) cũng quyết định hiệu suất nhận dạng: các ngôn ngữ thuộc cùng một họ (theo cách phát âm) sẽ cho kết quả tốt hơn các ngôn ngữ khác họ.

        Phổ biến nhất trong hướng tiếp cận này là kỹ thuật MLLR (maximum likelihood linear regression). Đây là một kỹ thuật của lĩnh vực điều chỉnh thích nghi người nói, tuy nhiên thực nghiệm cho thấy nó hoàn toàn có khả năng áp dụng vào điều chỉnh thích nghi ngôn ngữ. Trong MLLR, trọng tâm và phương sai của các hàm cơ sở Gauss sẽ được cập nhật thông qua một/nhiều ma trận tuyến tính. Ma trận này chính là. ánh xạ cần ước lượng từ tập dữ liệu điều chỉnh. Tùy theo lượng dữ liệu điều chỉnh có được, mà số lượng ánh xạ sẽ được chọn thích hợp. Đồng thời, dữ liệu điều chỉnh càng lớn, hiệu suất của mô hình đích càng cao. Ngoài ra, các ngừơi ta còn sử dụng mạng neuron đa lớp để ước lượng ánh xạ phi tuyến cho việc điều chỉnh thích nghi các tham số của mô hình ngữ âm. Tuy nhiên kỹ thuật này chỉ mới được áp dụng ở mức điều chỉnh thích nghi người nói, chưa qua thực nghiệm đối với điều chỉnh thích nghi ngôn ngữ. ii) Hướng tiếp cận dựa trên mô hình. Nhìn chung, cả ba phương pháp này (cross-language transfer, language adaptation, bootstrapping) có ưu điểm là nhanh chóng đưa ra được mô hình nhận dạng tiếng nói có chất lượng trung bình để áp dụng trong các ứng dụng qui mô nhỏ hoặc được dùng như hệ thống ban đầu để phát triển thêm. Đề tài này sẽ phát triển một phương pháp mới, trong đó vẫn sử dụng đặc trưng dựa trên Mel Cepstra và một danh sách các phân bố thống kê (Gauss) chung cho tất cả các âm của tất cả các ngôn ngữ. Trong quá trình huấn luyện, vấn đề dữ liệu sẽ được giải quyết bằng cách xem các phân bố Gauss này như các hàm cơ bản. Sự phụ thuộc giữa các Gauss sẽ tạo ra một không gian biểu diễn âm thanh có số chiều ít hơn. Làm việc trên không gian ít chiều hơn sẽ yêu cầu ít dữ liệu huấn luyện hơn. Phương pháp nghiên cứu, kỹ thuật sử dụng i) Mô hình tổng quát (mô hình 0).

        Tại ESAT, hệ thống SPRAAK đã được phát triển qua nhiều năm và đã được công bố ở dạng mã nguồn mở (open-source). Hình 7 minh họa các thành phần và cơ chế hoạt động của SPRAAK. Phương pháp huấn luyện bộ nhận dạng của SPRAAK. khác so với hầu hết các hệ thống khác. SPRAAK sử dụng một loạt các phân bố Gauss dùng chung trong mô hình ngữ âm, giúp hệ thống trở nên tinh gọn hơn nhờ khai thác các tham số và cho phép chia sẻ, dùng chung tham số tốt hơn hầu hết các hệ thống khác. Trong đó, hệ thống nhận dạng tiếng nói ESAT SPRAAK có thể xem là điểm khởi đầu tốt nhất trong việc xây dựng mô hình ngữ âm cho các ngôn ngữ có dữ liệu hạn chế. Cũng chính nhờ các phân bố Gauss dùng chung này sẽ làm nền tảng cho việc xác định sự liên quan giữa các đơn vị ngữ âm của các ngôn ngữ khác nhau, và từ đó xác định các ràng buộc về ngữ âm chung của các ngôn ngữ. Các phân bố Gauss liên tục trong hệ thống nhận dạng ESAT SPRAAK được huấn luyện với kho ngữ liệu đa ngôn ngữ sẽ cung cấp các mô tả chi tiết về tín hiệu tiếng nói. Các phân bố này không phụ thuộc vào nhau và khoảng cách giữa 2 phân bố bất kỳ cũng không biểu diễn sự phụ thuộc của 2 phân bố này. Một cách khác tốt hơn để tính sự phụ thuộc dựa trên phương pháp liên quan đến ngữ âm-âm vị là kết hợp các đồng hiện trong mô hình huấn luyện âm vị với các đồng hiện trong dòng dữ liệu quan sát được và thậm chí có thể kết hợp với tri thức biết trước về ngữ âm-âm vị. Sự phụ thuộc của các phân bố này có thể giúp định nghĩa một không gian đặc trưng có số chiều ít hơn, và có thể áp dụng để chuyển các ước lượng nhiễu về một không gian con có thể chấp nhận được thông qua kỹ thuật matrix factorization và spectral clustering. Các mô hình được huấn luyện tốt sẽ cho ra dạng một bề mặt trơn trong không gian ngữ âm-âm vị. Khi lượng dữ liệu bị hạn chế, mô hình sẽ đưa ra bề mặt nhấp nhô hơn. Sử dụng các tri thức về không gian ngữ âm có thể giúp cải thiện các mô hình này. iii) Mô hình nhận dạng cải tiến thứ nhất (mô hình 1). Ở mô hình này, ta sẽ thay đổi mô hình ngữ âm và từ điển phát âm. So với mô hình cải tiến một, mô hình thứ hai sẽ thay đổi từ điển phát âm. Kết quả đạt được. i) Thông số chuẩn bị cho quá trình huấn luyện.

        Hình 2.1: Vai trò của Voice modem
        Hình 2.1: Vai trò của Voice modem

        PHÂN TÍCH THIẾT KẾ VÀ TRIỂN KHAI HỆ THỐNG QUA ỨNG DỤNG MINH

        • Sơ đồ hoạt động
          • Thiết kế và xây dựng chương trình 1. Yêu cầu chức năng

            Chúng ta có thể phân lớp các trường hợp xuất hiện bằng cách sử dụng Heuristics: xét các ký tự trước và sau dấu chấm câu để suy luận ra ý nghĩ sử dụng của dấu chấm câu (kết thúc câu, hay trường hợp khác). Hệ thống này sẽ cung cấp những thông tin cần thiết như tỷ giá cổ phiếu , thông tin thị trường chứng khoán tại bất cứ đâu có điện thoại (cả cố định và di động) một cách chính xác và nhanh chóng. Hệ thống bao gồm Mô đun IVR, Mô đun TTS, một cơ sở dữ liệu, một Modem quay số có hổ trợ âm thanh, một đường dây điện thoại gắn vào Modem và một điện thoại có yêu cầu tra cứu thông tin chứng khoán.

            3.1. Sơ đồ hoạt động
            3.1. Sơ đồ hoạt động

            TỔNG KẾT

            • Những kế thừa và làm được 1. Kế thừa

               Hệ thống hiện chỉ đáp ứng được một đường truyền trong một khoảng thời gian(vì thiết bị sử dụng trong ứng dụng không phải là thiết bị chuyên dụng cho loại hệ thống, nó chỉ là một Modem quay số 56K có hỗ trợ âm thanh). Để xây dựng ứng dụng thực tế đòi hỏi mật độ truy cập cao phải sử dụng thiết bị chuyên dụng là card CTI mà có thể hổ trợ tối thiểu ba mươi cuộc gọi vào hệ thống cùng một lúc. - Kế thừa module giao tiếp và truy vấn của nhóm đề tài “Nghiên cứu và xây dựng hệ thốngVoice Server ứng dụng trên các dịch vụ truy vấn thông tin qua mạng điện thoại” do Nguyễn Thị Mỹ Dung và Dương Chí Trưởng thực hiện.