Tiếng Mandarin (tiếng Quan thoại) và Cantonese (tiếng Quảng Đông) của Trung Quốc: Đây là 2 ngôn ngữ có thanh điệu được sử dụng phổ biến trên thế giới. Trong đó tiếng Mandarin có 5 thanh điệu bao gồm cả thanh bằng, tiếng Cantonese tổng quát có 6 thanh điệu (nếu xét cả đến sự biến thiên của 3 thanh cao, thanh bằng và thanh thấp trong các âm tiết chứa các phụ âm dừng thì Cantonese có 9 thanh điệu). Các nghiên cứu về nhận dạng tiếng nói có thanh điệu trên hai ngôn ngữ này đã được nhiều tác giả người bản địa thực hiện với nhiều cách tiếp cận khác nhau. Trong nghiên cứu [44] nhóm tác giả đề xuất mô hình thanh điệu cho các ngôn ngữ như Mandarin, Cantonese bằng cách kết hợp thông tin thanh điệu với phần nguyên âm chính và sử dụng nó như một âm vị có thanh điệu. Nhóm tác giả có đưa ra các cách kết hợp khác nhau giữa thông tin thanh điệu với các thành phần cấu tạo nên một âm tiết để thu được các bộ âm vị khác nhau. Qua các thử nghiệm và phân tích, nhóm tác giả chỉ ra rằng cách kết hợp thanh điệu với âm chính vừa làm giảm kích thước tập âm vị vừa thu được chất lượng nhận dạng tốt hơn so với các phương pháp khác. Từ kết quả nghiên cứu này cho thấy việc bổ sung thông tin thanh điệu cho tập âm vị là một phương pháp quan trọng trong việc tối ưu mô hình nhận dạng cho tiếng Mandarin và Cantonese.
Tiếng Thái Lan (5 thanh điệu): Các nghiên cứu về nhận dạng tiếng nói cho tiếng Thái cũng tương tự như tiếng Việt còn rất hạn chế, hầu hết các nghiên cứu tập trung vào vấn đề phân đoạn từ trong các câu phát âm tiếng Thái, do các từ trong tiếng Thái có thể được viết liền nhau. Có rất ít các nghiên cứu về nhận dạng tiếng Thái có thanh điệu. Trong nghiên cứu [45] nhóm tác giả trình bày quy trình xây dựng hệ thống nhận dạng tiếng Thái sử dụng mô hình HMM. Trong nghiên cứu này, nhóm tác giả đã xây dựng mô hình thanh điệu bằng cách sử dụng đặc trưng thanh điệu kết hợp với đặc trưng MFCC làm đặc trưng đầu
vào. Thông tin về thanh điệu không được tích hợp vào bộ âm vị mà được sử dụng làm thông tin phân lớp của hệ thống. Kết quả thử nghiệm trên bộ dữ liệu có kích thước khoảng 26 giờ đạt độ chính xác theo từ là khoảng 84%. Cách tiếp cận này có ưu điểm là giảm kích thước bộ âm vị nhưng vẫn tạo ra sai số gán thanh điệu vào âm vị trong quá trình phân lớp. Tuy nhiên, từ kết quả này cho thấy việc bổ sung thông tin thanh điệu, cũng như tiếng Mandarin hay Cantonese, đối với tiếng Thái đã mang lại kết quả tối ưu hơn cho mô hình nhận dạng.