Trong bài báo này trình bày tổng quan về việc định danh ngôn ngữ tự động (LID – Language Identification). Việc định danh ngôn ngữ sẽ dựa trên các đặc trưng của tiếng nói như âm học, ngữ âm, ràng buộc âm vị, điệu tính, hình vị học, cú pháp và các hệ thống định danh phổ biến như hệ thống định danh ngôn ngữ tường minh và hệ thống là hệ thống định danh ngôn ngữ ẩn.
ISSN 2354-0575 TỔNG QUAN ĐỊNH DANH NGÔN NGỮ TỰ ĐỘNG Lê Trung Hiếu, Chu Bá Thành Trường Đại học Sư phạm Kỹ thuật Hưng Yên Ngày nhận: 09/2/2016 Ngày xét duyệt: 15/3/2016 Tóm tắt: Trong báo chúng tơi trình bày tổng quan việc định danh ngơn ngữ tự động (LID – Language Identification) Việc định danh ngôn ngữ dựa đặc trưng tiếng nói âm học, ngữ âm, ràng buộc âm vị, điệu tính, hình vị học, cú pháp hệ thống định danh phổ biến hệ thống định danh ngôn ngữ tường minh hệ thống hệ thống định danh ngôn ngữ ẩn Dựa vào đặc trưng ngôn ngữ hệ thống định danh báo tiếp tục trình bày vấn đề đặt cho hệ thống định danh ngôn ngữ tự động cần phải giải Từ khố: Định danh ngơn ngữ tự động, LID Giới thiệu Con người coi hệ thống định danh ngôn ngữ tự động tiếng giới Đơn giản, nghe hai giây tiếng nói ngơn ngữ quen thuộc, họ dễ dàng trích xuất dấu hiệu cụ thể để xác định ngơn ngữ Con người sử dụng kiến thức như: từ vựng, cú pháp, ngữ pháp cấu trúc câu để xác định ngôn ngữ Tuy người hệ thống LID tiếng họ lại muốn thiết kế hệ thống LID máy móc nhằm tạo hệ thống tương tác người - máy phục vụ nhiều công việc sống Các hệ thống LID có khả xác định tiếng nói thời gian ngắn mà tín hiệu tiếng nói phát người nói Một hệ LID tốt hệ thống đảm bảo tính sau hệ thống nhận dạng ngơn ngữ: • Thời gian định danh tiếng nói nhỏ • Hệ thống khơng phân biệt với ngơn ngữ nhóm ngơn ngữ • Hệ thống ln đáp ứng với thay đổi người nói, biến đổi giọng, biến đổi kênh, mơi trường… • Hệ thống phải đơn giản việc đưa thêm ngôn ngữ vào hệ thống phải thực cách dễ dàng Các đặc trưng tiếng nói Trên thực tế có loạt thơng tin mà người máy móc sử dụng để phân biệt ngôn ngữ Ở mức độ thấp, đặc trưng giọng nói thơng tin âm học (acoustic), ngữ âm (phonetic), ràng buộc âm vị (phonotactic) điệu tính (prosodic) sử dụng rộng rãi hệ thống LID Ở mức độ cao hơn, khác biệt ngơn ngữ khai thác dựa hình vị học (morphology) cú pháp câu (sentence Khoa học & Công nghệ - Số 9/Tháng - 2016 syntax) Hình mơ tả mức khác biệt đặc trưng khác tiếng nói từ đặc trưng mức thấp đến đặc trưng mức cao để nhận dạng ngôn ngữ Khi so sánh với đặc trưng tiếng nói mức độ cao hơn, đặc trưng âm mức độ thấp dễ thu được, dễ bị thay đổi việc thay đổi người nói kênh xảy Ở cấp độ đặc trưng cao hơn, đặc trưng cú pháp (syntactic features), cho mang nhiều thông tin ngôn ngữ tách biệt [1], thông tin sử dụng hệ thống nhận dạng có vốn từ vựng lớn khó để có Cú pháp: Từ n-Gram Từ vựng: Từ Điệu tính: Thời hạn, tần số bản, trọng âm Ràng buộc âm vị: n - Gram LM Âm học: MFCC, PLP, SDC, vv Hình Các mức đặc trưng hệ thống nhận dạng ngôn ngữ 2.1 Âm học-Ngữ âm Thông tin âm học thường coi mức phân tích q trình tạo tiếng nói Tiếng nói khác phân biệt mức độ tùy theo biên độ âm thành phần tần số sóng âm [2] Thơng tin âm học hình thức đơn giản thơng tin tham số hóa q trình nói Ngồi ra, thơng tin cấp cao thông tin ràng buộc âm vị Journal of Science and Technology 63 ISSN 2354-0575 (phonotactic) âm tiết chiết xuất từ thơng tin âm Các phương pháp sử dụng rộng rãi Linear Prediction, Mel Frequency Cepstral Coefficient (MFCC), Perceptual Linear Prediction (PLP) Linear Prediction Cepstral Coefficient (LPCC) [3, 4] 2.2 Ràng buộc âm vị Âm vị học (phonology) nghiên cứu hệ thống âm ngơn ngữ cụ thể ngơn ngữ nói chung ràng buộc âm vị (phonotactics) nhánh âm vị học mà liên kết âm ngôn ngữ khác khác Những kết hợp cho phép âm bao gồm cụm phụ âm nguyên âm liên kết theo quy luật [5] Ràng buộc âm vị chi phối cách khác âm vị, kết hợp từ âm tiết từ ngữ không giống ngôn ngữ Một số cụm âm vị âm tiết phổ biến ngơn ngữ khơng có ngơn ngữ khác, ví dụ cụm âm vị / st / phổ biến tiếng Anh, trái lại khơng cho phép tiếng Nhật,… Do đó, thông tin ràng buộc âm vị mang nhiều thông tin ngơn ngữ rõ ràng âm vịcủa ngơn ngữ thích hợp cho việc khai thác đặc thù ngơn ngữ 2.3 Điệu tính Điệu tính (prosody) thành phần quan trọng việc nhận thức thính giác người Giai điệu, trọng âm, thời hạn, cường độ nhịp điệu mặt điệu tính thay đổi khác từ ngôn ngữ sang ngôn ngữ khác Thông thường tần số (fundamental frequency) sử dụng để biểu diễn giai điệu âm, cường độ sử dụng để trọng âm chuỗi thời hạn sử dụng để đại diện cho nhịp điệu Một số âm vị dùng ngơn ngữ khác đặc tính thời gian phụ thuộc vào ràng buộc âm vị ngôn ngữ Các biểu điệu tính ràng buộc ngơn luận, truyền tải vài thông tin quan trọng liên quan tới ngôn ngữ 2.4 Hình vị học Hình vị (morpheme) đơn vị nhỏ mặt ngữ pháp ngôn ngữ đơn vị nhỏ có nghĩa ngơn ngữ Lĩnh vực dành cho nghiên cứu hình vị gọi hình vị học (morphology) [6] Hình vị khơng hoàn toàn giống từ Sự khác hình vị từ hình vị khơng đứng riêng cịn từ đứng tùy ý Khi đứng riêng, hình vị xem gốc từ (root) có nghĩa riêng (chẳng hạn hình vị cat tiếng Anh) cịn hình vị phụ thuộc 64 vào hình vị khác để biểu diễn ý đó, trở thành phụ tố (affix) lúc có chức ngữ pháp (chẳng hạn, -s cats biết số nhiều) Mỗi từ bao gồm nhiều hình vị Như hệ thống nhận dạng ngơn ngữ tự động thực cấp độ từ cách kiểm tra đặc điểm riêng hình thức từ 2.5 Cú pháp Trong ngôn ngữ học, cú pháp (syntax) việc nghiên cứu nguyên tắc quy tắc ảnh hưởng, cách mà từ ghép với câu Các mẫu câu khác qua ngôn ngữ khác Ngay trường hợp từ đơn chia sẻ hai ngôn ngữ khác nhau, văn cảnh (ví dụ từ đứng trước từ theo sau) khác ngơn ngữ [7] Việc tích hợp từ vựng ngữ pháp, cách khai thác thơng tin hình vị học cú pháp, dẫn đến cải thiện hệ thống nhận dạng tiếng nói việc đưa thông tin vào hệ thống LID đạt số thành công định Tuy nhiên, việc xây dựng từ điển ngữ pháp dựa từ cho hệ thống LID cần nỗ lực đáng kể so với việc dừng mức ngữ âm Các hệ thống sử dụng thơng tin hình vị học cú pháp phổ biến Các hệ thống định danh ngôn ngữ Các hệ thống LID điển hình bao gồm hệ thống sử dụng số tất loại thông tin nêu để đánh giá giống ngơn ngữ khác việc đánh giá từ hệ thống kết hợp để đưa định cuối ngơn ngữ cần định danh Hình sơ đồ khối tổng quan hệ thống LID sử dụng với tất mức thông tin Tuy nhiên, không cần thiết cho hệ thống LID phải làm vậy, thực hệ thống LID không làm Các phương pháp phổ biến sử dụng thông tin âm học (acoustic) ràng buộc âm vị Trên thực tế hệ thống định danh ngơn ngữ tự động chia thành hai loại hệ thống định danh ngơn ngữ tường minh hệ thống định danh ngôn ngữ ẩn 3.1 Hệ thống định danh ngôn ngữ tường minh Hệ thống định danh ngôn ngữ tường minh thể Hình Nguyên tắc hoạt động hệ thống ban đầu liệu tiếng nói đưa vào tiền xử lý, sau liệu ngôn ngữ khác xác định đưa vào nhận dạng ngôn ngữ cụ thể Tại nhận dạng ngôn ngữ thông tin xử lý đưa phân loại, cuối hệ thống đưa kết ngôn ngữ nhận dạng Khoa học & Công nghệ - Số 9/Tháng - 2016 Journal of Science and Technology ISSN 2354-0575 Hình Mơ hình tổng quan hệ thống định danh ngơn ngữ Hình Hệ thống định danh ngôn ngữ tường minh Nhiều kết nghiên cứu ứng dụng hệ thống định danh ngôn ngữ tường minh công bố giới Lamel Gauvain [8, 9] sử dụng nhận dạng âm vị bước xử lý để thực nhiệm vụ định danh Bộ nhận dạng âm vị cho tiếng Pháp tiếng Anh xây dựng sử dụng song song Tín hiệu tiếng nói ngôn ngữ số hai ngôn ngữ hai nhận dạng âm vị xử lý song song Ngơn ngữ gắn với mơ hình có tính tương đồng cao xem ngơn ngữ tín hiệu tiếng nói đầu vào Berking cộng [10] xét tập hợp cha âm vị ngôn ngữ khác tiếng Anh, tiếng Nhật tiếng Đức Họ khai thác tìm kiếm sử dụng âm vị để phân biệt tốt cặp ngôn ngữ Hazen Zue [11] theo đuổi việc sử dụng nhận dạng âm vị đầu vào cho nhận dạng đa ngôn ngữ thay cho việc sử dụng nhận dạng âm vị phụ thuộc ngôn ngữ kết hợp thơng tin điệu tính, âm học, ngữ âm suy diễn từ tiếng nói khn khổ thống kê 3.2 Hệ thống định danh ngôn ngữ ẩn Hệ thống định danh ngôn ngữ ẩn mô tả Khoa học & Công nghệ - Số 9/Tháng - 2016 Hình Nguyên lý hoạt động hệ thống ban đầu liệu tiếng nói đưa vào tiền xử lý, sau liệu đưa vào trích lọc đặc trưng để lấy đặc trưng ngôn ngữ, liệu đưa vào mơ hình ngơn ngữ khác (các mơ hình ngơn ngữ khác xử lý cho biết đặc trưng ngôn ngữ khác nhau) Tiếp theo thông tin đưa phân loại cho kết ngôn ngữ định danh Các kết nghiên cứu ứng dụng hệ thống định danh ngôn ngữ ẩn công bố giới như: Carrasquillo PAT [12] hay Wong E [13] sử dụng mơ hình hỗn hợp Gaussian hệ thống định danh ngôn ngữ Campbell et al [14], Zhai et al [15] and Castaldo et al [16] ứng dụng SVMs (Support Vector Machine) cho nhiệm vụ định danh ngôn ngữ cho kết cải thiện so với phương pháp tiếp cận dùng GMM (Gaussian Mixture Model) Hay Chung-Hsien [17] cộng thực phân đoạn tự động nhận dạng giọng nói hỗn hợp ngôn ngữ sử dụng delta-BIC (delta - Bayesian Information Criterion GMMs LSA (Latent Semantic Analysis) Journal of Science and Technology 65 ISSN 2354-0575 Hình Hệ thống định danh ngôn ngữ ẩn Một số vấn đề đặt cho hệ thống định danh ngôn ngữ Việc định danh ngơn ngữ mà khơng có hiểu biết ngơn ngữ thách thức lớn Trong lĩnh vực định danh ngôn ngữ, nên giả thiết khơng có phổ kiểu thơng tin khác người nói diện tập tham chiếu Việc so sánh mẫu cần nhận dạng mẫu tham chiếu xuất phát từ phát ngơn khơng bị ràng buộc hai người nói khác Như vậy, hai phát ngơn ln có khác biệt nội dung phát ngơn, người nói, mơi trường ghi âm ngơn ngữ Vì thế, để định danh ngơn ngữ khác nhau, ngồi nội dung nói, người nói mơi trường ghi âm khác vấn đề quan trọng Có thể nêu chi tiết vấn đề sau • Biến đổi đặc tính người nói Người nói khác có sắc thái nói khác nhau, điều làm tăng tính biến đổi hay biến thiên đặc tính ngưới nói ràng buộc đặt ngơn ngữ Vì cần vơ hiệu hóa biến đổi mơ hình hóa ngơn ngữ • Biến đổi ngữ điệu Ngữ điệu liên quan chủ yếu đến phát âm Từ ngữ điệu, ta nhận người nói có giọng tự nhiên xứ hay không Tuy nhiên, gặp phải khó khăn mơ tả khác biệt ngữ điệu • Biến đổi mơi trường đặc tính kênh truyền dẫn Các đặc tính tín hiệu tiếng nói chịu ảnh hưởng nhiều điều kiện mơi trường liệu thu thập truyền dẫn Các yếu tổ có ảnh hưởng đáng kể đến đặc trưng trích xuất từ phân tích phổ ngắn hạn Do đó, cần phải có đặc trưng chịu ảnh hưởng mơ trường kênh truyền dẫn để có hệ thống nhận dạng tốt ngơn ngữ • Biến đổi phương ngữ Phương ngữ đa dạng ngôn ngữ theo khu vực theo tập thể cư dân phân biệt theo cách phát âm, ngữ pháp, từ vựng đặc biệt đa dạng tiếng nói khác 66 với ngôn ngữ văn học chuẩn nguyên mẫu tiếng nói văn hóa mà phương ngữ tồn • Tính tương tự ngơn ngữ Có nhiều tương tự ngơn ngữ Chẳng hạn phần lớn ngơn ngữ Ấn Độ có chung tập gốc từ theo cấu trúc ngữ pháp tương tự • Việc trích chọn biểu diễn điệu tính đặc trưng cho ngơn ngữ Các đặc trưng tính điệu điệu, thời hạn, cường độ, trọng âm, nhịp điệu thay đổi ngôn ngữ khác Nhưng chất đặc tính không định nghĩa rõ ràng Chẳng hạn, nhịp điệu ngơn ngữ cảm nhận âm tiết, nguyên âm, biến thiên biên độ đột ngột, điệu lên xuống song thực chưa hiểu rõ chúng Hơn nữa, khơng có sẵn ký thuật thích hợp xử lý tiếng nói nhằm biểu diễn tri thức nguồn mức cao giống điệu tính Do vậy, việc trích rút biểu diễn điệu tính chun biệt cho ngơn ngữ cịn điều khó khăn Có thể thấy rằng, việc định danh ngơn ngữ thuận lợi ngôn ngữ cần định danh khác biệt (tức tập âm vị hồn tồn khác cho ngơn ngữ) Mặc dù vậy, tất ngôn ngữ chia sẻ tập chung âm vị phần lớn ngơn ngữ có chung gốc Kết luận hướng phát triển Bài báo trình bày đặc trưng tiếng nói đặc điểm đặc trưng; mơ hình tổng quan định danh ngôn ngữ dựa vào đặc trưng khác tiếng nói; hai hệ thống định danh ngơn ngữ được sử dụng rộng rãi thực tế là: hệ thống định danh ngôn ngữ tường minh hệ thống danh ngôn ngữ ẩn Dựa vào kết nghiên cứu định danh ngôn ngữ tác giả khác giới đưa số vấn đề đặt cho hệ thống định danh ngôn ngữ cần phải xử lý như:vấn đề biến đổi đặc tính người nói, ngữ điệu, mơi trường, đặc tính kênh truyền dẫn, phương ngữ, tính tương tự Khoa học & Cơng nghệ - Số 9/Tháng - 2016 Journal of Science and Technology ISSN 2354-0575 ngôn ngữ… Từ giúp người đọc có nhìn tổng quan định danh ngơn ngữ tự động vấn đề cần giải quyết.Trên sở nghiên cứu đạt phát triển hệ thống định danh ngôn ngữ tự động với ngôn ngữ khác đặc biệt việc định danh ngôn ngữ khác với tiếng Việt Tài liệu tham khảo [1] Schultz T, Rogina I, Waibel A (1996), LVCSR-Based Language Identification, In: Proceedings of IEEE International Conference Acoustics, Speech, And Signal Processing (ICASSP-96), Vol 2, PP 781–784 [2] Laver J (1994), Principles of Phonetics, Cambridge University Press, Cambridge [3] Jurafsky D, Martin J (2008), Speech And Language Processing: An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition, edn Prentice Hall, New Jersey [4] Rabiner L, Juang B (1993), Fundamentals of Speech Recognition, Prentice Hall, New Jersey [5] Schultz T, Kirchhoff K (2006), Multilingual Speech Processing, Academic, New York [6] Bauer L (2003), Introducing Linguistic Morphology, Georgetown University Press, Washington D.C [7] Zissman MA (1996), Comparison of Four Approaches to Automatic Language Identification of Telephone Speech, IEEE Trans Speech Audio Process 4:31–44 [8] Lamel LF, Gauvain JL (1993), Cross Lingual Experiments with Phone Recognition, In: Proceedings of IEEE International Conference Acoustics, Speech, and Signal Processing, PP 507– 510, April 1993 [9] Lamel LF, Gauvain JL (1994), Language Identification Using Phonebased Acoustic Likelihoods, In: Proceedings of IEEE International Conference On Acoustics, Speech, And Signal Processing, Vol 1, PP 293–296, April 1994 [10] Berkling KM, Arai T, Bernard E (1994), Analysis of Phoneme Based Features for Language Identification, In: Proceedings Of IEEE International Conference On Acoustics, Speech, And signal Processing, PP 289–292, April 1994 [11] Hazen TJ, Zue VW (1994), Recent Improvements in An Approach to Segement-Based Automatic Language Identification, In: Proceedings of IEEE International Conference on Acoustics, Speech, and Signal Processing, PP 1883–1886, Sept 1994 [12] Carrasquillo PAT, Reynolds DA, Deller JR (2002), Language Identification Using Gaussian Mixture Model Tokenization, In: Proceedings of IEEE International Conference on Acoustics, Speech, and Signal Processing, Vol I, PP 757–760, 2002 [13] Wong E, Sridharan S (2002), Gaussian Mixture Model Based Language Identification System, In: Proceedings International Conference Spoken Language Processing (ICSLP-2002), PP 93–96, 2002 [14] Campbell W, Singera E, Torres-Carrasquillo P, Reynolds D (2004), Language Recognition With Support Vector Machines, In Proceedings of ODYSSEY- 2004:2004 [15] Lu-Feng Z, Man-hung S, Xi Y, Gish H (2006), Discriminatively Trained Language Models Using Support Vector Machines for Language Identification, In: Proceedings of Speaker and Language Recognition Workshop, 2006 IEEE Odyssey, PP1–6 [16] Castaldo F, Dalmasso E, Laface P, Colibro D, Vair C (2007), Language Identification Using Acoustic Models and Speaker Compensated Cepstral-Time Matrices, In: IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP 2007), pp IV-1013IV-1016, 2007 [17] Wu C-H, Chiu Y-H, Shia C-J, Lin C-Y (2006), Automatic Segmentation and Identification of Mixed-Language Speech Using Delta-BIC and LSA-Based GMMs, IEEE Trans Audio Speech Lang Process 14:266–276 Khoa học & Công nghệ - Số 9/Tháng - 2016 Journal of Science and Technology 67 ISSN 2354-0575 AN OVERVIEW OF AUTOMATIC LANGUAGE IDENTIFICATION Abstract: In this article, we will present an overview of automatic language identification (LID – Language Identification) The language identification will base on the speech feature such as acoustic, phonetics, pholotactics, prosody, morphology, systax and the popular identification systems such as the explicit language identification system and the implicit language identification system Relying on the feature languges and the identification systems, the article will continue to present the issues that it is had got to solve for the automatic spoken language identification system Keywords: Language Identification, LID 68 Khoa học & Công nghệ - Số 9/Tháng - 2016 Journal of Science and Technology ... thống định danh ngơn ngữ tự động chia thành hai loại hệ thống định danh ngôn ngữ tường minh hệ thống định danh ngôn ngữ ẩn 3.1 Hệ thống định danh ngôn ngữ tường minh Hệ thống định danh ngôn ngữ. .. 2354-0575 ngôn ngữ? ?? Từ giúp người đọc có nhìn tổng quan định danh ngôn ngữ tự động vấn đề cần giải quyết.Trên sở nghiên cứu đạt phát triển hệ thống định danh ngôn ngữ tự động với ngôn ngữ khác... Hệ thống định danh ngôn ngữ ẩn Một số vấn đề đặt cho hệ thống định danh ngôn ngữ Việc định danh ngơn ngữ mà khơng có hiểu biết ngơn ngữ thách thức lớn Trong lĩnh vực định danh ngôn ngữ, nên giả