ngữ nói tiếng Việt trên điện thoại thông minh chạy hệ điều hành Android
Như đã trình bày ở chương 3 mô hình nhận dạng thực thể tên của tôi sẽ được tích hợp vào phần mềm trợ lý ảo cho người Việt có tên VAV (Virtual Assistant for Vietnamese on Mobile) trên di động. VAV là sản phẩm trợ lý ảo (hiện mới có trên hệ điều hành Android) cho phép người dùng tương tác với di động của họ bằng giọng nói (tiếng Việt) để thực hiện rất nhiều tác vụ như tra bản đồ, tìm đường đi, duyệt web, mở nhạc, tìm kiếm, gọi điện, đặt lịch hẹn, đặt báo thức, hỏi thông tin về giá vàng, hỏi ngày âm lịch .v.v. Tất cả các câu lệnh ở dạng ngôn ngữ tự nhiên nên VAV tạo cảm giác người dùng đang có một trợ lý thông minh bên cạnh.
Dưới đây tôi trình bày một số kết quả mà mô hình nhận dạng thực thể tên của tôi sử dụng phương pháp MaxEnt đã thực hiện thành công trong VAV19. Tôi quyết định sử dụng mô hình được huấn luyện bằng MaxEnt trong hệ thống VAV bởi MaxEnt không cồng kềnh và nhẹ hơn so với phương pháp CRFs. Hơn nữa mô hình cần được lưu trữ ngay trên ĐTTM mà không cần đến máy chủ để tăng thời gian xử lý các yêu cầu được nhanh hơn.
Hình 4.3: Tính năng hỏi ngày âm lịch
Hình 4.5: Kết quả trả về sau khi mô hình nhận dạng đƣợc hai địa điểm cần tìm trên bản đồ
Hình 4.7: Kết quả thiết lập lịch theo đúng đối số mà ngƣời dùng yêu cầu
Chƣơng 5. Kết luận
5.1. Những vấn đề giải quyết đƣợc trong luận văn này
Với cách tiếp cận dựa trên những đề xuất đã có trong lĩnh vực nghiên cứu về nhận dạng thực thể tên, bản luận văn này là một sự tổng hợp những nét chính về lý thuyết nhận dạng thự thể tên nhưng đã khai phá một vài khía cạnh mới trong nhận dạng thực thể tên nói chung và cho nhận dạng thực thể tên cho ngôn ngữ nói tiếng Việt nói riêng. Có thể coi luận văn như một bài toán cơ bản đầu tiên giải quyết vấn đề hiểu ngôn ngữ nói tiếng Việt. Đây sẽ là tiền đề cho các nghiên cứu về sau về lĩnh vực ngôn ngữ nói. Sau đây là những điểm chính mà luận văn đã tập trung giải quyết.
Trong chương một, luận văn đã trình bày sự phát triển vượt trội của công nghệ nhận dạng tiếng nói và tổng quan về bài toán nhận dạng thực thể tên, những mục đích, nguyên nhân thúc đẩy các nhà tin học chú trọng vào nghiên cứu lĩnh vực này. Phần này cũng trình bày bài toán nhận dạng thực thể tên cho ngôn ngữ nói tiếng Việt và ứng dụng trong tương tác với điện thoại thông minh. Nêu lên những khó khăn và thách thức của dữ liệu và bài toán là một trong những động lực nghiên cứu chính cho bài toán nhận dạng thực thể tên cho ngôn ngữ nói. Từ đó làm rõ ý nghĩa của bài toán hơn trong việc tương tác với ngôn ngữ nói tiếng Việt. Bên cạnh đó nhấn mạnh về những ứng dụng mà bài toán nhận dạng thực thể tên đã đem lại để ứng dụng vào cuộc sống thực tế. Ngoài ra chương này cũng đưa ra mô hình trình bày cụ thể mục tiêu và nhiệm vụ của bài toán nhận dạng thực thể cần phải xử lý cho ngôn ngữ nói trong tiếng Việt giúp cho người đọc có cái nhìn trực quan hơn trong vấn đề nghiên cứu của luận văn.
Chương hai trình bày sơ lược các kỹ thuật chính, những hướng tiếp cận được áp dụng để giải quyết bài toán nhận dạng thực thể tên. Khái quát một số kiến thức cơ bản và cơ sở lý thuyết học máy. Mục tiêu của chương này cung cấp cho người đọc một số nghiên cứu có liên quan nhất tới vấn đề nghiên cứu của luận văn, cụ thể với nghiên cứu về phần mềm Google Now, một sản phẩm của Google đã được triển khai trên các thiết bị thông minh cho phép người sử dụng tương tác với thiết bị thông minh thông qua ngôn ngữ nói tự nhiên của con người, đặc biệt áp dụng được cả cho ngôn ngữ tiếng Việt.
Chương ba của luận văn đã trình bày chi tiết về hệ thống tổng thể của ứng dụng trợ lý ảo cho người Việt trên điện thoại thông minh, trong đó chỉ rõ việc tích hợp và ứng dụng mô hình học máy nhận dạng thực thể tên mà tôi đã xây dựng cho phần mềm VAV. Chương này cũng trình bày chi tiết từng bước trong quá trình huấn luyện xây dựng mô hình nhận dạng thực thể tên sử dụng mô hình MaxEnt. Từ việc tạo ra dữ liệu mẫu, gán nhãn, chú thích cho dữ liệu cho đến việc thiết kế các dữ liệu cho từ điển và các biểu thức chính quy. Đặc biệt nhấn mạnh các chiến lược trích chọn các đặc trưng đưa vào huấn luyện vượt qua các khó khăn và thách thức của dữ liệu để tạo ra mô hình có hiệu năng tốt. Những khó khăn thách thức đặc thù của dữ liệu và bài toán xuất phát
từ bản chất của ngôn ngữ nói và thành phần nhận dạng tiếng nói tự động (ASR) như đã trình bày cụ thể ở phần đầu của luận văn là điểm khác biệt so với việc nhận dạng thực thể tên ở văn bản viết thông thường, do đó tôi đã cố gắng trình bày chi tiết cụ thể việc sử dụng các thuộc tính khác nhau như: n-grams, biểu thức chính quy, từ điển hay sự kết hợp của cả biểu thức chính quy và từ điển với nhau để tạo ra các thuộc tính phong phú sao cho có giá trị sự phân biệt cao giúp việc huấn luyện ra mô hình được tốt nhất. Hơn nữa chương này cũng lý giải tại sao tôi lại quyết định chọn mô hình học máy MaxEnt để xây dựng mô hình hơn là các mô hình đồ thị phức tạp khác như CRFs để ứng dụng trong điện thoại thông minh. Tuy nhiên để đánh giá khách quan hơn về kết quả của mô hình huấn luyện bằng MaxEnt chương này tôi cũng trình bày việc sử dụng CRFs để đánh giá kết quả thực nghiệm nhận dạng thực thể tên cho văn bản ngôn ngữ nói có nội dung tương tác giữa người dùng và ĐTTM.
Chương bốn của luận văn đã trình bày các kết quả thực nghiệm qua nhiều lần kiểm tra và đánh giá chéo. Kết quả thực nghiệm cho thấy với một tập dữ liệu và thông tin hữu hạn tôi đã xây dựng được mô hình sử dụng phương pháp MaxEnt có kết quả trung bình của độ đo F1 qua 4 lần đánh giá là 94.63. Bên cạnh đó cũng trình bày các kết quả khi thực nghiệm bằng phương pháp CRFs với 4 lần kiểm tra đánh giá chéo thu được kết quả độ đo F1 là 93.88. Chương này cũng đưa ra các phân tích chi tiết cụ thể các kết quả thông qua bảng biểu, đồ thị để người đọc có thể hiểu vì sao với từng loại thực thể lại có các kết quả khác nhau. Kết quả thực nghiệm với việc xử lý dữ liệu văn bản ngôn ngữ nói mà không sử dụng tách từ và các thông tin về các dấu câu, chữ hoa, ranh giới của từ và các thông tin từ loại ngữ pháp (part-of-speech). Bởi các quá trình này cần một lượng thời gian lớn và tốn nhiều quá tiến trình để xử lý điều này không thích hợp với mục tiêu đề ra là mô hình cần phải nhỏ gọn, thích ứng và chạy được ngay trên ĐTTM của người dùng. Phần cuối chương này trình bày sơ lược về hệ điều hành Android trên các thiết bị và những kết quả của việc ứng dụng mô hình nhận dạng thực thể tên cho ngôn ngữ nói tiếng Việt có nội dung tương tá giữa người dùng và ĐTTM chạy hệ điều hành Android.
Trong quá trình thực hiện luận văn này tôi đã cố gắng tập trung nghiên cứu bài toán nhận dạng thực thể tên cho ngôn ngữ nói tiếng Việt và tham khảo nhiều tài liệu liên quan gồm cả các tài liệu xử lý cho ngôn ngữ nói và văn bản viết thông thường. Tuy nhiên do thời gian và trình độ có hạn nên không tránh khỏi những hạn chế và thiếu sót nhất định. Do vậy tôi thật sự mong muốn nhận được những góp ý cả về kiến thức chuyên môn lẫn cách trình bày.
5.2. Công việc nghiên cứu trong tƣơng lai
Nhận dạng thực thể tên cho ngôn ngữ nói được khá nhiều nhà nghiên cứu trên thế giới quan tâm bởi nó được ứng dụng rộng rãi trong các lĩnh vực. Trong luận văn của tôi, tôi cũng chỉ chọn một hướng nhỏ để nghiên cứu.
Trong tương lai, tôi muốn mở rộng nghiên cứu của mình và cải thiện một số vấn đề còn tồn tại để cải thiện kết quả cho mô hình nhận dạng thực thể tên như sau:
- Cải tiến mô hình nhận dạng thực thể giải quyết sự nhập nhằng trong trường hợp người dùng yêu cầu mở ứng dụng hoặc mở trình duyệt web cho các địa chỉ website
- Cải thiện kết quả cho mô hình đoán nhận các thực thể về vị trí, đây là lớp thực thể có kết quả ở mức chấp nhận được bởi những khó khăn như tôi đã nêu trong luận văn
- Xử lý tốt hơn nữa cho các thực thể ở dữ liệu ngày giờ và dạng số
- Mở rộng lớp thực thể hiện tại thêm một lớp thực thể nữa với tên tcontent (text content) để chứa những từ cụm từ có nội dung cần thiết.
Danh mục công trình khoa học của tác giả liên quan đến luận văn
- Bài báo khoa học: Nhận dạng thực thể tên cho ngôn ngữ nói tiếng Việt và ứng trọng trong tương tác với điện thoại thông minh. Bài báo đã được gửi tới hội nghị Các hệ thống cơ sở dữ liệu và thông tin thông minh của Châu Á lần thứ 8 (ACIIDS 2016) và đã được chấp nhận vào ngày 16 tháng 11 năm 2015.
Tài liệu tham khảo
Tài liệu tiếng Việt:
1. PGS. TS. Nguyễn Hà Nam, PGS. TS. Nguyễn Trí Thành, PGS. TS. Hà Quang Thụy (2013), Giáo trình khai phá dữ liệu, Nhà xuất bản Đại học Quốc Gia Hà Nội tr. 249-286.
Tài liệu tiếng Anh:
2. Angelov, K., Bringert, B., Ranta, A. (2014), “Speech–enabled hybrid multilingual translation for mobile devices”, In EACL.
3. Berger, A., Pietra, S.A.D., Pietra, V.J.D. (1996), A maximum entropy approach to natural language processing, Computational Linguistics, 22(1), 39–71.
4. Borthwick, A. (1999), A maximum entropy approach to named entity recognition. PhD dissertation, Dept. of CS, New York University.
5. Chieu, H.L., Ng, H.T. (2003), “Named entity recognition with a maximum entropy approach”, In The 7th CoNLL, pp.160–163.
6. Chinchor, N., Marsh, E. (1998), MUC–7 information extraction task definition (version 5.1), In The 7th Message Understanding Conference (MUC).
7. Florian, R., Ittycheriah, A., Jing, H., Zhang, T. (2003), “Named entity recognition through classifier combination”, In CoNLL, pp.168–171.
8. Graves, A., Jaitly, N. (2014), “Towards end–to–end speech recognition with recurrent neural networks”, In ICML.
9. Grishman, R., Sundheim, B. (1995), Message understanding conference 6: a brief history, In The 6th Message Understanding Conference (MUC–6).
10.Hatmi, M., Jacquin, C., Morin, E., Meignier, S. (2013), “Named entity recognition in speech transcripts following an extended taxonomy”, In The First Workshop on Speech, Language, and Audio in Multimedia (SLAM).
11.Hannun, A., Case, C., Casper, J., Catanzaro, B., Diamos, G., Elsen, E., Prenger, R., Satheesh, S., Sengupta, S., Coates, A., Ng, A.Y. (2014), Deep Speech: scaling up end– to–end speech recognition, In arXiv:1412.5567v2, arxiv.org/abs/1412.5567v2.
12.Hinton, G., Deng, L., Yu, D., Dahl, G., Mohamed, A., Jaitly, N., Senior, A., Vanhoucke, V., Nguyen, P., Sainath, T., Kingsbury, B. (2012), “Deep neural networks for acoustic modeling in speech recognition”, IEEE Signal Process, Mag, 29, pp.82–97.
13.Lafferty, J.D., McCallum, A., Pereira, F. (2001), Conditional random fields: probabilistic models for segmenting and labeling sequence data, In ICML, pp.282– 289.
14.Liu, D., Nocedal, J. (1989), On the limited memory BFGS method for large–scale optimization, Mathematical Programming, 45, pp.503–528.
15.Molla, D., Zaanen, M., Cassidy, S. (2007), “Named entity recognition in question answering of speech data”, In The Australasian Language Technology Workshop. 16.Nguyen, C.T., Tran, T.O., Phan, X.H., Thuy, H.Q. (2007), “Named entity
recognition in Vietnamese free–text and web documents using CRFs”, In The Workshop on Asian Applied Natural Language Processing and Language Resource Development.
17.Nigam, K., Lafferty, J., McCallum, A. (1999), “Using maximum entropy for text classification”, In IJCAI Workshop on Machine Learning, for Info. Filtering, pp.61–67.
18.Pan, Y.C., Liu, Y.Y., Lee, L.S. (2005), “Named entity recognition from spoken documents using global evidences and external knowledge sources with applications on Mandarin Chinese”, In IEEE Auto. Speech Recognition & Understanding.
19.Popkin, J. (2013), Google, Apple Siri and IBM Watson: the future of natural– language question answering in your enterprise. Gartner Technical Professional Advice.
20.Ratnaparkhi, A. (1996), “A maximum entropy model for part–of–speech tagging”, In The Empirical Methods in Natural Language Processing Conference.
21.Tur, G., Mori, R.D. (2011), Spoken language understanding: systems for extracting semantic information from speech, Wiley.
22.Andrew McCallum, Maximum Entropy Markov Models for Extraction Information and Segmentation.
23.William W.Cohen, Adrew McCallum (2003), Slides “Information Extraction from the World Wide Web”, KDD.
24.A.McCallum, D.Freitag, and F. Pereira (2000), Maximum entropy markov models for information extraction and segmentation, In Proc Iternational Conference on Mechine Learning, pp 591-598
25.Grishman, R., Morgan Kaufmann (1995), The NYU system for MUC-6 or where's the syntax? In Proceedings of the Sixth Message Understanding Conference. 26.Lawrence R. Rabiner (1989), A tutorial on hidden markov models and selected
27.Darroch, J., and Ratcliff, D. (1972), Generalized iterative scaling for log-linear models, The Annals of Mathematical Statistics 43, 1470-1480.