Nhận dạng thực thể tên cho ngôn ngữ nói tiếng việt và ứng dụng trong tương tác với điện thoại thông minh

14 329 0
Nhận dạng thực thể tên cho ngôn ngữ nói tiếng việt và ứng dụng trong tương tác với điện thoại thông minh

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC CÔNG NGHỆ TRẦN PHƢƠNG NAM NHẬN DẠNG THỰC THỂ TÊN CHO NGƠN NGỮ NĨI TIẾNG VIỆT VÀ ỨNG DỤNG TRONG TƢƠNG TÁC VỚI ĐIỆN THOẠI THÔNG MINH LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN HÀ NỘI – 2015 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC CÔNG NGHỆ TRẦN PHƢƠNG NAM NHẬN DẠNG THỰC THỂ TÊN CHO NGÔN NGỮ NÓI TIẾNG VIỆT VÀ ỨNG DỤNG TRONG TƢƠNG TÁC VỚI ĐIỆN THOẠI THƠNG MINH Ngành: Cơng nghệ thơng tin Chun ngành: Hệ thống thông tin Mã số: 60 48 01 04 LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN NGƢỜI HƢỚNG DẪN KHOA HỌC: TS PHAN XUÂN HIẾU HÀ NỘI - 2015 i Lời cam đoan Tôi xin cam đoan báo cáo luận văn viết hướng dẫn cán hướng dẫn khoa học, thầy giáo, TS Phan Xuân Hiếu Tất kết đạt luận văn trình tìm hiểu, nghiên cứu riêng tơi Trong tồn nội dung luận văn, điều trình bày cá nhân tổng hợp từ nhiều nguồn tài liệu khác Các tài liệu tham khảo có xuất xứ rõ ràng trích dẫn hợp pháp Tơi xin hồn tồn chịu trách nhiệm chịu hình thức kỷ luật theo quy định cho lời cam đoan Hà Nội, ngày …… tháng … năm 2015 Người cam đoan Trần Phương Nam ii Mục lục Lời cam đoan i Mục lục ii Bảng từ viết tắt v Danh sách bảng biểu .vi Danh sách hình vẽ vii Lời cảm ơn viii MỞ ĐẦU Error! Bookmark not defined Chương Nhận dạng tiếng nói nhận dạng thực thể tên cho ngơn ngữ nói Error! Bookmark not defined 1.1 Sự phát triển ứng dụng công nghệ nhận dạng tiếng nói Error! Bookmark not defined 1.2 Nhận dạng thực thể tên Error! Bookmark not defined 1.2.1 Tại cần nhận dạng thực thể tên? Error! Bookmark not defined 1.2.2 Định nghĩa thực thể tên nhận dạng thực thể tênError! Bookmark not defined 1.3 Bài toán nhận dạng thực thể tên cho ngơn ngữ nói tiếng Việt khó khăn thách thức Error! Bookmark not defined 1.3.1 Bài toán nhận dạng thực thể tên cho ngơn ngữ nói tiếng Việt Error! Bookmark not defined 1.3.2 Những khó khăn thách thức đặc thù toán liệu Error! Bookmark not defined 1.4 Ứng dụng nhận dạng thực thể tên Error! Bookmark not defined 1.5 Ý nghĩa toán nhận dạng thực thể tên cho ngơn ngữ nói tiếng Việt ứng dụng tương tác với điện thoại thông minh Error! Bookmark not defined Chương Các cách tiếp cận phương pháp nhận dạng thực thể tên Error! Bookmark not defined 2.1 Các hướng tiếp cận kỹ thuật áp dụng nhận dạng thực thể tên Error! Bookmark not defined 2.2 Cơ sở lý thuyết phương pháp học máy Maximum EntropyError! not defined Bookmark iii 2.3 Cơ sở lý thuyết mơ hình Conditional Random FieldsError! defined Bookmark not 2.4 Các phương pháp đánh giá nhận hệ thống dạng thực thể tênError! Bookmark not defined 2.4.1 Độ xác, độ hồi tưởng, độ đo F Error! Bookmark not defined 2.4.2 Giá trị trung bình Macro, Micro độ đo F Error! Bookmark not defined 2.4.3 Kiểm tra đánh giá chéo k – tập (k-fold cross-validation)Error! Bookmark not defined 2.5 Các phương pháp lặp tối ưu số ước lượng tham số mơ hình Error! Bookmark not defined 2.5.1 Thuật toán Generalized Iterative Scaling (GIS)Error! defined Bookmark not 2.5.2 Thuật toán Improved Iterative Scaling (IIS) Error! Bookmark not defined 2.5.3 Các kỹ thuật tối ưu số Error! Bookmark not defined 2.6 Một số nghiên cứu liên quan với tốn nhận dạng thực thể tên cho ngơn ngữ nói tiếng Việt Error! Bookmark not defined 2.6.1 Các nghiên cứu liên quan Error! Bookmark not defined 2.6.2 Tìm hiểu Google Now – phần mềm có xử lý cho ngơn ngữ nói tiếng Việt điện thoại thơng minh Error! Bookmark not defined Chương Nhận dạng thực thể tên cho ngơn ngữ nói tiếng Việt sử dụng phương pháp học máy Error! Bookmark not defined 3.1 Hệ thống trợ lý ảo cho người Việt điện thoại thông minhError! Bookmark not defined 3.2 Nhận dạng thực thể tên cho ngơn ngữ nói tiếng ViệtError! defined Bookmark not 3.2.1 Mơ hình hóa tốn nhận dạng thực thể tên ngơn ngữ nói tiếng Việt ứng dụng tương tác với điện thoại thông minh Error! Bookmark not defined 3.2.2 Xây dựng tập liệu huấn luyện Error! Bookmark not defined 3.3 Xây dựng mơ hình dựa phương pháp tiếp cận học máyError! not defined Bookmark 3.3.1 Xây dựng mơ hình cực đại hóa Entropy Error! Bookmark not defined 3.3.2 Lựa chọn thuộc tính Error! Bookmark not defined 3.4 Huấn luyện mơ hình Error! Bookmark not defined iv 3.4.1 Quá trình huấn luyện mơ hình nhận dạng thực thể tênError! not defined Bookmark 3.4.2 Các tham số huấn luyện sử dụng mơ hình MaxEntError! not defined Bookmark 3.4.3 Các tham số huấn luyện sử dụng mơ hình CRFsError! Bookmark not defined Chương Thực nghiệm đánh giá mơ hình nhận dạng thực thể tên cho ngơn ngữ nói tiếng Việt Error! Bookmark not defined 4.1 Dữ liệu thực nghiệm cài đặt Error! Bookmark not defined 4.2 Kết thực nghiệm phân tích Error! Bookmark not defined 4.2.1 Kết thực nghiệm sử dụng MaxEnt Error! Bookmark not defined 4.2.2 Kết thực nghiệm sử dụng CRFs Error! Bookmark not defined 4.3 Hệ điều hành Android thiết bị thông minhError! defined Bookmark not 4.4 Kết ứng dụng mơ hình nhận dạng thực thể tên cho ngơn ngữ nói tiếng Việt điện thoại thơng minh chạy hệ điều hành AndroidError! Bookmark not defined Chương Kết luận Error! Bookmark not defined 5.1 Những vấn đề giải luận văn nàyError! defined Bookmark not 5.2 Công việc nghiên cứu tương lai Error! Bookmark not defined Danh mục cơng trình khoa học tác giả liên quan đến luận vănError! not defined Bookmark Tài liệu tham khảo v Bảng từ viết tắt Từ cụm từ Điện thoại thông minh Thiết bị thông minh Phần mềm trợ lý ảo cho người Việt Cực đại hóa Entropy Trường điều kiện ngẫu nhiên Từ viết tắt ĐTTM TBTM VAV MaxEnt CRFs Từ tiếng Anh Smartphones Smart device Virtual Assistant for Vietnamese Maximum Entropy Conditional Random Fields vi Danh sách bảng biểu Bảng 3.1: Một số mẫu câu lệnh ngơn ngữ nói mà ứng dụng phần mềm trợ lý ảo cho người Việt (VAV) xử lý Error! Bookmark not defined Bảng 3.2: Các loại thực thể tên áp dụng phạm vi tương tác với điện thoại thông minh Error! Bookmark not defined Bảng 3.3: Một số mẫu câu lệnh ngơn ngữ nói tự nhiên với gán nhãn thực thể tênError! Bookmark not defined Bảng 3.4: Ví dụ gán nhãn cho câu theo định dạng IOB2Error! defined Bookmark not Bảng 3.5: Các mẫu ngữ cảnh từ vựng theo N-Grams Error! Bookmark not defined Bảng 3.6: Ví dụ mẫu ngữ cảnh sinh sử dụng N-GramsError! Bookmark not defined Bảng 3.7: Các mẫu ngữ cảnh sử dụng biểu thức quyError! Bookmark not defined vii Bảng 3.8: Các mẫu ngữ cảnh sử dụng từ điển Error! Bookmark not defined Bảng 3.9: Ví dụ mẫu ngữ cảnh tìm kiếm từ điển cho tên đường phố Error! Bookmark not defined Bảng 3.10: Ví dụ mẫu ngữ cảnh tìm kiếm từ điển cho kiểu ngày Error! Bookmark not defined Bảng 3.11: Các thuộc tính sử dụng kết hợp biểu thức quy từ điển Error! Bookmark not defined Bảng 3.12: Ví dụ mẫu ngữ cảnh kết hợp sử dụng biểu thức quy từ điển Error! Bookmark not defined Bảng 3.13: Danh sách mẫu biểu thức quy Error! Bookmark not defined Bảng 3.14: Các tham số trình huấn luyện MaxEntError! not defined Bookmark Bảng 3.15: Các tham số trình huấn luyện CRFsError! Bookmark not defined Bảng 4.1: Đánh giá theo Chunk fold cho kết tốt MaxEnt Error! Bookmark not defined Bảng 4.2: Kết đánh giá chéo lần thực nghiệm MaxEnt Error! Bookmark not defined Bảng 4.3: Đánh giá theo Chunk fold cho kết tốt CRFsError! Bookmark not defined Bảng 4.4: Kết đánh giá chéo lần thực nghiệm CRFs Error! Bookmark not defined Danh sách hình vẽ Hình 1.1: Quá trình nhận dạng tiếng nói tự động chuyển sang dạng văn ngơn ngữ nói Error! Bookmark not defined viii Hình 1.2: Q trình phân tích để hiểu văn ngơn ngữ nóiError! defined Bookmark not Hình 1.3: Q trình nhận dạng thực thể tên sử dụng mơ hình huấn luyện Error! Bookmark not defined Hình 3.1: Mơ hình tổng thể hệ thống VAV Error! Bookmark not defined Hình 3.2: Số lớp thực thể thích tồn tập liệu đầu vào Error! Bookmark not defined Hình 3.3: Dữ liệu cho nhóm tính Error! Bookmark not defined Hình 3.4: Dữ liệu từ điển cho phục vụ tìm kiếm thực thể tên Error! Bookmark not defined Hình 3.5: Q trình huấn luyện tạo mơ hình nhận dạng thực thể tên Error! Bookmark not defined Hình 4.1: Kết trung bình độ xác, độ hồi tưởng, độ đo F1 lần kiểm tra đánh giá chéo kết thực nghiệm dùng MaxEntError! Bookmark not defined Hình 4.2: Kết trung bình độ xác, độ hồi tưởng, độ đo F1 lần kiểm tra đánh giá chéo kết thực nghiệm dùng CRFs Error! Bookmark not defined Hình 4.3: Tính hỏi ngày âm lịch Error! Bookmark not defined Hình 4.4: Tính tìm đường từ vị trí A tới vị trí B đồError! Bookmark not defined Hình 4.5: Kết trả sau mơ hình nhận dạng hai địa điểm cần tìm đồ Error! Bookmark not defined Hình 4.6: Tính thiết lập lịch họp Error! Bookmark not defined Hình 4.7: Kết thiết lập lịch theo đối số mà người dùng yêu cầu Error! Bookmark not defined Hình 4.8: Tính đặt chng báo thức Error! Bookmark not defined Hình 4.9: Kết đặt chuông báo thức Error! Bookmark not defined ix Lời cảm ơn Đầu tiên, muốn gửi lời cảm ơn sâu sắc đến cán hướng dẫn khoa học, thầy giáo, TS Phan Xuân Hiếu, người đưa đến lĩnh vực nghiên cứu trực tiếp giảng dạy suốt q trình tơi học tập, nghiên cứu trường Đại học Công Nghệ - Đại học Quốc Gia Hà Nội Thầy truyền cho nguồn cảm hứng, nhiệt huyết nghiên cứu khoa học tận tình hướng dẫn tơi, cho lời khuyên quý báu Mặc dù thầy bận với công việc giảng dạy nghiên cứu thầy dành cho nhiều thời gian thảo luận ý tưởng nghiên cứu, dẫn cách nghiên cứu, giải đáp thắc mắc động viên vượt qua vấn đề khó khăn hướng tơi tới nhiều vấn đề có giá trị khác khiến tơi muốn tìm hiểu nghiên cứu tương lai Tơi xin bày tỏ lời cảm ơn chân thành tới thầy cô giáo giảng dạy suốt thời gian học trường PGS, TS Hà Quang Thụy, PGS, TS Trịnh Nhật Tiến, PGS, TS Đỗ Trung Tuấn, PGS, TS Nguyễn Ngọc Hóa, TS Bùi Quang Hưng, TS Nguyễn Văn Vinh, TS Nguyễn Thị Hậu, TS Võ Đình Hiếu, TS Trần Trúc Mai thầy cô giáo khác khoa Tôi muốn gửi lời cảm ơn tới thành viên nhóm seminar “Học máy, khai phá liệu xử lý ngôn ngữ tự nhiên” NCS Lương Thái Lê, NCS Ngô Thị Lan, ThS Trương Thị Minh Ngọc, ThS Nguyễn Minh Thưa, ThS Trần Thị Hạnh, CN Nguyễn Thạc Thống, CN Trương Quốc Tuấn, CN Vương Thị Hải Yến, CN Nguyễn Văn Hợp, CN Dương Quang Vũ, CN Phí Thị Thu, vv Họ người bạn sát cánh bên lĩnh vực nghiên cứu này, có góp ý chuyên môn học máy xử lý ngôn ngữ tự nhiên có động viên tinh thần với đáng trân trọng Cuối xin gửi lời cảm ơn sâu sắc tới Bố, Mẹ, Vợ, Con tất người thân gia đình, bạn bè tơi Họ ln ủng hộ tơi với tình u lớn khơng ngừng khuyến khích, động viên tơi vượt qua tất khó khăn sống Học viên thực luận văn x Trần Phương Nam Tài liệu tham khảo Tài liệu tiếng Việt: PGS TS Nguyễn Hà Nam, PGS TS Nguyễn Trí Thành, PGS TS Hà Quang Thụy (2013), Giáo trình khai phá liệu, Nhà xuất Đại học Quốc Gia Hà Nội tr 249-286 Tài liệu tiếng Anh: Angelov, K., Bringert, B., Ranta, A (2014), “Speech–enabled hybrid multilingual translation for mobile devices”, In EACL Berger, A., Pietra, S.A.D., Pietra, V.J.D (1996), A maximum entropy approach to natural language processing, Computational Linguistics, 22(1), 39–71 Borthwick, A (1999), A maximum entropy approach to named entity recognition PhD dissertation, Dept of CS, New York University Chieu, H.L., Ng, H.T (2003), “Named entity recognition with a maximum entropy approach”, In The 7th CoNLL, pp.160–163 Chinchor, N., Marsh, E (1998), MUC–7 information extraction task definition (version 5.1), In The 7th Message Understanding Conference (MUC) Florian, R., Ittycheriah, A., Jing, H., Zhang, T (2003), “Named entity recognition through classifier combination”, In CoNLL, pp.168–171 Graves, A., Jaitly, N (2014), “Towards end–to–end speech recognition with recurrent neural networks”, In ICML Grishman, R., Sundheim, B (1995), Message understanding conference 6: a brief history, In The 6th Message Understanding Conference (MUC–6) 10 Hatmi, M., Jacquin, C., Morin, E., Meignier, S (2013), “Named entity recognition in speech transcripts following an extended taxonomy”, In The First Workshop on Speech, Language, and Audio in Multimedia (SLAM) 11 Hannun, A., Case, C., Casper, J., Catanzaro, B., Diamos, G., Elsen, E., Prenger, R., Satheesh, S., Sengupta, S., Coates, A., Ng, A.Y (2014), Deep Speech: scaling up end– to–end speech recognition, In arXiv:1412.5567v2, arxiv.org/abs/1412.5567v2 12 Hinton, G., Deng, L., Yu, D., Dahl, G., Mohamed, A., Jaitly, N., Senior, A., Vanhoucke, V., Nguyen, P., Sainath, T., Kingsbury, B (2012), “Deep neural networks for acoustic modeling in speech recognition”, IEEE Signal Process, Mag, 29, pp.82–97 13 Lafferty, J.D., McCallum, A., Pereira, F (2001), Conditional random fields: probabilistic models for segmenting and labeling sequence data, In ICML, pp.282– 289 2 14 Liu, D., Nocedal, J (1989), On the limited memory BFGS method for large–scale optimization, Mathematical Programming, 45, pp.503–528 15 Molla, D., Zaanen, M., Cassidy, S (2007), “Named entity recognition in question answering of speech data”, In The Australasian Language Technology Workshop 16 Nguyen, C.T., Tran, T.O., Phan, X.H., Thuy, H.Q (2007), “Named entity recognition in Vietnamese free–text and web documents using CRFs”, In The Workshop on Asian Applied Natural Language Processing and Language Resource Development 17 Nigam, K., Lafferty, J., McCallum, A (1999), “Using maximum entropy for text classification”, In IJCAI Workshop on Machine Learning, for Info Filtering, pp.61–67 18 Pan, Y.C., Liu, Y.Y., Lee, L.S (2005), “Named entity recognition from spoken documents using global evidences and external knowledge sources with applications on Mandarin Chinese”, In IEEE Auto Speech Recognition & Understanding 19 Popkin, J (2013), Google, Apple Siri and IBM Watson: the future of natural– language question answering in your enterprise Gartner Technical Professional Advice 20 Ratnaparkhi, A (1996), “A maximum entropy model for part–of–speech tagging”, In The Empirical Methods in Natural Language Processing Conference 21 Tur, G., Mori, R.D (2011), Spoken language understanding: systems for extracting semantic information from speech, Wiley 22 Andrew McCallum, Maximum Entropy Markov Models for Extraction Information and Segmentation 23 William W.Cohen, Adrew McCallum (2003), Slides “Information Extraction from the World Wide Web”, KDD 24 A.McCallum, D.Freitag, and F Pereira (2000), Maximum entropy markov models for information extraction and segmentation, In Proc Iternational Conference on Mechine Learning, pp 591-598 25 Grishman, R., Morgan Kaufmann (1995), The NYU system for MUC-6 or where's the syntax? In Proceedings of the Sixth Message Understanding Conference 26 Lawrence R Rabiner (1989), A tutorial on hidden markov models and selected applications in speech recognition, In Proc the IEEE, 77(2):257-286 27 Darroch, J., and Ratcliff, D (1972), Generalized iterative scaling for log-linear models, The Annals of Mathematical Statistics 43, 1470-1480

Ngày đăng: 27/08/2016, 22:42

Tài liệu cùng người dùng

Tài liệu liên quan