Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 41 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
41
Dung lượng
3,65 MB
Nội dung
Mạng neural nhân tạo ứng dụng xử lý ngôn ngữ tự nhiên Phạm Quang Nhật Minh Nghiên cứu viên NLP Alt Việt Nam Ngày 20 tháng năm 2019 Nội dung “Deep Learning” gì? n Vì Deep Learning thành cơng? n Kiến thức Deep Learning n Ứng dụng mạng neural xử lý ngôn ngữ tự nhiên al+ inc n ă Trớch xut thc th cú tờn gi ă Trớch xut thuc tớnh ngi dựng hi thoi ă Sinh câu trả lời mơ hình seq2seq Deep Learning gì? Artificial Intelligence (AI) Machine Learning Deep Learning Trí tuệ nhân tạo (Artificial Intelligence) n n Ra i t nhng nm 1950 nh ngha ă the theory and development of computer systems able to perform tasks that normally require human intelligence, such as visual perception, speech recognition, decision-making, and translation between languages.” n Thời gian đầu cách tiếp cận phổ biến AI lập trình cách tường minh luật để xử lý tri thức (symbolic AI) Học máy (Machine Learning) Rules Symbolic AI Data Answers Data Machine Learning Answers Rules Trước có Deep Learning n n n n n n n n Perceptron Naive Bayes Decision Trees Random Forest SVM Kernel methods Các thuật toán thường gọi Shallow Learning Deep Learning Layer Layer Layer Layer 4 Final output Deep Learning dùng mạng Neural để học biểu diễn liệu qua tầng Lịch sử phát triển Deep Learning Nguồn ảnh: UVA Deep Learning Course (https://uvadlc.github.io/) Vì Deep Learning thành cơng? n Những bước tiến phần cứng giúp tăng quy mụ tớnh toỏn (GPU, CUDA) ă Cú th hun luyện mạng neural với nhiều layers n n Lượng liệu (đặc biệt liệu có gán nhãn) benchmark data tăng lên đáng kể Những tin b v thut toỏn ă Thut toỏn lan truyn ngc (Backpropagation) ă Cỏc hm activation tt hn nh ReLU ¨ Các thuật toán tối ưu RMSProp, Adam ¨ Những thành công Deep Learning 10 n n n n n 2016: Đạt độ xác ngang với người nhận dạng đối tượng ảnh (trên tập ImageNet) 2016: AlphaGo Google DeepMind vượt qua người môn cờ vây 2017: Hệ nhận dạng tiếng nói Microsoft phát triển đạt độ xác ngang với người 2018: Hệ dịch máy Trung - Anh Microsoft phát triển đạt độ chất lượng ngang với người dịch tin tức 2018: Mô hình BERT (Google) vượt qua người tốn đọc hiểu tập SQuAD 1.1 Nội dung 27 “Deep Learning” gì? n Vì Deep Learning thành công? n Kiến thức Deep Learning n Ứng dụng mạng neural xử lý ngôn ngữ t nhiờn ti al+ inc n ă Trớch xut thc th cú tờn gi ă Trớch xut thuc tớnh ngi dựng hi thoi ă Sinh cõu tr li bng mơ hình seq2seq Một số ứng dụng al+ inc 28 n n n n Công ty: al+ inc Trang Web: https://alt.ai/en Các ứng dụng hướng tới việc phát triển hệ thống giao tiếp tự động Các ứng dụng đã/đang trin khai ă Trớch xut thc th cú tờn gi (FG-NER: Fine-grained named entity recognition) ă Trớch xut thuc tớnh ngi dựng hi thoi ă Mụ hỡnh seq2seq cho sinh câu trả lời Nhận dạng thực thể có tên gọi* 29 n Trích xuất thực thể có tên riêng thông thường Donald Trump is the 45th president of the United States Location Person n Trích xuất thực thể tên riêng mức chi tiết (FG-NER: Fine-grained Named Entity Recognition) Donald Trump is the 45th president of the United States Person * Ordinal_Number Position_Vocation Country Mai, K., Pham, T H., Nguyen, M T., Duc, N T., Bollegala, D., Sasano, R., & Sekine, S (2018) An empirical study on fine-grained named entity recognition In Proceedings of the 27th International Conference on Computational Linguistics (pp 711-722) Trích xuất thực thể tên gọi mức chi tiết 30 n n n n Tăng số loại thực thể lên từ loại đến 200 loại Sử dụng cấu trúc phân cấp cho loại thực thể Bao gồm cấp Mức top: 16 loại, mức lá: 200 loại Person Internation al Org Organization Location Facility Ethnic Group Government Product Sports Org Political Party Corporation Cabinet Timex Political Org Military Countx Countx Other Org Other Political Org FGNER Demo 31 n Thử nghiệm hệ thống FG-NER: https://fgner.alt.ai/extractor/ Thuật tốn mơ hình FG-NER 32 al+ FG-NER Rule + Dictionary based Hierarchical CRF-SVM Machine Learning based LSTM+CNN+CRF LSTM+CNN+CRF+Dict Mơ hình LSTM+CNN+CRF 33 Ma and Hovy, 2016) Bổ sung đặc trưng từ điển 34 Cải tiến mơ hình Ma Hovy cách bổ sung category embeddings • Category từ lấy từ điển B-Person B-City … Each dimension is associated with a B-I-O label I-God 0 … … … 0 0 0.1 0.5 0.01 0.02 0.2 0.15 0.02 0.80 in City Each dimension is associated with probability of category given the word 0.07 Tokyo … lives 0.02 Person … He 0.12 … 0.3 … … Category embedding 0 … One-hot Representation by category 0 ! "#$% &'(%' = God *'+,$(&'(%', "#$%) *'+,$(&'(%') Bỏ CNN layer mơ hình cho tiếng Nhật 35 B-Person B-City … Each dimension is associated with a B-I-O label I-God 0 … … … 0 0 0.1 0.5 0.01 0.02 0.2 0.15 0.02 0.80 He lives 0.02 0.07 in Tokyo Person City … 0.12 … 0.3 … … … Category embedding 0 … One-hot Representation by category 0 God Each dimension is associated with probability of category given the token Kết thực nghiệm 36 Method English Japanese LSTM+CNN+CRF (Ma and Hovy, 2016) 80.93 66.76 LSTM+CNN+CRF+Dict 83.14 70.34 LSTM+CRF+Dict 81.89 73.05 - 75.18 82.29 - LSTM+CRF+Dict+Cate LSTM+CNN+CRF+Dict+Cate Trích xuất thông tin người dùng hội thoại 37 PAI (Personal AI): (What is your name?) Human A:
(My name is Minh I am working at Alt Vietnam.) User Attribute Extraction {SpeakerID=ID1, S= (I), Attribute= (Name), O=Minh} {SpeakerID=ID1, S= (I), Attribute= (Company), O= (Alt Vietnam)} Mơ hình mạng neural cho trích xuất thuộc tính 38 Mơ hình seq2seq cho sinh hội thoại 39 n n Ý tưởng: tận dụng liệu hội thoại (lịch sử hội thoại) để học mơ hình tự động sinh câu trả lời Xuất phát từ ý tưởng lĩnh vực dch mỏy ă Sinh cõu tr li ging nh nh q trình dịch từ câu nguồn sang câu đích ... “Deep Learning” gì? n Vì Deep Learning thành công? n Kiến thức Deep Learning n Ứng dụng mạng neural xử lý ngôn ngữ tự nhiên al+ inc n ¨ Trích xuất thực thể có tên gọi ¨ Trích xut thuc tớnh ngi dựng... nhận thức (perceptual) xử lý ảnh, xử lý tiếng nói NLP Nội dung 27 “Deep Learning” gì? n Vì Deep Learning thành công? n Kiến thức Deep Learning n Ứng dụng mạng neural xử lý ngụn ng t nhiờn ti al+... n n “Deep Learning” gì? Vì Deep Learning thành công? Kiến thức Deep Learning Ứng dụng mạng neural xử lý ngôn ngữ tự nhiên ti al+ inc ă Trớch xut thc th cú tờn gi ă Trớch xut thuc tớnh ngi dựng