Nhận dạng thực thể tên cho ngôn ngữ nói tiếng việt và ứng dụng trong tương tác với điện thoại thông minh

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC CÔNG NGHỆ TRẦN PHƢƠNG NAM NHẬN DẠNG THỰC THỂ TÊN CHO NGƠN NGỮ NĨI TIẾNG VIỆT VÀ ỨNG DỤNG TRONG TƢƠNG TÁC VỚI ĐIỆN THOẠI THÔNG MINH LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN HÀ NỘI – 2015 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC CÔNG NGHỆ TRẦN PHƢƠNG NAM NHẬN DẠNG THỰC THỂ TÊN CHO NGÔN NGỮ NÓI TIẾNG VIỆT VÀ ỨNG DỤNG TRONG TƢƠNG TÁC VỚI ĐIỆN THOẠI THƠNG MINH Ngành: Cơng nghệ thơng tin Chun ngành: Hệ thống thông tin Mã số: 60 48 01 04 LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN NGƢỜI HƢỚNG DẪN KHOA HỌC: TS PHAN XUÂN HIẾU HÀ NỘI - 2015 i Lời cam đoan Tôi xin cam đoan báo cáo luận văn viết hướng dẫn cán hướng dẫn khoa học, thầy giáo, TS Phan Xuân Hiếu Tất kết đạt luận văn trình tìm hiểu, nghiên cứu riêng tơi Trong tồn nội dung luận văn, điều trình bày cá nhân tổng hợp từ nhiều nguồn tài liệu khác Các tài liệu tham khảo có xuất xứ rõ ràng trích dẫn hợp pháp Tơi xin hồn tồn chịu trách nhiệm chịu hình thức kỷ luật theo quy định cho lời cam đoan Hà Nội, ngày …… tháng … năm 2015 Người cam đoan Trần Phương Nam ii Mục lục Lời cam đoan i Mục lục ii Bảng từ viết tắt v Danh sách bảng biểu .vi Danh sách hình vẽ vii Lời cảm ơn viii MỞ ĐẦU Chương Nhận dạng tiếng nói nhận dạng thực thể tên cho ngơn ngữ nói .4 1.1 Sự phát triển ứng dụng công nghệ nhận dạng tiếng nói 1.2 Nhận dạng thực thể tên 1.2.1 Tại cần nhận dạng thực thể tên? 1.2.2 Định nghĩa thực thể tên nhận dạng thực thể tên .5 1.3 Bài tốn nhận dạng thực thể tên cho ngơn ngữ nói tiếng Việt khó khăn thách thức 1.3.1 Bài toán nhận dạng thực thể tên cho ngơn ngữ nói tiếng Việt 1.3.2 Những khó khăn thách thức đặc thù toán liệu 1.4 Ứng dụng nhận dạng thực thể tên 11 1.5 Ý nghĩa tốn nhận dạng thực thể tên cho ngơn ngữ nói tiếng Việt ứng dụng tương tác với điện thoại thông minh .12 Chương Các cách tiếp cận phương pháp nhận dạng thực thể tên 14 2.1 Các hướng tiếp cận kỹ thuật áp dụng nhận dạng thực thể tên 14 2.2 Cơ sở lý thuyết phương pháp học máy Maximum Entropy .16 2.3 Cơ sở lý thuyết mơ hình Conditional Random Fields 18 2.4 Các phương pháp đánh giá nhận hệ thống dạng thực thể tên .19 2.4.1 Độ xác, độ hồi tưởng, độ đo F 20 2.4.2 Giá trị trung bình Macro, Micro độ đo F 20 2.4.3 Kiểm tra đánh giá chéo k – tập (k-fold cross-validation) .21 2.5 Các phương pháp lặp tối ưu số ước lượng tham số mơ hình 21 iii 2.5.1 Thuật toán Generalized Iterative Scaling (GIS) 21 2.5.2 Thuật toán Improved Iterative Scaling (IIS) 22 2.5.3 Các kỹ thuật tối ưu số 22 2.6 Một số nghiên cứu liên quan với toán nhận dạng thực thể tên cho ngơn ngữ nói tiếng Việt .23 2.6.1 Các nghiên cứu liên quan 23 2.6.2 Tìm hiểu Google Now – phần mềm có xử lý cho ngơn ngữ nói tiếng Việt điện thoại thông minh 24 Chương Nhận dạng thực thể tên cho ngơn ngữ nói tiếng Việt sử dụng phương pháp học máy 26 3.1 Hệ thống trợ lý ảo cho người Việt điện thoại thông minh 26 3.2 Nhận dạng thực thể tên cho ngơn ngữ nói tiếng Việt 30 3.2.1 Mơ hình hóa tốn nhận dạng thực thể tên ngơn ngữ nói tiếng Việt ứng dụng tương tác với điện thoại thông minh 30 3.2.2 Xây dựng tập liệu huấn luyện 32 3.3 Xây dựng mơ hình dựa phương pháp tiếp cận học máy .37 3.3.1 Xây dựng mơ hình cực đại hóa Entropy 38 3.3.2 Lựa chọn thuộc tính .39 3.4 Huấn luyện mơ hình 45 3.4.1 Q trình huấn luyện mơ hình nhận dạng thực thể tên .45 3.4.2 Các tham số huấn luyện sử dụng mơ hình MaxEnt 46 3.4.3 Các tham số huấn luyện sử dụng mơ hình CRFs 46 Chương Thực nghiệm đánh giá mơ hình nhận dạng thực thể tên cho ngơn ngữ nói tiếng Việt .47 4.1 Dữ liệu thực nghiệm cài đặt 47 4.2 Kết thực nghiệm phân tích 48 4.2.1 Kết thực nghiệm sử dụng MaxEnt 48 4.2.2 Kết thực nghiệm sử dụng CRFs 51 4.3 Hệ điều hành Android thiết bị thông minh 53 4.4 Kết ứng dụng mơ hình nhận dạng thực thể tên cho ngơn ngữ nói tiếng Việt điện thoại thơng minh chạy hệ điều hành Android 53 iv Chương Kết luận 58 5.1 Những vấn đề giải luận văn 58 5.2 Công việc nghiên cứu tương lai 59 Danh mục cơng trình khoa học tác giả liên quan đến luận văn 61 Tài liệu tham khảo 62 v Bảng từ viết tắt Từ cụm từ Điện thoại thông minh Thiết bị thông minh Phần mềm trợ lý ảo cho người Việt Cực đại hóa Entropy Trường điều kiện ngẫu nhiên Từ viết tắt ĐTTM TBTM VAV MaxEnt CRFs Từ tiếng Anh Smartphones Smart device Virtual Assistant for Vietnamese Maximum Entropy Conditional Random Fields vi Danh sách bảng biểu Bảng 3.1: Một số mẫu câu lệnh ngôn ngữ nói mà ứng dụng phần mềm trợ lý ảo cho người Việt (VAV) xử lý 27 Bảng 3.2: Các loại thực thể tên áp dụng phạm vi tương tác với điện thoại thông minh .30 Bảng 3.3: Một số mẫu câu lệnh ngơn ngữ nói tự nhiên với gán nhãn thực thể tên .31 Bảng 3.4: Ví dụ gán nhãn cho câu theo định dạng IOB2 39 Bảng 3.5: Các mẫu ngữ cảnh từ vựng theo N-Grams 39 Bảng 3.6: Ví dụ mẫu ngữ cảnh sinh sử dụng N-Grams 40 Bảng 3.7: Các mẫu ngữ cảnh sử dụng biểu thức quy 40 Bảng 3.8: Các mẫu ngữ cảnh sử dụng từ điển .41 Bảng 3.9: Ví dụ mẫu ngữ cảnh tìm kiếm từ điển cho tên đường phố .42 Bảng 3.10: Ví dụ mẫu ngữ cảnh tìm kiếm từ điển cho kiểu ngày 42 Bảng 3.11: Các thuộc tính sử dụng kết hợp biểu thức quy từ điển 43 Bảng 3.12: Ví dụ mẫu ngữ cảnh kết hợp sử dụng biểu thức quy từ điển 43 Bảng 3.13: Danh sách mẫu biểu thức quy 44 Bảng 3.14: Các tham số trình huấn luyện MaxEnt .46 Bảng 3.15: Các tham số trình huấn luyện CRFs 46 Bảng 4.1: Đánh giá theo Chunk fold cho kết tốt MaxEnt .48 Bảng 4.2: Kết đánh giá chéo lần thực nghiệm MaxEnt 48 Bảng 4.3: Đánh giá theo Chunk fold cho kết tốt CRFs 51 Bảng 4.4: Kết đánh giá chéo lần thực nghiệm CRFs .51 vii Danh sách hình vẽ Hình 1.1: Q trình nhận dạng tiếng nói tự động chuyển sang dạng văn ngơn ngữ nói Hình 1.2: Quá trình phân tích để hiểu văn ngơn ngữ nói Hình 1.3: Quá trình nhận dạng thực thể tên sử dụng mơ hình huấn luyện Hình 3.1: Mơ hình tổng thể hệ thống VAV 29 Hình 3.2: Số lớp thực thể thích tồn tập liệu đầu vào 33 Hình 3.3: Dữ liệu cho nhóm tính 35 Hình 3.4: Dữ liệu từ điển cho phục vụ tìm kiếm thực thể tên 37 Hình 3.5: Q trình huấn luyện tạo mơ hình nhận dạng thực thể tên .45 Hình 4.1: Kết trung bình độ xác, độ hồi tưởng, độ đo F1 lần kiểm tra đánh giá chéo kết thực nghiệm dùng MaxEnt .50 Hình 4.2: Kết trung bình độ xác, độ hồi tưởng, độ đo F1 lần kiểm tra đánh giá chéo kết thực nghiệm dùng CRFs 52 Hình 4.3: Tính hỏi ngày âm lịch 54 Hình 4.4: Tính tìm đường từ vị trí A tới vị trí B đồ 54 Hình 4.5: Kết trả sau mơ hình nhận dạng hai địa điểm cần tìm đồ 55 Hình 4.6: Tính thiết lập lịch họp 55 Hình 4.7: Kết thiết lập lịch theo đối số mà người dùng yêu cầu 56 Hình 4.8: Tính đặt chng báo thức .56 Hình 4.9: Kết đặt chuông báo thức 57 viii Lời cảm ơn Đầu tiên, muốn gửi lời cảm ơn sâu sắc đến cán hướng dẫn khoa học, thầy giáo, TS Phan Xuân Hiếu, người đưa đến lĩnh vực nghiên cứu trực tiếp giảng dạy suốt trình tơi học tập, nghiên cứu trường Đại học Công Nghệ - Đại học Quốc Gia Hà Nội Thầy truyền cho nguồn cảm hứng, nhiệt huyết nghiên cứu khoa học tận tình hướng dẫn tôi, cho lời khuyên quý báu Mặc dù thầy bận với công việc giảng dạy nghiên cứu thầy dành cho nhiều thời gian thảo luận ý tưởng nghiên cứu, dẫn cách nghiên cứu, giải đáp thắc mắc động viên vượt qua vấn đề khó khăn hướng tơi tới nhiều vấn đề có giá trị khác khiến tơi muốn tìm hiểu nghiên cứu tương lai Tôi xin bày tỏ lời cảm ơn chân thành tới thầy cô giáo giảng dạy suốt thời gian học trường PGS, TS Hà Quang Thụy, PGS, TS Trịnh Nhật Tiến, PGS, TS Đỗ Trung Tuấn, PGS, TS Nguyễn Ngọc Hóa, TS Bùi Quang Hưng, TS Nguyễn Văn Vinh, TS Nguyễn Thị Hậu, TS Võ Đình Hiếu, TS Trần Trúc Mai thầy cô giáo khác khoa Tôi muốn gửi lời cảm ơn tới thành viên nhóm seminar “Học máy, khai phá liệu xử lý ngôn ngữ tự nhiên” NCS Lương Thái Lê, NCS Ngô Thị Lan, ThS Trương Thị Minh Ngọc, ThS Nguyễn Minh Thưa, ThS Trần Thị Hạnh, CN Nguyễn Thạc Thống, CN Trương Quốc Tuấn, CN Vương Thị Hải Yến, CN Nguyễn Văn Hợp, CN Dương Quang Vũ, CN Phí Thị Thu, vv Họ người bạn sát cánh bên tơi lĩnh vực nghiên cứu này, có góp ý chun mơn học máy xử lý ngơn ngữ tự nhiên có động viên tinh thần với đáng trân trọng Cuối xin gửi lời cảm ơn sâu sắc tới Bố, Mẹ, Vợ, Con tất người thân gia đình, bạn bè tơi Họ ln ủng hộ tơi với tình u lớn khơng ngừng khuyến khích, động viên tơi vượt qua tất khó khăn sống Học viên thực luận văn Trần Phương Nam 50 Hình 4.1: Kết trung bình độ xác, độ hồi tƣởng, độ đo F1 lần kiểm tra đánh giá chéo kết thực nghiệm dùng MaxEnt Kiểu thực thể cname danh sách danh bạ điện thoại có nhiều nhập nhằng khó khăn nhất, người dùng điện thoại có xu hướng lưu danh bạ điện thoại theo nhiều cách khác theo sở thích người Đôi tên danh bạ thường gắn với số thông tin liên quan hệ gia đình, chức danh, tổ chức, cơng ty nơi làm việc tên thân thiện dành cho người gần gũi như: chị thảo, thầy thụy, giáo sư thụy, nam doremon, ea-việt, uet-tuấn…Với kiểu thực thể cname văn ngơn ngữ nói chí cịn nhận dạng khó tên riêng người văn viết thông thường Do với lớp thực thể cname mơ hình nhận kết trung bình độ đo F1 91.49 Trong số kiểu thực thể mà luận văn tập trung nghiên cứu kiểu thực thể location kiểu thực thể khó nhận dạng nhất, địa nơi chốn địa cụ thể mà người dùng đưa ra, hay số yêu cầu đường từ địa điểm A tới điểm B như: từ cầu, ngã tư, ngõ, phố, đường, tòa nhà, trường đại học hay khu mua sắm đến nơi thành phố hay quốc gia Một vài địa dài như: ngã tư nguyễn trãi khuất tiến hay ngã tư phạm hùng big c, ngắn từ như: vinh, trôi, nhổn, phùng, chèm, kẻ địa danh hay nhắc tới Hà Nội Do vậy, với liệu location khơng thể dùng riêng biểu thức quy để bắt hết tên địa mà cần phải dùng kết hợp nhiều thuộc tính đặc biệt phải kể đến từ điển Đó lý kiểu thực thể location nhận 51 kết trung bình độ đo F1 92.45, nhiên với mơ hình làm hầu hết địa mà người sử dụng hỏi như: tỉnh, thành phố Việt Nam hầu hết mơ hình nhận Điều kiểm chứng ứng dụng áp dụng mơ hình tơi để triển khai thực tế ứng dụng phần mềm VAV điện thoại thông minh sử dụng hệ điều hành Android 4.2.2 Kết thực nghiệm sử dụng CRFs Như đề cập mục 3.3 chương 3, sử dụng thêm phương pháp để đánh giá kết huấn luyện mơ hình nhận dạng thực thể tên cho ngơn ngữ nói tiếng Việt Tương tự việc sử dụng phương pháp MaxEnt, với tập liệu huấn luyện sử dụng CRFs chia thành folds để kiểm tra đánh giá chéo Tập liệu dùng để huấn luyện mơ hình sử dụng CRFs sử dụng tập liệu huấn luyện sử dụng MaxEnt gồm 4409 câu văn nói có nội dung tương tác người dùng ĐTTM Để thực nghiệm CRFs giữ nguyên tập liệu chiến lược trích chọn thuộc tính mà MaxEnt sử dụng Việc trích chọn thuộc tính sử dụng tập từ điển biểu thức quy MaxEnt Dưới tơi trình bày kết việc đánh giá CRFs chi tiết sau: Bảng 4.3: Đánh giá theo Chunk fold cho kết tốt CRFs Kiểu thực thể tên aname datetime cname cnumber location url email number Averagemacro Averagemicro Human Model Match 343 177 107 62 320 66 28 70 348 180 100 61 315 78 28 70 334 171 94 61 299 62 28 70 1173 1180 1119 Precision 95.98 95.00 94.00 100.00 94.92 79.49 100.00 100.00 94.92 94.83 Recall 97.38 96.61 84.85 98.39 93.44 93.94 100.00 100.00 95.95 95.40 F1-score 96.67 95.80 90.82 99.19 94.17 86.11 100.00 100.00 95.43 95.11 Bảng 4.4: Kết đánh giá chéo lần thực nghiệm CRFs Folds Fold Fold Fold Fold Average Human 1178 1173 1191 1179 Model 1193 1180 1211 1192 Match 1108 1119 1136 1095 Pre.micro Rec.micro 92.88 94.06 94.83 95.40 93.81 95.38 91.86 92.88 93.35 94.43 F1-scoremicro 93.46 95.11 94.59 92.37 93.88 52 Ở bảng 4.3 biểu diễn kết tệp tin cho kết tốt (fold2) Trong cột Human thể nội dung số lượng thực thể tên mà thích thực tế tập liệu thử nghiệm Cột Model số lượng thực thể tên dự đốn mơ hình CRFs Cột Match số lượng thực thể tên nhận mơ hình CRFs Ba cột cịn lại thể độ xác, độ hồi tưởng giá trị độ đo F1 dựa giá trị cột Human, Model Match Với lần thực nghiệm đánh giá chéo tơi nhận lần thực nghiệm tốt có kết trung bình độ đo F1 95.43, giá trị trung bình độ đo F1 cho tổng kiểu thực thể tên 95.11 Trong bảng 4.4 biểu diễn kế trung bình cho lần kiểm tra đánh giá thực nghiệm chéo (4 folds cross validation) Kết lần thấp cao độ đo trung bình F1 92.37 95.11 Hình 4.2: Kết trung bình độ xác, độ hồi tƣởng, độ đo F1 lần kiểm tra đánh giá chéo kết thực nghiệm dùng CRFs Theo biểu đồ hình 4.2 ta dễ nhận thấy kết thực nghiệm CRFs có phần giống kết thực nghiệm MaxEnt kiểu thực thể: number, cnumber, email đạt kết cao 99.35 99.64, 99.29 Tiếp đến hai kết cao thứ hai aname có kết 95.10 Kết kiểu thực thể location cao so với kiểu thực thể location lần thực nghiệm MaxEnt liệu thử nghiệm cho CRFs có chế suy luận tính phụ thuộc liệu tốt Với kiểu thực datetime cname CRFs 92.39, 91.06 thấp so với kết MaxEnt 93.73 91.49 Đây phần liệu làm nhiều so với tập liệu sử dụng MaxEnt huấn luyện mơ hình Trong lần thực nghiệm CRFs kiểu thực thể url CRFs lại thấp nhiều so với kết thực nghiệm MaxEnt, đạt 82.16 so với 92.82 53 4.3 Hệ điều hành Android thiết bị thông minh Android tên hệ điều hành dành cho điện thoại di động dựa nhân Linux phát triển Google Với giao diện người dùng thao tác trực tiếp qua hình, Android thiết kế chủ yếu cho thiết bị di động cảm ứng ĐTTM (Smartphones), máy tính bảng (Tablet computers), hay giao diện người dùng chuyên biệt cho ti vi (Android TV) đồng hồ đeo tay (Android Wear) Tính đến năm 2015 hệ điều hành Android có lượng lớn cài đặt so với tất hệ điều hành khác Android sử dụng đầu vào cảm ứng tương ứng với hành động thực tế như: vuốt, kéo lên xuống lên đối tượng hình hay bàn phím ảo Mặc dù chủ yếu thiết kế chủ yếu cho hình cảm ứng với phát triển phần mềm xử lý ngôn ngữ tự nhiên ngày Android hệ điều hành khác khai thác tốt ứng dụng dựa hệ điều hành Do thực nghiệm luận văn chọn Android cách kiểm chứng kết mà đạt 4.4 Kết ứng dụng mô hình nhận dạng thực thể tên cho ngơn ngữ nói tiếng Việt điện thoại thông minh chạy hệ điều hành Android Như trình bày chương mơ hình nhận dạng thực thể tên tơi tích hợp vào phần mềm trợ lý ảo cho người Việt có tên VAV (Virtual Assistant for Vietnamese on Mobile) di động VAV sản phẩm trợ lý ảo (hiện có hệ điều hành Android) cho phép người dùng tương tác với di động họ giọng nói (tiếng Việt) để thực nhiều tác vụ tra đồ, tìm đường đi, duyệt web, mở nhạc, tìm kiếm, gọi điện, đặt lịch hẹn, đặt báo thức, hỏi thông tin giá vàng, hỏi ngày âm lịch v.v Tất câu lệnh dạng ngôn ngữ tự nhiên nên VAV tạo cảm giác người dùng có trợ lý thơng minh bên cạnh Dưới tơi trình bày số kết mà mơ hình nhận dạng thực thể tên tơi sử dụng phương pháp MaxEnt thực thành công VAV19 Tơi định sử dụng mơ hình huấn luyện MaxEnt hệ thống VAV MaxEnt không cồng kềnh nhẹ so với phương pháp CRFs Hơn mơ hình cần lưu trữ ĐTTM mà không cần đến máy chủ để tăng thời gian xử lý yêu cầu nhanh 19 https://play.google.com/store/apps/details?id=com.mdnteam.vav 54 Hình 4.3: Tính hỏi ngày âm lịch Hình 4.4: Tính tìm đƣờng từ vị trí A tới vị trí B đồ 55 Hình 4.5: Kết trả sau mơ hình nhận dạng đƣợc hai địa điểm cần tìm đồ Hình 4.6: Tính thiết lập lịch họp 56 Hình 4.7: Kết thiết lập lịch theo đối số mà ngƣời dùng u cầu Hình 4.8: Tính đặt chng báo thức 57 Hình 4.9: Kết đặt chng báo thức 58 Chƣơng Kết luận 5.1 Những vấn đề giải đƣợc luận văn Với cách tiếp cận dựa đề xuất có lĩnh vực nghiên cứu nhận dạng thực thể tên, luận văn tổng hợp nét lý thuyết nhận dạng thự thể tên khai phá vài khía cạnh nhận dạng thực thể tên nói chung cho nhận dạng thực thể tên cho ngơn ngữ nói tiếng Việt nói riêng Có thể coi luận văn toán giải vấn đề hiểu ngơn ngữ nói tiếng Việt Đây tiền đề cho nghiên cứu sau lĩnh vực ngôn ngữ nói Sau điểm mà luận văn tập trung giải Trong chương một, luận văn trình bày phát triển vượt trội cơng nghệ nhận dạng tiếng nói tổng quan tốn nhận dạng thực thể tên, mục đích, nguyên nhân thúc đẩy nhà tin học trọng vào nghiên cứu lĩnh vực Phần trình bày tốn nhận dạng thực thể tên cho ngơn ngữ nói tiếng Việt ứng dụng tương tác với điện thoại thơng minh Nêu lên khó khăn thách thức liệu toán động lực nghiên cứu cho tốn nhận dạng thực thể tên cho ngơn ngữ nói Từ làm rõ ý nghĩa tốn việc tương tác với ngơn ngữ nói tiếng Việt Bên cạnh nhấn mạnh ứng dụng mà toán nhận dạng thực thể tên đem lại để ứng dụng vào sống thực tế Ngoài chương đưa mơ hình trình bày cụ thể mục tiêu nhiệm vụ toán nhận dạng thực thể cần phải xử lý cho ngôn ngữ nói tiếng Việt giúp cho người đọc có nhìn trực quan vấn đề nghiên cứu luận văn Chương hai trình bày sơ lược kỹ thuật chính, hướng tiếp cận áp dụng để giải toán nhận dạng thực thể tên Khái quát số kiến thức sở lý thuyết học máy Mục tiêu chương cung cấp cho người đọc số nghiên cứu có liên quan tới vấn đề nghiên cứu luận văn, cụ thể với nghiên cứu phần mềm Google Now, sản phẩm Google triển khai thiết bị thông minh cho phép người sử dụng tương tác với thiết bị thông minh thông qua ngôn ngữ nói tự nhiên người, đặc biệt áp dụng cho ngôn ngữ tiếng Việt Chương ba luận văn trình bày chi tiết hệ thống tổng thể ứng dụng trợ lý ảo cho người Việt điện thoại thơng minh, rõ việc tích hợp ứng dụng mơ hình học máy nhận dạng thực thể tên mà xây dựng cho phần mềm VAV Chương trình bày chi tiết bước trình huấn luyện xây dựng mơ hình nhận dạng thực thể tên sử dụng mơ hình MaxEnt Từ việc tạo liệu mẫu, gán nhãn, thích cho liệu việc thiết kế liệu cho từ điển biểu thức quy Đặc biệt nhấn mạnh chiến lược trích chọn đặc trưng đưa vào huấn luyện vượt qua khó khăn thách thức liệu để tạo mơ hình có hiệu tốt Những khó khăn thách thức đặc thù liệu toán xuất phát 59 từ chất ngơn ngữ nói thành phần nhận dạng tiếng nói tự động (ASR) trình bày cụ thể phần đầu luận văn điểm khác biệt so với việc nhận dạng thực thể tên văn viết thơng thường, tơi cố gắng trình bày chi tiết cụ thể việc sử dụng thuộc tính khác như: n-grams, biểu thức quy, từ điển hay kết hợp biểu thức quy từ điển với để tạo thuộc tính phong phú cho có giá trị phân biệt cao giúp việc huấn luyện mơ hình tốt Hơn chương lý giải tơi lại định chọn mơ hình học máy MaxEnt để xây dựng mơ hình mơ hình đồ thị phức tạp khác CRFs để ứng dụng điện thoại thông minh Tuy nhiên để đánh giá khách quan kết mô hình huấn luyện MaxEnt chương tơi trình bày việc sử dụng CRFs để đánh giá kết thực nghiệm nhận dạng thực thể tên cho văn ngơn ngữ nói có nội dung tương tác người dùng ĐTTM Chương bốn luận văn trình bày kết thực nghiệm qua nhiều lần kiểm tra đánh giá chéo Kết thực nghiệm cho thấy với tập liệu thông tin hữu hạn tơi xây dựng mơ hình sử dụng phương pháp MaxEnt có kết trung bình độ đo F1 qua lần đánh giá 94.63 Bên cạnh trình bày kết thực nghiệm phương pháp CRFs với lần kiểm tra đánh giá chéo thu kết độ đo F1 93.88 Chương đưa phân tích chi tiết cụ thể kết thông qua bảng biểu, đồ thị để người đọc hiểu với loại thực thể lại có kết khác Kết thực nghiệm với việc xử lý liệu văn ngơn ngữ nói mà khơng sử dụng tách từ thông tin dấu câu, chữ hoa, ranh giới từ thông tin từ loại ngữ pháp (part-of-speech) Bởi trình cần lượng thời gian lớn tốn nhiều q tiến trình để xử lý điều khơng thích hợp với mục tiêu đề mơ hình cần phải nhỏ gọn, thích ứng chạy ĐTTM người dùng Phần cuối chương trình bày sơ lược hệ điều hành Android thiết bị kết việc ứng dụng mơ hình nhận dạng thực thể tên cho ngơn ngữ nói tiếng Việt có nội dung tương tá người dùng ĐTTM chạy hệ điều hành Android Trong trình thực luận văn tơi cố gắng tập trung nghiên cứu toán nhận dạng thực thể tên cho ngơn ngữ nói tiếng Việt tham khảo nhiều tài liệu liên quan gồm tài liệu xử lý cho ngơn ngữ nói văn viết thơng thường Tuy nhiên thời gian trình độ có hạn nên khơng tránh khỏi hạn chế thiếu sót định Do tơi thật mong muốn nhận góp ý kiến thức chun mơn lẫn cách trình bày 5.2 Cơng việc nghiên cứu tƣơng lai Nhận dạng thực thể tên cho ngơn ngữ nói nhiều nhà nghiên cứu giới quan tâm ứng dụng rộng rãi lĩnh vực Trong luận văn tôi, chọn hướng nhỏ để nghiên cứu 60 Trong tương lai, muốn mở rộng nghiên cứu cải thiện số vấn đề cịn tồn để cải thiện kết cho mơ hình nhận dạng thực thể tên sau: - Cải tiến mơ hình nhận dạng thực thể giải nhập nhằng trường hợp người dùng yêu cầu mở ứng dụng mở trình duyệt web cho địa website - Cải thiện kết cho mơ hình đốn nhận thực thể vị trí, lớp thực thể có kết mức chấp nhận khó khăn tơi nêu luận văn - Xử lý tốt cho thực thể liệu ngày dạng số - Mở rộng lớp thực thể thêm lớp thực thể với tên tcontent (text content) để chứa từ cụm từ có nội dung cần thiết 61 Danh mục cơng trình khoa học tác giả liên quan đến luận văn - Bài báo khoa học: Nhận dạng thực thể tên cho ngơn ngữ nói tiếng Việt ứng trọng tương tác với điện thoại thông minh Bài báo gửi tới hội nghị Các hệ thống sở liệu thông tin thông minh Châu Á lần thứ (ACIIDS 2016) chấp nhận vào ngày 16 tháng 11 năm 2015 62 Tài liệu tham khảo Tài liệu tiếng Việt: PGS TS Nguyễn Hà Nam, PGS TS Nguyễn Trí Thành, PGS TS Hà Quang Thụy (2013), Giáo trình khai phá liệu, Nhà xuất Đại học Quốc Gia Hà Nội tr 249-286 Tài liệu tiếng Anh: Angelov, K., Bringert, B., Ranta, A (2014), “Speech–enabled hybrid multilingual translation for mobile devices”, In EACL Berger, A., Pietra, S.A.D., Pietra, V.J.D (1996), A maximum entropy approach to natural language processing, Computational Linguistics, 22(1), 39–71 Borthwick, A (1999), A maximum entropy approach to named entity recognition PhD dissertation, Dept of CS, New York University Chieu, H.L., Ng, H.T (2003), “Named entity recognition with a maximum entropy approach”, In The 7th CoNLL, pp.160–163 Chinchor, N., Marsh, E (1998), MUC–7 information extraction task definition (version 5.1), In The 7th Message Understanding Conference (MUC) Florian, R., Ittycheriah, A., Jing, H., Zhang, T (2003), “Named entity recognition through classifier combination”, In CoNLL, pp.168–171 Graves, A., Jaitly, N (2014), “Towards end–to–end speech recognition with recurrent neural networks”, In ICML Grishman, R., Sundheim, B (1995), Message understanding conference 6: a brief history, In The 6th Message Understanding Conference (MUC–6) 10 Hatmi, M., Jacquin, C., Morin, E., Meignier, S (2013), “Named entity recognition in speech transcripts following an extended taxonomy”, In The First Workshop on Speech, Language, and Audio in Multimedia (SLAM) 11 Hannun, A., Case, C., Casper, J., Catanzaro, B., Diamos, G., Elsen, E., Prenger, R., Satheesh, S., Sengupta, S., Coates, A., Ng, A.Y (2014), Deep Speech: scaling up end– to–end speech recognition, In arXiv:1412.5567v2, arxiv.org/abs/1412.5567v2 12 Hinton, G., Deng, L., Yu, D., Dahl, G., Mohamed, A., Jaitly, N., Senior, A., Vanhoucke, V., Nguyen, P., Sainath, T., Kingsbury, B (2012), “Deep neural networks for acoustic modeling in speech recognition”, IEEE Signal Process, Mag, 29, pp.82–97 63 13 Lafferty, J.D., McCallum, A., Pereira, F (2001), Conditional random fields: probabilistic models for segmenting and labeling sequence data, In ICML, pp.282– 289 14 Liu, D., Nocedal, J (1989), On the limited memory BFGS method for large–scale optimization, Mathematical Programming, 45, pp.503–528 15 Molla, D., Zaanen, M., Cassidy, S (2007), “Named entity recognition in question answering of speech data”, In The Australasian Language Technology Workshop 16 Nguyen, C.T., Tran, T.O., Phan, X.H., Thuy, H.Q (2007), “Named entity recognition in Vietnamese free–text and web documents using CRFs”, In The Workshop on Asian Applied Natural Language Processing and Language Resource Development 17 Nigam, K., Lafferty, J., McCallum, A (1999), “Using maximum entropy for text classification”, In IJCAI Workshop on Machine Learning, for Info Filtering, pp.61–67 18 Pan, Y.C., Liu, Y.Y., Lee, L.S (2005), “Named entity recognition from spoken documents using global evidences and external knowledge sources with applications on Mandarin Chinese”, In IEEE Auto Speech Recognition & Understanding 19 Popkin, J (2013), Google, Apple Siri and IBM Watson: the future of natural– language question answering in your enterprise Gartner Technical Professional Advice 20 Ratnaparkhi, A (1996), “A maximum entropy model for part–of–speech tagging”, In The Empirical Methods in Natural Language Processing Conference 21 Tur, G., Mori, R.D (2011), Spoken language understanding: systems for extracting semantic information from speech, Wiley 22 Andrew McCallum, Maximum Entropy Markov Models for Extraction Information and Segmentation 23 William W.Cohen, Adrew McCallum (2003), Slides “Information Extraction from the World Wide Web”, KDD 24 A.McCallum, D.Freitag, and F Pereira (2000), Maximum entropy markov models for information extraction and segmentation, In Proc Iternational Conference on Mechine Learning, pp 591-598 25 Grishman, R., Morgan Kaufmann (1995), The NYU system for MUC-6 or where's the syntax? In Proceedings of the Sixth Message Understanding Conference 26 Lawrence R Rabiner (1989), A tutorial on hidden markov models and selected applications in speech recognition, In Proc the IEEE, 77(2):257-286 64 27 Darroch, J., and Ratcliff, D (1972), Generalized iterative scaling for log-linear models, The Annals of Mathematical Statistics 43, 1470-1480 ... tên đối số 3.2 Nhận dạng thực thể tên cho ngơn ngữ nói tiếng Việt 3.2.1 Mơ hình hóa tốn nhận dạng thực thể tên ngơn ngữ nói tiếng Việt ứng dụng tƣơng tác với điện thoại thông minh Nhận dạng thực. .. thông minh 26 3.2 Nhận dạng thực thể tên cho ngơn ngữ nói tiếng Việt 30 3.2.1 Mơ hình hóa tốn nhận dạng thực thể tên ngơn ngữ nói tiếng Việt ứng dụng tương tác với điện thoại thông minh. .. tên cho văn ngôn ngữ nói với nhiều khó khăn nói Do luận văn tơi mạnh dạn trình bày tốn nhận dạng thực thể tên cho ngơn ngữ nói tiếng Việt với tên ? ?Nhận dạng thực thể tên cho ngơn ngữ nói tiếng Việt

Định dạng
Số trang	74
Dung lượng	2,12 MB

Nhận dạng thực thể tên cho ngôn ngữ nói tiếng việt và ứng dụng trong tương tác với điện thoại thông minh

Thuật toán Improved Iterative Scaling (IIS)

Xây dựng tập dữ liệu huấn luyện