1. Trang chủ
  2. » Giáo Dục - Đào Tạo

Nhận diện tên riêng tiếng việt bằng phương pháp học sâu

74 23 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 74
Dung lượng 2,83 MB

Nội dung

UBND TỈNH BÌNH DƢƠNG TRƢỜNG ĐẠI HỌC THỦ DẦU MỘT NGUYỄN ANH DŨNG NHẬN DIỆN TÊN RIÊNG TIẾNG VIỆT BẰNG PHƢƠNG PHÁP HỌC SÂU LUẬN VĂN THẠC SĨ CHUYÊN NGÀNH: HỆ THỐNG THÔNG TIN MÃ SỐ: 8480104 NGƢỜI HƢỚNG DẪN KHOA HỌC TS BÙI THANH HÙNG BÌNH DƢƠNG - 2019 LỜI CAM ĐOAN Tôi Nguyễn Anh Dũng, học viên lớp CH16HT, ngành Hệ thống thông tin, trƣờng Đại học Thủ Dầu Một Tôi cam đoan, luận văn với đề tài ―Nhận diện tên riêng tiếng Việt phƣơng pháp học sâu‖ tơi tìm hiểu, nghiên cứu đƣợc hƣớng dẫn tận tình TS Bùi Thanh Hùng, luận văn tơi có tham khảo từ báo, tài liệu, cơng trình nghiên cứu ngƣời khác nhƣng ghi rõ tài liệu tham khảo Tôi xin chịu trách nhiệm lời cam đoan Bình Dương, ngày 01 tháng năm 2019 Ngƣời viết luận văn Nguyễn Anh Dũng ii LỜI CẢM ƠN Trong trình thực luận văn ―Nhận diện tên riêng tiếng Việt phƣơng pháp học sâu‖, tơi đƣợc hƣớng dẫn nhiệt tình TS Bùi Thanh Hùng Thầy dành nhiều thời gian quý báu để hƣớng dẫn chi tiết, nghe báo cáo thử động viên tinh thần lúc khó khăn thực luận văn Tôi chân thành cảm ơn thầy! Tôi bày tỏ lịng biết ơn sâu sắc đến thầy giảng dạy tơi tận tình, truyền đạt kiến thức bổ ích cho tơi suốt thời gian học trƣờng thầy cô trƣờng Đại học Thủ Dầu Một tạo điều kiện tốt để hồn thành luận văn Cuối cùng, tơi gửi lời cảm ơn đến gia đình, đồng nghiệp, anh chị học chung lớp đoàn kết, giúp đỡ, động viên suốt thời gian học vừa qua Một lần nữa, tơi xin trân trọng cảm ơn Bình Dƣơng, ngày tháng năm 2019 Ngƣời viết luận văn iii MỤC LỤC MỤC LỤC IV TÓM TẮT LUẬN VĂN .1 DANH MỤC TỪ VIẾT TẮT DANH MỤC CÁC BẢNG DANH MỤC HÌNH VẼ, ĐỒ THỊ CHƢƠNG I GIỚI THIỆU CHUNG 1.1 LÍ DO THỰC HIỆN ĐỀ TÀI .6 1.2 MỤC TIÊU NGHIÊN CỨU 1.3 ĐỐI TƢỢNG, PHẠM VI NGHIÊN CỨU .7 1.4 PHƢƠNG PHÁP NGHIÊN CỨU 1.5 Ý NGHĨA KHOA HỌC VÀ Ý NGHĨA THỰC TIỄN CỦA ĐỀ TÀI .7 1.5.1 Ý nghĩa khoa học 1.5.2 Ý nghĩa thực tiễn 1.6 BỐ CỤC LUẬN VĂN CHƢƠNG II CƠ SỞ LÝ THUYẾT 11 2.1 XỬ LÝ NGÔN NGỮ TỰ NHIÊN .11 2.1.1 Tách từ (Tokenizer) .12 2.1.2 Xác định loại từ câu (Part-of-Speech tagging - POS tagging) 14 2.1.3 Xác định cụm từ (Chunking) .15 2.1.4 Phân tích cú pháp (Parsing) .17 2.2 CÁC PHƢƠNG PHÁP BIỂU DIỄN TỪ DƢỚI DẠNG VÉC TƠ .18 2.2.1 Biểu diễn túi từ - Bag of words 18 2.2.2 Biểu diễn One-hot-vector .19 2.2.3 Túi từ liên tục - CBOW .21 2.2.4 Skip gram 24 2.3 HỌC SÂU - DEEP LEARNING 27 2.3.1 Mạng nơ ron nhân tạo (ANN) .30 2.3.2 Mạng nơ-ron hồi quy RNN (Recurrent Neural Network) 35 2.3.3 Bộ nhớ dài-ngắn LSTM (Long-short term memory) 37 iv 2.3.4 Mạng nơ ron ngắn dài song song LSTM (Bidirectional Long-short term memory) 42 2.4 NHẬN DIỆN TÊN RIÊNG (NAME ENTITY RECOGNITION – NER) 43 2.4.1 Tổng quan toán Nhận diện tên riêng .43 2.4.2 Hướng tiếp cận nghiên cứu .44 2.4.3 Các nghiên cứu gần .44 2.4.4 Đề xuất hướng nghiên cứu 45 CHƢƠNG III MƠ HÌNH ĐỀ XUẤT 46 3.1 TỔNG QUAN MƠ HÌNH ĐỀ XUẤT 46 3.2 CÁC ĐẶC TRƢNG CỦA MÔ HÌNH ĐỀ XUẤT 47 3.2.1 Từ nhúng – Word embeddings 47 3.2.2 Các đặc trưng cú pháp 48 3.3 NHẬN DIỆN TÊN RIÊNG TIẾNG VIỆT 48 3.3.1 Mô hình học sâu tốn nhận diện tên riêng tiếng Việt 51 3.3.2 Nhận diện tên riêng 53 CHƢƠNG IV THỰC NGHIỆM 55 4.1 KHO DỮ LIỆU VLSP 55 4.2 PHƢƠNG PHÁP ĐÁNH GIÁ MƠ HÌNH .57 4.3.1 Thực nghiệm phương pháp LSTM BiLSTM với đặc trưng từ 59 4.3.2 Thực nghiệm BiLSTM với đặc trưng từ số vòng huấn luyện khác nhau.60 4.3.3 Thực nghiệm phương pháp sử dụng lớp BiLSTM với đặc trưng từ 61 4.3.4 Thực nghiệm phương pháp BiLSTM với đặc trưng từ tỉ lệ Dropout khác 61 4.4 XÂY DỰNG ỨNG DỤNG WEB TRỰC QUAN HÓA KẾT QUẢ 62 CHƢƠNG V KẾT LUẬN VÀ HƢỚNG PHÁT TRIỂN 67 5.1 KẾT QUẢ ĐẠT ĐƢỢC 67 5.2 HƢỚNG PHÁT TRIỂN 67 TÀI LIỆU THAM KHẢO 68 v TÓM TẮT LUẬN VĂN Trong thời đại công nghiệp 4.0 nay, khoa học công nghệ giai đoạn phát triển mạnh mẽ đặc biệt lĩnh vực công nghệ thông tin truyền thông Nhu cầu giao tiếp, thƣơng mại điện tử tìm kiếm thơng tin lớn, số ứng dụng xử lý ngôn ngữ tự nhiên nhƣ tóm tắt văn bản, máy tìm kiếm, dịch máy, trích xuất thông tin trả lời câu hỏi tự động ngày phát triển Những ứng dụng đƣợc phát triển dựa tảng số tác vụ xử lý ngôn ngữ tự nhiên khác nhận diện tên riêng văn tác vụ tảng quan trọng Nhận diện tên riêng văn đƣợc nghiên cứu nhiều ngôn ngữ nhƣ tiếng Anh, tiếng Nhật, tiếng Trung,… nhiều phƣơng pháp khác đạt đƣợc nhiều kết khả quan Các phƣơng pháp học máy trƣớc nhƣ SVM, Cây định, … cho kết phân loại tên riêng tốt Ngày nay, phát triển phần cứng máy tính giải đƣợc số thuật toán phức tạp với tốc độ xử lý nhanh nên hƣớng nghiên cứu sử dụng phƣơng pháp học sâu Deep Learning huấn luyện tập liệu lớn cho kết tốt nhiều so với hệ thống trƣớc không sử dụng phƣơng pháp học sâu Luận văn với đề tài ―Nhận diện tên riêng tiếng Việt phƣơng pháp học sâu‖ dựa nghiên cứu trƣớc để đề xuất nghiên cứu phát triển hệ thống nhận diện tên riêng cho tiếng Việt (ViNER) cách kết hợp đặc trƣng cú pháp tự động với từ nhúng đƣợc huấn luận sẵn làm đầu vào cho Bộ nhớ ngắn dài hai chiều (BiLSTM) Tôi huấn luyện hệ thống tập liệu VLSP 2016 Bộ liệu gồm tập liệu huấn luyện, phê chuẩn kiểm tra Mỗi tập liệu gồm cột: Từ từ ghép, POS, CHUNK TAG Sau huấn luyện đánh giá thực nghiệm hệ thống nhiều khía cạnh khác Độ đo xác (Accuracy), nhận thấy hệ thống kết hợp đặc trƣng cú pháp tự động với từ nhúng đƣợc huấn luận sẵn làm đầu vào cho Bộ nhớ ngắn dài hai chiều (BiLSTM) cho kết cao đạt 92,06% Luận văn đề xuất xây dựng ứng dụng web hỗ trợ nhận diện loại tên riêng tên ngƣời, tên tổ chức, tên địa điểm, tên khác cho đoạn văn đƣợc ngƣời dùng nhập vào DANH MỤC TỪ VIẾT TẮT Từ viết tắt Từ chuẩn Diễn giải NER Named Entity Recognition Nhận diện thực thể đƣợc đặt tên hay nhận diện tên riêng ViNER Vietnamese Named Entity Recognition Nhận diện tên riêng tiếng Việt NLP Natural Languague Processing Xử lý ngôn ngữ tự nhiên RNN Recurrent Neural Network Mạng nơ ron hồi quy LSTM Long short-term memory Mạng nơ ron nhớ ngắn – dài BiLSTM Bidirectional Long shortterm memory Mạng nơ ron nhớ ngắn – dài song song POS Part-of-Speech Từ loại (N, A, R, …) Chunking Tách câu thành cụm từ (Cụm danh từ, cụm động từ, …) CBOW Continuous Bag of Words Túi từ liên tục PER Person Tên riêng ngƣời LOC Location Tên riêng địa điểm ORG Organization Tên riêng tổ chức MISC Miscellaneous Tên riêng khác không thuộc Per, Loc, Org VLSP Vietnamese Language and Speech Processing Xử lí ngơn ngữ tiếng nói Việt Nam CHUNK DANH MỤC CÁC BẢNG Bảng Minh họa ví dụ tách từ 13 Bảng 2 Nhãn cụm từ cho hệ phân cụm từ Việt 16 Bảng Các đặc trƣng đƣợc sinh tự động 48 Bảng Một đặc trƣng véc tơ đầu vào cho mơ hình 52 Bảng Số lƣợng thực thể tập liệu 56 Bảng Thống kê liệu 56 Bảng Thống kê chi tiết liệu VLSP 2016 .58 Bảng 4 Tham số mơ hình huấn luyện 60 Bảng Độ xác hệ thống sử dụng phƣơng pháp học sâu 60 Bảng Kết so sánh lớp 61 Bảng Kết Dropout khác .61 Bảng Kết so sánh đặc trƣng 61 Bảng Các tham số đặc trƣng tối ƣu cho mơ hình huấn luyện_đánh giá hệ thống ViNER .62 DANH MỤC HÌNH VẼ, ĐỒ THỊ Hình Mơ hình xử lý ngơn ngữ tự nhiên 11 Hình 2 Trích xuất (nhận diện) thực thể văn 12 Hình Mơ hình hoạt động phân cụm từ Việt 15 Hình Biểu diễn từ thành ma trận véc tơ 50 chiều .18 Hình Mơ hình Word2vector .21 Hình Mơ hình Continuous Bag of Words 22 Hình Mơ hình CBOW chi tiết 24 Hình Mơ hình Skip gram Word2vec .24 Hình Mơ hình mạng nơ ron lớp ẩn Word2vec 25 Hình 10 Ma trận trọng số lớp ẩn mơ hình Word2vec 26 Hình 11 Lớp ẩn mơ hình hoạt động nhƣ bảng tra cứu 27 Hình 12 Mối tƣơng quan từ ―ants‖ từ ―car‖ 27 Hình 13 Lƣợc sử học sâu Deep Learning Error! Bookmark not defined Hình 14 Một nơ ron sinh học .30 Hình 15 Một perceptron .30 Hình 16 Mơ hình nơ ron .32 Hình 17 Mơ hình mạng nơ ron ANN 33 Hình 18 Q trình xử lý thơng tin mạng RNN 36 Hình 19 RNN phụ thuộc short-term 37 Hình 20 RNN phụ thuộc long-term .37 Hình 21 Các mô-đun lặp mạng RNN chứa layer 38 Hình 22 Các mơ-đun lặp mạng LSTM chứa bốn layer 38 Hình 23 Các kí hiệu sử dụng mạng LSTM 39 Hình 24 Tế bào trạng thái LSTM giống nhƣ băng truyền 40 Hình 25 Cổng trạng thái LSTM 40 Hình 26 LSTM focus f 41 Hình 27 LSTM focus i .41 Hình 28 LSTM focus c 41 Hình 29 Mơ hình Bidirectional LSTM sử dụng mạng nơ-ron LSTM .42 Hình 30 Mạng Bi-LSTM cho NER .43 Hình 31 Trích xuất (nhận diện) thực thể văn 44 Hình Mơ hình đề xuất cho nhận diện tên riêng tiếng Việt 46 Hình Mơ hình xây dựng vector Word embedding 48 Hình 3 Hệ thống nhận diện tên riêng tiếng Việt chi tiết ViNER 51 Hình Mơ hình học sâu lớp BiLSTM cho hệ thống ViNER 53 Hình Chi tiết phần liệu huấn luyện mơ hình ViNER 56 Hình Giao diện trang web 63 Hình Giao diện phân tích liệu .63 Hình 4 Giao diện phân tích kết .64 Hình Các đặc trƣng đƣợc tạo tự động cơng cụ Underthesea .65 Hình So sánh nhãn tên riêng ViNER Underthesea .65 Hình Giao diện Demo thực tế 66 CHƢƠNG IV THỰC NGHIỆM 4.1 Kho liệu VLSP Tôi tiến hành thử nghiệm kho liệu chia sẻ VSLP NER 2016 Bốn loại thực thể đƣợc đặt tên đƣợc đánh giá kho văn bao gồm ngƣời, địa điểm, tổ chức thực thể đƣợc đặt tên khác Các thực thể đƣợc đặt tên đƣợc gắn nhãn ký hiệu IOB nhƣ nhiệm vụ chung CoNLL 2003 Đặc biệt, có nhãn thực thể đƣợc đặt tên kho bao gồm B-PER I-PER cho ngƣời, B-ORG I-ORG cho tổ chức, BLOC I-LOC cho địa điểm, B-MISC I-MISC cho địa điểm khác thực thể đƣợc đặt tên O cho yếu tố khác [13] File liệu huấn luyện chứa văn tách từ đƣợc bổ sung thêm thông tin nhãn từ loại, nhãn phân cụm phần mềm có sẵn đƣợc gán nhãn tên riêng Mỗi từ, nhãn từ loại, nhãn cụm từ nhãn tên riêng đƣợc đặt dòng riêng biệt câu đƣợc phân cách dòng trống Mỗi dòng bao gồm bốn cột, cột đƣợc cách khoảng tab: Cột từ Cột thứ hai từ loại từ Cột thứ nhãn phân cụm cú pháp Cột thứ nhãn thực thể tên riêng Nhãn thực thể đƣợc gán theo cấu trúc BIO nhƣ định dạng liệu phân cụm CoNLL Có nhãn: B-PER I-PER cho tên ngƣời, B-ORG I-ORG cho tên tổ chức, B-LOC I-LOC cho tên địa điểm, B-MISC I-MISC cho tên khác nhãn O dùng cho từ khơng thuộc thực thể Trong đó, B-XXX dùng cho từ thực thể XXX, I-XXX dùng cho từ cụm thực thể XXX Các thơng tin nhãn từ loại nhãn phân cụm đƣợc xác định tự động phần mềm có sẵn nên chứa lỗi Hình 4.1 phần liệu huấn luyện Để huấn luyện cho mơ hình học sâu BiLSTM hệ thống ViNER chia tập liệu VLSP 2016 thành phần nhƣ bảng 4.2, số lƣợng thực thể có tên thích tập huấn luyện kiểm tra đƣợc thể bảng 4.1 55 Loại thực thể Tên ngƣời Tổ chức Địa điểm Tên khác Tất Tập huấn luyện 6247 1213 7480 282 15222 Tập kiểm tra 1378 274 1294 49 2995 Bảng Số lượng thực thể tập liệu Tập liệu Huấn luyện Phê chuẩn Kiểm tra Số câu 14860 1999 2830 Bảng Thống kê liệu Hình Chi tiết phần liệu huấn luyện mơ hình ViNER 56 4.2 Phƣơng pháp đánh giá mơ hình Tơi dùng độ đo F1 score để đánh giá hiệu hệ thống F1 score đƣợc tính theo cơng thức dƣới đây: F1  2* precission * recall precission  recall Trong đó, precision độ xác, recall độ bao phủ đƣợc tính theo cơng thức sau: Trong đó:  NE_ref: Là số thực thể liệu gốc  NE_sys: Là số thực thể đƣợc đƣa hệ thống  NE_true: Là số thực thể đƣợc hệ thống gán nhãn Nói khác hơn, Precision Recall tỷ lệ phần trăm thực thể đƣợc đặt tên xác đƣợc xác định hệ thống tỷ lệ phần trăm thực thể đƣợc xác định có tên tƣơng ứng có kho văn Để tính điểm F1 hệ thống ViNER sử dụng công cụ đánh giá sử dụng cho hệ thống trƣớc Hệ thống ViNER tơi đánh giá thực thể tên riêng (Per, Loc, Org, Misc, 57 O) tất (All) với nhiều khía cạnh khác Chi tiết tơi trình bày phần thực nghiệm sau 4.3 Thực nghiệm đánh giá hiệu suất Tôi tiến hành thực nghiệm đánh giá hiệu suất mơ hình ViNER khía cạnh khác Tôi thực nghiệm tập liệu VLSP 2016, tập liệu đƣợc tiền xử lí trƣớc (Tách từ, gán nhãn từ loại, gán nhãn cụm từ, gán nhãn tên riêng) nên không tiến hành tiền xử lí thêm mà tơi ghép nối từ ghép liệu lại Tôi chia liệu VLSP 2016 thành phần với thống kê chi tiết nhƣ bảng 4.3 (Huấn luyện_train data 14860, Kiểm thử_develop data 1999, Kiểm tra_test data 2830) Tổng số câu Độ dài câu dài Độ dài câu ngắn Độ dài trung bình Tập huấn luyện 14860 118 từ từ 22 từ Tập kiểm thử 1999 100 từ từ 21 từ Tập kiểm tra 2830 132 từ từ 23 từ Bảng Thống kê chi tiết liệu VLSP 2016 Tôi lấy tập huấn luyện kiểm thử đƣa vào để huấn luyện mơ hình hệ thống ViNER Các bƣớc huấn luyện mơ hình tơi nhƣ sau: Bƣớc 1: Đọc file liệu train.txt dev.txt để lấy đặc trƣng từ, nhãn từ loại, nhãn cụm từ nhãn thực thể tên riêng Bƣớc 2: Tiến hành vector hóa đặc trƣng nhãn thực thể tên riêng Bƣớc 2.1: Với đặc trƣng từ, truy cập vào ma trận word embedding để lấy vector tƣơng ứng cho từ, vector từ 300 chiều số thực Word embedding có dung lƣợng khoảng 1GB 11 12 đƣợc train sẵn từ triệu báo điện tử 13 Nếu từ khơng có từ điển tơi lấy ngẫu nhiên giá trị phần tử vector từ khoảng [ √ √ ] Bƣớc 2.2: Với đặc trƣng nhãn từ loại POS, tạo thành onehot vector 21 chiều Từ điển (P, V, Nc, N, A, E, Np, CH, R, M, L, C, Ny, T, FW, Nu, I, X, Z, Vy) Mỗi nhãn từ loại có vector onehot tƣơng ứng 21 11 https://drive.google.com/open?id=0BytHkPDTyLo9WU93NEI1bGhmYmc https://drive.google.com/open?id=0BytHkPDTyLo9SC1mRXpkbWhfUDA 13 https://baomoi.com/ 12 58 chiều (20 chiều giá trị tồn chiều có giá trị tƣơng ứng với vị trí nhãn từ điển Bƣớc 2.3: Với đặc trƣng nhãn cụm từ CHUNK, tạo thành vector onehot chiều Từ điển (BNP, INP, BVP, IVP, BAP, IAP, BPP, IPP, O) Mỗi nhãn từ loại có vector onehot tƣơng ứng chiều (8 chiều giá trị toàn chiều có giá trị tƣơng ứng với vị trí nhãn từ điển Bƣớc 2.4: Bƣớc tổng hợp đặc trƣng thành đặc trƣng (X vector) để đƣa vào mô hình học Vậy đặc trƣng có 300+21+9=330 chiều Bƣớc 2.5: Đối với nhãn thực thể tên riêng (B-PER, I-PER, B-LOC, ILOC, B-ORG, I-ORG, B-MISC, I-MISC, O), tiến hành tạo onehot vector 10 chiều (Y vector) cho nhãn Ví dụ nhãn B-PER vector (1 0 0000000) Bƣớc 3: Sau vector hóa đặc trƣng nhãn tên riêng, đƣa vector vào mơ hình học sâu để học (training) Bƣớc 4: Sau trainning xong, tơi lƣu mơ hình thành file dùng để đánh giá mơ hình tập liệu kiểm tra Bƣớc 5: Đánh giá mơ hình: Tơi dùng tập liệu kiểm tra để đánh giá mô hình Tơi tiến hành đánh giá mơ hình thực thể tất thực thể Tôi thực từ Bƣớc đến Bƣớc 2.4 cho liệu kiểm tra Sau đó, tơi đƣa đặc trƣng vào mơ hình lƣu bƣớc để dự đoán nhãn tên riêng Các nhãn tên riêng đƣợc đánh giá với nhãn tên riêng (Gold) liệu ban đầu Tôi sử dụng độ đo F1 score để đánh giá Sau chi tiết kết thực nghiệm nhiều khía cạnh khác để tìm đƣợc mơ hình tham số tối ƣu cho hệ thống ViNER 4.3.1 Thực nghiệm phƣơng pháp LSTM BiLSTM với đặc trƣng từ Trong lần thực nghiệm này, tiến hành huấn luyện mơ hình phƣơng pháp LSTM BiLSTM, tơi khơng thực nghiệm phƣơng pháp RNN vấn đề không nhớ đƣợc bƣớc xa, mà mơ hình time steps = 132 (do độ dài tối đa câu tập liệu train, dev, test 132 từ) Tham số huấn luyện lần thực nghiệm đƣợc trình bày bảng 4.4 59 Tham số Giá trị Số bƣớc huấn luyện_time steps 132 Số vòng huấn luyện_Epoch 300 Số đơn vị_Batch size 512 Số tầng Số nút ẩn 10 Tỉ lệ Dropout 0.2 Đơn vị đánh giá F1 score Bảng 4 Tham số mơ hình huấn luyện Sau trình huấn luyện đánh giá, kết cho thấy phƣơng pháp học sâu BiLSTM cho kết tốt nhiều LSTM học theo chiều, BiLSTM học theo hai chiều liệu vào, tơi chọn phƣơng pháp BiLSTM cho lần thực nghiệm Kết trình bày bảng 4.5 Entity Pre 83.07 82.07 50.00 72.35 75.90 LOC MISC ORG PER ALL Bi-LTSM Rec 83.10 82.7 52.10 64.20 72.27 F1 83.08 82.03 51.02 68.03 74.04 LSTM Rec 77.38 2.04 34.60 60.73 65.04 Pre 74.60 2.15 32.22 67.95 66.61 F1 75.96 2.09 33.60 64.12 65.80 Bảng Độ xác hệ thống sử dụng phương pháp học sâu 4.3.2 Thực nghiệm BiLSTM với đặc trƣng từ số vòng huấn luyện khác Lần thực nghiệm này, sử dụng phƣơng pháp BiLSTM với đặc trƣng từ nhƣng số vịng huấn luyện (Epoch) mơ hình khác nhau: 100, 200, 300 Kết cho thấy với Epoch 300 cho độ xác tốt Chi tiết bảng 4.6 Entity LOC MISC ORG PER ALL Pre 80.02 83.50 42.00 66.23 72.20 Epoch 100 Rec 77.20 65.80 31.67 60.04 72.32 F1 78.58 73.60 36.11 62.98 72.26 Pre 83.50 84.22 49.85 72.88 75.88 Epoch 200 Rec 82.48 78.34 50.51 65.45 72.24 F1 83.00 81.17 50.07 68.97 74.02 Pre 83.07 82.07 50.00 72.35 75.90 Epoch 300 Rec 83.10 82.7 52.10 64.20 72.27 Bảng Độ xác hệ thống huấn luyện với Epoch khác 60 F1 83.08 82.03 51.02 68.03 74.04 4.3.3 Thực nghiệm phƣơng pháp sử dụng lớp BiLSTM với đặc trƣng từ Lần thực nghiệm này, tiến hành thử nghiệm hệ thống với số lớp BiLSTM khác nhận thấy việc dùng lớp BiLSTM cho kết tốt hình 4.7 Entity Pre 82.22 85.15 44.10 72.70 74.83 LOC MISC ORG PER ALL lớp Rec 80.64 74.29 40.88 62.15 68.91 F1 81.41 79.32 42.39 66.91 71.74 lớp Rec 83.10 82.7 52.10 64.20 72.27 Pre 83.07 82.07 50.00 72.35 75.90 F1 83.08 82.03 51.02 68.03 74.04 Bảng Kết so sánh lớp 4.3.4 Thực nghiệm phƣơng pháp BiLSTM với đặc trƣng từ tỉ lệ Dropout khác Dropout giúp giảm tình trạng ―quá khớp‖ (Overfitting) 14 huấn luyện mơ hình Bảng 4.8 trình bày kết thực nghiệm mơ hình với tỉ lệ Dropout khác nhau, chọn Dropout 0.2 cho kết tốt Entity LOC MISC ORG PER ALL Pre 80.98 84.09 41.09 67.35 71.97 Dropout =0.0 Rec F1 76.79 78.79 64.49 72.73 32.92 36.43 59.23 62.97 72.26 68.27 Pre 83.07 82.07 50.00 72.35 75.90 Dropout =0.2 Rec F1 83.10 83.08 82.7 82.03 52.10 51.02 64.20 68.03 72.27 74.04 Pre 83.63 84.14 49.85 72.77 75.88 Dropout =0.5 Rec F1 82.48 83.05 78.37 81.07 50.51 50.07 65.73 69.06 72.26 74.02 Bảng Kết Dropout khác Các thực nghiệm cho thấy, mơ hình tối ƣu sử dụng lớp BiLSTM với dropout = 0.2, số vòng huấn luyện Epoch = 300 Tuy nhiên, sử dụng đặc trƣng từ làm liệu vào cho mô hình kết tối ƣu đạt 74.04% Để tăng độ xác cho mơ hình, tơi thêm đặc trƣng nhãn cú pháp nhƣ POS, Chunk làm liệu vào cho mơ hình ViNER Bảng 4.9 kết trình thực nghiệm Các đặc trƣng Pre Rec F1 Word Word + POS Word + Chunk Word + POS + Chunk 75.90 84.15 90.89 91.09 72.27 87.62 83.72 93.06 74.04 85.85 87.15 92.06 Bảng Kết so sánh đặc trưng 14 https://trantheanh.github.io/2017/06/26/ML-17/ 61 Việc thêm đặc trƣng cú pháp cải thiện hiệu mơ hình Mơ hình kết hợp đầy đủ đặc trƣng cú pháp POS, Chunk, Regex cho độ xác F1 cao 92.06% Bảng 4.10 dƣới trình bày tham số đặc trƣng đầy đủ đạt kết tối ƣu cho hệ thống ViNER Tham số, đặc trƣng Giá trị Phƣơng pháp huấn luyện BiLSTM Số lớp BiLSTM Số bƣớc huấn luyện_time steps 132 Số vòng huấn luyện_Epoch 300 Số đơn vị_Batch size 512 Số nút ẩn 10 Tỉ lệ Dropout 0.2 Đơn vị đánh giá F1 score Đặc trƣng Word + POS + Chunk Bảng 10 Các tham số đặc trưng tối ưu cho mơ hình huấn luyện_đánh giá hệ thống ViNER 4.4 Xây dựng ứng dụng Web trực quan hóa kết Để trực quan hóa đƣợc phân tích liệu, phân tích kết nhận diện đƣợc tên riêng tiếng Việt cho văn thực tế đƣợc nhập vào, xây dựng đƣợc ứng dụng web 62 Hình Giao diện trang web Hình Giao diện phân tích liệu 63 Hình 4 Giao diện phân tích kết Để demo thực tế, chuyển qua menu ―Demo thực tế‖, nhập vào đoạn văn ví dụ ―Thầy Bùi Thanh Hùng, thầy Trần Vĩnh Phước thầy Lê Tuấn Anh giảng viên trường Đại Học Thủ Dầu Một, tỉnh Bình Dương‖ Sau tơi chọn lệnh ―Kết quả‖ đoạn văn đƣợc tiền xử lí trƣớc đƣa vào mơ hình để dự đốn nhãn tên riêng Các bƣớc xử lí nhƣ sau: Bƣớc 1: Tơi dùng ViTokenizer để tách từ Bƣớc 2: Tôi dùng Ner Underthesea để tạo nhãn Pos, chunk, nhãn tên riêng (nhãn tên riêng dùng để đánh giá mơ hình tơi Underthesea) nhƣ hình 4.5 64 Hình Các đặc trưng tạo tự động công cụ Underthesea Bƣớc 3: Tạo vector đặc trƣng (word + Pos + Chunk), sau đƣa vector vào mơ hình đƣợc lƣu trƣớc để dự đốn nhãn tên riêng Nhìn vào hình 4.6 file out.txt có cột, cột đầu từ đƣợc tách từ, cột thứ nhãn tên riêng hệ thống ViNER dự đoán đƣợc, cột thứ nhãn tên riêng Underthesea đƣa Ta thấy mơ hình ViNER tơi cho kết xác Underthesea, nhƣ với ―trƣờng Đại Học Thủ Dầu Một‖ hệ thống ViNER nhận diện Tổ chức nhƣng cơng cụ Underthesea dự đốn Địa điểm, … Hình So sánh nhãn tên riêng ViNER Underthesea 65 Sau dự đốn đƣợc nhãn tên riêng từ mơ hình, hệ thống trả kết nhận diện qua giao diện web đƣợc Hightlight màu khác nhƣ hình 4.7 Hình Giao diện Demo thực tế 66 CHƢƠNG V KẾT LUẬN VÀ HƢỚNG PHÁT TRIỂN 5.1 Kết đạt đƣợc Hệ thống nhận diện tên riêng tiếng Việt tơi cung cấp thơng tin hữu ích cho ứng dụng xử lý ngôn ngữ tự nhiên khác nhƣ tóm tắt văn bản, máy tìm kiếm, dịch máy, trích xuất thơng tin trả lời câu hỏi tự động, …Để hồn thành luận văn này, tơi kế thừa, tổng hợp phát triển dựa nghiên cứu trƣớc Kết đạt luận văn gồm: - Tơi thử nghiệm mơ hình học sâu nhiều khía cạnh khác để từ so sánh, đánh giá, tìm mơ hình tối ƣu cho toán nhận dạng tên riêng tiếng Việt - Mơ hình NER dùng phƣơng pháp học sâu BiLSTM chúng tơi đơn giản mơ hình trƣớc (nhƣ mơ hình kết hợp LSTM, CNN, CRF; Mơ hình SVM, …) kết hợp thêm đặc trƣng cú pháp tự động phù hợp với ngôn ngữ Tiếng Việt nhƣ POS, Chunk cộng thêm hỗ trợ Word2vector đƣợc huấn luyện sẵn cho Tiếng Việt cho thấy đƣợc hiệu nhận diện tên riêng Tiếng Việt, tỉ lệ xác đạt 92.06% liệu VLSP 2016 - Xây dựng ứng dụng dựa nần tảng Web-based: Luận văn xây dựng giao diện dựa tảng Web-based nhằm trực quan hóa phân tích liệu, phân tích kết nhận diện đƣợc tên riêng tiếng Việt cho văn thực tế đƣợc nhập vào 5.2 Hƣớng phát triển Tiếp tục kế thừa nghiên cứu trƣớc phát triển mơ hình ViNER nhận diện xác hơn, hệ thống có khả học để nhận dạng thêm đƣợc từ Thu thập liệu lĩnh vực giáo dục mà công tác, thu thập liệu tối ƣu nhằm gia tăng tốc độ huấn luyện Tôi thử nghiệm mơ hình học sâu khác để từ so sánh, đánh giá, tìm mơ hình tối ƣu cho toán nhận dạng tên riêng tiếng Việt 67 TÀI LIỆU THAM KHẢO [1] [2] [3] [4] [5] [6] [7] [8] [9] [10] [11] [12] [13] [14] [15] [16] [17] [18] [19] [20] [21] [22] [23] McCormick, C 2016 Word2vec Tutorial - The Skip-Gram Model Google 2013 Word2vec model, https://code.google.com/archive/p/word2vec/ S Hochreiter and J Schmidhuber 1997 ―Long Short-Term Memory‖, Neural Computation, vol 9, pp 1735–1780 Zichao Yang, Diyi Yang, Chris Dyer, Xiaodong He, Alex Smola, and Eduard Hovy 2016 ―Hierarchical attention networks for document classification‖, In Proc ACL Sumit Chopra, Michael Auli, Alexander M Rush, and SEAS Harvard 2016 ―Abstractive sentence summarization with attentive recurrent neural networks‖, Proceedings of NAACLHLT16 pages 93–98 Tom Young, Devamanyu Hazarika, Soujanya Poria, Erik Cambria 2018 ―Recent Trends in Deep Learning Based Natural Language Processing”, IEEE Computational Intelligence Magazine Wang P, Qian Y, Soong F K, He L, Zhao H 2015 ―Part-of-Speech Tagging with Bidirectional Long Short-Term Memory Recurrent Neural Network‖, Cornell University Sundermeyer M, Ney H and Schluter R 2015 ―From Feedforward to Recurrent LSTM Neural Networks for Language Modelling‖, J IEEE/ACM Trans, Audio Speech Lang Process, Issue 3, pp 517–29 Truong Son Nguyen, Le Minh Nguyen, and Xuan Chien Tran 2016 ―Vietnamese named entity recognition at VLSP 2016 evaluation campaign‖ In Proceedings of The Fourth International Workshop on Vietnamese Language and Speech Processing, Hanoi, Vietnam Thai-Hoang Pham and Phuong Le-Hong 2017 ―End-to-end recurrent neural network models for vietnamese named entity recognition: Word-level vs character-level‖ arXiv preprint arXiv:1705.04044 Zhiheng Huang, Wei Xu, and Kai Yu 2015 ―Bidirectional LSTM-CRF models for sequence tagging‖ arXiv preprint arXiv:1508.01991 Thang Luong Viet 2018 ―https://mc.ai/nhan-dien-ten-rieng-trong-van-ban-voi-bidirectionallong-short-term-memory-va-conditional-random/‖ Truong Son Nguyen, Le Minh Nguyen, and Xuan Chien Tran 2016 ―Vietnamese named entity recognition at VLSP 2016 evaluation campaign‖ In Proceedings of The Fourth International Workshop on Vietnamese Language and Speech Processing, Hanoi, Vietnam A Mansouri, L Affendey, A Mamat 2018 ―Named Entity Recognition Using a New Fuzzy Support Vector Machine‖ T Pham, A Kawazoe; D Dinh; N Collier 2007 ―Construction of Vietnamese corpora for named entity recognition‖, In Conference RIAO2007, Pittsburgh PA, U.S.A May 30-June 1, 2007 – Copyright C.I.D Paris, France Cowie and W.Lehnert 1996 ―Information Extraction‖, In Communications of the ACM, 39 Tomas Mikolov; et al 2013 "Efficient Estimation of Word Representations in Vector Space" arXiv:1301.3781 Le, Quoc, Tomas Mikolov et al 2014 "Distributed Representations of Sentences and Documents" arXiv:1405.4053 Mikolov, Tomas; Sutskever, Ilya; Chen, Kai; Corrado, Greg S.; Dean, Jeff 2013 ―Distributed representations of words and phrases and their compositionality‖ Advances in Neural Information Processing Systems arXiv:1310.4546 Schmidhuber, Jürgen 2015 "Deep learning in neural networks: An overview" Neural Networks 61: 85–117 arXiv:1404.7828 Mizutani, Eiji; Dreyfus, Stuart; Nishio, Kenichi July 2000 "On derivation of MLP backpropagation from the Kelley-Bryson optimal-control gradient formula and its application" (PDF) Proceedings of the IEEE International Joint Conference on Neural Networks Ma, Xuezhe, and Eduard Hovy 2016 ―End-to-end sequence labeling via bi-directional lstmcnns-crf.‖ arXiv preprint arXiv:1603.01354 R Florian, A Ittycheriah, H Jing, and T Zhang 2003 ―Named entity recognition through classifier combination‖ Proceedings of NAACL-HLT 68 [24] [25] [26] [27] [28] [29] Dekang Lin and Xiaoyun Wu 2009 ―Phrase clustering for discriminative learning” In Proceedings of the Joint Conference of the 47th Annual Meeting of the ACL and the 4th International Joint Conference on Natural Language Processing of the AFNLP, volume 2, pages 1030–1038 Association for Computational Linguistics Greg Durrett and Dan Klein 2014 ―A joint model for entity analysis: Coreference, typing, and linking‖ Transactions of the Association for Computational Linguistics, 2:477–490 Gang Luo and Zaiqing Nie Xiaojiang Huang, Chin-Yew Lin 2015 ―Joint entity recognition and disambiguation‖ In Proceedings of the 2015 Conference on Empirical Methods on Natural Language Processing, pages 879–888 Association for Computational Linguistics T Nguyễn, T Oanh, P Hieu, H Thuy 2005 ―Named Entity Recognition in Vietnamese FreeText and Web Documents Using Conditional Ramdom Fields‖, The 8th Conference on Some selection problems of Information Technology and Telecommunication, Hai Phong, Viet Nam T Cao 2007 ―Automatic Extraction of Vietnamese Named-Entities on the Web‖, New Generation Computing, Ohmsha, Ltd And Springer Krishnan 2005 ―Named Entity Recognition‖, cs.Standford.edu 69 ... 3.2.2 Các đặc trưng cú pháp 48 3.3 NHẬN DIỆN TÊN RIÊNG TIẾNG VIỆT 48 3.3.1 Mô hình học sâu tốn nhận diện tên riêng tiếng Việt 51 3.3.2 Nhận diện tên riêng 53 CHƢƠNG... cần nhận dạng tên riêng phân tích trực quan liệu, kết 1.5.2 Ý nghĩa thực tiễn Đã có nhiều nghiên cứu nhận diện tên riêng, nhiên nghiên cứu nhận diện tên riêng cho tiếng Việt chƣa nhiều Nhận diện. .. Mạng Bi-LSTM cho NER 2.4 Nhận diện tên riêng (Name Entity Recognition – NER) 2.4.1 Tổng quan toán Nhận diện tên riêng Nhận diện tên riêng, đƣợc gọi Nhận diện thực thể có tên (Named Entity Recognition—NER),

Ngày đăng: 21/06/2021, 21:52

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w