Luanvan luutuanthanh ch17ht 1784801040011 l7

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang	89
Dung lượng	3,04 MB
File đính kèm	Luanvan_LuuTuanThanh_CH17HT_1784801040011_L7.rar (7 MB)

Nội dung

PHƯƠNG PHÁP HỌC BÁN GIÁM SÁT CHO BÀI TOÁN TRÍCH CHỌN THÔNG TIN VÀ ỨNG DỤNG TRÍCH CHỌN THỰC THỂ TÊN ĐIỆN THOẠI DI ĐỘNGLuận văn với đề tài “Phương pháp học bán giám sát cho bài toán trích chọn thông tin và ứng dụng trích chọn thực thể tên điện thoại di động” dựa trên những nghiên cứu trước đây để đề xuất nghiên cứu và phát triển một hệ thống nhận diện tên riêng tiếng Việt (ViNER) bằng cách kết hợp các đặc trưng cú pháp tự động với các từ nhúng được huấn luận sẵn làm đầu vào cho bộ nhớ ngắn dài hai chiều (BiLSTM). Phương pháp huấn luyện hệ thống này trên tập dữ liệu mà tôi thu thập từ hàng trăm bài báo khác nhau. Bộ dữ liệu này gồm 3 tập dữ liệu huấn luyện, phê chuẩn và kiểm tra. Mỗi tập dữ liệu gồm 4 cột: Từ hoặc từ ghép, POS, CHUNK và TAG.

ỦY BAN NHÂN DÂN TỈNH BÌNH DƯƠNG TRƯỜNG ĐẠI HỌC THỦ DẦU MỘT LƯU TUẤN THÀNH PHƯƠNG PHÁP HỌC BÁN GIÁM SÁT CHO BÀI TỐN TRÍCH CHỌN THƠNG TIN VÀ ỨNG DỤNG TRÍCH CHỌN THỰC THỂ TÊN ĐIỆN THOẠI DI ĐỘNG CHUYÊN NGÀNH: HỆ THỐNG THÔNG TIN MÃ SỐ: 8480104 LUẬN VĂN THẠC SỸ BÌNH DƯƠNG – 2021 ỦY BAN NHÂN DÂN TỈNH BÌNH DƯƠNG TRƯỜNG ĐẠI HỌC THỦ DẦU MỘT LƯU TUẤN THÀNH PHƯƠNG PHÁP HỌC BÁN GIÁM SÁT CHO BÀI TỐN TRÍCH CHỌN THƠNG TIN VÀ ỨNG DỤNG TRÍCH CHỌN THỰC THỂ TÊN ĐIỆN THOẠI DI ĐỘNG CHUYÊN NGÀNH: HỆ THỐNG THÔNG TIN MÃ SỐ: 8480104 LUẬN VĂN THẠC SỸ NGƯỜI HƯỚNG DẪN KHOA HỌC TS NGÔ THANH HÙNG BÌNH DƯƠNG – 2021 LỜI CAM ĐOAN Tơi Lưu Tuấn Thành, học viên lớp CH17HT, ngành Hệ thống thông tin, trường Đại học Thủ Dầu Một Tôi cam đoan, luận văn “Phương pháp học bán giám sát cho tốn trích chọn thơng tin ứng dụng trích chọn thực thể tên điện thoại di động” công trình nghiên cứu riêng cá nhân tơi, hướng dẫn TS Ngô Thanh Hùng Luận văn không tơi tự nghiên cứu, tìm hiểu, đọc, dịch tài liệu, tổng hợp thực Nội dung Cơ sở lý thuyết đút kết từ cơng trình nghiên cứu trước biên mục phần tài liệu tham khảo Các số liệu, chương trình phần mềm kết luận văn trung thực chưa cơng bố cơng trình khác Tôi xin chịu trách nhiệm lời cam đoan Bình Dương, ngày 10 tháng 10 năm 2021 Người viết luận văn Lưu Tuấn Thành LỜI CẢM ƠN Trong trình thực luận văn “Phương pháp học bán giám sát cho tốn trích chọn thơng tin ứng dụng trích chọn thực thể tên điện thoại di động” tơi hướng dẫn nhiệt tình TS Ngô Thanh Hùng Thầy dành nhiều thời gian hướng dẫn, góp ý để tơi hồn thiện đề tài Trong q trình nghiên cứu thầy ln động viên tinh thần, định hướng cho tơi lúc khó khăn nghiên cứu Tôi chân thành cảm ơn Tôi bày tỏ lòng biết ơn sâu sắc đến thầy giảng dạy tơi tận tình, thầy Bùi Thanh Hùng truyền đạt kiến thức bổ ích cho suốt thời gian học trường Đại học Thủ Dầu Một tạo điều kiện tốt để tơi hồn thành luận văn Sau cùng, tơi xin gửi lời cảm ơn đến gia đình, đồng nghiệp, anh chị học chung lớp đoàn kết, sát cánh giúp đỡ, động viên suốt thời gian học vừa qua Một lần nữa, xin Trân trọng cảm ơn Bình Dương, ngày 10 tháng 10 năm 2021 Người viết luận văn LƯU TUẤN THÀNH II TÓM TẮT LUẬN VĂN Trong thời đại khoa học - kỹ thuật nay, thời đại cách mạng khoa học 4.0, với phát triển mặt đời sống từ văn hóa, giáo dục cơng nghệ lĩnh vực cơng nghệ thơng tin tạo sản phẩm trí tuệ nhân tạo, robot cơng nghệ máy móc dần thay người Nhu cầu giao tiếp, thương mại điện tử tìm kiếm thơng tin lớn, số ứng dụng xử lý ngơn ngữ tự nhiên tóm tắt văn bản, máy tìm kiếm, dịch máy, trích xuất thông tin trả lời câu hỏi tự động ngày phát triển Những ứng dụng phát triển dựa tảng số tác vụ xử lý ngơn ngữ tự nhiên Trích chọn tên điện thoại di động văn nghiên cứu nhiều ngôn ngữ tiếng Anh, tiếng Nhật, tiếng Trung,… nhiều phương pháp khác đạt nhiều kết khả quan Các phương pháp học máy trước SVM, Cây định, … cho kết phân loại tốt Luận văn với đề tài “Phương pháp học bán giám sát cho tốn trích chọn thơng tin ứng dụng trích chọn thực thể tên điện thoại di động” dựa nghiên cứu trước để đề xuất nghiên cứu phát triển hệ thống nhận diện tên riêng tiếng Việt (ViNER) cách kết hợp đặc trưng cú pháp tự động với từ nhúng huấn luận sẵn làm đầu vào cho Bộ nhớ ngắn dài hai chiều (BiLSTM) Phương pháp huấn luyện hệ thống tập liệu mà crawl từ hàng trăm báo khác Bộ liệu gồm tập liệu huấn luyện, phê chuẩn kiểm tra Mỗi tập liệu gồm cột: Từ từ ghép, POS, CHUNK TAG Sau huấn luyện đánh giá thực nghiệm hệ thống nhiều khía cạnh khác Độ đo xác (Accuracy), tơi nhận thấy hệ thống kết hợp đặc trưng cú pháp tự động với từ nhúng huấn luận sẵn làm đầu vào cho Bộ nhớ ngắn dài hai chiều (BiLSTM) cho kết cao đạt 74,04% Luận văn xây dựng ứng dụng web trích xuất trực quan, nhận diện tên điện thoại di động cho đoạn văn người dùng nhập vào I MỤC LỤC LỜI CAM ĐOAN I LỜI CẢM ƠN II TÓM TẮT LUẬN VĂN DANH MỤC VIẾT TẮT DANH MỤC CÁC BẢNG DANH MỤC HÌNH VẼ, ĐỒ THỊ CHƯƠNG I GIỚI THIỆU CHUNG 1.1 Lí thực đề tài 1.2 Mục tiêu nghiên cứu 1.3 Đối tượng, phạm vi nghiên cứu 1.4 Phương pháp nghiên cứu 1.5 Ý nghĩa khoa học ý nghĩa thực tiễn đề tài 1.5.1 Ý nghĩa khoa học 1.5.2 Ý nghĩa thực tiễn 1.6 Bố cục luận văn CHƯƠNG II CƠ SỞ LÝ THUYẾT 2.1 Xử lý ngôn ngữ tự nhiên 2.1.1 Tách từ (ViTokenizer) 2.1.2 Xác định loại từ câu (Part-of-Speech tagging - POS tagging) 2.1.3 Xác định cụm từ (Chunking) 2.1.4 Phân tích cú pháp (Parsing) 12 2.2 Các phương pháp biểu diễn từ dạng vector 13 2.2.1 Biểu diễn túi từ - Bag of words 13 2.2.2 Biểu diễn One-hot-vector 14 2.2.3 Túi từ liên tục - CBOW 18 II 2.2.4 Skip gram 21 2.3 Học sâu - Deep Learning 25 2.3.1 Mạng nơ ron nhân tạo (ANN) 26 2.3.2 Mạng nơ-ron hồi quy RNN (Recurrent Neural Network) 32 2.3.3 Bộ nhớ dài-ngắn LSTM (Long-short term memory) 34 2.3.4 Mạng nơ ron ngắn dài song song LSTM (Bidirectional Long-short term memory) 39 2.4 Phương pháp học bán giám sát 40 2.4.1 Học có giám sát 41 Ví dụ học giám sát 42 2.4.2 Học bán giám sát 43 2.5 Xác định thực thể tên điện thoại di động 43 2.5.1 Tổng quan tốn Trích chọn thực thể tên điện thoại di động 43 2.5.2 Hướng tiếp cận nghiên cứu 44 2.5.3 Các nghiên cứu gần 44 2.5.4 Đề xuất hướng nghiên cứu 45 CHƯƠNG III MƠ HÌNH ĐỀ XUẤT 47 3.1 Tổng quan mơ hình đề xuất 47 3.2 Các đặc trưng mô hình đề xuất 48 3.2.1 Từ nhúng – Word embeddings 48 3.2.2 Các đặc trưng cú pháp 50 3.3 Trích chọn tên thực thể điện thoại di động 50 3.3.1 Mô hình học sâu tốn trích chọn tên điện thoại di động 52 3.3.2 Trích chọn tên điện thoại di động 55 3.4 Cách đánh giá: 55 CHƯƠNG IV THỰC NGHIỆM 57 4.1 Môi trường thực nghiệm 57 III 4.2 Dữ liệu thực nghiệm 57 4.2.1 Thu thập liệu 57 4.2.2 Xử lý liệu 58 4.3 Kết Thực nghiệm 62 4.3.1 Trích xuất đặc trưng 62 4.3.2 Thực nghiệm phương pháp LSTM BiLSTM với đặc trưng từ 62 4.3.3 Thực nghiệm BiLSTM với đặc trưng từ số vòng huấn luyện khác 63 4.3.4 Thực nghiệm phương pháp sử dụng lớp BiLSTM với đặc trưng từ 63 4.3.5 Thực nghiệm phương pháp BiLSTM với đặc trưng từ tỉ lệ Dropout khác 64 4.4 Xây dựng ứng dụng Web trực quan hóa kết 65 4.4.1 Thiết kế Xây dựng Web: 65 CHƯƠNG V KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 70 5.1 Kết đạt 70 5.2 Hướng phát triển 70 TÀI LIỆU THAM KHẢO 72 IV DANH MỤC VIẾT TẮT Từ viết tắt Từ chuẩn Diễn giải BiLSTM Bidirectional Long short- Mạng nơ ron nhớ ngắn – dài song term memory song CBOW Continuous Bag of Words Túi từ liên tục CHUNK Chunking Tách câu thành cụm từ (Cụm danh từ, cụm động từ, …) LSTM Long short-term memory Mạng nơ ron nhớ ngắn – dài MISC Miscellaneous Tên riêng khác không thuộc Org ML Machine learning Học máy NER Named Entity Recognition NLP Natural Languague Processing Nhận diện thực thể đặt tên hay nhận diện tên riêng Xử lý ngôn ngữ tự nhiên ORG Organization Tên điện thoại di động tổ chức POS Part-of-Speech Từ loại (N, A, R, …) RNN Recurrent Neural Network Mạng nơ ron hồi quy ViNER VLSP Vietnamese Named Entity Recognition Vietnamese Language and Speech Processing V Nhận diện tên riêng tiếng Việt Xử lí ngơn ngữ tiếng nói Việt Nam DANH MỤC CÁC BẢNG Bảng Minh họa ví dụ tách từ Bảng 2 Nhãn cụm từ cho hệ phân cụm từ Việt 10 Bảng Biểu diễn từ thành ma trận vector 50 chiều 13 Bảng Các đặc trưng sinh tự động 50 Bảng Một đặc trưng vector đầu vào cho mô hình 54 Bảng 1: cấu hình máy PC dùng thực nghiệm 57 Bảng 2: Các công cụ sử dụng thực nghiệm 57 Bảng Thống kê chi tiết liệu 60 Bảng 4 Tham số mơ hình huấn luyện 63 Bảng Độ xác hệ thống sử dụng phương pháp học sâu 63 Bảng Độ xác hệ thống huấn luyện với Epoch khác 63 Bảng Kết so sánh lớp 64 Bảng Kết Dropout khác 64 Bảng Kết so sánh đặc trưng 64 Bảng 10 Các tham số đặc trưng tối ưu cho mơ hình huấn luyện_đánh giá 65 VI dài tối đa câu tập liệu train, dev, test 132 từ) Tham số huấn luyện LSTM lần thực nghiệm trình bày bảng 4.4 Tham số huấn luyện Giá trị Số bước huấn luyện_time steps 135 Số vòng huấn luyện_Epoch 295 Số đơn vị_Batch size 512 Số tầng Số nút ẩn 10 Tỉ lệ Dropout 0.2 Đơn vị đánh giá F1 score Bảng 4 Tham số mơ hình huấn luyện Sau trình huấn luyện đánh giá, kết cho thấy phương pháp học sâu BiLSTM cho kết tốt nhiều LSTM học theo chiều, BiLSTM học theo hai chiều liệu vào, chọn phương pháp BiLSTM cho lần thực nghiệm Kết bảng 4.5 ENTITY LSTM Bi-LTSM Pre Pre F1 Pre Rec F1 ORG 67.95 60.73 64.12 71.85 61.94 65.77 ALL 66.61 65.04 65.80 76.05 64.87 66.65 Bảng Độ xác hệ thống sử dụng phương pháp học sâu 4.3.3 Thực nghiệm BiLSTM với đặc trưng từ số vòng huấn luyện khác Lần thực nghiệm này, sử dụng phương pháp BiLSTM với đặc trưng từ số vòng huấn luyện (Epoch) mơ hình khác nhau: 100, 200, 300 Kết cho thấy với Epoch 300 cho độ xác tốt ENTITY Epoch 300 Epoch 200 Epoch 100 Pre Pre F1 Pre Pre F1 Pre Rec F1 ORG 82.74 83.95 82.75 82.95 82.95 82.00 81.75 83.75 81.45 ALL 75.65 76.00 75.95 71.85 71.85 73.98 74.85 71.94 73.75 Bảng Độ xác hệ thống huấn luyện với Epoch khác 4.3.4 Thực nghiệm phương pháp sử dụng lớp BiLSTM với đặc trưng từ Lần thực nghiệm này, tiến hành thử nghiệm hệ thống với số lớp BiLSTM khác nhận thấy việc dùng lớp BiLSTM cho kết tốt 63 Entity ORG ALL lớp lớp Pre Pre F1 Pre Rec 51.22 51.59 53.9 61.02 62.87 70.99 68.97 71.71 75.88 72.30 Bảng Kết so sánh lớp F1 61.94 74.04 4.3.5 Thực nghiệm phương pháp BiLSTM với đặc trưng từ tỉ lệ Dropout khác Dropout giúp giảm tình trạng “q khớp” (Overfitting) 16 huấn luyện mơ hình Bảng 4.6 trình bày kết thực nghiệm mơ hình với tỉ lệ Dropout khác nhau, chọn Dropout 0.2 cho kết tốt Entity ORG ALL Dropout =0.0 Dropout =0.2 Dropout =0.5 Pre Rec F1 Pre Rec F1 Pre Rec F1 51.22 48.01 49.27 61.02 62.87 61.94 60.85 61.51 61.17 70.99 70.89 71.05 75.88 72.30 74.04 75.82 72.27 73.61 Bảng Kết Dropout khác Các thực nghiệm cho thấy, mô hình tối ưu sử dụng lớp BiLSTM với dropout = 0.2, số vòng huấn luyện Epoch = 300 Tuy nhiên, sử dụng đặc trưng từ làm liệu vào cho mơ hình kết tối ưu đạt 74.04% Để tăng độ xác cho mơ hình, thêm đặc trưng nhãn cú pháp POS, Chunk làm liệu vào cho mơ hình ViNER Bảng 4.9 kết trình thực nghiệm Các đặc trưng Pre Rec F1 Word Word + POS Word + Chunk Word + POS + Chunk 60.15 63.61 65.76 75.82 58.27 66.19 66.19 76.29 59.29 64.19 64.19 77.54 Bảng Kết so sánh đặc trưng Việc thêm đặc trưng cú pháp cải thiện hiệu mơ hình Mơ hình kết hợp đầy đủ đặc trưng cú pháp POS, Chunk, Regex cho độ xác F1 cao 77.54% Bảng 4.10 trình bày tham số đặc trưng đầy đủ đạt kết tối ưu cho hệ thống trích chọn thực thể tên điện thoại di động 16 https://trantheanh.github.io/2017/06/26/ML-17/ 64 Tham số, đặc trưng Giá trị Phương pháp huấn luyện BiLSTM Số lớp BiLSTM Số bước huấn luyện_time steps 142 Số vòng huấn luyện_Epoch 290 Số đơn vị_Batch size 452 Số nút ẩn 10 Tỉ lệ Dropout 0.2 Đơn vị đánh giá F1 score Đặc trưng Word + POS + Chunk Bảng 10 Các tham số đặc trưng tối ưu cho mơ hình huấn luyện_đánh giá hệ thống trích chọn thực thể tên điện thoại di động 4.4 Xây dựng ứng dụng Web trực quan hóa kết 4.4.1 Thiết kế Xây dựng Web: Ứng dụng web chúng tơi gồm có sơ đồ thiết kế đây: WEB VÀ TRÍCH XUẤT KẾT QUẢ NHẬN DIỆN TÊN ĐIỆN THOẠI DI ĐỘNG BẰNG PHƯƠNG PHÁP HỌC SÂU Dữ liệu nhập vào Demo Phương pháp BiLSTM Thực nghiệm Trình bày xuất biểu đồ hình Dự đốn Tạo vector đặc trưng Kết Trả kết lên Web Hình Sơ đồ thiết kế ứng dụng Web Chúng xây dựng ứng dụng web ngơn ngữ lập trình Python(3.7) 65 Phần 1: Demo, giao diện kết trình bày (hình 4.3) Để trực quan hóa phân tích liệu, phân tích kết trích chọn tên điện thoại di động cho văn bản, người sử dụng nhập vào văn bản, hay file, sau lựa chọn nhập liệu, click vào kết để ứng dụng dự đốn trích xuất kết Dưới kết ví dụ demo Hình Giao diện trang web Phần 2: Phân tích liệu Ứng dụng web trình bày biểu đồ phân tích liệu có cở liệu, phần chia tỷ lệ liệu biểu đồ (hình 4.4, hình 4.5) Hình 4 Giao diện thống kê liệu 66 Hình Giao diện thống kê kết Để demo thực tế, chuyển qua menu “Demo thực tế”, nhập vào đoạn văn ví dụ “Điện thoại Oppo Find X3 Neo gió phân khúc điện thoại cận cao cấp, chép gần công nghệ cao cấp từ đàn anh Oppo Find X3 Pro với mức giá phải cho người dùng.” Sau tơi chọn lệnh “Kết quả” đoạn văn tiền xử lí trước đưa vào mơ hình để dự đốn nhãn tên riêng Các bước xử lí sau: Bước 1: Dùng ViTokenizer để tách từ Bước 2: Tôi dùng Ner Underthesea để tạo nhãn Pos, chunk, nhãn tên điện thoại di động(nhãn tên điện thoại di động dùng để đánh giá mơ hình tơi Underthesea) hình 4.6 67 Hình Các đặc trưng tạo tự động công cụ Underthesea Bước 3: Tạo vector đặc trưng (word + Pos + Chunk), sau đưa vector vào mơ hình lưu trước để dự đốn nhãn tên riêng Nhìn vào hình 4.7 file out.txt có cột, cột đầu từ tách từ, cột thứ nhãn tên điện thoại di động hệ thống ViNER dự đoán được, cột thứ nhãn tên điện thoại di động Underthesea đưa Mô hình ViNER tơi cho kết xác hơn, với “Xiaomi redmi” hệ thống ViNER trích chọn Tổ chức cơng cụ Underthesea dự đốn tổ chức, … Hình So sánh nhãn tên điện thoại di động Underthesea 68 Sau dự đốn nhãn tên điện thoại di động từ mơ hình, hệ thống Loại bỏ tên dự đốn có chứa ký tự Unicode (Vì tên hãng điện thoại tên tiếng Anh) trả kết trích chọn qua giao diện web trích tên điện thoại di động (hình 4.8) Hình Giao diện Demo thực tế 69 CHƯƠNG V KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN Trong chương nói lên kết đạt luận văn hướng phát triển sau luận văn 5.1 Kết đạt Luận văn trích chọn tên điện thoại di động tơi cung cấp thơng tin hữu ích cho ứng dụng xử lý ngôn ngữ tự nhiên khác trích xuất thơng tin trả lời câu hỏi tự động, tóm tắt văn bản, máy tìm kiếm, dịch máy, …Để hồn thành luận văn này, tơi kế thừa, tổng hợp phát triển dựa nghiên cứu trước Kết đạt luận văn gồm: Tơi thử nghiệm mơ hình học sâu nhiều khía cạnh khác để từ so sánh, đánh giá, tìm mơ hình tối ưu cho toán nhận diện tên điện thoại di động Mơ hình Trích chọn thực thể tên điện thoại di động dùng phương pháp học sâu BiLSTM có quy mơ đơn giản mơ hình trước (như mơ hình kết hợp LSTM, CNN, CRF; Mơ hình SVM, …) kết hợp thêm đặc trưng cú pháp tự động phù hợp với ngôn ngữ Tiếng Việt POS, Chunk cộng thêm hỗ trợ Word2vector huấn luyện sẵn cho Tiếng Việt cho thấy hiệu nhận diện tên điện thoại di động, tỉ lệ xác đạt 74.04% liệu Xây dựng ứng dụng dựa tảng Web-based: Luận văn xây dựng giao diện dựa tảng Web-based nhằm trực quan hóa phân tích liệu, phân tích kết trích chọn tên điện thoại di động cho văn thực tế nhập vào 5.2 Hướng phát triển Luận văn tiếp tục kế thừa nghiên cứu trước phát triển mơ hình trích chọn thơng tin trích chọn tên thực thể điện thoại di động xác hơn, hệ thống có khả học để trích chọn thêm loại tên khác Thu thập liệu lĩnh vực giáo dục nghề nghiệp mà công tác, thu thập liệu tối ưu nhằm gia tăng tốc độ huấn luyện cho hệ thống 70 Tôi thử nghiệm mơ hình học bán giám sát, học sâu khác để từ so sánh, đánh giá, tìm mơ hình tối ưu cho tốn trích chọn tên thực thể điện thoại di động 71 TÀI LIỆU THAM KHẢO [1] [Cowie 1996] Cowie and W.Lehnert, Information Extraction, In Communications of the ACM [2] Ellen Riloff (1996), Automatically Generating Extraction Patterns from Untagged text, In Proceedings of the Thirteenth National Conference on Artificial Intelligence [3] S Hochreiter and J Schmidhuber, “Long Short-Term Memory”, Neural Computation, vol [4] Ralph Grishman (1997), Information extraction: Techniques and challenges, In Information Extraction (International Summer School SCIE-97) [5] Sergey Brin (1998), Extraction Patterns and Relation from the World Wide Web, Proceedings of the 6th International Conference on Extending Database Technology [6] Mary E Calif and Raymond J Mooney (1998), Relational learning of Pattern – Match Rules for Information Extraction, Proceedings of AAAI Spring Symposium on Applying Machine Learning [7] Christiane Fellbaum (1998), WordNet: An Electronic Lexical Database and Some of Its Applications, MIT Press [8] Douglas E.Appelt, David J.Israel (1999), Introduction to Information Extraction, A Tutorial Prepared for IJCAI-99 [9] Eugene Agichtein and Luis Gravano (2000), Snowball: Extracting Relations from Large Plain text Collections, Proceedings of the 5th ACM International Conference on Digital Libraries [10] https://nguyenvanhieu.vn/hoc-co-giam-sat-la-gi [11] https://machinelearningcoban.com/2016/12/27/categories [12] http://www.cnts.ua.ac.be/conll2003/ner [13] Mizutani, Eiji; Dreyfus, Stuart; Nishio, Kenichi (July 2000) "On derivation of MLP backpropagation from the Kelley-Bryson optimal-control gradient formula and its application" (PDF) Proceedings of the IEEE International Joint Conference on Neural Networks 72 [14] [Florian et al.2003] R Florian, A Ittycheriah, H Jing, and T Zhang 2003 Named entity recognition through classifier combination Proceedings of NAACL-HLT [15] Giridhar Kumaran and James Allan (2004), Text Classification and Named Entities for New Event Detection, Proceedings of the 27PthP Annual International ACM SIGIR Conference [16] M Hassel (2003), Exploitation of Named Entities in Automatic Text Summarization for Swedish, In Proceedings of NODALIDA 03 - 14 th Nordic Conference on Computational Linguistics [17] Marius Pasca (2004), Acquisition of Categorized Named Entities for Web Search, ACM Press [18] [Nguyễn 2005] T Nguyễn, T Oanh, P Hieu, H Thuy, Named Entity Recognition in Vietnamese Free-Text and Web Documents Using Conditional Ramdom Fields, The 8th Conference on Some selection problems of Information Technology and Telecommunication, Hai Phong, Viet Nam 2005 [19] [Krishnan 2005], Named Entity Recognition, cs.Standford.edu [20] Diego Molla, Mennovan Zaanen and Daniel Smith (2006), Named Entity Recognition for Question Answering, Proceedings ALTW [21] Claudio Giuliano, Albert Olavelli and Lorenza Romano (2007), Relation Extraction and the Influence of Automatic Named-Entity Recognition, ACM Trans Speech Lang Process [22] [Phạm 2007] T Pham, A Kawazoe; D Dinh; N Collier, Construction of Vietnamese corpora for named entity recognition, In Conference RIAO2007, Pittsburgh PA, U.S.A May 30-June 1, 2007 – Copyright C.I.D Paris, France, 2007 [23] [Cao 2007] T Cao, Automatic Extraction of Vietnamese Named-Entities on the Web, New Generation Computing, Ohmsha, Ltd And Springer 73 [24] Nozomi Kobayashi, Kentaro Inui and Yuji Matsumoto (2007), Opinion Mining from Web documents: Extraction and Structurization, Journal of Japanese Society for Artificial Intelligence [25] https://medium.com/longvietthang/nhận diện tên riêng văn với Bi-bidirectional-long-short-term-memory-và-conditional-random [26] [Mansouri 2008] A Mansouri, L Affendey, A Mamat, Named Entity Recognition Using a New Fuzzy Support Vector Machine [27] U Hermjakob, K Knight, and H Daume (2008), Name Translation in Statistical Machine Translation: Learning When to Transliterate, Proc ACL [28] GuXu, Shuang-HongYang and HangLi (2009), Named Entity Mining from Click-Through Data Using Weakly Supervised Latent Dirichlet Allocation, Proceedings of the 15th ACM SIGKDD international conference on Knowledge discovery and data mining, pp 1365-1374 [29] [Lin and Wu2009] Dekang Lin and Xiaoyun Wu 2009 Phrase clustering for discriminative learning In Proceedings of the Joint Conference of the 47th Annual Meeting of the ACL and the 4th International Joint Conference on Natural Language Processing of the AFNLP, volume 2, pages 1030– 1038 Association for Computational Linguistics [30] [truong thi Phuong Thao 2011],Phương pháp học bán giám sát cho tốn trích chọn thơng tin ứng dụng trích chọn thực thể tên máy ảnh kỹ thuật số, đại học quốc gia hà nội, trường đại học công nghệ [31] Google (2013), https://code.google.com/archive/p/word2vec/ [32] Mikolov, Tomas; Sutskever, Ilya; Chen, Kai; Corrado, Greg S.; Dean, Jeff (2013) Distributed representations of words and phrases and their compositionality Advances in Neural Information Processing Systems arXiv:1310.4546 [33] Tomas Mikolov; et al (2013) "Efficient Estimation of Word Representations in Vector Space" arXiv:1301.3781 74 [34] [Durrett and Klein2014] Greg Durrett and Dan Klein 2014 A joint model for entity analysis: Coreference, typing, and linking Transactions of the Association for Computational Linguistics, 2:477–490 [35] Le, Quoc, Tomas Mikolov et al (2014) "Distributed Representations of Sentences and Documents" arXiv:1405.4053 [36] [Luo and Xiaojiang Huang2015] Gang Luo and Zaiqing Nie Xiaojiang Huang, Chin-Yew Lin 2015 Joint entity recognition and disambiguation In Proceedings of the 2015 Conference on Empirical Methods on Natural Language Processing, pages 879–888 Association for Computational Linguistics [37] Schmidhuber, Jürgen (2015) "Deep learning in neural networks: An overview" Neural Networks 61: 85–117 arXiv:1404.7828 [38] Zhiheng Huang, Wei Xu, and Kai Yu 2015 Bidirectional LSTM-CRF models for sequence tagging arXiv preprint arXiv:1508.01991 [39] Wang P, Qian Y, Soong F K, He L, Zhao H, “Part-of-Speech Tagging with Bidirectional Long Short-Term Memory Recurrent Neural Network”, Cornell University, 2015 [40] Sundermeyer M, Ney H and Schluter R, “From Feedforward to Recurrent LSTM Neural Networks for Language Modelling”, J IEEE/ACM Trans, Audio Speech Lang Process, Issue 3, pp 517–29, 2015 [41] McCormick, C (2016) Word2vec Tutorial - The Skip-Gram Model [42] Ma, Xuezhe, and Eduard Hovy “End-to-end sequence labeling via bidirectional lstm-cnns-crf.” arXiv preprint arXiv:1603.01354 (2016) [43] Zichao Yang, Diyi Yang, Chris Dyer, Xiaodong He, Alex Smola, and Eduard Hovy, “Hierarchical attention networks for document classification”, In Proc ACL, 2016 [44] Sumit Chopra, Michael Auli, Alexander M Rush, and SEAS Harvard, “Abstractive sentence summarization with attentive recurrent neural networks”, Proceedings of NAACL-HLT16 pages 93–98, 2016 75 [45] Tom Young, Devamanyu Hazarika, Soujanya Poria, Erik Cambria, “Recent Trends in Deep Learning Based Natural Language Processing, IEEE Computational Intelligence Magazine, 2018 [46] Truong Son Nguyen, Le Minh Nguyen, and Xuan Chien Tran 2016 Vietnamese named entity recognition at VLSP 2016 evaluation campaign In Proceedings of The Fourth International Workshop on Vietnamese Language and Speech Processing, Hanoi, Vietnam [47] Thai-Hoang Pham and Phuong Le-Hong 2017 End-to-end recurrent neural network models for vietnamese named entity recognition: Word-level vs character-level arXiv preprint arXiv:1705.04044 [48] https://mc.ai/nhan-dien-ten-rieng-trong-van-ban-voi-bidirectional-longshort-term-memory-va-conditional-random/ [49] [Nguyễn Anh Dũng 2019], nhận dạng tên riêng tiếng việt phương pháp học sâu, trường đại học Thủ Dầu Một [50] [Nguyễn Trung Tín – 2019]: Xây dựng hệ thống hỏi đáp tự động hỗ trợ cơng tác tư vấn dịch vụ hành cơng Sở Thơng tin Truyền thơng tỉnh Bình Dương, trường đại học Thủ Dầu Một [51] [Nguyễn Thanh Tùng – 2019]: Ứng dụng phương pháp học sâu để nhận diện khuôn mặt qua camera giám sát, trường đại học Thủ Dầu Một [52] https://github.com/undertheseanlp/ner [53] [Mai Huy Hoàng – 2020]: Nhận dạng tiếng nói tiếng Việt phương pháp học sâu, trường đại học Thủ Dầu Một [54] [Đào Xuân Thắng- 2021]: Xác định tên riêng tiếng Việt phương pháp học máy, trường đại học Thủ Dầu Một [55] [Phan Anh Tuấn – 2021]: Phân tích, dự báo kết doanh thu thuê bao di dộng Vina Tân Biên học máy trường đại học Thủ Dầu Một [56] https://machinelearningmastery.com/how-to-one-hot-encode-sequencedata-in-python/ [57] https://ichi.pro/vi/xu-ly-ngon-ngu-tu-nhien-bang-python-nltk101258229749293 76 [58] http://www.jaist.ac.jp/~bao/VLSP-text/ICTrda08/ICT08-VLSP-SP842.pdf 77

Ngày đăng: 18/03/2023, 11:05