1. Trang chủ
  2. » Luận Văn - Báo Cáo

Ứng dụng học sâu cho bài toán nhận diện thực thể định danh trong lĩnh vực bất động sản

88 6 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Nội dung

HỌC VIỆN NGÂN HÀNG KHOA HỆ THỐNG THÔNG TIN QUẢN LÝ -š›&š› - KHÓA LUẬN TỐT NGHIỆP ỨNG DỤNG HỌC SÂU CHO BÀI TOÁN NHẬN DIỆN THỰC THỂ ĐỊNH DANH TRONG LĨNH VỰC BẤT ĐỘNG SẢN Sinh viên thực hiện: Nguyễn Thu Hồi Lớp: K21HTTTA Khóa học: 2018-2022 Mã sinh viên: 21A4040035 Giảng viên hướng dẫn: ThS Trần Thị Huế Hà Nội, tháng năm 2022 Tai ngay!!! Ban co the xoa dong chu nay!!! 17014129635751000000 HỌC VIỆN NGÂN HÀNG KHOA HỆ THỐNG THÔNG TIN QUẢN LÝ -š›&š› - KHÓA LUẬN TỐT NGHIỆP ỨNG DỤNG HỌC SÂU CHO BÀI TOÁN NHẬN DIỆN THỰC THỂ ĐỊNH DANH TRONG LĨNH VỰC BẤT ĐỘNG SẢN Sinh viên thực hiện: Nguyễn Thu Hồi Lớp: K21HTTTA Khóa học: 2018-2022 Mã sinh viên: 21A4040035 Giảng viên hướng dẫn: ThS Trần Thị Huế Hà Nội, tháng năm 2022 Khóa luận tốt nghiệp Học viện Ngân hàng LỜI CAM KẾT Tôi xin cam đoan kết đạt đề tài sản phẩm nghiên cứu, tìm hiểu cá nhân tơi Tồn nội dung đề tài trình bày riêng tổng hợp từ nhiều nguồn tài liệu khác Tất tài liệu tham khảo có xuất xứ rõ ràng trích dẫn hợp pháp Tơi xin hồn tồn chịu trách nhiệm chịu hình thức kỷ luật theo quy định cho lời cam đoan Hà Nội, ngày 22 tháng 05 năm 2022 Sinh viên thực Nguyễn Thu Hồi Nguyễn Thu Hồi – K21HTTTA Khóa luận tốt nghiệp Học viện Ngân hàng LỜI CẢM ƠN Để hoàn thành đề tài này, trước tiên em xin chân thành cảm ơn cô Trần Thị Huế, giảng viên khoa Hệ thống thông tin quản lý – Học viện Ngân hàng hướng dẫn trực tiếp, giúp đỡ em suốt q trình thực đề tài khóa luận tốt nghiệp từ lên ý tưởng tiến hành kết thúc, ln đưa nhận xét góp ý để đề tài hoàn thành tốt Đồng thời, em muốn gửi lời cảm ơn đến thầy cô giáo khoa Hệ thống thông tin quản lý tạo điều kiện tốt để em có hội tiếp cận với tốn thực tế, để vận dụng kiến thức học giải tốn Bên cạnh đó, em gửi lời cảm ơn đến đơn vị thực tập – Công ty Cổ phần Tập đoàn Meey Land cho em hội thực tập, tạo điều kiện thuận lợi trình khảo sát hoạt động thực tế để thực đề tài Do thời gian lực cịn hạn chế nên khơng thể tránh sai sót q trình thực đề tài Vì vậy, em hy vọng nhận thơng cảm, góp ý bổ sung thầy để đề tài em hồn thiện Em xin chân thành cảm ơn! Nguyễn Thu Hoài – K21HTTTA Khóa luận tốt nghiệp Học viện Ngân hàng MỤC LỤC DANH MỤC TỪ VIẾT TẮT i DANH MỤC HÌNH ẢNH ii DANH MỤC BẢNG BIỂU iv LỜI MỞ ĐẦU CHƯƠNG Giới thiệu đặt vấn đề toán 1.1 Giới thiệu đơn vị thực tập 1.1.1 Về Meey Land 1.1.2 Sơ đồ cấu tổ chức doanh nghiệp 1.1.3 Các sản phẩm, dịch vụ Meey Land 1.2 Giới thiệu toán 1.2.1 Lý chọn toán 1.2.2 Mục tiêu đạt 1.3 Các nghiên cứu liên quan đến NER cho văn tiếng Việt CHƯƠNG Kiến thức xử lý ngôn ngữ tự nhiên 11 2.1 Các kĩ thuật xử lý ngôn ngữ tự nhiên 11 2.1.1 Xử lý liệu thô 11 2.1.2 Xác định từ dừng (stop word) 17 2.1.3 Nhận diện thực thể định danh (Name Entity Recognition) 17 2.1.4 Biểu diễn từ dạng vectơ 18 2.2 Một số mạng thần kinh nhân tạo xây dựng NER 25 2.2.1 Mạng nơ-ron hồi quy (Recurrent Nerual Network - RNN) 27 2.2.2 Mạng Bộ nhớ Ngắn hạn Dài hạn (LSTM) 30 2.2.3 BiLSTM 33 Nguyễn Thu Hồi – K21HTTTA Khóa luận tốt nghiệp Học viện Ngân hàng 2.2.4 Mạng GRU 33 2.2.5 Transformer 35 2.2.6 Conditional Random Fields (CRF) 43 2.3 Một số mơ hình pretrain NER cho tiếng Việt 44 2.3.1 Mơ hình PhoBERT 44 2.3.2 Mô hình VnCoreNLP 47 CHƯƠNG Xây dựng mơ hình NER cho liệu bất động sản 49 3.1 Mô tả liệu 49 3.1.1 Thực thể 49 3.1.2 Bộ liệu 50 3.2 Quy trình thực nghiệm 51 3.2.1 Thu thập liệu 52 3.2.2 Tiền xử lý liệu 52 3.2.3 Quá trình gán nhãn 52 3.2.4 Huấn luyện mơ hình 57 3.3 Kết tính tốn thực nghiệm 61 3.4 Sử dụng mơ hình 66 KẾT LUẬN 68 Nguyễn Thu Hoài – K21HTTTA Khóa luận tốt nghiệp Học viện Ngân hàng DANH MỤC TỪ VIẾT TẮT STT Từ viết tắt Nguyên nghĩa ANN Mạng thần kinh nhân tạo BĐS Bất động sản BERT Mơ hình biểu diễn mã hóa chiều dựa Transformer BiLSTM Mạng LSTM hai chiều BOW Túi đựng từ BPTT Lan truyền ngược CBOW Túi từ liên tục CNTT Công nghệ thông tin CRF Trường điều kiện ngẫu nhiên 10 IE Trích xuất thơng tin 11 IR Truy xuất thông tin 12 LSTM Mạng Bộ nhớ Ngắn hạn Dài hạn 13 NE Thực thể định danh 14 NER Nhận diện thực thể định danh 15 NLP Xử lý ngôn ngữ tự nhiên 16 NLTK Natural Language ToolKit 17 NSP Dự đoán câu 18 QA Trả lời câu hỏi 19 Regex Biểu thức quy 20 RNN Mạng nơ-ron hồi quy Nguyễn Thu Hồi – K21HTTTA i Khóa luận tốt nghiệp Học viện Ngân hàng DANH MỤC HÌNH ẢNH Hình 1.1: Sơ đồ cấu tổ chức Meey Land Hình 1.2: Hệ sinh thái sản phẩm cơng nghệ Meey Land Hình 1.3: Bộ lọc tìm kiếm website meeyland.com Hình 1.4: Một phần giao diện đăng tin Meey Land Hình 2.1: Mã hóa giải mã Unicode 12 Hình 2.2: Ví dụ kết sau nhận diện thực thể định danh 18 Hình 2.3: One-hot Encoding với Word Embedding 19 Hình 2.4: Minh họa one-hot encoding 19 Hình 2.5: Kiến trúc mơ hình CBOW 22 Hình 2.6: Kiến trúc mơ hình Skip-gram 23 Hình 2.7: Ví dụ thay BPE để tách từ 25 Hình 2.8: Kiến trúc mạng nơ-ron nhân tạo 25 Hình 2.9: Một số hàm kích hoạt 26 Hình 2.10: Kiến trúc tổng quát mạng thần kinh nhân tạo 27 Hình 2.11: Kiến trúc mạng RNN 28 Hình 2.12: Các bước xử lý cụ thể nơ-ron mơ hình RNN 28 Hình 2.13: Quyết định thơng tin loại bỏ khỏi cell state 31 Hình 2.14: Quyết định thông tin lưu trữ 31 Hình 2.15: Cập nhật cell state cũ 𝑪𝒕 − 𝟏 32 Hình 2.16: Quyết định trả 32 Hình 2.17: Kiến trúc mạng BiLSTM 33 Hình 2.18: Kiến trúc mạng GRU 34 Hình 2.19: Kiến trúc mơ hình Transformer 36 Hình 2.20: Cơ chế self-attention 37 Nguyễn Thu Hồi – K21HTTTA ii Khóa luận tốt nghiệp Học viện Ngân hàng Hình 2.21: Mỗi vectơ kết từ vectơ đầu vào với ma trận 38 Hình 2.22: Kiến trúc self-attention 39 Hình 2.23: Kiến trúc Multi-Head Attention 39 Hình 2.24: Kiến trúc Encoder 40 Hình 2.25: Kiến trúc khối giải mã (khối đỏ hình) 41 Hình 2.26: Masked Self-Attention 42 Hình 2.27: Masked Triangular Matrix 43 Hình 2.28: Kiến trúc mạng BiLSTM-CRF 44 Hình 2.29: Đầu vào mơ hình BERT 45 Hình 3.1: Ví dụ minh họa tập liệu 50 Hình 3.2: Sơ đồ quy trình xử lý liệu 52 Hình 3.3: Giao diện công cụ gán nhãn 53 Hình 3.4: Mơ hình hóa q trình huấn luyện với mơ hình hồi quy 58 Hình 3.5: Mơ hình hóa trình huấn luyện với PhoBERT 59 Hình 3.6: Đồ thị so sánh độ xác mơ hình theo số epoch 60 Hình 3.7: Ví dụ ma trận nhầm lẫn cho toán lớp 61 Hình 3.8: Ví dụ ma trận nhầm lẫn cho toán nhiều lớp 62 Hình 3.9: Kết mơ hình RNN-CRF 63 Hình 3.10: Kết mơ hình GRU-CRF 64 Hình 3.11: Kết mơ hình LSTM-CRF 64 Hình 3.12: Kết mơ hình BiLSTM-CRF 65 Hình 3.13: Kết mơ hình PhoBERT 65 Hình 3.14: Kết sử dụng mơ hình 66 Nguyễn Thu Hoài – K21HTTTA iii Khóa luận tốt nghiệp Học viện Ngân hàng DANH MỤC BẢNG BIỂU Bảng 2.1: Các loại thực thể định danh thường sử dụng bất động sản 18 Bảng 3.1: Định nghĩa thực thể 49 Bảng 3.2: Thống kê liệu 51 Bảng 3.3: Kết so sánh mơ hình 66 Nguyễn Thu Hoài – K21HTTTA iv

Ngày đăng: 05/12/2023, 19:20

w