1. Trang chủ
  2. » Luận Văn - Báo Cáo

Tóm tắt Luận văn Thạc sĩ Kỹ thuật: Phân loại câu hỏi pháp quy tiếng Việt sử dụng mô hình BERT

26 9 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Luận văn thực hiện mô hình hóa bài toán dưới dạng một bài toán phân lớp đa nhãn. Trong đó mỗi câu hỏi có thể thuộc một hoặc nhiều lĩnh vực khác nhau. Luận văn thực hiện phân loại câu hỏi sử dụng cách tiếp cận học máy giám sát, cụ thể là sử dụng một số mô hình truyền thống SVM và mô hình BERT[18, 6]. Kết quả thực nghiệm tốt nhất đạt được khi sử dụng mô hình BERT là 89,47% (độ đo F1). Mơi các bạn tham khảo!

HỌC VIỆN CƠNG NGHỆ BƢU CHÍNH VIỄN THƠNG - NGUYỄN DIỆU LINH PHÂN LOẠI CÂU HỎI PHÁP QUY TIẾNG VIỆT SỬ DỤNG MƠ HÌNH BERT Chun ngành: Khoa học máy tính Mã số: 8.48.01.04 TÓM TẮT LUẬN VĂN THẠC SĨ HÀ NỘI – 2021 Luận văn đƣợc hoàn thành tại: HỌC VIỆN CƠNG NGHỆ BƢU CHÍNH VIỄN THƠNG Ngƣới hƣớng dẫn khoa học: TS Ngô Xuân Bách Phản biện 1: TS Phùng Văn Ổn Phản biện 2: PGS.TS Trần Đình Quế Luận văn bảo vệ trước Hội đồng chấm luận văn thạc sĩ Học viện Công nghệ Bưu chĩnh Viễn thông Vào lúc: 08 40 ngày 09 tháng 01 năm 2021 Có thể tìm hiểu luận văn tại: - Thư viện Học viện Công nghệ Bưu Viễn thơng MỞ ĐẦU Với nhu cầu trao đổi tìm kiếm thơng tin người ngày cao, đồng r r r r r r r r r r r r r r r nghĩ với việc người dùng mong muốn kết tìm kiếm trả cách ngắn gọn, súc r r r r r r r tích, xác Vì vậy, hệ thống hỏi đáp tự động đời nhằm đáp ứng nhu cầu r r r r r r r r r r r r r r r r r r r Hệ thống hỏi-đáp tự động hệ thống xây dựng nhằm mục đích thực r r r r r r r r r r r r r r r r việc tìm kiếm tự động câu trả lời từ tập lớn tài liệu cho câu hỏi đầu vào r cách xác r r r r r r r r r r r r r r r r r r r r r r Phân loại câu hỏi pha kiến trúc chung hệ thống hỏi đáp, có nhiệm vụ tìm thơng tin cần thiết làm đầu vào cho trình xử lý pha sau (trích chọn tài liệu, trích xuất câu trả lời, v.v) Văn pháp quy văn có quy phạm pháp luật quan quản lý r r r r r r r r r r r r r r r r r r r nhà nước, trung ương, quan quyền lực nhà nước, quan quản lý nhà nước địa r phương ban hành theo thẩm quyền lập quy Muốn hỏi đáp vấn đề pháp r r r r r r r r r r r r r r r r r r r r r r r r r r r luật cần phải tra cứu tìm kiếm nhiều tài liệu văn pháp luật liên quan Vì vậy, để giúp cho việc rút ngắn thời gian tìm kiếm cần phân loại câu hỏi pháp quy theo lĩnh vực pháp luật Phân loại đa nhãn phân loại văn bản, văn thuộc số chủ đề xác định trước lúc Một câu hỏi pháp quy thơng thường liên quan đến nhiều loại lĩnh vực pháp luật Việc phân loại câu hỏi pháp quy tiếng Việt đặt câu hỏi thuộc số lĩnh vực Vì vậy, tốn phân loại câu hỏi pháp quy tiếng Việt toán phân loại đa nhãn câu hỏi pháp quy tiếng Việt Các phương pháp phổ biến có nhiều phương pháp cách tiếp cận để giải tốn phân loại câu hỏi Gần có nhiều phương pháp học sâu sử dụng mạng nơ-ron phổ biến cho kết tốt tự động trích chọn thơng tin cần thiết học ngữ nghĩa từ liệu Mơ hình BERT chất dạng mơ hình huấn luyện trước, tận dụng nguồn liệu khơng có nhãn để học, sau dùng vào tốn khác Phân loại câu hỏi pháp quy tiếng Việt toán phân loại câu hỏi pháp luật thành lĩnh vực pháp lý Luận văn “Phân loại câu hỏi pháp quy tiếng Việt sử dụng mơ hình BERT” thực mơ hình hóa tốn dạng tốn phân lớp đa nhãn Trong câu hỏi thuộc nhiều lĩnh vực khác Luận văn thực phân loại câu hỏi sử dụng cách tiếp cận học máy giám sát, cụ thể sử dụng số mơ hình truyền thống SVM mơ hình BERT[18, 6] Kết thực nghiệm tốt đạt sử dụng mơ hình BERT 89.47% (độ đo F1) Nội dung luận văn trình bày ba chương sau:  Chƣơng 1: Giới thiệu toán phân loại câu hỏi pháp quy tiếng Việt : Trong chương này, luận văn giới thiệu toán phân loại câu hỏi, đặc điểm liệu câu hỏi pháp quy, số nghiên cứu liên quan, phương pháp phân loại câu hỏi kết luận chương  Chƣơng 2: Phân loại câu hỏi pháp quy tiếng Việt sử dụng mơ hình BERT : Trong chương 2, luận văn giới thiệu bái toán phân loại đa nhãn câu hỏi tiếng Việt, giới thiệu số mơ hình học sâu, giới thiệu phương pháp BERT trình bày mơ hình phân loại câu hỏi pháp quy tiếng Việt sử dụng mơ hình BERT  Chƣơng 3: Thực nghiệm đánh giá : Chương này, luận văn trình bày tổng quan kho ngữ liệu, cách thu thập, tiền xử lý, xây dựng tập nhãn thống kê kho ngữ liệu; sử dụng thư viện có sẵn cài đặt hệ thống phân loại câu hỏi áp dụng phương pháp đề xuất Chương 2; thực huấn luyện hệ thống với liệu tập nhãn xây dựng tthống kê đánh giá kết thực nghiệm CHƢƠNG 1: BÀI TỐN PHÂN LOẠI CÂU HỎI 1.1 Giới thiệu tốn phân loại câu hỏi Hệ thống hỏi đáp hệ thống đóng vai trị phổ biến việc tìm kiếm thơng tin nhanh chóng, xác hiệu Nhiệm vụ đưa câu trả lời r r r r r r r r r r r đầy đủ xác ứng với yêu cầu mong muốn người dùng câu trả lời r thể ngôn ngữ tự nhiên Một yếu tố đóng vai trị quan trọng r r r r r r r r r r r r r r r r r r r r r r r r hệ thống hỏi đáp phân loại câu hỏi Bài toán phân loại câu hỏi thực chất xem tốn phân lớp Phân loại câu hỏi việc gán nhãn phân loại cho câu hỏi dựa mức độ tương tự câu hỏi so với câu hỏi gán nhãn tập huấn luyện Việc phân loại câu hỏi thường thể cách gán cho câu hỏi nhãn có sẵn theo tập nhãn cho trước Bài tốn phân loại câu hỏi mơ tả sau:  Input: - Cho trước câu hỏi q - Tập chủ đề (phân loại) định nghĩa  Tìm câu hỏi q thuộc chủ đề nào?  Output: - Nhãn câu hỏi 1.2 Đặc điểm liệu câu hỏi pháp quy Văn pháp quy văn có quy phạm pháp luật quan quản lý nhà nước, trung ương, quan quyền lực nhà nước, quan quản lý nhà nước địa phương ban hành theo thẩm quyền lập quy Câu hỏi pháp quy có đặc điểm ý hỏi liên quan đến nhiều điều luật Thông thường, câu hỏi phân theo nhãn định, với câu hỏi pháp quy câu hỏi có nhiều nhãn ý hỏi câu hỏi có liên quan đến nhiều điều luật khác mà khơng thể ghép chung làm Ví dụ: câu hỏi “Chi phí cho tổ chức cơng chứng với giao dịch quyền sử dụng đất gắn liền với nhà ở?” có ý hỏi thuộc lĩnh vực “cơng chứng” lĩnh vực “phí lệ phí” 1.3 Một số nghiên cứu liên quan 1.3.1 Một số nghiên cứu cho phân loại đa nhãn Nhóm nghiên cứu David Vilar, Maria Jose Castro Emilio Sanchis[17] có nghiên cứu phân loại đa nhãn sử dụng mơ hình đa thức Áp dụng quy tắc phân loại đa nhãn, nhóm nghiên cứu xem xét nhiệm vụ phân loại văn Trong đó, văn gán vectơ W chiều ứng với số lượng từ, W kích thước từ vựng Biểu diễn gọi túi từ (bag-of-words) Nhóm nghiên cứu sử dụng phân loại Naive Bayes phần khởi tạo mơ hình kiện đa thức Kết phân loại văn với kho ngữ liệu Reuters-21578 họ cho thấy cách tiếp cận xác suất tích lũy sau thực tốt phân loại nhị phân sử dụng rộng rãi 1.3.2 Một số nghiên cứu cho phân loại câu hỏi tiếng Việt Hiện có nhiều nghiên cứu phân loại câu hỏi tiếng Việt đạt số thành tựu định Điển hình số nghiên cứu học sâu đạt kết tốt như: Phân loại câu hỏi không thành thật[8] xuất năm 2019 sử dụng kiến trúc mạng nơ-ron hồi quy Recurrent Neural Network (RNN) Long ShortTerm Memory (LSTM) Gated Recurrent Units (GRU) Họ sử dụng LSTM vec-tơ từ đào tạo để nắm bắt thông tin ngữ nghĩa cú pháp LSTM sử dụng để tránh vấn đề vanishing gradient (gradient có giá trị nhỏ dần theo lớp thực lan truyển ngược) Bên cạnh có nghiên cứu phân loại câu hỏi chuyên sâu sử dụng mạng thần kinh tích chập Convolutional Neural Networks (CNNs)[11] xuất năm 2017 Ý tưởng họ nghiên cứu mở rộng dựa công việc có để tạo CNN hai lớp phân loại câu hỏi thành danh mục phụ chúng 1.4 Các phƣơng pháp phân loại câu hỏi Hầu hết cách tiếp cận toán phân loại câu hỏi thuộc loại : tiếp cận dựa luật tiếp cận dựa học máy Tiếp cận dựa luật[3] cách tiếp cận cho đơn giản để phân loại r r r r r r r r r r r r r r r r r r câu hỏi Trong cách tiếp cận này, việc phân loại câu hỏi dựa vào luật ngữ pháp viết r tay r r r r r r r r r r r r r r r r r r Tiếp cận dựa học máy[3] cách tiếp cận sử dụng phổ biến rộng rãi để r r r r r r r giải toán phân loại câu hỏi r r r r r r r r r r r r r r r r r r Cách tiếp cận dựa học máy chia làm hai nhóm nhóm phương pháp học máy truyền thống nhóm phương pháp sử dụng mạng nơ-ron (Neural NetWork) Nhóm phương pháp học máy truyền thống thường sử dụng tính xác suất Nạve Bayes, Maximum Entropy, định (decision Tree), lân cận (Nearest-Neighbors), Máy Vector hỗ trợ (Support Vector machine - SVM), K-nearest neighbors (KNN), v.v 1.4.1 Phương pháp học máy truyền thống Với phương pháp học máy truyền thống SVM, KNN, định, v.v trình phân loại liệu văn (document, câu) thường gồm hai giai đoạn sau:  Giai đoạn huẩn luyện: r r r Ngữ liệu huấn luyện Tiền xử lý Vector hóa Mơ hình phân loại Thuật tốn huấn luyện Trích chọn đặc trưng Hình 1-1 Mơ hình giai đoạn huấn luyện [2]  Giai đoạn phân lớp: r r r Vector hóa Câu hỏi Tiền xử lý Nhãn cho câu hỏi Sử dụng mơ hình phân loại Trích chọn đặc trưng Hình 1-2 Mơ hình giai đoạn phân lớp [2]  Mơ hình SVM[3] Giải thuật máy vector hỗ trợ SVM đời từ lý thuyết học thống kê Vapnik Chervonenkis xây dựng năm 1995[4] Đây giải thuật phân lớp phổ biến, có r r r r r r r r r r r hiệu cao áp dụng nhiều lĩnh vực khai phá liệu nhận dạng r r r r r r r r r r r r r r r r r r Phương pháp thực phân lớp dựa nguyên lý Cực tiểu hóa rủi ro có r r r r r r r r r r r r r r r r r cấu trúc SRM (Structural Risk Minimization) [5], xem phương r pháp phân lớp giám sát không tham số tinh vi r r r r r r r r r r r r r r r r r r r r r r SVM cho trước tập liệu huấn luyện bao gồm liệu với nhãn r r r r r r r r r r r r r r r r r chúng thuộc lớp cho trước, biểu diễn khơng gian vector, r liệu điểm, phương pháp tìm siêu phẳng định tốt r chia điểm không gian thành hai lớp riêng biệt tương ứng lớp (+) lớp r (-) Chất lượng siêu phẳng định khoảng cách (gọi biên hay lề) r điểm liệu gần lớp đến mặt phẳng Khi đó, khoảng cách biên r lớn mặt phẳng định tốt, đồng thời việc phân loại xác r r r r r r r r r r r r r r r r r r r r r r r r r r r r r r r r r r r r r r r r r r r r r r r r r r r r r r r r r r r r r r r r r r r r r r r r r r r r r r r r r r r r r r r r r r r r r r r r r r r r Mục đích phương pháp SVM tìm khoảng cách biên lớn nhất, điều r r r r r r r r r r r r r r r họa sau: r r r r r Hình 1-3 Siêu phẳng phân chia liệu học thành lớp (+) (-) với khoảng cách biên lớn Các biên gần (điểm đƣợc khoanh tròn) Support Vector[5] Đây mơ hình mạnh xác số mơ hình tiếng phân lớp liệu 1.4.2 Phương pháp sử dụng mạng nơ-ron Với phương pháp sử dụng mạng nơ-ron LSTM, CNN, RNN, v.v trình phân loại liệu văn gồm hai giai đoạn:  Giai đoạn huẩn luyện: r r Ngữ liệu huấn luyện r Biểu diễn liệu Mạng nơ-ron Mơ hình phân loại Hình 1-4 Mơ hình giai đoạn huấn luyện sử dụng mạng nơ-ron  Giai đoạn phân lớp: Sử dụng mô hình phân loại Biểu diễn liệu Câu hỏi Nhãn cho câu hỏi Hình 1-5 Mơ hình giai đoạn phân lớp sử dụng mạng nơ-ron  Mơ hình LSTM[22] LSTM (Long short term memory) mơ hình có khả học phụ thuộc dài hạn tức có khả ghi nhớ thông tin khứ dự đốn giá trị tương lai Chìa khóa LSTM trạng thái tế bào (cell state) - đường nằm ngang đến phía sơ đồ hình vẽ, dạng bang chuyền Trạng thái tế r r r r bào sử dụng để lưu trữ lan truyền thơng tin có ích mạng, tương tự r nhớ cục mạng r r r r r r r r r r r r r r r r r r r r r r r r r Hình 1-6 Tế bào trang thái LSTM giống nhƣ băng chuyền [22] Mấu chốt LSTM trạng thái ô, đường ngang chạy dọc theo đỉnh sơ đồ Trạng thái tế bào giống băng chuyền Nó chạy thẳng qua tồn chuỗi, vài tương tác tuyến tính nhỏ thực Điều làm cho thông tin có khả thay đổi suốt q trình lan truyền  Mơ hình BERT[23] BERT (Bidirectional Encoder Representations from Transformers) hiểu mơ hình học trước hay gọi pre-train model, học vector đại diện theo ngữ cảnh hai chiều từ, sử dụng để chuyển sang toán khác lĩnh vực xử lý ngôn ngữ tự nhiên BERT thành công việc cải thiện công r r r r r r r r r r r việc việc tìm đại diện từ khơng gian số (khơng gian mà máy tính có r thể hiểu được) thơng qua ngữ cảnh r r r r r r r r r r r r r r r r r r r r r r r r r r Mơ hình BERT tạo biểu diễn theo ngữ cảnh dựa từ trước sau r r r r r r r r r r r r r r r r r r để dẫn đến mơ hình ngơn ngữ với ngữ nghĩa phong phú Điều cho thấy r r r r r r r r r r r r r r mơ hình BERT mở rộng khả phương pháp trước Các mơ hình ngơn ngữ dựa LSTM (Long Short Term Memory) hai chiều đào tạo mơ hình ngơn ngữ tiêu chuẩn từ trái sang phải đào tạo mơ hình ngơn ngữ từ phải sang trái (đảo ngược) dự đốn từ trước, từ Sự khác biệt quan trọng không LSTM đưa hai mã thông báo trước sau vào tài khoản lúc Vì vậy, luận văn chọn mơ hình BERT để thực nghiên cứu lần 1.5 Kết luận chƣơng Chương giới thiệu tổng quan toán phân loại câu hỏi, nêu bật đặc điểm liệu câu hỏi pháp quy, đưa nghiên cứu phân loại câu hỏi liên quan giới thiệu số phương pháp phân loại câu hỏi 10  Xây dựng nhiều phân loại nhị phân Mỗi bước nhãn có phân loại nhị phân kiểm tra Yes/No có thuộc vào lớp không  Xây dựng phân loại đa nhãn 2.2.1 Giải pháp theo phân loại nhị phân Luận văn xây dựng 34 phân loại nhị phân Mục đích phân loại nhị phân xác định xem câu hỏi có chứa nhãn thuộc loại hay khơng Mỗi phân loại nhị phân có nhãn Cần xác định nhãn cho câu hỏi luận văn cho chạy qua 34 phân loại Cái trả lời Yes nhãn cho câu hỏi Input Nhãn Yes/No Nhãn Yes/No … … Nhãn 34 Tổng hợp Tập nhãn Yes/No Hình 2-1 Mô hinh giải pháp phân loại theo phân loại nhị phân 2.2.2 Giải pháp theo phân loại đa nhãn Luận văn xây dựng phân lớp 34 nhãn Để xác định nhãn cho câu hỏi luận văn cho chạy lần phân lớp lấy xác suất so sánh xác suất với ngưỡng (chọn ngưỡng 0.5) Lớp có xác suất lớn ngưỡng nhãn cho câu hỏi Nếu trường hợp lớp có xác suất nhỏ ngưỡng coi tốn phân loại đa lớp, chọn lớp có xác suất lớn nhãn câu hỏi Xác suất nhãn Input Bộ phân loại Xác suất nhãn Tổng hợp Tập nhãn … Xác suất nhãn 34 Hình 2-2 Mơ hình giải pháp phân loại theo phân loại đa nhãn 11 2.3 Một số mơ hình học sâu 2.3.1 Mơ hình mạng nơ-ron hồi quy (RNN - Recurrent Neural Network) RNN[24] chuỗi khối mạng nơ-ron liên kết với chuỗi Mỗi khối chuyển tin nhắn đến khối RNN coi liệu đầu vào chuỗi (sequence) liên tục, nối thứ tự thời gian Mơ hình hoạt động RNN mơ tả hình đây: Hình 2-3 Mơ hình mạng nơ-ron hồi quy RNN mơ hình mạng nơ-ron có “bộ nhớ” để lưu trữ thông tin phần xử lý trước RNN tỏ hiệu với chuỗi liệu có độ dài khơng q lớn (shortterm memory hay gọi long-term dependency problem) Nguyên nhân vấn đề vanishing gradient problem (gradient có giá trị nhỏ dần theo lớp thực lan truyển ngược) Ứng dụng toán phân lớp Việc giải toán phân loại bao gồm việc giải chuỗi toán nhỏ Chuỗi toán nhỏ gọi pipline mơ hình học máy Phân loại văn sử dụng mơ hình mạng RNN gồm bước sau: Tiền xử lý Xây dựng model vector hóa worrd2vec Kiểm tra model Huấn luyện model Word embedding Xây dựng model LSTM Hình 2-4 Các bƣớc tốn phân loại văn sử dụng mạng nơ-ron RNN 2.3.2 Mô hình mạng nơ-ron tích chập (Convolutional Neural Network – CNN) 12 Mạng CNN[25] tập hợp lớp Convolution chồng lên sử dụng r r r r r r r r r r r r r r r hàm nonlinear activation ReLU để kích hoạt trọng số r node r r r r r r r r r r r r r r r CNN đơn giản chuỗi lớp lớp ConvNet chuyển đổi lượng kích hoạt thành lượng kích hoạt khác thơng qua chức phân biệt CNN sử dụng ba loại lớp để xây dựng kiến trúc: Lớp Convolutions (Convolutional Layer), Lớp tổng hợp (Poolong Layer) Lớp kết nối đầy đủ (Fully-Connected Layer) (chính xác thấy Mạng thần kinh thông thường) Các lớp xếp chồng để tạo thành kiến trúc CNN đầy đủ Hình 2-5 Bên trái: Mạng nơ-ron ba lớp thông thƣớng Bên phải: Một CNN xếp theo nơ-ron theo ba chiều (chiều rộng, chiều cao, chiều sâu) Trong mơ hình CNN có khía cạnh cần quan tâm tính bất biến (Location Invariance) tính kết hợp (Compositionality) Với đối tượng, đối tượng r r r r r r r r r chiếu theo gốc độ khác (translation, rotation, scaling) độ r xác thuật toán bị ảnh hưởng đáng kể r r r r r r r r r r r r r r r r r r r r r r r r r CNNs cho mơ hình với độ xác cao Cũng giống cách người r r r r r r r r r r r r r r r r nhận biết vật thể tự nhiên r r r r r r r Ứng dụng toán phân lớp Trong tốn phân lớp văn bản, mơ hình CNN sử dụng lọc có kích thước khác kích thước có lọc khác Các lọc thực nhân tích chập (convolution) lên ma trận câu văn đầu vào lọc tạo map lưu trữ đặc trưng (featues map) Các map đặc trưng map qua qua 1-max pooling Tức giá trị lớn map đặc trưng lưu lại Do vậy, vector có phần tử tạo map đặc trưng Sau đó, giá trị nối lại với tạo nên lớp áp chót Và cuối cùng, kết qua hàm softmax nhận vector đặc trưng dùng để dự đốn nhãn cho văn 13 Hình 2-6 Kiến trúc mơ hình CNN dùng phân loại văn 2.4 Giới thiệu phƣơng pháp BERT BERT[26](Bidirectional Encoder Representations from Transformers) (tạm dịch: Mô hình mã hóa hai chiều liệu từ khối Transformer), phương pháp kỹ thuật xây dựng dựa mơ hình mạng mơ theo hệ thống nơ-ron thần kinh người (neural network) dùng để đào tạo trước (pre-train) q trình xử lý ngơn ngữ tự nhiên Điểm đột phá BERT nằm khả huấn luyện mơ hình ngơn ngữ dựa toàn tổ hợp từ câu truy vấn (huấn luyện hai chiều), thay cách thức huấn luyện truyền thống dựa thứ tự xuất từ (từ trái qua phải kết hợp trái qua phải phải qua trái) Kiến trúc mơ hình BERT mã hóa Transformer hai chiều (bidirectional Transformer encoder) Bộ mã hóa hai chiều (bidirectional encoder) tính bật giúp phân biệt BERT với OpenAI GPT (sử dụng từ trái sang phải Transformer) ELMo (kết hợp huấn luyện từ trái sang phải mạng riêng rẽ phải sang trái LSTM) 14 Hình 2-7 Kiến trúc mơ hình BERT [28] 2.5 Mơ hình phân loại câu hỏi pháp quy tiếng Việt sử dụng mơ hình BERT 2.5.1 Biểu diễn đầu vào Đầu vào biểu diễn câu văn đơn cặp câu văn r r r r r r r r r r r r r r r r r r bản(ví dụ: [Câu hỏi, câu trả lời]) đặt thành chuỗi tạo từ r r r r r r r r r r r r r r r Chuỗi đầu vào BERT biểu diễn cách tường minh văn đơn cặp văn Với văn đơn, chuỗi đầu vào BERT ghép nối token phân loại đặc biệt “”, token chuỗi văn bản, token phân tách đặc biệt “” Với cặp văn bản, chuỗi đầu vào BERT ghép nối “”, token chuỗi văn đầu, “”, token chuỗi văn thứ hai, “” Hình 2-8 Mơ hình đại diện đầu vào BERT [28] Trong trường hợp cặp câu gộp lại với thành chuỗi nhất, r r r r r r r r r r r r r r r r phân biệt câu theo cách tách chúng token đặc biệt [SEP] r thêm segment embedding cho câu r r r r r r r r r r r r r r r r r r r r 15 2.5.2 Mơ hình huấn luyện Mơ hình huấn luyện gồm hai giai đoạn học mơ hình huấn luyện trước sử dụng mơ hình BERT học có giám sát để đào tạo lớp cuối cho nhiệm vụ phân loại Hình 2-3 Mơ hình huấn luyện phân loại đa nhãn sử dụng mơ hình Bert Các token câu đưa vào mơ hình huấn luyện trước Bert tạo Embedding Các Embedding đưa vào Fine-tuning sử dụng mơ hình học có giám sát để phân loại 2.6 Kết luận chƣơng Nội dung chương giới thiệu toán phân loại đa nhãn câu hỏi tiếng Việt, giới thiệu số mơ hình học sâu, giới thiệu phương pháp BERT đưa mơ hình phân loại câu hỏi pháp quy tiếng Việt sử dụng mơ hình BERT 16 CHƢƠNG 3: THỰC NGHIỆM ĐÁNH GIÁ 3.1 Xây dựng kho ngữ liệu Việc thực xây dựng kho ngữ liệu luận văn thực theo giai đoạn mơ hình đây: Thu thập liệu Website Câu hỏi thô (Trang hỏi đáp pháp luật) Gán nhãn Kho ngữ liệu Tiền xử lý Hình 3-1 Mơ hình xây dựng kho ngữ liệu 3.1.1 Thu thập liệu Luận văn lấy liệu từ trang web:  Hỏi đáp tư vấn pháp luật: https://hdpl.moj.gov.vn/Pages/home.aspx  Hỏi đáp pháp luật: https://hoidapphapluat.net/  Hệ thống pháp luật Việt Nam, chuyên trang pháp luật tư vấn: http://hethongphapluatvietnam.com/hoi-dap-phap-luat.html Dữ liệu gồm 5000 câu hỏi lĩnh vực pháp luật Nội dung hỏi đáp quy định, thủ tục điều luật pháp luật 3.1.2 Tiền xử lý Dữ liệu sau thu thập từ trang web tiến hành tiền xử lý Luận văn thực tiền xử lý liệu cách loại bỏ số nhiễu như: câu sai tả, lỗi font 3.1.3 Gán nhãn Tập nhãn luận văn xây dựng gồm 34 nhãn 17 Bảng 3-1 Bảng nhãn ví dụ Nhãn Ví dụ Ban hành văn quy phạm pháp luật Văn quy phạm pháp luât hết hiệu lực trường hợp nào? Bảo hiểm Quy định pháp luật thời gian nghỉ hưởng chế độ thai sản? Bảo vệ môi trường Tập trung chăn nuôi quy mô lớn có phải đáp ứng điều kiện mơi trường khơng? Cán bộ, cơng chức, viên chức Pháp luật quy định nghĩa vụ công chức thi hành công vụ nào? Công chứng Công chứng viên thành lập văn phịng cơng chứng cần làm nào? Cơng dân Người nhà xin hộ giấy xác nhận tình trạng độc thân để đăng ký kết với người nước ngồi khơng hay phải người trực tiếp? Cư trú Chủ hộ muốn tách hộ cho thành viên có khơng? Dân Xin cho biết, pháp luật có quy định vấn đề trổ cửa sổ sang nhà hàng xóm khơng? Giao thơng đường Mua xe ô tô cũ, mua qua nhiều người phải làm thủ tục để sang tên chủ, việc đăng ký khác tỉnh? Giám định tư pháp Quy định pháp luật văn phịng giám định tư pháp? Hình Bị phạt tù hưởng án treo tội đánh bạc, tiếp tục vi phạm tội đánh bạc bị xử lý nào? Hơn nhân gia đình Tài sản mua từ tài sản riêng vợ/chồng thời kỳ nhân có phải tài sản chung vợ chồng không? Khiếu nại, tố cáo Công dân quyền kiếu nại định hành quan hành khơng? Kinh tế Thời hạn gửi giấy đòi nợ chủ nợ doanh nghiệp phá sản bao lâu? Lao động Hợp đồng thử việc có thời gian bao lâu? Lý lịch tư pháp Cập nhật thông tin lý lịch tư pháp trường hợp người bị kết án xố án tích thực nào? Nhà Có chấp nhà hình thành tương lai tổ chức khơng phải tổ chức tín dụng khơng? 18 Ni nuôi Trẻ bị bỏ rơi hiểu nào? Phí lệ phí Lệ phí cấp giấy chứng nhận đăng ký xe? Phòng, chống ma túy Muốn cai nghiện ma túy gia đình cần đăng ký nào? Quản lý, sử dụng Tài sản công quan nhà nước bán lý trường hợp nào? Quốc phòng Đã đăng ký nghĩa vụ qn mà thay đổi nơi cư trú có phải làm thủ tục đăng ký thay đổi không? Quốc tịch Việt Nam Hồ sơ xin nhập quốc tịch Việt Nam trường hợp nhập quốc tịch việt nam người khơng có quốc tịch cư trú ổn định việt nam? Thi hành án Tài sản chung vợ chồng bị cưỡng chế thi hành án xử lý nào? Thuế Lệ phí trước bạ đối cấp giấy chứng nhận đất? Trách nhiệm bồi thường Nhà nước Phạm vi trách nhiệm bồi thường nhà nước hoạt động quản lý hành chính? Tố tụng Hết thời hiệu khởi kiện thừa kế thừa kế có tranh chấp giải nào? Tổ chức phủ Người có quyền yêu cầu cấp học bạ? Tổ chức quan, quyền Những nhiệm vụ quyền hạn chủ tịch ủy ban nhân dân xã? Xây dựng Đề nghị cho biết cơng trình xây dựng phải xin cấp Giấy phép xây dựng? Xử lý vi phạm hành Pháp luật quy định hành vi vi phạm hành chính, hình thức xử phạt biện pháp khắc phục hậu hoạt động trọng tài thương mại? Đất đai Được Nhà nước giao đất theo diện giãn dân có xem xét để cấp giấy chứng nhận quyền sử dụng đất không? Đấu giá tài sản Các tài sản phải thông qua bán đấu giá? Đầu tư Những dự án đầu tư nước ngồi phải Quốc Hội định chủ trương đầu tư? 19 3.1.4 Cách gán nhãn thủ công Giai đoạn gán nhãn thủ công luận văn thực hai người gán nhãn Luận văn sử dụng độ đo Cohen’s kappa tính tốn độ tương đồng gán nhãn hai người Áp dụng vào liệu, kết đo độ tương đồng phân loại hai người 0.99 Kết cho thấy hai người gán nhãn tương đồng với 3.1.5 Thống kê kho ngữ liệu Dữ liệu gồm 5896 câu lĩnh vực pháp luật Nội dung câu hỏi pháp luật Kho ngữ liệu bao gồm 5896 câu, tổng 324095 từ, số từ trung bình câu 54 từ, số từ (khơng tính lặp) tồn kho ngữ liệu 1285 từ Tổng số nhãn 34 Bảng 3-2 Thống kê tần suất nhãn kho ngữ liệu STT Nhãn Số Tỉ lệ STT Nhãn Số Tỉ lệ câu kho ngữ câu kho ngữ hỏi liệu (%) hỏi liệu (%) Ban hành văn quy phạm pháp luật 18 0,31 18 Nuôi ni 135 2,29 Bảo hiểm 29 0,49 19 Phí lệ phí 83 1,41 Bảo vệ mơi trường 12 0,20 20 Phòng, chống ma túy 47 0,80 Cán bộ, công chức, viên chức 14 0,24 21 Quản lý, sử dụng 13 0,22 Công chứng 327 5,55 22 Quốc phịng 16 0,27 Cơng dân 405 6,87 23 Quốc tịch Việt Nam 67 1,14 Cư trú 162 2,75 24 Thi hành án 636 10,79 Dân 1234 20,93 25 Thuế 30 0,51 Giao thông đường 65 1,10 26 Trách nhiệm bồi thường 120 2,04 20 Nhà nước 10 Giám định tư pháp 22 0,37 27 Tố tụng 317 5,38 11 Hình 484 8,21 28 Tổ chức phủ 193 3,27 12 Hơn nhân gia đình 552 9,36 29 Tổ chức quan, quyền 20 0,34 13 Khiếu nại, tố cáo 42 0,71 30 Xây dựng 24 0,41 14 Kinh tế 114 1,93 31 Xử lý vi phạm hành 263 4,46 15 Lao động 90 1,53 32 Đất đai 469 7,95 16 Lý lịch tư pháp 91 1,54 33 Đấu giá tài sản 30 0,51 17 Nhà 75 1,27 34 Đầu tư 28 0,47 Bảng 3-3 Thống kê câu hỏi theo lƣợng nhãn Số nhãn Số câu hỏi 5579 307 4 3.2 Thiết lập thực nghiệm Với liệu chuẩn bị cho thực nghiệm, luân văn lấy 5896 câu hỏi pháp quy tiếng Việt Từ liệu này, luận văn chia thành 10 liệu, liệu xây dựng cách ngẫu nhiên tập liệu có Kết thu 10 lần thực nghiệm tính trung bình để kết thực nghiệm Để đánh giá kết việc xác định thực thể thuộc tính ta đánh giá thơng qua độ xác (precision), độ bao phủ (recall) F1 21 3.3 Công cụ thực nghiệm Luận văn sử dụng công cụ thực nghiêm sklearn svm Linear SVC sử dụng cho mơ hình SVM simpletransformers sử dụng cho hai mơ hình cịn lại BERT multilingual PHOBERT Cả mơ hình sử dụng cơng cụ python 3.4 Các mơ hình thực nghiệm Phương pháp phân loại dựa học máy đươc chia làm nhóm phương pháp học máy truyền thống phương pháp học máy sử dụng mạng nơ-ron Do vậy, luận văn lựa chọn thực nghiệm hai mơ hình đại diện cho hai nhóm phương pháp mơ hình SVM đại diện cho nhóm phương pháp học máy truyền thống, mơ hình BERT đại diện cho nhóm phương pháp học máy sử dụng mạng nơ-ron  Mơ hình SVM Mơ hình SVM luận văn thực nghiệm sử dụng pipeline để thực bước theo trình tư với đối tượng, dùng TfidfVectorizer để thay đổi vectơ văn tạo vectơ đếm dùng hỗ trợ máy vector LinearSVC  Mơ hình BERT multilingual BERT multilingual mơ hình google BERT đa ngơn ngữ Mơ hình đào tạo trước 104 ngơn ngữ hàng đầu có Wikipedia lớn cách sử dụng mục tiêu tạo mơ hình ngơn ngữ bị che (masked language modeling - MLM) Mơ hình phân biệt chữ hoa chữ thường Luận văn sử dụng mơ hình huấn luyện trước bert-base-multilingual-cased Trong mơ hình huấn luyện, luận văn sử dụng ClassificationModel simpleTransformer để tạo mơ hình huấn luyện Luận văn thực huấn luyện với số lượng train epochs 10  Mô hình PHOBERT PHOBERT[27] mơ hình huấn luyện trước, đặc biệt huấn luyện dành riêng cho tiếng Việt PHOBERT huấn luyện dựa kiến trúc cách tiếp cận giống RoBERTa Tương tự BERT, PHOBERT có hai phiên PHOBERT base với 12 transformers block PHOBERT large với 24 transformers block Trong nghiên cứu này, luận văn thử nghiệm với mơ hình PHOBERT base Luận văn sử dụng bpe mơ hình để encode câu hỏi thành danh sách 22 subword Mô hình có dict chứa từ điển sẵn có PHOBERT Luận văn sử dụng từ điển để giúp ánh xạ ngược từ subword id từ vựng cung cấp sẵn Xây dựng model huấn luyện PHOBERT có hai lựa chọn Fairseq Transformer Ở luân văn lựa chọn thử nghiệm với Transformer sử dụng BertForSequenceClassification để tạo model Trong phân loại binary luận văn thực huấn luyện với số lượng epochs 10, batch_size 32, hidden_dropout_prob 0.1 Với mơ hình luận văn thực nghiệm hai phương pháp phân loại nhị phân phân loại đa nhãn 3.5 Kết thực nghiệm 3.5.1 Phân loại binary Bảng 1-4 Kết thực nghiệm phân loại binary mơ hình Mơ hình PRECISION(%) RECALL(%) F1(%) SVM 92,68 83,64 87,93 BERT multilingual 88,14 85,59 86,85 PHOBERT 88,79 75,28 81,48 Từ bảng kết nhận thấy với độ đo F1 mơ hình SVM cho kết tốt (87,93%), cao mơ hình BERT multilingual (86,85%) 1,08% cao 6,45% so với mơ hình PHOBERT(81,48%) Mơ hình PHOBERT cho kết thấp 3.5.2 Phân loại đa nhãn Bảng 3-5 Bảng kết thực nghiệm mơ hình Phƣơng pháp SVM BERT PHOBERT Đa nhãn 87,39 89,47 86,65 Binary 87,93 86,85 81,48 Từ bảng kết nhận thấy: - Kết phân loại đa nhãn sử dụng mơ hình BERT multilingual đạt kết tốt (89,47%) 23 - Kết thu từ mơ hình SVM theo phương pháp phân loại nhị phân 87,93% với mơ hình SVM theo phương pháp phân loại đa nhãn cao 0,54% Kết thu từ mơ hình PHOBERT theo phương pháp phân loại nhị phân 81,48% thấp 5,17% so với phương pháp phân loại đa nhãn (86,65%) - SVM ổn định cho hai phương pháp 87% Với mô hình dùng BERT phân loại đa nhãn tốt binary Có thể mạng nơ-ron đủ phức tạp để mơ hình hóa vấn đề học đa nhãn nên tốt trường hợp đa nhãn 3.6 Kết luận chƣơng Chương trình bày cách thiết lập thực nghiệm, mơ tả mơ hình thực nghiệm, giới thiệu công cụ thực nghiệm, đưa kết phân tích đánh giá kết thực nghiệm 24 KẾT LUẬN Phân loại câu hỏi tiếng Việt khơng cịn vấn đề mới, phân loại câu hỏi pháp quy tiếng Việt nghiên cứu mà có nghiên cứu vấn đề Khác với phân loại câu hỏi thơng thường, câu hỏi pháp quy có đặc điểm ý hỏi liên quan đến nhiều điều luật Thông thường, câu hỏi phân theo nhãn định, với câu hỏi pháp quy câu hỏi có nhiều nhãn ý hỏi câu hỏi có liên quan đến nhiều điều luật khác mà ghép chung làm Vì việc giải toán phân loại câu hỏi pháp quy tiếng Việt có phần phức tạp phân loại câu hỏi thơng thường Từ việc giải tốn giúp góp phần đem lại thuận tiện cho người dùng việc thu thập tìm kiếm thơng tin pháp luật Nhìn chung, luận văn đạt được: - Nghiên cứu cho toán phân loại câu hỏi pháp quy Tiếng Việt tốn cịn nghiên cứu - Xây dựng liệu cho toán - Nghiên cứu nghiên cứu ban đầu đóng góp liệu cho nghiên cứu - Nghiên cứu số phương pháp phân loại dưa học máy sử dụng mơ hình BERT mơ hình huấn luyện sẵn mà đạt kết phương pháp đại xử lý ngôn ngữ tự nhiên - Thực nghiệm, phân tích, đánh giá kết tìm trường hợp cho kết tốt Về hướng phát triển tương lai, luận văn tiến hành phát triển tập liệu câu hỏi pháp quy tiếng Việt lớn nghiên cứu sử dụng thêm nhiều phương pháp, góp phần cải thiện tốt khả phân loại Ngoài luận văn nghiên cứu thử nghiệm với số mơ hình khác để tìm mơ hình phù hợp với tốn phân loại câu hỏi pháp quy tiếng Việt ... lĩnh vực pháp luật Việc phân loại câu hỏi pháp quy tiếng Việt đặt câu hỏi thuộc số lĩnh vực Vì vậy, tốn phân loại câu hỏi pháp quy tiếng Việt toán phân loại đa nhãn câu hỏi pháp quy tiếng Việt Các... câu hỏi liên quan giới thiệu số phương pháp phân loại câu hỏi 9 CHƢƠNG 2: PHÂN LOẠI CÂU HỎI PHÁP QUY TIẾNG VIỆT SỬ DỤNG MƠ HÌNH BERT 2.1 Bài toán phân loại đa nhãn câu hỏi tiếng Việt Phân loại. .. toán phân loại câu hỏi pháp quy tiếng Việt : Trong chương này, luận văn giới thiệu toán phân loại câu hỏi, đặc điểm liệu câu hỏi pháp quy, số nghiên cứu liên quan, phương pháp phân loại câu hỏi

Ngày đăng: 13/06/2021, 16:44

Xem thêm:

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w