Đồ án môn học ( xử lý NGÔN NGỮ tự NHIÊN ) CHỈNH sửa và KHÔI PHỤC dấu THANH TRONG văn bản TIẾNG VIỆT BẰNG PHƯƠNG PHÁP học sâu

TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN TP.HCM CAO HỌC KHÓA 30 Chuyên ngành: KHOA HỌC DỮ LIỆU Đồ án mơn học: ( XỬ LÝ NGƠN NGỮ TỰ NHIÊN ) CHỈNH SỬA VÀ KHÔI PHỤC DẤU THANH TRONG VĂN BẢN TIẾNG VIỆT BẰNG PHƯƠNG PHÁP HỌC SÂU Giảng viên hướng dẫn: Danh sách nhóm: PGS.TS Đinh Điền Phạm Đình Duy Phạm Phi Nhung Nguyễn Mạnh Phú MSHV: 20C29005 MSHV: 20C29031 MSHV: 20C29032 TP Hồ Chí Minh, tháng 03 năm 2021 TIEU LUAN MOI download : skknchat@gmail.com Mục lục TỔNG QUAN: 1.1 Giới thiệu toán: 1.2 Các hướng tiếp cận: 1.3 Phạm vi toán thực hiện: 2 KIẾN THỨC CƠ SỞ: 2.1 Chính tả 2.2 Mơ hình ngơn ngữ N-gram 2.3 Học sâu (Deep learning) 2.4 Recurrent Neural Network biến thể LSTM 2.4.1 RNN 2.4.2 LSTM (Long Short Term Memory) 2.5 Nhúng từ - Word Embedding 2.6 Accuracy 4 5 7 PHƯƠNG PHÁP ĐỀ XUẤT KẾT QUẢ THỰC NGHIỆM: 3.1 Mô tả liệu 3.2 Tiền xử lý liệu 3.3 Xây dựng mơ hình: 3.4 Kết 3.5 Kết tập test: 3.6 Đánh giá định hướng phát triển 9 10 11 11 13 TÀI LIÊU THAM KHẢO 13 i TIEU LUAN MOI download : skknchat@gmail.com Danh sách hình vẽ 2.1 2.2 2.3 2.4 2.5 ví dụ Trigam Language Models Mạng nơ-ron, tổ chức theo lớp bao gồm tập hợp cấu trúc RNN cấu trúc LSTM mã hóa giải mã văn thành ma trận nút kết nối với 6 7 3.1 3.2 3.3 3.4 3.5 3.6 3.7 3.8 Thống kê số lượng độ dài câu liệu Thống kê N-grams dựa liệu Mơ hình Deep Learning với lớp LSTM Kết thử nghiệm sau epoch Kết thử nghiệm sau 50 epochs Kết sau 300 epochs Kết sau huấn luyện đoạn đầu vào Kết chạy thử nghiệm với nội dung truyện ngắn 10 10 11 11 12 12 12 TIEU LUAN MOI download : skknchat@gmail.com Chương TỔNG QUAN: Nội dung trình bày chương bao gồm giới thiệu chung toán, hướng tiếp cận đề xuất giải pháp 1.1 Giới thiệu tốn: Chính tả có vai trị quan trọng cá nhân cộng đồng xã hội Vấn đề viết tả ln đặt để nâng cao hiệu sử dụng tiếng Việt Tuy nhiên, từ lâu, nhiều lí khác nhau, mắc lỗi tả trở thành bệnh trầm kha nhiều người Việt, người lớn mắc, trẻ em mắc, người học mắc, người học nhiều mắc, điều ảnh hưởng khơng nhỏ tới hiệu giao tiếp làm sáng tiếng Việt Bảng 1.1 số ví dụ cho thấy lỗi tả thường gặp liên quan đến dấu Và vấn đề khó người viết sai tả họ thường khơng biết sai lỗi sai bị lặp lại nhiều lần dễ dẫn đến trở thành thói quen Từ sai chia chỉnh sữa chẵng lẻ có lẻ cổ máy cặp bến giúp đở kỹ niệm kiễm tra nổ lực nỗ rãnh rỗi từ chia sẻ chỉnh sửa chắng lẽ có lẽ cỗ máy cập bến giúp đỡ kỷ niệm kiểm tra nỗ lực nổ rảnh rỗi Bảng 1.1: Ví dụ sai dấu 1.2 Các hướng tiếp cận: Trong năm đầu kỷ 21, nhiều phương pháp đề xuất cho việc tự động khôi phục dấu văn Tiếng việt, bao gồm [3]: • Vietpad (Quan,2002) sử dụng tập tin lưu trữ tất từ tiếng Việt (từ điển): họ sử dụng tệp Dictio Nary từ khơng có dấu ánh xạ 1-1 thành từ có dấu TIEU LUAN MOI download : skknchat@gmail.com Xử lý ngôn ngữ tự nhiên Tuy nhiên, từ điển lưu trữ từ ngữ sử dụng nên số trường hợp VietPad có sai sót (độ xác khoảng 60-85% phụ thuộc tùy theo văn tương ứng) • AMPAD(TAM,2008) cơng cụ xây dựng để phục hồi dấu tiếng Việt Với ý tưởng sử dụng tần số thống kê từ khơng dấu sử dụng thuật tốn lựa chọn nhằm đưa từ có xác suất cao (độ xác khoảng 80% cao bình luận trị lĩnh vực khoa học, 50% tài liệu chuyên ngành thơ có cấu trúc) • VietEditor(LAN,2005) ý tưởng với Vietpad mức độ cải thiện Nó sử dụng tập từ điển lưu trữ cụm từ thường sử dụng giúp chương trình kiểm tra thêm để tìm từ thích hợp • Viaccent (Truyen et al., 2008) mơ hình hướng đến tốc độ khơi phụ dấu văn Ý tưởng sử dụng mơ hình ngơn ngữ N-gram (được báo cáo the conference PRICAI 2008 (The Pacific Rim International Conference on Artificial Intelligence) • The VnMark (Toan, 2008) sử dụng mơ hình GUAGE N-Gram để tạo tệp từ điển, điều cho thấy khả xuất sử dụng cụm âm tiết văn tiếng Việt 1.3 Phạm vi toán thực hiện: Do giới hạn thời gian lượng kiến thức, đề tài chủ yếu giải việc chỉnh sửa khôi phục dấu tiếng Việt, hướng đến đào tạo mơ hình học sâu để tự động hóa u cầu tốn Trong đó, chuỗi lớp LSTM chọn với xấp xỉ 1.5 triệu tham số huấn luyện với liệu đầu vào tệp tin 150MB gồm viết tin tức viết tiếng Việt với trình xử lý khoảng 97% độ xác so với thực tế TIEU LUAN MOI download : skknchat@gmail.com Chương KIẾN THỨC CƠ SỞ: Nội dung chương xoay quanh khái niệm, kiến thức liên quan đến đề tài 2.1 Chính tả Định nghĩa: Chính tả: Được hiểu "phép viết đúng" "lối viết hợp với chuẩn" Nói cách khác tả tiêu chuẩn chữ viết ngơn ngữ Yêu cầu tả phải thống cách viết cụ thể phạm vi toàn quốc tất loại hình văn viết [2] Tác hại việc sai tả: Sai tả dễ dàng dẫn tới hiểu lầm nội dung trao đổi đề cập văn Ngồi ra, tần suất sai tả hay việc viết sai tả thể mức độ tư trình độ văn hóa người sử dụng tiếng việt Điều làm giảm mức độ uy tín ảnh hưởng đến tin tưởng người khác.[1] 2.2 Mơ hình ngơn ngữ N-gram Mơ hình ngơn ngữ Mơ hình ngơn ngữ phân bố xác suất tập văn bản, cho biết xác suất câu (hoặc cụm từ) thuộc ngơn ngữ Mơ hình ngơn ngữ áp dụng nhiều lĩnh vực xử lý ngôn ngữ tự nhiên như: kiểm tra lỗi tả, dịch máy hay phân đoạn từ Mơ hình ngơn ngữ N-gram Nhiệm vụ mơ hình ngơn ngữ cho biết xác suất câu w1 w2 wm Dựa theo công thức Bayes: P (AB) = P (B|A) ∗ P (A), thì: P (w1 w2 wm ) = P (w1 ) ∗ P (w2 |w1) ∗ P (w3 |w1 w2 ) ∗ ∗ P (wm |w1 w2 wm−1 Nhưng trường hợp cần sử dụng lượng lớn vùng nhớ để lưu xác suất chuỗi độ dài nhỏ m Vì vậy, người ta đề xuất sử dụng xấp xỉ Markov bậc n Thuật tốn để tính xác suất xuất xi có phân bố là: P (Xi = xi | Xi−2 = xi−2 , Xi−1 = xi−1 ) với bước: Khởi tạo i = x0 = x−1 = ∗ Lấy giá trị xác suất xi từ công thức P (Xi = xi |Xi−2 , Xi−1 = xi−1 ) TIEU LUAN MOI download : skknchat@gmail.com Xử lý ngôn ngữ tự nhiên 3 Nếu xi = STOP ta trả vê ’ chuỗi x1 xi Ngược lại, ta gán i = i + quay lại bước Mơ hình ngơn ngữ N-gram danh từ chung để mơ hình ngơn ngữ sử dụng liệu đầu vào dạng N-gram (bao gồm N âm tiết) Hình dung tương tự với Trigram Language Models Hình 2.1: ví dụ Trigam Language Models 2.3 Học sâu (Deep learning) Học sâu nhánh quan trọng máy học, dạy máy tính làm việc người thực cách tự nhiên xác: học từ ví dụ mà người cung cấp cho máy tính Học sâu công nghệ quan trọng đằng sau ô tô không người lái, cho phép chúng nhận biển báo dừng phân biệt người với cột đèn Đây chìa khóa để điều khiển giọng nói thiết bị tiêu dùng điện thoại, máy tính bảng, TV Học sâu ý nhiều gần đạt kết qủa trước thực Trong học sâu, máy tính học cách thực nhiệm vụ phân loại từ hình ảnh, văn âm thanh, đạt độ xác tốt, vượt hiệu suất cấp độ người Các mơ hình đào tạo cách sử dụng tập hợp lớn liệu có nhãn kiến trúc mạng nơ-ron nhiều lớp Khi học sâu lần đưa lý thuyết vào năm 1980, có hai lý khiến trở nên hữu ích gần đây: • u cầu lượng lớn liệu gắn nhãn Ví dụ: phát triển tơ khơng người lái địi hỏi hàng triệu hình ảnh hàng nghìn video • Địi hỏi khả tính tốn đáng kể GPU hiệu suất cao có kiến trúc song song hiệu cho việc học sâu Khi kết hợp với cụm điện tốn đám mây, điều cho phép nhóm phát triển giảm thời gian đào tạo cho mạng học sâu từ vài tuần xuống vài Thuật ngữ "sâu" thường đề cập đến số lượng lớp ẩn mạng nơ-ron Mạng nơ-ron truyền thống chứa 1-2 lớp ẩn, mạng sâu có tới hàng trăm lớp 2.4 Recurrent Neural Network biến thể LSTM Tổng quan RNN: NeurMô hình mạng nơ-ron nhân tạo truyền thẳng (Feedforward Neural Network) CNN đời áp dụng cho nhiều toán lĩnh vực máy học học sâu Tuy nhiên, mơ hình lại hoạt động cung cấp liệu chuỗi Có thể thấy mạng nơ-ron nhân tạo truyền thẳng CNN lấy độ dài cố định làm đầu vào (input), liệu văn gồm nhiều câu, dễ thấy tất câu có chiều dài Trong mơ hình mạng nơ-ron truyền thông, giả định tất đầu vào đầu (output) độc lập với nhau, nghĩa chúng không liên kết thành chuỗi với Chính điều làm cho mơ hình truyền thống trở nên hiệu việc giải tốn có Liệu tuần chúng khơng thể biểu ngữ cảnh đầu vào cho RNN sinh để giải vấn đề TIEU LUAN MOI download : skknchat@gmail.com Xử lý ngơn ngữ tự nhiên Hình 2.2: Mạng nơ-ron, tổ chức theo lớp bao gồm tập hợp nút kết nối với 2.4.1 RNN Mạng nơ-ron hồi quy (RNN - Recurrent Neural Network) thuật toán ý nhiều thời gian gần kết tốt thu lĩnh vực xử lý ngôn ngữ tự nhiên Ý tưởng RNN sử dụng chuỗi thơng tin Trong mạng nơ-ron truyền thống tất đầu vào đầu độc lập với nhau, chúng không liên kết thành chuỗi với Nhưng mơ hình khơng phù hợp nhiều tốn Mơ hình gọi hồi quy (Recurrent) lẽ chúng thực tác vụ cho tất phần tử chuỗi với đầu phụ thuộc vào phép tính trước Nói cách khác, RNN có khả nhớ thơng tin tính tốn trước Trên lý thuyết, mơ hình sử dụng thơng tin văn dài, nhiên thực tế nhớ vài bước trước Mạng nơ-ron, tổ chức theo lớp bao gồm tập hợp nút kết nối với Một RNN có Hình 2.3: cấu trúc RNN thề nhận vào chuỗi có chiều dài tạo chuỗi nhãn có chiều dài tương ứng Việc tính tốn bên thực sau: • xt chuỗi đầu vào t • U, W, V ma trận trọng sồ • st trạng thái ần bước t st = f (U xt + W st−1 ) Trong f thường hàm phi tuyến tính với ot đầu bước t ot = softmax (V st ) TIEU LUAN MOI download : skknchat@gmail.com Xử lý ngôn ngữ tự nhiên 2.4.2 LSTM (Long Short Term Memory) Một điểm bật mạng nơ-ron ý tưởng kết nối thơng tin phía trước để dự đốn cho Việc tương tự ta sử dụng cảnh trước phim để hiểu cảnh thời Thật không may với khoảng cách lớn dần mạng nơ-ron bắt đầu khơng thể nhớ học Đây gọi vấn đề phụ thuộc xa (Long-term Dependency) RNN, hay cịn có tên gọi khác mạng nhớ dài-ngắn (Long Short Term Memory Networks), thường gọi LSTM - dạng đặc biệt RNN, có khả học phụ thuộc xa LSTM thiết kế để tránh vấn đề phụ thuộc xa (long-term dependency) Việc nhớ thông tin suốt thời gian dài đặc tính mặc định mơ hình Điều mang ý nghĩa có khả ghi nhớ mà khơng cần can thiệp Chìa khóa LSTM trạng thái tế bào (cell state) - đường chạy thơng ngang phía sơ đồ hình vẽ Trạng thái tế bào dạng giống băng chuyền Nó chạy xun suốt tất mắt xích (các nút mạng) tương tác tuyến tính đơi chút Vì mà thơng tin dễ dàng truyền thông suốt mà không sợ bị thay đổi Bên cạnh cịn có cổng khác forget gate input gate Trong đó: • Tầng cổng quên (forget gate) giúp định xem thông tin cần bỏ từ trạng thái tế bào Quyết định đưa hàm sigmoid • Tầng cổng vào (input gate) sử dụng sigmoid để định giá trị ta cập nhật Hình 2.4: cấu trúc LSTM Cuối giá trị đầu dựa vào trạng thái tế bào tiếp tục sàng lọc định phần trạng thái tế bào xuất 2.5 Nhúng từ - Word Embedding Trong ứng dụng Xử lý ngôn ngữ tự nhiên máy học, thuật tốn khơng thể hiểu liệu đầu vào ngôn ngữ tự nhiên, thay vào đó, ta cần chuyển từ ngữ sang ngôn ngữ máy Kỹ thuật gọi Word Embedding - nhúng từ, phương pháp nhúng từ nhóm sử dụng tốn chuyển ký tự sang chuỗi với vị trí tương ứng vị trí cịn lại Hình 2.5: mã hóa giải mã văn thành ma trận TIEU LUAN MOI download : skknchat@gmail.com Xử lý ngơn ngữ tự nhiên 2.6 Accuracy Accuracy (Độ xác) độ đo đơn giản để đánh giá mơ hình phân lớp Cách đánh giá đơn giản tính tỉ lệ số điểm dự đốn tổng số điểm tập liệu kiểm thử TIEU LUAN MOI download : skknchat@gmail.com Chương PHƯƠNG PHÁP ĐỀ XUẤT KẾT QUẢ THỰC NGHIỆM: Trong khuôn khổ đề tài này, nhóm chọn nghiên cứu tốn tập trung dấu câu, việc bổ sung dấu câu thiếu chỉnh sửa lại câu theo tả 3.1 Mơ tả liệu Để đào tạo mơ hình học sâu, nhóm sử dụng lượng lớn văn tiếng Việt bao gồm có dấu khơng có dấu Lượng data thu thập khỏang 23000 báo từ trang tin tức lớn Việt Nam http://vnexpress.net/ http://kenh14.vn/ (hy vọng) bao gồm nhiều thể loại văn Việt Nam thơng dụng Trong với liệu thu thập từ số trang web sau bỏ dấu, dấu câu, kể dấu ký tự ô chuyển thành o, ê chuyển thành e, thêm vào liệu huấn luyện nhằm tăng thêm tính cấu trúc văn 3.2 Tiền xử lý liệu Tiền xử lý liệu bước quan trọng xử lý ngôn ngữ tự nhiên, đặc biệt với liệu văn thu thập từ trang web báo điện tử Trong tập liệu thu thập, tồn nhiều câu, đoạn, từ ngữ khơng thống, khơng phù hợp với tiêu chuẩn thông thường Tiếng Việt Do đó, tiền xử lý liệu giúp loại bỏ nhiễu liệu Đầu tiên, viết thường tất ký tự loại bỏ dấu câu, ký tự đặc biệt, biểu tượng !@?(), , loại bỏ chữ số gần không cần thiết Mặc dù tất báo lấy từ trang web Tiếng Việt Hình 3.1: Thống kê số lượng độ dài câu liệu TIEU LUAN MOI download : skknchat@gmail.com Xử lý ngôn ngữ tự nhiên tồn tỉ lệ nhỏ báo có lẫn ngơn ngữ khác Tiếng Anh, tiếng Trung, tiếng Hàn, Do q trình tiền xử lý liệu, tất dạng loại bỏ Trong đó, thống kê từ liệu đề cập, bao gồm tất 1,5 triệu câu Dựa theo kết hình 3.3 cho thấy số lượng câu liệu có độ dài chủ yếu từ - 200 ký tự, sau sử dụng phương pháp N-gram để tạo liệu đầu vào cho mô hình Theo mơ hình tham khảo từ [4], mơ hình gram gram sử dụng phù hợp Cụ thể, dựa theo kết từ hình 3.2, chúng tơi có xấp xỉ 12 triệu 5-gram với độ dài tương ứng 15-25 ký tự Hình 3.2: Thống kê N-grams dựa liệu Tăng cường thêm liệu: Phạm vi tốn nhóm tập trung phạm vi chỉnh sửa bổ sung dấu Do để có thêm liệu huấn luyện lấy văn tiếng Việt có dấu sau bỏ dấu để thêm vào liệu huấn luyện 3.3 Xây dựng mơ hình: Sử dụng thư viện Keras để xây dựng mơ hình Deep Learning lớp LSTM với khoảng 1,5 triệu tham số Hình 3.3: Mơ hình Deep Learning với lớp LSTM TIEU LUAN MOI download : skknchat@gmail.com Xử lý ngôn ngữ tự nhiên 3.4 Kết Đạt độ xác 50% sau epoch (về mặt kỹ thuật 1/100 epoch), thử với câu "co gai den tu hom qua" Từ hình 3.4, ta thấy có vấn đề mơ hình đặt dấu sai cho câu trên, độ Hình 3.4: Kết thử nghiệm sau epoch xác chưa đáp ứng mong đợi, kết luận cần huấn luyện thêm nhiều Từ kết hình 3.5, nhận đầu nhận kết epoch thứ 12 hồn chỉnh sau 22 epochs Quan sát kỹ hơn, mơ hình nhận tất phụ âm sau epochs tất nguyên âm sau epochs, độ xác cải thiện lên 95% sau epoch thứ 50 Hình 3.5: Kết thử nghiệm sau 50 epochs Cuối cùng, sau 300 epochs (hình 3.6 mơ hình đạt độ xác 97% hàm loss giảm xuống 0.07 Do giới hạn phần cứng máy giới hạn thời gian, trình huấn luyện dừng lại 3.5 Kết tập test: Kết thúc q trình train đánh giá, nhóm chọn đoạn văn câu lẻ (hình 3.8) phị thư tưong rà soat viec chò formosa thuê đất 70 nam dự án tồn hoat đong lãnh thổ Việt Nam không riềng Formosa cò kế hoạch kiểm tra rà soat đánh giá lại theo tinh thần sai phạm la phải xữ lý Ta nhận thấy mơ hình khơng hoạt động tốt từ tiếng Việt (nhà máy Formosa - Fomosa) Thử nghiệm với kết khác: Nội dung sau trích từ "Cho tơi xin vé tuổi thơ" Do liệu huấn liệu lấy từ Vnexpress hay Kenh14 có nội dung lĩnh vực khác với phong cách viết nhà văn truyện Nguyễn Nhật Ánh TIEU LUAN MOI download : skknchat@gmail.com Xử lý ngơn ngữ tự nhiên Hình 3.6: Kết sau 300 epochs Hình 3.7: Kết sau huấn luyện đoạn đầu vào ’cho xin vé tuổi thơ’ ’tóm lại hết ngày’ ’một ngày’ ’sẽ có kế hoạch kiểm tra’ ’tơi nhận thấy sống thật buồn chán tẻ nhạt’ ’năm tơi tuổi’ Đoạn input với giá trị dòng câu rời tương ứng kết mơ hình hiển thị hình 3.8 Hình 3.8: Kết chạy thử nghiệm với nội dung truyện ngắn TIEU LUAN MOI download : skknchat@gmail.com Xử lý ngôn ngữ tự nhiên 3.6 Đánh giá định hướng phát triển Kết thực nghiệm cho thấy cân nội dung cho thấy vấn đề thách thức lượng liệu huấn luyện chưa bao quát tất lĩnh vực xuất tiếng Việt Tăng thêm liệu cách cào thêm liệu từ trang báo mạng khác, mở rộng tới lĩnh vực bình luận từ người dùng Facebook, đánh giá sản phẩm Thử nghiệm mơ hình SOTA cho xử lý ngơn ngữ tự nhiên mặt sửa lỗi tả mở rộng lên sửa lỗi sai tả, khơng giới hạn dấu TIEU LUAN MOI download : skknchat@gmail.com Tài liệu tham khảo [1] Phan Thị Hồng Xuân Một số giải pháp khắc phục lỗi tả người sử dụng Tiếng Việt, Tạp chí Khoa học ĐHQGHN: Nghiên cứu giáo dục, số (2017) 68-74 [2] Lê A, Đỗ Xuân Thảo, Lê Hữu Tỉnh,Giáo trình tiếng Việt 2, NXB Đại học Sư phạm, 2014 [3] Luan Nghia Pham, Viet Hong Tran, Vinh Van Nguyen Vietnamese Text Accent Restoration With Statistical Machine Translation PACLIC-27 [4] Le Binh, vietnamese-accent-model [5] Nguyen Van Cuong, Le Huy Khiem, Tran Minh Anh, Binh Thanh Nguyen, An Efficient Framework for Vietnamese Sentiment Classification, SoMeT 2020 [6] Pham Thi Thuy, Nguyen Thao Nhu, Pham Hong Quang, Cao Ky Han, Binh Thanh Nguyen, Vietnamese Punctuation Prediction Using Deep Neural Networks, SOFSEM 2020, Cyprus, January 20-24 2020 14 TIEU LUAN MOI download : skknchat@gmail.com ... động khôi phục dấu văn Tiếng việt, bao gồm [3]: • Vietpad (Quan,200 2) sử dụng tập tin lưu trữ tất từ tiếng Việt (từ điển): họ sử dụng tệp Dictio Nary từ khơng có dấu ánh xạ 1-1 thành từ có dấu. .. xác suất câu w1 w2 wm Dựa theo công thức Bayes: P (AB) = P (B|A) ∗ P (A), thì: P (w1 w2 wm ) = P (w1 ) ∗ P (w2 |w 1) ∗ P (w3 |w1 w2 ) ∗ ∗ P (wm |w1 w2 wm−1 Nhưng trường hợp cần sử dụng lượng... thêm vào liệu huấn luyện nhằm tăng thêm tính cấu trúc văn 3.2 Tiền xử lý liệu Tiền xử lý liệu bước quan trọng xử lý ngôn ngữ tự nhiên, đặc biệt với liệu văn thu thập từ trang web báo điện tử Trong