BÁO CÁO MÔN HỌC MÔN CÁC HỆ THỐNG THÔNG MINH BÁO CÁO MÔN HỌC MÔN CÁC HỆ THỐNG THÔNG MINH ĐỀ TÀI Spelling Correction – Sửa lỗi chính tả văn bản Thành viên Nguyễn Cát Hải (NHÓM TRƯỞNG) Nguyễn Đức Hải Trần Văn Hoàng Vũ Phú Tài Vũ Văn Dương Lớp CNTT1 K21 Nhóm 4 1 1 Giới thiệu bài toán Hiện nay công nghệ thông tin ngày càng phát triển, văn bản được soạn thảo bằng hình thức viết tay dần được thay thế bằng hình thức đánh máy Lỗi chính tả xuất hiện là điều không thể tránh khỏi và có thể do nhiều nguyên n.
BÁO CÁO MÔN HỌC MÔN: CÁC HỆ THỐNG THÔNG MINH ĐỀ TÀI : Spelling Correction – Sửa lỗi tả văn Nhóm Thành viên: Nguyễn Cát Hải (NHĨM TRƯỞNG) Nguyễn Đức Hải Trần Văn Hoàng Vũ Phú Tài Vũ Văn Dương Lớp: CNTT1.K21 Giới thiệu tốn Hiện cơng nghệ thơng tin ngày phát triển, văn soạn thảo hình thức viết tay dần thay hình thức đánh máy Lỗi tả xuất điều khơng thể tránh khỏi nhiều nguyên nhân khác nhau: lỗi đánh máy, người soạn thảo khơng biết viết sai Những lỗi sai này, người soạn thảo văn thường khơng khó nhận lỗi tả Để phát sửa lỗi cho văn nhiều thời gian Điều dẫn nhu cầu phát sữa lỗi tả tự động cho nhiều ngôn ngữ hệ soạn thảo văn khác Đầu vào, đầu tốn: • • - Đầu vào: Các tệp liệu ngôn ngữ txt,các file văn doc,docs,…như soạn ngôn ngữ tiếng Việt bị sai lỗi tả Các văn dịch tự động từ ngơn ngữ khác chưa xác Các loại OCR chữ viết thành văn Đầu ra: Tệp chứa văn qua xử lý tự động loại bỏ lỗi thừa ,thiếu, sai, khiến tệp văn lỗi khơng cịn lỗi, câu từ mang ý nghĩa, đấu câu, ngữ pháp , đảm bảo yêu cầu đặt Một số lỗi tả phương pháp kiểm lỗi mức độ âm tiết -Nguyên nhân nhập liệu sai -Nguyên nhân phát âm sai -Nguyên nhân sử dụng từ vựng sai -Các nguyên nhân khác: Ngồi cịn loại lỗi tả khác viết hoa, viết tên riêng, thuật ngữ, tên tiếng nước ngồi khơng qui cách, … Phân loại lỗi tả -non-word :Đây lỗi tạo từ sai, nghĩa từ hồn tồn khơng có từ điển từ vựng tiếng Việt số liệu đầu vào cho trình tiền xử lý văn như: từ điển tên riêng, từ điển viết tắt, từ điển vay mượn, Đây loại lỗi dễ phát -real-word:Đây lỗi tả mà từ có từ điển sử dụng từ sai Nếu khơng dựa vào ngữ cảnh xung quanh khơng thể xác định có phải lỗi tả hay khơng Đây loại lỗi khó phát xử lý Các phương pháp tiếp cận để giải toán Kiến trúc mạng nơ-ron nhân tạo: -là mơ hình xử lý thơng tin mô dựa hoạt động hệ thống thần kinh sinh vật -ANN hoạt động giống não người, học kinh nghiệm (thơng qua việc huấn luyện) -Có khả lưu giữ tri thức sử dụng tri thức việc dự đoán liệu chưa biết (unseen data) Kiến trúc chung ANN gồm thành phần Input Layer, Hidden Layer Output Layer Mạng nơ-ron hồi quy RNN - Một mơ hình Deep learning đánh giá có nhiều ưu điểm tác vụ xử lý ngôn ngữ tự nhiên (NLP) - Có khả nhớ thơng tin tính tốn trước - Thơng tin đầu vào (input) hồn tồn độc lập với thơng tin đầu (output) - Mơ hình nhớ thơng tin vài bước trước Mạng Long Short-term Memory -LSTM mạng cải tiến RNN nhằm giải vấn đề nhớ bước dài RNN -LSTM thiết kế để tránh vấn đề phụ thuộc xa (long-term dependency) -Chìa khóa LSTM trạng thái tế bào (cell state) -LSTM có khả bỏ thêm vào thông tin cần thiết cho trạng thái tế báo, chúng điều chỉnh cẩn thận nhóm gọi cổng (gate) -Các cổng nơi sàng lọc thơng tin qua nó, chúng kết hợp tầng mạng sigmoid phép nhân Ứng dụng RNN cho tốn sửa lỗi tả tiếng Việt Mơ hình hóa ngơn ngữ: -xây dựng mơ hình ngơn ngữ sử dụng RNN -với m từ, mơ hình ngơn ngữ cho phép ta dự đoán xác suất câu (trong tập liệu) là: 10 Các bước thực xử lý toán Tạo liệu: -Để huấn luyện mơ hình ngơn ngữ, ta cần liệu văn để làm liệu huấn học -Tiền xử lý liệu thô cho định dạng đầu vào Khởi tạo: - Phải khởi tạo tham số mạng RNN cách ngẫu nhiên -Trường hợp ta hàm nên giá trị khuyến khích khoảng[-1/(n^(1/2)); 1/(n^(1/2))] -n lượng kết nối tới từ tầng mạng trước 3.1.2.3.2.Lan truyền tuyến - cài đặt hàm lan truyền tiến (forward propagation) để thực việc tính xác xuất từ 3.1.2.3.3 Tính lỗi - Để huấn luyện mạng, ta cần phải đánh giá lỗi cho tham số - Tìm tham số U, V, W để tối thiểu hàm lỗi (loss function) L trình huấn luyện 11 Áp dụng LSTM tốn sửa lỗi tả tiếng Việt -Dùng mơ hình sequence-to-sequence (seq2seq) với kỹ thuật attention làm tăng độ xác cho tốn sửa lỗi tả -Nhược điểm yêu cầu RNN decoder sử dụng tồn thơng tin mã hóa từ chuỗi đầu vào cho dù chuỗi dài hay ngắn -RNN encoder cần phải mã hóa chuỗi đầu vào thành vec-tơ có độ dài cố định -Từ nhược điểm trên,kỹ thuật attention đưa -Ngoài phương pháp soft attention, kỹ thuật attention cịn có số kiểu attention khác additive attention, multiplicative attention, self-attention, key- value attention 12 Cài đặt Thư viện tensorflow: -Thư viện hỗ trợ xây dựng mô hình deeplearning phức tạp qua API ngắn gọn -Các mơ hình deeplearning phát triển TensorFlow sử dụng nhiều loại platform khác -Tensorflow cho phép tính tốn song song nhiều máy tính khác nhau, tất nhiên nhiều CPU, GPU máy 13 Tạo data noise -Cài đặt hàm noise_maker () hàm chuyển đổi câu thành câu có lỗi tả, sử dụng làm liệu đầu vào -Các lỗi tả tạo hàm theo ba cách: • Thứ tự hai ký tự đổi chỗ (kơhng ~ khơng) • Một ký tự thêm vào (ytuổi ~ tuổi) • Một ký tự bị loại bỏ (ến ~ đến) Cài đặt mơ hình: -cài đặt cho mơ hình huấn luyện liệu sử dụng mơ hình sequence-to-sequence (biLSTM Encoder-– Decoder) -kết hợp thêm kỹ thuật Attention trình Decoder 14 Tiến hành huấn luyện -Ta huấn luyện mơ hình sử dụng tham số: 15 Thử nghiệm, đánh giá Ta huấn luyện mơ hình kiểm tra lỗi tả sử dụng: • Data: Sử dụng data trang http://viet.jnlp.org/download-du-lieu-tu-vung- corpus Cụ thể: o File VNTQcorpus(small).txt o Kích thước: ~35 Mb o Số lượng câu: khoảng 300.000 câu o Trích xuất từ khoảng 1.000 báo vnthuquan.net o Dữ liệu phân loại theo thể loại, tập trung vào thể loại văn nghệ thuật o Đã qua xử lý như: Chỉnh sửa lại kí tự lỗi chuyển từ html sang dạng text Loại bỏ câu giống Loại bỏ câu khơng phải tiếng Việt (dựa vào thống kê kí tự đặc trưng tiếng Việt như: ả, ạ, á, ã, ) • Sử dụng thư viện tensorflow GPU • Code python • Cấu hình máy GPU: Geforce GTX 1060(cấu hình giả định) • Thời gian training: ~ ngày.(thời gian giả định) Sau training ta tiến hành kiểm tra lỗi tả cho câu trọn random liệu test (được lấy từ phần data đầu vào sau tiền xử lý) 16 Một số kết thu được: Thực nghiệm Thực nghiệm Thực nghiệm Thực nghiệm Thực nghiệm 17 Đánh giá Do liệu sử dụng huấn luyện thử nghiệm lớn khoảng 200000 câu (chỉ tính dấu phân cách câu dấu “.”), sử dụng khoảng 100000 câu (độ dài khoảng 10 đến 101 ký tự) để làm liệu huấn luyện thử nghiệm Trong sử dụng khoảng 89000 câu (~85% tổng số câu) cho tập liệu huấn luyện 15700 (~15% tổng số câu) cho tập liệu thử nghiệm Độ học ban đầu dùng cho mơ hình learning_rate = 0.001 Sau tiến hành training cho liệu với số lần train (epochs) 1, 2, 3, 5, 10, … Sau tiến hành thử nghiệm cho tập liệu thử nghiệm Kết thu độ mát (loss) liệu (sai lỗi tả) sau mơ hình so với liệu đầu chuẩn 18 ... phát xử lý Các phương pháp tiếp cận để giải toán Kiến trúc mạng nơ-ron nhân tạo: -là mơ hình xử lý thông tin mô dựa hoạt động hệ thống thần kinh sinh vật -ANN hoạt động giống não người, học kinh... động cho nhiều ngôn ngữ hệ soạn thảo văn khác Đầu vào, đầu tốn: • • - Đầu vào: Các tệp liệu ngôn ngữ txt ,các file văn doc,docs,…như soạn ngơn ngữ tiếng Việt bị sai lỗi tả Các văn dịch tự động từ... -LSTM có khả bỏ thêm vào thơng tin cần thiết cho trạng thái tế báo, chúng điều chỉnh cẩn thận nhóm gọi cổng (gate) -Các cổng nơi sàng lọc thông tin qua nó, chúng kết hợp tầng mạng sigmoid phép nhân