THÔNG TIN TÀI LIỆU
Lớp sáng thứ 4: tiết 1,2,3 Lời mở đầu Ngôn ngữ tự nhiên ngôn ngữ người sử dụng giao tiếp hàng ngày: nghe, nói, đọc, viết Mặc dù người dễ dàng hiểu học ngôn ngữ tự nhiên; việc làm cho máy hiểu ngôn ngữ tự nhiên chuyện dễ dàng Sở dĩ có khó khăn ngôn ngữ tự nhiên có luật, cấu trúc ngữ pháp phong phú nhiều ngôn ngữ máy tính, để hiểu nội dung giao tiếp, văn ngôn ngữ tự nhiên cần phải nắm ngữ cảnh nội dung Do vậy, để xây dựng ngữ pháp, từ vựng hoàn chỉnh, xác để máy hiểu ngôn ngữ tự nhiên việc tốn công sức đòi hỏi người thực phải có hiểu biết sâu ngôn ngữ học Các phương pháp xử lý ngôn ngữ tự nhiên dựa thống kê không nhắm tới việc người tự xây dựng mô hình ngữ pháp mà lập chương trình cho máy tính “học” nhờ vào việc thống kê từ cụm từ có văn Cốt lõi phương pháp xử lý ngôn ngữ tự nhiên dựa thống kê việc xây dựng mô hình ngôn ngữ Mục tiêu Hiểu khái niệm mô hình ngôn ngữ Tìm hiểu mô hình ngôn ngữ sử dụng xử lý ngôn ngữ tự nhiên Phân tích ví dụ cho mô hình cụ thể Mô hình ngôn ngữ n-gram Khái quát chung Chuỗi Markov Ước lượng xác suất cho mô hình ngôn ngữ n-gram Công thức tính xác suất thô Khó khăn xây dựng mô hình ngôn ngữ n-gram Các phương pháp làm mịn Kỹ thuật làm giảm kích thước liệu Độ đo Giới thiệu mô hình ngôn ngữ Mô hình ngôn ngữ phân bố xác suất tập văn Nói đơn giản, mô hình ngôn ngữ cho biết xác suất câu (hoặc cụm từ) thuộc ngôn ngữ Ví dụ: áp dụng mô hình ngôn ngữ cho tiếng Việt: P[“hôm qua thứ năm”] = 0.001 P[“năm thứ hôm qua”] = Mô hình ngôn ngữ áp dụng nhiều lĩnh vực xử lý ngôn ngữ tự nhiên như: kiểm lỗi tả, dịch máy hay phân đoạn từ Chính vậy, nghiên cứu mô hình ngôn ngữ tiền đề để nghiên cứu lĩnh vực Mô hình ngôn ngữ có nhiều hướng tiếp cận, chủ yếu xây dựng theo mô hình Ngram Mô hình ngôn ngữ n-gram Khái niệm n-gram Khái niệm n-gram : tần suất xuất n kí tự ( từ ) liên tiếp có liệu corpus Với n = tính kí tự, ta có thông tin tần suất xuất nhiều chữ Điều ứng dụng để làm keyboard : phím hay xuất vị trí dễ sử dụng Mô hình ngôn ngữ N-gram Với n = 2, ta có - gram (Bigram) Ví dụ với chữ tiếng Anh, ‘th’, ’he’, ’in’, ’an’, ’er’ cặp kí tự hay xuất Ngoài ta thấy sau kí tự ‘q’ hầu hết kí tự ‘u’ Với n = 3, ta có(Trigram) Vì n lớn số trường hợp lớn nên thường người ta sử dụng với n=1,2 n=3 Ví dụ với kí tự tiếng Việt, tiếng Việt sử dụng 29 ký tự, với n=1 số trường hợp 29, n=2 số trường hợp 29^2=841, n=3 có 29^3=24389 trường hợp Chuỗi Markov Giả thiết xác suất tính cho kiện: Chỉ phụ thuộc vào history trước Giới hạn nhớ: có k từ đưa vào history (các từ “cũ hơn” chẳng hạn chuỗi w= w’w1w wn ta coi w ~ w1w wn Ta gọi mô hình Markov bậc n có khả liên quan), Ước lượng xác suất thô cho mô hình ngôn ngữ n-gram Để tính xác suất văn với lượng nhớ chấp nhận được, ta sử dụng xấp xỉ Markov bậc n: P(wi|w1,w2,…, wi-1) = P(wi|wi-n,wi-n+1, …,wi-1) Nếu áp dụng công thức xấp xỉ Markov công thức viết lại sau: P(w1w2…wi) = P(w1) * P(w2|w1) * P(w3|w1w2) *…* P(wi-1|wi-n-1winwi-n+1…wi-1) n …wi-2)* P(wi|wi- Ví dụ: P(“hôm qua thứ năm”)=P(“hôm”)*P(“qua|hôm”)*P(“là|hôm qua”)*P(“thứ|hôm qua là”)*P(“năm|hôm qua thứ”) Công thức tính xác suất thô Gọi C(wi-n+1 wi-1wi) tần số xuất cụm wi-n+1 wi-1wi tập văn huấn luyện Gọi P(wi|wi-n+1 wi-1) xác suất wi sau cụm wi-n+1 wi-2wi-1 Ta có công thức tính xác suất sau: Khó khăn xây dựng mô hình ngôn ngữ n-gram Do phân bố không Kích thước nhớ mô hình ngôn ngữ Khi kích thước tập văn huấn luyện lớn, số lượng cụm Ngram kích thước mô hình ngôn ngữ lớn Nó gây khó khăn việc lưu trữ mà làm tốc độ xử lý mô hình ngôn ngữ giảm xuống nhớ máy tính hạn chế Để xây dựng mô hình ngôn ngữ hiệu quả, phải giảm kích thước mô hình ngôn ngữ mà đảm bảo độ xác Các phương pháp làm mịn Phương pháp truy hồi Phương pháp nội suy Phương pháp làm mịn Kneser – Ney Phương pháp làm mịn Kneser - Ney cải tiến Chen-GoodMan Các thuật toán chiết khấu (discounting): Kỹ thuật làm giảm kích thước liệu Pruning (loại bỏ): làm giảm số lượng cụm N-gram mô hình ngôn ngữ cách loại bỏ cụm N-gram không quan trọng Quantization (lượng tử hóa): thay đổi cấu trúc thông tin cụm Ngram mô hình ngôn ngữ Compression (nén): nén cấu trúc liệu sử dụng việc lưu trữ cụm Ngram mô hình ngôn ngữ Độ đo Để xây dựng hình ngôn ngữ hiệu quả, phải có cách để đánh giá chúng Dưới số phương pháp phổ biến để đánh giá mô hình ngôn ngữ: Entropy- Độ đo thông tin Perplexity- Độ hỗn loạn thông tin Error rate- Tỉ lệ lỗi Nhóm 1: thứ tiết 1,2,3 Kết thúc báo cáo ... lý ngôn ngữ tự nhiên dựa thống kê việc xây dựng mô hình ngôn ngữ Mục tiêu Hiểu khái niệm mô hình ngôn ngữ Tìm hiểu mô hình ngôn ngữ sử dụng xử lý ngôn ngữ tự nhiên Phân tích ví dụ cho mô hình. .. Giới thiệu mô hình ngôn ngữ Mô hình ngôn ngữ phân bố xác suất tập văn Nói đơn giản, mô hình ngôn ngữ cho biết xác suất câu (hoặc cụm từ) thuộc ngôn ngữ Ví dụ: áp dụng mô hình ngôn ngữ cho tiếng... Mô hình ngôn ngữ áp dụng nhiều lĩnh vực xử lý ngôn ngữ tự nhiên như: kiểm lỗi tả, dịch máy hay phân đoạn từ Chính vậy, nghiên cứu mô hình ngôn ngữ tiền đề để nghiên cứu lĩnh vực Mô hình ngôn
Ngày đăng: 29/08/2017, 08:52
Xem thêm: báo cáo mô hình ngôn ngữ