Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 16 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
16
Dung lượng
2,39 MB
Nội dung
Lớp sáng thứ 4: tiết 1,2,3 Lời mở đầu Ngôn ngữ tự nhiên ngônngữ người sử dụng giao tiếp hàng ngày: nghe, nói, đọc, viết Mặc dù người dễ dàng hiểu học ngônngữ tự nhiên; việc làm cho máy hiểu ngônngữ tự nhiên chuyện dễ dàng Sở dĩ có khó khăn ngônngữ tự nhiên có luật, cấu trúc ngữ pháp phong phú nhiều ngônngữ máy tính, để hiểu nội dung giao tiếp, văn ngônngữ tự nhiên cần phải nắm ngữ cảnh nội dung Do vậy, để xây dựng ngữ pháp, từ vựng hoàn chỉnh, xác để máy hiểu ngônngữ tự nhiên việc tốn công sức đòi hỏi người thực phải có hiểu biết sâu ngônngữ học Các phương pháp xử lý ngônngữ tự nhiên dựa thống kê không nhắm tới việc người tự xây dựng môhìnhngữ pháp mà lập chương trình cho máy tính “học” nhờ vào việc thống kê từ cụm từ có văn Cốt lõi phương pháp xử lý ngônngữ tự nhiên dựa thống kê việc xây dựng môhìnhngônngữ Mục tiêu Hiểu khái niệm môhìnhngônngữ Tìm hiểu môhìnhngônngữ sử dụng xử lý ngônngữ tự nhiên Phân tích ví dụ cho môhình cụ thể Mô hìnhngônngữ n-gram Khái quát chung Chuỗi Markov Ước lượng xác suất cho môhìnhngônngữ n-gram Công thức tính xác suất thô Khó khăn xây dựng môhìnhngônngữ n-gram Các phương pháp làm mịn Kỹ thuật làm giảm kích thước liệu Độ đo Giới thiệu môhìnhngônngữ Mô hìnhngônngữ phân bố xác suất tập văn Nói đơn giản, môhìnhngônngữ cho biết xác suất câu (hoặc cụm từ) thuộc ngônngữ Ví dụ: áp dụng môhìnhngônngữ cho tiếng Việt: P[“hôm qua thứ năm”] = 0.001 P[“năm thứ hôm qua”] = Mô hìnhngônngữ áp dụng nhiều lĩnh vực xử lý ngônngữ tự nhiên như: kiểm lỗi tả, dịch máy hay phân đoạn từ Chính vậy, nghiên cứu môhìnhngônngữ tiền đề để nghiên cứu lĩnh vực Mô hìnhngônngữ có nhiều hướng tiếp cận, chủ yếu xây dựng theo môhình Ngram Mô hìnhngônngữ n-gram Khái niệm n-gram Khái niệm n-gram : tần suất xuất n kí tự ( từ ) liên tiếp có liệu corpus Với n = tính kí tự, ta có thông tin tần suất xuất nhiều chữ Điều ứng dụng để làm keyboard : phím hay xuất vị trí dễ sử dụng Mô hìnhngônngữ N-gram Với n = 2, ta có - gram (Bigram) Ví dụ với chữ tiếng Anh, ‘th’, ’he’, ’in’, ’an’, ’er’ cặp kí tự hay xuất Ngoài ta thấy sau kí tự ‘q’ hầu hết kí tự ‘u’ Với n = 3, ta có(Trigram) Vì n lớn số trường hợp lớn nên thường người ta sử dụng với n=1,2 n=3 Ví dụ với kí tự tiếng Việt, tiếng Việt sử dụng 29 ký tự, với n=1 số trường hợp 29, n=2 số trường hợp 29^2=841, n=3 có 29^3=24389 trường hợp Chuỗi Markov Giả thiết xác suất tính cho kiện: Chỉ phụ thuộc vào history trước Giới hạn nhớ: có k từ đưa vào history (các từ “cũ hơn” chẳng hạn chuỗi w= w’w1w wn ta coi w ~ w1w wn Ta gọi môhình Markov bậc n có khả liên quan), Ước lượng xác suất thô cho môhìnhngônngữ n-gram Để tính xác suất văn với lượng nhớ chấp nhận được, ta sử dụng xấp xỉ Markov bậc n: P(wi|w1,w2,…, wi-1) = P(wi|wi-n,wi-n+1, …,wi-1) Nếu áp dụng công thức xấp xỉ Markov công thức viết lại sau: P(w1w2…wi) = P(w1) * P(w2|w1) * P(w3|w1w2) *…* P(wi-1|wi-n-1winwi-n+1…wi-1) n …wi-2)* P(wi|wi- Ví dụ: P(“hôm qua thứ năm”)=P(“hôm”)*P(“qua|hôm”)*P(“là|hôm qua”)*P(“thứ|hôm qua là”)*P(“năm|hôm qua thứ”) Công thức tính xác suất thô Gọi C(wi-n+1 wi-1wi) tần số xuất cụm wi-n+1 wi-1wi tập văn huấn luyện Gọi P(wi|wi-n+1 wi-1) xác suất wi sau cụm wi-n+1 wi-2wi-1 Ta có công thức tính xác suất sau: Khó khăn xây dựng môhìnhngônngữ n-gram Do phân bố không Kích thước nhớ môhìnhngônngữ Khi kích thước tập văn huấn luyện lớn, số lượng cụm Ngram kích thước môhìnhngônngữ lớn Nó gây khó khăn việc lưu trữ mà làm tốc độ xử lý môhìnhngônngữ giảm xuống nhớ máy tính hạn chế Để xây dựng môhìnhngônngữ hiệu quả, phải giảm kích thước môhìnhngônngữ mà đảm bảo độ xác Các phương pháp làm mịn Phương pháp truy hồi Phương pháp nội suy Phương pháp làm mịn Kneser – Ney Phương pháp làm mịn Kneser - Ney cải tiến Chen-GoodMan Các thuật toán chiết khấu (discounting): Kỹ thuật làm giảm kích thước liệu Pruning (loại bỏ): làm giảm số lượng cụm N-gram môhìnhngônngữ cách loại bỏ cụm N-gram không quan trọng Quantization (lượng tử hóa): thay đổi cấu trúc thông tin cụm Ngram môhìnhngônngữ Compression (nén): nén cấu trúc liệu sử dụng việc lưu trữ cụm Ngram môhìnhngônngữ Độ đo Để xây dựng hìnhngônngữ hiệu quả, phải có cách để đánh giá chúng Dưới số phương pháp phổ biến để đánh giá môhìnhngôn ngữ: Entropy- Độ đo thông tin Perplexity- Độ hỗn loạn thông tin Error rate- Tỉ lệ lỗi Nhóm 1: thứ tiết 1,2,3 Kết thúc báocáo ... lý ngôn ngữ tự nhiên dựa thống kê việc xây dựng mô hình ngôn ngữ Mục tiêu Hiểu khái niệm mô hình ngôn ngữ Tìm hiểu mô hình ngôn ngữ sử dụng xử lý ngôn ngữ tự nhiên Phân tích ví dụ cho mô hình. .. Giới thiệu mô hình ngôn ngữ Mô hình ngôn ngữ phân bố xác suất tập văn Nói đơn giản, mô hình ngôn ngữ cho biết xác suất câu (hoặc cụm từ) thuộc ngôn ngữ Ví dụ: áp dụng mô hình ngôn ngữ cho tiếng... Mô hình ngôn ngữ áp dụng nhiều lĩnh vực xử lý ngôn ngữ tự nhiên như: kiểm lỗi tả, dịch máy hay phân đoạn từ Chính vậy, nghiên cứu mô hình ngôn ngữ tiền đề để nghiên cứu lĩnh vực Mô hình ngôn