1. Trang chủ
  2. » Giáo Dục - Đào Tạo

báo cáo mô hình ngôn ngữ

16 165 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Lớp sáng thứ 4: tiết 1,2,3 Lời mở đầu Ngôn ngữ tự nhiên ngôn ngữ người sử dụng giao tiếp hàng ngày: nghe, nói, đọc, viết Mặc dù người dễ dàng hiểu học ngôn ngữ tự nhiên; việc làm cho máy hiểu ngôn ngữ tự nhiên chuyện dễ dàng Sở dĩ có khó khăn ngôn ngữ tự nhiên có luật, cấu trúc ngữ pháp phong phú nhiều ngôn ngữ máy tính, để hiểu nội dung giao tiếp, văn ngôn ngữ tự nhiên cần phải nắm ngữ cảnh nội dung Do vậy, để xây dựng ngữ pháp, từ vựng hoàn chỉnh, xác để máy hiểu ngôn ngữ tự nhiên việc tốn công sức đòi hỏi người thực phải có hiểu biết sâu ngôn ngữ học Các phương pháp xử lý ngôn ngữ tự nhiên dựa thống kê không nhắm tới việc người tự xây dựng hình ngữ pháp mà lập chương trình cho máy tính “học” nhờ vào việc thống kê từ cụm từ có văn Cốt lõi phương pháp xử lý ngôn ngữ tự nhiên dựa thống kê việc xây dựng hình ngôn ngữ  Mục tiêu Hiểu khái niệm hình ngôn ngữ Tìm hiểu hình ngôn ngữ sử dụng xử lý ngôn ngữ tự nhiên Phân tích ví dụ cho hình cụ thể Mô hình ngôn ngữ n-gram Khái quát chung Chuỗi Markov Ước lượng xác suất cho hình ngôn ngữ n-gram Công thức tính xác suất thô Khó khăn xây dựng hình ngôn ngữ n-gram Các phương pháp làm mịn Kỹ thuật làm giảm kích thước liệu Độ đo Giới thiệu hình ngôn ngữ Mô hình ngôn ngữ phân bố xác suất tập văn Nói đơn giản, hình ngôn ngữ cho biết xác suất câu (hoặc cụm từ) thuộc ngôn ngữ Ví dụ: áp dụng hình ngôn ngữ cho tiếng Việt: P[“hôm qua thứ năm”] = 0.001 P[“năm thứ hôm qua”] = Mô hình ngôn ngữ áp dụng nhiều lĩnh vực xử lý ngôn ngữ tự nhiên như: kiểm lỗi tả, dịch máy hay phân đoạn từ Chính vậy, nghiên cứu hình ngôn ngữ tiền đề để nghiên cứu lĩnh vực Mô hình ngôn ngữ có nhiều hướng tiếp cận, chủ yếu xây dựng theo hình Ngram Mô hình ngôn ngữ n-gram Khái niệm n-gram Khái niệm n-gram : tần suất xuất n kí tự ( từ ) liên tiếp có liệu corpus Với n = tính kí tự, ta có thông tin tần suất xuất nhiều chữ Điều ứng dụng để làm keyboard : phím hay xuất vị trí dễ sử dụng Mô hình ngôn ngữ N-gram Với n = 2, ta có - gram (Bigram) Ví dụ với chữ tiếng Anh, ‘th’, ’he’, ’in’, ’an’, ’er’ cặp kí tự hay xuất Ngoài ta thấy sau kí tự ‘q’ hầu hết kí tự ‘u’ Với n = 3, ta có(Trigram) Vì n lớn số trường hợp lớn nên thường người ta sử dụng với n=1,2 n=3 Ví dụ với kí tự tiếng Việt, tiếng Việt sử dụng 29 ký tự, với n=1 số trường hợp 29, n=2 số trường hợp 29^2=841, n=3 có 29^3=24389 trường hợp Chuỗi Markov Giả thiết xác suất tính cho kiện: Chỉ phụ thuộc vào history trước Giới hạn nhớ: có k từ đưa vào history (các từ “cũ hơn” chẳng hạn chuỗi w= w’w1w wn ta coi w ~ w1w wn Ta gọi hình Markov bậc n có khả liên quan), Ước lượng xác suất thô cho hình ngôn ngữ n-gram Để tính xác suất văn với lượng nhớ chấp nhận được, ta sử dụng xấp xỉ Markov bậc n: P(wi|w1,w2,…, wi-1) = P(wi|wi-n,wi-n+1, …,wi-1) Nếu áp dụng công thức xấp xỉ Markov công thức viết lại sau: P(w1w2…wi) = P(w1) * P(w2|w1) * P(w3|w1w2) *…* P(wi-1|wi-n-1winwi-n+1…wi-1) n …wi-2)* P(wi|wi- Ví dụ: P(“hôm qua thứ năm”)=P(“hôm”)*P(“qua|hôm”)*P(“là|hôm qua”)*P(“thứ|hôm qua là”)*P(“năm|hôm qua thứ”) Công thức tính xác suất thô Gọi C(wi-n+1 wi-1wi) tần số xuất cụm wi-n+1 wi-1wi tập văn huấn luyện Gọi P(wi|wi-n+1 wi-1) xác suất wi sau cụm wi-n+1 wi-2wi-1 Ta có công thức tính xác suất sau: Khó khăn xây dựng hình ngôn ngữ n-gram Do phân bố không Kích thước nhớ hình ngôn ngữ Khi kích thước tập văn huấn luyện lớn, số lượng cụm Ngram kích thước hình ngôn ngữ lớn Nó gây khó khăn việc lưu trữ mà làm tốc độ xử lý hình ngôn ngữ giảm xuống nhớ máy tính hạn chế Để xây dựng hình ngôn ngữ hiệu quả, phải giảm kích thước hình ngôn ngữ mà đảm bảo độ xác Các phương pháp làm mịn Phương pháp truy hồi Phương pháp nội suy Phương pháp làm mịn Kneser – Ney Phương pháp làm mịn Kneser - Ney cải tiến Chen-GoodMan Các thuật toán chiết khấu (discounting): Kỹ thuật làm giảm kích thước liệu Pruning (loại bỏ): làm giảm số lượng cụm N-gram hình ngôn ngữ cách loại bỏ cụm N-gram không quan trọng Quantization (lượng tử hóa): thay đổi cấu trúc thông tin cụm Ngram hình ngôn ngữ Compression (nén): nén cấu trúc liệu sử dụng việc lưu trữ cụm Ngram hình ngôn ngữ Độ đo Để xây dựng hình ngôn ngữ hiệu quả, phải có cách để đánh giá chúng Dưới số phương pháp phổ biến để đánh giá hình ngôn ngữ: Entropy- Độ đo thông tin Perplexity- Độ hỗn loạn thông tin Error rate- Tỉ lệ lỗi Nhóm 1: thứ tiết 1,2,3 Kết thúc báo cáo ... lý ngôn ngữ tự nhiên dựa thống kê việc xây dựng mô hình ngôn ngữ  Mục tiêu Hiểu khái niệm mô hình ngôn ngữ Tìm hiểu mô hình ngôn ngữ sử dụng xử lý ngôn ngữ tự nhiên Phân tích ví dụ cho mô hình. .. Giới thiệu mô hình ngôn ngữ Mô hình ngôn ngữ phân bố xác suất tập văn Nói đơn giản, mô hình ngôn ngữ cho biết xác suất câu (hoặc cụm từ) thuộc ngôn ngữ Ví dụ: áp dụng mô hình ngôn ngữ cho tiếng... Mô hình ngôn ngữ áp dụng nhiều lĩnh vực xử lý ngôn ngữ tự nhiên như: kiểm lỗi tả, dịch máy hay phân đoạn từ Chính vậy, nghiên cứu mô hình ngôn ngữ tiền đề để nghiên cứu lĩnh vực Mô hình ngôn

Ngày đăng: 29/08/2017, 08:52

Xem thêm: báo cáo mô hình ngôn ngữ

TỪ KHÓA LIÊN QUAN

Mục lục

    Mô hình ngôn ngữ n-gram

    Giới thiệu về mô hình ngôn ngữ

    Mô hình ngôn ngữ n-gram

    Mô hình ngôn ngữ N-gram

    Ước lượng xác suất thô cho mô hình ngôn ngữ n-gram

    Công thức tính xác suất thô

    Khó khăn khi xây dựng một mô hình ngôn ngữ n-gram

    Các phương pháp làm mịn

    Kỹ thuật làm giảm kích thước dữ liệu

TÀI LIỆU CÙNG NGƯỜI DÙNG

  • Đang cập nhật ...

TÀI LIỆU LIÊN QUAN

w