Language modeling là gì?

Language Modeling Language model Trong viết này, ta tìm hiểu mơ hình ngôn ngữ (language modeling) Làm để xây dựng mơ hình ngơn ngữ từ tập mẫu câu ngôn ngữ (Anh, Việt, Nhật, …) Mơ hình ngơn ngữ ban đầu ứng dụng nhận dạng tiếng nói (speech recognition) áp dụng vào tác vụ khác liên quan lĩnh vực Xử lý ngôn ngữ tự nhiên (Natural Language Processing – NLP) gán nhãn từ loại (tagging), phân tích cú pháp (parsing), dịch máy (machine translation), … Tại cần mơ hình ngơn ngữ? Lý thứ nhất, mơ hình cung cấp cho bạn thông tin phân bố xác suất tiền nghiệm (prior distribution) để xét xem câu gồm từ đầu vào có phù hợp hay khơng với ngơn ngữ xác định Ví dụ, ta có xác suất câu nhờ mà ta xác định câu “tối chơi vui quá” phù hợp với ngôn ngữ tiếng Việt câu hai“quá vui chơi tối” Thứ hai, kĩ thuật liên quan đến ước lượng tham số cho mơ hình thơng qua tập liệu huấn luyện cho trước sử dụng mơ hình khác Hidden Markov Model, Natural Language Parsing Và cuối cùng, sở kiến thức để bạn đọc hiểu viết liên quan đến Long short-term memory (LSTM) Đặt vấn đề Giả sử ta có ngữ liệu (corpus) thu thập từ trang web vnexpress, baomoi, hay foody Ngữ liệu tập liệu gồm câu (sentence) cho ngôn ngữ xác định Tiếp theo, ta định nghĩa (vocabulary) từ vựng ngơn ngữ gồm tập hợp hữu hạn từ Ví dụ, ngơn ngữ tiếng Việt, ta có danh sách từ sau (con, mèo, kêu, nhảy, chuối, bánh, kem, …): Mục tiêu xây dựng mơ hình có khả tính tốn xác suất câu thuộc ngôn ngữ cụ thể Trong đó, chuỗi từ tạo nên câu Ta đặt vậy, ta có tập hợp câu bên meo meo keu meo meo meo STOP chiều dài câu, ký hiệu đặc biệt ( ) Như nhay STOP keu STOP STOP meo STOP Từ đây, ta đặt dài tập hợp tất câu từ từ vựng Đây tập vơ hạn, câu có độ Định nghĩa cách tốn học xíu Một mơ hình ngơn ngữ gồm tập hữu hạn từ vựng hàm xác suất cho: , và Như phân bố xác suất câu tập Ta định nghĩa xác suất công thức đơn giản sau Với (count) số lần xuất câu câu ngữ liệu huấn luyện ngữ liệu, số lượng Sentence frequency Công thức thật đơn giản bắt đầu, ta cần biết hạn chế tử số khơng Tử số khơng có nghĩa câu tính khơng nằm ngữ liệu huấn luyện Điều dẫn đến mơ hình khơng có khả tổng qt hoá, mục tiêu Machine Learning tổng qt hố để dự đốn mẫu liệu khơng có ngữ liệu Ta khắc phục nhược điểm phương pháp đề cập mục Markov Models Ý tưởng mơ hình Markov giả định xác suất đối tượng hành phụ thuộc vào ( ) đối tượng trước chuỗi Ngược lại với xác suất đồng thời (chain rule), xác suất đối tượng hành phải phụ thuộc vào đối tượng trước Trigram Language Models rút trực tiếp từ mơ hình này, ta bàn mục Xét chuỗi biến ngẫu nhiên thuộc tập hữu hạn kỳ Mỗi biến ngẫu nhiên có giá trị Mục tiêu mơ hình hố xác suất chuỗi bất , cho sau Như vậy, với chuỗi có dạng ta phát sinh khả Rõ ràng ta liệt kê hết tay danh sách chuỗi để tính xác suất Thay vậy, ta tổng qt hố thành cơng thức bên dưới, với tên gọi mơ hình Markov bậc (first-order Markov) = (1.1) = (1.2) (1.1) công thức chuẩn suy từ xác suất đồng thời (chain rule), (1.2) suy từ công thức với giả định đối tượng thứ phụ thuộc điều kiện vào đối tượng trước chuỗi Nghĩa Tương tự, ta có mơ hình Markov bậc hai (second-order Markov) = Để thuận tiện cho xử lý, ta đặt , ký hiệu bắt đầu chuỗi/câu Để tính xác suất xuất đối tượng có phân bố ta thực bước sau Khởi tạo Nếu , Phát sinh đối tượng từ cơng thức ta trả chuỗi Ngược lại, ta gán quay lại bước Như vậy, ta có mơ hình phát sinh chuỗi có chiều dài Trigram Language Models Unigram Trong thực tế, ta có nhiều cách để xây dựng mơ hình ngơn ngữ, ta tập trung vào mơ hình Trigram Language Models Mơ hình Markov bậc hai đề cập phần = Định nghĩa cho mơ hình gồm tập hữu hạn từ vựng với trigram , ta có hiểu xác suất xuất từ cho model , tham số sau bigram Trong đó, Với câu thoả ràng buộc trigram , , xác suất câu trigram language đặt Các tham số bigram Ta xem ví dụ bên cho câu “Việt nam đất nước tươi đẹp” Maximum-Likelihood Estimates Để ước lượng xác suất cực đại, ta định nghĩa ngữ liệu, ví dụ số lần xuất trigram số lần xuất chuỗi gồm ba từ chó gặm xương ngữ liệu Tương tự, ta định nghĩa ngữ liệu Từ hai định nghĩa này, ta đặt số lần xuất bigram Ví dụ cho câu chó gặm xương ta có Cơng thức ước lượng thật đơn giản phải không Tuy nhiên, công thức vướng phải vấn đề sau: Do số lượng từ vựng thực tế lớn khoảng ta có khoảng khả tham số vậy, có nhiều mẫu câu có giá trị xác suất không Và tham số không xác định từ vựng, Để giải vấn đề này, ta áp dụng số phương pháp Linear interpolation Ta định nghĩa trigram, bigram, unigram sau Vì Trong đó, ta lưu ý Nhờ có tham số vào khác khơng tổng số từ xuất ngữ liệu (không phải tổng số từ vựng ) , ta ln có giá trị lớn không để đảm bảo xác suất câu đầu Ý tưởng phương pháp linear interpolation (nội suy tuyến tính) sử dụng ba tham số cách định nghĩa trigram estimate sau Trong đó, tham số thêm vào mơ hình, thoả điều kiện Chúng cịn gọi trọng số trung bình (weighted average) cho tham số Để ước lượng giá trị cho tham số , ta áp dụng phương pháp Log-likelihood bucketing _ Log-likelihood Ta chia ngữ liệu ban đầu thành ba tập: training, testing, developing (ví dụ tỷ lệ tương ứng 60%, 10%, 20%) Ta định nghĩa số lần xuất trigram developing Ta có cơng thức log-likelihood cho tập developing tập = = Mục tiêu chọn giá trị cho giá trị đạt cực đại _ Bucketing Ta định nghĩa lại tham số đơn giản Trong tham số cần tìm phương pháp tính nhờ vào maximum log-likelihood Discounting Methods Đây hướng tiếp cận khác để ước lượng tham số trường hợp bigram thực tế Đầu tiên, ta xét với Với bigram đếm , ta định nghĩa discounted counts (trừ giá trị sau ) (thơng thường ta đặt ) Ta làm trình đếm tần suất câu ngữ liệu, ta làm cho tần suất câu ngữ liệu cao tần suất câu không nằm ngữ liệu thấp Điều giúp cho mơ hình bị overfitting Từ đây, ta định nghĩa Ví dụ, sau áp dụng cơng thức trên, ta có bảng tương tự bên ( con,chó con,mèo con,gà con,bị con,tàu con,con con,cóc con,heo con,mồi con,thoi 48 15 11 10 1 1 14.5 10.5 9.5 4.5 1.5 0.5 0.5 0.5 0.5 0.5 ) 14.5/100 10.5/100 9.5/100 4.5/100 1.5/100 0.5/100 0.5/100 0.5/100 0.5/100 0.5/100 Với ngữ cảnh , ta tính khối xác suất bị (missing probability mass) Từ bảng ví dụ ta có Lúc ta định nghĩa hai tập Ta dùng giá trị để tính giá trị cho sau Như vậy, Theo ví dụ ta có cặp từ cịn lại Tổng qt hố cho trường hợp trigram Với bigram ta định nghĩa đệ quy cho trigram sau Trong mơ hình này, để ước lượng tham số ta lại áp dụng phương pháp held-out lên tập developing cách cực đại hoá log-likelihood Ta thực cách lặp qua giá trị giá trị để tính log-likelihood chọn khiến cho hàm đạt cực đại Đánh giá mơ hình Làm để đánh giá chất lượng mơ hình ngơn ngữ? Một phương pháp phổ biến perplexity (độ hỗn độn) Giả sử ta có tập câu để test (held-out: khơng nằm tập training) câu có chuỗi từ , Mỗi độ dài câu thứ Ta tính xác suất cho thơng qua mơ hình ngơn ngữ vừa training xong Khi đó, chất lượng mơ hình ngơn ngữ tính sau giá trị thu từ phép tính cao chất lượng mơ hình tốt liệu chưa thấy tập training Perplexity định nghĩa sau Theo cơng thức trên, giá trị perplexity nhỏ, mơ hình ngôn ngữ xây dựng tốt Trong thực nghiệm Goodman, ông đưa biểu đồ cho thấy perplexity 74 trigram model, 137 cho bigram model, 955 cho unigram model Mơ hình đơn giản gán xác suất 1/50,000 cho từ với từ vựng 50,000 Như trigram model cho ta giá trị đánh giá mơ hình ngơn ngữ tốt bigram unigram k

Định dạng
Số trang	12
Dung lượng	319,23 KB