Máy học và mô hình n-grams

Một phần của tài liệu Nghiên cứu và phát triển phương pháp rút gọn câu tiếng việt dựa trên phương pháp học không giám sátt (Trang 24 - 28)

Từ những năm 90, khi máy học được đưa vào ứng dụng, các nghiên cứu ra đời kết hợp với trào lưu của máy học, có thể khẳng định rằng máy học đã mang lại những hiệu quả to lớn so với các phương pháp trước. Đặc biệt trong những vấn đề trích rút ra tri thức từ dữ liệu.

Định nghĩa 2.1 [Máy học (Machine Learning)]

Máy học là một chương trình máy tính cho phép tối ưu hiệu năng công việc thông qua sử dụng dữ liệu mẫu hoặc các kinh nghiệm từ quá khứ [29].

Học được sử dụng khi thiếu chuyên gia con người, hay con người gặp khó khăn khi giải thích một vấn đề nào đó, hoặc để giải quyết các vấn đề thay đổi theo thời gian hay cần thiết phải giải quyết được thích ứng với những trường hợp đặc biệt. Máy học được ứng dụng trong nhiều ngành khoa học khác nhau, đặc biệt những lĩnh vực cần phân tích dữ liệu lớn như xử lý ngôn ngữ tự nhiên (Natural Language Processing), Nhận dạng mặt người (Face Recognition), chẩn đoán bệnh, công nghiệp người máy,...

Học có thể coi như là quá trình tìm một hàm ánh xạ từ X sang Y, trong đó X là đầu vào và Y là đầu ra mong muốn. Học được chia thành ba kỹ thuật

chính: Học có giám sát (supervised learning), không giám sát (unsupervised learning) và học tăng cường (reinforcement learning):

- Học có giám sát: Giả sử có một tập mẫu huấn luyện dưới dạng các cặp (đặc trưng, nhãn) {(x1, y1), . . . , (xn, yn)}. Vấn đề của học giám sát là xác định nhãn y của một đầu vào đặc trưng x bất kỳ. Các mô hình học giám sát điển hình: cây quyết định, mạng noron, mô hình Markov ẩn, mạng Bayes, SVM (Support Vector Machines),…Học giám sát được ứng dụng nhiều trong các bài toán phân loại, nhận dạng mẫu,…

- Học không giám sát: Trong học không giám sát, chỉ có một tập các đặc trưng đầu vào {x1, x2 . . . , xn} nhưng không có nhãn đầu ra tương ứng.

Vấn đề đặt ra là đưa ra một cách thức, cơ chế tổ chức các đặc trưng đầu vào.

Điển hình của học không giám sát là phân cụm. Ưu điểm của học không giám sát là kho dữ liệu huấn luyện không cần quá lớn. Học không giám sát được ứng dụng trong các bài toán phân cụm, dự báo,...

- Học tăng cường: Hệ thống học quan sát môi trường x, thực hiện hành động a và nhận được giá trị r. Mục đích là chọn hành động để nhận được giá trị r tốt nhất trong tương lai.

2.1.2. Mô hình n-grams

Mô hình n-grams được sử dụng khi dùng dự đoán một từ tiếp theo khi biết từ ( chuỗi từ) hiện tại hoặc để xây dựng một mô hình ngôn ngữ (language model). Lý thuyết cơ bản được mô hình n-grams sử dụng là lý thuyết xác suất. Lý thuyết này dùng tính toán từ đứng tiếp theo trong chuỗi gồm n từ khi ta mới chỉ biết n-1 từ [14].

Ví dụ 2.1: Tính toán xác suất của từ w với một lịch sử h đã cho hay còn gọi là P(w|h). Giả thiết rằng lịch sử h là “its water is so transparent that”” và ta muốn biết xác suất của từ tiếp theo là the:

P(the|its water is so transparent that).

Làm thế nào có thể tính được xác suất trên? Một các là đếm tần suất.

Ví dụ, ta cần sử dụng một kho ngữ liệu lớn, đếm số lần ta nhìn thấy “the water is so transparent that” và đếm số lần chuỗi từ đó kèm theo the. Tiếp theo tính xác suất:

nt that) transpare

so is water C(its

e) nt that th transpare

so is water C(its nt that)

transpare so

is water

|

(the its =

P (2-1)

Với một kho ngữ liệu đủ lớn (kho ngữ liệu web), ta có thể dễ dàng đếm được và tính được xác suất trên.

Nếu xác suất điều kiện trên khác 0, có nghĩa, chuỗi trên có thể đi kèm theo “the”. Còn nếu khi xác suất bằng 0 có nghĩa, chuỗi trên không thể kèm theo từ “the).

Để tính xác suất của một chuỗi P(w1,w2,..,wn). Sử dụng luật xích (chain rule) của xác suất:

∏=

− =

= n

k

k n n

n x

n P X P X X P X X P X X P X X

X X P

1

1 1 1

1 2

1 3 1 1

1... ) ( ) ( | ) ( | )... ( | ) ( | )

( (2-2)

Áp dụng luật xích cho các từ, nhận được

∏=

− =

= n

k

k n n

n n

n P w P w w P w w P w w P w w

w P

1

1 1 1

1 2

1 3 1 2

1) ( | ) ( | )... ( | ) ( | )

( )

( (2-3)

Luật xích cho thấy liên kết giữa các xác suất kết hợp (joint probability) của một chuỗi và xác suất điều kiện của một từ khi đã biết những từ trước.

Với mô hình bigram, luật trên rút gọn thành P(wn|wn-1). Hay như ví dụ 2.1 trên xác suất P(the|Its water is so transparent that) có thể viết lại xấp xỉ thành xác suất P(the|that).

Khi sử dụng mô hình bigram để dự đoán xác suất điều kiện của từ tiếp theo có thể dùng công thức xấp xỉ.

)

| ( )

|

(wn w1n−1 ≈P wn wn−1

P (2-4)

Với N-grams, xác suất điều kiện xấp xỉ của từ tiếp theo trong chuỗi là

)

| ( )

|

(wn w1n−1 ≈P wn wnn−−1N+1

P (2-5)

Ví dụ 2.2: Tại một nhà hàng ăn quốc tế. Để nhận biết khách hàng muốn sử dụng đồ ăn gì, ta có thể sử dụng dự đoán từ để biết khách hàng quốc tế muốn ăn gì khi nghe chưa rõ.

Bảng 2.1 dưới đây biểu hiện số từ xuất hiện trong kho ngữ liệu Bảng 2.1. Mô tả tần suất từ

i want to eat chinese food lunch spend

I Want

To Eat Chinese

Food Lunch Spend

5 2 2 0 1 1.5

2 1

827 0 0 0 0 0 0 0

0 608

4 2 0 15

0 1

9 1 686

0 0 0 0 0

0 6 2 16

0 1 0 0

0 6 0 2 82

4 1 0

0 5 6 42

1 0 0 0

2 1 211

0 0 0 0 0 Dựa vào bảng trên có thể thấy rằng câu I want to eat chinese food lunch spend có các giá trị tần suất tương ứng như bảng 2.2.

Bảng 2.2. Câu tương ứng

i want to eat chinese food lunch spend

2533 927 2417 746 158 1093 341 278

Tiếp theo sử dụng cách tính xác suất

P(i|<s>)=0.25 P(english|want)=0.0011 P(food|english)=0.5 P(</s>|food)=0.68 Từ đó có thể hình thành bảng xác suất điều kiện 2.3 sau

Bảng 2.3. Xác suất điều kiện

Câu cuối cùng khi nhận được từ khách hàng là câu: I want to eat chinese food.

Một phần của tài liệu Nghiên cứu và phát triển phương pháp rút gọn câu tiếng việt dựa trên phương pháp học không giám sátt (Trang 24 - 28)

Tải bản đầy đủ (DOC)

(56 trang)
w