Các khái niệm sử dụng trong bộ thống kê

Một phần của tài liệu Nhận dạng chữ viết tay hạn chế dựa trên mô hình mạng nơron kết hợp với thống kê ngữ cảnh (Trang 42)

1. T ầ n su ấ t xu ấ t hiện của m ột kí tự

T ầ n suất xuất hiện của m ộ t kí tự được tính b ằ n g số lần xuất hiện c ủ a kí tự đó trong q u á trình d uy ệt trên dữ liệu đầu vào. Cụ thể hơn, nếu gọi:

- D: là tập dữ liệu đầu vào.

- ch: là kí tự cần tính tần suất xuất hiện.

- T S (ch): là tần suất xuất hiện của kí tự ch.

- C o u n t (ch): là hàm đếm số lần xuất hiện của ch trên D.

T a có th ể viết dưới dạng công thức n h ư sau:

TS(ch I D ) = Count {ch) {in D) (2.4)

•\ r r

2 nn ^ J Ạ , I • A 'ỉ i >

. T an su â t xuât hiện của 1 từ

Tần suất xuất hiện của một từ được tính bàng số làn xuất hiện của từ đó trong quá trình duyệt trên dữ liệu đầu vào. T ư ơ n g tự nh ư trên, ta cũng có thể viết dưới dạng côna, thức n hư sau:

WTS(w I D ) = Count{w) (in D), (2.5) T ro n g đó, D là tập dữ liệu đầu vào, vv là từ cần thống kê tần suất xuất hiện,

C ount(w ) là hàm đếm số lần xuất hiện của w trên D.

3. Tần su ất x u ấ t hiện của cặp kí tự xy (hay tần suất xu ấ t hiện của kí tự y ngay

sau kí tự x)

T ần suất xuất hiện của cặp kí tự xy được tính bằng số lần xuất hiện của cặp xy hay

s ố lần x u ấ t h i ệ n c ủ a kí tự y n g a y s a u kí tự X t r o n g q u á trình d u y ệ t trên d ữ l i ệ u đâu

vào. V iết dưới dạng công thức, ta có:

T S ( x y I D) = C o u n t ( x y ) ( i n D) , (2 .6 )

trong đó TS(xy) là tần suất xuất hiện cặp xy, C ount là hàm đếm và D là tập dữ liệu đầu vào.

4. X ác suất x u ất hiên của 1 kí tư• •

X ác suất xuất hiện của một kí tự được tính bằng tần suất xuất hiện của kí tự đó trên tổ n g tần suất xuất hiện của tất cả các kí tự có mặt trong qua trình duyệt trên dữ liêu đầu vào. N ế u gọi SX(ch) là xác suất xuất hiện của kí tự ch, ta có thể viết dưới dạng c ông thức n h ư sau:

chịD

5. X ác suất x u ấ t hiện kí tự y ngay sau kí tự X (xác suất xuất hiện của cặp jçy)

X á c suất xuất hiện của kí tự y ngay sau kí tự X (hay còn gọi là xác suất xuất hiện của cặp xy) được tính bằng tần suất xuất hiện của kí tự y ngay sau kí tự X trên tổng tần

suất xuất hiện của tất cả các kí tự khác ngay sau kí tự X. Ta có thể viết dưới dạng c ô n g thức như sau:

Nguyễ n Thị Thanh Tàn Trang - 42 - Luận văn thạc sĩ

Níĩuyễn Thị Thanh Tân Trang - 43 - Luận văn thạc sĩ

SX( xy) = --- , với SX(xy) là xác suất xuất hiên căp xy (2.8)

L T S ( x , y )

X,6 /)

6. X á c s u ấ t x u ấ t hiện c ủ a m ộ t từ

X ác suất xuất hiện của một từ được tính bằng tích xác suất xuất hiện của tất cả các cặp kí tự liền kề nhau trong từ đó. N ếu gọi vv là m ột từ cần tính xác suất xuất hiện,

Wj là kí tự th ứ i trong vv và WXS(w) là xác suất xuất hiện của w , n là chiều dài của từ, ta có:

WXS(w) = SX( woW]) * SX(W]W2) * ...* S X i w ^ w J (2.9)

Một phần của tài liệu Nhận dạng chữ viết tay hạn chế dựa trên mô hình mạng nơron kết hợp với thống kê ngữ cảnh (Trang 42)

Tải bản đầy đủ (PDF)

(103 trang)