1. T ầ n su ấ t xu ấ t hiện của m ột kí tự
T ầ n suất xuất hiện của m ộ t kí tự được tính b ằ n g số lần xuất hiện c ủ a kí tự đó trong q u á trình d uy ệt trên dữ liệu đầu vào. Cụ thể hơn, nếu gọi:
- D: là tập dữ liệu đầu vào.
- ch: là kí tự cần tính tần suất xuất hiện.
- T S (ch): là tần suất xuất hiện của kí tự ch.
- C o u n t (ch): là hàm đếm số lần xuất hiện của ch trên D.
T a có th ể viết dưới dạng công thức n h ư sau:
TS(ch I D ) = Count {ch) {in D) (2.4)
•\ r r
2 nn ^ J Ạ , I • A 'ỉ i >
. T an su â t xuât hiện của 1 từ
Tần suất xuất hiện của một từ được tính bàng số làn xuất hiện của từ đó trong quá trình duyệt trên dữ liệu đầu vào. T ư ơ n g tự nh ư trên, ta cũng có thể viết dưới dạng côna, thức n hư sau:
WTS(w I D ) = Count{w) (in D), (2.5) T ro n g đó, D là tập dữ liệu đầu vào, vv là từ cần thống kê tần suất xuất hiện,
C ount(w ) là hàm đếm số lần xuất hiện của w trên D.
3. Tần su ất x u ấ t hiện của cặp kí tự xy (hay tần suất xu ấ t hiện của kí tự y ngay
sau kí tự x)
T ần suất xuất hiện của cặp kí tự xy được tính bằng số lần xuất hiện của cặp xy hay
s ố lần x u ấ t h i ệ n c ủ a kí tự y n g a y s a u kí tự X t r o n g q u á trình d u y ệ t trên d ữ l i ệ u đâu
vào. V iết dưới dạng công thức, ta có:
T S ( x y I D) = C o u n t ( x y ) ( i n D) , (2 .6 )
trong đó TS(xy) là tần suất xuất hiện cặp xy, C ount là hàm đếm và D là tập dữ liệu đầu vào.
4. X ác suất x u ất hiên của 1 kí tư• •
X ác suất xuất hiện của một kí tự được tính bằng tần suất xuất hiện của kí tự đó trên tổ n g tần suất xuất hiện của tất cả các kí tự có mặt trong qua trình duyệt trên dữ liêu đầu vào. N ế u gọi SX(ch) là xác suất xuất hiện của kí tự ch, ta có thể viết dưới dạng c ông thức n h ư sau:
chị € D
5. X ác suất x u ấ t hiện kí tự y ngay sau kí tự X (xác suất xuất hiện của cặp jçy)
X á c suất xuất hiện của kí tự y ngay sau kí tự X (hay còn gọi là xác suất xuất hiện của cặp xy) được tính bằng tần suất xuất hiện của kí tự y ngay sau kí tự X trên tổng tần
suất xuất hiện của tất cả các kí tự khác ngay sau kí tự X. Ta có thể viết dưới dạng c ô n g thức như sau:
Nguyễ n Thị Thanh Tàn Trang - 42 - Luận văn thạc sĩ
Níĩuyễn Thị Thanh Tân Trang - 43 - Luận văn thạc sĩ
SX( xy) = --- , với SX(xy) là xác suất xuất hiên căp xy (2.8)
L T S ( x , y )
X,6 /)
6. X á c s u ấ t x u ấ t hiện c ủ a m ộ t từ
X ác suất xuất hiện của một từ được tính bằng tích xác suất xuất hiện của tất cả các cặp kí tự liền kề nhau trong từ đó. N ếu gọi vv là m ột từ cần tính xác suất xuất hiện,
Wj là kí tự th ứ i trong vv và WXS(w) là xác suất xuất hiện của w , n là chiều dài của từ, ta có:
WXS(w) = SX( woW]) * SX(W]W2) * ...* S X i w ^ w J (2.9)