Biểu diễn nội dung thư dưới dạng tập hợp từ (“túi- 123docz.net

4. Phạm vi ứng dụng

3.2.4.1. Biểu diễn nội dung thư dưới dạng tập hợp từ (“túi từ”)

Để cĩ thể sử dụng kỹ thuật học máy và xác suất thống kê, nội dung thư cần được biểu diễn dưới dạng thuận tiện cho việc áp dụng thuật tốn học máy. Các phương pháp lọc thư bằng cách tự động phân loại theo nội dung đều sử dụng cách biểu diễn thư dưới dạng véctơ.

Mặc dù cĩ nhiều cách xây dựng véctơ nhưng cách đơn giản nhất là mơ hình “túi từ” (“bag-of-words”). Nguyên tắc cơ bản của phương pháp này là khơng quan tâm tới vị trí xuất hiện các từ hay cụm từ trong thư mà coi thư như một tập hợp khơng cĩ thứ tự các từ. Mỗi thư khi đĩ được biểu diễn bởi một véctơ. Số phần tử của véctơ bằng số lượng từ khác nhau trên tồn bộ tập dữ liệu huấn luyện.

Cĩ nhiều cách tính giá trị các phần tử của vectơ. Cách đơn giản nhất là sử dụng giá trị nhị phân: mỗi phần tử của véctơ bằng 1 hay 0 tuỳ thuộc vào từ tương ứng cĩ xuất hiện trong thư tương ứng với véctơ hay khơng. Các phương pháp phức tạp hơn

thường dựa vào tần suất xuất hiện của từ trong thư. Từ xuất hiện càng nhiều thì

phần tử tương ứng của vectơ cĩ giá trị càng lớn và ngược lại.

Dưới đây là một ví dụ đơn giản minh hoạ cho cách biểu diễn nội dung nĩi trên. Dữ liệu huấn luyện bao gồm bốn thư, trong đĩ hai thư là thư rác và hai là thư bình

thường. Nội dung các thư được cho trong bảng 3.1. Trên bảng 3.2. là biểu diễn véctơ cho các thư trong bảng 3.1. Chú ý là trong ví dụ này chỉ sử dụng các từ đơn âm.

Bảng 3.1. Ví dụ nội dung của 4 thư.

Bảng 3.2. Biểu diễn véctơ cho dữ liệu trong bảng 3.1

Thơng thường, một số bước tiền xử lý được áp dụng đối với các từ trước khi biểu diễn thư dưới dạng véctơ. Đối với tiếng anh, các từ sẽ đưa về dạng gốc, ví dụ “speaking” được biến đổi thành “speak”. Ngồi ra, các liên từ hoặc những từ khơng cĩ ý nghĩa như “và”, “nhưng”.v.v. trong tiếng Việt hay “and”, “the”.v.v. trong tiếng Anh sẽ được loại bỏ do khơng cĩ liên quan trực tiếp tới ý nghĩa của thư.

Trên các tập dữ liệu mẫu thực, số lượng từ khác nhau cĩ thể lên tới hàng chục nghìn tương ứng với số lượng phần tử trong mỗi véctơ. Phương pháp biểu diễn thư sử dụng “túi từ” trình bày ở trên bỏ qua thơng tin về vị trí xuất hiện và thứ tự các từ trong thư. Những thơng tin này cĩ thể cĩ giá trị quan trọng trong việc phát hiện thư rác. Tuy nhiên, do đơn giản, phương pháp “túi từ” vẫn là phương pháp biểu diễn nội dung thư thơng dụng nhất, mặc dù cĩ nhược điểm vừa nêu

3.2.4.2. Sử dụng cụm từ (phrase) cĩ ngữ nghĩa để biểu diễn văn bản

Khái niệm cụm từ dùng để chỉ đơn vị văn bản dài hơn từ đơn nhưng ngắn hơn câu thơng thường và cĩ ngữ nghĩa riêng. Ví dụ “nghiên cứu khoa học” là cụm từ

Số TT Nội dung Nhãn

1 mua và trúng thưởng Rác

2 mua một tặng một Rác

3 anh mua rồi Bình thường

4 vừa gửi xong Bình thường

STT mua Và trúng thưởng một tặng anh Rồi vừa gửi xong

1 1 1 1 1 0 0 0 0 0 0 0

2 1 0 0 0 2 1 0 0 0 0 0

3 1 0 0 0 0 0 1 1 0 0 0

theo định nghĩa này. Sử dụng cụm từ để biểu diễn văn bản cĩ hai ưu điểm chính như sau:

Về mặt ngữ nghĩa, cụm từ gần với khái niệm được nhắc tới trong văn bản hơn các từ đơn xét riêng.

Cụm từ thường cĩ mức độ khơng rõ nghĩa (ambiguity) thấp hơn các từ đơn do những từ cấu thành cụm từ cĩ thể làm rõ nghĩa của nhau.

Cụm từ trong văn bản được nhận biết bằng cách phân tích cú pháp văn bản sử dụng kỹ thuật xử lý ngơn ngữ tự nhiên. Thơng thường, thành phần của câu trong văn bản được gán nhãn từ loại ví dụ: tính từ, danh từ, chủ ngữ, vị ngữ, .v.v., sau đĩ một số quy tắc được sử dụng để nhĩm từ loại đứng gần nhau thành cụm từ dựa trên từ loại của chúng.

Mặc dù cĩ một số ưu điểm so với từ đơn, trên thực tế, nhiều nghiên cứu đã cho thấy việc biểu diễn văn bản thơng quan cụm từ cho kết quả phân loại tồi hơn so với cách sử dụng túi từ. Một trong các lý do của kết quả này là do tần suất các cụm từ cĩ nghĩa thấp hơn nhiều so với từ đơn nên cụm từ cĩ nghĩa cĩ thể bị lẫn với cụm từ xuất hiện tình cờ. Một nguyên nhân khác là việc tách cụm từ nhờ phân tích cú pháp văn bản cĩ thể sinh ra những cụm từ khơng cĩ nghĩa. Ví dụ trong khi “nghiên cứu khoa học” cĩ thể coi là một cụm từ thì “ăn uống khoa học” lại nên tách thành 2 cụm từ khác nhau.

3.2.4.3. Sử dụng phân cụm từ(word cluster) để biểu diễn văn bản

Theo phương pháp này, những từ cĩ ngữ nghĩa hoặc tình huống sử dụng tương tự nhau sẽ được nhĩm với nhau thành những nhĩm gọi là phân cụm từ (clusters). Từ được coi là cĩ cùng nghĩa nếu cĩ xu hướng cùng xuất hiện trong một số văn bản. Để phân cụm từ, mỗi từ được biểu diễn dưới dạng vectơ, mỗi thành phần vectơ là số lần từ xuất hiện trong một văn bản nào đĩ. Thuật tốn phân cụm được sử dụng để tìm ra những vectơ tương tự nhau. Sau khi tìm được phân cụm từ, phân cụm từ được sử dụng để biểu diễn văn bản cần phân loại.

Kết quả thử nghiệm cho thấy, phương pháp biểu diễn văn bản bằng phân cụm từ khơng cho kết quả tốt hơn phương pháp túi từ thơng dụng và do vậy rất ít được sử dụng cho ứng dụng thuộc loại này.

3.2.5. Các bước tiền hành lọc trên mạng Bayes

Bộ lọc spam trên cơ sở mạng Bayes dựa vào nội dung của email để phân lớp. Các giai đoạn chính của giải pháp trên cơ sở mạng Bayes như sau:

+ Đầu tiên cần token hố nội dung của email, nghĩa là tách nĩ thành các phần nhỏ để sử dụng trong xử lý. Các token này cĩ thể là các cụm từ, các cặp từ, nhưng các từ đơn thường được sử dụng hơn cả để định nghĩa các token.

+ Bước tiếp theo, giá trị của mỗi token được xác định bằng cách tìm kiếm trong một bảng cập nhật (từ điển token). Trong bảng này, một hoặc nhiều giá trị sẽ được lưu cho mỗi token, sau khi cĩ được giá trị của mỗi token, cĩ một cách để tính xác suất cho một email là thư spam hay thư hợp lệ, hầu hết các thực thi khơng sử dụng tất cả các giá trị, thường để tiết kiệm thời gian xử lý các thực thi tính tốn với các giá trị cĩ liên quan nhất.

+ Các giá trị của các token cĩ liên quan cĩ khoảng cách lớn nhất từ giá trị trung tính (neutral) và như vậy chúng sẽ gần với một mặt nạ các thư spam hoặc thư hợp lệ. Các giá trị này được sử dụng để thiết lập một ma trận quyết định, thường lên tới 10 hay 15 token tốt nhất.

+ Bước cuối cùng là sửa đổi các giá trị của các token trong từ điển, điều này

đưa ra khả năng học liên tục với thơng tin phản hồi (feedback) và kết quả nhị phân cuối cùng được tạo ra.

+ Khơng chỉ yêu cầu kết quả nhị phân, mà cịn dễ dàng đưa ra kết quả là xác suất cĩ thể để một thư là spam. Xác suất cĩ thể này được sử dụng theo nhiều cách khác nhau. Ví dụ, các giới hạn được thực hiện theo cách này để tạo ra các thể loại và các hoạt động khác nhau cĩ thể được thực hiện cho chúng (chẳng hạn dưới 40% - để nĩ vào inbox; 40 - 80% – để nĩ vào inbox, với chủ đề được đánh dấu: ”possible spam”; trên 80% - đặt nĩ vào thư mục spam .v.v..)

+ Xác định rõ các đặc trưng sử dụng. Yêu cầu sẽ xem xét các thư điện tử và tìm các “từ” hoặc “nhĩm từ” mà chúng là dấu hiệu của thư rác hay khơng phải thư rác, đây cĩ thể coi là cơ sở dữ liệu cho bộ lọc. Đây là một phần quan trọng trong nhiệm vụ này và cĩ thể lặp lại một vài lần.

+ Sử dụng một số phương pháp lựa chọn đặc trưng để phân tích dữ liệu và chọn đặc trưng, sau đĩ cĩ thể ước lượng xác suất điều kiện và sử dụng các luật Bayes để ước lượng xác suất của một thư điện tử cĩ phải là thư rác hay khơng?

+ Xác định rõ ngưỡng để loại bỏ tất cả các thư điện tử mà xác suất của chúng lớn hơn xác suất này.

+ Thử nghiệm hệ thống lọc thư rác và ước lượng hiệu quả trong thực tế.

Hệ thống lọc thư rác khác nhiều so với các cơng việc của phân loại văn bản ít nhất ở hai lí do sau:

+ Thứ nhất: Các loại văn bản hỗn tạp trong thực tế cĩ thể xuất hiện là do chủ ý của người đọc và một nội dung chỉ cĩ thể cĩ một tiêu đề. Các thư điện tử thì được gửi đi một cách tự nguyện đối với những người gửi thư rác nhưng với người nhận

thư rác thì hồn tồn ngồi ý muốn. Tương tự như các loại văn bản các thư điện tử

cĩ thể cũng mở rộng một số các tiêu đề khác nhau đối với cùng một nội dung. + Thứ hai: Việc phân loại nhầm một thư hợp lệ thành thư rác sẽ phát sinh hậu quả nghiêm trọng hơn là phân loại nhầm một thư rác thành thư hợp lệ. Đây là chất lượng khác nhau giữa các lớp mà nĩ cần được ghi chép lại trong quá trình tính tốn.

Lựa chọn các đặc trưng: Khi xét đến các vấn đề cụ thể của việc lọc thư rác việc lựa chọn được tập các đặc trưng của các thư điện tử là rất quan trọng, bên cạnh các từ riêng lẻ trong nội dung của các thơng điệp nĩ cung cấp các dấu hiệu để nhận ra một thư điện tử cĩ phải là thư rác hay khơng. Lấy ví dụ các cụm từ đặc biệt như là “Free money” hay các phép chấm câu nhấn mạnh “!!!!” là ngụ ý của thư rác. Hơn nữa thư điện tử bao gồm nhiều những đặc trưng khơng phải của văn bản như là loại vùng của các thơng điệp được gửi đi (e.g, .edu hay ..com) nĩ cung cấp các đặc điểm của thơng tin hàm chứa trong nội dung giúp cho ta cĩ thể nhận biết một thư điện tử cĩ được

3.3. Tổng quan lọc thư rác tiếng Việt

3.3.1. Khĩ khăn trong quá trình lọc thư spam tiếng Việt

Trong quá trình lọc thư rác tiếng Việt, vấn đề khĩ khăn nhất là phải xử lý được việc tách từ. Mặc dù, tiếng Việt gồm các ký tự La tinh nhưng tiếng Việt cĩ những đặc trưng riêng [2]. Tiếng Việt cĩ 2 thành phần cơ bản: tiếng và từ. Một số mối liên quan giữa từ và tiếng như sau:

Về giá trị ngữ pháp, tiếng là đơn vị cấu tạo từ

Từ là đơn vị nhỏ nhất để cấu tạo nên câu, từ ở dạng nguyên thể, hình thức và ý nghĩa của nĩ độc lập với cú pháp. Sử dụng tiếng để tạo thành từ, cĩ 02 loại từ phổ biến, từ một tiếng (từ đơn) và từ n tiếng trở lên (n<5) gọi là từ phức (bao gồm từ ghép và từ láy). Trong đặt câu tiếng Việt, sử dụng từ chứ khơng sử dụng tiếng

Cịn đối với tiếng Anh, từ được định nghĩa như sau: “Từ là một nhĩm ký tự cĩ nghĩa, được phân cách bởi ký tự khoảng trắng trong câu” ( từ điển Webter)

Cụ thể đơn giản hơn, đối với tiếng Anh, ví dụ: “You are a teacher” sẽ tách được 4 từ: you, are, a, teacher. Đối với tiếng Việt, ví dụ: “Bạn là giáo viên” sẽ tách được 3 từ: bạn, là, giáo viên. Trong đĩ từ ghép “giáo viên” là từ được hình thành bởi 2 tiếng: “giáo”, “viên”. Do sự khác biệt đĩ nên một từ ghép chủ yếu được dùng trong các thư rác khi tách ra thành các từ đơn thì lại được dùng phổ biến trong các thư tốt. Ví dụ từ “khuyến mãi” là từ thường được dùng trong thư rác tiếng Việt nhưng khi tách ra thành từ “khuyến”và từ “mãi” thì những từ này lại được sử dụng nhiều trong các thư tốt.

3.3.2. Tình hình nghiên cứu

Bài tốn lọc thư rác đã cĩ rất nhiều phương pháp giải quyết triệt để và mang lại những kết quả thành cơng. Tuy nhiên, đa phần các cơng trình nghiên cứu chỉ tập trung giải quyết thư rác tiếng Anh, cịn lĩnh vực thư rác tiếng Việt thì chưa can thiệp. Trở ngại lớn nhất là cấu trúc tiếng Việt khác biệt hồn tồn so với cấu trúc tiếng Anh đã trình bày ở trên.

Dựa trên các nghiên cứu đã cĩ của Foo và Li [5], Le [9], D.Dien [3], H.Nguyen et al [7], việc tách từ xử lý tiếng Việt, chia là 2 hướng chính nghiên cứu là dựa trên “từ” và dựa trên ký tự.

Các hướng tiếp cận dựa trên “từ”, cĩ 3 nhĩm: dựa vào thống kê, dựa vào từ điển và nhĩm lai, nhĩm tách trọn vẹn từ trong câu. Các giải pháp theo hướng tiếp cận dựa vào thống kê cần dựa vào thống kê như số lượng từ, tần số xuất hiện của từ cũng như xác suất xuất hiện của từ trong một tập dữ liệu cơ sở. Do đĩ, tính hiệu quả của các giải pháp này chủ yếu dựa vào dữ liệu huấn luyện cụ thể đã được đưa vào sử dụng và bổ sung dữ liệu mới cho tập huấn luyện. Tuy nhiên, khuyết điểm của hướng tiếp cận này là khĩ khăn trong việc xây dựng tập huấn luyện cơ sở đủ lớn rộng, bao gồm nhiều lĩnh vực, chủ đề khác nhau và tồn diện.

Trong hướng tiếp cận dựa vào tự điển, cần phải phân tích từ tập dữ liệu cơ sở thành tập các từ, sau đĩ đem so sánh dựa vào bộ từ điển cĩ sẵn để tính độ tin cậy của từ. Tuy nhiên, việc xây dựng bộ từ điển và ý nghĩa cụ thể của tiếng Việt chưa hồn chỉnh và khơng mang tính khả thi.

Các hướng tiếp cận dựa trên ký tự (dựa trên “tiếng” trong tiếng Việt) cĩ thể chia làm hai nhĩm nhỏ: uni-gram và n-gram. Các phương pháp này tuy đơn giản nhưng

đã đem lại nhiều kết quả quan trọng trong việc xử lý tiếng Hoa (Foo và Li [5],

Yiming Yang [11] ). Trong bài báo khác, cũng đã xuất hiện phân loại từ tiếng Việt theo hướng tiếp cận này. Le [9] đã xây dựng 10 MB dữ liệu thơ và sử dụng quy hoạch động để tối ưu hĩa tần số xuất hiện của các từ sử dụng trong tập dữ liệu cơ sở.

Trong một bài báo khác, H. Nguyen et al [7] thay vì sử dụng dữ liệu thơ, tác giả đã dùng thơng tin thống kê trực tiếp từ Internet và sử dụng giải thuật di truyền để tìm ra những cách phân đoạn văn bản tối ưu nhất của cùng một văn bản.

3.3.3. Phương pháp tiếp cận

Trong tiếng Việt, tùy theo từng lĩnh vực, chủ đề khác nhau nên cĩ nhiều từ, tiếng khác nhau về mặt phát âm cũng như ý nghĩa. Trong luận văn này, chỉ tập trung vào lĩnh vực thư rác tiếng Việt nên cĩ sự giới hạn về số lượng về từ và tiếng sử

dụng. Luận văn khơng tập trung vào mặt ý nghĩa cũng như những đặc trưng phức tạp của tiếng Việt như từ đồng nghĩa, từ láy, … mà chỉ xác định tần số của từ đơn, từ ghép tiếng Việt xuất hiện trong thư rác nên hướng tiếp cận khác với các phương pháp xác định ngữ nghĩa từ tiếng Việt.

Hiện tại, chưa cĩ một thống kê chính xác nào, xác định những đặc điểm chung của thư rác tiếng Việt. Theo khảo sát, đa phần thư rác tiếng Việt tập trung vào quảng cáo, rao vặt mua bán và mời tham gia các diễn đàn và các mạng xã hội. Phần dưới sẽ trình bày những đặc điểm chính của phương pháp tiếp cận vấn đề.

3.3.3.1. Mục tiêu chính

Xét một văn bản u gồm n tiếng t=s1s2.. sn. Mục tiêu chính của quá trình là phân

tích văn bản u thành m câu đơn t=z1z2… zm với zk= si… sj (1≤ k≤ m, 1≤ i, j≤ n) cĩ

thể chứa từ đơn hay từ phức. Ứng với mỗi câu cĩ được, tiến hành phân tích thành từng từ đơn thể. Đây là bước đầu tiên để cĩ thể xây dựng một danh sách các từ ghép

Biểu diễn nội dung thư dưới dạng tập hợp từ (“túi từ”)

Bài tốn phân loại văn bản

Những nguyên tắc bộ lọc thống kê