Cách biểu diễn nội dung thư rác

Một phần của tài liệu (LUẬN văn THẠC sĩ) phân loại thư rác bằng phương pháp học máy (Trang 31 - 35)

1.3.2.1. Biểu diễn nội dung thư dưới dạng tập hợp từ (“túi từ”)

Để cĩ thể sử dụng kỹ thuật học máy và xác suất thống kê, nội dung thư cần được biểu diễn dưới dạng thuận tiện cho việc áp dụng thuật tốn học máy. Các phương pháp lọc thư bằng cách tự động phân loại theo nội dung đều sử dụng cách biểu diễn thư dưới dạng véctơ. Mặc dù cĩ nhiều cách xây dựng véctơ nhưng cách đơn giản nhất là mơ hình “túi từ” (“bag-of-words”). Nguyên tắc cơ bản của phương pháp này là khơng quan tâm tới vị trí xuất hiện các từ hay cụm từ trong thư mà coi thư như một tập hợp khơng cĩ thứ tự các từ. Mỗi thư khi đĩ được biểu diễn bởi một véctơ. Số phần tử của véctơ bằng số lượng từ khác nhau trên tồn bộ tập dữ liệu huấn luyện.

Cĩ nhiều cách tính giá trị các phần tử của vec tơ. Cách đơn giản nhất là sử dụng giá trị nhị phân: mỗi phần tử của véctơ bằng 1 hay 0 tuỳ thuộc vào từ tương ứng cĩ xuất hiện trong thư tương ứng với véctơ hay khơng.

24

Các phương pháp phức tạp hơn thường dựa vào tần suất xuất hiện của từ trong thư. Từ xuất hiện càng nhiều thì phần tử tương ứng của vec tơ cĩ giá trị càng lớn và ngược lại.

Dưới đây là một ví dụ đơn giản minh hoạ cho cách biểu diễn nội dung nĩi trên. Dữ liệu huấn luyện bao gồm bốn thư, trong đĩ hai thư là thư rác và hai là thư bình thường. Nội dung các thư được cho trong bảng 1.2. Trên bảng 1.3 là biểu diễn véctơ cho các thư trong bảng 1.2. Chú ý là trong ví dụ này chỉ sử dụng các từ đơn âm, những phần tiếp theo sẽ đề cập tới từ gồm nhiều âm của tiếng Việt.

Bảng 1.1. Ví dụ nội dung của bốn thư

Số TT Nội dung Nhãn

1 mua và trúng thưởng Rác

2 mua một tặng một Rác

3 em mua rồi Bình thường

4 vừa gửi xong Bình thường

Bảng 1.2. Biểu diễn vec tơ cho dữ liệu trong bảng 1.1

Số TT mua Và trúng thưởng một tặng em Rồi vừa gửi xong

1 1 1 1 1 0 0 0 0 0 0 0

2 1 0 0 0 2 1 0 0 0 0 0

3 1 0 0 0 0 0 1 1 0 0 0

4 0 0 0 0 0 0 0 0 1 1 1

Thơng thường, một số bước tiền xử lý được áp dụng đối với các từ trước khi biểu diễn thư dưới dạng véctơ. Đối với tiếng anh, các từ sẽ đưa về dạng gốc, ví dụ “speaking” được biến đổi thành “speak”. Ngồi ra, các liên từ hoặc những từ khơng cĩ ý nghĩa như “và”, “nhưng”.v.v. trong tiếng Việt hay “and”, “the”.v.v. trong tiếng Anh sẽ được loại bỏ do khơng cĩ liên quan trực tiếp tới ý nghĩa của thư.

25

Trên các tập dữ liệu mẫu thực, số lượng từ khác nhau cĩ thể lên tới hàng chục nghìn tương ứng với số lượng phần tử trong mỗi véctơ. Trong các phần sau sẽ đề cập tới kỹ thuật giảm bớt số lượng từ dùng để biểu diễn thư.

Phương pháp biểu diễn thư sử dụng “túi từ” trình bày ở trên bỏ qua thơng tin về vị trí xuất hiện và thứ tự các từ trong thư. Những thơng tin này cĩ thể cĩ giá trị quan trọng trong việc phát hiện thư rác. Tuy nhiên, do đơn giản, phương pháp “túi từ” vẫn là phương pháp biểu diễn nội dung thư thơng dụng nhất, mặc dù cĩ nhược điểm vừa nêu. Trong nghiên cứu này, tơi cũng sử dụng phương pháp túi từ và các mở rộng của phương pháp này để biểu diễn nội dung thư điện tử.

1.3.2.2. Một số phương pháp biểu diễn nội dung thư khác

Để cĩ cái nhìn tồn diện về vấn đề biểu diễn nội dung thư, trong phần này luận văn sẽ trình bày tĩm tắt một số phương pháp biểu diễn nội dung thư khác với phương pháp “túi từ” và phân tích lý do khơng sử dụng những phương pháp này cho lọc thư rác.

Lọc thư theo nội dung là trường hợp riêng của bài tốn phân loại văn bản trong đĩ thư được phân loại thành thư rác hoặc thư hợp lệ dựa trên nội dung văn bản của thư. Bộ lọc thư rác, do vậy, cĩ thể sử dụng những phương pháp biểu diễn nội dung thư khác được đề xuất cho các ứng dụng phân loại văn bản nĩi chung.

Đặc điểm chung của phương pháp khơng dùng “túi từ” là sử dụng các đặc trưng chứa nhiều thơng tin về và ngữ nghĩa hơn để biểu diễn nội dung văn bản. Tiêu biểu nhất là phương pháp sử dụng cụm từ cĩ ngữ nghĩa và phương pháp sử dụng phân cụm từ (word clusters). Dưới đây là mơ tả tĩm tắt các phương pháp trên.

1. Sử dụng cụm từ (phrase) cĩ ngữ nghĩa để biểu diễn văn bản; 2. Sử dụng phân cụm từ (word cluster) để biểu diễn văn bản.

1.3.2.3. Sử dụng cụm từ (phrase) cĩ ngữ nghĩa để biểu diễn văn bản

Khái niệm cụm từ dùng để chỉ đơn vị văn bản dài hơn từ đơn nhưng ngắn hơn câu thơng thường và cĩ ngữ nghĩa riêng. Ví dụ “nghiên cứu khoa học” là cụm từ theo định nghĩa này. Sử dụng cụm từ để biểu diễn văn bản cĩ hai ưu điểm chính như sau:

26

 Về mặt ngữ nghĩa, cụm từ gần với khái niệm được nhắc tới trong văn bản hơn các từ đơn xét riêng.

 Cụm từ thường cĩ mức độ khơng rõ nghĩa (ambiguity) thấp hơn các từ đơn do những từ cấu thành cụm từ cĩ thể làm rõ nghĩa của nhau.

Cụm từ trong văn bản được nhận biết bằng cách phân tích cú pháp văn bản sử dụng kỹ thuật xử lý ngơn ngữ tự nhiên. Thơng thường, thành phần của câu trong văn bản được gán nhãn từ loại ví dụ: tính từ, danh từ, chủ ngữ, vị ngữ, .v.v., sau đĩ một số quy tắc được sử dụng để nhĩm từ loại đứng gần nhau thành cụm từ dựa trên từ loại của chúng.

Mặc dù cĩ một số ưu điểm so với từ đơn, trên thực tế, nhiều nghiên cứu đã cho thấy việc biểu diễn văn bản thơng quan cụm từ cho kết quả phân loại tồi hơn so với cách sử dụng túi từ [3]. Một trong các lý do của kết quả này là do tần suất các cụm từ cĩ nghĩa thấp hơn nhiều so với từ đơn nên cụm từ cĩ nghĩa cĩ thể bị lẫn với cụm từ xuất hiện tình cờ. Một nguyên nhân khác là việc tách cụm từ nhờ phân tích cú pháp văn bản cĩ thể sinh ra những cụm từ khơng cĩ nghĩa. Ví dụ trong khi “nghiên cứu khoa học” cĩ thể coi là một cụm từ thì “ăn uống khoa học” lại nên tách thành 2 cụm từ khác nhau.

1.3.2.4. Sử dụng phân cụm từ (word cluster) để biểu diễn văn bản

Theo phương pháp này, những từ cĩ ngữ nghĩa hoặc tình huống sử dụng tương tự nhau sẽ được nhĩm với nhau thành những nhĩm gọi là phân cụm từ. Từ được coi là cĩ cùng nghĩa nếu cĩ xu hướng cùng xuất hiện trong một số văn bản. Để phân cụm từ, mỗi từ được biểu diễn dưới dạng vec tơ, mỗi thành phần vec tơ là số lần từ xuất hiện trong một văn bản nào đĩ. Thuật tốn phân cụm được sử dụng để tìm ra những vec tơ tương tự nhau. Sau khi tìm được phân cụm từ, phân cụm từ được sử dụng để biểu diễn văn bản cần phân loại.

Kết quả thử nghiệm cho thấy, phương pháp biểu diễn văn bản bằng phân cụm từ khơng cho kết quả tốt hơn phương pháp túi từ thơng dụng [11] và do vậy rất ít được sử dụng cho ứng dụng thuộc loại này.

27

Một phần của tài liệu (LUẬN văn THẠC sĩ) phân loại thư rác bằng phương pháp học máy (Trang 31 - 35)

Tải bản đầy đủ (PDF)

(67 trang)