Biểu diễn phân loại thư rác dựa trên học máy cĩ giám sát

Một phần của tài liệu (LUẬN văn THẠC sĩ) phân loại thư rác bằng phương pháp học máy (Trang 28)

1.3.1. Nhu cầu phân loại thư rác

1.3.1.1. Tớc đợ phát triển của thư rác

Thư rác đang được coi là mơ ̣t na ̣n “lớn” trên ma ̣ng Internet. Theo sớ liê ̣u thớng kê của hãng bảo mật Symantec cho biết, có tởng số 70 tỷ thư rác được gửi đi mỗi ngày trên tồn cầu, những thư với nội dung mời gọi mua dược phẩm chiếm tới 64% (khoảng 60 tỷ bức).

Cũng theo số liệu báo cáo của cổng thơng tin được tạo bởi Kaspersky Lab cĩ địa chỉ www.securelist.com từ tháng 4 đến tháng 9 năm 2014, số lượng thư rác đã tăng đáng kể, đạt tới mức cao nhất từ trước tới nay. Tuy nhiên, đến các tháng sau, lượng thư rác cĩ giảm

21

Hình 1.6. Số lượng thư rác từ tháng 4 đến tháng 9 năm 2014

Mặc dù vâ ̣y, điều đó khơng có nghĩa là các người tạo ra thư rác đã dừng lại mà ngày càng cĩ nhiều mánh khóe hơn. Giám đốc Nghiên cứu về Điều tra hình sự trong lĩnh vực máy tính, thuộc Đại học Alabama (Birmingham, Anh), Gray Warner nói: “Những bộ lọc thư rác của chúng ta đang dần kém hiệu quả, nhưng điều chúng ta nhìn thấy là hoạt động thư rác đang được tiến hành một cách tinh vi hơn”.

Thư rác cịn cĩ thể được gửi đến từ thư của những người bạn, giới thiệu một hiệu thuốc online hoặc mời xem một video. Các tội phạm mạng cĩ thể bẻ khĩa vào tài khoản Hotmail hay Gmail, và gửi thư cho tất cả mọi người trong sổ địa chỉ của nạn nhân. Hình thức thư rác thơng qua cách gửi thư giữa hai người quen biết kiểu này thường thành cơng cao hơn khi vượt qua các cơng cụ lọc thư rác.

Tương tự, những mánh khĩe này cũng đang được áp dụng trên Facebook, YouTube hay Twitter. Đơi khi người tạo thư rác gửi các tin nhắn từ địa chỉ của nhà cung cấp dịch vụ tới người dùng. Đơi khi chúng lại hack một tài khoản và gửi đi các tin nhắn hàng loạt từ đĩ.

Trong khi đĩ, việc tìm kiếm cách thức mới để phát tán các tin rác cũng luơn được tiến hành. Hình thức gửi thư cĩ vẻ như đã lỗi thời và khơng cịn đem lại hiệu quả như trước kia, khi mà những người dùng Internet trẻ cĩ xu hướng thích nhận tin

22

và lời nhắn hơn. Đĩ cũng là lí do tại sao spammer bắt đầu chuyển qua các cơng cụ tìm kiếm như Google hay Bing, nhằm vào các kết quả tìm kiếm.

Cựu “vua thư rác” Robert Soloway tin rằng, hoạt động thư rác sẽ khơng bao giờ chết, một khi thư vẫn cịn là dịch vụ miễn phí.

1.3.1.2. Sự bùng nở của thư rác ở Viê ̣t Nam

Theo khảo sát của Kaspersky Lab, tình hình thư rác trong quý 3/2014 cho thấy tỷ lệ thư rác trong lưu lượng truy cập thư của quý 3 tăng 1,7 % so với quý trước, đạt trung bình 66,9%. Ba nguồn phát tán thư rác hàng đầu gồm cĩ Mỹ (13,95%) và Nga (6,06%) và Việt Nam đứng vị trí thứ 3 với 6,04% [15].

Nhà phân tích Graham Cluley cho biết chủ nhân của máy tính cĩ thể khơng biết khi nào máy tính hoặc thiết bị của họ bị sử dụng để chuyển tiếp thư rác. "Phần lớn thư rác đến từ các máy tính cá nhân gia đình bị tin tặc thâm nhập và điều khiển tham gia vào một nhĩm botnet", ơng Cluley viết trên blog của Sophos như vậy.

Ơng Cluley nhấn mạnh trong khi phát tán thư rác cĩ nội dung tiếp thị cơ bản đã giảm kể từ năm ngối nhưng số thư rác phát tán mã độc hoặc nhắm đến lừa đảo người dùng để lấy mật khẩu, tài khoản và thơng tin cá nhân lại đang gia tăng.

Cịn theo ơng Tatyana Shcherbakova, Nhà Phân tích thư rác cao cấp ta ̣i Kaspersky Lab cho biết: “Mặc dù chúng tơi đã nhìn thấy sự giảm thiểu mơ ̣t số lượng nhỏ thư rác trong lưu lượng truy cập thư, nhưng một số xu hướng cảnh báo vẫn cịn rõ ràng. Chúng tơi phát hiện rất nhiều tệp đính kèm độc hại nhắm mục tiêu đến dữ liệu cá nhân của người sử dụng, bao gồm cả thơng tin tài chính. Số lượng phát hiện các trang web lừa đảo nhắm đến tiền của người sử dụng đang tăng trưởng đáng kể.

Việt Nam cĩ tên trong danh sách của Kaspersky Lab [15] được thể hiện trong hình sau.

23

Hình 1.7. Danh sách các quốc gia phát tán thư rác trong quí 3/2014 của Kaspersky Lab

1.3.2. Cách biểu diễn nội dung thư rác

1.3.2.1. Biểu diễn nội dung thư dưới dạng tập hợp từ (“túi từ”)

Để cĩ thể sử dụng kỹ thuật học máy và xác suất thống kê, nội dung thư cần được biểu diễn dưới dạng thuận tiện cho việc áp dụng thuật tốn học máy. Các phương pháp lọc thư bằng cách tự động phân loại theo nội dung đều sử dụng cách biểu diễn thư dưới dạng véctơ. Mặc dù cĩ nhiều cách xây dựng véctơ nhưng cách đơn giản nhất là mơ hình “túi từ” (“bag-of-words”). Nguyên tắc cơ bản của phương pháp này là khơng quan tâm tới vị trí xuất hiện các từ hay cụm từ trong thư mà coi thư như một tập hợp khơng cĩ thứ tự các từ. Mỗi thư khi đĩ được biểu diễn bởi một véctơ. Số phần tử của véctơ bằng số lượng từ khác nhau trên tồn bộ tập dữ liệu huấn luyện.

Cĩ nhiều cách tính giá trị các phần tử của vec tơ. Cách đơn giản nhất là sử dụng giá trị nhị phân: mỗi phần tử của véctơ bằng 1 hay 0 tuỳ thuộc vào từ tương ứng cĩ xuất hiện trong thư tương ứng với véctơ hay khơng.

24

Các phương pháp phức tạp hơn thường dựa vào tần suất xuất hiện của từ trong thư. Từ xuất hiện càng nhiều thì phần tử tương ứng của vec tơ cĩ giá trị càng lớn và ngược lại.

Dưới đây là một ví dụ đơn giản minh hoạ cho cách biểu diễn nội dung nĩi trên. Dữ liệu huấn luyện bao gồm bốn thư, trong đĩ hai thư là thư rác và hai là thư bình thường. Nội dung các thư được cho trong bảng 1.2. Trên bảng 1.3 là biểu diễn véctơ cho các thư trong bảng 1.2. Chú ý là trong ví dụ này chỉ sử dụng các từ đơn âm, những phần tiếp theo sẽ đề cập tới từ gồm nhiều âm của tiếng Việt.

Bảng 1.1. Ví dụ nội dung của bốn thư

Số TT Nội dung Nhãn

1 mua và trúng thưởng Rác

2 mua một tặng một Rác

3 em mua rồi Bình thường

4 vừa gửi xong Bình thường

Bảng 1.2. Biểu diễn vec tơ cho dữ liệu trong bảng 1.1

Số TT mua Và trúng thưởng một tặng em Rồi vừa gửi xong

1 1 1 1 1 0 0 0 0 0 0 0

2 1 0 0 0 2 1 0 0 0 0 0

3 1 0 0 0 0 0 1 1 0 0 0

4 0 0 0 0 0 0 0 0 1 1 1

Thơng thường, một số bước tiền xử lý được áp dụng đối với các từ trước khi biểu diễn thư dưới dạng véctơ. Đối với tiếng anh, các từ sẽ đưa về dạng gốc, ví dụ “speaking” được biến đổi thành “speak”. Ngồi ra, các liên từ hoặc những từ khơng cĩ ý nghĩa như “và”, “nhưng”.v.v. trong tiếng Việt hay “and”, “the”.v.v. trong tiếng Anh sẽ được loại bỏ do khơng cĩ liên quan trực tiếp tới ý nghĩa của thư.

25

Trên các tập dữ liệu mẫu thực, số lượng từ khác nhau cĩ thể lên tới hàng chục nghìn tương ứng với số lượng phần tử trong mỗi véctơ. Trong các phần sau sẽ đề cập tới kỹ thuật giảm bớt số lượng từ dùng để biểu diễn thư.

Phương pháp biểu diễn thư sử dụng “túi từ” trình bày ở trên bỏ qua thơng tin về vị trí xuất hiện và thứ tự các từ trong thư. Những thơng tin này cĩ thể cĩ giá trị quan trọng trong việc phát hiện thư rác. Tuy nhiên, do đơn giản, phương pháp “túi từ” vẫn là phương pháp biểu diễn nội dung thư thơng dụng nhất, mặc dù cĩ nhược điểm vừa nêu. Trong nghiên cứu này, tơi cũng sử dụng phương pháp túi từ và các mở rộng của phương pháp này để biểu diễn nội dung thư điện tử.

1.3.2.2. Một số phương pháp biểu diễn nội dung thư khác

Để cĩ cái nhìn tồn diện về vấn đề biểu diễn nội dung thư, trong phần này luận văn sẽ trình bày tĩm tắt một số phương pháp biểu diễn nội dung thư khác với phương pháp “túi từ” và phân tích lý do khơng sử dụng những phương pháp này cho lọc thư rác.

Lọc thư theo nội dung là trường hợp riêng của bài tốn phân loại văn bản trong đĩ thư được phân loại thành thư rác hoặc thư hợp lệ dựa trên nội dung văn bản của thư. Bộ lọc thư rác, do vậy, cĩ thể sử dụng những phương pháp biểu diễn nội dung thư khác được đề xuất cho các ứng dụng phân loại văn bản nĩi chung.

Đặc điểm chung của phương pháp khơng dùng “túi từ” là sử dụng các đặc trưng chứa nhiều thơng tin về và ngữ nghĩa hơn để biểu diễn nội dung văn bản. Tiêu biểu nhất là phương pháp sử dụng cụm từ cĩ ngữ nghĩa và phương pháp sử dụng phân cụm từ (word clusters). Dưới đây là mơ tả tĩm tắt các phương pháp trên.

1. Sử dụng cụm từ (phrase) cĩ ngữ nghĩa để biểu diễn văn bản; 2. Sử dụng phân cụm từ (word cluster) để biểu diễn văn bản.

1.3.2.3. Sử dụng cụm từ (phrase) cĩ ngữ nghĩa để biểu diễn văn bản

Khái niệm cụm từ dùng để chỉ đơn vị văn bản dài hơn từ đơn nhưng ngắn hơn câu thơng thường và cĩ ngữ nghĩa riêng. Ví dụ “nghiên cứu khoa học” là cụm từ theo định nghĩa này. Sử dụng cụm từ để biểu diễn văn bản cĩ hai ưu điểm chính như sau:

26

 Về mặt ngữ nghĩa, cụm từ gần với khái niệm được nhắc tới trong văn bản hơn các từ đơn xét riêng.

 Cụm từ thường cĩ mức độ khơng rõ nghĩa (ambiguity) thấp hơn các từ đơn do những từ cấu thành cụm từ cĩ thể làm rõ nghĩa của nhau.

Cụm từ trong văn bản được nhận biết bằng cách phân tích cú pháp văn bản sử dụng kỹ thuật xử lý ngơn ngữ tự nhiên. Thơng thường, thành phần của câu trong văn bản được gán nhãn từ loại ví dụ: tính từ, danh từ, chủ ngữ, vị ngữ, .v.v., sau đĩ một số quy tắc được sử dụng để nhĩm từ loại đứng gần nhau thành cụm từ dựa trên từ loại của chúng.

Mặc dù cĩ một số ưu điểm so với từ đơn, trên thực tế, nhiều nghiên cứu đã cho thấy việc biểu diễn văn bản thơng quan cụm từ cho kết quả phân loại tồi hơn so với cách sử dụng túi từ [3]. Một trong các lý do của kết quả này là do tần suất các cụm từ cĩ nghĩa thấp hơn nhiều so với từ đơn nên cụm từ cĩ nghĩa cĩ thể bị lẫn với cụm từ xuất hiện tình cờ. Một nguyên nhân khác là việc tách cụm từ nhờ phân tích cú pháp văn bản cĩ thể sinh ra những cụm từ khơng cĩ nghĩa. Ví dụ trong khi “nghiên cứu khoa học” cĩ thể coi là một cụm từ thì “ăn uống khoa học” lại nên tách thành 2 cụm từ khác nhau.

1.3.2.4. Sử dụng phân cụm từ (word cluster) để biểu diễn văn bản

Theo phương pháp này, những từ cĩ ngữ nghĩa hoặc tình huống sử dụng tương tự nhau sẽ được nhĩm với nhau thành những nhĩm gọi là phân cụm từ. Từ được coi là cĩ cùng nghĩa nếu cĩ xu hướng cùng xuất hiện trong một số văn bản. Để phân cụm từ, mỗi từ được biểu diễn dưới dạng vec tơ, mỗi thành phần vec tơ là số lần từ xuất hiện trong một văn bản nào đĩ. Thuật tốn phân cụm được sử dụng để tìm ra những vec tơ tương tự nhau. Sau khi tìm được phân cụm từ, phân cụm từ được sử dụng để biểu diễn văn bản cần phân loại.

Kết quả thử nghiệm cho thấy, phương pháp biểu diễn văn bản bằng phân cụm từ khơng cho kết quả tốt hơn phương pháp túi từ thơng dụng [11] và do vậy rất ít được sử dụng cho ứng dụng thuộc loại này.

27

1.4. Kết luận chương

Mục đích của chương trên là trình bày (i) khái niệm về thư rác; (ii) học máy. Chương này đã giới thiệu được tổng quát về trí tuệ nhân tạo và học máy bao gồm khái niệm, ứng dụng và phần trình bày chi tiết về học máy cĩ giám sát, các kỹ thuật của học máy cĩ giám sát dùng cho phân loại như Nạve Bayes, SVM, cây quyết định,…Chương cũng giới thiệu khái quát về thư rác, các đặc trưng của thư rác và biểu diễn thư rác dựa trên học máy cĩ giám sát.

Trong các phương pháp phân loại, phương pháp Bayes là phương pháp đơn giản, nhanh và cho độ chính xác phân loại tương đối tốt. Phương pháp Support Vector Machines (SVM) cĩ độ chính xác cao hơn (trong một số thử nghiệm đã cơng bố) nhưng phức tạp và cĩ tốc độ chậm hơn. Một số phương pháp khác như Boosting cũng cho kết quả tương đương SVM nhưng chậm hơn nhiều và do vậy khĩ sử dụng cho những bộ lọc phải xử lý lượng thư rác lớn. Trong phần tiếp theo, luận văn sẽ tập trung nghiên cứu hai phương pháp Bayes đơn giản và SVM là hai phương pháp đang được sử dụng nhiều nhất cho bài tốn phân loại thư rác.

28

CHƯƠNG 2. PHÂN LOẠI THƯ RÁC

BẰNG MỘT SỐ THUẬT TỐN HỌC MÁY CĨ GIÁM SÁT

2.1. Thuật tốn Nạve Bayes

2.1.1.Giới thiệu Thuật tốn Nạve Bayes

Nạve Bayes (NB) là phương pháp phân loại dựa vào xác suất được sử dụng rộng rãi trong lĩnh vực máy học [Mitchell, 1996] [Joachims, 1997] [Jason, 2001], được sử dụng lần đầu tiên trong lĩnh vực phân loại bởi Maron vào năm 1961 [Maron, 1961] sau đĩ trở nên phổ biến dùng trong nhiều lĩnh vực như trong các cơng cụ tìm kiếm [Rijsbergen et al, 1970], các bộ lọc thư [Sahami et al, 1998]…

Ý tưởng cơ bản của cách tiếp cận này là sử dụng xác suất cĩ điều kiện giữa từ hoặc cụm từ và chủ đề để dự đốn xác suất chủ đề của một văn bản cần phân loại. Điểm quan trọng của phương pháp này chính là ở chỗ giả định rằng sự xuất hiện của tất cả các từ trong văn bản đều độc lập với nhau. Như thế NB khơng tận dụng được sự phụ thuộc của nhiều từ vào một chủ đề cụ thể. Chính giả định đĩ làm cho việc tính tốn NB hiệu qủa và nhanh chĩng hơn các phương pháp khác với độ phức tạp theo số mũ vì nĩ khơng sử dụng cách kết hợp các từ để đưa ra phán đốn chủ đề.

2.1.2. Mơ tả thuật tốn

2.1.2.1. Mơ tả

Thuật tốn Nạve Bayes dựa trên định lý Bayes được phát biểu như sau: Thuật tốn NB được xem là đơn giản nhất trong các phương pháp phân loại. Bộ phân lớp Bayes cĩ thể dự báo các xác suất là thành viên của lớp, chẳng hạn xác suất mẫu cho trước thuộc về một lớp xác định. Chúng giả định các thuộc tính là độc lập nhau (độc lập điều kiện lớp).

Phân loại Nạve Bayes đơn giản sử dụng trong trường hợp mỗi ví dụ được cho bằng tập các thuộc tính <x1, x2,…., xn> và cần xác định nhãn phân loại y, y cĩ thể nhận giá trị từ một tập hữu hạn C.

29

Trong giai đoạn huấn luyện, dữ liệu huấn luyện được cung cấp dưới dạng các mẫu <xi, yi>. Sau khi huấn luyện xong, bộ phân loại cần dự đốn nhãn cho mẫu mới x.

Theo lý thuyết học Bayes, nhãn phân loại được xác định bằng cách tính xác suất điều kiện của nhãn khi quan sát thấy tổ hợp giá trị thuộc tính <x1, x2,…., xn>. Thuộc tính được chọn, ký hiệu cMAP là thuộc tính cĩ xác suất điều kiện cao nhất tức là:

y = cMAP = arg max P(c | x , x , ... , x )1 2

j

j n

cC (2.1)

Sử dụng quy tắc Bayes, biểu thức trên được viết lại như sau:

1 2 1 2 1 2 P(x , x , ... , x |c )P(c ) c = arg max P(x , x , ... , x ) argmax P(x , x , ... , x |c )P(c ) j j n j j MAP c C n n j j c C    (2.2)

Giá trị P(cj) được tính bằng tần suất quan sát thấy nhãn cj trên tập huấn luyện, tức là bằng số mẫu cĩ nhãn là cj chia cho tổng số mẫu. Việc tính P(x1, x2,...,xn

| cj) khĩ khăn hơn nhiều. Vấn đề là số tổ hợp giá trị của n thuộc tính cùng với nhãn phân loại là rất lớn khi n lớn. Để tính xác suất này được chính xác, mỗi tổ hợp giá trị thuộc tính phải xuất hiện cùng nhãn phân loại đủ nhiều trong khi số mẫu huấn luyện thường khơng đủ lớn.

Để giải quyết vấn đề này, ta giả sử các thuộc tính là độc lập về xác suất với

Một phần của tài liệu (LUẬN văn THẠC sĩ) phân loại thư rác bằng phương pháp học máy (Trang 28)