Trƣớc tiên, thử nghiệm đƣợc tiến hành để so sánh ba phƣơng pháp: Bayes đa trị, Bayes đa thức và SVM. Ba phƣơng pháp này đƣợc sử dụng để phân loại thƣ với các thơng số sau: ngƣỡng phân loại T = 1; phân loại riêng thƣ tiếng Việt cĩ dấu; phân loại thƣ Việt trộn lẫn thƣ tiếng Anh khơng cĩ giai đoạn xác định ngơn ngữ và dấu; sử dụng tồn bộ đặc trƣng trừ 100 đặc trƣng xuất hiện thƣờng xuyên nhất; sử dụng 1000 đặc trƣng cĩ MI cao nhất. Ba phƣơng pháp chỉ đƣợc so sánh theo tiêu chí duy nhất là độ chính xác phân loại chung nhƣ ở phần 4.2. Kết quả thử nghiệm đƣợc thống kê trong bảng 3.2.
Số hóa bởi Trung tâm Học liệu http://lrc.tnu.edu.vn/ Kết quả thử nghiệm cho thấy phƣơng pháp Bayes đa trị cho kết quả kém hơn nhiều so với hai phƣơng pháp cịn lại. Phƣơng pháp SVM cho kết quả phân loại tƣơng đƣơng với Bayes đa thức (kết quả trong bảng 2 khơng cho phép kết luận về ƣu thế tuyệt đối của một trong hai phƣơng pháp). Tuy nhiên, SVM địi hỏi khối lƣợng và thời gian tính tốn lớn hơn nhiều. Trong các thử nghiệm, tổng thời gian huấn luyện và phân loại bằng SVM lớn hơn Bayes đơn giản từ 15 tới 100 lần và do vậy khơng thích hợp với bộ phân loại phải xử lý số lƣợng thƣ lớn trên server. Trong các thử nghiệm tiếp theo, chúng tơi sẽ chỉ trình bày kết quả sử dụng Bayes đa thức.
Bảng 3.2. Độ chính xác phân loại với các phương pháp phân loại khác nhau
Các tham số Bayes đa trị Bayesđa thức SVM
Anh+Việt; k = 1; n= 1000 88.52% 96.37% 96.65% Anh+Việt; k = 1; tồn bộđặc trƣng 87.08% 93.29% 96.42% Anh+Việt; k = 2; n = 1000 86.12% 96.37% 96.20% Việt; k = 1; n = 1000 91.17% 97.64% 94.11% Việt; k = 1; tồn bộđặc trƣng 89.41% 99.14% 99.19% 3.2.5. Lựa chọn độ dài và số lƣợng đặc trƣng
Để xác định ảnh hƣởng của độ dài đặc trƣng đến hiệu quả phân loại thƣ tiếng Việt, phƣơng pháp Bayes đa thức đƣợc thử nghiệm trên thƣ tiếng Việt bao gồm cả thƣ cĩ dấu và khơng dấu. Các thơng số cịn lại nhƣ sau: sử dụng tồn bộ đặc trƣng trừ 100; sử dụng 1000 đặc trƣng; độ dài đặc trƣng là 1; 1 và 2; 1 và 2 và 3 (k=1; k=1,2; k=1,2,3 cho k-grams). Độ chính xác phân loại chung khi sử dụng độ dài đặc trƣng khác nhau đƣợc thể hiện trên bảng 3.3. Kết quả cho thấy k = 1,2 và k = 1,2,3 cho độ chính xác tƣơng đƣơng nhau và cao nhất khi sử dụng để phân loại thƣ tiếng Việt, trong khi đĩ k = 1 cho kết quả phân loại tốt nhất khi trộn lẫn thƣ tiếng Việt và tiếng Anh. Điều này cĩ thể giải thích là do k = 1 phù hợp hơn với thƣ tiếng Anh trong khi số lƣợng thƣ tiếng Anh trong tập huấn luyện lớn hơn số lƣợng thƣ tiếng Việt.
Số hóa bởi Trung tâm Học liệu http://lrc.tnu.edu.vn/
Bảng 3.3. Kết quả phân loại với độ dài đặc trưng - từ khác nhau
k=1 k=1,2 k=1,2,3 độ chính xác độ nhậy độ chính xác độ nhậy độ chính xác độ nhậy Anh+Việt; n = 1000 0.974 0.964 0.972 0.967 0.961 0.98 Anh+Việt; tồn bộ đặc trƣng 0.962 0.914 0.979 0.902 0.962 0.897 Việt; n = 1000 0.965 0.966 0.973 0.993 0.973 0.993 Việt; tồn bộ đặc trƣng 0.948 0.958 0.972 0.966 0.972 0.966
Để xác định ảnh hƣởng của số lƣợng đặc trƣng tới kết quả phân loại, chúng tơi tiến hành thử nghiệm với 500, 1000, 3000 đặc trƣng cĩ MI cao nhất và tồn bộ trừ 100 đặc trƣng. Thử nghiệm đƣợc tiến hành trên tồn bộ tập dữ liệu (bao gồm cả tiếng Việt và tiếng Anh) khơng phân biệt trƣớc ngơn ngữ và trên tập thƣ tiếng Việt tách riêng. Độ dài đặc trƣng sử dụng là k = 1 khi trộn lẫn tiếng Việt, tiếng Anh, và k=1,2 khi phân loại riêng tiếng Việt. Độ chính xác phân loại đƣợc thống kê trên Hình 3.3. 90 91 92 93 94 95 96 97 98 99 100 500 1000 2000 3000 Tồn bộ số đặc trưng đ ộ c h ín h x ác ( % ) Anh+Việt; k=1 Việt; k=2
Số hóa bởi Trung tâm Học liệu http://lrc.tnu.edu.vn/
3.2.6. Phân biệt theo ngơn ngữ trƣớc khi lọc
Nhƣ đã nĩi ở trên, cĩ thể phân chia thƣ tiếng Việt và tiếng Anh sau đĩ tiến hành lọc thƣ rác riêng cho từng ngơn ngữ hoặc cĩ thể lọc luơn khơng phân biệt thƣ viết trên ngơn ngữ nào. Tƣơng tự, cĩ thể phân chia thƣ tiếng Việt cĩ dấu và khơng dấu trƣớc khi lọc. Để so sánh các quy trình phân loại, thử nghiệm đƣợc tiến hành theo các chế độ sau: lọc chung thƣ tiếng Việt và tiếng Anh, lọc riêng thƣ tiếng Việt và thƣ tiếng Anh, lọc thƣ tiếng Việt khơng phân thành cĩ dấu-khơng dấu và phân chia theo dấu trƣớc khi lọc. Với trƣờng hợp phân chia ngơn ngữ, độ dài đặc trƣng đƣợc chọn k = 2 cho tiếng Việt và k = 1 cho tiếng Anh. Trƣờng hợp khơng phân chia ngơn ngữ sử dụng k=1. Số lƣợng đặc trƣng n=2000.
Kết quả so sánh ba quy trình lọc đƣợc thể hiện trên bảng 3.2. Kết quả cho thấy, việc lọc riêng theo ngơn ngữ đối với tiếng Việt cho kết quả tốt hơn khi khơng phân biệt thƣ tiếng Việt và thƣ tiếng Anh. Đây cĩ thể là kết quả của việc lựa chọn độ dài đặc trƣng phù hợp cho ngơn ngữ. Tuy nhiên, mức độ chênh lệch giữa các quy trình lọc khơng đáng kể (dƣới 1%) và trên thực tế ta cĩ thể bỏ qua giai đoạn phân loại ngơn ngữ.
3.2.7. Nhận xét kết quả thử nghiệm
Kết quả thực nghiệm cho thấy việc tách từ đơn giản bằng cách sử dụng các cụm từ liền nhau cĩ độ dài bằng 1 và 2 cho kết quả phân loại thƣ rác chính xác khá cao. Đây là kết quả quan trọng vì nĩ cho phép bộ lọc thƣ tránh đƣợc quá trình tách từ phức tạp và tốn thời gian khi sử dụng những phƣơng pháp tách từ tiếng Việt phức tạp hơn.
Số hóa bởi Trung tâm Học liệu http://lrc.tnu.edu.vn/ 97.5 98 98.5 99 99.5 100
Anh+Việt Anh Việt chung Việt cĩ dấu Việt khơng dấu Đ ộ c h ín h x ác ( % )
Hình 3.17: Độ chính xác phân loại với các quy trình lọc khác nhau
Số lƣợng đặc trƣng tối ƣu khi lọc thƣ tiếng Anh và tiếng Việt là 2000-3000 từ. Ngồi việc nâng cao độ chính xác phân loại, việc khơng phải sử dụng tồn bộ các đặc trƣng cĩ trên tập dữ liệu cịn cho phép giảm yêu cầu về bộ nhớ và yêu cầu tính tốn. Kết quả thử nghiệm cũng khơng cho thấy sự khác biệt đáng kể về hiệu quả lọc thƣ khi lọc riêng thƣ tiếng Việt và thƣ tiếng Anh so với khi lọc chung.
Trong số ba phƣơng pháp phân loại đƣợc sử dụng, phƣơng pháp Bayes đa thức và SVM cho kết quả tốt nhất, tuy nhiên phƣơng pháp Bayes cĩ ƣu thế rõ rệt do cĩ độ phức tạp tính tốn thấp hơn nhiều.
Trong phạm vi nghiên cứu này mới chỉ đề cập tới việc phân loại thƣ tự động dựa trên phần nội dung văn bản của thƣ. Các hƣớng nghiên cứu tiếp theo bao gồm việc phân loại thƣ cĩ nội dung đƣợc trình bày dƣới dạng hình ảnh, nghiên cứu kết hợp nhiều đặc điểm của thƣ nhƣ format, dịng tiêu đề, địa chỉ gửi, thời gian gửi.
3.3. Đề xuất các giải pháp phịng chống spam 3.3.1. Giải pháp phịng chống tại mail server 3.3.1. Giải pháp phịng chống tại mail server
Chặn lọc ở hệ thống máy chủ mail chính là bƣớc đầu tiên trong quy trình phịng chống thƣ rác. Tất cả các thƣ điện tử gửi đến ngƣời sử dụng đều phải đƣợc gửi tới máy chủ mail rồi từ đĩ mới tiếp tục đƣợc chuyển tới hịm thƣ của ngƣời nhận. Vì vậy, nếu máy chủ đƣợc thiết lập các chính sách lọc thƣ rác tốt sẽ hạn chế rất nhiều các thƣ rác đƣợc gửi tới ngƣời sử dụng.
Số hóa bởi Trung tâm Học liệu http://lrc.tnu.edu.vn/
Sử dụng phương pháp SPF
Sender Policy Framework (SPF) là kỹ thuật ngăn chặn spam thuộc nhĩm phƣơng pháp xác thực địa chỉ ngƣời gửi (sender authentication), kỹ thuật này giúp ngƣời nhận xác thực địa chỉ của ngƣời gửi là thật hay giả, từ đĩ cĩ thể ngăn chặn đƣợc việc phát tán thƣ rác hay lừa đảo trực tuyến.
Phƣơng pháp SPF do tập đồn American Online (AOL) đƣa ra. Phƣơng pháp này yêu cầu xác lập DNS, trong đĩ khai báo những máy chủ nào cĩ thể gửi thƣ từ một tên miền Internet nhất định. Phía ngƣời nhận sẽ thơng qua truy vấn DNS để xác thực địa chỉ của ngƣời gửi và địa chỉ IP cĩ phù hợp với nhau khơng, từ đĩ biết đƣợc địa chỉ ngƣời gửi là thật hay giả. Hoạt động của SPF đƣợc mơ tả trong Hình 1:
Hình 3.18: Phương thức hoạt động của SPF
Trƣớc hết phía gửi thƣ cần thực hiện thao tác cài đặt trên máy chủ DNS của mình để khai báo những máy chủ email nào cĩ quyền gửi email đi sử dụng tên miền của phía gửi thƣ. Việc khai báo này đƣợc thực hiện bằng việc sử dụng bản ghi TXT trong đĩ liệt kê địa chỉ IP của các máy chủ email đƣợc phép gửi đi: Bƣớc 1: Máy chủ email tại phía gửi thƣ thiết lập kết nối tới máy chủ email của phía nhận thƣ qua giao thức SMTP. Tại bƣớc này các thơng tin về tiêu đề (header) của thƣ đƣợc gửi từ phía gửi sang phía nhận. Thơng tin tiêu đề bao gồm tên miền của bên gửi và địa chỉ IP của máy chủ email bên gửi;
Số hóa bởi Trung tâm Học liệu http://lrc.tnu.edu.vn/ Bƣớc 2: Máy chủ email bên nhận thƣ tạo ra 1 truy vấn DNS gửi đến máy chủ DNS của bên gửi, yêu cầu cung cấp danh sách nhƣng máy chủ email đƣợc phép gửi thƣ của bên gửi;
Bƣớc 3:Máy chủ DNS của bên gửi trả kết quả về cho máy chủ email của bên nhận. Sau đĩ máy chủ email bên nhận đối chiếu xem địa chỉ IP của máy chủ email vừa gửi thƣ cĩ nằm trong danh sách này khơng. Nếu cĩ thì địa chỉ ngƣời gửi đƣợc xác nhận là hợp lệ. Nếu khơng cĩ thì địa chỉ ngƣời gửi là khơng hợp lệ, thƣ điện tử này cĩ nhiều khả năng là spam.
Tuy nhiên phƣơng pháp SPF địi hỏi phải thay đổi cơ sở hạ tầng mạng, cụ thể là thay đổi xác lập của DNS, trong quá tình triển khai thực tế đã gặp phải khơng ít khĩ khăn. Lý do xuất phát từ bản chất của vấn đề: Bên gửi thƣ phải cài đặt lại DNS của phía mình, nhƣng ngƣời đƣợc hƣởng lợi trực tiếp từ việc cài đặt đĩ lại khơng phải là bên gửi thƣ mà là bên nhận thƣ. Chính vì lý do đĩ, trên thực tế thì quá trình triển khai SPF chƣa đƣợc là bao. Tại Việt Nam phƣơng pháp SPF cũng chƣa đƣợc triển khai.
Phương pháp SPF động
Để khắc phục nhƣợc điểm trên của SPF, ta sử dụng phƣơng pháp SPF động (Dynamic Sender Policy Framework). Ý tƣởng của phƣơng pháp này là việc xác thực địa chỉ ngƣời gửi sẽ đƣợc thực hiện trên máy chủ DNS của một đơn vị thứ ba thay vì thực hiện trên máy chủ DNS của bên gửi thƣ. Nhƣ thế bên nhận thƣ vẫn đƣợc hƣởng lợi ích từ SPF mà bên gửi thƣ khơng cần phải xác lập lại máy chủ DNS của mình. Hình 2 mơ tả hoạt động của SPF động.
Số hóa bởi Trung tâm Học liệu http://lrc.tnu.edu.vn/
Hình 3.19: Phương thức hoạt động của SPF động
Cơ sở dữ liệu SPF động chứa thơng tin khai báo những máy chủ nào cĩ thể gửi thƣ từ một tên miền Internet nhất định. Cơ sở dữ liệu SPF động đƣợc xây dựng thơng qua thống kê, phân tích các số liệu lịch sử. Dựa vào cơ sở dữ liệu này để phán đốn một thƣ mới cĩ phải là thƣ rác hay lừa đảo trực tuyến hay khơng. Nếu thƣ mới đƣợc gửi đi từ một địa chi IP cĩ trong cơ sở dữ liệu ứng với tên miền của địa chỉ ngƣời gửi thì đĩ là thƣ bình thƣờng, ngồi ra thì bị nghi vấn là thƣ rác. Để hệ thống hoạt động chính xác thì cơ sở dữ liệu này cần phải chính xác.
Các dữ liệu SPF động sẽ đƣợc cung cấp cho ngƣời dùng (máy chủ thƣ điện tử) dƣới dạng dịch vụ của một bên thứ 3. Trong Hình 3., khi máy chủ nhận đƣợc một thƣ điện tử, nĩ sẽ truy vấn dịch vụ của máy chủ cung cấp dịch vụ SPF động để lấy các thơng số về địa chỉ ngƣời gửi, từ đĩ xác định địa chỉ ngƣời gửi là thật hay giả. Các truy vấn của ngƣời dùng đến dịch vụ SPF động sẽ đƣợc máy chủ cung cấp dịch vụ ghi lại. Số liệu này sẽ đƣợc dùng để thống kê, phân tích và cập nhật CSDL của SPF động. Ở đây đã sử dụng dịchvụ DNS để cung cấp dịch vụ SPF động, nhƣ vậy, ngƣời dùng khơng phải cài đặt hay thayđổi các thiết lập hiện tại mà vẫn cĩ thể sử dụng đƣợc dịch vụ SPF động.
Thách thức lớn nhất của phƣơng pháp SPF động này là làm thế nào để tự động cập nhật CSDL của SPF động dựa trên các số liệu lịch sử (log).
Số hóa bởi Trung tâm Học liệu http://lrc.tnu.edu.vn/
Cập nhật cơ sở dữ liệu SPF động
Những thơng tin cần chắt lọc từ các mẫu bao gồm: Địa chỉ IP của máy chủ gửi thƣ; tên miền tƣơng ứng ghi trên địa chỉ thƣ điện tử của ngƣời gửi; thời gian gửi thƣ và thơng tin phân loại thƣ: thƣ rác hay thƣ bình thƣờng. Ba thơng tin đầu cĩ thể dễ dàng lấy ra từ phần header của thƣ hoặc từ log file của máy chủ. Qua thu thập log file của máy chủ mail tại sở Thơng tin và Truyền thơng tỉnh Nam Địnhvà chắt lọc ra những thơng tin cần thiết. Tồn bộ tập mẫu đƣợc lƣu trữ dƣới dạng cơ sở dữ liệu, cho phép các bƣớc nghiên cứu tiếp theo dễ dàng sử dụng. Số lƣợng thƣ trong tập dữ liệu mẫu nhƣ sau:
Bảng 3.4 : Bảng dữ liệu mẫu sử dụng phương pháp SPF động
Tổng số thƣ: 46810
Tổng số thƣ bình thƣờng: 7855
Tổng số thƣ rác: 38955
Số thƣ cĩ nội dung lừa đảo trực tuyến: 53
Thời gian cĩ hiệu lực của máy chủ gửi thư
Để lọc ra các địa chỉ IP thực sự của mỗi một tên miền của máy chủ gửi thƣ, phải dựa vào thời gian cĩ hiệu lực của máy chủ gửi thƣ. Hình 3 mơ tả cĩ sự khác nhau rõ rệtvề phân bố số lƣợng cặp (tên miền, IP) giữa thƣ bình thƣờng và thƣ rác: Thời gian cĩ hiệu lực của các cặp (tên miền và IP) gửi thƣ rác tập trung vào dƣới 3 ngày, và giảm dầntheo thời gian, trong khi đĩ thời gian cĩ hiệu lực của các cặp (tên miền và IP) gửi thƣ bình thƣờng chủ yếu lớn hơn 3 ngày.
Số hóa bởi Trung tâm Học liệu http://lrc.tnu.edu.vn/
Hình 3.20: Phân bố số lượng cặp (tên miền, IP) theo thơi gian
Kết quả này khẳng định cĩ thể thơng qua thống kê các số liệu lịch sử để chắt lọc các địa chỉ máy chủ thật cho một tên miền. Tác giả đã làm thí nghiệm về hiệu quả của phƣơng pháp SPF động khi sử dụng các ngƣỡng thời gian cĩ hiệu lực khác nhau, kết quả đƣợc trình bày trong Hình 3..
Hình 3.21: Hiệu quả phương pháp SPF động
Trong đĩ cho thấy nếu sử dụng các ngƣỡng thời gian cĩ hiệu lực khác nhau ta sẽ cĩ các sai số khác nhau về khả năng lọc thƣ rác, ví dụ nếu ngƣỡng thời gian cĩ hiệu lực là 3 ngày, khi đĩ phƣơng pháp SPF động lọc đƣợc 98% tổng số thƣ rác, lọc nhầm 0.1% số thƣ bình thƣờng.
Số hóa bởi Trung tâm Học liệu http://lrc.tnu.edu.vn/
3.3.2. Giải pháp phịng chống tại mail client
Phần mềm Outlook Express rất dễ bị tin tặc, virus hay spyware tấn cơng. Mặc dù các bản nâng cấp gần đây đã cải thiện đáng kể tính bảo mật nhƣng nguy cơ bị "oanh tạc" vẫn rất cao. Để phịng chống thƣ rác thì ngƣời sử dụng nên thực hiện các thao tác:
3.3.2.1.Cập nhật các bản nâng cấp Windows và Outlook Express
Ngƣời dùng nên thƣờng xuyên nâng cấp cho hệ điều hành Windows XP. Outlook Express là một phần khơng thể tách rời của XP vì thế bản vá (patch) hay nâng cấp của Outlook Express đều nằm trong gĩi update của Windows XP. Do đĩ, nếu bạn đặt chế độ nâng cấp Windows tự động thì phần mềm Outlook Express cũng