Trong một vài năm trở lại đây, mạng nơron đã được nhiều người quan tâm và đã được áp dụng thành cơng trong nhiều lĩnh vực khác nhau, như tài chính, y tế, địa chất và vật lý,... Thật vậy, bất cứ ở đâu cĩ vấn đề về dự báo, phân loại và điều khiển, mạng nơron đều cĩ khả năng ứng dụng được. Ví dụ như khả năng nhận dạng mặt người trong các hệ thống quản lý thơng tin liên quan đến con người (quản lý nhân sự ở các doanh nghiệp, quản lý sinh, sinh viên trong các trường học… ), các ngành khoa học hình sự, khoa học tướng số và tử vi, v.v…
Số hĩa bởi Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/
41 Kết hợp chặt chẽ với logic mờ, mạng nơron nhân tạo đã tạo nên cuộc cách mạng thực sự trong việc thơng minh hĩa và vạn năng hĩa các bộ điều khiển kỹ thuật cao cho cả hiện tại và trong tương lai. Ví dụ như ứng dụng tự động điều khiển hệ thống lái tàu, hệ thống dự báo sự cố,…
Mạng nơron thực hiện việc mơ phỏng cấp thấp hệ thống nơron sinh học. Trong tương lai với sự phát triển mơ phỏng nơron sinh học, chúng ta cĩ thể cĩ loại máy tính thơng minh thật sự.
Một số ứng dụng chính của mạng nơron:
- Aerospace: Phi cơng tự động, giả lập đường bay, các hệ thống điều
khiển lái máy bay, bộ phát hiện lỗi.
- Automotive: Các hệ thống dẫn đường tự động cho ơ tơ, các bộ phân
tích hoạt động của xe.
- Banking: Bộ đọc séc và các tài liệu, tính tiền của thẻ tín dụng.
- Defense: Định vị - phát hiện vũ khí, dị mục tiêu, phát hiện đối tượng,
nhận dạng nét mặt, các bộ cảm biến thế hệ mới, xử lý ảnh radar,...
- Electronics: Dự đốn mã tuần tự, sơ đồ chip IC, điều khiển tiến trình,
phân tích nguyên nhân hỏng chip, nhận dạng tiếng nĩi, mơ hình phi tuyến.
- Entertainment: Hoạt hình, các hiệu ứng đặc biệt, dự báo thị trường.
- Financial: Định giá bất động sản, cho vay, kiểm tra tài sản cầm cố,
đánh giá mức độ hợp tác, phân tích đường tín dụng, chương trình thương mại qua giấy tờ, phân tích tài chính liên doanh, dự báo tỷ giá tiền tệ.
Số hĩa bởi Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/
42
Kết luận chương 1:
Qua việc nghiên cứu về mạng nơron tổng quan ở trên, ta đã thấy cĩ rất nhiều loại mạng nơron và cũng cĩ rất nhiều thuật tốn học khác nhau. Qua đĩ, chúng ta đã thấy được đặc điểm giống và khác nhau cơ bản của học cĩ giám sát, học khơng giám sát và học tăng cường; phân biệt được các loại mạng nơron như mạng dẫn tiến đơn mức, mạng dẫn tiến đa mức, mạng quy hồi, ...Bên cạnh đĩ, nội dung của chương cịn đề cập đến cách thức thu thập dữ liệu, biểu diễn tri thức cho mạng nơron và ứng dụng của mạng nơron. Đây là tiền đề lý thuyết quan trọng để xây dựng ứng dụng giải quyết bài tốn dựa trên mạng nơron trong các chương tiếp theo.
Số hĩa bởi Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/
43
CHƢƠNG 2: BÀI TỐN PHÂN LOẠI THƢ RÁC 2.1. Giới thiệu về thƣ rác
2.1.1. Khái niệm thư rác
Hiện nay vẫn chưa cĩ một khái niệm hồn chỉnh, chặt chẽ về thư rác (spam). Cĩ quan điểm coi thư rác là những thư quảng cáo khơng được yêu cầu (Unsolicited Commercial Email-UCE), cĩ quan điểm rộng hơn cho rằng thư rác bao gồm thư quảng cáo, thư quấy rối, và những thư cĩ nội dung khơng lành mạnh (Unsolicited Bulk Emai -UBE).
Thư rác (spam mail) là những bức thư điện tử khơng yêu cầu, khơng mong muốn và được gửi hàng loạt tới người nhận. Một bức thư nếu gửi khơng theo yêu cầu cĩ thể đĩ là thư làm quen hoặc thư được gửi lần đầu tiên, cịn nếu thư được gửi hàng loạt thì nĩ cĩ thể là thư gửi cho khách hàng của các cơng ty, các nhà cung cấp dịch vụ. Vì thế một bức thư bị coi là rác khi nĩ khơng được yêu cầu, và được gửi hàng loạt.
Việc gửi thư rác làm cho người nhận phải mất thời gian và phải trả tiền cho nhà cung cấp dịch vụ Internet IPS để đọc những bức thư khơng liên quan. Đơi khi những bức thư cĩ chứa virus cĩ thể phá hủy cả hệ thống dữ liệu trong máy tính. Ngồi ra, tài nguyên (đường truyền, máy chủ) của IPS cũng bị chiếm dụng nhiều khi gửi thư rác
Tuy nhiên yếu tố quan trọng nhất để phân biệt thư rác với thư thơng thường là nội dung thư. Khi một người nhận được thư rác, người đĩ khơng thể xác định được thư đĩ được gửi hàng loạt hay khơng nhưng cĩ thể xác định được đĩ là thư rác sau khi đọc nội dung thư. Đặc điểm này chính là cơ sở cho giải pháp phân loại thư rác bằng cách phân tích nội dung thư.
2.1.2. Các đặc điểm của thư rác
Thư rác được gửi đi một cách tự động: Mục đích của những kẻ gửi thư rác (spammer) là cĩ thể phát tán lượng thư rác tới người dùng càng nhiều
Số hĩa bởi Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/
44 càng tốt. Do vậy chính thường viết ra những phần mềm tự động gửi một lượng lớn thư rác trong một khoảng thời gian ngắn. Thư rác được gửi đến những địa chỉ ngẫu nhiên trên một diện rộng. Địa chỉ email của người bị nhận thư rác rất ngẫu nhiễn và dường như giữa họ khơng cĩ mối quan hệ với nhau. Cĩ nhiều phương pháp và thủ thuật khác nhau mà những kẻ gửi thư rác áp dụng trong việc dị tìm địa chỉ email của người dùng như: Dùng chương trình tự động dị tìm địa chỉ email trên mạng Internet, các trang chủ, Newsgroup, Chatroom...Mua địa chỉ email từ những cơng ty đã xây dựng danh sách khách hàng của họ nhưng vì lý do nào đĩ phải bán đi hoặc đối tác của cơng ty được phép truy cập danh sách khách hàng của cơng ty này để gửi thơng tin về dịch vụ hay sản phẩm. Email chuỗi (Chain letter) từ bạn bè và người thân, yêu cầu gửi thư cho càng nhiều người càng tốt vì lý do ủng hộ một chương trình nào đĩ hoặc mời chào người dùng nếu gửi cho nhiều người sẽ được nhận nhiều tiền hơn. Dùng chương trình đốn tên tự động: Những kẻ gửi thư rác dùng chương trình này gửi email liên tục vào một nơi để đốn địa chỉ mail qua những phương pháp như E-pending, Dictionary hay Alphabet. Bên cạnh đĩ những kẻ gửi thư rác cịn cĩ thể cĩ được địa chỉ email của người dùng do: Các nhà cung cấp dịch vụ ISP khơng cĩ chính sách và cơng nghệ bảo mật, dẫn đến các tin tặc hacker ăn cắp địa chỉ của khách hàng để buơn bán và quấy nhiễu. Hoặc cĩ thể do chính nhà cung cấp ISP buơn bán địa chỉ email của khách hàng để kiếm lợi nhuận. Nhân viên của các ISP đã tiết lộ thơng tin về khách hàng cho các đối thủ cạnh tranh của chính ISP đĩ hoặc cho những cơng ty muốn quảng cáo cho những khách hàng riêng biệt. Chính người dùng cung cấp địa chỉ email của mình qua những lần đăng kí thành viên trên Internet hoặc trên giấy tờ các dịch vụ mà chẳng bao giờ dùng hoặc những bản tin điện tử vơ nghĩa.
Nội dung thư rác thường là những nội dung bất hợp pháp, gây phiền hà cho người dùng. Phần lớn nội dung của thư rác là những thơng tin mời chào về thương mại, quảng cáo sản phẩm. Bên cạnh đĩ, phải kể đến những thư rác
Số hĩa bởi Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/
45 cĩ nội dung xấu gây tâm lý lo ngại cho người làm cơng nghệ thơng tin. Lượng thư rác phát tán virus cũng khơng nhỏ. Trong những thư này thường được gắn kèm virus nguy hiểm cĩ thể làm tê liệt máy tính của người dùng, ăn cắp những thơng tin cá nhân hoặc làm hỏng dữ liệu lưu trên máy. Hiện nay, thư rác với nội dung hứa hẹn mang đến một khoản tiền lớn cho người đọc thư rác đang ra tăng. Những người dùng cả tin thường bị lừa bởi hình thức này.
Địa chỉ của người gửi thư rác thường là những địa chỉ trá hình. Để tránh sự nghi ngờ của người nhận, một số kẻ gửi thư rác thường giả dạng địa chỉ của một người dùng bình thường trong một máy chủ email nào đĩ một cách bất hợp pháp hoặc dùng một địa chỉ ảo nào đĩ để gửi thư rác.
2.1.3. Phân loại thư rác
Hiện nay cĩ các phương pháp phân loại thư rác phổ biến dựa trên các yếu tố sau:
Dựa trên kiểu phát tán thư rác: Tính tới thời điểm hiện tại, thư rác cĩ thể bị gửi thơng qua thư điện tử, nhĩm thảo luận (newsgroups), điện thoại di động (Short Message Service - SMS) và các dịch vụ gửi tin nhắn trên mạng (như Yahoo Messenger, Windows Messenger...)
Dựa vào quan hệ với người gửi thư rác: bao gồm người lạ mặt, bạn bè, người quen và các dịch vụ quyên gĩp giúp đỡ…
Dựa vào nội dung của thư rác: các kiểu nội dung phổ biến như thư về thương mại, thư về chính trị, thư về cơng nghệ, chuỗi thư (chain e- mail) và các loại khác (như thư phát tán virus...).
Dựa trên động lực của người gửi: Thơng thường, thư rác được gửi đi
cho những mục đích quảng bá thơng tin. Ngồi ra, cịn cĩ một số loại thư rác được gửi tới một người nhận xác định nào đĩ nhằm mục đích phá vỡ và gây cản trở cơng việc của người nhận hay mạng của nhà cung cấp dịch vụ thư điện tử (ESP) được gọi là “bom thư”. Thư rác cịn được cố ý gửi đi nhằm
Số hĩa bởi Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/
46 thơng báo tin sai lệch, làm xáo trộn cơng việc và cuộc sống của người nhận.
Việc phân loại thư rác rất quan trọng khơng chỉ trong lĩnh vực tạo những bộ lọc thư rác cĩ hiệu quả cao mà cịn giúp cho việc ban hành các bộ luật chống thư rác phù hợp
2.1.4. Ảnh hưởng của thư rác
Theo thống kê thư rác hiện chiếm hơn một nửa số e-mail truyền trên Internet và chính thư rác là nguồn lây lan virus nhanh nhất. Thiệt hại do chúng gây ra rất lớn đối với sự phát triển Internet nĩi chung và người sử dụng thư điện tử nĩi riêng
Theo thống kê tồn cầu của hãng nghiên cứu Ferris Research ở San Francisco [18], thư rác gây thiệt hại 50 tỷ USD trong năm 2005. Chỉ tính riêng ở Mỹ, thiệt hại do thư rác gây ra đối với các doanh nghiệp ước tính khoảng 17 tỷ USD/năm
Thư rác chiếm khoảng 80% lưu lượng thư điện tử thế giới trong quý 1/2006, đĩ là kết luận của nhĩm hợp tác chống thư rác gồm các cơng ty AOL, Bell Canada, Cigular Wireless, EarthLink, France Telecom, Microsoft, Verizon, và Yahoo. Microsoft và AOL cho biết hai hãng này trung bình mỗi ngày chặn gần 5 tỷ thư rác. Ước tính, cứ 9 trong 10 email sử dụng dịch vụ MSN Hotmail của Microsoft là thư rác.
Tại Việt Nam, tình hình thư rác cũng đang rất phức tạp. Cơng ty Điện tốn và Truyền số liệu (VDC) - ISP lớn nhất Việt Nam - cho biết, thư rác hiện nay chiếm phần lớn lưu lượng email qua hệ thống máy chủ thư của ISP này.
Các thư phàn nàn gửi đến ISP nếu khơng giải quyết, các khách hàng của ISP đĩ cĩ thể bị liệt vào danh sách đen, khơng gửi được email ra địa chỉ nước ngồi. Một số ISP cho biết, cuối năm ngối, khách hàng của nhiều ISP ở Việt Nam thường xuyên bị tê liệt do bị liệt vào danh sách đen. Mỗi lần thốt ra khỏi danh sách này ISP phải mất khoảng 40 USD. Tại trang web
Số hĩa bởi Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/
47 Spamhaus.org (tổ chức theo dõi các nguồn gửi thư rác), cĩ lần vnn.vn đã cĩ trong danh sách top 10 ISP cung cấp nhiều rác nhất.
Khơng chỉ gây thiệt hại về tiền bạc, thư rác cịn làm giảm hiệu quả làm việc, gây stress, tiêu tốn thời gian của nhân viên... Những điều này cũng đồng nghĩa với việc, năng suất lao động giảm, ảnh hưởng tới tình hình kinh doanh và doanh thu của cơng ty.
Một số lời khuyên cho người dùng thư điện tử:
Yêu cầu và địi hỏi nhà chức trách phải đưa ra những luật lệ nghiêm cấm thư rác và cĩ hình phạt đích đáng cho kẻ cố tình gửi thư rác.
Mỗi người dùng nên tạo nhiều địa chỉ email, với mục đích khác nhau nên dùng địa chỉ email khác nhau.
Hạn chế việc đăng kí các dịch vụ vơ ích: nên tìm hiểu kĩ thơng tin về dịch vụ trước khi cung cấp thơng tin về địa chỉ email của mình
Kích hoạt các dịch vụ chống thư rác của ISP.
Cài đặt một số chương trình xử lý thư trong máy tính cá nhân để xĩa thư rác ngay khi chuyển về máy.
Bảo vệ mật khẩu của mình: chọn mật khẩu lạ, khĩ đốn chứa chữ cái, xen lẫn chữ số và chữ hoa xen lẫn chữ thường.
Thường xuyên ghi dự phịng dữ liệu quan trọng. Đồng thời cảnh giác với những thư từ người quen biết nhưng khơng được báo trước, bởi cĩ thể chúng được gửi đi mà người gửi khơng biết.
2.2. Các phƣơng pháp phân loại thƣ rác
2.2.1. Phương pháp phân loại theo từ khĩa
Phương pháp lọc thư rác theo từ khĩa là phương pháp truyền thống trong việc lọc thư rác. Người ta dựa vào những từ hay cụm từ cĩ trong đầu đề thư hoặc nội dung thư để lọc
Số hĩa bởi Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/
48 Khi một thư mới được gửi tới hịm thư của bạn, bạn phải sử dụng một bộ lọc thư mới đơn giản bằng cách chọn một số từ hoặc cụm từ trong nội dung thư. Các từ hay cụm từ này sẽ xác định đĩ là thư rác hay khơng. Vì mục đích của tất cả spam cơ bản là giống nhau (bán hay quảng cáo một sản phẩm hay dịch vụ) và nội dung của hầu hết spam đều mang đặc điểm chung. Một số cụm từ xuất hiện thường xuyên trên spam.
Một vài năm gần đây những kẻ gửi thư rác đã bắt đầu nhận ra rằng thư rác của chúng đã bị chặn bởi bộ lọc theo từ khĩa này. Do vậy những kẻ gửi thư rác đã thay đổi cách viết nội dung của thư rác nhằm làm cho thư rác của chúng cĩ thể xuyên qua các bộ lọc.
Phương pháp này cĩ một số ưu điểm và nhược điểm sau:
Ưu điểm:
Tính thích nghi: Người dùng cĩ thể dễ dàng biến đổi bộ lọc của mình để nĩ cĩ thể lọc các kiểu thư rác mà người đĩ đang phải nhận và điều quan trọng là nĩ khơng cản trở các từ hoặc các cụm từ được sử dụng hằng ngày trong kinh doanh thương mại với bạn bè hay những người thân quen.
Nhược điểm:
Yêu cầu nhiều tiến trình xử lý bằng tay để điều chỉnh và duy trì bộ lọc được hiệu quả. Để cĩ thể đánh lừa các bộ lọc, những kẻ gửi thư rác luơn luơn thay đổi hình thức nội dung thư rác, do đĩ những bộ lọc mở rộng phải được tạo ra để chống lại điều đĩ.
2.2.2. Phương pháp phân loại Bayesian
Lọc bằng thống kê Bayesian là đánh giá xem những từ ngữ trong một email sắp được chuyển đến cĩ thường xuyên xuất hiện trên thư rác hay thư hợp pháp khơng. Một cách hiệu quả giúp lọc chính xác là người dùng thơng báo cho chương trình lọc bất kỳ thư rác nào mà đã lọt qua lần đầu tiên. Lần lọc sau chắc chắn sẽ khơng thể lọt qua được.
Số hĩa bởi Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/
49 Bộ lọc Bayesian phải được học từ những email được xác định trước là thư tốt hay khơng tốt. Trong suốt quá trình cho bộ lọc học, nội dung của các thư này được tác các từ tố và lưu vào trong một cơ sở dữ liệu. Dựa vào cơng thức Bayes, mỗi từ tố được tính cho một giá trị phụ thuộc vào một số tiêu chuẩn sau:
- Mức độ thường xuyên xuất hiện của từ tố đĩ trong thư rác