Tiểu luận môn CÔNG NGHỆ TRI THỨC VÀ ỨNG DỤNG TÌM HIỂU MẠNG NEURAL VÀ THUẬT TOÁN PERCEPTRON LEARNING ỨNG DỤNG NHẬN DẠNG THƯ RÁC

37 487 1
Tiểu luận môn CÔNG NGHỆ TRI THỨC VÀ ỨNG DỤNG TÌM HIỂU MẠNG NEURAL VÀ THUẬT TOÁN PERCEPTRON LEARNING ỨNG DỤNG NHẬN DẠNG THƯ RÁC

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

1 ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN KHOA KHOA HỌC MÁY TÍNH  BÀI THU HOẠCH MÔN HỌC CÔNG NGHỆ TRI THỨC VÀ ỨNG DỤNG Đề tài: TÌM HIỂU MẠNG NEURAL VÀ THUẬT TOÁN PERCEPTRON LEARNING ỨNG DỤNG NHẬN DẠNG THƯ RÁC Giảng viên hướng dẫn: GS.TSKH. Hoàng Kiếm Sinh viên thực hiện: Vũ Quang Huy MSSV: CH1301090 TP HCM, tháng 10 năm 2014 MỤC LỤC Trang Tìm hiểu mạng Neural và thuật toán Perceptron Learning ứng dụng nhận dạng thư rác 2 LỜI MỞ ĐẦU 3 TỔNG QUAN VỀ THƯ RÁC 4 CÁC PHƯƠNG PHÁP PHÂN LOẠI VĂN BẢN VÀ NHẬN DẠNG THƯ RÁC 15 MẠNG NEURAL NHÂN TẠO VÀ MÔ HÌNH HUẤN LUYỆN 17 XÂY DỰNG ỨNG DỤNG NHẬN DẠNG THƯ RÁC 30 Tìm hiểu mạng Neural và thuật toán Perceptron Learning ứng dụng nhận dạng thư rác 3 LỜI MỞ ĐẦU I. ĐẶT VẤN ĐỀ Khi xã hội ngày càng phát triển thì nhu cầu trao đổi thông tin ngày càng cao, đặc biệt với sự phát triển nhanh của công nghệ thông tin thì việc trao đổi thông tin số như: dữ liệu, thư điện tử hay email, tin tức,… càng trở nên dễ dàng vì sự nhanh chóng, tiện lợi mà nó mang lại. Vì thế, hàng ngày chúng ta lại đối mặt khi phải nhận những thông tin không mong muốn được gởi đến những hộp thư điện tử của cá nhân, tổ chức với những nội dung chủ yếu là những quảng cáo sản phẩm, quảng cáo dịch vụ, mời tham gia diễn đàn, mạng xã hội, tuyên truyền sai lệch đường lối chủ trương của Đảng và pháp luật của Nhà nước, lôi kéo kích động của các phần tử phản động,… hoặc là những thư có nội dung lừa đảo, ẩn chứa virus để đánh cấp thông tin người dùng. Hiện nay, có nhiều phương pháp tiếp cận khác nhau đã được nghiên cứu và sử dụng nhằm loại bỏ hoặc giảm thiểu ảnh hưởng tác hại của thư rác đến người sử dụng. Bên cạnh giải pháp phòng chống thư rác bằng pháp lý trong việc xây dựng Luật để ngăn chặn phát tán thư rác, còn có những giải pháp kỹ thuật nhằm phát hiện, ngăn chặn thư rác trong những giai đoạn khác nhau của quá trình tạo và phát tán thư rác. Trong số giải pháp được sử dụng, giải pháp nhận dạng theo nội dung bằng học máy (machine learning), đang là một trong những giải pháp được sử dụng rộng rãi và có triển vọng nhất. Nhận dạng, phân loại thư theo nội dung là phương pháp phân tích nội dung thư để phân biệt thư rác với thư hợp lệ, kết quả phân tích sau đó được sử dụng để ra quyết định, chuyển tiếp thư đến người nhận hay không. II. MỤC ĐÍCH NGHIÊN CỨU Nghiên cứu tổng quan các phương pháp phân loại thư rác phổ biến hiện nay, từ đó xây dựng hệ thống nhận dạng thư rác bằng cách kết hợp các kỹ thuật phổ biến và kỹ thuật mạng neural nhân tạo cho hệ thống thư điện tử. Tìm hiểu mạng Neural và thuật toán Perceptron Learning ứng dụng nhận dạng thư rác 4 TỔNG QUAN VỀ THƯ RÁC Chương 1 giới thiệu tổng quan về thư rác, các dạng thư rác phổ biến, tác hại của thư rác gây ra cho người dùng, cho hệ thống; giới thiệu các kỹ thuật phát tán thư rác phổ biến; tình hình thư rác hiện nay. 1.1 Giới thiệu chung 1.1.1 Định nghĩa thư rác Thư rác (spam) là những thư điện tử không yêu cầu, không mong muốn và được gửi hàng loạt tới nhiều người nhận. “Thư không yêu cầu” ở đây nghĩa là người nhận thư không yêu cầu người gửi gửi bức thư đó. “Thư được gửi hàng loạt” nghĩa là bức thư mà người nhận nhận được nằm trong một loạt các thư được gửi đi cho nhiều người khác và các bức thư này có nội dung tương tự nhau. Một bức thư được gọi là thư rác chỉ khi nó là thư không yêu cầu và được gửi hàng loạt. Nếu thư rác chỉ là thư không mong muốn thì nó có thể là những bức thư làm quen, được gửi lần đầu tiên, còn nến thư rác chỉ là thư được gửi hàng loạt thì nó có thể là những bức thư gửi cho khách hành của các công ty, các nhà cung cấp dịch vụ. Như định nghĩa ở trên, thư rác là thư không yêu cầu và được gửi hàng loạt. Nhưng yếu tố quan trọng nhất để phân biệt thư rác với thư thông thường phải là ở nội dung bức thư. Khi một người nhận được thư điện tử, người đó không thể xác định được thư có được gửi hàng loạt hay không nhưng có thể xác định được chính xác đó là thư rác sau khi đã xem nội dung thư. Đặc điểm này chính là cơ sở cho giải pháp phân loại thư rác bằng cách phân tích nội dung thư [9]. 1.1.2 Các dạng thư rác Phần lớn thư rác là thư quảng cáo sản phẩm, hàng hoá, chào mời mua sắm hoặc sử dụng dịch vụ. Tuy nhiên, cũng tồn tại một lượng thư rác mang những nội dung khác, có thể phân chia thành: • Thư có nội dung chính trị: do các tổ chức phản động hay cá nhân hoạt động chính trị của các tổ chức đó gửi trực tiếp tới người dùng thư điện tử nhằm Tìm hiểu mạng Neural và thuật toán Perceptron Learning ứng dụng nhận dạng thư rác 5 phục vụ mục đích tuyên truyền, quảng bá hay thiết lập quan hệ trực tiếp hoặc xuyên tạc, vu khống. Hiện tại, ở Việt nam nói chung và ở tỉnh Long An nói riêng tình hình thư rác có nội dung chính trị được các tổ chức phản động tích cực gởi về hệ thống thư điện tử của tỉnh Long An nhất là vào những dịp kỷ niệm ngày lễ lớn, dịp bầu cử,… của đất nước. Đây chính những là thách thức, cần sớm phát hiện và ngăn chặn kịp thời. • Thư từ thiện: do các tổ chức hay cá nhân hoạt động từ thiện gửi với nội dung yêu cầu quyên góp, tài trợ hay trợ giúp. Những người gửi thư dạng này có thể không nhận thức được họ đang phát tán thư rác do có sự biện hộ từ mục đích gửi thư. • Thư có nội dung tôn giáo: dùng để tuyên truyền quảng bá cho các tổ chức hoạt động tôn giáo. 1.2 Tác hại của thư rác Đối với nhà cung cấp dịch vụ: thư rác hiện tại chiếm một tỷ lệ vô cùng lớn trong tổng số thư điện tử được gởi qua mạng internet. Lượng thư rác quá lớn gây ra nhiều tác hại đối với sự phát triển của mạng internet nói chung và người dùng thư điện tử nói riêng. Theo thống kê của Kaspersky như hình 1-1, thư rác chiếm từ 60% đến 80% lượng thư gởi qua các máy chủ thư điện tử, gây lãng phí tài nguyên máy chủ, làm chậm quá trình xử lý của hệ thống, gia tăng dung lượng bộ nhớ, làm tắc nghẽn đường truyền mạng, gây chậm trễ đối với những thư được gởi hợp lệ. Hình 1-1: Lưu lượng thư rác theo báo cáo năm 2012 Đối với người dùng: thư rác gây ra một số tác hại sau: Tìm hiểu mạng Neural và thuật toán Perceptron Learning ứng dụng nhận dạng thư rác 6 + Thiệt hại kinh tế cho người nhận thư trong trường hợp người nhận phải trả cước theo lưu lượng thông tin truyền qua mạng. + Lãng phí thời gian cho việc mở, xem và xóa khỏi hộp thư, có thể chiếm đầy hộp thư của người nhận làm cản trở tiếp nhận của những thư hợp lệ đến sau. + Ngoài ra, thư rác còn là công cụ gởi tin lừa đảo có thể gây nguy hiểm cho người dùng như: ngầm chứa virus (có rất nhiều loại virus lây qua thư điện tử như hình 1-2), phần mềm gián điệp, phần mềm gây hại khác,… nhằm tạo ra các lỗ hỏng bảo mật trong máy tính và mạng. Hình 1-2: Những virus lây lan phổ biến qua thư điện tử trong năm 2012 1.3 Sự cần thiết phải nhận dạng, phân loại thư rác 1.3.1 Tốc độ phát triển thư rác ngày càng tăng Thư rác được xem là vấn đề lớn nhất, thách thức lớn nhất mà người sử dụng internet cũng như các nhà cung cấp dịch vụ ISP phải giải quyết. Theo thống kê của tổ chức Radicati, trong năm 2013 mỗi ngày có trên 100 tỷ thư được gởi nhận trong đó 76% thư có nội dung quảng bá dịch vụ, giới thiệu sản phẩm. Dự đoán đến năm 2017 có khoảng 132 tỷ thư được gởi nhận mỗi ngày, trong số đó có khoảng 77% thư có nội dung quảng cáo, giới thiệu sản phẩm. Ngoài ra, theo thống kê của tổ chức SpamCop trong những tháng đầu năm 2013 trung bình mỗi giây có từ 5,7 đến 16,1 thư rác được phát tán trên toàn thế giới (hình 1-4). Tìm hiểu mạng Neural và thuật toán Perceptron Learning ứng dụng nhận dạng thư rác 7 Hình 1-3: Thống kê tình hình gởi nhận thư rác trên thế giới (theo SpamCop) 1.3.2 Sự bùng nổ thư rác ở Việt Nam Theo bảng thống kê 1-1 của tổ chức Kasperky Lab, trong những tháng đầu năm 2013 Việt Nam đứng thứ 8 trong những quốc gia có nguồn phát tán thư rác nhiều nhất trên thế giới, đứng đầu danh sách là Trung Quốc, Mỹ, Hàn Quốc,… Bảng 1-1: Danh sách quốc gia phát tán thư rác nhiều nhất trên thế giới (đến tháng 5/2013) STT Quốc gia Tỷ lệ phát tán STT Quốc gia Tỷ lệ phát tán 1 Trung Quốc 24,3% 6 Ý 3,6% 2 Mỹ 17,7% 7 Nga 3,2% 3 Hàn Quốc 9,6% 8 Việt Nam 2,9% 4 Ấn Độ 4,4% 9 Brazil 2,2% 5 Đài Loan 4,1% 10 Đức 2,1% Tìm hiểu mạng Neural và thuật toán Perceptron Learning ứng dụng nhận dạng thư rác 8 1.4 Các phương pháp phòng chống, nhận dạng thư rác 1.4.1 Phân tích thuộc tính thư gởi Phương pháp nhận dạng dựa vào thuộc tính thư gởi, chỉ sử dụng những thông tin thuộc tính liên quan đến thông số kỹ thuật của thư đến như: địa chỉ IP, địa chỉ thư gởi mà không quan tâm đến nội dung thư, bao gồm: 1.4.1.1 Dựa vào địa chỉ IP Đây là phương pháp đơn giản nhất và được sử dụng sớm nhất trong việc nhận dạng, phát hiện thư rác. Phương pháp này đòi hỏi phải xây dựng trước danh sách địa chỉ IP được xem là nguồn gốc phát tán thư rác. Khi thư được gởi đến, bộ lọc sẽ phân tích địa chỉ IP của máy gởi và so sánh với danh sách địa chỉ IP bị chặn, nếu thư gởi đến xuất phát từ máy có IP nằm trong danh sách này thì được xem là thư rác và ngược lại được xem là thư hợp lệ. 1.4.1.2 Dựa vào danh sách đen (Blacklist) Trong phương pháp này, người ta lập ra một danh sách các địa chỉ server, tên miền phát tán thư rác. Các nhà cung cấp dịch vụ ISP sẽ sử dụng những danh sách này để loại bỏ những thư có địa chỉ, tên miền nằm trong danh sách. Danh sách như trên được gọi là danh sách đen (blacklist). Danh sách này thường xuyên được cập nhật và chia sẽ những các nhà cung cấp dịch vụ. Một số danh sách đen điển hình mà các nhà cung cấp dịch vụ thường tham chiếu như: http://www.spamhaus.org, http://www.dnsbl.info/ , http://www.sorbs.net/ ,… Ưu điểm của phương pháp này là các nhà cung cấp dịch vụ ISP chặn được khá nhiều địa chỉ IP, tên miền phát tán thư rác. Song dù cho danh sách này luôn được cập nhật nhưng số lượng thư rác được phát tán vẫn không giảm vì những người phát tán thư rác luôn tìm cách thay đổi địa chỉ email, địa chỉ IP, tên miền để vượt qua danh sách đen, thậm chí sử dụng các địa chỉ email công cộng như yahoo, gmail, hotmail để làm công cụ phát tán. Do vậy, phương pháp được sử dụng để hạn chế một phần lượng thư rác phát tán, đôi khi có thể làm mất rất nhiều thư hợp lệ nếu chặn nhầm và cũng mất rất nhiều thời gian để gỡ bỏ khỏi cơ sở dữ liệu tham chiếu ở trên nếu chẳng may tên miền của tổ chức nằm trong danh sách đen. Tìm hiểu mạng Neural và thuật toán Perceptron Learning ứng dụng nhận dạng thư rác 9 1.4.1.3 Dựa vào danh sách địa chỉ tin cậy – danh sách trắng (whitelist) Ngược lại với phương pháp dựa vào danh sách đen, phương pháp này sử dụng những địa chỉ IP, địa chỉ thư điện tử, tên miền được xác định là tin cậy đưa vào danh sách được gọi là danh sách trắng (whitelist). Danh sách này có thể do một nhà cung cấp dịch vụ nào đó cung cấp, những thư có địa chỉ, tên miền nằm trong danh sách sẽ được bộ lọc cho qua. Như vậy, để được nằm trong danh sách trắng người dùng hoặc địa chỉ mail tên miền của tổ chức phải đăng ký với nhà cung cấp dịch vụ. Ưu điểm: số lượng địa chỉ trong danh sách trắng sẽ ít hơn trong danh sách đen vì thế sẽ dễ dàng cập nhật hơn danh sách đen và giải quyết được tình trạng chặn nhầm thư. Tuy nhiên, cả hai phương pháp trên đều có nhược điểm là khó cập nhật, nhất là khi có sự thay đổi về địa chỉ IP, tên miền. Ngoài ra, người gởi có thể lợi dụng server mail có trong danh sách trắng để phát tán thư rác, khi đó rất khó kiểm soát. 1.4.1.4 Kiểm tra thông tin Header Phương pháp này phân tích các trường trong phần header của thư đến để đánh giá đó là thư hợp lệ hay thư rác. Thư rác thường có những đặc điểm sau: + Để trống trường “From” hay trường “To” + Trường “From” chứ các địa chỉ không tuân thủ theo chuẩn. + Gởi tới một số lượng rất lớn người nhận khác nhau. + Chỉ chứa file ảnh mà không chứa các từ để đánh lừa bộ lọc. + Sử dụng ngôn ngữ khác với ngôn ngữ người nhận đang sử dụng. 1.4.2 Phân tích nội dung thư 1.4.2.1 Sử dụng kỹ thuật heuristic Rule based filter là một kỹ thuật đặc trưng của kỹ thuật heuristic. Đây là phương pháp đơn giản nhất để nhận dạng thư rác dựa vào nội dung của thư. Cách thức hoạt động của kỹ thuật này là con người sẽ xác định những đặc trưng (từ ngữ, cụm từ) nào là của thư rác, những đặc trưng nào của thư hợp lệ, sau đó phát hiện những đặc trưng này trong thư mới nhận để đưa ra kết luận đó là thư rác hay thư Tìm hiểu mạng Neural và thuật toán Perceptron Learning ứng dụng nhận dạng thư rác 10 hợp lệ. Ví dụ các từ trong tiếng Anh được xác định là thư rác khi trong nội dung thư có từ “FREE” hoặc từ “F*R*E*E”,… Việc xác định trọng số của các đặc trưng trên bằng tay hoặc bằng thuật toán và xác định một ngưỡng nào đó để nhận dạng thư. Nếu một thư mới nhận có trọng số các đặc trưng cao hơn ngưỡng cho phép thì được xem là thư rác. Hiệu suất nhận dạng thư rác của các chương trình sử dụng phương pháp này rất khác nhau. Vì mỗi chương trình sử dụng các luật lọc khác nhau. Luật đơn giản nhất là thư nào có nội dung chứa những đặc trưng của thư rác thì được xem là thư rác. Điều này làm cho bộ lọc nhận dạng nhầm rất nhiều thư hợp lệ. Một số chương trình lọc theo phương pháp này như hệ thống chấm điểm email của mail server MDaemon. Hệ thống chấm điểm này dựa trên kinh nghiệm việc kiểm tra, lọc email sử dụng một số lượng lớn các luật theo trật tự để máy tính chấm điểm. Điểm số này được sử dụng để quyết định xem một thư gởi đến là thư rác hay thư hợp lệ. Ngoài ra, còn một số bộ lọc heuristic khác như SpamAssassin, SpamGuard,… Phương pháp này có ưu điểm là dễ cài đặt và hiệu suất phát hiện thư rác cũng khá cao nếu xây dựng được hệ thống luật tốt. Nhược điểm chính của phương pháp này là tỷ lệ chặn nhầm thư hợp lệ cũng khá lớn và không linh hoạt do các luật được xây dựng luôn chậm hơn so với sự biến đổi của các từ đặc trưng trong thư rác và thường được sử dụng cho các bộ lọc ở phía server. 1.4.2.2 Sử dụng phương pháp xác suất thống kê và học máy Phân loại, nhận dạng thư rác dựa vào nội dung của thư gởi có thể được xem như là một trường hợp đặc biệt của bài toán phân loại văn bản (text categorization – TC) nhị phân [6]. TC chia tất cả các từ vào hai nhóm: thư rác và thư hợp lệ, theo nghĩa nào đó, một số kỹ thuật TC sử dụng để phân loại, nhận dạng thư gồm các thuật toán được sử dụng như Ripper, Rocchio, Naïve Bayes và Bayesian được thực hiện thử nghiệm để phát hiện spam. Hầu hết những phương pháp này phân tích nội dung của thư gởi để nhận diện từ khóa liên quan đến thư rác và tần suất của các từ lặp đi lặp lại để xác định thư rác nhằm để phân loại chúng vào những chỗ chứa Tìm hiểu mạng Neural và thuật toán Perceptron Learning ứng dụng nhận dạng thư rác [...]... Training.txt Tìm hiểu mạng Neural và thuật toán Perceptron Learning ứng dụng nhận dạng thư rác 34 Hình 4-3: Kết quả sau khi thực hiện máy học - Nhấp đúp vào từng thư: để xem chi tiết thư và phân loại Tìm hiểu mạng Neural và thuật toán Perceptron Learning ứng dụng nhận dạng thư rác 35 Hình 4-4: Xem chi tiết và phân loại thư Tìm hiểu mạng Neural và thuật toán Perceptron Learning ứng dụng nhận dạng thư rác 36... tập dữ liệu huấn luyện Tìm hiểu mạng Neural và thuật toán Perceptron Learning ứng dụng nhận dạng thư rác 31 1.12 Quy trình thực hiện phân loại thư rác Hình 4-13: Quy trình thực hiện phân loại thư rác Tìm hiểu mạng Neural và thuật toán Perceptron Learning ứng dụng nhận dạng thư rác 32 1.12.1 Bước 1: Tạo bộ huấn luyện - Đọc tất cả các thư đã được phân loại gồm 100 thư tốt, 100 thư rác thành bộ huấn luyện... các thuật toán được sử dụng sẽ được trình bày chi tiết ở chương sau Tìm hiểu mạng Neural và thuật toán Perceptron Learning ứng dụng nhận dạng thư rác 17 MẠNG NEURAL NHÂN TẠO VÀ MÔ HÌNH HUẤN LUYỆN Chương này giới thiệu cơ sở lý thuyết về mạng neural nhân tạo, mô hình mạng neural, các phương pháp huấn luyện, giải thuật huấn luyện và một số ứng dụng mạng neural trên thực tế 1.7 Khái niệm về mạng neural. .. đó của mạng Mạng Hopfield thuộc loại này Hình 3-9: Mạng phản hồi (hồi quy) Tìm hiểu mạng Neural và thuật toán Perceptron Learning ứng dụng nhận dạng thư rác 24 1.8.2 Mạng Perceptron 1 lớp Mạng perceptron [8] một lớp do F.Rosenblatt đề xuất năm 1960 là mạng truyền thẳng chỉ một lớp vào và một lớp ra không có lớp ẩn (như hình 3-8) Trên mỗi lớp này có thể có một hoặc nhiều neural Mô hình mạng neuralcủa... dựa vào thuật toán Chi-squared, Support Vector Machine (SVM), Boostings Tree, mạng neural nhân tạo (ANN) Trong phần sau, sẽ trình bày tóm tắt một số phương pháp được áp dụng để phân loại thư rác Tìm hiểu mạng Neural và thuật toán Perceptron Learning ứng dụng nhận dạng thư rác 16 1.6 Phương pháp phân loại văn bản bằng Mạng neural nhân tạo (Artificial Neural Network) Phân loại bằng mô hình mạng neural. .. neural đầu ra Mạng Hopfield là một kiểu mạng tự kết hợp Hình 3-6: Mạng tự kết hợp + Kết hợp khác kiểu (heteroassociative): là mạng có tập neural đầu vào và đầu ra riêng biệt Perceptron, các mạng Perceptron nhiều tầng (MLP: MultiLayer Perceptron) , mạng Kohonen, … thuộc loại này Hình 3-7: Mạng kết hợp khác kiểu Tìm hiểu mạng Neural và thuật toán Perceptron Learning ứng dụng nhận dạng thư rác 23 Ngoài... Tìm hiểu mạng Neural và thuật toán Perceptron Learning ứng dụng nhận dạng thư rác 29 1.10 Ứng dụng mạng neural nhân tạo Đặc trưng của mạng neuralnhân tạo là khả năng học và xử lý song song [7] Nó có thể gần đúng mối quan hệ tương quan phức tạp giữa các yếu tố đầu vào và đầu ra của các quá trình cần nghiên cứu và khi đã học được thì việc kiểm tra độc lập thư ng cho kết quả tốt Sau khi đã học xong, mạng. .. bài toán có tính phi tuyến, phức tạp, và đặc biệt là trong tình huống mối quan hệ bản chất vật lý của quá trình cần nghiên cứu không dễ thiết lập tường minh Tìm hiểu mạng Neural và thuật toán Perceptron Learning ứng dụng nhận dạng thư rác 30 XÂY DỰNG ỨNG DỤNG NHẬN DẠNG THƯ RÁC Chương này trình bày chi tiết các chức năng cơ bản của chương trình, mô tả nguyên lý hoạt động của hệ thống nhận dạng thư rác, ... yêu cầu phải công bố trên cổng thông tin thì phải che đậy bằng cách chèn một thẻ vào và thẻ này sẽ được gỡ bỏ trước khi địa chỉ thư được sử dụng hoặc chuyển đổi thành hình ảnh nhằm mục đích không cho các phần mềm thu thập địa chỉ thư tự động tìm thấy Tìm hiểu mạng Neural và thuật toán Perceptron Learning ứng dụng nhận dạng thư rác 15 CÁC PHƯƠNG PHÁP PHÂN LOẠI VĂN BẢN VÀ NHẬN DẠNG THƯ RÁC Chương này... 0,5 Tìm hiểu mạng Neural và thuật toán Perceptron Learning ứng dụng nhận dạng thư rác - 33 chúng 0 chuyên 0,3 chức 0,1 chương 0,1 chương trình 0 1.12.4 Bước 4: Phân loại - Đọc thư cần phân loại và dựa vào weight của các từ có trong thư tính ra tổng trọng số của thư Nếu trọng số > 0 kết luận: thư rác 1.13 Mô tả chương trình 1.13.1 Giao diện chương trình Hình 4-2: Giao diện chương trình nhận dạng thư rác . HỌC CÔNG NGHỆ THÔNG TIN KHOA KHOA HỌC MÁY TÍNH  BÀI THU HOẠCH MÔN HỌC CÔNG NGHỆ TRI THỨC VÀ ỨNG DỤNG Đề tài: TÌM HIỂU MẠNG NEURAL VÀ THUẬT TOÁN PERCEPTRON LEARNING ỨNG DỤNG NHẬN DẠNG THƯ RÁC Giảng. LỤC Trang Tìm hiểu mạng Neural và thuật toán Perceptron Learning ứng dụng nhận dạng thư rác 2 LỜI MỞ ĐẦU 3 TỔNG QUAN VỀ THƯ RÁC 4 CÁC PHƯƠNG PHÁP PHÂN LOẠI VĂN BẢN VÀ NHẬN DẠNG THƯ RÁC 15 MẠNG NEURAL. 15 MẠNG NEURAL NHÂN TẠO VÀ MÔ HÌNH HUẤN LUYỆN 17 XÂY DỰNG ỨNG DỤNG NHẬN DẠNG THƯ RÁC 30 Tìm hiểu mạng Neural và thuật toán Perceptron Learning ứng dụng nhận dạng thư rác 3 LỜI MỞ ĐẦU I. ĐẶT VẤN

Ngày đăng: 20/05/2015, 10:28

Từ khóa liên quan

Mục lục

  • 1.1 Giới thiệu chung

    • 1.1.1 Định nghĩa thư rác

    • 1.1.2 Các dạng thư rác

    • 1.2 Tác hại của thư rác

    • 1.3 Sự cần thiết phải nhận dạng, phân loại thư rác

      • 1.3.1 Tốc độ phát triển thư rác ngày càng tăng

      • 1.3.2 Sự bùng nổ thư rác ở Việt Nam

      • 1.4 Các phương pháp phòng chống, nhận dạng thư rác

        • 1.4.1 Phân tích thuộc tính thư gởi

          • 1.4.1.1 Dựa vào địa chỉ IP

          • 1.4.1.2 Dựa vào danh sách đen (Blacklist)

          • 1.4.1.3 Dựa vào danh sách địa chỉ tin cậy – danh sách trắng (whitelist)

          • 1.4.1.4 Kiểm tra thông tin Header

          • 1.4.2 Phân tích nội dung thư

            • 1.4.2.1 Sử dụng kỹ thuật heuristic

            • 1.4.2.2 Sử dụng phương pháp xác suất thống kê và học máy

            • 1.4.3 Các phương pháp khác

              • 1.4.3.1 Dựa trên xác định danh tính người gởi

              • 1.4.3.2 Dựa vào hệ thống hỏi đáp (Challenge/Response Systems)

              • 1.4.3.3 Xác thực tự động

              • 1.4.3.4 Kỹ thuật giấu địa chỉ thư điện tử

              • 1.5 Giới thiệu chung

              • 1.6 Phương pháp phân loại văn bản bằng Mạng neural nhân tạo (Artificial Neural Network)

              • 1.7 Khái niệm về mạng neural nhân tạo

                • 1.7.1 Ý tưởng sinh học

                • 1.7.2 Mô hình mạng neural nhân tạo

                • 1.7.3 Lịch sử phát triển mạng neural

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan