1. Trang chủ
  2. » Luận Văn - Báo Cáo

Ứng dụng mạng neural trong phân loại thư rác

73 932 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 73
Dung lượng 2,35 MB

Nội dung

MỞ ĐẦU Mạng nơron nhân tạo ANN (Artificial Nơron Networks) mô xử lý thông tin, nghiên cứu từ hệ thống thần kinh sinh vật, giống não để xử lý thông tin Nó bao gồm số lượng lớn mối gắn kết cấp cao để xử lý yếu tố làm việc mối liên hệ giải vấn đề rõ ràng ANN giống người, học kinh nghiệm, lưu kinh nghiệm hiểu biết sử dụng tình phù hợp quan trọng hết, người có khả sáng tạo Những năm gần mô ANN xuất phát triển Các nghiên cứu ứng dụng thực ngành: điện, điện tử, kỹ thuật chế tạo, y học, quân sự, kinh tế Một ứng dụng kinh điển mạng nơron toán nhận dạng mẫu, mẫu tập hợp (hay vector) tham số biểu thị thuộc tính trình vật lý Ngoài sức mạnh vốn có, mạng nơron thể ưu điểm việc nhận dạng thông qua khả mềm dẻo, dễ thích nghi với môi trường Chính vậy, coi mạng nơron trước tiên công cụ để nhận dạng Như biết ngày Internet đóng vai trò vô quan trọng đời sống xã hội với dịch vụ tiện ích Một dịch vụ mà Internet mang lại dịch vụ thư điện tử, phương tiện giao tiếp đơn giản, tiện lợi, rẻ hiệu người cộng đồng sử dụng dịch vụ Internet Tuy nhiên lợi ích dịch vụ thư điện tử mang lại mà số lượng thư trao đổi Internet ngày tăng, đa số số thư thư rác (spam) Thư rác thường gửi với số lượng lớn, không người dùng mong đợi gây phiền toái khó chịu cho người dùng, làm giảm tốc độ truyền Internet tốc độ xử lý email server, gây thiệt hại lớn kinh tế Thư rác vấn đề nhức nhối xã hội Nhiều phương pháp, công cụ lọc thư rác đề xuất Tuy nhiên, công cụ lọc thư rác tỏ chưa thực hiệu Chính lý nêu với gợi ý thầy giáo nhận thấy nghiên cứu mạng nơron hướng nghiên cứu quan trọng, mẻ có nhiều triển vọng Đồng thời áp dụng mạng nơron để giải toán phân loại thư rác hướng tiếp cận khoa học có hiệu Do chọn đề tài: “Nghiên cứu, ứng dụng mạng nơron toán phân loại thư rác” Nội dung luận văn gồm: Chương 1: Mô hình mạng nơron nhân tạo Trình bày lý thuyết mô hình mạng nơron như: lịch sử đời phát triển mạng nơron, khái niệm mạng nơron, loại mô hình mạng nơron, đặc trưng mạng, phương pháp huấn luyện mạng nơron, phương pháp học có giám sát Các vấn đề ứng dụng mạng nơron Chương 2: Bài toán phân loại thư rác Giới thiệu thư rác: khái niệm, đặc điểm, phân loại, ảnh hưởng thư rác; phương pháp phân loại thư rác: phân loại theo từ khóa, Bayesian, SpamAssassin, danh sách trắng/đen, dựa vào vị trí lọc, xác nhận danh tính người gửi dựa mạng xã hội Chương 3: Thử nghiệm hệ thống ngăn chặn spam mail Trình bày thử nghiệm hệ thống ngăn chặn spam mail phương pháp học máy thông qua phần mềm mã nguồn mở Popfile Cách chuẩn hóa tín hiệu đầu vào, đầu ra…Chương trình minh họa kết huấn luyện mạng, đánh giá, nhận xét CHƯƠNG 1: MÔ HÌNH MẠNG NƠRON NHÂN TẠO 1.1 Khái niệm mạng nơron 1.1.1 Giới thiệu Các nghiên cứu não người tiến hành từ hàng nghìn năm Cùng với phát triển khoa học kĩ thuật đặc biệt tiến ngành điện tử đại, việc người bắt đầu nghiên cứu nơron nhân tạo hoàn toàn tự nhiên Có thể tính từ nghiên cứu William (1890) tâm lý học với liên kết noron thần kinh Sự kiện đánh dấu đời mạng nơron nhân tạo diễn vào năm 1943 nhà thần kinh học Warren McCulloch nhà toán học Walter Pitts viết báo mô tả cách thức nơron hoạt động Họ tiến hành xây dựng mạng nơron đơn giản mạch điện Các nơron họ xem thiết bị nhị phân với ngưỡng cố định Kết mô hình hàm logic đơn giản chẳng hạn “ a OR b” hay “a AND b” [7] Những tiến máy tính đầu năm 1950 giúp cho việc mô hình hóa nguyên lý lý thuyết liên quan tới cách thức người suy nghĩ trở thành thực Nathanial Rochester sau nhiều năm làm việc phòng thí nghiệm nghiên cứu IBM có nỗ lực để mô mạng nơron Năm 1956 dự án Dartmouth nghiên cứu trí tuệ nhân tạo (Artificial Intelligence) mở thời kỳ phát triển lĩnh vực trí tuệ nhân tạo lẫn mạng nơron Tác động tích cực thúc đẩy quan tâm nhà khoa học trí tuệ nhân tạo trình xử lý mức đơn giản mạng nơron não người Những năm dự án Dartmouth, John von Neumann đề xuất việc mô nơron đơn giản cách sử dụng rơle điện áp đèn chân không Nhà sinh học chuyên nghiên cứu nơron Frank Rosenblatt bắt đầu nghiên cứu Perceptron năm 1958 Sau thời gian nghiên cứu Perceptron cài đặt phần cứng máy tính xem mạng nơron lâu đời sử dụng đến ngày Perceptron tầng hữu ích việc phân loại tập đầu vào có giá trị liên tục vào hai lớp Perceptron tính tổng có trọng số đầu vào, trừ tổng cho ngưỡng cho hai giá trị mong muốn Tuy nhiên Perceptron nhiều hạn chế, hạn chế sách Perceptron Marvin Minsky Seymour Papert MIT (Massachurehs Insritute of Technology) viết năm 1969 chứng minh không dùng cho hàm logic phức Năm 1959, Bernard Widrow Marcian Hoff thuộc trường đại học Stanford xây dựng mô hình ADALINE ( ADAptive LINear Elements) MADALINE (Multiple ADAptive LINear Elements) Các mô hình sử dụng quy tắc học Least-Mean-Squares ( LMS : Tối thiểu bình phương trung bình) MADALINE mạng nơron áp dụng để giải toán thực tế Nó lọc thích ứng có khả loại bỏ tín hiệu dội lại đường dây điện thoại Ngày mạng nơron sử dụng ứng dụng thương mại Năm 1973 Von der Marlsburg: đưa trình học cạnh tranh self – organization Năm 1974 Paul Werbos phát triển ứng dụng phương pháp học lan truyền ngược (back-propagation) Tuy nhiên phải vài năm phương pháp trở lên phổ biến Các mạng lan truyền ngược biết đến nhiều áp dụng rộng dãi nhất ngày Năm 1985, viện vật lý Hoa Kỳ bắt đầu tổ chức họp hàng năm mạng nơron ứng dụng tin học (Nơron Networks for Computing) Năm 1987, hội thảo quốc tế mạng neuron Viện kỹ sư điện điện tử IEEE (Institute of Electrical and Electronic Engineer) thu hút 1800 người tham gia Tính từ năm 1987 đến nay, hàng năm giới mở hội nghị toàn cầu chuyên ngành nơron IJCNN (International Joit Conference on Nơron Networks) Ngày nay, không dừng lại mức nghiên cứu lý thuyết, nghiên cứu ứng dụng mạng nơron để giải toán thực tế diễn khắp nơi Các ứng dụng mạng nơron đời ngày nhiều ngày hoàn thiện Điển hình ứng dụng: xử lý ngôn ngữ (Language Processing), nhận dạng ký tự (Character Recognition), nhận dạng tiếng nói (Voice Recognition), nhận dạng mẫu (Pattern Recognition), xử lý tín hiệu (Signal Processing), Lọc liệu (Data Filtering),… 1.1.1.1 So sánh mạng nơron với máy tính truyền thống Các mạng nơron có cách tiếp cận khác giải vấn đề so với máy tính truyền thống Các máy tính truyền thống sử dụng cách tiếp cận theo hướng giải thuật, tức máy tính thực tập lệnh để giải vấn đề Vấn đề giải phải biết phát biểu dạng tập lệnh không nhập nhằng Những lệnh sau phải chuyển sang chương trình ngôn ngữ bậc cao chuyển sang mã máy để máy tính hiểu Trừ bước cụ thể mà máy tính cần tuân theo rõ ràng, máy tính không làm Điều giới hạn khả máy tính truyền thống phạm vi giải vấn đề mà hiểu biết xác cách thực Các máy tính trở lên hữu ích chúng thực việc mà thân người xác phải làm Các mạng nơron xử lý thông tin theo cách thức giống não người Mạng tạo nên từ số lượng lớn phần tử xử lý kết nối với làm việc song song để giải vấn đề cụ thể Các mạng nơron học theo mô hình, chúng không lập trình để thực nhiệm vụ cụ thể Các mẫu phải chọn lựa cẩn thận không thời gian, chí mạng hoạt động không Hạn chế mạng tự tìm cách giải vấn đề, thao tác dự đoán [7] Các mạng nơron máy tính truyền thống không cạnh tranh mà bổ sung cho Có nhiệm vụ thích hợp với máy tính truyền thống, ngược lại có nhiệm vụ lại thích hợp với mạng nơron Thậm chí nhiều nhiệm vụ đòi hỏi hệ thống sử dụng tổ hợp hai cách tiếp cận để thực hiệu cao Thông thường máy tính truyền thống sử dụng để giám sát mạng nơron 1.1.1.2 Nơron sinh học Hình 1.1 Mạng nơron sinh học Do nhu cầu ngày cao việc giải vấn đề phức tạp chất người không muốn lòng với mà muốn vươn tới cao hơn, hoàn thiện hơn, thuật ngữ “mạng nơron” “mạng nơron nhân tạo” “xử lý song song phân tán” đời Các thuật ngữ nói đến ngành kỹ thuật đòi hỏi kiến thức từ nhiều ngành khoa học khác toán học, vật lý học, hóa học, sinh vật học, tâm lý học, thần kinh học,… Tất nhằm tạo máy tính hoạt động giống “bộ não” 1.1.1.3 Chức năng, tổ chức hoạt động não người a) Chức Bộ não người có chức quan trọng đời sống người Bộ não gần kiểm soát hầu hết hành vi người, từ hoạt động bắp đơn giản đến hành động phức tạp học tập, nhớ, suy luận, tư duy, sáng tạo,… b) Tổ chức Bộ não người hình thành từ liên kết khoảng 1011 phân tử (tế bào), có khoảng 1010 phần tử nơron, số lại khoảng 9*1010 phần tử tế bào thần kinh đệm Các tế bào thần kinh đệm có nhiệm vụ phục vụ hỗ trợ cho nơron Cấu tạo chi tiết não đến người ta chưa thực biết rõ Tuy vậy, não phân chia thành nhiều vùng khác Mỗi vùng kiểm soát hay nhiều hoạt động người Bộ não có cấu trúc nhiều lớp Lớp bên thường thấy nếp nhăn, lớp có cấu tạo phúc tạp Đây nơi kiểm soát phát sinh hành động phức tạp nghe, nhìn, tư duy,… c) Hoạt động Mặc dù nơron (có thể xem phần tử xử lý hay phần tử tính) có tốc độ chậm so với tốc độ cổng logic silicon vi chip 10-3 giây so với 10-10 giây, nơron liên kết với khoảng 104 nơron khác, cho nên, hoạt động não hoạt động cách tổng lực đạt hiệu cao Nói cách khác phần tử não hoạt động cách song song tương tác tinh vi phức tạp Hiệu hoạt động thường cao, vấn đề phức tạp Tóm lại, não có chức quan trọng đời sống người Cấu tạo não phức tạp, tinh vi tạo thành từ mạng nơron có hàng chục tỉ tế bào với mức độ liên kết nơron cao Hơn nữa, não chia thành vùng lớp khác Bộ não hoạt động dựa chế hoạt động song song nơron tạo nên não Lý thuyết mạng nơron nhân tạo, hay gọi tắt “mạng nơron”, xây dựng xuất phát từ thực tế não người luôn thực tính toán cách hoàn toàn khác so với máy tính số Có thể coi não máy tính hay hệ thống xử lý thông tin song song, phi tuyến phức tạp Nó có khả tự tổ chức phận cấu thành nó, tế bào thần kinh (neuron) hay khớp nối thần kinh (synapse), nhằm thực số tính toán nhận dạng mẫu điều khiển vận động nhanh nhiều lần máy tính nhanh Sự mô não người mạng nơron dựa sở số tính chất đặc thù rút từ nghiên cứu thần kinh sinh học 1.1.1.4 Nơron Nơron phần tử tạo nên não Cấu tạo hoạt động nơron sau: a) Cấu tạo Một nơron điển hình có phần chính: - Phần thứ nhất: Thân phần tử hay soma (hoặc cell body) Nhân nơron đặt - Phần thứ hai: Các dendrite Đây mạng dạng dây thần kinh để nối soma với - Phần thứ ba: axon Đây nối kết, hình trụ dài mang tín hiệu từ Phần cuối axon chia thành nhiều nhánh nhỏ Mỗi nhánh nhỏ (cả dendrite axon) kết thúc quan nhỏ hình củ hành gọi synapte mà nơron đưa tín hiệu vào nơron khác Những điểm tiếp nhận với synapte nơron khác dendrite hay soma Hình 1.2 Sơ đồ nơron sinh học b) Hoạt động Các tín hiệu đưa synapte nhận dendrite kích thích điện tử Việc truyền tín hiệu liên quan đến trình hóa học phức tạp mà chất truyền đặc trưng giải phóng từ phía gửi nơi tiếp nối Điều làm tăng giảm điện bên thân nơron nhận Nơron nhận tín hiệu kích hoạt (fire) điện vượt khỏi ngưỡng Một xung (hoặc điện hoạt động) với cường độ mạnh thời gian tồn cố định gửi thông qua axon tới phần nhánh nơron đó, tới chỗ nối synapte nơron khác Sau kích hoạt, nơron chờ khoảng thời gian gọi chu kỳ refractory, trước kích hoạt lại Synapses excitatory chúng cho phép kích thích truyền qua gây tình trạng kích hoạt nơron nhận Ngược lại, chúng inhibitory chúng cho phép kích thích truyền qua làm ngăn chở trạng thái kích hoạt nơron nhận Các synapses đóng vai trò quan trọng học tập Khi học tập hoạt động synapses tăng cường, tạo nên nhiều liên kết mạnh nơron Có thể nói người học giỏi có nhiều synapses synapses mạnh mẽ, hay nói cách khác, liên kết nơron nhiều, nhạy bén 1.1.2 Mạng Nơron nhân tạo 1.1.2.1 Nơron nhân tạo Nơron nhân tạo đơn vị tính toán có nhiều đầu vào đầu Mỗi đầu vào đến từ liên kết Đặc trưng nơron hàm kích hoạt phi tuyến chuyển đổi tổ hợp tuyến tính tất tín hiệu đầu vào thành 10 Thuật toán học (Learning Algorithm): Thuật toán dùng để loại bỏ tầng liệu cũ thay tầng liệu khả dụng Việc loại bỏ diễn dựa tiêu chí sau: 59 Thuật toán ứng dụng (Application Algorithm): 60 3.2 Mô hình phân loại thư rác qua Popfile Mail client PopFile MailServer MailServer [– truyền mail cho PoPfile –>] PopFile (xử lý phân loại mail PopFile) [– truyền mail cho Mail Client –>] Mail client Hình 3.2 Mô hình Popfile POPFile công cụ phân loại mail tự động Sau cài đặt, cấu hình đào tạo, Popfile quét tất email đến phân loại dựa vào việc luyện tập 3.2.1 Cấu hình kết nối hệ thống mail qua Popfile - Cài đặt Popfile Truy cập: http://getpopfile.org/ tải cài đặt Khởi động POPFile từ Menu Start -> Programs -> POPFile -> RunPOPFile 61 Hình 3.3 Giao diện Popfile Thông thường Outlook kết nối trực tiếp đến máy chủ mail kiểm tra thư Khi muốn POPFile để phân loại mail POP3 đến cần phải cấu hình lại Outlook để làm cho sử dụng POPFile Module POP3, POPFile hoạt động máy chủ proxy có nghĩa đường dẫn xử lý mail dạng này: Outlook - POPFile - internet - mail server 3.2.2 Cấu hình Outlook kết nối với Popfile Để thiết lập việc truy cập quản lý tài khoản e-mail từ Outlook + Khởi động Microsoft Office Outlook 2007 Start > Programs > Microsoft Office > Microsoft Office Outlook 2007 để mở Outlook Sau lựa chọn phần mềm Microsoft outlook để đăng nhập, hình sử dụng phần mềm xuất sau: 62 Hình 3.4 Giao diện phần mềm Microsoft Outlook Sau đăng nhập vào giao diện phần mềm, người dùng lựa chọn chức Tool → Acount settings… hình truy cập vào chức cài đặt vào tài khoản E - mail 63 Hình 3.5 Truy cập chức vào tài khoản Email Sau lựa chọn bảng Account Settings xuất Hình 3.6 Thiết lập tài khoản Email 64 Trong bảng “Account settings” lựa chọn “New” để cài đặt tài khoản Hình 3.7 Thêm tài khoản Email Chọn theo mẫu chọn “Next” Hình 3.8 Sửa tài khoản Email 65 Hộp thoại Add New E–mail Account hiển thị người dùng cần khai báo đầy đủ khai báo vào bảng Hình 3.9 Thay đổi tài khoản Email Accounnt type: POP3 Incoming mail server: 127.0.0.1 Outgoing mail server (SMTP): Pop.ioit.ac.vn User name: Pop.ioit.ac.vn:thanhhoa.hmtu@ioit.ac.vn 66 Sau điền đầy đủ thông tin, Email cần thiết lập thêm số chức để hệ thống MS outlook giao tiếp với máy chủ E-mail để thực việc gửi nhận thư Để thực việc người dùng cần lựa chọn “ More setting” cài đặt mở rộng Hình 3.10 Thiết lập thư điện tử Sau hoàn thành bước cài đặt cấu hình người dùng lựa chọn “Ok” để hoàn tất việc cài đặt Bấm chọn Send/Receive kết nối Outlook Email 67 3.3 Huấn luyện cho Popfile Sau thiết lập tài khoản E-mail kết nối với phần mềm Microsoft Outlook Đăng nhập hệ thống 127.0.0.1 Tại giao diện cửa sổ chương trình Popfile Control Center chọn số lượng E-mail work, spam, other, personal theo yêu cầu sau bấm chọn Reclassify để thực huấn luyện - Chọn lớp lệnh Buckets lấy kết Hình 3.12 Huấn luyện Email POPFile 3.4 Kết Đánh giá Với chương trình thử nghiệm toán nhận dạng thư rác qua mô hình sử dụng Popfile , kết thu sau  Thử nghiệm trainning 20 thư phân loại loại 68  Kết chạy thử chương trình với 500 mail kết Tỉ lệ phân loại Độ xác Độ sai âm tính Spam 12% 80% 20% Normal 73% 88% 12% Unclassified 15% Bảng 3.1 Kết lọc Email POPFile sau trainning với 20 Email  Thử nghiệm trainning 40 thư phân loại loại  Kết chạy thử chương trình với 500 mail kết Tỉ lệ phân loại Spam 14% Normal 76% Unclassified 10% Độ xác 83% 91% Độ sai âm tính 17% 9% Bảng 3.2 Kết lọc Email POPFile sau trainning với 40 Email  Thử nghiệm trainning 80 thư phân loại loại  Kết chạy thử chương trình với 500 mail kết Tỉ lệ phân loại Độ xác Spam 18% Normal 82% Unclassified 5% 99% 95% Độ sai âm tính 1% 5% Bảng 3.3 Kết lọc Email POPFile sau trainning với 80 Email - Từ kết thực nghiệm cho thấy phương pháp lọc Email qua POPFile train nhiều độ xác tăng 69 KẾT LUẬN Sau thời gian nghiên cứu tìm hiểu hướng dẫn thầy giáo, TS Phạm Thanh Giang với nỗ lực thân, luận văn hoàn thành mục tiêu đề Những kết mà luận văn đạt được: Về mặt lý thuyết: - Tìm hiểu thành phần kiểu kiến trúc mạng nơron, phân biệt số loại mạng nơron - Nắm ý nghĩa việc học hay tích luỹ, có vai trò to lớn quy tắc học, mô hình học thuật toán học nhiều khả ứng dụng khác - Tìm hiểu ứng dụng mạng nơron thực tế - Nắm kiến thức mô hình mạng dẫn tiến đa mức cách xây dựng mô hình mạng nơron thực tế - Vận dụng mạng nơron dẫn tiến đa mức giải thuật lan truyền ngược để xây dựng chương trình phân loại thư rác Về mặt thực tiễn: Đưa phương pháp xử lý với toán phân loại thư rác dựa vào phần mềm POPFile, POPFile sử dụng kỹ thuật gọi Naive Bayes để tính toán xác suất mà từ email Thiết lập hệ thống thử nghiệm phân loại thư rác thông qua phần mềm Popfile Tuy biết điều thu nhận phần nhỏ ngành nghiên cứu lớn, tự nhận thấy gặt hái thành công định giai đoạn nghiên cứu 70 Hướng phát triển tiếp theo: Bên cạnh kết đạt được, có vấn đề chưa luận văn giải hay đề cập tới Trong thời gian tới tiếp tục nghiên cứu hoàn thiện đề tài với mục tiêu đặt sau: - Tiếp tục nghiên cứu, xây dựng mạng cho thư rác dạng hình ảnh âm - Xây dựng hệ thống phân loại thư rác tiếng Việt sử dụng mạng nơron 71 TÀI LIỆU THAM KHẢO Tiếng việt [1] Lê Minh Trung, Giáo trình Mạng Nơron nhân tạo, Nhà xuất Thống kê, 1999 [2] Nguyễn Đình Thúc, Trí tuệ nhân tạo Lập trình tiến hóa, Nhà xuất Giáo Dục, 2008 [3] Nguyễn Thanh Thủy, Trí tuệ nhân tạo, Các phương pháp giải vấn đề kỹ thuật xử lý tri thức, Nhà xuất Khoa học Kỹ thuật, 2007 [4] Nguyễn Trần Thiên Thanh, Trần Khải Hoàng, Tìm hiểu hướng tiếp cận toán phân loại văn xây dựng phần mềm phân loại tin tức báo điện tử, Khóa luận cử nhân tin học 2005 Tiếng Anh [5] A.Gray and M.Haahr Personalised, Collaborative Spam Filtering, Proc.Of the Conference on Email and Anti-spam (CEAS), Mountain View, CA, USA, July 2004 [6] J Golbeck and J Hendler, Reputation Network Analysis for Email Filtering Proc Of the Conference on Email and Anti-Spam (CEAS), Mountain View, CA, USA, July 2004 [7] Deborah Fallows, Spam: How it is hurting email and degrading life on the internet, Technical report, Pew Internet and American Life Project, Oct 2003 [8] Christopher D.Manning, Hinrich Schutze, Foundations Of Statistical Natural Language Processing 1999 72 [9] M.T.Hagan, H.B Deuth, M.H Beale, Neural Network Design, PWS Publishing Company, Boston, MA 1996 Một số website [10] Spam Filtering Research, http://spamlinks.net/ lter-research.htm [11] http://getpopfile.org/ [12].https://etd.ohiolink.edu/rws_etd/document/get/akron1216868348/ie [13].https://uwspace.uwaterloo.ca/bitstream/handle/10012/4344/thesis.f [14].http://www1.cs.columbia.edu/~sh553/publications/final-thesis.pdf [15] http://getpopfile.org/docs/faq:howitworks [16] http://en.wikipedia.org/wiki/POPFile [17] http://getpopfile.org/docs/faq:getsourcecode [18].http://sourceforge.net/projects/popfile/ 73 [...]... được đó là thư rác sau khi đọc nội dung thư Đặc điểm này chính là cơ sở cho giải pháp phân loại thư rác bằng cách phân tích nội dung thư 2.1.2 Các đặc điểm của thư rác 35 Thư rác được gửi đi một cách tự động: Mục đích của những kẻ gửi thư rác (spammer) là có thể phát tán lượng thư rác tới người dùng càng nhiều càng tốt Do vậy chính thư ng viết ra những phần mềm tự động gửi một lượng lớn thư rác trong một... cường; phân biệt được các loại mạng nơron như mạng dẫn tiến đơn mức, mạng dẫn tiến đa mức, mạng quy hồi, Bên cạnh đó, nội dung của chương còn đề cập đến cách thức thu thập dữ liệu, biểu diễn tri thức cho mạng nơron và ứng dụng của mạng nơron Đây là tiền đề lý thuyết quan trọng để xây dựng ứng dụng giải quyết bài toán dựa trên mạng nơron trong các chương tiếp theo 34 CHƯƠNG 2: BÀI TOÁN PHÂN LOẠI THƯ RÁC... thiệu về thư rác 2.1.1 Khái niệm thư rác Hiện nay vẫn chưa có một khái niệm hoàn chỉnh, chặt chẽ về thư rác (spam) Có quan điểm coi thư rác là những thư quảng cáo không được yêu cầu (Unsolicited Commercial Email-UCE), có quan điểm rộng hơn cho rằng thư rác bao gồm thư quảng cáo, thư quấy rối, và những thư có nội dung không lành mạnh (Unsolicited Bulk Emai -UBE) Thư rác (spam mail) là những bức thư điện... Internet IPS để đọc những bức thư không liên quan Đôi khi những bức thư có chứa virus có thể phá hủy cả hệ thống dữ liệu trong máy tính Ngoài ra, tài nguyên (đường truyền, máy chủ) của IPS cũng bị chiếm dụng nhiều khi gửi thư rác Tuy nhiên yếu tố quan trọng nhất để phân biệt thư rác với thư thông thư ng là nội dung thư Khi một người nhận được thư rác, người đó không thể xác định được thư đó được gửi hàng loạt... kích thư c nhỏ của nó so với mạng kết nối đầy đủ 1.8 Ứng dụng của mạng nơron Trong một vài năm trở lại đây, mạng nơron đã được nhiều người quan tâm và đã được áp dụng thành công trong nhiều lĩnh vực khác nhau, như tài chính, y tế, địa chất và vật lý, Thật vậy, bất cứ ở đâu có vấn đề về dự báo, phân loại và điều khiển, mạng nơron đều có khả năng ứng dụng được Ví dụ như khả năng nhận dạng mặt người trong. .. thuật toán học trong nhiều ứng dụng khác nhau của mạng nơron  Các mạng tổ hợp (modular) có thể được xây dựng thông qua một sự tích hợp các mô hình khác nhau 1.3 Phân loại mạng nơron nhân tạo 1.3.1 Phân loại theo kiểu liên kết nơron Ta có mạng nơron truyền thẳng và nơron mạng quy hồi: - Mạng truyền thẳng, các nơron đi theo một hướng nhất định tạo thành đồ thị không có chu trình như trong hình 1.7 Chu... nơron điển hình 1.3.2.1 Mạng dẫn tiến (feedforward) Có thể nói mạng nơron dẫn tiến là một kiểu mạng đơn giản trong việc sắp đặt mạng Trong mạng này thông tin chỉ truyền trên một hướng duy nhất: từ lớp đầu vào xuyên qua lớp ẩn (nếu có) và kết thúc tại lớp đầu ra Mạng dẫn tiến không có chu trình hoặc vòng ở bên trong a) Các mạng dẫn tiến (feedforward) đơn mức Trong một mạng nơron phân mức, các nơron được... ra của chỉ mức ứng liền trước nó (điều này có thể khác trong thực tế cài đặt) Tập hợp các tín hiệu đầu ra của các nơron trong mức đầu ra của mạng tạo nên đáp ứng toàn cục của mạng đối với các vector đầu vào được cung cấp bởi các nút nguồn của mức đầu vào Mạng nơron trong hình 1.10 được gọi là kết nối đầy đủ Tại đó, tất cả các nút trong mỗi mức của mạng được nối với tất cả các nút trong mức tiếp sau... Tính chất đưa ra lời giải có bằng chứng Trong ngữ cảnh phân loại mẫu, một mạng nơron có thể được thiết kế để đưa ra thông tin không chỉ về mẫu được phân loại, mà còn về sự tin cậy của quyết định đã được thực hiện Thông tin này có thể được sử dụng để loại bỏ các mẫu mơ hồ hay nhập nhằng 1.2.5 Tính chất chấp nhận sai sót Một mạng nơron, được cài đặt dưới dạng phần cứng, vốn có khả năng chấp nhận lỗi,... dùng để huấn luyện mạng nơron Do cấu trúc một mạng nơron là vô cùng đa dạng, nên để có thể biểu diễn tri thức một cách có hiệu quả, người ta đưa ra bốn quy tắc chung sau: Quy tắc 1 Các đầu vào tương tự từ các lớp tương tự cần phải luôn tạo ra những biểu diễn tương tự trong mạng, và như vậy nên được phân lớp thuộc về cùng một loại Trong tiêu chuẩn này, người ta thư ng sử dụng một số thư c đo để xác định ... sát Các vấn đề ứng dụng mạng nơron Chương 2: Bài toán phân loại thư rác Giới thiệu thư rác: khái niệm, đặc điểm, phân loại, ảnh hưởng thư rác; phương pháp phân loại thư rác: phân loại theo từ khóa,... triển vọng Đồng thời áp dụng mạng nơron để giải toán phân loại thư rác hướng tiếp cận khoa học có hiệu Do chọn đề tài: “Nghiên cứu, ứng dụng mạng nơron toán phân loại thư rác Nội dung luận văn... ẩn Tầng Hình 1.8 Mạng quy hồi 1.3.2 Một số loại mạng nơron điển hình 1.3.2.1 Mạng dẫn tiến (feedforward) Có thể nói mạng nơron dẫn tiến kiểu mạng đơn giản việc đặt mạng Trong mạng thông tin truyền

Ngày đăng: 12/12/2016, 16:37

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
[10]. Spam Filtering Research, http://spamlinks.net/ lter-research.htm Link
[1]. Lê Minh Trung, Giáo trình Mạng Nơron nhân tạo, Nhà xuất bản Thống kê, 1999 Khác
[2]. Nguyễn Đình Thúc, Trí tuệ nhân tạo Lập trình tiến hóa, Nhà xuất bản Giáo Dục, 2008 Khác
[3]. Nguyễn Thanh Thủy, Trí tuệ nhân tạo, Các phương pháp giải quyết vấn đề và kỹ thuật xử lý tri thức, Nhà xuất bản Khoa học và Kỹ thuật, 2007 Khác
[4]. Nguyễn Trần Thiên Thanh, Trần Khải Hoàng, Tìm hiểu các hướng tiếp cận bài toán phân loại văn bản và xây dựng phần mềm phân loại tin tức báo điện tử, Khóa luận cử nhân tin học 2005.Tiếng Anh Khác
[5]. A.Gray and M.Haahr. Personalised, Collaborative Spam Filtering, Proc.Of the Conference on Email and Anti-spam (CEAS), Mountain View, CA, USA, July 2004 Khác
[6]. J. Golbeck and J. Hendler, Reputation Network Analysis for Email Filtering. Proc. Of the Conference on Email and Anti-Spam (CEAS), Mountain View, CA, USA, July 2004 Khác
[7]. Deborah Fallows, Spam: How it is hurting email and degrading life on the internet, Technical report, Pew Internet and American Life Project, Oct 2003 Khác
[8]. Christopher D.Manning, Hinrich Schutze, Foundations Of Statistical Natural Language Processing 1999 Khác
[9]. M.T.Hagan, H.B. Deuth, M.H. Beale, Neural Network Design, PWS Publishing Company, Boston, MA 1996.Một số website Khác

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w