1. Trang chủ
  2. » Công Nghệ Thông Tin

báo cáo đề tài viết chương trình phân loại thư rác

27 926 7

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 27
Dung lượng 470,53 KB

Nội dung

Xuất phát từ thực trạng đó, nhóm BTL chọn hướng nghiên cứu “Xây dựng một chương trình lọc thư rác bằng việc ứng dụng phương pháp phân loại văn bản Naive Bayes” “ với mục đích tìm hiểu, t

Trang 1

TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI VIỆN CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG

********************

BÀI TẬP LỚN

XỬ LÝ NGÔN NGỮ TỰ NHIÊN

Đề Tài:

Viết chương trình phân loại thư rác

Sinh viên thực hiện:

Nguyễn Minh Quang 20062495 Lớp : Hệ thống thông tin – K52

Giảng viên hướng dẫn: PGS Lê Thanh Hương

Trang 2

MỤC LỤC:

1 Đặt vấn đề: 3

2 Các cách tiếp cận để giải quyết vấn đề : 4

2.1 Các cách thức con người xử lý với spam : 4

2.2 Tổng quan về bài toán phân loại văn bản 6

2.2.1 Định nghĩa phân loại văn bản 6

2.2.2 Tiến trình phân loại văn bản 6

2.2.3 Các phương pháp phân loại văn bản 8

2.2.4 Bài toán phân loại thư rác 9

2.2.5 Thuật toán phân loại văn bản Bayes 10

3 Phân tích thiết kế cách tiếp cận đề xuất : 15

3.1 Khái niệm “Token”: 15

3.2 Vector thuộc tính : 15

3.3 Cách thực hiện : 16

4 Thử nghiệm và đánh giá hệ thống : 22

5 Kết luận : 26

6 Tài liệu tham khảo: 27

7 Phân công công việc trong nhóm 27

Trang 3

1 Đặt vấn đề:

Thời đại ngày nay là thời đại bùng nổ thông tin, Internet đã trở nên quen thuộc và khôngthể thiếu đối với mỗi quốc gia và xã hội Liên lạc qua Internet đã trở nên phổ biến, và email làmột phương tiện liên lạc có chi phí thấp, nhanh chóng và hiệu quả nhất trên Internet Hằng ngàymỗi người sử dụng email đều nhận được một lượng lớn email, tuy nhiên không phi tất cả cácemail mà ta nhận được đều chứa thông tin mà ta quan tâm Những email mà ta không muốn nhận

ấy là email Spam Ngược lại, những email không phải là spam gọi là non-spam – email hợp lệđược người dùng chấp nhận

Nhiều người trong chúng ta nghĩ rằng spam là một vấn đề mới, nhưng thực ra nó đã xuấthiện khá lâu – ít nhất là từ năm 1975 Vào lúc khởi thủy, người dùng hầu hết là các chuyên gia

về máy tính, họ có thể gửi hàng tá thậm chí hàng trăm email đến các nhóm tin (newsgroup) vàspam hầu như chỉ liên quan đến các email gửi đến các nhóm tin Usenet, gây ra tình trạng khôngthể kiểm soát được các email nhận Sau đó các biện pháp trừng trị về mặt xã hội và hành chính

đã có tác dụng, thủ phạm đã bị trừng phạt , công khai hay bí mật, những người này nhanh chóngđược đưa vào một danh sách, và một kỹ thuật lọc spam sớm nhất xuất hiện đó là ”bad sender” –lọc email của những người gởi được xem là xấu

WWW(World-Wide Web) đã mang thế giới Internet đến nhiều người, và hệ quả của nó lànhiều người không phải là chuyên gia trong thế giới máy tính cũng được tiếp xúc nhiều vớiInternet, nó cho phép truy cập đến những thông tin và dịch vụ mà trước đây là không được phép.Chỉ trong vòng 2-3 năm chúng ta đã chứng kiến sự bùng nổ số người sử dụng Internet và tấtnhiên là những cơ hội quảng cáo trên đấy Và spam đã phát triển một cách nhanh chóng từ đây,những kỹ thuật ngăn chặn spam trước đây đã không còn thích hợp Spam thường theo sau nhữngquảng cáo thương mại chèo kéo khách hàng ( những email quảng cáo thương mại được gửi màkhông có yêu cầu ) Spam đã và đang gây tác hại đến người sử dụng Internet và tốc độ đườngtruyền Internet Với người sử dụng email, spam gây cho họ cảm giác bực bội và phải mất thờigian và tiền bạc xóa chúng, đôi khi họ có thể bị mất những email quan trọng chỉ vì xóa nhầm, tốc

độ trên mạng xương sống của Internet (Internet Backbone) cũng bị spam làm cho chậm lại vì sốlượng spam được chuyển đi trên mạng là cực lớn Theo thống kê của ZDNet ở thời điểm năm

2004, mỗi ngày có khoảng 4 tỷ email spam được phát tán qua Internet, trên 40% lượng emailtrên mạng là spam, gần đây đã đạt con số 50% Cho dù được nhận diện là “kẻ thù của cộngđồng“(“public enemy”) Internet, nhưng spam đã và đang mang lại lợi nhuận Trong số 100.000email spam phát tán, chỉ cần một email có phản hồi là đã có thể bù đắp chi phí đầu tư

Để ngăn chặn spam, nhiều nhà khoa học, các tổ chức, các cá nhân đã nghiên cứu và pháttriển những kỹ thuật phân loại và lọc email, tuy nhiên các spammer – những người tạo nên spam

và phát tán chúng cũng tìm mọi cách vượt qua các bộ lọc này Cuộc chiến giữa các spammer và

Trang 4

những người chống spam vẫn còn đang tiếp diễn và dường như không có hồi kết Thực tế chothấy, nhu cầu có một phương pháp và công cụ chống spam hữu hiệu là rất cần thiết

Xuất phát từ thực trạng đó, nhóm BTL chọn hướng nghiên cứu “Xây dựng một chương

trình lọc thư rác bằng việc ứng dụng phương pháp phân loại văn bản Naive Bayes” “ với mục

đích tìm hiểu, thử nghiệm các phương pháp tiếp cận cho bài toán phân loại email, từ đó thực hiệnphân loại email giúp ngăn chặn email spam hiệu quả

Yêu cầu hệ thống:

Yêu cầu đối với một hệ thống phân loại email và ngăn chặn email spam đương nhiên làphân loại được email là spam hay non-spam, từ đó sẽ có biện pháp ngăn chặn email spam, hiệuquả phân loại email phải khách quan, tuy nhiên không thể đánh đổi hiệu quả phân loại emailspam cao mà bỏ qua lỗi sai cho rằng email non-spam là spam, bởi vì cùng với việc tăng khả năngphân loại email spam thì khả năng xảy ra lỗi nhận nhầm email non-spam thành email spam cũngtăng theo Do đó yêu cầu đối với một hệ thống phân loại email spam là phải nhận ra được emailspam càng nhiều càng tốt và giảm thiểu lỗi nhận sai email non-spam là email spam

2 Các cách tiếp cận để giải quyết vấn đề :

2.1 Các cách thức con người xử lý với spam :

Trên thế giơi đã có nhiều tổ chức, công ty phát triển nhiều cách thức khác nhau giảiquyết vấn đề spam Có nhiều hệ thống được xây dựng sẵn một “danh sách đen” (Blacklist ) chứacác tên miền mà từ đó spam được tạo ra và phát tán, và dĩ nhiên là các email đến từ các tên miềnnày hoàn toàn bị khóa (block out) Một số hệ thống căn cứ vào header của email (những trườngnhư nơi gửi (from ), tiêu đề (subject) ) và loại bỏ những email có địa chỉ xuất phát từ nhữngspammer (người phát tán spam) Vài hệ thống khác lại tìm kiếm trong nội dung của email, nhữngdấu vết cho thấy có sự tồn tại của spam chẳng hạn email có quá nhiều dấu than, số chữ cái đượcviết hoa nhiều một cách bất bình thường …

Tuy nhiên các spammer ngày càng tinh vi, vì thế các kỹ thuật dùng để chống spam cũngphải được cải tiến, và chính nhũng cải tiến này càng thôi thúc các spammer trở nên ranh ma vàtinh vi hơn… Kết quả là như hiện nay, các email spam gần như giống với một email thôngthường Tuy nhiên email spam có một điều không bao giờ thay đổi đó là bản chất của nó Bảnchất đó chính là mục tiêu quảng cáo sản phẩm hay dịch vụ Nó là cơ sở cho phương pháp lọcemail dựa trên nội dung (content based filtering).Theo đó, chúng ta cố gắng phát hiện ra cácngôn ngữ quảng cáo (sales-pitch language) thay vì chú ý đến các chỉ số thống kê của email chẳnghạn như có bao nhiêu lần xuất hiện chữ “h0t chixxx!” …

Một điều quan trọng cần phải cân nhắc đến khi lọc spam là cái giá phải trả khi lọc sai.Nếu một bộ lọc từ chối nhận hầu hết các email gửi đến hoặc đánh dấu một email thật sự quan

Trang 5

trọng nào đó là spam thì điều đó còn tệ hơn cả việc nhận tất cả email spam được gửi đến Ngượclại, nếu có quá nhiều email spam vượt được bộ lọc thì rõ ràng bộ lọc hoạt động không hiệu quả,không đáp ứng được yêu cầu của người sử dụng

Các phương pháp phân loại thư rác phổ biến hiện nay:

Tổ chức hợp tác phát triển kinh tế OECD (Organization for Economic Co-operatationDevelopment) khuyến nghị một số biện pháp đối phó với spam, trong đó có việc thông qua cácchế tài pháp lý quốc tế, đầu tư mạnh vào hệ thống lọc thư rác, thiết lập những trung tâm phảnứng nhanh liên kết các ISP (Internet service Provider) toàn cầu, đồng thời tăng cường các chiếndịch tuyên truyền cộng đồng về sự nguy hại và cách đối phó với thư rác Hiện giải pháp được sửdụng nhiều nhất là dùng các phần mềm tích hợp với hệ thống thư hoạt động theo cơ chế “lọctheo nội dung” và “lọc theo danh sách website chuyển tiếp” Một số công nghệ chống spam thú

vị đang được nghiên cứu:

1 Tem cho e-mail: Theo hai nhà nghiên cứu Fahlman và Mark Wegman thuộc Trung tâm

Nghiên cứu của IBM (International Business Machines) tại Watson, Mỹ, phương phápchống spam hiệu quả nhất là yêu cầu những người không có tên trong danh sách

“khách hàng thân thiết” của bạn phải mua tem cho mỗi email mà họ gửi cho bạn Mộtchương trình sẽ được đặt nằm giữa máy chủ email và máy tính cá nhân của khách hàng

để đối chiếu tên người gửi với danh sách khách hàng của bạn Những kẻ gửi thư rác sẽphải cân nhắc kỹ trước khi bấm “send” để gửi hàng loạt email

2 Cài mật mã: Bạn gửi email thông báo cho tất cả mọi người với một đoạn mật mã đã

được cài đặt sẵn trong email của bạn, và máy chủ email của ISP sẽ chỉ cho phép nhữngemail nào có đoạn mật mã này đi qua

3 Khai báo thông tin: Một chương trình sẽ chặn email từ những người lạ, và yêu cầu

cung cấp đầy đủ thông tin cá nhân trước khi chuyển email đến người nhận

4 Lọc email qua nội dung: Một chương trình sẽ thu thập thông tin nằm trong phần nội

dung của email để giúp cho các quản trị viên máy chủ email tách thư rác ra khỏi hệthống Phần mềm sẽ lướt qua toàn bộ thông điệp để tìm kiếm những từ khóa có liênquan đến thư rác Chẳng hạn nếu bạn không có nhu cầu mua điện thoại di động, bạnkhông mong muốn nhận được các bức thư quảng cáo bán điện thoại Vì vậy, “Nokia”

có thể là một từ khóa lọc thư quan trọng Các cơ chế lọc thư phức tạp hơn có thể lọcnguyên cả một đoạn mã lệnh đầu của thông điệp, những đoạn mã này bám theo suốtquá trình luân chuyển của email và cung cấp thông tin về chuyến đi đó Nếu một sitespam có tên trong lịch trình đó, phần mềm sẽ tự động chặn bức thông điệp lại

Trang 6

5 Lọc theo danh sách website chuyển tiếp: Một công nghệ lọc khác dựa trên danh sách

các site chuyển tiếp Công nghệ lọc này kiểm tra và chặn các thông điệp được truyền tảiqua những điểm chuyển tiếp mở rộng, tức là các hệ thống trên Internet cho phép người

sử dụng dùng chúng như những điểm quá cảnh thư Những kẻ tấn công bằng spam(spammer) thường xuyên sử dụng các điểm chuyển tiếp mở này để che dấu tung tíchxuất xứ của mình Trong nhiều trường hợp, tin tặc tận dụng các lỗ hổng bảo mật để “ralệnh” cho các máy chủ chuyển tiếp làm công việc của spammer

Đối với các email cá nhân thì phương pháp lọc thư rác phổ biến hiện nay là “phân loạiqua nội dung của các email” bằng việc ứng dụng các phương pháp phân loại văn bản Phân loạiemail thực chất là phương pháp “phân loại văn bản hai lớp” dựa vào nội dung của các emailđược gửi đến Trong đồ án này tôi xin trình bày một phương pháp phân loại văn bản khá phổbiến “Naive Bayes” và ứng dụng phương pháp này để phân loại các email cá nhân trong mộtEmail Client

2.2 Tổng quan về bài toán phân loại văn bản

2.2.1 Định nghĩa phân loại văn bản

Có nhiều cách định nghĩa khác nhau về phân loại văn bản nhưng nói một cách ngắn gọn

dễ hiểu: Phân loại văn bản là sự phân loại không cấu trúc các tài liệu văn bản dựa trên một tậphợp của một hay nhiều loại văn bản đã được định nghĩa trước Quá trình này thường được thựcthi bằng một hệ thống tự động gán cho các tài liệu văn bản một loại nào đó

Trong thực tế ứng dụng quan trọng nhất của phân loại văn bản là giới hạn phạm vi tìmkiếm thông tin (bởi thay cho việc phải lục soát tất cả các tài liệu họ chỉ tập trung vào một số loạivăn bản có liên quan đến thông tin mà họ cần tìm kiếm) Phân loại văn bản góp phần quan trọngtrong việc tổ chức thông tin và quản lí tài liệu Ứng dụng phổ biến nhất của phân loại văn bản làtrợ giúp cho việc tìm kiếm và lọc văn bản do đó tăng tốc độ truy cập thông tin Phân loại văn bảncũng đóng vai trò quan trọng trong việc đa dạng hóa và chuyên nghiệp hóa các công việc quản líthông tin như là: việc sắp xếp các loại thư điện tử hoặc các file trong các hệ thống, xác minh chủ

đề để trợ giúp cho các tiến trình hoạt động xử lí, tìm kiếm hay duyệt các cấu trúc, hoặc để tìmkiếm các loại tài liệu mà người dùng quan tâm Như vậy làm thế nào để phân loại văn bản? Câutrả lời sẽ được làm rõ khi ta đi sâu vào tìm hiểu tiến trình phân loại văn bản

2.2.2 Tiến trình phân loại văn bản

Vấn đề đặt ra cho các bài toán phân loại văn bản có thể bắt đầu như sau:

Đưa ra một tập tài liệu mẫu D, cần được phân bổ thành một số loại tài liệu nhất định mỗi tài liệu đó cần được gán cho một loại văn bản nào đó Nhiệm vụ của chúng ta là tìm một hệ

Trang 7

-Tập dữ liệu mẫu Tiền

thống phân hoạch, mà nó sẽ cung cấp cho ta một nhãn y phù hợp cho một số tài liệu trong D vừađược đưa vào từ nguồn tài nguyên giống nhau như các văn bản mẫu Tổng quát hơn với một hệthống phân loại điển hình như mô tả ở sơ đồ sau gồm có các tiến trình

Trong thực tế khâu tiền xử lí cũng chính là khâu lựa chọn đặc trưng cho các văn bản (đặctrưng ở đây là các dấu hiệu quan trọng để nhận biết văn bản) Có thể coi khâu này là tiền đề cầnthiết cho việc học một bộ phân loại Vì thế hiệu quả của các bộ phân loại văn bản phụ thuộc rấtcao vào tập các đặc trưng mà chúng ta sử dụng Trong các mô hình phân loại điển hình và phứctạp thường có một số các phương pháp có sẵn để lựa chọn đặc trưng Với những phương phápnày, tập hợp các dữ liệu thô được miêu tả bằng một số các tập hợp đặc trưng Chúng đặt ra mộtvấn đề là làm thế nào để sử dụng những đặc trưng ấy cho phân hoạch tài liệu Hiện nay có hai cơcấu tổ chức để giải quyết các vấn đề đó

Phương pháp thứ nhất: sử dụng các phương pháp lựa chọn đặc trưng để chọn ra một

đặc trưng tối ưu Nếu chọn ra được một đặc trưng tối ưu từ bộ dữ liệu thô ở đầu vào, chúng ta cóthể chỉ đơn thuần sử dụng nó để học một bộ phân loại như hình vẽ Tuy nhiên, quá trình tối ưu

đó không phải đơn giản Trong trường hợp này khi sử dụng các đặc trưng khác nhau vẫn có thể

sẽ dẫn đến các kết quả tương tự nhau hoặc là hiệu quả khác nhau Trong thực tế có rất nhiềunhững ví dụ như thế

Phương pháp thứ hai: sử dụng một tập hợp các đặc trưng phức hợp để đạt kết quả phân

loại cao hơn, đây là một trong những cải tiến quan trọng Điều đó nghĩa là ta không chỉ sử dụngmột đặc trưng để phân loại các tập tài liệu mà phải căn cứ vào tất cả các tập đặc trưng khác nhau

có trong tập tài liệu Sau đó phối hợp các đặc trưng đó để đưa ra một “vector phức hợp” của cáckhông gian đặc trưng cho các tập đặc trưng vừa chọn được, rồi mới tiến hành phân loại văn bản.Vấn đề cơ bản nhất của những phương pháp này là phác thảo các đặc trưng Do đó, việc học mộtphương pháp phân loại bao gồm hai công đoạn Phân hoạch đầu tiên sẽ được huấn luyện trên tậptài liệu mẫu và sau đó tổ hợp các sắp xếp này được huấn luyện trên một tập các phê chuẩn ngược

Trang 8

Tập dữ liệu mẫu Tiền xử lí

Chọn đặc trưng 1

Học một bộ

quả

Chọn đặc trưng k

.

Phân loại

lại Các nghiên cứu gần đây thể hiện rằng chính sự phối hợp của các phân hoạch được huấnluyện trên các đặc trưng khác nhau xảy ra như một kết quả có nghĩa đặc biệt đối với sự cải tiếncác hiệu quả Tuy vậy với một tập dữ liệu đủ lớn thường đòi hỏi phải qua hai chặng đường họctập Thêm vào đó sự phối hợp của các phương pháp phân hoạch cũng được thể hiện như một đặctrưng “lai” giữa nhiều cấu trúc module hoạt động trong các mức ưu tiên nhỏ hơn

Các bước trong tiến trình phân loại văn bản:

- Lựa chọn các đặc trưng văn bản

- Biểu diễn văn bản

- Học một bộ phân loại văn bản

- Tiến hành phân loại văn bản

Trong đó, lựa chọn đặc trưng văn bản là quá trình phân tích văn bản thành các từ hay cụm từ.Biểu diễn văn bản là cách thể hiện văn bản dưới dạng một vector mà không gian của nó là tậpcác đặc trưng đã lựa chọn Căn cứ vào các đặc trưng đã chọn có thể học một bộ phân loại vănbản như Naive Bayes hay kNN (k-nearest neighbor algorithm)… Đầu ra của quá trình này sẽ làmột máy dùng để phân loại các tài liệu cần thiết (tiến hành phân loại văn bản)

2.2.3 Các phương pháp phân loại văn bản

Trước đây khi văn bản còn lưu trữ trên giấy tờ, để phân loại các loại tài liệu chúng ta cầnmột đội ngũ nhân lực khá lớn Tuy nhiên sự phân loại của con người cũng chỉ là tương đối, trongkhi lượng thông tin tăng lên một cách chóng mặt thì sự phân loại tài liệu do con người đảmnhiệm chỉ có thể đáp ứng 0.1% lượng thông tin đó Còn bây giờ hầu hết các loại văn bản đều

Trang 9

được lưu trữ trên một cơ sở dữ liệu (lưu trữ trên máy tính), vì vậy tự động phân loại thông tinngày càng đóng vai trò quan trọng.

Dựa trên các đặc trưng của văn bản đã xuất hiện nhiều chiến lược phân loại văn bản đãđược đề xuất và áp dụng trong các tập tài liệu khác nhau Hiệu quả của các phương pháp đó tuychỉ là tương đối nhưng đã hỗ trợ rất nhiều trong truy cập, quản lí, lọc thông tin Các phương phápphân loại văn bản cho kết quả tốt thường được sử dụng là:

1 Nguyên mẫu (prototype)

2 Mô hình xác suất Naive Bayes

3 Phương pháp SVM (Support vectors Machines)

4 Phương pháp cây quyết định (Dicision Trees- Lewis and Ringuette, 1994)

5 Phương pháp mạng neuron (Neuron network - Wiener et al., 1995; Schutze et al., 1995)

Các mô hình xác suất của Naive Bayes

Kĩ thuật phân hoạch của Naive Bayes dựa trên cơ sở định lí Bayes và đặc biệt phù hợpcho các trường hợp phân loại có kích thước đầu vào là lớn Mặc dù Naive Bayes khá đơn giảnnhưng nó có khả năng phân loại tốt hơn rất nhiều phương pháp phân hoạch phức tạp khác Vớimỗi loại văn bản, thuật toán Naive Bayes tính cho mỗi lớp văn bản một xác suất mà tài liệu cầnphân hoạch có thể thuộc loại đó Tài liệu đó sẽ được gán cho lớp văn bản nào có xác suất caonhất

2.2.4 Bài toán phân loại thư rác

Phân loại thư rác thực chất là bài toán phân loại văn bản hai lớp, trong đó: tập tài liệumẫu ban đầu là các thư rác (spam) và các thư hợp lệ (ham), các văn bản cần phân lớp là cácEmail được gửi đến client Kết quả đầu ra của quá trình phân loại này là hai lớp văn bản:Spam(thư rác), Ham (thư hợp lệ) Mô hình phân loại thư rác tổng quát có thể mô tả như sau:

Trang 10

Tiến trình phân loại các thư điện tử trong máy lọc văn bản được biểu diễn như sau:

2.2.5 Thuật toán phân loại văn bản Bayes

Cơ sở của phương pháp phân loại văn bản Naive Bayes là chủ yếu dựa trên các giả địnhcủa Bayes Giả thuyết Bayes gán cho mỗi tài liệu văn bản cần phân loại một giá trị xác suất

Xác suất P(ck| di) gọi là xác suất mà tài liệu di có khả năng thuộc vào lớp văn bản ck đượctính toán như sau:

Trang 11

lí để giả thiết cho các đối tượng mới đó Trong phân tích của Naive Bayes lí do đó được gán chomột đại lượng đó là P ( Prior propability), P được xác định dựa vào các kinh nghiệm từ trước đó.Trong trường hợp này nó chính là tỉ lệ phần trăm của hai đối tượng GREEN và RED, chúngđược sử dụng để dự đoán kết quả trước khi chúng có thể xảy ra:

Theo cách đó chúng ta có:

Trang 12

Xác suất có thể của GREEN =

G T

Xác suất có thể của RED =

R T

Trong đó:

- G là Số đối tượng GREEN

- R là số đối tượng RED

- T là tổng số các đối tượngTrong ví dụ này theo hình vẽ ta có T = 60; G = 40; R = 20 Thì xác suất có thể của cácứng viên:

P(GREEN) =

40

60 P(RED) =

2060

Để có thể xây dựng một công thức xác định xác suất P chúng ta sẽ tiến hành phân loạicác đối tượng WHITE như hình vẽ Từ các đối tượng là các nhóm hợp lí, chúng ta có thể giảđịnh đối tượng đã cho thuộc đối tượng RED hoặc GREEN trong vùng lân cận của X, tốt hơn làcác đối tượng ta xét có thể thuộc vào màu đặc biệt đó Để giới hạn cho các khả năng có thể xảy

ra này chúng ta sẽ dựng thêm một đường tròn xung quanh X, nó sẽ bao quanh một số điểm màchúng ta sẽ không quan tâm là chúng thuộc đối tượng nào Sau đó chúng ta sẽ tính toán số cácđiểm thuộc vào mỗi loại GREEN và RED có trong vòng tròn, từ đó có thể tính được khả năng

có thể của X

Khả năng X thuộc GREEN =

G X G

Trang 13

Khả năng X thuộc RED =

R X R

Khả năng X thuộc GREEN là =

140

Khả năng thuộc RED là =

320

Mặc dù xác suất có thể biểu thị rằng X có thể thuộc GREEN (bằng cách so sánh hai xác suất có thể với nhau) nhưng khả năng biểu thị lại khác (rằng ứng viên X là RED) Trong phân tích

Bayes, phân hoạch cuối cùng được đưa ra bởi việc phối hợp cả hai nguồn thông tin, mức ưu tiên

và khả năng có thể hình thành xác suất “hậu nghiệm” (posterior probability) sử dụng gọi là luật

Bayes (tên sau của Rev Thomas Bayes 1702-1761)

Xác suất hậu nghiệm của X có thể thuộc GREEN

= Xác suất có thể của GREEN * Khả năng X thuộc GREEN

= Xác suất có thể của RED * Khả năng X thuộc RED

Ngày đăng: 23/10/2014, 23:22

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w