Với sự quan trọng của việc thu thập hành vi, và phân tích các hành vi của người dùng trên mạng xã hội như vậy nên em đã quyết định lựa chọn đề tài “PHÂN LOẠI NGƯỜIDUNG TREN MẠNG XÃ HỘI C
Trang 1HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG
LÊ ĐỨC CHUNG
NHU CAU DU LICH
Chuyên ngành: HE THONG THONG TIN
Mã số: 60.48.01.04
TOM TAT LUẬN VĂN THẠC SĨ
Hà Nội, 2015
Trang 2Người hướng dẫn khoa học: PGS TS TRAN DINH QUE
Phản biện Ï: Q0 0Q Q2 2n HH ng nh vn ro
Phản biện 2: - c0 0Q Q2 2n HH HH ng nh nh rxy
Luận văn sẽ được bảo vệ trước Hội đồng cham luận văn thạc sĩ tại Học viện Công nghệ
Bưu chính Viễn thông
Có thê tìm hiệu luận văn tại:
- Thư viện của Học viện Công nghệ Bưu chính Viễn thông
Trang 3MO DAU
Ngày nay, cùng với sự phát triển của công nghệ thông tin, một công cụ giúp kết nối
những con người với nhau, đặc biệt là tầng lớp trẻ tới trung niên chính là các trang mạng xã
hội Mạng xã hội, hay gọi là mạng xã hội ảo, (tiếng Anh: social network) là dịch vụ nối kết các
thành viên cùng sở thích trên Internet lại với nhau với nhiều mục đích khác nhau không phân
biệt không gian và thời gian.
Mạng xã hội có những tính năng như chat, e-mail, phim ảnh, voice chat, chia sẻ file,
blog và xã luận Mạng đổi mới hoàn toàn cách cư dân mạng liên kết với nhau và trở thành mộtphần tất yếu của mỗi ngày cho hàng trăm triệu thành viên khắp thế giới Các dịch vụ này cónhiều phương cách dé các thành viên tìm kiếm bạn bè, đối tác: dựa theo group (ví dụ như tên
trường hoặc tên thành phó), dựa trên thông tin cá nhân (như địa chỉ e-mail hoặc screen name),hoặc dựa trên sở thích cá nhân (như thé thao, phim ảnh, sách báo, hoặc ca nhac), lĩnh vực quan
tâm: kinh doanh, mua bán
Yahoo, Facebook, Twitter là những mang xã hội rat phố biến hiện nay Theo thống
kê năm 2014, trên thé giới có hơn một tỷ người sử dụng Facebook qua mạng internet và cóhơn 500 triệu người sử dụng Twitter [1] Như đã thấy lượng người sử dụng Facebook vàtwitter đã chiếm gần 1/3 dân số toàn cầu
Người dùng sử dụng mạng xã hội để chia sẻ với mọi người trên toàn thế giới các sởthích cá nhân, các cảm nghĩ của mình về một vấn dé nao đó Từ đặc tính của mạng xã hội nhưvậy nó tạo nên một loạt hành vi của người sử dụng mạng xã hội như đăng tải bài viết, chia sẻthông tin, thích một sự kiện, quan tâm tới một van dé nào đó Với số lượng người sử dụngđông đảo và số lượng thông tin được tạo ra bởi các hành vi của người dùng xã hội là một khối
lượng thông tin không lô mà các nhà nghiên cứu có thê nghiên cứu nhắm tạo ra môi liên hệ
Trang 4giữa các thông tin, dự đoán chuỗi hành vi người sử dụng mạng xã hội nhằm phục vụ cho rất
nhiều mục đích khác nhau như định hướng chiến lược marketing, định hướng xu thế xã hội
Với sự quan trọng của việc thu thập hành vi, và phân tích các hành vi của người dùng
trên mạng xã hội như vậy nên em đã quyết định lựa chọn đề tài “PHÂN LOẠI NGƯỜIDUNG TREN MẠNG XÃ HỘI CHO NHU CAU DU LỊCH” để nghiên cứu trong luận văn
này.
Nghiên cứu về các kỹ thuật khai phá dữ liệu phân loại dữ liệu (Classification) Gia sử
rằng các hành vi của người sử dụng chủ yếu phụ thuộc vào các yếu tổ các tin tức và bài viết từbạn bè của người sử dụng mạng xã hội, các sở thích của người dùng được thê hiện trên mạng
xã hội từ đó xây dựng ứng dụng dé thu thập các thông tin trên từ mạng xã hội Twitter sau đó
thực hiện khai phá bằng các kỹ thuật phân loại dữ liệu (Classification) Nhằm tạo ra các trithức có giá trị, từ đó chứng tỏ rằng mọi hành vi của người dùng xã hội đều chứa thông tin cóích và đánh giá được nhu cầu du lịch của người dùng mạng xã hội thông qua các hành vi trên
mạng xã hội.
Mục đích của quá trình nghiên cứu:
Nghiên cứu ứng dụng thuật toán SVM (support machine learrning) và Naive Bayes déphân loại người dùng trên mạng xã hội cho nhu cầu du lịch
Thực nghiệm việc ứng dụng thuật toán đối với dữ liệu thật
Kết quả thu được của quá trình nghiên cứu cho thấy mọi hành vi của người dùng mạng
xã hội đều có một đặc điểm nhất định có thê phân loại được Kết quả của quá trình phân loạitrong đề tài này sẽ giúp xác định được nhu cầu du lịch của người dùng mạng xã hội, các địađiểm thu hút
Trang 5Ngoài phân mở đâu va kết luận, luận văn duoc chia làm 3 chương, cụ thê nội dung các
chương như sau:
Chương 1: “Tông quan vé mạng xã hội và khai phá dữ liệu trên mạng xã hội” Chương
này của luận văn di vào những khái niệm tông quan vê mang xã hội, lịch sử hình thành và phát
triển của mạng xã hội.các khái niệm cơ bản vê khai phá dữ liệu, vai trò của việc khai phá dữ
liệu trên mạng xã hội, cách tiêp cận nghiên cứu về khai phá dữ liệu trên mạng xã hội.
Chương 2: “Bài toàn phân loại người dùng mạng xã hội cho nhu cầu du lịch” Chương
này của luận văn nói về bài toán phân loại người dùng mạng xã hội cho nhu cầu du lịch, mục
đích của bài toán là sử dụng phương pháp phân loại dữ liệu, cụ thể là sử dụng thuật toán SVM
(support vector machine) va Naive Bayes dé tìm ra các địa điểm du lịch nổi bật, cảm xúc củangười dùng về các điểm du lich đó và nhu cầu du lịch của người dùng mang xã hội twitter, so
sánh kết quả thu được đối với mỗi thuật toán
Chương 3: “Thực nghiệm, kết quả đánh giá” Chương này của luận văn nói về việc xây
dựng chương trình mô phỏng thuật toán SVM (support vector machine) va Naive Bayes dégiải quyết bài toán được nêu ở chương 2, các kết quả thu được và đánh giá sau thực nghiệm
Trang 6CHUONG 1: TONG QUAN VE MẠNG XÃ HỘI VÀ KHAI PHA DU
LIEU TREN MANG XA HOI
1.1 Tổng quan về mang xã hội
1.11 Mang xã hội và cá khái niệm
Mạng xã hội là các web site mở được sử dụng để kết nối những người dùng có cùng sởthích nhằm những mục đích khác nhau bắt kế không gian và thời gian, và nội dung của mạng
xã hội hoàn toàn do người sử dụng tạo ra.
Mạng xã hội dựa trên một câu trúc cô định, nó cho phép người dùng thê hiện cá tính
của mình, và gặp gỡ được những người có cùng sở thích, cùng môi quan tâm Câu trúc này
bao gồm hồ sơ người dùng, bạn bè, các bài viết, bai đăng, các ứng dụng hỗ trợ
1.12 Lịch sử hình thành mang xã hội
Các trang mang xã hội hiện nay như Facebook, Twitter, đã trở thành công cụ thông
tin liên lạc và chia sẻ cộng đồng phổ biến đối với hàng tỷ người trên thé giới Kết nối và chia
sẻ thông tin trực tuyến là nhu cầu của tất cả mọi người trên thế giới Trong quá khứ mạng xãhội luông đồng hành cùng sự phát triển của internet từ những email đầu tiên được gửi đi bởi
các nhà nghiên cứu Thụy Sĩ vào năm 1971 đến những mạng xã hội hiện đại như Google++
hay Twitter.
1.13 Vai trò của mạng xã hội trong cuộc sống hiện đại
Tính tương tác mạnh mẽ của các trang mạng xã hội khiến cho thế giới rộng lớn nhưngnhững con người ở khắp mọi nơi trên thế giới được kết nỗi, chia sẻ với nhau Vì vậy họ trởthành bè bạn chỉ trong chốc lát và họ có thêm nhiều bè bạn Vì vậy tiếng nói của họ được lantỏa Niềm vui hay nỗi buồn, những suy tư của họ có mức độ lan tỏa và được chia sẻ mà khôngmột hình thức nào có thể sánh bằng Mạng xã hội tạo nên một môi trường phát triển thươngmại điện tử mạnh mẽ nơi mà các nhà cung cấp dịch vụ có thé tiếp cận với người dùng mộtcách nhanh nhất có thé Ngoài ra mạng xã hội đã tạo ra một kênh nghiên cứu cho các nhà khoahọc rất nhiều các nghiên cứu đã được thực hiện dựa vào dir liệu người dùng đã tạo ra trên
mạng xã hội nhưng vẫn chỉ là một góc nhỏ của mạng xã hội.
Trang 71⁄2 Tổng quan khai phá dữ liệu mạng xã hội
1.2.1 Khai phá dữ liệu và các khái niệm
Khai phá dữ liệu là một tập hợp các kỹ thuật được sử dụng để tự động khai thác và tìm
ra các mối quan hệ lẫn nhau của dit liệu trong một tập dữ liệu không 16 và phúc tạp, đồng thời
cũng tim ra các mẫu tiềm ấn trong tập dữ liệu đó
- Khai phá dữ liệu là một trong bảy bước của quá trình khám phá tri thức với thứ
tự như sau:
- Lam sạch và tiền xử lý dữ liệu (data clearning and preprocessing): loại bỏ các
dữ liệu không cần thiết
- _ Tích hợp dit liệu (data integration) đây là quá trình hợp nhất dữ liệu thành kho
dữ liệu (data warehouses and data marts) sau khi đã làm sạch và tiền xử lý
- - Trích chọn dữliệu (data selection): trích chọn dữ liệu từ những khodữ liệu va
sau đó chuyền đổi về dạng thích hợp cho quá trình khai thác tri thức Quá trìnhnày bao gồm cảviệc xử lý với dit liệu nhiễu (noisy data), dữ liệu không đầy đủ
(incomplete data), v.v.
- Chuyén đối dit liệu: Các dữ liệu được chuyền đổi sang các dang phù hợp cho
quá trình xử lý.
- Khai phá dit liệu(data mining): Là một trong các bước quan trọng nhất, trong đó
sử dụng những phương pháp thông minh déchat lọc ra những mẫu dữ liệu
- _ Ước lượng mau (knowledge evaluation): Quá trình đánh giá các kết quả tìm
được thông qua các độ đo nào đó.
- Biéu diễn tri thức (knowledge presentation): Quá trình này sử dụng các kỹ thuật
để biểu diễn va thé hiện trực quan cho người dùng
1.2.2 Vai trò của khai phá dữ liệu trên mang xã hội
Sự bùng no của mang xã hội dẫn tới khối lượng người sử dụng mạng xã hội ngày càng
tăng và khối lượng dữ liệu mà người sử dụng sinh ra tăng lên theo từng giờ Những năm gan
Trang 8đây thì mạng xã hội được xem như một kênh khoa học, thông tin kinh tế, thương mại và dịch
vụ di đôi với những blog cá nhân của người sử dụng, sự dễ dang của việc tạo ra thông tin của mạng xã hội tạo nên sự đa dạng và số lượng lớn thông tin được lưu trữ dẫn tới việc quá tải
thông tin, người dùng sẽ khó có thể tìm kiếm được những thông tin có ích mà mình cần thiết.Việc khai phá tri thức trên mạng xã hội nhằm mục đích giải quyết bài toán bùng né thông tin
trên mạng xã hội hiện nay.
Ngày nay, các công nghệ data mining được ứng dụng rộng rãi trong các công ty lẫykhách hàng làm trungtâm như truyền thông, tài chính, marketing, bán hàng, các nghành côngnghiệp sản xuất v.v Nó cho phép các công ty xác định được các mối quan hệ giữacác yếu tố
nội tại như giá thành, mẫu mã, cách thức quảng cáo, thậm chí là kỹ năng của nhân viên công
ty các yếu tô bên ngoài như đối thủ cạnh tranh, chính sách kinh tế hay nhu cầu thị trường
v.v Và nó còn hỗ trợ việc xác định được sự tác động của các chính sách khuyến mại, giảm
giá, độ hài lòng của khách hàng và lợi nhuận của doanh nghiệp
12.3 Một số kỹ thuật khai phá dữ liệu chính
1.2.3.1 Sự kết hop (Association)
Sự kết hop (hay mối quan hệ) có lẽ là kỹ thuật khai phá dit liệu được biết đến nhiều hon
cả, sự kết hợp rất quen thuộc và đơn giản Ở đây, khai phá dữ liệu thực hiện một sự tương
quan đơn giản giữa hai hoặc nhiều mục, thường cùng kiểu để nhận biết các mẫu Ví dụ, khi
theo dõi thói quen mua hàng của người dân, thì có thé nhận biết rằng một khách hàng luônmua kem khi họ mua dâu tây, nên có thê đề xuất răng lần tới khi họ mua dâu tây, họ cũng có
thé muốn mua kem
1.2.3.2 Sự phân loại (Classification)
Mục tiêu của phương pháp phân loại đữ liệu là dự đoán nhãn lớp cho các mẫu dữ liệu,
quá trình phân nhãn dữ liệu gồm 2 bước: cây dựng mô hình va dựng mô hình dé phân loại dữ
liệu.
1.2.3.3 Sự phân cum (Clustering)
Bằng cách xem xét một hay nhiều thuộc tính hoặc các lớp, kỹ thuật khai phá dữ liệu
này có thé nhóm các phân dữ liệu riêng lẻ với nhau dé tạo thành một quan diém câu trúc Ở
Trang 9mức đơn giản, việc phân cụm đang sử dụng một hoặc nhiều thuộc tính làm cơ sở cho nhómcác kết quả tương quan dé ràng được nhận ra Việc phân cụm giúp dé nhận biết các thông tinkhác nhau vì nó tương quan với các ví dụ khác, nên kết quả cho thấy có những điểm tươngđồng và các phạm vi phù hợp.
1.2.3.4 Dự báo (Prediction)
Dự báo là một chủ đề rộng và đi từ dự báo về lỗi của các thành phần hay máy móc đếnviệc nhận ra sự gian lận và thậm chí là cả dự báo về lợi nhuận của công ty nữa Được sử dụngkết hợp với các kỹ thuật khai phá dữ liệu khác, dự báo gồm có việc phân tích các xu hướng,phân loại, so khớp mẫu và mối quan hệ Bang cách phân tích các sự kiện hoặc các cá thé trong
quá khứ, bạn có thé đưa ra một dự báo về một sự kiện
1.2.3.5 Các mẫu tuần tự (Sequential patterns)
Liên quan đến hầu hết các kỹ thuật khác (chủ yếu là phân loại va dự báo), cây quyếtđịnh có thé được sử dụng hoặc như là một phần trong các tiêu chí lựa chọn hoặc dé hỗ trợ việc
sử dụng và lựa chọn dữ liệu cụ thé bên trong cấu trúc tổng thé Trong cây quyết định, ban bắt
đầu băng một câu hỏi đơn giản có hai câu trả lời (hoặc đôi khi có nhiều câu trả lời hơn) Mỗicâu trả lời lại dẫn đến thêm một câu hỏi nữa dé giúp phân loại hay nhận biết dit liệu sao cho cóthé phân loại dữ liệu hoặc sao cho có thể thực hiện dự báo trên cơ sở mỗi câu trả lời
1.2.3.6 Cây quyết định (Decision trees)
Các cây quyết định thường được sử dụng cùng với các hệ thống phân loại liên quan đếnthông tin có kiểu thuộc tính và với các hệ thong dự báo, noi các dự báo khác nhau có thé dựatrên kinh nghiệm lich sử trong quá khứ dé giúp hướng dẫn cấu trúc của cây quyết định và kếtquả đầu ra
1.2.3.7 Các tổ hop (Combinations)
Trong thực tế, hiếm khi chi sử dụng một kỹ thuật trong số những kỹ thuật riêng biệt
trên để khai phá dữ liệu Việc phân loại và phân cụm là những kỹ thuật giống nhau Nhờ sử
dụng việc phân cụm dé nhận ra các thông tin lân cận gần nhất, chúng ta có thể tiếp tục tinhchỉnh việc phân loại của mình Thông thường, chúng ta sử dụng các cây quyết định dé giúp
Trang 10xây dựng và nhận ra các loại mà chúng ta có thé theo dõi chúng trong một thời gian dài dénhận biết các trình tự và các mẫu
13 Kết luận chương
Trong chương một của luận văn học viên đã tìm hiểu về những khái niệm tổng quannhất về mạng xã hội, về khái niệm mạng xã hội, lịch sử hình thành mạng xã hội và ý nghĩa củamạng xã hội trong cuộc sống hiện đại Qua đó có những kiến thức cơ bản về mạng xã hội dé sử
dụng cho việc tách lọc các thông tin thu thập được phục vụ cho việc phân tích bài toán ở
chương hai Ngoài ra ở chương một học viên đa tìm hiểu về các khái niệm của khai phá dữ
liệu, các phương pháp chính đề khai phá dit liệu, tìm hiểu về ý nghĩa của việc khai phá dit liệu
trên mạng xã hội qua đó làm rõ hơn mục đích, ý nghĩa của luận văn.
Trang 11CHƯƠNG 2: BÀI TOÁN PHAN LOẠI NGƯỜI DUNG MẠNG
XÃ HỘI CHO NHU CẢU DU LỊCH
Trong vài năm qua, Twitter đã trở thành một dịch vụ mạng xã hội lớn Tại hội nghị
phát triển Twitter Chirp vào tháng 4 năm 2010 các công ty này đã trình bày một số thống kê vềtrang web của mình như số lượng người sử dụng Twitter tính tới năm 2010 là 106 triệu tài
khoản và lượng truy cạp mỗi ngày là 180 triệu mỗi tháng và cứ mỗi ngày lại có thêm khoảng
300000 tài khoản mới được đăng ký Với mỗi tweet có độ dài 140 ký tự đường như là những thông tin rời rạc không có nghĩa, nhưng với hàng tỷ ký tự được tạo ra mỗi ngày trên twitter thì
đây là một nguồn thông tin to lớn có thê khai thác
Với nguồn thông tin to lớn này cộng với sức mạnh của công nghệ hiện này chúng ta cónhiều cách tiếp cận và phân tích các thông tin mà người dùng mạng xã hội Twitter đem lại
Ngoài ra trong thé giới hiện đại ngày nay việc du lịch đã trở nên vô cùng phổ biến đối với xã
hội do nhu cầu cuộc sống ngày càng nâng cao và thu nhập của con người ngày càng lớn hơn sovới những nhu cầu cơ bản, chính do nhu cầu du lịch tăng cao nên việc nắm bắt cảm xúc du
khách khi nói về các địa điểm du lịch rất được chú ý là một vấn đề rất được quan tâm Trong
luận văn này van đề được đặt ra là làm sao dé phân loại được người dùng mạng xã hội Twitterdựa theo cảm nhận của họ về các địa điểm du lịch nổi tiếng dựa trên các tweet từ những ngườidùng mạng xã hôi Twitter Y tưởng của luận văn là sử dụng phương pháp SVM (supportvector machine) và phương pháp Naive Bayes trong phân loại dư liệu với dữ liệu được lấy từ
các tweet có các has tag là các địa danh du lịch được định sẵn.
2.1 Chuẩn bị dữ liệu
Đề phục vụ cho việc phân loại cảm xúc của người dùng xã hội Twitter đối với các địadanh du lịch chúng ta cần thu thập dữ liệu trên Twitter, các dữ liệu sẽ được chọn bằng cách tìmkiếm theo hastag các hastag chính là tên các địa danh du lịch, ngoài ra với cảm xúc của người
dùng đôi với các định danh này sẽ được quy định làm 2 loại cảm xúc là tích cực và tiêu cực.
2.2 Các kỹ thuật phân loại dữ liệu được áp dung
Trang 12Sau khi thu thập được các dữ liệu từ mạng xã hội Twitter thì những dữ liệu này sẽ được
sử dụng để đào tạo một dữ liệu phân loại với các thuật toán Navie Bayes và SVM(supportvector machine) với mỗi loại chúng ta sẽ trích xuất ra các tính năng tương tự và phân loại
ba tiếng, unigrams và bigrams cho từ có một tiếng và hai tiếng Tách từ trong tiếng Việt,
uni-grams và bi-grams rat thường được sử dụng.
Nhằm tạo một cơ sở dữ liệu các cum từ để có thé được dùng cho việc hoàn chỉnh phầncâu truy van của người dùng, em trích xuất tat cả N-grams theo thứ tự 1, 2 và 3 (unigrams,
bigrams và trigrams) từ tập các văn bản mà máy tìm kiếm có Ta cũng có thể trích xuất thứ tự
N-grams cao hơn nhưng số lượng các N-grams có khả năng tăng theo cấp số nhân với thứ tự N
và như vậy thì có quá nhiều N-grams Hơn nữa, trong khi trích xuất N-grams, ta còn chú ý đặc
biệt tới từ dừng (stop word).
Có nhiêu từ mà mật độ xuât hiện cao nhưng không mang ý nghĩa cụ thê nào mà chỉ là
những từ nôi, từ đệm hoặc chỉ mang sắc thái biêu cảm như những từ láy Ví dụ các từ: a, an,
the, about, with, on trong tiếng Anh và các từ: là , sẽ, cùng, tới trong tiếng Việt
2.2.1.2 Unigrams
Một unigram chỉ đơn giản là một N-gram với kích thước một, hoặc một từ duy nhất.Đối với mỗi từ duy nhất trong một tweet, một tinh năng unigram được tạo ra cho bộ phân loại
Ví dụ, nếu một tweet dương chứa từ "thị trường", một tính năng phân loại sẽ có hay không
một tweet chứa từ "thi trường” Ké từ khi tinh năng đến từ một tweet tích cực, phân loại sẽ cónhiều khả năng dé phân loại khác tweets có chứa từ "thị trường" là tích cực
2.2.1.3 Từ điển từ vựng ngoại vi
Trang 13Chúng ta sẽ cung cấp cho các tính năng từ từ điển từ vựng bên ngồi thứ được gọi là
sentiStrength, đĩ là một danh sách các từ được định nghĩa trước với một tình cảm tiêu cực hay
tích cự Dữ liệu của nĩ được áp dụng cho các đoạn văn ngắn Việc đưa từ điển ngoại VISentiStrength cho phép một vùng phủ sĩng rộng hơn cĩ thé bao phủ được hết các từ mà chúng
ta cĩ thé bỏ sĩt với cách thu thập thong thường
2.2.2 Cơ sở lý thuyết về Navie Bayes
Là 1 phương pháp phân loại cĩ giám sát Dù rất dễ hiéu và dé cài đặt, nhưng kết quả thuđược lại rất tốt, vì thé đây là 1 phương pháp rất quan trọng trong Nghiên cứu ngơn ngữ tự
nhiên Ứng dụng đầu tiên trong xử lý ngơn ngữ tự nhiên của máy phân loại này là phân loại
văn bản Gần đây, máy phân loại này cịn được ứng dụng thành cơng vào phần mềm lọc spam
tự động.
Phân lớp Nạve Bayes giả định rằng sự hiện diện hoặc văng mặt của một đặc tính là độclập với sự hiện diện và vắng mặt của các đặc tính khác, mà được quy định bởi các tham sốphân lớp, ví dụ: một loại trái cây được phân lớp là trái táo nêu nĩ màu đỏ, trịn, cĩ đường kính
3 decimet Một phân lớp Naive Bayes xem xét các đặc tính này tham gia một cách độc lập déxác định xác suất mà loại trái cây này là quả táo, bat ké sự hiện diện hay vắng mặt của các đặctính khác.Đối với một số mơ hình xác suất, phân lớp Naive Bayes cĩ thé được huân luyện mộtcách hiệu quả trong mơi trường học cĩ giám sát Trong nhiều ứng dụng thực tế, ước lượngthâm số cho mơ hình Naive Bayes sử dụng phương pháp hợp lý cực đại, nghĩa là khi sử dụng
mơ hình Naive Bayes ta phải chấp nhận xác suất Bayes Mặc dù sử dụng các giả định tươngđối đơn giản, nhưng phân lop Naive Bayes cĩ thé áp dụng rat tốt trong nhiều trường hợp phứctạp trong thế giới thực.Một ưu điểm của mơ hình Naive Bayes là chỉ cần sử dụng khối lượng
nhỏ dit liệu huấn luyện dé ước lượng các tham số cần thiết dé phân lớp Bởi vì các biến độc lập
được giả định, chỉ cĩ sự thay đổi các biến cho mỗi lớp cần được xác định chứ khơng phải trên
tồnbộ hiệp phương sai.
Navie Bayes là phương pháp phân loại dựa vào xác suất được sử dụng rộng rãi tronglĩnh vực máy học, được sử dụng lần đầu tiên trong lĩnh vực phân loại bởi Maron vào năm
1961 sau đĩ trở nên phố biến dùng trong nhiều lĩnh vực như trong các cơng cụ tìm kiếm, các
bộ lọc email