Phân loại người dùng trên mạng xã hội cho nhu cầu du lịch

Với sự quan trọng của việc thu thập hành vi, và phân tích các hành vi của người dùng trên mạng xã hội như vậy nên em đã quyết định lựa chọn đề tài “PHÂN LOẠI NGƯỜIDUNG TREN MẠNG XÃ HỘI C

Trang 1

HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG

LÊ ĐỨC CHUNG

NHU CAU DU LICH

Chuyên ngành: HE THONG THONG TIN

Mã số: 60.48.01.04

TOM TAT LUẬN VĂN THẠC SĨ

Hà Nội, 2015

Trang 2

Người hướng dẫn khoa học: PGS TS TRAN DINH QUE

Phản biện Ï: Q0 0Q Q2 2n HH ng nh vn ro

Phản biện 2: - c0 0Q Q2 2n HH HH ng nh nh rxy

Luận văn sẽ được bảo vệ trước Hội đồng cham luận văn thạc sĩ tại Học viện Công nghệ

Bưu chính Viễn thông

Có thê tìm hiệu luận văn tại:

- Thư viện của Học viện Công nghệ Bưu chính Viễn thông

Trang 3

MO DAU

Ngày nay, cùng với sự phát triển của công nghệ thông tin, một công cụ giúp kết nối

những con người với nhau, đặc biệt là tầng lớp trẻ tới trung niên chính là các trang mạng xã

hội Mạng xã hội, hay gọi là mạng xã hội ảo, (tiếng Anh: social network) là dịch vụ nối kết các

thành viên cùng sở thích trên Internet lại với nhau với nhiều mục đích khác nhau không phân

biệt không gian và thời gian.

Mạng xã hội có những tính năng như chat, e-mail, phim ảnh, voice chat, chia sẻ file,

blog và xã luận Mạng đổi mới hoàn toàn cách cư dân mạng liên kết với nhau và trở thành mộtphần tất yếu của mỗi ngày cho hàng trăm triệu thành viên khắp thế giới Các dịch vụ này cónhiều phương cách dé các thành viên tìm kiếm bạn bè, đối tác: dựa theo group (ví dụ như tên

trường hoặc tên thành phó), dựa trên thông tin cá nhân (như địa chỉ e-mail hoặc screen name),hoặc dựa trên sở thích cá nhân (như thé thao, phim ảnh, sách báo, hoặc ca nhac), lĩnh vực quan

tâm: kinh doanh, mua bán

Yahoo, Facebook, Twitter là những mang xã hội rat phố biến hiện nay Theo thống

kê năm 2014, trên thé giới có hơn một tỷ người sử dụng Facebook qua mạng internet và cóhơn 500 triệu người sử dụng Twitter [1] Như đã thấy lượng người sử dụng Facebook vàtwitter đã chiếm gần 1/3 dân số toàn cầu

Người dùng sử dụng mạng xã hội để chia sẻ với mọi người trên toàn thế giới các sởthích cá nhân, các cảm nghĩ của mình về một vấn dé nao đó Từ đặc tính của mạng xã hội nhưvậy nó tạo nên một loạt hành vi của người sử dụng mạng xã hội như đăng tải bài viết, chia sẻthông tin, thích một sự kiện, quan tâm tới một van dé nào đó Với số lượng người sử dụngđông đảo và số lượng thông tin được tạo ra bởi các hành vi của người dùng xã hội là một khối

lượng thông tin không lô mà các nhà nghiên cứu có thê nghiên cứu nhắm tạo ra môi liên hệ

Trang 4

giữa các thông tin, dự đoán chuỗi hành vi người sử dụng mạng xã hội nhằm phục vụ cho rất

nhiều mục đích khác nhau như định hướng chiến lược marketing, định hướng xu thế xã hội

Với sự quan trọng của việc thu thập hành vi, và phân tích các hành vi của người dùng

trên mạng xã hội như vậy nên em đã quyết định lựa chọn đề tài “PHÂN LOẠI NGƯỜIDUNG TREN MẠNG XÃ HỘI CHO NHU CAU DU LỊCH” để nghiên cứu trong luận văn

này.

Nghiên cứu về các kỹ thuật khai phá dữ liệu phân loại dữ liệu (Classification) Gia sử

rằng các hành vi của người sử dụng chủ yếu phụ thuộc vào các yếu tổ các tin tức và bài viết từbạn bè của người sử dụng mạng xã hội, các sở thích của người dùng được thê hiện trên mạng

xã hội từ đó xây dựng ứng dụng dé thu thập các thông tin trên từ mạng xã hội Twitter sau đó

thực hiện khai phá bằng các kỹ thuật phân loại dữ liệu (Classification) Nhằm tạo ra các trithức có giá trị, từ đó chứng tỏ rằng mọi hành vi của người dùng xã hội đều chứa thông tin cóích và đánh giá được nhu cầu du lịch của người dùng mạng xã hội thông qua các hành vi trên

mạng xã hội.

Mục đích của quá trình nghiên cứu:

Nghiên cứu ứng dụng thuật toán SVM (support machine learrning) và Naive Bayes déphân loại người dùng trên mạng xã hội cho nhu cầu du lịch

Thực nghiệm việc ứng dụng thuật toán đối với dữ liệu thật

Kết quả thu được của quá trình nghiên cứu cho thấy mọi hành vi của người dùng mạng

xã hội đều có một đặc điểm nhất định có thê phân loại được Kết quả của quá trình phân loạitrong đề tài này sẽ giúp xác định được nhu cầu du lịch của người dùng mạng xã hội, các địađiểm thu hút

Trang 5

Ngoài phân mở đâu va kết luận, luận văn duoc chia làm 3 chương, cụ thê nội dung các

chương như sau:

Chương 1: “Tông quan vé mạng xã hội và khai phá dữ liệu trên mạng xã hội” Chương

này của luận văn di vào những khái niệm tông quan vê mang xã hội, lịch sử hình thành và phát

triển của mạng xã hội.các khái niệm cơ bản vê khai phá dữ liệu, vai trò của việc khai phá dữ

liệu trên mạng xã hội, cách tiêp cận nghiên cứu về khai phá dữ liệu trên mạng xã hội.

Chương 2: “Bài toàn phân loại người dùng mạng xã hội cho nhu cầu du lịch” Chương

này của luận văn nói về bài toán phân loại người dùng mạng xã hội cho nhu cầu du lịch, mục

đích của bài toán là sử dụng phương pháp phân loại dữ liệu, cụ thể là sử dụng thuật toán SVM

(support vector machine) va Naive Bayes dé tìm ra các địa điểm du lịch nổi bật, cảm xúc củangười dùng về các điểm du lich đó và nhu cầu du lịch của người dùng mang xã hội twitter, so

sánh kết quả thu được đối với mỗi thuật toán

Chương 3: “Thực nghiệm, kết quả đánh giá” Chương này của luận văn nói về việc xây

dựng chương trình mô phỏng thuật toán SVM (support vector machine) va Naive Bayes dégiải quyết bài toán được nêu ở chương 2, các kết quả thu được và đánh giá sau thực nghiệm

Trang 6

CHUONG 1: TONG QUAN VE MẠNG XÃ HỘI VÀ KHAI PHA DU

LIEU TREN MANG XA HOI

1.1 Tổng quan về mang xã hội

1.11 Mang xã hội và cá khái niệm

Mạng xã hội là các web site mở được sử dụng để kết nối những người dùng có cùng sởthích nhằm những mục đích khác nhau bắt kế không gian và thời gian, và nội dung của mạng

xã hội hoàn toàn do người sử dụng tạo ra.

Mạng xã hội dựa trên một câu trúc cô định, nó cho phép người dùng thê hiện cá tính

của mình, và gặp gỡ được những người có cùng sở thích, cùng môi quan tâm Câu trúc này

bao gồm hồ sơ người dùng, bạn bè, các bài viết, bai đăng, các ứng dụng hỗ trợ

1.12 Lịch sử hình thành mang xã hội

Các trang mang xã hội hiện nay như Facebook, Twitter, đã trở thành công cụ thông

tin liên lạc và chia sẻ cộng đồng phổ biến đối với hàng tỷ người trên thé giới Kết nối và chia

sẻ thông tin trực tuyến là nhu cầu của tất cả mọi người trên thế giới Trong quá khứ mạng xãhội luông đồng hành cùng sự phát triển của internet từ những email đầu tiên được gửi đi bởi

các nhà nghiên cứu Thụy Sĩ vào năm 1971 đến những mạng xã hội hiện đại như Google++

hay Twitter.

1.13 Vai trò của mạng xã hội trong cuộc sống hiện đại

Tính tương tác mạnh mẽ của các trang mạng xã hội khiến cho thế giới rộng lớn nhưngnhững con người ở khắp mọi nơi trên thế giới được kết nỗi, chia sẻ với nhau Vì vậy họ trởthành bè bạn chỉ trong chốc lát và họ có thêm nhiều bè bạn Vì vậy tiếng nói của họ được lantỏa Niềm vui hay nỗi buồn, những suy tư của họ có mức độ lan tỏa và được chia sẻ mà khôngmột hình thức nào có thể sánh bằng Mạng xã hội tạo nên một môi trường phát triển thươngmại điện tử mạnh mẽ nơi mà các nhà cung cấp dịch vụ có thé tiếp cận với người dùng mộtcách nhanh nhất có thé Ngoài ra mạng xã hội đã tạo ra một kênh nghiên cứu cho các nhà khoahọc rất nhiều các nghiên cứu đã được thực hiện dựa vào dir liệu người dùng đã tạo ra trên

mạng xã hội nhưng vẫn chỉ là một góc nhỏ của mạng xã hội.

Trang 7

1⁄2 Tổng quan khai phá dữ liệu mạng xã hội

1.2.1 Khai phá dữ liệu và các khái niệm

Khai phá dữ liệu là một tập hợp các kỹ thuật được sử dụng để tự động khai thác và tìm

ra các mối quan hệ lẫn nhau của dit liệu trong một tập dữ liệu không 16 và phúc tạp, đồng thời

cũng tim ra các mẫu tiềm ấn trong tập dữ liệu đó

- Khai phá dữ liệu là một trong bảy bước của quá trình khám phá tri thức với thứ

tự như sau:

- Lam sạch và tiền xử lý dữ liệu (data clearning and preprocessing): loại bỏ các

dữ liệu không cần thiết

- _ Tích hợp dit liệu (data integration) đây là quá trình hợp nhất dữ liệu thành kho

dữ liệu (data warehouses and data marts) sau khi đã làm sạch và tiền xử lý

- - Trích chọn dữliệu (data selection): trích chọn dữ liệu từ những khodữ liệu va

sau đó chuyền đổi về dạng thích hợp cho quá trình khai thác tri thức Quá trìnhnày bao gồm cảviệc xử lý với dit liệu nhiễu (noisy data), dữ liệu không đầy đủ

(incomplete data), v.v.

- Chuyén đối dit liệu: Các dữ liệu được chuyền đổi sang các dang phù hợp cho

quá trình xử lý.

- Khai phá dit liệu(data mining): Là một trong các bước quan trọng nhất, trong đó

sử dụng những phương pháp thông minh déchat lọc ra những mẫu dữ liệu

- _ Ước lượng mau (knowledge evaluation): Quá trình đánh giá các kết quả tìm

được thông qua các độ đo nào đó.

- Biéu diễn tri thức (knowledge presentation): Quá trình này sử dụng các kỹ thuật

để biểu diễn va thé hiện trực quan cho người dùng

1.2.2 Vai trò của khai phá dữ liệu trên mang xã hội

Sự bùng no của mang xã hội dẫn tới khối lượng người sử dụng mạng xã hội ngày càng

tăng và khối lượng dữ liệu mà người sử dụng sinh ra tăng lên theo từng giờ Những năm gan

Trang 8

đây thì mạng xã hội được xem như một kênh khoa học, thông tin kinh tế, thương mại và dịch

vụ di đôi với những blog cá nhân của người sử dụng, sự dễ dang của việc tạo ra thông tin của mạng xã hội tạo nên sự đa dạng và số lượng lớn thông tin được lưu trữ dẫn tới việc quá tải

thông tin, người dùng sẽ khó có thể tìm kiếm được những thông tin có ích mà mình cần thiết.Việc khai phá tri thức trên mạng xã hội nhằm mục đích giải quyết bài toán bùng né thông tin

trên mạng xã hội hiện nay.

Ngày nay, các công nghệ data mining được ứng dụng rộng rãi trong các công ty lẫykhách hàng làm trungtâm như truyền thông, tài chính, marketing, bán hàng, các nghành côngnghiệp sản xuất v.v Nó cho phép các công ty xác định được các mối quan hệ giữacác yếu tố

nội tại như giá thành, mẫu mã, cách thức quảng cáo, thậm chí là kỹ năng của nhân viên công

ty các yếu tô bên ngoài như đối thủ cạnh tranh, chính sách kinh tế hay nhu cầu thị trường

v.v Và nó còn hỗ trợ việc xác định được sự tác động của các chính sách khuyến mại, giảm

giá, độ hài lòng của khách hàng và lợi nhuận của doanh nghiệp

12.3 Một số kỹ thuật khai phá dữ liệu chính

1.2.3.1 Sự kết hop (Association)

Sự kết hop (hay mối quan hệ) có lẽ là kỹ thuật khai phá dit liệu được biết đến nhiều hon

cả, sự kết hợp rất quen thuộc và đơn giản Ở đây, khai phá dữ liệu thực hiện một sự tương

quan đơn giản giữa hai hoặc nhiều mục, thường cùng kiểu để nhận biết các mẫu Ví dụ, khi

theo dõi thói quen mua hàng của người dân, thì có thé nhận biết rằng một khách hàng luônmua kem khi họ mua dâu tây, nên có thê đề xuất răng lần tới khi họ mua dâu tây, họ cũng có

thé muốn mua kem

1.2.3.2 Sự phân loại (Classification)

Mục tiêu của phương pháp phân loại đữ liệu là dự đoán nhãn lớp cho các mẫu dữ liệu,

quá trình phân nhãn dữ liệu gồm 2 bước: cây dựng mô hình va dựng mô hình dé phân loại dữ

liệu.

1.2.3.3 Sự phân cum (Clustering)

Bằng cách xem xét một hay nhiều thuộc tính hoặc các lớp, kỹ thuật khai phá dữ liệu

này có thé nhóm các phân dữ liệu riêng lẻ với nhau dé tạo thành một quan diém câu trúc Ở

Trang 9

mức đơn giản, việc phân cụm đang sử dụng một hoặc nhiều thuộc tính làm cơ sở cho nhómcác kết quả tương quan dé ràng được nhận ra Việc phân cụm giúp dé nhận biết các thông tinkhác nhau vì nó tương quan với các ví dụ khác, nên kết quả cho thấy có những điểm tươngđồng và các phạm vi phù hợp.

1.2.3.4 Dự báo (Prediction)

Dự báo là một chủ đề rộng và đi từ dự báo về lỗi của các thành phần hay máy móc đếnviệc nhận ra sự gian lận và thậm chí là cả dự báo về lợi nhuận của công ty nữa Được sử dụngkết hợp với các kỹ thuật khai phá dữ liệu khác, dự báo gồm có việc phân tích các xu hướng,phân loại, so khớp mẫu và mối quan hệ Bang cách phân tích các sự kiện hoặc các cá thé trong

quá khứ, bạn có thé đưa ra một dự báo về một sự kiện

1.2.3.5 Các mẫu tuần tự (Sequential patterns)

Liên quan đến hầu hết các kỹ thuật khác (chủ yếu là phân loại va dự báo), cây quyếtđịnh có thé được sử dụng hoặc như là một phần trong các tiêu chí lựa chọn hoặc dé hỗ trợ việc

sử dụng và lựa chọn dữ liệu cụ thé bên trong cấu trúc tổng thé Trong cây quyết định, ban bắt

đầu băng một câu hỏi đơn giản có hai câu trả lời (hoặc đôi khi có nhiều câu trả lời hơn) Mỗicâu trả lời lại dẫn đến thêm một câu hỏi nữa dé giúp phân loại hay nhận biết dit liệu sao cho cóthé phân loại dữ liệu hoặc sao cho có thể thực hiện dự báo trên cơ sở mỗi câu trả lời

1.2.3.6 Cây quyết định (Decision trees)

Các cây quyết định thường được sử dụng cùng với các hệ thống phân loại liên quan đếnthông tin có kiểu thuộc tính và với các hệ thong dự báo, noi các dự báo khác nhau có thé dựatrên kinh nghiệm lich sử trong quá khứ dé giúp hướng dẫn cấu trúc của cây quyết định và kếtquả đầu ra

1.2.3.7 Các tổ hop (Combinations)

Trong thực tế, hiếm khi chi sử dụng một kỹ thuật trong số những kỹ thuật riêng biệt

trên để khai phá dữ liệu Việc phân loại và phân cụm là những kỹ thuật giống nhau Nhờ sử

dụng việc phân cụm dé nhận ra các thông tin lân cận gần nhất, chúng ta có thể tiếp tục tinhchỉnh việc phân loại của mình Thông thường, chúng ta sử dụng các cây quyết định dé giúp

Trang 10

xây dựng và nhận ra các loại mà chúng ta có thé theo dõi chúng trong một thời gian dài dénhận biết các trình tự và các mẫu

13 Kết luận chương

Trong chương một của luận văn học viên đã tìm hiểu về những khái niệm tổng quannhất về mạng xã hội, về khái niệm mạng xã hội, lịch sử hình thành mạng xã hội và ý nghĩa củamạng xã hội trong cuộc sống hiện đại Qua đó có những kiến thức cơ bản về mạng xã hội dé sử

dụng cho việc tách lọc các thông tin thu thập được phục vụ cho việc phân tích bài toán ở

chương hai Ngoài ra ở chương một học viên đa tìm hiểu về các khái niệm của khai phá dữ

liệu, các phương pháp chính đề khai phá dit liệu, tìm hiểu về ý nghĩa của việc khai phá dit liệu

trên mạng xã hội qua đó làm rõ hơn mục đích, ý nghĩa của luận văn.

Trang 11

CHƯƠNG 2: BÀI TOÁN PHAN LOẠI NGƯỜI DUNG MẠNG

XÃ HỘI CHO NHU CẢU DU LỊCH

Trong vài năm qua, Twitter đã trở thành một dịch vụ mạng xã hội lớn Tại hội nghị

phát triển Twitter Chirp vào tháng 4 năm 2010 các công ty này đã trình bày một số thống kê vềtrang web của mình như số lượng người sử dụng Twitter tính tới năm 2010 là 106 triệu tài

khoản và lượng truy cạp mỗi ngày là 180 triệu mỗi tháng và cứ mỗi ngày lại có thêm khoảng

300000 tài khoản mới được đăng ký Với mỗi tweet có độ dài 140 ký tự đường như là những thông tin rời rạc không có nghĩa, nhưng với hàng tỷ ký tự được tạo ra mỗi ngày trên twitter thì

đây là một nguồn thông tin to lớn có thê khai thác

Với nguồn thông tin to lớn này cộng với sức mạnh của công nghệ hiện này chúng ta cónhiều cách tiếp cận và phân tích các thông tin mà người dùng mạng xã hội Twitter đem lại

Ngoài ra trong thé giới hiện đại ngày nay việc du lịch đã trở nên vô cùng phổ biến đối với xã

hội do nhu cầu cuộc sống ngày càng nâng cao và thu nhập của con người ngày càng lớn hơn sovới những nhu cầu cơ bản, chính do nhu cầu du lịch tăng cao nên việc nắm bắt cảm xúc du

khách khi nói về các địa điểm du lịch rất được chú ý là một vấn đề rất được quan tâm Trong

luận văn này van đề được đặt ra là làm sao dé phân loại được người dùng mạng xã hội Twitterdựa theo cảm nhận của họ về các địa điểm du lịch nổi tiếng dựa trên các tweet từ những ngườidùng mạng xã hôi Twitter Y tưởng của luận văn là sử dụng phương pháp SVM (supportvector machine) và phương pháp Naive Bayes trong phân loại dư liệu với dữ liệu được lấy từ

các tweet có các has tag là các địa danh du lịch được định sẵn.

2.1 Chuẩn bị dữ liệu

Đề phục vụ cho việc phân loại cảm xúc của người dùng xã hội Twitter đối với các địadanh du lịch chúng ta cần thu thập dữ liệu trên Twitter, các dữ liệu sẽ được chọn bằng cách tìmkiếm theo hastag các hastag chính là tên các địa danh du lịch, ngoài ra với cảm xúc của người

dùng đôi với các định danh này sẽ được quy định làm 2 loại cảm xúc là tích cực và tiêu cực.

2.2 Các kỹ thuật phân loại dữ liệu được áp dung

Trang 12

Sau khi thu thập được các dữ liệu từ mạng xã hội Twitter thì những dữ liệu này sẽ được

sử dụng để đào tạo một dữ liệu phân loại với các thuật toán Navie Bayes và SVM(supportvector machine) với mỗi loại chúng ta sẽ trích xuất ra các tính năng tương tự và phân loại

ba tiếng, unigrams và bigrams cho từ có một tiếng và hai tiếng Tách từ trong tiếng Việt,

uni-grams và bi-grams rat thường được sử dụng.

Nhằm tạo một cơ sở dữ liệu các cum từ để có thé được dùng cho việc hoàn chỉnh phầncâu truy van của người dùng, em trích xuất tat cả N-grams theo thứ tự 1, 2 và 3 (unigrams,

bigrams và trigrams) từ tập các văn bản mà máy tìm kiếm có Ta cũng có thể trích xuất thứ tự

N-grams cao hơn nhưng số lượng các N-grams có khả năng tăng theo cấp số nhân với thứ tự N

và như vậy thì có quá nhiều N-grams Hơn nữa, trong khi trích xuất N-grams, ta còn chú ý đặc

biệt tới từ dừng (stop word).

Có nhiêu từ mà mật độ xuât hiện cao nhưng không mang ý nghĩa cụ thê nào mà chỉ là

những từ nôi, từ đệm hoặc chỉ mang sắc thái biêu cảm như những từ láy Ví dụ các từ: a, an,

the, about, with, on trong tiếng Anh và các từ: là , sẽ, cùng, tới trong tiếng Việt

2.2.1.2 Unigrams

Một unigram chỉ đơn giản là một N-gram với kích thước một, hoặc một từ duy nhất.Đối với mỗi từ duy nhất trong một tweet, một tinh năng unigram được tạo ra cho bộ phân loại

Ví dụ, nếu một tweet dương chứa từ "thị trường", một tính năng phân loại sẽ có hay không

một tweet chứa từ "thi trường” Ké từ khi tinh năng đến từ một tweet tích cực, phân loại sẽ cónhiều khả năng dé phân loại khác tweets có chứa từ "thị trường" là tích cực

2.2.1.3 Từ điển từ vựng ngoại vi

Trang 13

Chúng ta sẽ cung cấp cho các tính năng từ từ điển từ vựng bên ngồi thứ được gọi là

sentiStrength, đĩ là một danh sách các từ được định nghĩa trước với một tình cảm tiêu cực hay

tích cự Dữ liệu của nĩ được áp dụng cho các đoạn văn ngắn Việc đưa từ điển ngoại VISentiStrength cho phép một vùng phủ sĩng rộng hơn cĩ thé bao phủ được hết các từ mà chúng

ta cĩ thé bỏ sĩt với cách thu thập thong thường

2.2.2 Cơ sở lý thuyết về Navie Bayes

Là 1 phương pháp phân loại cĩ giám sát Dù rất dễ hiéu và dé cài đặt, nhưng kết quả thuđược lại rất tốt, vì thé đây là 1 phương pháp rất quan trọng trong Nghiên cứu ngơn ngữ tự

nhiên Ứng dụng đầu tiên trong xử lý ngơn ngữ tự nhiên của máy phân loại này là phân loại

văn bản Gần đây, máy phân loại này cịn được ứng dụng thành cơng vào phần mềm lọc spam

tự động.

Phân lớp Nạve Bayes giả định rằng sự hiện diện hoặc văng mặt của một đặc tính là độclập với sự hiện diện và vắng mặt của các đặc tính khác, mà được quy định bởi các tham sốphân lớp, ví dụ: một loại trái cây được phân lớp là trái táo nêu nĩ màu đỏ, trịn, cĩ đường kính

3 decimet Một phân lớp Naive Bayes xem xét các đặc tính này tham gia một cách độc lập déxác định xác suất mà loại trái cây này là quả táo, bat ké sự hiện diện hay vắng mặt của các đặctính khác.Đối với một số mơ hình xác suất, phân lớp Naive Bayes cĩ thé được huân luyện mộtcách hiệu quả trong mơi trường học cĩ giám sát Trong nhiều ứng dụng thực tế, ước lượngthâm số cho mơ hình Naive Bayes sử dụng phương pháp hợp lý cực đại, nghĩa là khi sử dụng

mơ hình Naive Bayes ta phải chấp nhận xác suất Bayes Mặc dù sử dụng các giả định tươngđối đơn giản, nhưng phân lop Naive Bayes cĩ thé áp dụng rat tốt trong nhiều trường hợp phứctạp trong thế giới thực.Một ưu điểm của mơ hình Naive Bayes là chỉ cần sử dụng khối lượng

nhỏ dit liệu huấn luyện dé ước lượng các tham số cần thiết dé phân lớp Bởi vì các biến độc lập

được giả định, chỉ cĩ sự thay đổi các biến cho mỗi lớp cần được xác định chứ khơng phải trên

tồnbộ hiệp phương sai.

Navie Bayes là phương pháp phân loại dựa vào xác suất được sử dụng rộng rãi tronglĩnh vực máy học, được sử dụng lần đầu tiên trong lĩnh vực phân loại bởi Maron vào năm

1961 sau đĩ trở nên phố biến dùng trong nhiều lĩnh vực như trong các cơng cụ tìm kiếm, các

bộ lọc email

Tiêu đề	Phân loại người dùng trên mạng xã hội cho nhu cầu du lịch
Người hướng dẫn	PGS. TS Trần Đình Quế
Trường học	Học viện Công nghệ Bưu chính Viễn thông
Chuyên ngành	Hệ thống thông tin
Thể loại	Luận văn Thạc sĩ
Năm xuất bản	2015
Thành phố	Hà Nội

Định dạng
Số trang	26
Dung lượng	5,39 MB