1. Trang chủ
  2. » Luận Văn - Báo Cáo

Luận văn thạc sĩ Khoa học máy tính: Phân loại nhóm tuổi người dùng mạng xã hội

68 0 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Nội dung

Mục tiêu của đề tài là thực hiện phương pháp sử dụng máy học vector hỗtrợ Support Vector Machines - SVM để xác định phân loại nhóm tuổi củangười dùng mạng xã hội sử dụng ngôn ngữ tiếng V

Trang 1

ĐẠI HỌC QUOC GIA THÀNH PHO HO CHÍ MINH

TRUONG DAI HOC BACH KHOA

PHAM TIEN PHUC

PHAN LOẠI NHÓM TUOI NGƯỜI

NGÀNH: KHOA HỌC MÁY TÍNHMÃ NGANH: 60480101

LUAN VAN THAC SI

Trang 2

CÔNG TRÌNH ĐƯỢC HOÀN THÀNH TẠI

TRUONG ĐẠI HOC BACH KHOA —DHQG -HCM

Cán bộ hướng dẫn khoa học: PGS.TS Quản Thanh Tho

Cán bộ chấm nhận xét 1: TS Lê Thanh Vân

Cán bộ chấm nhận xét 2: TS Nguyễn Thị Thanh Sang

Luận văn thạc sĩ được bao vệ tại Truong Đại học Bách Khoa, ĐHQG Tp.HCM ngày 24 tháng 8 năm 2018

Thành phân Hội đồng đánh giá luận văn thạc sĩ gồm:I Chủ tịch: PGS.TS Dương Tuan Anh

2 Thư ký: TS Võ Thị Ngọc Châu3 Phản biện 1: TS Lê Thanh Vân

4 Phản biện 2: TS Nguyễn Thị Thanh Sang

5 Ủy viên: TS Nguyễn Đức Dũng

Xác nhận của Chủ tịch Hội đồng đánh giá Luận văn và Trưởng Khoaquản lý chuyên ngành sau khi luận văn đã được sửa chữa (nếu có)

CHỦ TỊCH HỘI DONG TRƯỞNG KHOA KH&KTMT

PGS.TS Dương Tuấn Anh

Trang 3

ĐẠI HỌC QUOC GIA TPHCM CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIET NAMTRƯỜNG ĐẠI HỌC BÁCH KHOA Độc lập - Tự do - Hạnh phúc

NHIEM VỤ LUẬN VAN THẠC SĨHọ tên học viên: Phạm Tiễn Phúc - ¿5s s2 MSHV:7140253Ngày thang, năm sinh: 04/08/1978 .-.<<<< s52 Nơi sinh: Cần ThơNgành: Khoa học May tính 2c Ăc S2 se Mã số : 60480101

I TÊN DE TÀI: PHAN LOẠI NHÓM TUỎI NGƯỜI DUNG MẠNG XA HỘI

I NHIỆM VU VÀ NỘI DUNG:Phân loại nhóm tudi người dùng mạng xã hội sử dụng ngôn ngữ tiếng Việt:

- Nghiên cứu lý thuyết về mạng xã hội, ngôn ngữ sử dụng trên mạng xã

hội, môi liên hệ nhóm tudi va đặc trưng của ngôn ngữ sử dụng trên mạng xãhội.

- Nghiên cứu các phương pháp về phân loại nhóm tuổi người dùng mạng

xã hội.

- Đề xuất phương pháp phân loại nhóm tuổi người dùng mạng xã hội sử

dụng ngôn ngữ tiêng Việt.

- Hiện thực, đánh giá và phân tích kết quả thực nghiệm

Ill NGÀY GIAO NHIỆM VU : 15/01/2018Iv NGÀY HOÀN THÀNH NHIỆM VU: 17/6/2018

v CÁN BỘ HƯỚNG DAN : PGS TS Quản Thành Thơ

Tp HCM, ngày 17 tháng 6 năm 2018CÁN BỘ HƯỚNG DẪN TRƯỞNG KHOA KH & KTMT

PGS.TS Quản Thành Thơ

Trang 4

LOI CAM ON

Trước hết, tôi xin bay tỏ lòng biết on chân thành và sâu sắc đến Thay hướngdẫn tôi, PGS.TS Quản Thành Thơ Trong suốt quá trình làm luận văn, mặc dùrất bận, nhưng Thây đã tận tình, kiên nhẫn chỉ dan, hỗ trợ tôi thực hiện Suhướng dẫn, hỗ trợ quý báu của thây là động lực to tớn để tôi có thể hoàn thành

được luận văn này.

Tôi xin chân thành cảm ơn sự tận tình giảng dạy và giúp đỡ của tất cả quýThay Cô tại trường Đại học Bách Khoa thành phố Hồ Chí Minh, đặc biệt là cácthầy cô trong khoa Khoa học và Kỹ thuật Máy tính

Tôi xin chân thành cảm ơn Công ty Cô phan Younet Social Media đã giúpđỡ, hỗ trợ về công nghệ và dữ liệu cho trong quá trình nghiên cứu và thực hiệnđề tài

Tôi xin gửi lời cảm ơn đến Ban lãnh đạo Sở Thông tin và Truyền thôngthành phố Cân Thơ, Trung tâm Công nghệ Thông tin Cần Thơ, nơi tôi công tác,đã tạo mọi điều kiện thuận lợi cho tôi trong thời gian tham gia học tập

Cuối cùng tôi xin cảm ơn gia đình và các bạn bè, đồng nghiệp đã luôn ủnghộ, động viên tôi trong suốt quá trình học tập và hoàn thành luận văn

ili

Trang 5

TÓM TẮTNgày nay, Internet và mang xã hội như Facebook, Twitter, Zalo rat phốbiến gần như đã trở thành một phân trong cuộc sống hàng ngày của nhiều người.Không chỉ phương tiện thể hiện bản thân, mạng xã hội còn là phương tiện démọi người tìm kiếm thông tin, chia sé và liên kết mọi người Tuy nhiên, do nhiềunguyên nhân, người dùng đã không cập nhật đầy đủ vào hồ sơ cá nhân, cungcấp thông tin giả hoặc vi tính riêng tư nên đã che dấu thông tin gây nên sự khó

khăn trong xác định và sử dụng thông tin.

Mục tiêu của đề tài là thực hiện phương pháp sử dụng máy học vector hỗtrợ (Support Vector Machines - SVM) để xác định phân loại nhóm tuổi củangười dùng mạng xã hội sử dụng ngôn ngữ tiếng Việt dựa trên các nội dung màngười dùng đã dùng dưới hình thức các văn bản ngắn, ngôn ngữ biến thé lệchchuẩn Vì thé dé tài sẽ hữu ích khi đề xuất phương pháp trên cơ sở dựa trên mộtsố thông tin của người dùng dé có thé khai phá được thông tin ấn khác nhằmphục vụ các yêu cầu khác nhau

ABSTRACT

Today, Internet and Social networks such as Facebook, Twitter, Zalo are very popular with peoples It became part of the fabric of everyday lifearound the world We have the ability to see what others are doing, often withinseconds of them doing it Or even better, browsing, searching, and linking tool.Peoples will be yourself on Social networks However, user may be not submitfulfill their information, using fake account, or they set their profile to privatemode.

The purpose of this thesis is using Support Vector Machines (SVM) toclassify groups of user social network using Vietnamese language Theclassifier process information via short messages and nonstandard languagevariations It would therefore be useful if user profiles can be checked on thebasis of text analysis, and false profiles recovered for other requirements.

Trang 6

LỜI CAM ĐOAN

Tôi xin cam đoan răng, ngoại trừ các kêt quả tham khảo từ các công trìnhkhác như đã ghi rõ trong luận văn, các nội dung trình bày trong luận văn này làdo chính tôi thực hiện và chưa có phân nội dung nào của luận văn này được nộp

dé lay bằng cấp ở một trường khác

TP HCM, ngày 17 tháng 6 năm 2018

Phạm Tiến Phúc

Trang 7

Bag of WordSupport Vector Machines

Term Frequency — Inverse Document Frequency

Trang 8

DANH SÁCH CAC BANG

STT | Bang Tén bang Trang1 | Bang 1.1 Thong kê cum từ tim kiêm về mạng xã hội 72 | Bang 2.1 | Phân bô đặc trưng w trong tập văn bản 19

3 Bang 2.2 Các kernel được hỗ trợ của thu viện 25

Sklearn

4 | Bảng 3.1 | Xác định nhóm tuôi trong đê tài 285 | Bảng 4.1 | Câu trúc tập dữ liệu huấn luyện và kiểm tra | 386 Bảng 4.2 Câu trúc tập dữ liệu huấn luyện và kiểm tra, 39

sau khi da tién xu ly

7 Phân bô độ tudi của toàn bộ 10949 tài

Bảng 4.3 | khoản tập huấn luyện và 2000 tài khoản tập | 41

kiểm tra8 Bang 4.4 Thong kê SO luong dac trung cua tap dir 42

liệu sau khi vector hóa

9 | Bảng 4.5 | Thông sô tìm kiếm bộ tham sô tôi ưu 424310 Bang 4.6 Danh sách 45 đặc trưng hàng dau của mỗi 45 46

nhóm

11 | 4.7-4.13 | S6 lượng các mẫu phân loại sai nhóm 46-50

DANH SÁCH CÁC HÌNHHình Tên hình Trang

1 Hình 1.1 Mức độ pho biến của các trang mạng xã hội trên 4

toàn thê giới tính đên tháng 8/20172 | Hình 1.2 Thong kê số liệu sử dụng internet và mang xã hội | 53 |Hìnhl3 | 10 quốc gia và thành pho có số người dùng 5

Facebook lớn nhat thê giới,4 |Hinh2.1 | Ví dụ về mô hình mạng xã hội nhỏ 12

Hình 2.2 | Dữ liệu thông tin cơ bản người dùng dưới dạng

6 | Hinh 2.3 Vi du vé ngôn ngữ su dụng trên mang xã hội 14

7 |Hình2.4_ | Biểu diễn văn bản dưới dạng vector 16

8 | Hinh 2.5 Biéu diễn văn ban dưới dang vector Bag of Word | 17

9 |Hinh2.6 | Biéu diễn văn bản dưới dang vector tfidf 1810 | Hinh2.7 | Siêu phang phân cách h phân chia 2 tập 20

¡¡ |Hình28 | Siêu phăng với lễ cực đại cho một SVM phân "

tách dữ liệu thuộc hai lớp

Vil

Trang 9

12 Hình 2.9 Minh họa bài toán phân 2 lớp, với dữ liệu không 22

nhiêu13 Hình 2.10 Minh họa bài toán phân 2 lớp, với dữ liệu có 23

nhiêuHình 2.11 | Minh họa bài toán phân lớp, không thé phân chia14 ¬" 24

tuyên tính15 | Hình 3.1 Mô hình hệ thông xử lý 2916 | Hình 4.1 | Biéu tượng của sklearn 3417 Hình 4.2 | Dang ký tài khoản nhà phát trién phục vụ cho 35

việc thu thập dữ liệu từ FacebookHình 4.3 | Sử dụng trình Graph API thu thập dữ liệu từ18 35

Facebook19 Hình 44 | Mã truy cập người dùng và mã truy cập ứng dung 36

Facabook Graph API20 Hình 45 | Graph API hỗ trợ truy xuất các thông tin liên 36

quan dén người dùngHình 4.6 | Thu thập tuổi người dùng phục vu gan nhãn qua21 ` k AC SA Là ˆ 37

trình huân luyện mô hình phân loại22 Hình 4.7 Không thê lây được thông tin ngày sinh do người 37

dùng đã thiêt lập chê độ bảo vệ23 | Hinh4.8 | Phân chia tập dữ liệu 3824 | Hinh4.9 | Phân bố độ tudi của 939 tài khoản tập huấn luyện | 392s | Hình4.10 | Phân bồ độ tudi của 10949 tài khoản tập huấn 40

luyện26 | Hình4.11 | Phân bố độ tuổi của 939 tài khoản tập kiêm tra | 4027 | Hinh 4.12 | Phân bố độ tuôi của 2000 tài khoản tập kiêm tra | 4128 | Hình 4.13 | Bộ dữ liệu sau khi xử lý, chia tách 42

Hình 4.14 | Kết quả thực thi của các giải thuật trên tập dữ29 liệu 700 tài khoản huấn luyện và 300 tài khoản 43

kiểm traHình 4.15 | Kết quả thực thi trên tập dữ liệu huân luyện 93930 ` TỐ TA LA ore 44

tài khoản với bộ thông sô tôi ưuạ¡ | Hình 4.16 Kết quả thực thi trên tập dir liệu huân luyện 5362 AA

tài khoản va 2642 kiểm tra với bộ thông số tối ưu

Trang 10

MỤC LỤC

LOI CAM ONTOM TATABSTRACTDANH MUC TU VIET TATDANH SACH CAC BANGDANH SACH CAC HINH

CHUONG 1

TONG QUAN1.1 Giới thiệu1.2 Bài toán và phạm vi1.3 Những kết quả nghiên cứu liên quan

1.3.1 Nghiên cứu trong nước1.3.2 Các nghiên cứu quốc tế1.4 Kết quả đạt được và những đóng góp

CHƯƠNG 2

CƠ SỞ LÝ THUYET2.1 Mạng xã hội2.2 Ngôn ngữ sử dụng trên mạng xã hội2.3 Môi liên hệ nhóm tuôi và đặc trưng của ngôn ngữ sử dụng trên mạng xã hội2.4 Biêu điện văn bản

2.5 Kỹ thuật TF —IDF (Term Frequency x Inverse Document Frequency)2.6 Mô hình ngôn ngữ n-gram

2.7 Lựa chọn đặc trưng2.8 Phương pháp Support Vector Machine - SVM2.8.1 SVM tuyến tính

2.8.2 Phan lớp nhị phan2.8.3 Hàm nhân kernel2.8.4 Chiến thuật phân loại nhiều lớp2.8.5 Kiểm tra chéo (Cross validation)2.9 Phương pháp đánh giá

2.9.1 Các độ đo căn bản2.9.2 Accuracy

2.9.3 Precision và Recall2.9.4 Fl-score

2.9.5 Precision-recall cho bài toán phân lớp nhiều lớp

iliivivviViivi

ORDA A w WwW 2

Trang 11

3.3.3 Tách từ3.3.4 Loại bỏ Stopword3.3.5 Chuẩn hoá từ3.3.6 Vector hoá từ3.3.7 Lựa chọn đặc trưng3.3.8 Sử dụng giải thuật SVM và thực hiện tìm kiếm bộ thông số tối ưu3.3.9 Sử dụng giải thuật SVM

3.3.10 Phân tích kết quả và tìm cách nâng cao hiệu suất phân loại

4.5 Kết quả thực nghiệm4.6 Phân tích kết quả

CHƯƠNG 5

TONG KET5.1 Kết luận5.2 Những kết quả dat được5.3 Hướng phát triển

TÀI LIỆU THAM KHẢOPHU LUC CÁC GIẢI THUAT CUA CHƯƠNG TRÌNH

1 Giải thuật tiền xử lý và chia tập dữ liệuGiải thuật tách từ

Giải thuật tìm kiếm bộ tham số tôi ưuGiải thuật xử lý Stopword

Giải thuật xử lý phân loạiGiải thuật thống kê đặc trưng của từng nhóm

ma ma RY Giải thuật phân tích dữ liệu phần nhóm sai

28282829303030303l3l3l3232333334343434343542455151515252335656565757575858

Trang 12

trí, học tập, thương mai, Bên cạnh đó, Cách mang công nghiệp 4.0 dựa trên

nên tảng công nghệ số và tích hợp tất cả các công nghệ thông minh, đã làm chocác tiện ích phục vụ các nhu câu của con người ngày càng phong phú, đa dạngvà hấp dẫn Trong đó, các mạng xã hội với việc cập nhật liên tiếp các tiện íchvà giải thuật thông minh, thu hút người tham gia va sử dụng đã dan trở thànhmột phần không thê thiếu trong cuộc sống hàng ngày của nhiều người Do đặc

tính thông tin mở, theo thời gian thực, được cập nhật nhanh chóng và tức thời

từ cộng đồng nhiều người sử dung, mạng xã hội đang trở thành phương tiệnthông tin chính yếu, thu hút nhiều người sử dụng nhất

Việt Nam là quốc gia có tý lệ sử dụng Internet cao, với hơn 60 triệu ngườidùng Internet chiếm 66% dân số sử dụng[ I] Mạng xã hội có nhiều vai trò quantrọng trong xã hội Việt Nam khi chiếm tỉ lệ rất lớn người dùng tham gia, đặcbiệt là Facebook Cùng với xu hướng quốc tế, ở Việt Nam người dùng điện thoạidi động cũng chiếm tỉ lệ lớn do tính gọn nhẹ và nhiều tính năng đáp ứng nhucau của phân lớn người dùng ở các tầng lớp khác nhau Tính tới tháng 7/2017,số người dùng Facebook ở Việt Nam khoảng 64 triệu người dùng, chiém 3%trong tong số tài khoản Facebook đang hoạt động toàn câu [2]

Mạng xã hội (social network) là hệ thống thông tin cung cấp cho cộng đồngngười sử dụng mạng các dịch vụ lưu trữ, cung cấp, sử dụng, tìm kiếm, chia sẻvà trao đôi thông tin với nhau, bao gồm dich vụ tạo trang thông tin điện tử cánhân, diễn đàn (forum), trò chuyện (chat) trực tuyến, chia sẻ âm thanh, hình ảnh

và các hình thức dịch vụ tương tự khác [3].Các nội dung do người dùng tạo ra trên mạng xã hội dưới dạng trạng tháihoặc phản hôi các bình luận (comment) như hình ảnh, văn bản, video, dân giải

3

Trang 13

các địa chỉ trang web, thé hiện các cảm xúc (thích, yêu, ngạc nhiên, giận dữ )và thông tin về hồ sơ người dùng như tudi, giới tính, địa chỉ, sở thích, việc

làm, Các hành động của người dùng như chia sẻ (share), lưu trang, tạo các

khảo sát thu thập ý kiến, tham gia các sự kiện (events), tham gia vào các nhóm(groups), thích (like) hay thé hiện cảm xúc với một trang fanpage, một sự kiện,

bình luận các hoạt động là hình thức mà người dùng mạng xã hội thường thực

hiện Theo thống kê Facebook, Youtube, Instagram, Twitter, Reddit, Linkedin,Ask.fm, Pinterest, Tumblr, Flickr là 10 trang mang xã hội lớn nhat, cd luot truycập nhiều nhất mỗi tháng Trong đó, Facebook là 2,047 tỷ người truy cập mỗi

BSéluong người sử dụng (triệu người

Hình 1.1 Me độ pho biến của các trang mang xã hội trên toàn thé giớitính đến tháng 8/2017 (nguồn https://www.statista.com [4])

Trang 14

0B0607

cee cere ee

TOP COUNTRIES

INDIA

UNITED STATESBRAZILINDONESIAMEXICOPHILIPPINESVIETNAMTHAILANDTURKEYUNITED KINGDOM

USERS21,000,000249,000,000139,000,000126,000,00085,000,00069,000,00064,000,000

57,000,000

56,000,000tu 000,000

Ye TOTAL"11%11%6%6%

4%

3%3%3%3%2%

8

01

02030u05Đó

WITH THE LARGEST NUMBER OF ACTIVE FACEBOOK USER

TOP CITIESBANGKOKJAKARTADHAKAMEXICO CITYISTANBULNEW DELHI7 UMA

CAIROSAO PAULOHO CHI MINH

USERS35,960,00026,000,00025,000,00016,000,00015,000,00015,000,00015,000,00014,060,0001,000,00014,000,000

% TOTAL"

1.6%

1.2%1.1%0.7%

Hình 1.3 70 quốc gia và thành pho có số người dùng Facebook lon nhấtthé giới, tính đến tháng 7/2017 (nguồn hữp:/nhipsongso.tuoitre.vn [2] )

Phân tích dữ liệu nhân khâu học người dùng mạng xã hội (analytic datademographic) như nhóm tuổi, giới tinh, địa chỉ, nghề nghiệp, sở thích là mộtnhu câu quan trọng trong công tác quản lý nhà nước cũng như phục vụ cho hoạtđộng kinh doanh, quảng cáo thương mại Tuy nhiên, do nhiều nguyên nhân,người dùng đã không cập nhật day đủ vào hỗ sơ cá nhân, thông tin giả mạo hoặcvì tính riêng tư nên đã che dấu thông tin không muốn người khác khai thác Xácđịnh đúng thông tin về nhân thân bao gồm nhóm tuôi của người sử dụng sẽ giúp

cho các cơ quan quản lý xác định được đúng nhóm đôi tượng cân quản lý, xác

5

Trang 15

định thông tin, xác định hồ sơ giả và các hoạt động quản lý cân thiết khác Cáccơ quan quản lý, tô chức doanh nghiệp thực hiện cung cấp thông tin đến đúng

nhóm đối tượng mong muốn, cũng như việc phân tích và dự báo được các

khuynh hướng hành vi của từng nhóm đối tượng

1.2 Bài toán và phạm vi

Trong Dé tài này tác giả nghiên cứu va áp dụng giải thuật máy học vectorhỗ trợ (SVM) dé phân loại nhóm tuôi người dùng mạng xã hội sử dụng ngônngữ tiếng Việt

Đối với ngôn ngữ tiếng Việt, theo sự tìm hiểu của tác giả thì cho đến naychưa có một công trình nào liên quan đến van dé này, kế cả trong nước lẫn ngoàinước Tiếng Việt thuộc ngôn ngữ đơn lập, mỗi một tiếng (âm tiết) được phát âmtách rời nhau và được thể hiện bằng một chữ viết, về ngữ âm, từ vựng và ngữpháp Đặc điểm này dẫn đến việc xử lý, rút trích các đặc trưng của ngôn ngữlàm cơ sở để phân nhóm đòi hỏi cần phải thực hiện thêm các bước xử lý nhưtách đúng các từ láy, các từ có nhiều âm tiết Bên cạnh đó, ngôn ngữ trên mạngxã hội tiếng Việt được xem như là biến thể đặc thù của tiếng Việt, bên cạnhnhững đặc điểm chung, ngôn ngữ mạng tiếng Việt còn có những đặc điểm riêngchỉ ở trên mạng mới có như sử dụng các câu ngắn, các biểu tượng cảm xúc(icon), các biến thé viết tắt, cách điệu, giản thé (ngôn ngữ (2, ngôn ngữ teen)ảnh hưởng đến kết quả xử lý

Trong luận án này tác giả phần loại người dùng mạng xã hội thành 4 nhóm.

Nhóm A (từ 24 tuổi trở xuống), nhóm B ( từ 25 đến 34 tuổi), nhóm C (từ trên35 đến 40 tudi), và nhóm D (lớn hon 40 tuổi) Mục dich của tác giả là xây dựngmô hình giải thuật phân loại nhóm tuổi và thử nghiệm theo các nhóm tuổi như

trên.

1.3 Những kết quả nghiên cứu liên quanTrong phan này tác giả trình bày một số kết quả nghiên cứu trong nước vànước ngoài liên quan đến dé tài nghiên cứu của luận án

1.3.1 Nghiên cứu trong nước

Phân tích dữ liệu lớn (Big Data) và nghiên cứu khai phá mạng xã hội là

chủ đề mang tính thời sự, đã có nhiều đề tài nghiên cứu các lĩnh vực khác nhau

của mạng xã hội Bang 1.1 cho thay mức độ quan tam của các nhà nghiên cứu

Trang 16

với số lượng các dé tài, công trình nghiên cứu liên quan đến “social network”

tăng lên nhanh chóng Từ khóa “Social network mining” có trên 157350 lượt

tìm kiếm trên trang ACM cũng như trên Google Scholar và Springer [6]

"social network analysis"| 11100 11130 11170 11180 11120“social network mining” 350 360 360 370 350

ACM Digital LibraryCum tie tim kiém Tổng sô

"social network analysis" 1260“social network mining” 157350

Bang 1.1 Thong ké cum tir tim kiém vé mang xa hoi (nguon [6] )Hiện tai, các nghiên cứu trong nước về lĩnh vực phân tích người dùng mạngxã hội tập trung vào các chủ đề về phân tích quan điểm, hành vi và giới tính.Tác giả Không Bùi Trung với nghiên cứu về phân loại giới tính người dùngmạng xã hội dựa vào tin nhắn văn bản và WORD2VEC với việc sử dụng bộphân lớp hồi quy logistic kết hợp với việc thực hiện bước trích chọn đặc trưngsử dụng Word2Vec dé hỗ trợ cho kết quả phân loại đạt 84.0% [7] nghiên cứu

dự đoán giới tính người dùng mạng xã hội dựa vào nội dung văn bản của tác giả

Trương Công Hải với việc sử dụng giải thuật phân loại SVM dé phân loại trêntập dữ liệu văn bản lên đến 150000 status cho độ chính xác của phương phápđạt 68.13% [8], nghiên cứu phát hiện cộng đồng sử dụng thuật toán CONGA vàkhai phá quan điểm cộng đồng trên mạng xã hội của tác giả Vũ Thị Thu Hương

VỚI VIỆC sử dụng giải thuật Cluster Overlapping Newman Girvan

Algorithm(CONGA) và bộ phân lớp Bayes để thực hiện phân nhóm quan điểmcủa người dùng với độ chính xác 65.34% [9] Tác giả Nguyễn Hữu Tuân [10]trong đề tài xây dựng hệ thống nhận dạng mặt tự động sử dụng LPQ, đã xử dụng

phương pháp thị giác máy tính dựa trên phương pháp trích chọn các đặc trưng

Trang 17

Local Phase Quantization của khuôn mặt người và sử dụng giải thuật k-NN dé

phân nhóm hình ảnh và nhận dạng khuôn mặt.

Một cách tông quát, đa số các phương pháp của các tác giả thực hiện phânloại nhị phân, các bước thực hiện quan tâm đến giai đoạn tiền xử lý và tríchchọn các đặc trưng dữ liệu và sử dụng kỹ thuật học máy để phân loại Các tácgiả có sử dụng giải thuật SVM dé thực hiện hoặc sử dụng SVM trong so sánh,đánh giá kết qua phân loại Các dé tài có thé phát triển thành bài toán phân loạinhiều nhóm và có thé áp dụng vào dé tài phân loại tuổi người dùng mạng xã

hội.

Đối với lĩnh vực nghiên cứu phân loại văn bản nói chung và phân loạinhóm tuổi người dùng mạng xã hội dựa trên văn bản nói riêng, trên thế giới đãcó nhiều công trình nghiên cứu đạt những kết quả khả quan, nhất là đối với phânloại văn bản tiếng Anh Tuy vậy, các nghiên cứu và ứng dụng phân loại đối vớivăn bản tiếng Việt còn nhiều hạn chế về kết qua do đặc trưng của ngôn ngữtiếng Việt Hiện tại, tác giả chưa tìm thấy các tài liệu nghiên cứu trong nướcliên quan đến phân loại nhóm tuôi người dùng mạng xã hội dựa các bài viết haybình luận hay các thói quen về sở thích của người dùng sử dụng ngôn ngữ tiếng

Việt.

1.3.2 Các nghiên cứu quốc tếTrên cơ sở đánh giá và tông hợp 29 nghiên cứu nhằm dự đoán độ tuổi,Nina Cesare va cộng sự [11] đánh giá kết quả nghiên cứu về phân nhóm tuổidựa trên thông tin về ảnh tiểu sử, bài đăng và tên người dùng để suy ra tuôi tác.Một số nghiên cứu sử dụng các tính năng văn bản và các phương pháp học tậpđược giám sát dé dự đoán tuổi số chính xác, giai đoạn tuôi tác hoặc giai đoạncuộc đời Kết quả của những nghiên cứu này chỉ ra rằng dự đoán tuổi tác làthách thức nhiều hơn so với giới tính, và phân loại tuôi tác như "ở trên hay dưới25" Một số kỹ thuật phân nhóm đã được sử dụng như SVM, Computer Vision,

Bayesian Multinomial Regression, Naive Bayes, Logistic regression, DeepConvolutional Neural Network.

Tác giả Rita Georgina Guimaraes va cộng su [12] trong nghiên cứu vềphân loại nhóm tuổi, giới tính và người dùng mạng xã hội cho thay 2 kỹ thuậtSVM va Deep Convolutional Neural Network cho kết quả có độ chính xác caonhất tương ứng 83.3% và 93.7% so với các giải thuật khác như Multilayer

Trang 18

Perceptron, Decision Tree, Random Forest trong phân loại nhóm tuổi ngườidùng mạng xã hội sử dụng ngôn ngữ tiếng Anh Tác giả thực hiện phân loại hainhóm tuổi thiếu niên (dưới 20 tuổi) và người trưởng thành (từ 20 tuôi trở lên),với tập dữ liệu gom 6280 câu được thu thập từ mạng xã hội Twitter Với việcdựa trên bộ các tham số đặc trưng của văn bản mà người dùng đã sử dụng như:chia sẻ hay viết lại một Tweet (retweet), dé cập một ai đó băng việc sử dụng @,hashtag #, các chữ viết tắt và các biến thé, dau câu (““? ?!.:⁄„ ), symbol và cácbiéu tượng cảm xúc, các minh họa băng liên kết url, số lượng kí tự trong câu,số lượng người dùng theo dõi họ (follow) hoặc họ theo dõi followers Bên cạnhcác tham số trên, các chủ dé (topic) của mỗi câu, như về trách nhiệm, thé thao,sức khỏe, chính tri, tôn giáo, công việc, gia đình, SỐ lượng các tham SỐ trongtong các Tweet, giới tính và kết quả phân loại thuộc hay không thuộc nhómthiểu niên là các đặc trưng được tác giả sử dụng dé thực hiện trích xuất các đặctrưng Sau khi xác định các thông số đặc trưng có liên quan để dự đoán nhómtuổi của người dùng, tác giả sử dụng một thuật toán học máy, trong đó mỗithông số là đầu vào của thuật toán phân loại.

Trong nghiên cứu của tác giả Thorsten Joachims về sử dụng SVM trongviệc phân loại văn bản [13] cho thay SVM là một phương pháp thích hop dé ápdụng phân loại đối với dữ liệu là văn bản, với các ưu điểm như: có thê xử lý vớisố lượng không gian đặc trưng (feature) rất lớn hơn 10.000 chiều, hoạt động tốtvới van dé rất ít các đặc trưng của tập dữ liệu không liên quan với nhau, các đặctrưng đều chứa thông tin ý nghĩa và nên kết hợp nhiều đặc trưng dé phân loạithay gì chỉ chọn đặc trưng tích cực, vấn đề các vectơ thưa tạo ra từ tong số chiềucủa toàn tập văn bản dẫn đến chỉ có một số phần tử của một vector mang giá trịvà nhiều phan tử còn lại thì không có Hau hết các van dé phân loại văn bản đềucó thé chia tuyến tính Bang kết quả thực nghiệm trên tập Reuster 21578, tácgiả cho thấy SVM cho kết quả phân loại với dữ liệu văn bản tốt hơn so với các

giải thuật khác như k-NN, Bayes, Rocchio, R4.5.

Trên cơ sở giới hạn về thời gian cho phépthực hiện dé tài, tài nguyên hệthống và điều kiện triển khai nghiên cứu Tác giả đã lựa chọn phương pháp phânloại nhóm tuổi người dùng mạng xã hội sử dụng ngôn ngữ tiếng Việt dựa trên

phương pháp phân tích lựa chọn các đặc trưng của văn bản người dùng đã sử

dụng va áp dụng giải thuật học máy phân loại SVM dé thực hiện đề tài

Trang 19

1.4 Kết qua đạt được và những đóng gopVới mục tiêu dé ra và kết quả thu được, những đóng góp của dé tài mang

lại là:

- Xây dựng được phương pháp dé dự đoán tuổi người dùng mạng xã hội.- Xây dựng được bộ phân lớp cho dữ liệu thuộc nhiều nhóm tuổi ngườidùng mang xã hội khác nhau, có thé thay đổi độ tudi cần phân loại

- Đánh giá và phân tích dữ liệu liên quan đến đề tài, làm cơ sở cải thiện độchính xác của đề tài

- Tìm hiểu về đặc điểm ngôn ngữ tiếng Việt sử dụng trên mạng xã hội vàcác đặc trưng theo từng nhóm tuôi

- Đóng góp vào việc nghiên cứu phân loại nhóm tuôi của người dùng mạngxã hội sử dụng ngôn ngữ là tiếng Việt

- Đề tài đã xây dựng được mô hình học máy Máy học véctơ hỗ trợ SVMvới giải thuật SVC (C-Support Vector Classification) dé phân loại nhóm tuổingười dùng mạng xã hội sử dụng tiếng Việt với bộ huấn luyện gồm 939 tàikhoản huấn luyện, kết quả dự đoán đối với nhóm A (< 24 tuổi) là 66.0%, nhómB (25 đến 34 tuôi) là 68.0% tuy nhiên kết quả các nhóm C và D chỉ dat 50%.Khi thực thi trên tập 5362 tài khoản huấn luyện và 2642 tài khoản kiểm tra độchính xác nhóm A đạt 73% Kết quả của thuật toán tuy thấp hơn nhiều so vớiviệc với kết quả phân loại đôi với người dùng tiếng Anh, tuy nhiên việc kết quảcủa dé tài là bước đầu đối với lĩnh vực dự đoán nhóm tuổi người dùng mạng xãhội sử dụng ngôn ngữ tiếng Việt, vốn gặp nhiều khó khăn do đặc điểm ngônngữ tiếng Việt và ngôn ngữ mạng xã hội, đặc trưng sử dụng ngôn ngữ và thóiquen của nhóm tuổi, số lượng thông tin thường rất ngăn, độ nhiễu thông tin cao,can thu thập, tiền xử lý và thực hiện huấn luyện mô hình với số lượng dữ liệulớn hon dé nâng cao kết quả Kết quả nghiên cứu của dé tai là tiền dé và cơ sởcho các nghiên cứu tiếp theo về phân loại nhóm tuổi người dùng mang xã hộidựa trên ngôn ngữ tiếng Việt

- Kết quả nghiên cứu cung cấp công cụ phân tích thông tin cho các cơ quanquản lý nhà nước, các cơ quan chức năng trong công tác quản lý khi cần xácđịnh thông tin nhân thân an, thông tin nhân thân giả mạo, cũng như công cụ hỗtrợ việc truyền thông đến đến đúng nhóm đối tượng người dân, phân tích khaithác số liệu hoặc hoạch định chính sách dựa trên nhóm tuổi người dùng, kết hợp

Trang 20

với các thông tin nhân thân khác Ngoài ra, kết quả nghiên cứu cũng cung cấpcông cụ dé các nhà kinh doanh đánh giá tập dir liệu thông tin khách hang theođộ tuổi hoặc thực hiện các chiến lược, quảng cáo, bán hang đúng đối tượng

mong muôn nhăm đạt được hiệu qua cao nhat.

II

Trang 21

CHƯƠNG 2

CƠ SỞ LY THUYET

2.1 Mạng xã hội

Theo nghiên cứu của GS.TS Trần Hữu Luyén [14] và cộng sự Mang xã

hội (Social network sites) là một khái niệm được hình thành trong thập niên

cuối thé ki XX, bat đầu bang su ra doi cua Classmates.com (1995), SixDegrees(1997), ké dén 1a cdc trang nhu Friendster (2002), MySpace, Bebo, Facebook

(2004) và tai Việt Nam là Yobanbe (2006), Zing me (2009) Mang xã hội được

định nghĩa theo nhiều cách khác nhau tùy theo hướng tiếp cận Một cách chungnhất, mạng xã hội là tập hợp các cá nhân với các mối quan hệ vẻ một hay nhiềumặt được gan kết với nhau VỀ mặt toán hoc, mạng xã hội có thé xem như mộthệ thống gồm các đỉnh (node) gắn với nhau thành một mạng gôm các liên kết.Thông thường mạng xã hội là đồ thị không hướng như Facebook Nhưng mộts6 mạng xã hội khác lại là dạng có hướng, dưới hình thức những theo dõi

(follow) Twitter or Google+.

Hình 2.1 Mội ví dụ về mô hình mạng xã hội nhỏ

Mang được chia thành các cộng đồng, các nút trong cùng một cộng đồngliên kết chặt còn các nút khác cộng đồng liên kết yếu Một cộng đồng trongmạng xã hội như là “nhóm cùng sở thích” trong thế giới thực

Trang 22

“gender”: "female",“interested_in": [

người dung, tên tài khoản (name), tên (first name), họ (last name), năm sinh

(birthday), đường link tài khoản (link), giới tính (gender) Tùy theo nhu cauphân tích, ta có thé sử dụng kỹ thuật được cung cấp bởi nhà phát triển dé thực

hiện thu thập các trường dt liệu khác nhau của người dùng như: tên trường hoc,tên cơ quan, các thói quen hoặc các hành động của người dùng như các bài đăng(post, status), các trang fanpage mà người dùng đã like, các nhóm (group) đãtham gia, các sự kiện (event) đã thích hoặc tham gia

2.2 Ngôn ngữ sử dụng trên mạng xã hội

Theo nghiên cứu GS.TS Nguyễn Văn Khang [15] Ngôn ngữ mạng có thểhiểu chung là ngôn ngữ được sử dụng để giao tiếp trên mạng phù hợp với nhucau giao tiếp trên mạng Ngôn ngữ mạng có thé coi là một biến thé xã hội củamột ngôn ngữ cụ thé, bao gồm ngôn ngữ trong các thông tin trên mang, ngônngữ trao đổi, giao lưu trên mạng như ngôn ngữ chat, ngôn ngữ trên blog,Facebook, Zingme Một cách khái quát, ngôn ngữ mang có thé phân thành 3

loại là: Ngôn ngữ đời thường được dùng trên mạng; Ngôn ngữ đặc thù một lĩnh

vực như về máy tính, về xe hơi, về chứng khoán được các thành viên thốngnhất sử dụng trao đôi với nhau; Ngôn ngữ mang những đặc điểm riêng khi sửdụng trên mang bao gồm: các ngôn từ như hichic hehe kkk, các biểu tượng, kíhiệu như ©, ®, ;) , các con số G9, 22

13

Trang 23

Theo GS.TS Nguyễn Văn Khang, với cách nhìn của ngôn ngữ học xã hội,có bao nhiêu nhóm xã hội thì có bấy nhiêu phương ngữ xã hội, phương ngữ xã

hội có hai đặc trưng cơ bản là đặc trưng xã hội của người sử dụng ngôn ngữ

(phân tầng xã hội theo giới, tudi, địa vị, nghề nghiệp, thu nhập, tôn giáo, v.v.)và bối cảnh giao tiếp đặc định (gan với cộng đồng giao tiếp) Đặc điểm củangười sử dụng (cu dân mang), nơi sử dụng (không gian ảo), chức năng biếu dat

đã làm nên tính đặc thù của ngôn ngữ mạng và trở thành một loại phương ngữ

xã hội đặc thù Tuy nhiên, khi nói đến ngôn ngữ mạng, người ta thường nhấnmạnh đến loại biến thé chỉ thấy xuất hiện trên mang, có tính đặc trưng, lam cho

cho ngôn ngữ mạng có tính đặc thù của một loại phương ngữ xã hội.

Ngôn ngữ mạng có các đặc thù: Sử dụng cách viết tắt, chuyển cách diễnđạt bằng con số, bang biểu tượng, bang các câu “sai ngữ pháp, sai chính ta” đơngiản hóa về từ ngữ, rút ngắn độ dài của câu, thường lệch chuẩn Ngôn ngữ mạngngoài các con chữ còn có hình ảnh, các biểu tượng hoặc là sự kết hợp của cả banội dung này Ngôn ngữ mạng có đặc điểm là phải khác thường, sử dụng ngôntừ khác lạ, pha trộn các yếu tố nước ngoài

Hoi man chỉ mà hỏi khó hỏi khăn rửa? Di mà hỏi các nhà ngữ ngôn học Việt Nam

miệng đó chớ, Số điện thoại mô bai là , imeo la Đọ nạ! Tui nộ biết chi tra lời cho thiệt du

thiệt ro ràng mộ! (NGÔN NGỪ LA CAI CHI CHI VAY TA”).

nhac’ thik anh da~ la^u raaj` Anh dang trai wa moy' tink’ tan vo~ cua mjnh’ (*Nhocthích anh đã lâu roài/rôi Anh đang trai wa/qua môi tinh tan vở của minh),

Oh Tại Sao nhĩ ® ; giờ tớ show cho cả nhà 1 anh chàng vô kùg đáng iu nhá @hinh

nai chụp quê tớ day ® ai min bít vé chàng thì pm tớ nhá đi,

Hình 2.3 Vi du về ngôn ngữ sử dụng trên mạng xã hội

2.3 Mối liên hệ nhóm tuôi và đặc trưng của ngôn ngữ sử dụng trên mạngxã hội

Cũng như các nhân tô xã hội khác của sự phân tang xã hội tuôi tác khácnhau thì có các phương thức biểu đạt ngôn ngữ khác nhau Có thé nói, ngôn ngữmạng là ngôn ngữ đặc trưng của giới trẻ và người dùng có xu thé trẻ hóa/teenhóa ngôn ngữ mạng [15] Nếu như trong giao tiếp chính thức người lớn tuôi sửdụng ngôn ngữ tương ứng với lứa tuôi, thì trong ngôn ngữ mạng van có thé thayxuất hiện ngôn ngữ mạng của người lớn tuổi “bắt chước”, “phỏng theo” ngônngữ của giới trẻ Sự thay đôi này, một mặt lam cho các cư dân mang “gia” đượctrẻ hóa, tăng hiệu quả vui nhộn, hài hước, bỏ qua quy chuẩn như truyền thống,mặt khác chính điều này đôi khi làm nhiều và giảm độ chính xác khi thực hiện

Trang 24

phân loại nhóm tuôi Vi dụ, các cư dân mạng tuy trên 50 tuôi van sử dụng các

từ iu, rùi, biêu tượng icon ©,

Đặc trưng của ngôn ngữ của từng nhóm tudi thé hiện ở các câu, từ đượcngười dùng sử dung dé mô tả những hoạt dong, đối với những nhóm tuổi thấp

những nội dung như: di học, thi, bố, mẹ, lên lớp, trông em thì các nhóm tuôitrưởng thành sẽ có các nhóm từ đặc trưng khác như: dam cưới, di làm, ông chu,

vợ, chồng, sinh con, ông chủ, tăng lượng Doi với các nhóm tudi người cao

tuổi thì có thể có các cụm từ như: về hưu, cháu, phục hồi, loãng xương, báo

hiểm nhân thọ, Sở thích của người dùng cũng góp phân xác định nhóm tuổi, những nhóm

người trẻ sẽ có thói quen thích các trang hoặc hoạt động như ca nhạc, xem phim,

thê thao, ngôi sao ca nhạc điện ảnh, sự kiện thời trang, các trang tán gẫu Đốivới người thuộc các nhóm tuổi trung, cao tudi thi quan tâm đến các sự kiện,fanpage hoặc các van đề về chính tri, việc làm, kỹ năng, chăm sóc gia đình, mẹovặt Đối với nhóm cao tuổi thi quan tâm đến các sự kiện hay trang fanpage về

sức khỏe, về lịch sử

Trong nghiên cứu của Jian Hu[16] và cộng sự về dự đoán thông tin nhânkhẩu học gồm tuổi và giới tính dựa trên hành động của người dùng, cho thayrằng có thé dựa vào mỗi quan tâm của người dùng thông qua các hành vi đãthực hiện trên trang web, các nội dung mà họ thích Với các nhóm tuổi thiếuniên (<18), thanh niên (18-24) và (25-34), trung niên (35-49) va cao tuổi (>49).Tác giả Sara Rosenthal và cộng sự [17] trong nghiên cứu về dự đoán tuôi trênBlog cho thấy có thé dự đoán tuổi của của người dùng dựa vào các hành vi vàsở thích như số lượng bạn bè, SỐ lượng bài dang, thời lượng online, thời gianonline, các bình luận, sử dụng các biểu tượng cảm xúc (emotion), các từ long,dau câu, viết hoa, sử dung câu, sử dụng các liên kết và hình anh minh họa là

các cơ sở đê sử dụng làm các đặc trưng dự đoán tuôi.

2.4 Biểu diễn văn bảnĐề thực hiện phân lớp dữ liệu, trước tiên cần biến đối dữ liệu về dạng biểudiễn phù hợp, thông thường ta sử dụng dang không gian vector [13][18], dướihình thức mỗi văn bản là một tập các từ (các đặc trưng) dé diễn tả tang suất xuất

hiện của từ trong văn bản.

15

Trang 25

_Mộyví đụ về biếu diện văn bản

ới dạng vector cat đặế trưngVN;

J4

A

I jit ji ji fi |2 12 Jf | | O |1 |i I 10

Mot | ví | du | về | biéu | điển | văn | ban | đưới | vector | đêm | đặc | trưng | cho | hai

Hình 2.4 Biéu dién văn bản dưới dang vectorVới việc biéu diễn bằng không gian vector, tập N văn bản, có tông số M

các đặc trưng của cả N tập sẽ được biêu diễn là một ma trận: DỊ M xNỊ

D = (dj )

Trong đó: dị biểu diễn sự xuất hiện của từ i trong văn ban j

+ dị # 0, nếu từ khóa i xuất hiện trong văn bản j.+ dị = 0, nếu từ khóa i không xuất hiện trong văn bản j.Đối với dé tài phân loại nhóm tuổi người dùng mạng xã hội Tác giả thựchiện phan phân loại dựa trên các văn bản người dùng đã sử dụng, việc biểu diễntập dữ liệu băng ma trận vector sỐ lượng từ khóa biểu diễn với hơn hàng chục

ngàn đặc trưng.

Trong việc biểu diễn văn bản dưới dạng không gian vector, chúng ta chỉquan tâm đến sự xuất hiện của một đặc trưng trong văn bản, nếu đặc trưng xuấthiện trong một văn bản mà người sử dụng càng nhiều thì khả năng người dùngthuộc nhóm tuôi đó Tuy nhiên, nếu đặc trưng đó xuất hiện trong nhiều văn bankhác của nhiều nhóm tuôi khác nhau, thì đặc trưng đó không có giá trị sử dụng

phân loại.

Việc biểu diễn giá tri của đặc trưng có xuất hiện trong một văn bản sẽkhác nhau tùy theo từng phương pháp thực hiện Trong đề tài tác giả sử dụngphương pháp thực hiện biểu diện vector Bag of Word (BoW) kết hợp vớiphương pháp trọng số TFIDF để biểu diễn và biểu diễn kết hợp số lượng từ n-

øram.

2.5 Kỹ thuật TF — IDE (Term Frequency x Inverse Document Frequency)

Phương pháp nay sử dung dé đánh giá giá trị quan trọng của một đặctrưng trong văn bản, giá trị trị dij được tính toán dựa trên bộ số TF và IDF

[18][19].

Trang 26

Gia tri dij tỉ lệ thuận với sô lần đặc trưng i xuât hiện trong văn bản 7 vàtông sô các văn ban, tỉ lệ nghịch với tông sô văn bản có từ z xuât hiện.

Bats can see viaThe elephant sneezed pseane Wondering, she opened

echolocation See the aeat the sight of potatoes bat sight sneeze! the door to the studio.

Hình 2.5 Biéu dién văn bản dưới dang vector Bag of Word (nguon [18])

- TF (Term Frequency): tần suất xuất hiện của một từ trong một đoạn văn

bản.

số lần từ ¡ xuất hiện trong van ban j

(dij) Tổng số từ trong văn bản j

- IDF (Inverse Document Frequency): tính toán độ quan trọng của một từ,

đánh giá tầm quan trọng của một từ Những từ xuất hiện trong nhiều văn bản

của cả tập văn bản sẽ giảm giá trị.

IDF (t;, D) _ log (= SỐ van ban trong ”)

Số van ban chứa từ tị

- Trong số TF-IDFKết hợp giữa trọng số TF và trọng số IDF

17

Trang 27

Ví dụ: một văn bản chứa 100 từ, trong đó từ “chào” xuất hiện 3 lần Tập

văn bản có 10 triệu văn ban, trong đó có 1000 văn bản có từ “chào”TF sẽ là = 0.03 (3/100) IDF là log(10,000,000 / 1,000) = 4.TF-IDF của tu “chao” sẽ là : 0.03 * 4 = 0.12.

Wondering, she openedthe door to the studio.

ae

010101030010 |103010 1030101041010 0.3

È vsŠ ES OSE SF S SSP ct X¥ SE FS ow e€ eS ee Rk ` Yr FT S _ sẽ sKK FC SY

Hình 2.6 Biéu dién văn bản dưới dang vector tfidf (nguồn [18])

2.6 Mô hình ngôn ngữ n-gram

M6 hình ngôn ngữ n-gram là chuỗi kết hợp nhiều từ liên kề nhau[20], việc

sử dụng mô hình n —gram trong phân loại văn ban giúp khả năng xác định đặc

trưng từ đôi, từ ba sẽ tốt hơn về mặt cau trúc kết hợp từ, bên cạnh việc sử dụng

việc tách từ.

Với n= 1 là số từ kết hợp.Ví dự: với câu H6m nay trời nắng chói changn=1, ta có: Hôm | nay] trời| năng| chói| chang

Với n = 2, ta có khái niệm bigram.

Ta có: Hôm nay| trời nắng| chói chang

Việc lựa chọn đặc trưng trong tập các đặc trưng của văn bản mà người

dùng đã sử dụng là quan trong trong phân loại nhóm tudi Vì số lượng từ trong

Trang 28

văn bản thường nhiều, nên dẫn tới vector chuyển đổi có số chiêu lớn, ảnh hưởngđến độ chính xác của mô hình do tầng suất xuất hiện của từ trong vector giảmdi, bên cạnh đó với số lượng đặc trưng lớn dẫn đến tiêu tốn tài nguyên cũng nhưthời gian xử ly của hệ thống cũng tăng lên Vi thế việc lựa chọn đặc trưng bangmột số phương pháp nhăm rút gọn kích thước ma trận biểu diễn Một số kỹ thuậtcó thê kế đến như phương pháp số lần suất hiện, phương pháp độ lợi thông tin,phương pháp thống kê chi bình phương X” phương pháp thông tin tương hỗ,phương pháp độ mạnh của từ Trong dé tai, tác giả sử dụng phương pháp

ngưỡng từ khóa văn bản xác định bởi quá trình vector hóa từ tfidfvectorize được

hỗ trợ bởi thư viện sklearn để xác định ngưỡng loại bỏ các đặc trưng, và phươngpháp chi bình phương X? dé phân tích kết quả

2.7.1 Phương pháp ngưỡng từ khóa văn bản

Đề giới hạn SỐ lượng đặc trưng được sử dụng, dựa tên việc tính toán tầngsuất xuất hiện của từ ta xác định ngưỡng được giữ lại để loại bỏ các đặc trưngcó tầng suất dưới hoặc trên các ngưỡng được xác định Trong dé tài tac giả xácđịnh ngưỡng tối thiêu và tối đa của bộ chỉ số TFIDF dé giới hạn số lượng đặc

trưng.2.7.2 Phương pháp Chi bình phương X?

Phương pháp thống kê X” được sử dụng để xác định sự phụ thuộc của cácđặc trưng với nhóm cu thé [13] Trong dé tài, tac giả sử dụng phương pháp X?để tìm hiểu các đặc trưng của từng nhóm và tìm hiểu kết quả phân loại của hệthống

Văn bản có đặc | Văn bản không chứa đặc

trưng w trưng w

Văn bản thuộc nhóm d; A CVan ban không thuộc nhóm đ, B D

Bang 2.1 Phân bố đặc trưng w trong tập văn bản (nguồn [18])

Trong đó:

- A: tong số văn bản thuộc nhóm d; có chứa đặc trưng w- B: tổng số văn bản không thuộc nhóm đ; có đặc trưng w xuất hiện- C: tông số văn bản thuộc nhóm d; không có đặc trưng w xuất hiện

19

Trang 29

- D: tổng số văn bản thuộc nhóm d; không có đặc trưng w xuất hiện

2.8 Phương pháp Support Vector Machine - SVM

Support Vector Machine - SVM là một phương pháp nhằm tìm kiếm mộtmặt siêu phăng phân chia (separating hyperplanes) tốt nhất trong không giantìm kiếm với mục tiêu là cực tiểu hóa sai số phân loại, đáp ứng tốt bài toán vớidữ liệu có số chiều cao [13][21] Biên sai của siêu phăng được đại diện bởikhoảng cách nhỏ nhất từ biên của đường phân cách (hay còn gọi là lề - margin)tới siêu phang, khoảng cách này được hệ thong SVM quản lý và tìm ra các thông

^“ s +7“ C—

a - al

wae Yl —xã - — —

Hình 2.7 Siêu phang phân cách h phân chia 2 tap, đường gạch nối là các lẻ,

các diém support vector năm trên lê được tô tròn (nguôn [13])

2.8.1 SVM tuyến tínhCho tập mẫu (xi, y1), (X2, Y2), (Xa, a)} với xị € Ry và yj € {-1,1} là nhãn

lớp tương ứng của các x;

x; = 1 tương ung A,x; = -1 tương ung B,

Ta có, phương trình siêu phang chứa vecto x; trong không gian w.x, +b=0

Trang 30

2.8.2.1 Trường hợp biên cứng (hard margin)

Gọi D là tập dữ liệu (w,y) có thé phân chia tuyến tính và không nhiễu.Tất cả các điểm được gán nhãn sẽ:

= = +] thuộc về phía dương của siêu phang,= =-] thuộc về phía âm của siêu phăng.

21

Trang 32

Hình 2.10 Minh họa bài toán phân 2 lớp, với dữ liệu có nhiễu

(nguôn [22]).Trong trường hợp nay, ta sử dụng thêm biến biến bù š i, dùng dé đo độ sai

lệch của x; Ham ràng buộc:

Bài toán tôi ưu cân giải:

1min(L(w,&)) = 5 llwl|l” + Cy ey

yi(w'x, +b) >1-§,i1=1, ,48; >0Trong đó, tham số C là tham số xác định trước, định nghĩa giá trị rangbuộc, C càng lớn thì mức độ vi phạm đối với những lỗi thực nghiệm (thương sốcủa số phân tử lỗi và tông số phân tử huấn luyện) càng cao

2.8.2.3 Trường hợp không phân chia được tuyến tínhTập dữ liệu D không thé phân chia tuyến tính trong không gian hiện tại.Ta thực hiện phép biến đổi các vector dữ liệu x từ không gian n chiều vào một

23

Trang 33

không gian m chiêu (m>n), sao cho trong không gian m chiều, D có thé phânchia tuyến tính được.

®@ ®

Hình 2.11 Minh họa bai toán phân lớp, không thé phân chia tuyếntính trong không gian hiện tại Ta thực hiện một phép bién đôi

không gian tính toán (nguồn [22])Goi là một ánh xa phi tuyến từ không gian R" vào không gian RTM

2.8.3.1 LinearĐây là trường hợp đơn giản với kernel chính tích vô hướng của hai vector:

k(x,z)=xÌz

khi sử dụng hàm sklearn.svm.SVC, kernel này được chon băng cách đặt

Trang 34

kernel = 'linear'2.8.3.2 Polynomial

k(x,z)=(t+yx'z)*

Với d là một số dương dé chỉ bậc của đa thức, d có thé không là SỐ tự

nhiên vì mục đích chính của ta không phải là bậc của đa thức mà là cách tính

kernel Polynomial kernel có thé dùng dé mô tả hau hết các đa thức có bậc khôngvượt quá d nếu d là một số tự nhiên

Khi sử dung thư viện sklearn, kerrnel này được chon băng cách đặt

kernel = 'poly'.2.8.3.3 Radial Basic FunctionRadial Basic Function (RBF) kernel hay Gaussian kernel được sử dungnhiều nhat trong thực tê, và là lựa chon mặc định trong sklearn Nó được địnhnghĩa bởi:

k(x,z}=exp(-rl|x~z|Í2) >0

Trong sklearn, kernel = 'rbf".

2.8.3.4 SigmoidSigmoid function được sử dung lam kernel: k(x,z)=tanh(yxÌz+r)Trong sklearn, kernel = 'sigmoid'

Dưới đây là bang tóm tat các kernel thông dụng va cách sử dung trong sklearn

Tên Công thức kernel Thiết lập hệ số

Linear xửz linear' không có hệ sô

Polynomial (r if yx? z)4 ‘poly’ d: degree, y: gamma,

r: coef0Sigmoid tanh(yx!z + r) ‘sigmoid’ | y: gamma, r: coef0

2 het

Bảng 2.2: Các kernel được hỗ trợ của thư viện Sklearn

2.8.4 Chiến thuật phân loại nhiều lớpBài toán phân lớp nhị phân có thé được mở rộng trong bài toán phân loạinhiều lớp, xét 2 trường hợp:

25

Ngày đăng: 08/09/2024, 23:52