Để đi sâu vàotìm hiểu một môi trường dữ liệu mới, nhiều tiềm năng và phát triển ứng dụng phục vụ cộng đồng, chúng tôi tiễn hành nghiên cứu đề tài “Phát triển và triển khai thực nghiệm hệ
Trang 1ĐẠI HỌC QUỐC GIA TP HCMTRƯỜNG ĐẠI HỌC BÁCH KHOA
VÕ TRỌNG TUẦN ANH
XÂY DỰNG HỆ THÓNG TƯ VẤN
TREN CÁC TRANG FACEBOOK FANPAGE
Chuyén nganh : KHOA HOC MAY TINHMa so: 60.48.01
LUAN VAN THAC SI
TP HO CHI MINH, thang 11 nam 2013
Trang 2CÔNG TRÌNH ĐƯỢC HOÀN THÀNH TẠITRUONG ĐẠI HOC BACH KHOA —DHQG -HCM
Cán bộ hướng dẫn khoa học : PGS.TS QUAN THÀNH THƠCán bộ chấm nhận Xét Ì : -.- ¿6E SE EE9E SE E#ESESEEESEEEEsEskekreeeesed
Xác nhận của Chủ tịch Hội đồng đánh giá LV và Trưởng Khoa quản lýchuyên ngành sau khi luận văn đã được sửa chữa (nêu có).
CHỦ TỊCH HỘI ĐÔNG TRƯỞNG KHOA
Trang 3ĐẠI HỌC QUỐC GIA TP.HCM CỘNG HÒA XÃ HOI CHỦ NGHĨA VIỆT
TRƯỜNG ĐẠI HỌC BÁCH NAM Độc lập - Tự do - Hạnh phúc
KHOA
NHIỆM VỤ LUẬN VĂN THẠC SĨ
Họ tên học viên: VÕ TRONG TUẦN ANH MSHV: 11070441 Ngày, thang, năm sinh: 04/06/1979 -: Nơi sinh: KHÁNH HÒAChuyên ngành: KHOA HOC MAY TINH Mã số : 60.48.01 I TEN DE TÀI:
XAY DUNG HE THONG TU VAN TREN CAC TRANG FACEBOOKFANPAGE000i ầẰ5 -.H NHIỆM VU VA NOI DUNG: Phát triển va triển khai thực nghiệm hệ thống
tư vân cho người dùng đền các trang facebook fanpage phù hợp dựa trên nhucầu về nội dung va số lượng truy cập ¿- ¿5-5-5252 SE E2 rkrkrkrrrreeHI NGÀY GIAO NHIỆM VỤ: 21/01/2013 5-5- 25c cscccrsrrerreeIV NGÀY HOÀN THÀNH NHIỆM VU: 22/11/2013 -5-5-555 555555252V CAN BO HUONG DAN: PGS.TS QUAN THÀNH THO
Tp HCM, ngay thang năm 20
CAN BO HUONG DAN TRUONG KHOA(Ho tén va chit ky) (Họ tên và chữ ky)
PGS.TS QUAN THÀNH THƠ
Trang 4LỜI CÁM ƠN
Tôi xin gởi lời cảm ơn chân thành và sâu sắc nhất đến PGS.TS Quản ThànhThơ Thây đã tận tình hướng dẫn tôi trong suốt thời gian thực hiện đề cương vàluận văn cao hoc, tạo mọi điều kiện dé tôi có thé hoàn thành tốt luận văn này
Tôi xin gởi lời biết ơn chân thành đến các Thay Cô trong khoa Khoa Học & KỹThuật Máy Tính trường đại học Bách Khoa TPHCM Các thay cô đã tận tinh chidạy, trang bị cho tôi những kiến thức quý báu trong suốt thời gian tôi học cao họctại trường.
Tôi xin gởi lời cảm ơn đến gia đình, bạn bè và các đồng nghiệp nơi tôi công tácđã động viên và tạo mọi điều kiện thuận lợi giúp tôi hoàn thành luận văn Đặc biệtxin gửi lời cảm ơn đến bạn Nhan Thị Thu Nga và các anh chị đã giúp tôi trongviệc khảo sát và cung cấp dữ liệu phục vụ cho việc nghiên cứu dé tai này
Mặc dù đã cố gắng để có thể hoàn thành tốt nhất luận văn trong khả năng chophép, nhưng chắc chắn luận văn sẽ không tránh khỏi những thiếu sót, kính mongnhận được sự chỉ bảo tận tình của quý Thây Cô và các bạn
Tp Hỗ Chí Minh, ngày 20 tháng 11 năm 2013
Học viênVõ Trọng Tuan Anh
Trang 5TÓM TẮT LUẬN VĂN
Trong những năm gan đây, mạng xã hội ra đời đã đối mới hoàn toàn cáchcư dân mạng liên kết với nhau và trở thành một phần trong cuộc sống hàngngày của hàng tỷ người trên thế giới Sự phát triển không ngừng của mạng xãhội đã làm cho quá trình tìm kiếm thông tin hữu ích của người dùng trở nênkhó khăn, đồng thời nó cũng thúc đây các nghiên cứu khai thác dữ liệu trênmôi trường mạng xã hội ngày càng mạnh mẽ Một trong những hướng nghiêncứu trong lĩnh vực này là khai phá dữ liệu trên mạng xã hội để tư vẫn chongười dùng đến các dữ liệu hữu ích nhanh và chính xác
Trong phạm vi của nghiên cứu này, chúng tôi đã tiến hành khảo sát cácphương pháp xử lý và khai thác dữ liệu cổ điển, các phương pháp đánh giá,phân loại và gom nhóm người dùng trên môi trường internet Qua đó dé xuấtmột phương pháp nhận dạng nội dung các fanpage trên mạng xã hội, kết hợpvới các tương tác của người dùng va xây dựng thử nghiệm hệ thống tư vanngười dùng đến với các fanpage phù hợp
Trang 6In recent years, social network has changed completely the connectionmethod among netizens and become an essential part of the daily lives ofbillions of people around the world The continuous growth of social networkhas made the process of finding useful information become difficult, and it alsomotivates the research of data mining on social network environment morepowerful One of the research directions in this field is data mining on socialnetworks to advise users with useful, quick and accurate data.
Within the scope of this thesis, we researched on classic methods in datamining, assessment methods, user classification in the social network Afterthat, we proposed a method of combining between fanpage contentidentification on social networks and user’s interaction to build a demo systemfor advising people to suitable fanpages.
Trang 7LỜI CAM ĐOAN
Tôi xin cam đoan răng, ngoài các kêt quả tham khảo từ các công trình khácđược ghi rõ trong luận văn, các công việc được trình bày trong luận văn này là dochính tôi thực hiện và chưa có phân nội dung nào của luận văn này được nộp đêlay một bang cấp ở trường này hay trường khác
Tp Hỗ Chí Minh, ngày 20 tháng 11 năm 2013
Học viênVõ Trọng Tuấn Anh
Trang 8Chương I: GIỚI THIỆU 5s esriiierirrrrrrrrrrrrei 12
1.1 Lý do chọn đê tài QONNNNNNNNNNNNNNHQJANTAO HN 121.2 Mục tiêu và giới hạn của đê tài -cccceceheherehrerirrrrree 1313 Cau trúc luận văn — 14
Chương2: CƠ SƠ LY THUYETT - (c5 2222222212138 E2EEEE£EEEEEEEEEEEEekrkrkrrre l6
2.1 Các bước của quá trình phát hiện tri thỨc - 55522511 **++kv+seeeerseses 162.2 _ Các kỹ thuật khai phá dữ liệu - - 1 1221111199 111199 1111190111 ng key 172.2.1 Khai phá dữ liệu dự đoán 5c 1322 111133133211 1111115311111 8111 111kg 172.2.2 Khai pha dif 200 01.0 18
23 Các thuat toán xử lý Air liệu - - - c2 2.11111112221111 1 111911111111 11111 1 1 g2 19
23.1 Tiên xử lý văn bảï - -.- 111121119 1n ng HH 192.3.2 Thuật toán k-means - 5-2 2 221111111111 111 11111113532 1 11c net 1924 Những thach thức của việc khai pha dữ liệu trên mạng xã hội 252.5 Huong tiêp cận của đê tài — c 25
Chuong 3: CAC NGHIEN CƯU LIEN QUAN - ¿252 22 25 xccsccexserees 27
3.1 Khai phá nội dung W€b LH SH TH TH ng HH 273.1.1 Vector space mOd€Ì - c1 201g ng ng th 273.1.2 Tìm kiếm trên web (Web Search): - + + tx St 121511 21211111 11111111111 xe 283.1.3 Gợi ý từ khóa tìm kiẾm: - 5c E12 E121 1E E21 18212121 1710111 111011 xe 283.2 _ Khai phá sử dụng web ng TH HH kh 293.2.1 Đánh giá mức độ tương tự giữa hai người dung web ccccc<Ă2 303.2.2 Phân nhóm người dùÙng: - - - - c 133111332311 11191111 99 1111101 1 ng tk ng kg 313.3 Khai phá liên kết web - s21 1235312311511 11 2121111121111 11111110111 011cc 323.4 Social Lens — KH W U 33
Chương 4: - KET HỢP GIUA KHAI THAC NỘI DUNG WEB VA TƯƠNG TÁCCUA NGƯỜI DUNG - 5: 2 E22 2212122121121 1E1 1111111115111 111 2811111110111 01101 811g rrey 35
4.1 Rut trich dU HU — 35
4.2 Tô chức lưu trữ dữ liệu fanpage «0 eee eee eerste cesses eeeneeneseeneeeneeneeens 364.3 Tìm kiêm va hiên thị kÊt quả - - - - 2c 1123101113951 11191111 19v ng kg re 37ABA Tim kid ca nh 374.3.2 Hiển thị kết quả - +51 S221 1 122521115 12111011 1121111101110 1101012101010 y0 40
Trang 94.4 Tương tác với nPƯỜI Ùng - c1 HS HH 404.4.1 Loại bỏ những kết quả không phù hop - - 25252 222E+Ez£cztzrczrszxee 4044.2 Thay đổi giới hạn kết quả hién thị, - + - 2 2E SE2E£E£EE£E2EeEcrkrkrrrree, Al4.5 Cap nhật dữ liệu 1921114111 1 1120.1110100 1101000100000 1000110001 001000 424.5.1 Loại bỏ những trang không còn tÔn (ạI - c5 11+ srsssxke 42
4.5.2 Cập nhật trang có tần suất cập nhật thông tin lớn 2-5-2 s+s+s+s<c: 42
4.6 Cập nhật những trang xuất hiện nhiều trong kết quả tìm kiếm - 43
4.7 _ Cập nhật từ khóa tìm kiêm TH NHA ANNTNNNNNUUOH 43
Chương 5: THIET KE VÀ CAI DAT UNG DỤNG - ¿ 55c 2c Sex 41
5.1 _ Thiết kê hệ thông - 11121 1H ng ng HH 445.1.1 Phân hệ 1: Bộ thu thập và xử lý dữ liệu - 5 S22 **++sssrresssses 44
Bộ thu thập dữ liệu (Crawler) - - - c1 112221112 ng ng ng kh 44MU LY der GU 0 Ö 51c Phân cụm đữ liệu ooo ececcccccccccccccccccccecceeeeeeseeeesesessceececseseessesesssssaseeaeeenes 545.1.2 Phân hệ 2: Bộ xử lý truy vấn +: S2 S21 E3 212121211 212151 1111112111 cce 54a Website giao diện người dÙng - - -.- 11121 SH ng kg kh 55b Bộ xử lý truy vẫn - 5c Sc 1 22121111111 2121111 1111 1211011111102 111 1e 55Chương 6: THI NGHIEM VÀ ĐO ĐẠT c1 c2 E211 2121121212711 de 56
“vì ái 0/062 08 566.2 Moi trường thực hiện thí nghiệm - - - <5 2 2 21133333355151EExx+2 586.3 Kêt quả thi nghiệm - ete eens eeneeseeceenerseenseenecnersesenseseneceneesenees 59
Chuong 7: TONG KET ooececccccccccccsscsssecsessescsecscsecseseacsececsesscseecseeecsesesesssseeesseaeass 65
TL KẾtluận cv tt th HH HH Hee 657.2 _ Hướng phát trIÊn Ăn HH 66IP.00)208957)89)/ 01 68
1 Kêt quả khảo Sất: - - c HS SH TH ng tre 69
2 File template để tách nội dung fanpage - + - + 21222 E2 rkrkeree 723 File template dé tách nội dung trang cá nhân lay fanpage mới - 75
A Dữ liệu tải được từ một fanpage - - - - c1 121311 * 9 1 111111111 1182111 re 76
Trang 10DANH SÁCH BANGBảng 1: Vi dụ dữ liệu truy vanBảng 2: Ma trận link-strength.
Trang 11DANH MỤC HÌNHHình 1 Sơ đồ thuật toán k-means - - c s1 S11118 158515118 E551158 11111555111 51111111 E11 xe 20Hình 2: Mô hình xử lý gợi ý tim kiẾm +2 cscs 2E2E*EE2E 218321212111 2121212 2212 xe 29Hình 3: Framework mà nhóm tác giả dé XuẤt + 52522 SE E221 EE212152 212122 34Hình 4: Giao diện cho phép người dùng thay đổi tham số hệ thống 34Hình 5: Màn hình hién thị kết quả tìm kiếm + 5° 2E E22 ££2E2E£E£E£E£EzEEzxzrrree, 40Hình 6: Người dùng hủy những kết quả không phù hop - 2-5222 s+s+zzsec: 41Hình 7: Thay đổi tham số dé nhận được kết quả phù hợp với nhu cau người dùng 42Hình 8: Sơ đồ tổng thé hệ thong - 2 - 2222119221 2121521212112111111 11211111 11 e6 44Hình 9: Giao diện ứng dụng tao template dé tải nội dung fanpage - 45Hình 10: Nhập URL can tải dé làm template mẫu ¿2-5 esses eseseeeseseseeseeen 45
Hình 11: Nội dung trang web được tải và trình bày ở dang tree vIew ‹ ~- 46Hình 12: Fanpage được trình duyệt hiển thị - 5 252222 ££2E+E£E£EzEsEcrerxrrrree 47Hình 13: Kết qua tìm kiếm được hiển thị và đánh dấu - 2 - 2 252+£+scszzzcs ATHình 14: Uncomment code dé lây dit liệu ooo ccescseseesesceesesesssteseseeeseseseaees A8Hình 15: Chon va đặt tên cho các đữ liệu can lấy - 52 2 2S22E2E2E+EzEersrrred 48Hình 16: Thêm dữ liệu cần lấy vào cây template +: - +52 2E+xecszEzEcrerrxerre 49
Hình 17: Nội dung template được ÏƯU 2c 123111119 111119 1111191111 key 49
Hình 18: Danh sách các fanpage cần tải nội dung +25 + 2+++s+£+zEzE+xeczxzre 50Hình 19: Nạp danh sách cần tải vào ứng dụng, 5-52 S2 2222212 2212152 121 re 50
Hình 20: Dữ liệu thô sau khi tải với templafe - - - c1 11+ 1 9 ve 51Hình 21: Kết qua thí nghiệm l 2-22 9S SE2EEE£EEEE2EEEE21E12112521115 1121211 e6 59Hình 22: Kết quả thí nghiệm 2 2-52 2EE9ESE 2191921 12151521212112121115 112101110111 e6 60Hình 23: Kết qua thí nghiệm 3 2-52 2E E223 192121 2121221212117111111 11210111 e6 61Hình 24: Kết qua thí nghiệm 4 0.0 0.ccccccccccccscccscssescscsscsescsesscsescssssesesessssesssessesssnseeseeen 62Hình 25: Kết quả thí nghiệm 5 - + - 222 E9S S221 E9E1E12121521212112111115 1121011110111 e6 63
Trang 12Chương ổChương 1: GIỚI THIỆU
1.1 Lý do chọn đề tài
Trong những năm gan đây, mạng xã hội ra đời đã đổi mới hoàn toàn cáchcư dân mạng liên kết với nhau và trở thành một phân trong cuộc sống hàngngày của hàng tỷ người trên thế giới
Hiện nay, thế giới có hàng trăm mạng mạng xã hội khác nhau, vớiMySpace và Facebook nổi tiếng nhất trong thị trường Bắc Mỹ và Tây Au;Orkut và Hi5 tại Nam Mỹ; Friendster tại Châu Á và các đảo quốc Thái BìnhDương Mạng xã hội khác gặt hái được thành công đáng kể theo vùng miềnnhư Bebo tại Anh Quốc, CyWorld tại Hàn Quốc, Mixi tại Nhật Bản và tại ViệtNam xuất hiện rất nhiều các mạng xã hội như: Zing Me, YuMe, Tamtay
Năm 2006, Facebook ra đời đã đánh dấu bước ngoặt mới cho hệ thốngmạng xã hội trực tuyến với nhiều tính năng vượt trội Facebook nhanh chónggặt hái được thành công vượt bậc, số lượng thành viên tăng nhanh và trở thànhmạng xã hội hàng đầu thế giới hiện nay Tính đến cuối tháng 11/2011, số lượngthành viên facebook hơn 792,999,000 chiếm 55.1% tong số thành viên cácmạng xã hội (nguồn hffp://en.wikipedia.org/wIki/Social_networkinø_service ).Sự phát triển không ngừng của mang xã hội thúc day các nghiên cứu khai thácdữ liệu trên môi trường này ngày càng mạnh mẽ.
Internet là môi trường đa phương tiện động bao gồm sự kết hợp của các dữliệu không đồng nhất Khai phá dữ liệu trên internet, hay thường gọi là khaiphá dữ liệu web ngoài việc cần khai thác nội dung văn bản, các nghiên cứu cònkhai thác các mối quan hệ giữa chúng và cách thức mà con người sử dụngchúng Khai phá dữ liệu internet đang phát triển mạnh mẽ bao gém rất nhiềulĩnh vực nghiên cứu như: trí tuệ nhân tạo, truy xuất thông tin, thống kê và tiênđoán, Các công nghệ truy xuất thông tin dựa trên nội dung, truy xuất thôngtin sử dụng, tính hạng trang web dựa trên các đặt trưng siêu liên kết thườngđược xem là các lĩnh vực nhỏ trong khai phá web Khai phá web vẫn còn là
Trang 13Chương ổ
một môi trường mở và liên tục được phát triển Tuy vậy, ta có thé hiểu khaiphá web như việc trích ra các thành phần được quan tâm hay được đánh giá làcó ích cùng các thông tin tiềm năng từ các tài nguyên hoặc các hoạt động liênquan tới world-wide-web Người ta thường phân khai phá web thành 3 lĩnhvực: khai phá nội dung web, khai phá cấu trúc web và khai phá sử dụng web
Ra đời chưa lâu và là môi trường có tính đặc thù riêng, mạng xã hội mangđến cho việc khai phá dữ liệu nhiều cơ hội và thách thức mới Ngoài yêu caunăm vững cơ sở về lý thuyết khai phá dữ liệu, phân cụm tài liệu, phân tích cácphương pháp phân cụm như khai phá dữ liệu truyền thống, khai phá dữ liệutrên mạng xã hội còn yêu cau xử lý tài liệu được viết một cách không chínhthống (pha trộn nhiều ngôn ngữ, viết tắt, viết sai chính ta, thông tin được biểudiễn bằng cách phối hợp nhiều kiểu dữ liệu khác nhau như ký tự, hình ảnh,
clip, siêu liên két, ) Bên cạnh những khó khăn nêu trên, khai thác dữ liệu
trên môi trường mạng xã hội cũng mở ra nhiều ứng dụng mới như thành lậpcác cộng đồng chung sở thích, quảng cáo hướng đối tượng, Để đi sâu vàotìm hiểu một môi trường dữ liệu mới, nhiều tiềm năng và phát triển ứng dụng
phục vụ cộng đồng, chúng tôi tiễn hành nghiên cứu đề tài “Phát triển và triển
khai thực nghiệm hệ thống tư van cho người dùng đến các trang facebookfanpage phù hợp dựa trên nhu cầu về nội dung và số lượng truy cập.”
1.2 Mục tiêu và giới hạn của đề tài
Do đặc thù của mạng xã hội, việc khai phá liên kết web và khai phá sửdụng web tương đối khó khăn do ứng dụng không có quyên truy cập sâu vàocơ sở dữ liệu của facebook và người dùng thường không thiết lập trang cá nhâncủa mình ở trạng thái công khai hoàn toàn (public).
Vì vậy, mục tiêu của nghiên cứu này là đưa ra những cơ sở lý thuyết vàhướng tiếp cận cho việc khai thác dữ liệu trên môi trường mạng xã hội, tậptrung vào khai thác nội dung web và kết hợp một số thông tin liên kết web thuthu thập được, cùng với các tương tác của người dùng lên hệ thông dé cung cấp
Trang 141.3 Cấu trúc luận văn
Với mục tiêu đề tài đã được đặt ra là khảo sát, nghiên cứu và triển khai thựcnghiệm hệ thống tư van cho người dùng đến các trang facebook fanpage phùhợp dựa trên nhu cầu về nội dung và số lượng truy cập Nội dung luận vănđược chia thành 7 chương với câu trúc như sau:
Phan 1: Tìm hiểu, nghiên cứu về mặt lý thuyết và kỹ thuật Nội dung phan1 bao gồm các chương sau:
4 Chương 1: Tổng quan
Trong chương này, chúng tôi khảo sát cũng như giới thiệu cácmạng xã hội đang hoạt động hiện nay đồng thời cũng chỉ ra nhữngthách thức đối với khai phá dữ liệu trên mang xã hội Qua đó dé ramục tiêu nghiên cứu và giải quyết của đề tài
Trang 15Chương ổ+% Chương 4:
Trong chương này, chúng tôi đi vào chỉ tiết giải pháp phối hợpgiữa khai thác nội dung web và tương tác của người dùng để xâydựng hệ thống tư van cho người dùng đến các trang facebookfanpage phù hợp.
Trang 16Chương Cơ sở ê
Chương 2: CƠ SỞ LÝ THUYET
2.1 Các bước của quá trình phát hiện tri thức
Về cơ bản, quá trình phát hiện tri thức được quy về 6 bước chính:
* Gom dữ liệu
Tập hợp dữ liệu là bước đầu tiên trong quá trình khai phá dữ liệu Đây làbước được khai thác từ các nguồn dữ liệu (cơ sở dữ liệu, kho dữ liệu, cácnguồn ứng dung web, )
* Trích lọc dữ liệu
Ở giai đoạn này dữ liệu được lựa chọn hoăc phân chia theo một số tiêu
chuẩn nào đó phục vụ mục đích khai thác
4 Làm sạch, tiền xử lý và chuẩn bị trước dữ liệuĐây là bước rất quan trọng trong quá trình khai phá dữ liệu Dữ liệu thugom được thường tôn tại các phần tử không có tính logic, chứa các giá trị vônghĩa va không có khả năng tao ra tri thức (ví dụ vận tốc xe đạp là 320km/gi0).Bước này sẽ tiến hành xử lý những dạng dữ liệu không chặt chẽ nói trên.Những dữ liệu loại này được xem như thông tin không có giá tri Bởi vậy, đâylà một quá trình rat quan trong vi dữ liệu này nếu không được xử lý trước thì sẽgây nên những sai lệch kết quả ở các bước sau
4 Chuyến đổi dữ liệuỞ giai đoạn chuyển đổi dữ liệu, dữ liệu được tổ chức lại và sẽ được chuyểnđổi về dang phù hợp, sẵn sàng cho việc khai phá tri thức
% Khai phá dé liệu
Đây là bước quan trọng, quyết định sự khác biệt giữa các hệ thông khai phádữ liệu Ở bước này, tùy vào đặc thù của ứng dụng khai phá dữ liệu, các thuậttoán khác nhau sẽ được cài đặt để phục vụ cho việc rút trích tri thức
Trang 17Chương Cơ sở ê4 Đánh giá các luật và biểu diễn tri thức
Ở giai đoạn này các mẫu dữ liệu được rút ra bởi thuật toán khai phá dữ liệu.Không phải tất cả các mẫu dữ liệu đều có ý nghĩa và chính xác với yêu cầu, đôikhi nó còn bị sai lệch Vi vậy, cần phải có các tiêu chuẩn đánh giá dé rút tríchra các tri thức can thiết Ví dụ như cần cung cấp một phép đo để đánh giá sựhữu ích của các mẫu tri thức rút được Sau đó tri thức sẽ được biéu diễn mộtcách trực quan hóa cho người sử dụng.
2.2 Các kỹ thuật khai pha dữ liệu2.2.1 Khai phá dữ liệu dự đoán
Khai phá dữ liệu là quá trình rút ra các luật, các dự đoán dựa trên dữ liệuhiện thời Nó dựa vào các thông tin có săn trong cơ sở dữ liệu để dự đoán cácgiá trị không biết hay các giá trị tương lai Bao gồm các kỹ thuật phân loại(classification), hồi quy (regression)
o Phân loại:
Phân loại di liệu là quá trình gán nhãn cho các mẫu dữ liệu Quá trình phân
loại dữ liệu gồm 2 bước: xây dưng mô hình va sử dụng mô hình dé phânloại dữ liệu.
e© Bước 1: Từ các mẫu dữ liệu ban đầu gồm có các thuộc tính, trong đó cómột thuộc tính quyết định gọi là thuộc tính lớp, mỗi mẫu đều phải thuộc
một lớp trước khi xây dựng mô hình Các mẫu dữ liệu này còn được gọi là
tập dữ liệu huấn luyện Mô hình sẽ được xây dựng dựa trên việc phân tíchtập huấn luyện này Phương pháp nay được gọi là học có quan sát
e Bước 2: Sau khi xây dựng mô hình, cần phải tính toán độ chính xác củamô hình Nếu độ chính xác là chấp nhận được, mô hình sẽ được sử dụngđể dự đoán nhãn lớp cho các mẫu dữ liệu khác trong trương lai
Phân loại có thê coi là một hàm ánh xạ một mục dữ liệu vào một trong cáclớp cho trước.
Trang 18Chương Cơ sở êo Hỗi quy:
Nếu phân loại dùng để dự đoán các giá tri rời rac của thuộc tính lớp thi hồi
quy dùng để dự đoán về các giá tri liên tục Hồi quy là một hàm ánh xạ một
mục dữ liệu vào một biến dự báo giá tri thực
2.2.2 Khai pha dữ liệu mô tả
Các kỹ thuật này có nhiệm vụ mô tả về các tính chất hoặc các đặc tínhchung của dữ liệu trong cơ sở dữ liệu hiện có Bao gồm các kỹ thuật phân cụm,phân tích luật kết hợp
o Phân cụm:Phân cụm là quá trình phân loại các đói tượng vào các cụm khác nhau saocho các đối tượng trong cùng một cụm thì tương đồng nhau còn các đối tượng
thuộc khác cụm sẽ không tương đồng Phân cụm dữ liệu là một ví dụ của
phương pháp học không giám sát Không giống như phân loại dữ liệu, phâncụm đữ liệu không đòi hỏi phải định nghĩa trước các mau dữ liệu huấn luyện.Trong phương pháp này, kết quả các cụm thu được sẽ không được biết trước.Phân cụm dữ liệu được sử dụng trong các ứng dụng về phân tích thị trường,khách hàng, nhận dạng mẫu, phân loại văn bản Ngoài ra phần cụm dữ liệucòn có thể được sử dụng như một bước tiền xử lý cho các thuật toán khai phádữ liệu khác.
> Luật kết hợp:Phương pháp luật kết hop dùng dé phát hiện và tìm ra các mối liên hệ giữacác giá trị dữ liệu trong cơ sở dữ liệu Kết quả đầu ra của giải thuật khai phá dữliệu là tập luật kết hợp tìm được Khai phá luật kết hợp được thực hiện qua 2bước:
e Bước 1: tim tat cả các tập mục phô biên, một tập mục phô biên được xácđịnh qua tính độ hỗ trợ và thỏa mãn độ hỗ trợ cực tiểu
Trang 19Chương Cơ sở êe© Bước 2: sinh ra các luật kết hợp mạnh từ tập mục pho biến, các luật phải
thỏa mãn độ hồ trợ cực tiêu và độ tin cậy cực tiêu.
2.3 Các thuật toán xử lý dữ liệu2.3.1 Tiền xử lý văn bản
Tiên xử lý văn ban là bước dau tiên trong quá trình rút trích tri thức từ dữliệu văn bản Bước này đóng vai trò hết sức quan trọng trong quá trình rút tríchtri thức tiếp theo Tiền xử lý văn bản giúp giảm kích thước dữ liệu, tăng tốcquá trình xử lý, phân nhóm và tìm kiêm văn bản.
% Loại bỏ stop-words
Stop-words là thuật ngữ dùng dé chỉ các từ xuất hiện nhiều trong vănbản nhưng lại khong đóng vai trò quan trọng trong quá trình xử lý phanloại nội dung văn bản.
Không có một danh sách stop-words nao có thé đáp ứng mọi ứng dụnglọc stop-words Với một ứng dụng cụ thể sẽ có một danh sách stop-words phù hop.
+ Loại bỏ tiền tổ và hậu tổ (stemming)Bên cạnh việc loại bỏ stop-words, loại bỏ tiền tố và hậu tố cũng là mộtbước quan trọng trong quá trình xử lý văn bản Trong tiếng anh, một từgốc có nhiều biến thé là các danh từ, động từ, tính từ, trạng từ Việcchuẩn hóa các từ này về dạng từ gốc sẽ làm tăng tốc quá trình xử lý màkhông làm mất đi ý nghĩa của văn bản
2.3.2 Thuật toán k-means
Phân cụm là kỹ thuật rất quan trọng trong khai phá dữ liệu, nó thuộc lớpcác phương pháp học không giám sát trong Machine Learning Có nhiều địnhnghĩa khác nhau về kỹ thuật này, nhưng về bản chất ta có thể hiểu phân cụm làquy trình đưa các đối tượng vào các cụm (clusters), sao cho các đối tượngtrong cùng một cụm tương tự nhau và các đói tượng khác cụm thi không tươngtự nhau.
Trang 20Chương Cơ sở êMục đích của phân cụm là tìm ra bản chât bên trong của các cụm dữ liệu.Các thuật toán phân cụm điều sinh ra các cum Tuy nhiên không có tiêu chí nàođược xem là tôt nhât đê đánh giá hiệu quả của thuật toán phân cụm, điêu nàyphụ thuộc vào mục đích của việc phân cụm.
+% Thuật toán K-Means
K-Means là thuật toán quan trọng và phố biến bậc nhất trong kỹ thuật phâncụm Y tưởng chính của thuật toán k-means là tìm cách phân nhóm các đốitượng đã cho vào k cụm (k là số cụm được xác định trước và k là số nguyêndương) sao cho tong bình phương khoảng cách giữa các đối tượng đến tâmnhóm là nhỏ nhất
Thuật toán k-means được mô tả theo sơ đồ sau:
Trang 213 >2.5
1.5
0.5
Bước 1: Khởi tạoChọn 2 trọng tâm ban đầu:c)(1,1) =A và c,(2,1) = B, thuộc 2 cum 1 và 2
Trang 22Chương Cơ sở ấ
4.53.52.51.50.5
Bước 2: Tính toán khoảng cach
d(C,c)) = (4-1°+G-1lP =13
dC,œ) = (4-2+@-D =8
d(C, c,;) > d(C,c;) => C thuộc cụm 2
dD,c)= (@-IJ+4- ` = 25dD,œ) = (5-2) +4-lP =18d(D.c;) > d(D,c;¿) =>D thuộc cụm 2
Bước 3: Cập nhật lại vi trí trọng tâmTrọng tâm cum 1 c; =A (1, 1)
~ 2+4+5 1+3+4
Trọng tâm cụm 2 cz (x,y) =( 3.’ 3 )
Bước 4-1: Lap lại bước 2 — Tinh toán khoảng cach
d(A,c; )=0 < d(A, c; ) = 9.89 => A thuộc cum 1
d(B,c;)=1 < d(B,c;)= 5.56 => B thuộc cụm 1d(C,c;¡)= 13 > d(C, c; )= 0.22 => C thuộc cụm 2d(D,c¡)= 25 > d(D,c; ) = 3.56 => D thuộc cụm 2Bước 4-2: Lặp lại bước 3-Cập nhật trọng tâm
Trang 23Chương Cơ sởc¡ = (3/2, 1) vac = (9/2, 7/2)
4.54 +
3.5 A
3 +
2.521.5
1 + +0.5
O | T l
0 2 4 6Bước 4-3: Lap lại bước 2
d(A,c¡)= 0.25 < d(A,c¿)= 18.5 => A thuộc cụm Ïd(B,c¡)= 0.25 < d(B,c;)= 12.5 => B thuộc cụm 1d(C,c¡)= 10.25 < d(C,c;)= 0.5 => C€ thuộc cụm 2d(D,c;)=21.25 > d(D,c;)=0.5 => D thuộc cụm 2
» ⁄ oNi \,
Ưu điểm:
Trang 24VV VY WV Vv
Vv
>
Chương Cơ sở êĐộ phức tạp: O(K.N.1) với |: số lần lặp
Có khả năng mở rộng, có thé dễ dàng sửa đối với những dữ liệumới.
Bảo đảm hội tụ sau một số bước lặp hữu hạn.Luôn có K cụm đữ liệu.
Luôn có ít nhất một điểm dữ liệu trong một cụm dữ liệu.Các cụm không phân cấp và không bị chồng chéo dữ liệu lênnhau.
Mọi thành viên của một cụm là gan với chính cum đó hơn batcu | cụm nào khác.
Nhược điểm:Không có khả năng tìm ra các cụm không lồi hoặc các cụm cóhình dạng phức tạp.
Khó khăn trong việc xác định các trọng tâm cụm ban đầuo Chọn ngau nhiên các trung tâm cụm lúc khởi tao.o Độ hội tụ của thuật toán phụ thuộc vào việc khởi tạo các
vector trung tâm cụm.Khó dé chọn ra được số lượng cụm tối ưu ngay từ đầu, mà phảiqua nhiều lần thử để tìm ra được số lượng cụm tối ưu
Rất nhạy cảm với nhiễu và các phan tử ngoại lai trong dữ liệu.Không phải lúc nào mỗi đối tượng cũng chỉ thuộc về một cụm,chỉ phù hợp với đường biên giữa các cụm rõ.
Thông thường K.l << N nên thuật toán k-means khá hiệu quả đối với các cơsở dữ liệu lớn Với cơ sở dữ liệu là hàng triệu facebook fanpage, việc áp dụngthuật toán k-means sẽ giúp làm giảm không gian bài toán cho những bước xửlý tiếp theo
Trang 25Dữ liệu thiếu và bị nhiễu: Các thuộc tính quan trọng có thể thiếu hoặckhông đồng nhất.
Đa ngôn ngữ và lỗi chính tả: Do đặc thù của mạng xã hội, các thông tinđưa lên thường thuộc nhiều ngôn ngữ khác nhau, và trong khá nhiều trườnghop, do cách viết của ngưởi ding, thông tin lẫy từ mạng xã hội thườngkhông đúng chính tả.
2.5 Hướng tiếp cận của đề tài
Cùng với sự phát triên của các trang cá nhân trên mạng xã hội facebook,các fanpage gan đây cũng phát triển rất nhanh và dan thay thé các diễn đànthuần túy Bên cạnh việc cung cấp cho người dùng những thông tin hữu ích vàcơ hội giao lưu kết bạn với những người cùng sở thích, số lượng fanpage pháttriển quá nhanh lại gây khó khăn cho người dùng trong việc lựa chọn fanpagephù hợp Người dùng gan như chìm ngập trong một lượng fanpage lớn đượcgợi ý bởi facebook Nhận thức được sự khó khăn của người dùng chúng tôinghiên cứu xây dựng bệ thống gợi ý facebook fanpage theo tiêu chi củangười dùng với hướng tiếp cận mới bao gồm thu thập, chuan hóa dữ liệu, phâncụm dữ liệu, kết hợp thông tin thời gian dé nhận ra chủ dé của từng fanpage tạithời điểm hiện tại Nhờ đó, hệ thống có thể gợi ý cho người dùng nhữngfanpage phù hợp nhất
Trang 26Chương Cơ sở ê> Đầu tiên, chúng tôi tiến hành thu thập dữ liệu từ các fanpage của
facebook Xuất phát từ một số fanpage ban dau, chúng tôi tiễn hành thuthập dữ liệu cùng với thông tin người dùng tương tac với các fanpagenày Từ thông tin những người dùng thu thập được, chúng tôi sẽ thuthập thông tin về tat cả các fanpage mà người dùng nảy tương tác dé bốsung vao danh sách các fanpage ban đầu
> Vì dữ liệu thu được từ các fanpage là dữ liệu văn bản nên kế đến chúngtôi sẽ tìm các từ quan trọng trong nội dung từng fanpage Các văn bản sẽđược mô hình hóa thành các vector với các giá trị thành phần được xácđịnh nhờ phương pháp tf-idf.
> Bên cạnh dữ liệu là nội dung fanpage, hệ thống còn thu thập các thôngtin người dùng tương tac với fanpage Các thông tin này cũng duocchúng tôi sử dụng trong việc đánh giá mức độ tương quan giữa cácfanpage Nếu một người dùng cùng tương tác với hai fanpage thì haifanpage này được xem là có “liên quan” đến nhau Số lượng người dùngtương tác đồng thời với hai fanpage này cảng nhiều thì mức độ “liênquan” của hai fanpage càng lớn.
> Sau khi đã xử lý dữ liệu hoan chỉnh, hệ thống tiến hành phân cum dữliệu băng giải thuật k-means nhằm giảm không gian tìm kiếm cho việctìm kiém fanpage phù hợp sau này
> Câu truy van từ người dùng được xử lý để xây dựng vector tf-idf, từ đóxác định cụm mà câu truy van thuộc về Dựa trên cụm vừa xác định, hệthông sé tìm kiêm các vector lần cận và trả về kêt quả.
Trang 27Chương ứ
Chương 3: CÁC NGHIÊN CỨU LIÊN QUAN
Trong chương này chúng tôi trình bảy 3 hướng khai phá dữ liệu web phốbiến bao gồm: khai phá nội dung web, khai phá sử dụng web và khai phá liênkết web
3.1 Khai phá nội dung web
3.1.1 Vector space model
Phương pháp này mô hình hóa một tài liệu thành một vector Đề làm đượcđiều này, trước tiên cần phải đánh trọng số cho các từ trong tài liệu Cách tiếpcận đơn giản nhất là gán trọng sỐ băng số lần xuất hiện của từ trong tài liệu (từxuất hiện càng nhiều, trọng số càng lớn, mức độ quan trọng càng cao) Trọngsố này được gọi là tần suất xuất hiện của từ t trong văn bản d và được ký hiệulà tha.
Cách tiếp cận này gặp phải van dé khi ta xét một tập các tài liệu, mà trongđó từ “quan trọng” xuất hiện trong hầu hết các văn bản Ví dụ: Khi xét một tập
oN A»»
tài liệu nói vê ngành công nghiệp ô tô Từ “ô tô” xuât hiện gân như là tât cả cácvăn bản với tần suât kha cao Nhưng xét trong phạm vi cả tập tài liệu thi từ “ôtô” gan như là không quan trọng Do đó, dé hạn chê tâm ảnh hưởng của các từnhư thế này, ta xét tiếp hệ số:
idf,= log(N/df)
Trong đó:N: là tong số tai liệu trong tập văn ban đang xétdf: là tong số các tài liệu trong tập van bản đang xét có chứa từ tTrọng số của từ t lúc này sẽ được cho bởi giá trị:
tf-idf, = tf,q x idf,
Các từ xuất hiện trong các tai liệu sẽ được thu thập lại thành không gian nchiêu.
Trang 28Khi nhận được một câu query với các từ khóa tim kiếm, thông tin rút tríchđược từ hệ thống không phải là một tài liệu cụ thể nào mà sẽ là một tập các tàiliệu có nội dung gần với yêu câu tìm kiếm Câu query sẽ được xử lý như mộttài liệu rất ngăn và sẽ được sinh một vector tương ứng cho câu query nay Détìm các tài liệu phù hợp với câu query này, cần phải tính độ tương tự giữa câuquery với các tài liệu có trong tập hợp văn bản Khi đó, độ tương tự giữa câuquery q và tài liệu d sẽ được cho bởi công thức:
V(4).V(đ)IV(4)lIV(3)|Score(q,d)=
3.1.2 Tim kiém trén web (Web Search):
Web có lẽ là nguồn dữ liệu lớn nhất hiện nay Các máy tìm kiếm (searchengines) được sử dụng rộng rãi để truy cập, thu thập và tìm kiếm thông tin trênweb Các Web Crawler được phát triển dé thực hiện các nhiệm vụ này WebCrawler là phần mềm hoặc script chạy tự động Khởi động với một nhóm URLban đầu, Web Crawler lần lượt nap từng trang có địa chỉ trong danh sách URL,rút trích các siêu liên kết để thêm vào danh sách, rút trích thông tin phục vụcho việc tìm kiếm và xử lý dữ liệu Web Crawler sẽ làm việc đến khi danh sáchURL rỗng hoặc đã đạt được điều kiện dừng
3.1.3 Gợi ý từ khóa tìm kiếm:
Gợi ý từ khóa tìm kiếm là một cơ chế cho phép hệ thống nhanh chóng đưađền cho người dùng những từ khóa chính xác nhat với yêu cầu mà người dùng
Trang 29Search Engine = Ginputs termy,***,term,
CN I 'Similarity computation |) Suggestion '
zy Ld= “= a, term,"** ,termy
Past Web queries C—>|/ Search Engine ——> qo, {er1\,'*,ferIm,
Hình 2: Mô hình xử lý gợi ý tìm kiếmCâu query nhập vào sẽ được biéu diễn dưới dạng vector, vector nhập này sẽdùng để so sánh mức độ tương tự với các vector đã có sẵn trong cơ sở dữ liệu.Các câu query có vector gần với vector nhập này sẽ là các câu query gợi ý chongười dùng [1,2,4,5,6, 8].
Mức độ tương tự của hai câu query có thể được tính bằng góc giữa hai
vector
V(q¡).V(4;)IV(g;)IIV(4;)lSIm(¡.q¡)=
Hoặc kết quả trả về giữa câu truy vẫn
U(qi) n U(q;)|U(qi) U U(q;)|
Jaccard(q¡.q¡)=
3.2 Khai phá sử dụng web
Bên cạnh việc khai thác nội dung web và khai thác các siêu liên kết, khaithác thông tin từ các hành vi và quá trình sử dung web của người dùng cũngđem đến nhiều thông tin quan trong và bồ ích Khai thác hành vi sử dụng webđóng vai trò quan trọng trong việc thiết kế cấu trúc web, trong các ứng dụngquảng cáo hướng đối tượng, trong các ứng dụng phân nhóm đối tượng tại các
diễn đản, mạng xã hội
Trang 30Chương ứ
3.2.1 Đánh giá mức độ tương tự giữa hai người dùng web
Cho một web site S có các người dùng U = {u¡, u›, , Um} va các trangweb P={p¡.p› pa} Quan hệ giữa trang p¡ và người dùng u; được định nghĩabởi hàm
1: nếu p; được truy cập bởi u;us€(p¡;u¡) = `
0:frong trường hợp ngược lại
Khi đó độ tương tự của 2 người dùng được tính như sau
Bên cạnh hai cách đánh giá trên, việc đánh giá còn có thé dựa trên thời giantruy cập.
V(t (peu i)*t(pRuj))
JXxứ0keu uị))2*»k((Ðk,w;))?
Sim3(u;,u,) =
Trang 31Chương ứ
Trong đó, t(p,, u¡)là thời gian người dùng ui truy cập trang pk Cách đánh
giá này được gọi là đánh giá dựa trên thời gian truy cập (Viewing-TimeBased).
Trong một số ứng dụng.thứ tự truy cập các trang của một người dùng quantrọng hơn thời gian người dùng viếng thăm trang web Trong trường hợp này,hai người dùng được cho là có sở thích giống nhau nếu họ có một chuỗi truycập các trang web theo thứ tự giống nhau
Cho Q=q¡,q›.qa., ,q; là chuỗi thứ tự các trang web được duyệt.Q' là một
chuỗi con của Q có độ dài | (1<=l<=r) Khi đó QI = {Qiists - > Qui | i= 1,2, 0-141}.
Với Q', Ợ lần lượt là các chuỗi truy cập của người dùng u; va người dùng
u; Khi đó độ tương tự giữa người dùng u; và người dùng u; được xác định bởicông thức:
<Q',Q/>|
_ V<q!0!>¡<9q),q?>y
Trong đó:
|= min(length(Q’), length(Q’))< 01,01 >ị= Xi=i Xueotaoj Iength(4) * length(q)
Cách đánh giá này được gọi là các đánh giá dựa trên thứ tự viếng thăm(Visiting-Order Based).
3.2.2 Phân nhóm người dùng:
Bang các phương pháp đánh giá như trên Mối tương quan giữa các ngườidùng U = {uj, Ww, , Um} được biéu dién bang một ma trận mxm Với SM[I,]|là độ tương tự giữa người dung u¡ và người dùng u; được đánh giá bang 1 trong4 cach trén.
Vi du:
Trang 32Chương ứ
F1 177 875 972 802 894 J.177 1 354 125 378 316SM = 875 354 1 795 953 894
.972 125 795 1 756 _ 870 802 378 953 756 1 837
, 894 316 894 870 837 14
Dữ liệu của ma trận này cần được tiễn hành tiền xử lý Trong hau hết cáctrường hợp, chúng ta chỉ cần quan tâm đến những cặp người dùng có chỉ sốtương tự lớn Để loại bỏ các giá tri tương tự nhỏ, ta cần chọn một hăng SỐ À (vídụ À =0.9) Tất cả các giá trị SM[i,j]E0 nếu SMI[i.j]< 1 Ma tran SM được viếtlại
r1 0 0 972 0 070 1 0 0 0 0_ {0 0 1 0 953 0
SM = 972 0 0 1 0 0
h 0 953 0 1 00 0 0 0 0 11
Do mối quan hệ tương tự giữa hai người dùng có tính phản xạ nên ma trậnSM là ma trận đối xứng qua đường chéo chính
Ngoài việc người dùng uj và người dùng u; được cho là tương tự nhau dựatrên các hành vi của họ trên web, một cách khác để xem xét mức độ tương tựcủa người dùng là xem xét mối quan hệ của họ với người dùng thứ ba Nếungười dùng u¡ và người dùng u; cùng tương tự với người dùng uy thì ngườidùng u¡ và người dùng u; cũng tương tự nhau Khi đó ma trận tương tự đượcđịnh nghĩa lại
; SM, = SM*SM
3.3 Khai phá liên ket web
Những hệ thống rút trích thông tin truyền thống cũng như các máy tìmkiếm đời đầu rút trích các tài liệu liên quan chủ yếu dựa trên sự tương quan củadữ liệu Vào nhưng năm cuối thập niên 90, người ta thấy răng việc khai phá chỉdựa vào dir liệu là không đủ vi hai lý do sau:
Trang 33Chương ứ
> Việc khai phá chỉ dựa vào dữ liệu sẽ cho ra số lượng kết quả rất lớn Vídụ với từ khóa tìm kiếm “social network”, google cho ra hon 30 triệukết quả Dé thỏa mãn người dùng, các máy tìm kiếm chỉ nên đưa rakhoảng 30-40 kết quả có chất lượng
> Việc khai phá chỉ dựa vào dữ liệu dé dàng bi gây lỗi (spam) bang cáchthêm một vài từ quan trọng vào trong trang web.
Dé giải quyết van dé này người ta sắp xếp lại các liên kết (link) Không giốngnhư dữ liệu văn bản, các trang web được kết nối với nhau nhờ các siêu liên kết,các siêu liên kết là các thông tin quan trọng đối với các mối quan hệ giữa cáctrang Một số các siêu liên kết được dùng để t6 chức dir liệu trong website, mộtsố khác phải có quyển tác giả mới vào được Đây là mau chốt quan trong déxếp hạng của các máy tìm kiếm, dựa trên các ý tưởng cơ bản sau:
> Nếu trang p, và trang p; được nhiều trang khác cùng liên kết đến thìtrang p¡ và trang p; có mối quan hệ khan khít với nhau hoặc tương tựnhau Cảng nhiều trang cùng liên kết đến p; và Pj đồng thời thi mối quanhệ giữa pi va pj càng mạnh.
> Nếu trang p; và p¡ cùng liên kết đến trang p, thì p; và p¡ cũng có cái gi đóchung mặc dù không liên kết lẫn nhau
3.4 Social Lens
Nghiên cứu được thực hiện bởi nhóm tác gia: Elizabeth M Daly, MichaelMuller, David R Millen và Liang Gou và được công bố trong bài báo:
Personalization Around User Defined Collections for Filtering
Enterprise Message Streams [3] Nhóm tác giả dé xuất một cơ chế phốihợp giữa lọc và phát hiện, cho phép khai phá thông tin mà không cần đến dữliệu lịch sử, cho phép người dùng tùy chỉnh các thông số của hệ thống để chora kết quả phù hợp Nghiên cứu cũng đề xuất một phương pháp tổ chức dữ liệucũng như tìm kiếm thông tin trong môi trường mạng xã hội
Trang 34Initial R Related
1 People Objects
‘8&8 &~T~ ~ ~ ~ = ~ ~ eo ~ -
Social Lens: smarter community Fators Log Out
Created by: COU LIANG
IBM employee Supplernerta!
Filter Parameters (A)Peoole importance
Aga More Keywords v
Less initial More
Al Updates People cơ
Obdiect lmoortanceUpdates
ee added Less intial More
wieeonm Date Range
wrote on Ứ{
From 2010-03-01 wo 2010-09-08
a0ded
added wu weer -m eed wee
wrote on Ihe Doerd of 7? B w
wrote On Pet Doard of 317 More
Inroal People
lay Shin, Ling BM employee Regular
Na SM Research (C) maaDray, Senone IBM employee, Reguiar
Global Technology Services Recove
More People
Hình 4: Giao diện cho phép người dùng thay đối tham số hệ thống
Trang 35Chương € o & ội dung web và tương dc
ngườ
Chương 4: KET HỢP GIUA KHAI THÁC NỘI DUNG WEB VA
TƯƠNG TÁC CỦA NGƯỜI DÙNG
Do đặc thu của mang xã hội facebook, việc khai phá liên kết web và khaiphá sử dụng web tương đối khó khăn do ứng dụng không có quyển truy cậpsâu vào cơ sở dit liệu của facebook và người dùng thường không thiết lập trangcá nhân của mình ở trạng thái công khai hoàn toàn (public) Do đó, trong phạmvi nghiên cứu nay, chúng tôi tập trung vào khai thác nội dung web và kết hợpmột số thông tin liên kết web thu thu thập được, cùng với các tương tác củangười dùng lên hệ thống để cung cấp kết quả tìm kiễm cho người dùng Quátrình xây dựng hệ thống bao gồm 4 bước chính: Rút trích dữ liệu, t6 chức dữliệu, tìm kiếm dữ liệu và xử lý tương tác người dùng
4.1 Rút trích dữ liệu+ Hướng tiếp cận
Có nhiều phương pháp để tải nội dung website Trong phạm vi nghiêncứu nay, chúng tôi chon rút trích trực tiếp nội dung html của website Hướngtiếp cận này mang đến những khó khăn cũng như thuận lợi sau:
Trang 36Chương € o & ội dung web và tương dc
ngườcung cấp va template định nghĩa việc xử lý dữ liệu từ chuỗi html trả về củaurl đó như thé nào
a Rut trích dữ liệu fanpage từ template
Template được xây dựng như là một file xml mô tả những thànhphan cần được rút trích trong file html dit liệu nguồn
b Co chế tìm kiếm fanpage mới:
Crawler bắt đầu hoạt động với một danh sách các fanpage ban đầu,crawler nạp và tải tuần tự nội dung từng fanpage Nội dung fanpageđược phân tích và lọc lấy dữ liệu Danh sách các thành viên trongfanpage đồng thời cũng được thu thập Dựa vào danh sách này, crawlertiếp tục viếng thăm trang cá nhân của thành viên va lay thông tin cácfanpage mà thành viên này tham gia để b6 sung và danh sách cácfanpage.
Dt liệu tai được sẽ được bộ thu thập dữ liệu phan tach thành dữ liệuthô, là đầu vào của quá trình tiền xử lý tiếp theo
4.2 To chức lưu trữ dữ liệu fanpage
Dữ liệu thô của fanpage sau khi tải về và được hệ thống phân tách và xử lýđể thu thập các dữ liệu cần thiết bao gồm dữ liệu nội dung fanpage, số lượtlike, những thành viên có tương tac với fanpage.
Dữ liệu nội dung fanpage sẽ lọc ra và mô hình hóa thành các vector tf-idf.Trong khuôn khổ nghiên cứu này, chúng tôi chỉ xử lý trên những fanpagecó ngôn ngữ chính là tiếng anh Hiện nay, có rất nhiều nguén cung cấp tập hợpcác từ dừng (stop-words) cho tiếng anh, chúng tôi chọn tập hợp từ dừng đượccung cấp tại địa chỉ: http://norm.al/2009/04/14/list-of-english-stop-words/ đểphục vụ cho việc xử lý dữ liệu.
Trang 37Chương € o & ội dung web và tương dc
ngườ
đs, able, about, above, according, accordingly, across, actually, after, afterwards, again, against, ain't, all, allow, allo
anywhere, apart, appear, appreciate, appropriate, are, aren’t, around, as, aside, ask, asking, associated, at, available, awa
beyond, both, brief, but, by, c’mon, c’s, came, can, can’t, cannot, cant, cause, causes, certain, certainly, changes, clearlyconcerning, consequently, consider, considering, contain, containing, contains, corresponding, could, couldn’t, course, curredescribed, despite, did, didn’t, different, do, does, doesn’t, doing, don’t, done, down, downwards, during
goes, going, gone, got, gotten, greetings, had, hadn’t, happens, hardly, has, hasn't, have, haven't, having, he, he’s, hello,here’s, hereafter, hereby, herein, hereupon, hers, herself, hi, him, himself, his, hither, hopefully, how, howbeit, however, i'd, ÈH, im, vv
s, isn’t, it, it'd, itll, it’s, its,itself, just, keep, keeps, kept, know, knows, known, last, lately, later, latter, latterly, least, less, lest, let, let’s, li
she, should, shouldn't, since, six, so, some, somebody, somehow, someone, something, sometime, sometimes, somewhat, somewhere
sure, t's, take, taken, tell, tends, th, than, thank, thanks, thanx, that, that’s, thats, the, their,theirs, them, themselves, then, thence, there, there’s, thereafter, thereby, therefore, therein, theres, thereupon, these, they, theu d, they'll, they’re,they've, think, third, this, thorough, thoroughly, those, though, three, through, throughout, thru, thus, to, together, too,
usually, value, various, very, via, viz, vs, want, wants, was, wasn’t, way, we, we'd, we'll, we're, we've, welcome, well, went, were, weren't, what,what's, whatever, when, whence, whenever, where, where's, whereaf
while, whither, who, who's, whoever, whole, whom, whose, why, will, willing, wish, with, within, without, won’t, wonder, woulwouldn’t, yes, yet, you, you'd, you'll, you're, you’
4Loai các fanpage với ngôn ngữ không phải là tiếng Anh
Dữ liệu sau khi được mô hình hóa thành vector tf-idf ứng với từngfanpage, hệ thống sẽ tiến hành phân các vector thành k (k = 10-15) cum Ởbước này, các fanpage của cùng một ngôn ngữ có xu hướng thuộc về mộtcụm Dựa vào tính chất này, chúng tôi tiễn hành loại bỏ các fanpage cóngôn ngữ không phù hợp, chỉ giữ lại những fanpage có ngôn ngữ là tiếnganh.
+ Phân nhóm dữ liệuSau khi loại bỏ các fanpage có ngôn ngữ không phù hop, hệ thống tiếnhành phân cụm lại một lần nữa với các fanpage tiếng anh còn lại và xácđịnh góc mở của mỗi cụm (góc giữa vector trung tâm cụm và vector trongcum xa vector trung tâm nhất) dé phục vu cho quá trình tìm kiếm
Đề giảm thời gian tìm kiếm tại mỗi cụm, hệ thống giới hạn số phân tửtại mỗi cụm Khi số lượng phan tử vượt quá giá trị cho phép, hệ thống sẽtiễn hành tach cụm thành 2 cụm nhỏ có số lượng phan tử phù hop
4.3 Tìm kiếm và hiến thị kết qua4.3.1 Tìm kiếm dữ liệu
Trang 38Chương € o & ội dung web và tương dc
ngườCác từ khóa tìm kiếm được người dùng cung cấp thông qua một giao diệnngười dùng Các từ khóa này sẽ được hệ thống xử lý và đánh trọng số theo tỷlệ mà chúng tôi tiễn hành khảo sát tại phụ lục 1 của nghiên cứu này
a Tim kiêm các fanpage đáp ứng câu truy van
Với các từ khóa và trọng số đã nhận được, chúng tôi tiễn hành xâydựng vector tf-idf cho câu truy van tìm kiếm
Từ vector tìm kiễm xây dựng được, chúng tôi tiễn hành xác định cácvector trung tâm gần với vector tìm kiếm và sắp xếp theo thứ tự từ“sàn” đến “xa”, với cum có vector trung tâm gan vector tìm kiếm nhất,hệ thống sẽ tìm kiếm k vector gần với vector tìm kiếm (k là số lượngfanpage can trả về) và xác định góc a là góc lớn nhất của giữa k vectortìm được so với vector trung tâm.
Nếu tong của a và góc mở của cụm kế tiếp lớn hơn góc giữa vectortìm kiếm và vector trung tâm của cụm kế tiếp thì chúng tôi tiến hành tìmkiếm trên cụm kế tiếp để chọn được k vector tốt nhất trong số các cụmđã được tiến hành tìm kiếm Ngược lại, dừng tìm kiếm và trả về tậpvector KĨ.
b Tìm kiếm fanpage có mối quan hệ người dùng với các fanpage đáp ứngcầu truy van
Trong quá trình thu thập dữ liệu fanpage, chúng tôi cũng đồng thờithu thập thông tin người dùng là thành viên của từng fanpage Thông tinnày sẽ giúp chúng tôi đánh giá mức độ quan hệ giữa các fanpage vớinhau Hệ số này cho phép chúng tôi thêm những gợi ý cho người dùngkhi tiến hành truy vẫn Dựa trên thông tin fanpage tìm kiếm được trongtập KI, chúng tôi sẽ cung cấp thêm kết quả là tập fanpage K2 bao gồmcác fanpage có hệ số quan hệ lớn với các fanpage trong tập K1
Trang 39Chương € o & ội dung web và tương dc
ngườc Tìm kiếm các fanpage nhờ vào bố sung từ khóa cho tập hợp các từ khóa
cung câp bởi người dùng.Trong quá trình vận hành hệ thống, các từ khóa của người dùng nhậpvào cũng được hệ thống ghi nhận và đánh giá mức độ quan hệ giữa cáctừ khóa dựa vào số lần chúng xuất hiện cùng nhau
Hệ số quan hệ của từ khóa A đối với từ khóa B được định nghĩa làxác suất từ khóa A xuất hiện khi từ khóa B xuất hiện trong bộ từ khóa
P(ANB)
Link-strength(AIB) = P(AIB) = PB)Trong hệ thông cua chúng tôi, thuộc tính link-strength cua các từkhóa được biểu diễn là một ma trận N*N Trong đó, mỗi hàng của matrận là một vector biểu diễn mối quan hệ của các từ khóa còn lại với từkhóa tại hàng đó.
Xét ví dụ các câu truy van sau:
STT | Từ khóa truy van| AB
2 ABC3 AD4 BC5 BD6 CD7 BCE8 AEBang 1: Vi du dữ liệu truy vanÁp dụng công thức tinh link-strength ta được ma trận link-strength
A B C D E| 2/4 1/4 1/4 1/42/5 | 3/5 1/5 1/51/4 3/4 | 1/4 1/41/3 1/3 1/3 | 01/2 1/2 1/2 0 |Bảng 2: Ma trận link-strength
MOQ) >