Nghiên cứu search engine trong mạng xã hội Facebook (tt)Nghiên cứu search engine trong mạng xã hội Facebook (tt)Nghiên cứu search engine trong mạng xã hội Facebook (tt)Nghiên cứu search engine trong mạng xã hội Facebook (tt)Nghiên cứu search engine trong mạng xã hội Facebook (tt)Nghiên cứu search engine trong mạng xã hội Facebook (tt)Nghiên cứu search engine trong mạng xã hội Facebook (tt)Nghiên cứu search engine trong mạng xã hội Facebook (tt)Nghiên cứu search engine trong mạng xã hội Facebook (tt)Nghiên cứu search engine trong mạng xã hội Facebook (tt)Nghiên cứu search engine trong mạng xã hội Facebook (tt)Nghiên cứu search engine trong mạng xã hội Facebook (tt)Nghiên cứu search engine trong mạng xã hội Facebook (tt)Nghiên cứu search engine trong mạng xã hội Facebook (tt)Nghiên cứu search engine trong mạng xã hội Facebook (tt)
HỌC VIỆN CÔNG NGHỆ BƢU CHÍNH VIỄN THÔNG - NGUYỄN TÙNG DƢƠNG LUẬN VĂN THẠC SĨ KỸ THUẬT NGHIÊN CỨU SEARCH ENGINE TRONG MẠNG XÃ HỘI FACEBOOK MÃ SỐ: 60.48.01.04 NGƢỜI HDKH: PGS.TS TRẦN QUANG ANH HÀ NỘI – 2017 Luận văn hoàn thành tại: HỌC VIỆN CÔNG NGHỆ BƢU CHÍNH VIỄN THÔNG Người hướng dẫn khoa học: PGS.TS TRẦN QUANG ANH Phản biện 1: ………………………………………………… ……………………………………………………………… Phản biện 2: ………………………………………………… ……………………………………………………………… Luận văn bảo vệ trước Hội đồng chấm luận văn thạc sĩ Học viện Công nghệ Bưu Viễn thông Vào lúc: ngày tháng năm Có thể tìm hiểu luận văn tại: - Thư viện Học viện Công nghệ Bưu Viễn thông MỞ ĐẦU Trong khoảng 10 năm trở lại đây, đời mạng xã hội trực tuyến kiện đáng ý Có nhiều mạng xã hội trực tuyến phổ biến như: Twitter, LinkedIn, Instagram, Zing… đặc biệt Facebook Với phát triển nhanh chóng số người sử dụng toàn giới, mạng xã hội trực tuyến nói chung Facebook nói riêng mô hình thu nhỏ giới thực Do đó, mạng xã hội trở thành nơi cất giữ thông tin mối quan hệ cá nhân, doanh nghiệp, … Những thông tin tạo thành “đám mây tri thức” Việc tìm hiểu khai thác hiệu thông tin tạo tiền đề cho nhiều ứng dụng khác như: hệ thống tư vấn, hệ thống tìm kiếm thông tin, tiếp thị trực tuyến, điều tra tội phạm, dự đoán phát triển mạng xã hội,… Vì vậy, việc khai thác thông tin mạng xã hội để áp dụng vào thực tiễn ngày trở nên quan trọng Ra đời vào năm 1993, đến nay, Search Engine trở thành phần thiếu với người sử dụng Internet Search Engine không ngừng cải thiện số lượng chất lượng kết tìm kiếm Sự phát triển Search Engine gắn liền với phát triển công nghệ thông tin toàn cầu Hiện nay, Google công cụ tìm kiếm liệu phổ biến người dùng Internet Tuy nhiên, tìm kiếm Google, người sử dụng nhận kết trích xuất từ Facebook Mạng xã hội giống "ốc đảo" mà dịch vụ tra cứu khai thác Từ lý trên, lựa chọn đề tài “Nghiên cứu search engine mạng xã hội Facebook” cho luận văn Thạc sĩ Mục đích nghiên cứu Nghiên cứu hệ thống Search Engine, cấu trúc mạng xã hội Facebook xây dựng hệ thống Search Engine cho mạng xã hội Facebook Đối tƣợng phạm vi nghiên cứu Luận văn tập trung vào nghiên cứu cấu trúc hệ thống Search Engine bản, áp dụng cho Mạng xã hội Facebook Phƣơng pháp nghiên cứu - Phương pháp nghiên cứu lý thuyết (bao gồm phương pháp đọc tài liệu; phân tích, tổng hợp thống kê) - Phương pháp chuyên gia 2 - Phương pháp nghiên cứu thực nghiệm (xây dựng chương trình, thu thập liệu, thí nghiệm đánh giá) Bố cục luận văn Luận văn bao gồm chƣơng: Chương 1: Tổng quan mạng xã hội Chương 2: Các kỹ thuật Search Engine Chương 3: Đề xuất Search Engine cho Mạng xã hội FaceBook Kết luận – Kiến nghị 3 Chƣơng 1: TỔNG QUAN VỀ MẠNG XÃ HỘI 1.1 Khái niệm mạng xã hội 1.1.1 Khái niệm “Mạng xã hội (MXH) dịch vụ nối kết thành viên sở thích Internet lại với với nhiều mục đích khác không phân biệt không gian thời gian Những người tham gia vào dịch vụ mạng xã hội gọi cư dân mạng.” [10] Về mặt toán học, mạng xã hội xem hệ thống có cấu trúc gồm đỉnh (node) gắn với thành mạng bời liên kết (hoặc cung) 1.1.2 Khái niệm dịch vụ mạng xã hội trực tuyến 1.1.3 Khái niệm dịch vụ mạng xã hội trực tuyến 1.2 Lịch sử hình thành phát triển mạng xã hội 1.3 Kiến trúc mạng xã hội với modules chức 1.3.1 Kiến trúc trang mạng xã hội nhỏ Mạng xã hội nhỏ bao gồm máy chủ web máy chủ Cơ sở liệu Máy chủ web chứa mã nguồn nội dung lưu trữ (HTML,Ảnh, video…) Máy chủ sở liệu dùng để lưu trữ sở liệu mạng xã hội Tùy vào yêu cầu sử dụng mà số lượng máy chủ web máy chủ sở liệu tăng lên để phục vụ nhu cầu người sử dụng 1.3.2 Kiến trúc trang mạng xã hội lớn Nó kiến trúc dành cho trang mạng xã hội nhỏ bổ sung thêm thành phần cân tải, máy chủ ứng dụng, máy chủ dùng cho hệ thống memcache để đáp ứng yêu cầu hiệu suất, khả mở rộng sẵn sàng phục vụ số lượng người dùng lớn 1.4 Các tính mạng xã hội Hiện mạng xã hội ngày đổi bổ sung thêm tính Tuy nhiên, nhìn chung mạng xã hội có số tính sau: - Hồ sơ cá nhân - Kết bạn trực tuyến - Tạo tham gia nhóm trực tuyến - Chia sẻ với bạn bè trực tuyến - Chia sẻ nội dung người dùng tạo - Bình luận nội dung - Tìm kiếm thông tin - Liên lạc trực tuyến - Quảng cáo trực tuyến 1.5 Phân loại mạng xã hội 1.6 Mạng xã hội Facebook 1.6.1 Lịch sử hình thành phát triển Facebook 1.6.2 Tình hình sử dụng Facebook Việt Nam 1.7 Kết luận chƣơng Hiện mạng xã hội phổ biến, với tính chat, email, phim ảnh, chia sẻ file, blog xã luận Trên giới có hàng trăm mạng xã hội khác như: Facebook, Twitter, Youtube, MySpace, Zalo… đăng ký thành viên trang web, có khu vực riêng - nơi đăng suy nghĩ, ảnh, đoạn video đoạn ghi âm ngắn Thông qua trang mạng xã hội, người ta giải nhiều nhu cầu sống tán gẫu, nghe nhạc, xem video, tìm kiếm, học hỏi kinh nghiệm, lập hội nhóm sở thích mua sắm thứ cần Mạng xã hội dần trở thành nhu cầu tất yếu nhiều người Ra đời từ cuối tháng 11 năm 2003, Facebook mạng xã hội lớn giới Và Việt Nam, Facebook mạng xã hội có nhiều thành viên Với phát triển nhanh chóng số người sử dụng toàn giới, mạng xã hội trực tuyến nói chung Facebook nói riêng mô hình thu nhỏ giới thực Do đó, mạng xã hội trở thành nơi lưu trữ thông tin mối quan hệ cá nhân, doanh nghiệp… Việc tìm hiểu khai thác hiệu thông tin tạo tiền đề cho nhiều ứng dụng khác như: hệ thống tư vấn, hệ thống tìm kiếm thông tin, tiếp thị trực tuyến, điều tra tội phạm, dự đoán phát triển mạng xã hội,… Vì vậy, việc khai thác thông tin mạng xã hội để áp dụng vào thực tiễn ngày trở nên quan trọng Chƣơng 2: CÁC KỸ THUẬT SEARCH ENGINE 2.1 Tổng quan Search Engine 2.1.1 Khái niệm Search Engine Search Engine cụm từ dùng đề nói đến chương trình – chức tìm kiếm Khi nhập từ khóa vào chương trình, chương trình thực tìm kiếm liệu trả kết phù hợp với từ khóa nhập vào Hiện nay, nhiều người dùng nhầm lẫn Search Engine Web Search Engine Web Search Engines website có chức tìm kiếm liệu Internet Hiện nay, Các Web Web Search Engines bật gồm có Google, Yahoo, Bing, Baido, Coccoc… Tuy nhiên, Google trang web bật chiếm 68% thị phần (Tính đến năm 2016) Các hệ thống Search Engines phải đáp ứng yêu cầu sau - Thông tin mà Search Engines trả cần rõ ràng, có cấu trúc hợp lý, với mong muốn người sử dụng - Thời gian tìm kiếm nhanh 2.1.2 Cấu trúc Search Engine Hệ thống Search Engine - Bộ thu thập thông tin – Crawler (Spider) - Bộ lập mục – Indexer - Bộ tìm kiếm thông tin – Search Engine 6 - Crawler hay gọi Robot (Bot) chương trình tự động duyệt qua website mạng Internet để thu thập liệu nhận tất tài liệu có liên kết với liệu Quá trình gọi Crawl liệu Để lấy liệu, Robot truy cập vào website tìm kiếm liên kết có website Sau đó, Robot theo đường link thu thập để đến website khác lặp lại trình truy cập vào liên kết mà tìm thấy Nếu coi mạng Internet mạng nhện, Robot nhện, Robot thường gọi Spider - Bộ lập mục – Indexer hệ thống thực việc phân tích, xử lý liệu Dữ liệu sau Crawl lựa chọn thông tin cần thiết (Thường từ - cụm từ quan trọng) cấu trúc thành sở liệu riêng phục vụ cho việc tìm kiếm Hệ thống mục danh sách từ khóa liên kết đến website có chứa từ khóa - Bộ tìm kiếm thông tin - Search Engine Là cụm từ dùng toàn hệ thống (Đây thực chất Web Search Engine ), công cụ giao tiếp với người dùng đề nhận yêu cầu tìm kiếm trả thông tin tìm kiếm cho người dùng Thông tin tìm kiếm nhiều dạng khác (url, text, ảnh, video…) 7 2.1.3 Bộ thu thập thông tin – Crawler (Spider) Một chương trình crawler bao gồm danh sách URL chưa thăm gọi frontier Danh sách khởi tạo URL hạt nhân cung cấp người dùng chương trình khác Mỗi vòng lặp crawling bao gồm: lấy URL cần index từ frontier, nạp trang web tương ứng với URL giao thức HTTP, duyệt trang web vừa tải để lấy từ URL thông tin mà ứng dụng cần, cuối thêm trang URL chưa thăm vào frontier Trước URL thêm vào frontier chúng gán cho độ đo thể đánh giá hiệu thăm trang web tương ứng với URL Quá trình crawling kết thúc số lượng định trang web tải Nếu chương trình crawler sẵn sàng để duyệt trang web khác trạng thái frontier rỗng, tín hiệu trạng thái kết thúc (dead-end) gửi cho crawler Công việc crawling xem toán duyệt đồ thị Toàn giới Web xem đồ thị lớn với nút trang web liên kết đường (cạnh) Một crawler bắt đầu vài nút hạt nhân sau theo cạnh để tới nút khác Quá trình tải trang web trích liên kết tương tự việc mở rộng nút toán tìm kiếm đồ thị 2.1.3.1 Frontier Phần frontier danh sách công việc cần làm crawler, chứa URL trang web chưa thăm Trong thuật ngữ tìm kiếm đồ thị, frontier danh sách mở nút chưa mở rộng (chưa thăm) 2.1.3.2 Tải trang web (Fetching) Để tải trang web, cần client để gửi yêu cầu HTTP tới trang web đọc đáp ứng từ phía trang web Phía client duyệt đáp ứng header để lấy mã trạng thái, chuyển hướng(redirection) lưu thời gian sửa đổi để xác định mức độ cập nhật trang web 2.1.3.3 Duyệt phân tích nội dung (parsing) Sau trang web tải về, cần duyệt nội dung để lấy thông tin nạp trở lại giúp định hướng việc theo đường dẫn crawler Việc duyệt nội dung đơn giản bao hàm việc trích URL/liên kết mà trang web link tới hay bao hàm xử lý phức tạp làm nội dung HTML để phân tích cấu trúc thẻ Việc duyệt bao gồm bước để chuẩn hóa URL lấy ra, loại bỏ từ dừng khỏi nội dung trang web 2.1.4 Bộ lập mục – Index Lập mục trình phân tích xác định từ , cụm từ thích hợp cốt lõi có khả đại diện cho nội dung tài liệu Như vậy, vấn đề đặt phải rút trích thông tin chính, có khả đại diện cho nội dung tài liệu Thông tin phải “vừa đủ”, nghĩa không thiếu để trả kết đầy đủ so với nhu cầu tìm kiếm, phải không dư để giảm chi phí lưu trữ chi phí tìm kiếm để loại bỏ kết dư thừa không phù hợp Việc rút trích việc lập mục tài liệu Trước , trình thường chuyên viên qua đào tạo thực cách “thủ công “ nên có độ xác cao Nhưng môi trường đại ngày nay, với lượng thông tin khổng lồ việc lập mục tay không phù hợp, phương pháp lập mục tự động mang lại hiệu cao Một thủ tục lập mục tự động cho tài liệu xử lý sau: Step of tokenization: Tách văn thành chuỗi nhờ vào khoảng trắng, chuỗi xem từ Step of removal of stop words: bỏ từ thường xuyên xuất hầu hết tài liệu lại không quan trọng tài liệu tính từ, đại từ 9 Step of stemming: loại bỏ hậu tố (suffixes) để đưa từ gốc Các từ thu lập mục 2.1.5 Bộ tìm kiếm thông tin - Search Engine (Searching) Bộ tìm kiếm thông tin thực chất giao diện, cho phép người dùng nhập từ khóa hiển thị kết tìm kiếm cho người dùng Sau người dùng nhập từ khóa yêu cầu tìm kiếm, Searching tiến hành tìm kiếm CSDL (đã index) Trước hiển thị cho người xem, liệu tìm cần xếp hạng hiển thị để kết đưa phù hợp với người sử dụng Việc xếp hạng liệu – Ranking quan trọng Searching [5] 2.1.6 Phân loại hệ thống Search Engine Hiện có nhiều hệ thống Search Engines Internet, hệ thống Search Engine sử dụng kỹ thuật tìm kiếm khác Ta chia hệ thống Search Engine thành loại tìm kiếm thông thường siêu tìm kiếm 2.2 Các phƣơng pháp Search Engine 2.2.1 Các phƣơng pháp thu thập thông tin - Thuật toán duyệt theo chiều sâu - Thuật tóa duyệt theo chiều rộng - Thuật toán duyệt ngẫu nhiên 2.2.2 Các phƣơng pháp xếp hạng (Ranking) liệu 2.2.2.1 Phương pháp PageRank PageRank thước đo mà Google cung cấp cho Webmaster để đánh giá mức độ phổ biến trang PageRank ảnh hưởng tới thứ hạng trang kết tìm kiếm Thường trang có PageRank cao vị trí trang kết tìm kiếm ưu tiên Giá trị Pagerank hình thành từ thuật toán toán học dựa webgraph: trang World Wide Web coi đỉnh đường link cạnh Khi hình thành webgraph người ta có tính đến trang quan có uy tín cnn.com hay usa.gov Giá trị xếp hạng cho thấy tầm quan trọng trang cụ thể Mỗi đường link tới trang web tính hỗ trợ làm tăng thêm giá trị Pagerank Giá trị Pagerank trang định nghĩa đệ quy phụ thuộc vào số lượng giá trị trang mà có link dẫn đến trang (incoming links) Một trang web có chứa nhiều link liên kết từ trang web có giá trị PageRank cao giá trị PageRank trang cao 10 2.2.2.2 Phương pháp HITS (Hypertext Induced Topic Search) Ý tưởng thuật toán HITS xác định đồ thị Web áp dụng phân tích liên kết đồ thị để xác định Authority Hub truy vấn cho Đồ thị phụ thuộc vào truy vấn người sử dụng Sự chọn lựa đồ thị (cụ thể vài nghìn trang ) không tập chung vào việc phân tích liên kết hầu hết phần liên quan Web, mà đồng thời giảm số lượng công việc cho pha (do việc chọn lựa đồ thị phân tích thực thời gian truy vấn nên quan trọng để hoàn thành chúng thời gian ngắn) 2.3 Search Engine Search API mạng xã hội Facebook 2.3.1 Search Engine mạng xã hội Facebook 2.3.1.1 Giới thiệu Facebook Graph Search Graph Search xây dựng dựa liệu có cấu trúc dạng biểu đồ, đại diện cho hàng trăm loại nút hàng ngàn loại cạnh Users (Người dùng), Pages (Trang), địa điểm, hình ảnh viết nút biểu đồ, thông tin có cấu trúc tính chất riêng Các nút kết nối với nhiều cách khác Người dùng thích Trang, học trường học, sống thành phố, có mối quan hệ với người dùng khác, kiểm tra địa điểm bình luận ảnh Một ảnh lại gắn thẻ với người dùng chụp nơi Đó phong phú liệu định nghĩa chất Graph Search; Hệ thống cần phải thiết kế để hiểu ý định người dùng cách xác phục vụ đối tượng có cấu trúc 2.3.1.2 Cơ chế họa động Facebook Graph Search 2.3.1.3 Unicorn Unicorn hệ thống mục đồ thị trực tuyến thiết kế để tìm kiếm hàng tỷ cạnh người sử dụng thực thể hàng nghìn máy chủ Unicorn đựa khái niệm chuẩn tiếp cận thông tin, có số tính để cải tiến quan hệ xã hội lân cận (social proximity) Unicorn hỗ trợ câu truy vấn yêu cầu nhiều lần tới đồ thị để tìm đối tượng từ nhiều cạnh nút nguồn Unicorn thiết kế để trả lời hàng tỷ câu truy vấn ngày trả kết chưa đến giây, đóng vai trò kiến trúc hạ tầng cho Facebook's Graph Seach Các thực thể xác định thông qua khóa 64-bit chúng (id) Các cạnh thực thể lưu trữ Trong đồ thị xã hội, có hàng ngàn kiểu cạnh- vô hướng có hướng Kiểu cạnh phổ biến kiểu cạnh thể mối quan hệ "friend", cạnh vô 11 hướng Một mối quan hệ phổ biến đồ thị xã hội Facebook kiểu cạnh thể mối quan hệ "likes", cạnh nối từ người dùng tới trang (page) mà người dùng ấn thích Theo chiều ngược lại, ta có kiểu cạnh "likers" nối từ trang (page) tới người dùng thích trang Ngoài nhiều kiểu cạnh khác sử dụng để mô tả đồ thị * Kiến trúc Unicon * Mô hình liệu mạng xã hội Đồ thị mạng xã hội đặt dạng danh sách kề Ứng với nút danh sách nút có liên kết với nó, biểu diễn cặp liệu DocID HitData Một DocId (chỉ số tài liệu) cặp (sort-key, id) HitData mảng bite lưu trữ liệu cụ thể liên kết Sortkey số nguyên, nút kề xếp theo chiều giảm dần sort-key tăng dần id Như vậy, sort-key cho phép lưu trữ hầu hết id quan trọng trước vào danh sách kề Nếu id kết hợp với sortkey bên danh sách kề phải kết hợp với sortkey tất danh sách kề danh sách kề gọi danh sách đăng tải (posting lists) * Typeahead Typeahead tính cho phép người dùng Facebook tìm người dùng khác gõ số ký tự tên người dùng sau Facebook hiển thị danh sách người dùng có khả phù hợp, danh sách kết tự động cập nhật người dùng gõ thêm ký tự 12 * Graph Search Các hệ thống tìm kiếm đồ thị mong muốn có kết từ nhiều cạnh từ nhiều nút nguồn khác kết hợp kiểu cạnh id coi mối quan hệ (được gọi term), Unicorn lấy kiểu cạnh định nghĩa trước từ máy khách kết nối với id kết từ lần thực thi truy vấn để phát sinh thực thi câu truy vấn 2.3.2 Search API Facebook 2.3.2.1 Giới thiệu Facebook API API (Application Programming Interface) phương tiện để chương trình tương tác với (VD chương trình tương thích với hệ điều hành), sử dụng API xu hướng giới lập trình Facebook API tảng để xây dựng ứng dụng cho cácthành viên mạng xã hội Facebook Facebook API cho phép ứng dụng sửdụng kết nối xã hội thông tin hồ sơ để làm cho ứngdụng liên quan tới nhiều API cung cấp phương thức để lấy thông tin người sử dụng, nhóm người dùng, bạn bè, thông báo, sựkiện nguồn cấp liệu…Cũng dùng phương thức API để cập nhật lấy thông tin hồ sơ 2.3.2.2 Facebook Graph API Facebook Graph API cách để lấy liệu từ Facebook đưa liệu vào tảng Facebook Đó API dựa HTTP cấp thấp mà người dùng sử dụng để truy vấn liệu, đăng tin mới, quản lý quảng cáo, tải ảnh lên thực nhiều tác vụ khác mà ứng dụng triển khai Facebook Graph API đặt tên theo ý tưởng 'đồ thị xã hội' bao gồm: Nút –Tượng trưng cho người dùng, ảnh, trrang, địa điểm, bình luận Cạnh –Là liên kết nút Trường - thông tin nút, ngày sinh người dùng tên Trang Facebook Graph API dựa HTTP nên API hoạt động với ngôn ngữ có thư viện HTTP, chẳng hạn cURL urllib Chúng ta sử dụng Facebook Graph API trực tiếp trình duyệt 2.4 Kết luận chƣơng Trong chương này, đề tài tập trung nghiên cứu khái niệm, cấu trúc thuật toán sử dụng phần hệ thống Search Engine Phần chương nghiên cứu thành phần 13 chức Graph Search Facebook giới thiệu cách tiếp cận với Facebook Graph API Nội dung chương sở để áp dụng cho chương 14 Chƣơng 3: ĐỀ XUẤT SEARCH ENGINE CHO MẠNG XÃ HỘI FACEBOOK 3.1 Mô tả đề xuất Chương luận văn, em nghiên cứu, xây dựng mô đun tìm kiếm Facebook, mô đun tìm kiếm theo tiêu chí mà Facebook chưa có, tìm kiếm lan tỏa Mô đun giới hạn đối tượng tìm kiếm cho người dùng Cụ thể, người dùng nhập từ khóa tìm kiếm, mô đun tìm kiếm thông tin danh sách status bạn bè (Friends) danh sách bạn bạn (friends of friends) Để thực chức này, cần phải làm theo quy trình hệ thống Search Engine bản, phải xây dựng thu thập thông tin (Clawler), lập mục thông tin (Indexer) tìm kiếm thông tin Mô đun tìm kiếm lan tỏa xây dựng Framework Yii – ngôn ngữ PHP Cơ sở liệu MySQL 3.2 Xây dựng thi thập thông tin 3.2.1 Thu thập thông tin Để thu thập toàn thông tin đăng (status) danh sách bạn bè cần đăng nhập Facebook để có Access Token hợp lệ Các access token thường có thời hạn sử dụng ngắn việc thu thập liệu nhiều thời gian ta cần access token có thời gian sử dụng dài làm lại access token hết hạn Facebook cung cấp cho ta làm access token thông qua App Id App Secret ứng dụng mà ta dễ dàng tạo trang Facebook Developer Tuy nhiên access token có nhược điểm lấy thông tin người dùng Facebook sử dụng ứng dụng này, nên việc lấy toàn thông tin viết danh sách người ta mong muốn không khả thi Do đó, luận văn sử dụng access token qua ứng dụng Facebook phát triển Facebook for Android Facebook for iOS thông qua REST server API Facebook Khi lấy Access Token ta thiết lập muốn thu thập liệu Với mục đích toán này, ta thu thập liệu viết Facebook bạn bè bạn bạn bè Chúng ta sử dụng Graph Facebook API để lấy danh sách tất bạn bè tiếp lan tỏa tiếp từ bạn bè đến bạn bạn bè Trong luận văn này, sử dụng phương pháp duyệt đồ thị theo chiều sâu, nghĩa duyệt tới người A bạn tôi, chương trình ưu tiên thu thập thông tin người bạn A (bạn bạn) 15 3.2.2 Lƣu thông tin vào Cơ sở liệu 3.3 Chỉ mục liệu Trong ứng dụng này, thời gian không cho phép nên không xây dựng đánh mục mà sử dụng tìm kiếm MySQL Full text search để mục liệu thu thập phần 3.2 Full text search sử dụng cấu trúc Inverted Index để index liệu thu thập từ phần 3.2 Sau trình index liệu MySQL Full text search, ta thu files DocID Content DocID lưu index terms (Từ mục) Conten lưu nội dung liệu Kết đánh giá Website Trường Đại học Công nghệ GTVT đạt 91.19 điểm, mức độ đáp ứng yêu cầu 3.4 Bộ tìm kiếm liệu Bộ tìm kiếm liệu gồm có giao diện (nhập từ khóa tìm kiếm hiển thị kết tìm kiếm) mô đun searcher (Tìm kiếm) Mô đun có nhiệm vụ load liệu qua index từ file docid content vào nhớ, sau với query, Searcher phân tích query thành term, tìm kiếm tài liệu chứa term dựa vào liệu từ docid hiển thị kết hình Kết hiển thị hình lấy từ file content Tuy nhiên, kết tìm lớn việc hiển thị kết để phù hợp với người sử dụng vấn đề quan trọng, liệu tìm cần ranking trước hiển thị cho người sử dụng Trong nội dung luận văn này, em sử dụng thuật toán Pagerank để ranking liệu Áp dụng thuật toán Pagerank, ta coi user đỉnh đồ thị, status đỉnh đồ thị, cạnh đồ thị tương tác user với user với status (Like, comment share) Để xếp hạng đăng, em sử dụng thuật toán pagerank lần, lần để xếp hạng users dựa vào tương tác họ (like, share, comment) với đăng người khác số tương tác mà họ nhận từ người khác ri d k(j.i) r j./N j 1 d/m (2.2) jB i Để xếp hạng đăng (Status), em áp dụng thuật toán Pagerank đơn giản (2.1) si r j / N j jB i 16 3.5 Kết thử nghiệm Sau xây dựng mô đun „tìm kiếm lan tỏa Facebook‟ em tiến hành thử nghiệm có kết sơ sau: - Quá trình Crawl liệu Em sử dụng tài khoản Facebook cá nhân để thu thập danh sách bạn bè bạn bạn, kếu thu thập khoảng 30.000 tài khoản Facebook lưu vào danh sách Kèm với đó, thu thập gần triệu đăng (trong tháng gần nhất) tài khoản Facebook danh sách lưu - Kết tìm kiếm hiển thị theo thứ tự ưu tiên xếp hạng, ranking cao ưu tiên hiển thị trước Tuy nhiên thời gian có hạn nên em chưa tối ưu việc index liệu dẫn đến thời gian tìm kiếm không mong muốn (Có cụm từ khóa, hệ thống tìm kiếm gần 20 giây trả kết quả) - Chức „tìm kiếm lan tỏa‟ đưa kết khác so với với chức tìm kiếm Facebook nay, kết tìm kiếm giới hạn phạm vi định, đăng người có lên quan (trên Facebook) với bạn bè Chức „Tìm kiếm lan tỏa‟ giúp người dùng sàng lọc kiểm chứng lại thông tintrong vài trường hợp định Ví dụ, người dùng sử dụng chức „tìm kiếm lan tỏa‟ để tìm mua mặt hàng mà người bán đăng Facebook, họ nhận danh sách đăng khác so với chức tìm kiếm có Facebook Những đăng hoàn toàn kiểm chứng qua bạn bè họ (những người có mối quan hệ Facebook với người đăng bán) Chương trình bày trạng việc đánh giá chất lượng phần mềm website Trường Đại học Công nghệ Giao thông vận tải Bất kỳ quan mong muốn có sản phẩm phần mềm đạt chất lượng cao, đánh giá chất lượng phần mềm quan tâm Căn trạng Website Trường Đại học Công nghệ GTVT tiêu chí, tiêu chuẩn đánh giá thiết kế trên, học viên đề xuất quy trình thực đánh giá, cho điểm cụ thể website Trường Đại học Công nghệ GTVT nơi học viên công tác 17 KẾT LUẬN Kết đạt đƣợc luận văn Luận văn nghiên cứu vấn đề Mạng xã hội trực tuyến nhu cầu sử dụng, thị phần mạng xã hội trực tuyến hàng đầu Em đưa thống kê mang tính cập nhật tình hình sử dụng Mạng xã hội Facebook Việt Nam Thế giới Qua đó, nhận thấy tầm quan trọng việc khai thác thông tin mạng xã hội nói chung Facebook nói riêng Luận văn bước đầu nghiên cứu, tổng hợp vấn đề lý thuyết cho toán “Search Engine” mạng công cụ Graph Search - ứng dụng cho chức tìm kiếm Facebook Em đưa chiến lược thông dụng phổ biến cho công cụ tìm kiếm mạng API sử dụng để thu thập liệu Facebook Dựa vào mô hình lý thuyết kết hợp với liệu thu thập từ Facebook, em tiến hành cài đặt mô đun tìm kiếm lan tỏa cho Facebook Các chức có ưu điểm như: - Giới hạn đối tượng mong muốn: Trong trình Crawl liệu từ Facebook, em giới hạn đối tượng mà mong muốn thu thập liệu (bạn, bạn bạn, bạn bạn bạn …) - Đưa tập kết theo thứ tự độ liên quan tới truy vấn cao Bên cạnh đạt được, thời gian có hạn thiếu nhiều kinh nghiệm nên có vấn đề em chưa giải như: - Thời gian tìm kiếm chưa ý muốn, cần cải thiện them - Do hạn chế thời gian kinh nghiệm nên em chưa có điều kiện thử nghiệm số thuật toán đưa phần lý thuyết Ví dụ áp dụng thuật toán Hits để xếp hạng cho liệu tìm kiếm Trong trình thực luận văn này, em cố gắng tập trung tìm hiểu tham khảo nhiều tài liệu có liên quan Tuy nhiên, với thời gian trình độ có hạn nên luận văn không tránh khỏi hạn chế thiếu sót Em mong góp ý quí thầy, cô để hoàn thiện kết nghiên cứu Hƣớng phát triển luận văn - Tối ưu hóa liệu giảm thời gian tìm kiếm nhanh - Thực tìm kiếm ảnh Facebook 18 - Tóm tắt nội dung liệu hàng đầu (có ranking cao) hiển thị cho người dùng 19 TÀI LIỆU THAM KHẢO [1] Phan Hồ Viết Trường, (2013), “Phân tích tầm ảnh hưởng đối tượng theo chủ đề mạng Xã hội”, SCIENCE & TECHNOLOGY DEVELOPMENT, Vol 16, No.K4- 2013 [2] B.S Satpute, Raj Ambani, (2014),” Design and Implementation of Distributed Facebook Crawler Based on Interaction Simulation”, International Journal of Engineering Trends and Technology (IJETT) – Volume 10 Number - Apr 2014 [3] Facebook, Inc, (2014) Unicorn: A System for Searching the Social Graph [4] S.Brin and L Page,(1998) “The anatomy of a large-scale hypertextual web search engine” In proceedings of 7th World Wide Web Conference, 1998 [5] Kim S.J., Lee S.H (2002), “An Improved Computation of the PageRank Algorithm”, Lecture Notes in Computer Science, vol 2291 Springer, Berlin, Heidelberg [6] Zhiyong Zhang and Olfa Nasraoui (2009), “Profile - Base d Focused Crawling for Social Media-Sharing Websites”, University of Louisville, Louisville, KY 40292, USA http://ieeexplore.ieee.org/document/4669706/, truy cập ngày 20/2/2017 [7] Damon Horowitz and Sepandar D Kamvar,(2010),” The Anatomy of a Large-Scale Social Search Engine”, Stanford University, Stanford, CA, USA, http://dl.acm.org/citation.cfm?id=1772735, truy cập ngày 20/2/2017 [8] Facebook, Inc, (2014) Facebook Graph API, https://developers.Facebook.com/docs/graph-api, truy cập ngày 24/4/2017 [9] http://ktmt.github.io/blog/2014/01/04/full-text-search-engine-part-1/ [10] https://vi.wikipedia.org/wiki/Wikipedia ... Nghiên cứu hệ thống Search Engine, cấu trúc mạng xã hội Facebook xây dựng hệ thống Search Engine cho mạng xã hội Facebook Đối tƣợng phạm vi nghiên cứu Luận văn tập trung vào nghiên cứu cấu... từ Facebook Mạng xã hội giống "ốc đảo" mà dịch vụ tra cứu khai thác Từ lý trên, lựa chọn đề tài Nghiên cứu search engine mạng xã hội Facebook cho luận văn Thạc sĩ Mục đích nghiên cứu Nghiên. .. thành chúng thời gian ngắn) 2.3 Search Engine Search API mạng xã hội Facebook 2.3.1 Search Engine mạng xã hội Facebook 2.3.1.1 Giới thiệu Facebook Graph Search Graph Search xây dựng dựa liệu có cấu