NGUYỄN THỊ HỒNG HẠNH TÌM HIỂU MỘT SỐ GIẢI THUẬT TÌM KIẾM CỘNG ĐỒNG TRONG MẠNG XÃ HỘI VÀ ÁP DỤNG VÀO BÀI TOÁN KHAI PHÁ QUY TRÌNH LUẬN VĂN THẠC SỸ CÔNG NGHỆ THÔNG TIN Hà Nội 2016 ( ĐẠI HỌC QUỐC GIA HÀ N[.] Tìm hiểu một số giải thuật tìm kiếm cộng đồng trong mạng xã hội và áp dụng vào bài toán khai phá quy trìnhTìm hiểu một số giải thuật tìm kiếm cộng đồng trong mạng xã hội và áp dụng vào bài toán khai phá quy trìnhTìm hiểu một số giải thuật tìm kiếm cộng đồng trong mạng xã hội và áp dụng vào bài toán khai phá quy trìnhTìm hiểu một số giải thuật tìm kiếm cộng đồng trong mạng xã hội và áp dụng vào bài toán khai phá quy trình
ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC CÔNG NGHỆ NGUYỄN THỊ HỒNG HẠNH TÌM HIỂU MỘT SỐ GIẢI THUẬT TÌM KIẾM CỘNG ĐỒNG TRONG MẠNG XÃ HỘI VÀ ÁP DỤNG VÀO BÀI TỐN KHAI PHÁ QUY TRÌNH LUẬN VĂN THẠC SỸ CÔNG NGHỆ THÔNG TIN Hà Nội - 2016 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC CƠNG NGHỆ NGUYỄN THỊ HỒNG HẠNH TÌM HIỂU MỘT SỐ GIẢI THUẬT TÌM KIẾM CỘNG ĐỒNG TRONG MẠNG XÃ HỘI VÀ ÁP DỤNG VÀO BÀI TỐN KHAI PHÁ QUY TRÌNH Ngành: Công nghệ thông tin Chuyên ngành: Hệ thống thông tin Mã số: 60.48.01.04 LUẬN VĂN THẠC SỸ CÔNG NGHỆ THƠNG TIN NGƢỜI HƢỚNG DẪN KHOA HỌC: PGS.TS Nguyễn Trí Thành Hà Nội - 2016 i LỜI CAM ĐOAN Tác giả xin cam đoan kết đạt đƣợc luận văn sản phẩm riêng cá nhân Tác giả đƣợc hƣớng dẫn khoa học PGS.TS Nguyễn Trí Thành, khơng chép lại ngƣời khác Trong tồn nội dung luận văn, điều trình bày cá nhân đƣợc tổng hợp nhiều nguồn tài liệu Tất tài liệu tham khảo có xuất xứ rõ ràng đƣợc trích dẫn hợp pháp Tác giả xin hoàn toàn chịu trách nhiệm chịu hình thức kỷ luật theo quy định cho lời cam đoan Hà Nội, ngày tháng năm 2016 HỌC VIÊN Nguyễn Thị Hồng Hạnh i LỜI CẢM ƠN Lời đầu tiên, em xin gửi lời cảm ơn chân thành sâu sắc tới thầy PGS.TS Nguyễn Trí Thành, ngƣời thầy trực tiếp hƣớng dẫn tận tình đóng góp ý kiến q báu cho em suốt trình thực luận văn tốt nghiệp Em xin gửi lời cảm ơn đến thầy cô giáo Trƣờng Đại học Công nghệ - Đại học Quốc gia Hà Nội, tận tâm truyền đạt kiến thức quý báu làm tảng cho em công việc sống Qua đây, em xin cảm ơn sinh viên Nguyễn Duy Kiên – Trƣờng Đại học Công nghệ Hà Nội hỗ trợ giúp đỡ em mặt kỹ thuật Cuối cùng, em xin đƣợc cảm ơn cha mẹ, ngƣời thân, ban bè đồng nghiệp em Sở Nông nghiệp PTNT tỉnh Hƣng Yên, ngƣời bên em, khuyến khích động viên em sống học tập HỌC VIÊN Nguyễn Thị Hồng Hạnh i MỤC LỤC DANH MỤC KÝ HIỆU VÀ TỪ VIẾT TẮT v DANH MỤC CÁC BẢNG vi MỞ ĐẦU .7 CHƢƠNG 1.TỔNG QUAN VỀ KHAI PHÁ QUY TRÌNH 1.1 Khai phá quy trình 1.1.1 Sự cần thiết KPQT .10 1.1.2 Mục tiêu KPQT 11 1.1.3 Mơ hình quy trình nhật ký kiện 11 1.1.4 Các toán KPQT 12 1.1.5 Các khía cạnh KPQT 13 1.1.6 Các ứng dụng KPQT 14 1.1.7 Một số thách thức lĩnh vực KPQT 14 1.2 Khía cạnh tổ chức KPQT 15 1.3 Bài tốn tốn khai phá khía cạnh tổ chức 18 1.3.1 Trong thực tế 18 1.3.2 Trong luận văn 18 1.4 Ý nghĩa luận văn 20 1.4.1 Về mặt khoa học 20 1.4.2 Về mặt thực tiễn 21 CHƢƠNG CÁC GIẢI THUẬT TÌM KIẾM CỘNG TRONG MXH 22 2.1 Cộng đồng mạng xã hội 22 2.1.1 Nguyên nhân hình thành cộng đồng MXH 22 2.1.2 Các loại cộng đồng MXH 23 2.1.3 Các loại cấu trúc cộng đồng .23 2.2 Các phƣơng pháp phát cộng đồng 24 2.2.1 Ứng dụng 24 2.2.2 Các loại giải thuật 25 2.3 Các giải thuật tìm kiếm cộng đồng chồng chéo .28 2.4 Lựa chọn giải thuật tìm kiếm 30 i CHƢƠNG ÁP DỤNG GIẢI THUẬT TÌM KIẾM CỘNG ĐỒNG CHỒNG CHÉO VÀO BÀI TỐN KPQT .34 3.1 Phƣơng pháp nghiên cứu 34 3.1.1 Tính hiệu đề xuất 34 3.1.2 Định dạng liệu đầu vào độ đo 35 3.2 Giải pháp thực 37 3.2.1 Đề xuất mơ hình giải 37 3.2.2 Các bƣớc thực 38 CHƢƠNG KẾT QUẢ THỰC NGHIỆM VÀ ĐÁNH GIÁ 46 4.1 Công cụ, môi trƣờng thực nghiệm 46 4.1.1 Phần cứng 46 4.1.2 Phần mềm tập liệu đầu vào 46 4.2 Chƣơng trình thực nghiệm .47 4.3 Kết thực nghiệm đánh giá .48 KẾT LUẬN VÀ HƢỚNG PHÁT TRIỂN TƢƠNG LAI 51 TÀI LIỆU THAM KHẢO 52 v DANH MỤC KÝ HIỆU VÀ TỪ VIẾT TẮT STT I II 10 11 Chữ viết tắt Tiếng việt CNTT HTTT KCTC KPQT MHQT MXH Tiếng anh B2B BPNN CRM EPC ERP NMI SCM UPGMA WFM XES XML Chú giải Công nghệ thông tin Hệ thống thơng tin Khía cạnh tổ chức Khai phá quy trình Mơ hình quy trình Mạng xã hội Busines - to - Business Back - propagation neural network Customer Relationship Management Event - driven Process Chain Systems for Enterprise Resource Planning Normalized mutual information Supply Chain Management Unweighter Pair - Group Method using Arithmetic averages Workflow Management eXtensible Event Stream EXtensible Markup Language v DANH MỤC CÁC BẢNG Bảng 2.1 So sánh loại cấu trúc cộng đồng 24 Bảng 2.2 Các phƣơng pháp tính khoảng cách hai cụm .26 Bảng 3.1 Bảng mơ tả thuộc tính phần liệu kiện 36 Bảng 3.2 Thứ tự thực nhiệm vụ ngƣời trƣờng hợp 40 Bảng 3.3 Ma trận 𝑀 mối quan hệ 40 Bảng 3.4 Ma trận đỉnh kề 𝑀𝑎 41 Bảng 3.5 Danh sách đỉnh kề 42 Bảng 3.6 Ma trận 𝑀𝑠 độ tƣơng tự 43 Bảng 3.7 Tính mật độ phân vùng ngƣỡng cắt t=1 43 Bảng 3.8 Tính mật độ phân vùng ngƣỡng cắt t=0.7(KN1) 44 Bảng 3.9 Tính mật độ phân vùng ngƣỡng cắt t=0.7(KN2) 44 Bảng 3.10 Danh sách cộng đồng đƣợc tìm thấy 45 Bảng 4.1 Chi tiết số phần cứng hệ điều hành 46 Bảng 4.2 Thông tin phần mềm tập liệu đầu vào 46 Bảng 4.3 Đánh giá kết chƣơng trình thực nghiệm .48 Bảng 4.4 Đánh giá chất lƣợng cộng đồng 50 DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ Hình 1.1 Tổng quan KPQT 10 Hình 1.2 Quá trình phát mơ hình quy trình từ nhật ký kiện 11 Hình 1.3 Các tốn KPQT .13 Hình 1.4 Các ứng dụng KPQT lĩnh vực 14 Hình 1.5 Mơ hình tổ chức đƣợc phát từ nhật ký kiện 19 Hình 2.1 Các loại cấu trúc cộng đồng .24 Hình 2.2 Các phƣơng pháp phân cụm thứ bậc 26 Hình 3.1 Một phần mã nguồn liệu nhật ký kiện 35 Hình 3.2 Mơ hình áp dụng giải tìm kiếm cộng đồng vào KPQT 37 Hình 3.3 Thơng tin q trình xử lý cố đƣợc lƣu tệp BPI2013.xes .39 Hình 3.5 Định dạng liệu txt lƣu đồ thị 40 Hình 3.4 Đồ thị đƣợc xây dựng từ ma trận kề 41 Hình 3.6 Quá trình phân cụm thứ bậc từ dƣới - lên 43 Hình 3.8 Các cộng đồng đỉnh chồng chéo 44 Hình 4.1 Kết chƣơng trình thực nghiệm 47 MỞ ĐẦU Trong môi trƣờng cạnh tranh nay, yếu tố cốt lõi tổ chức, doanh nghiệp truy cập thơng tin, nghiệp vụ cách nhanh chóng, hiệu đạt chi phí tối ƣu Kinh doanh thông minh bao gồm công nghệ công cụ để chuyển đổi liệu thô thành thông tin có nghĩa có ích cho mục đích phân tích kinh doanh, ứng dụng cơng nghệ để chuyển liệu doanh nghiệp thành hành động Với gia tăng hệ thống tích hợp thơng tin từ trình kinh doanh nhƣ WFM, ERP, CRM, SCM B2B, … tạo cách thức tiếp cận việc phân tích liệu lớn (big data) Khai phá quy trình (KPQT) kinh doanh hay KPQT cầu nối quan trọng khai phá liệu với quản lý trình kinh doanh [12] Các kỹ thuật giúp trích lọc thơng tin có giá trị hay thông tin mà doanh nghiệp cần từ tập nhật ký kiện đƣợc lƣu hệ thống tích hợp thơng tin, giúp bổ sung vào tiếp cận có để quản lý quy trình kinh doanh Bài toán KPQT gồm ba toán nhằm cải thiện quy trình kinh doanh để mở rộng mơ hình quy trình (MHQT) cần bổ sung ba khía cạnh: tổ chức, thời gian trƣờng hợp[1] Khía cạnh tổ chức bao gồm nhiều kỹ thuật có giá trị nhƣ khai phá mạng xã hội, khai phá luật phân phối nguồn tài nguyên, …[8] Trong đó, khai phá mạng xã hội bao gồm kỹ thuật khai phá đƣợc sử dụng rộng rãi, cho phép phát mạng xã hội (MXH) phòng, đơn vị, cá nhân tham gia vào quy trình kinh doanh từ nhật ký kiện Việc phân tích đánh giá mối quan hệ giúp nhà quản lý có nhìn xác quy trình có tổ chức họ Trong mơ hình MXH, đỉnh đại diện cho phòng, đơn vị hay ngƣời, mối quan hệ đỉnh đƣợc biểu diễn dƣới dạng cạnh Vấn đề chồng chéo nhiệm vụ ngƣời tham gia vào quy trình thách thức mang tính thời doanh nghiệp Hậu vấn đề mang lại thiệt hại kinh tế quy trình kinh doanh hoạt động thơng suốt Với doanh nghiệp quy mơ lớn, mơ hình MXH kích thƣớc lớn bao gồm nhiều đỉnh mật độ kết nối đỉnh dày đặc Để tìm đƣợc ngƣời có chồng chéo nhiệm vụ MXH có kích thƣớc lớn tốn khó, đƣợc khoa học quan tâm, nghiên cứu Để giải thách thức trên, tác giả đề xuất phƣơng pháp áp dụng giải thuật tìm kiếm cộng đồng vào tốn khái phá quy trình Ý tƣởng đề xuất sử dụng kỹ thuật KCTC để phát mơ hình MXH từ tập nhật ký kiện Sau đó, sử dụng giải thuật tìm kiếm cộng đồng chồng chéo để tìm cộng đồng có cấu trúc chồng chéo Hiệu đề xuất giúp đơn giản hóa cấu trúc mạng tức chia mạng có kích thƣớc lớn thành mạng có kích thƣớc nhỏ kết nối chặt chẽ [7] Do mục tiêu luận văn tìm cộng đồng chồng chéo nên Tác giả tập trung vào giải thuật tìm kiếm cộng đồng chồng chéo, loại cấu trúc cộng đồng xuất phổ biến thực tế Các nhiệm vụ Luận văn thực hiện: Nghiên cứu tổng quan lĩnh vực KPQT giải thuật tìm kiếm cộng đồng MXH năm gần Phát biểu toán KCTC đề xuất mơ hình giải tốn Xây dựng chƣơng trình thực nghiệm dựa mơ hình đề xuất luận văn đánh giá kết thu đƣợc Bố cục luận văn bao gồm phần mở đầu, bốn chƣơng nội dung, phần kết luận phƣơng phát triển tƣơng lai, danh mục tài liệu tham khảo Chương Tổng quan KPQT: Giới thiệu tổng quan KPQT, trình bày chi tiết vấn đề liên quan đến khía cạnh tổ chức phân tích phƣơng pháp phát MXH từ nhật ký kiện Phần Chƣơng phát biểu tốn cần xử lý đƣa phƣơng pháp giải Từ đó, có nhận định ý nghĩa thực tiễn, ý nghĩa khoa học luận văn Chương Các giải thuật tìm kiếm cộng đồng MXH: Giới thiệu loại giải thuật tìm kiếm đặc biệt giải thuật tìm kiếm cộng đồng chồng chéo Sau đó, Tác giả lựa chọn giải thuật tìm kiếm cộng đồng chồng chéo áp dụng vào toán KPQT Phân tích chi tiết giải thuật Phân vùng theo cạnh nhóm tác giả Ahn et al đƣa vào năm 2010 [4] Chương Áp dụng giải thuật tìm kiếm cộng đồng vào tốn KPQT: Đề xuất mơ hình giải tốn đƣa định dạng liệu đầu vào độ đo đƣợc sử dụng mơ hình Phân tích chi tiết bƣớc thực mơ hình Kết q trình tìm cộng đồng cạnh có cấu trúc phân cấp, tƣơng ứng cộng đồng đỉnh có cấu trúc chồng chéo Chương Kết thực nghiệm đánh giá: Đƣa yêu cầu liệu, phần cứng, phần mềm mã nguồn cần thiết để xây dựng chƣơng trình thực nghiệm theo mơ hình đề xuất Dựa bảng số liệu thu đƣợc sau chạy chƣơng trình với tệp liệu dùng làm mẫu thử nghiệm, tác giả sử dụng tiêu chuẩn độ đo để phân tích chi tiết thơng số bảng Từ đó, đánh giá kết thu đƣợc dựa vào phân tích