Tiểu luận KHAI PHÁ DỮ LIỆU: Đề tài Ứng dụng vào văn bản, web và truyền thông

KHAI PHÁ DỮ LIỆU Chương 13: Ứng dụng vào văn bản, web truyền thông Họ tên Mã sinh viên Nguyễn Việt Minh Nghĩa 15021358 Tống Anh Mai 14020288 Lê Tiến Chiến 15021767 Vũ Đình Hướng 16020991 Nguyễn Xuân Đức 15021775 Chương mơ tả ba ngành phân tích liệu thu hút nhiều ý khả ứng dụng rộng rãi: - Khai phá văn bản: trích xuất liệu từ văn - Phân tích mạng xã hội: trích xuất liệu từ quan hệ xã hội - Hệ thống gợi ý: sử dụng lựa chọn người dùng để gợi ý sản phẩm Mỗi ý ba ý dành riêng phần chương Làm việc với văn Thu thập liệu Trích xuất thuộc tính Tách từ - Tokenization Khơi phục hình thái gốc từ - stemming Bỏ stop word Chuyển sang dạng có cấu trúc Bag of word có đủ tốt khơng? Các giai đoạn cịn lại Xu hướng Phân tích cảm xúc (Sentiment Analysis) Khai phá web (Web Mining) 10 10 11 11 11 12 12 Hệ thống đề xuất Phản hồi Recommendation (đề xuất) Kỹ thuật Recommendation Kỹ thuật dựa vào kiến thức Kỹ thuật dựa vào nội dung Kỹ thuật lọc cộng tác Kết luận 13 14 15 17 17 17 19 25 Phân tích mạng xã hội Thể mạng xã hội Đặc tính nút Bậc (degree) Khoảng cách (distance) Độ dày đặc (closeness) Độ trung tâm (Betweenness) Hệ số phân cụm (cluster coeffient) Đặc tính mạng Đường kính (diameter) Sự trung tâm (centralization) Cliques Phân cụm kết hợp Modularity Xu hướng số nhận xét cuối 25 25 26 26 27 28 28 29 30 30 30 32 32 32 33 Bài tập 34 1.Làm việc với văn Giả sử bạn có vài trăm người bạn mạng xã hội Do đó, ngày bạn nhận hàng trăm tin nhắn Hiện nay, bạn phải đọc hết số tin nhắn đó, việc tốn nhiều thời gian ngày, từ xuất nhu cầu khả lọc tin nhắn quan trọng cần đọc Nhu cầu giải khai phá văn Với bùng nổ mạng xã hội email, ta có lượng lớn liệu dạng văn Văn cách phổ biến trao đổi thông tin xã hội Trong người dễ dạng lọc thơng tin q giá ẩn văn bản, máy tính lại khơng có khả Lấy ví dụ ghi đơn giản thói quen ăn uống Fred - người ăn chay "Fred thích ăn đồ Tàu Hắn ăn chay, kiêng thịt Để bù protein, phải ăn đồ ăn có nhiều protein giống thịt” Làm để trích xuất thơng tin từ đoạn văn trên? Các chương trước giới thiệu số kĩ thuật phân tích liệu, cụ thể thuật tốn học máy, trích xuất tri thức từ liệu Tuy nhiên, kĩ thuật áp dụng cho liệu dạng bảng, không dùng cho dạng văn tự ví dụ Văn bản, giống hình ảnh, phim âm thanh, khơng có dạng bảng Để phân biệt, liệu dạng bảng gọi liệu có cấu trúc (structured data), liệu cịn lại gọi liệu không cấu trúc (unstructured data) Một lĩnh vực gần với khai phá liệu khai phá văn Khai phá văn cung cấp nhiều kĩ thuật đặc thù để rút tri thức từ văn thô dạng ngôn ngữ tự nhiên Nhìn chung, khai phá liệu gắn liền với liệu, khai phá văn gắn liền với văn Nguồn gốc khai phá văn toán đánh mục tài liệu truy hồi thông tin (information retrieval) Truy hồi thông tin thường liên quan đến việc lấy thông tin từ văn mạng Đây hướng nghiên cứu quan trọng việc phát triển máy tìm kiếm, giúp xác định website liên quan dựa tương đồng văn Khai phá văn ngành nghiên cứu tích cực phân tích liệu Nó cung cấp cơng cụ để trích xuất tri thức từ văn Khai phá văn đóng vai trò quan trọng nhiều tác vụ: thu hồi thơng tin, phát thư rác, phân tích cảm xúc, hệ thống gợi ý, Với ứng dụng này, khía cạnh quan trọng việc đo độ tương đồng văn Tương tự khai phá liệu, khai phá văn thuộc loại dự đốn loại mơ tả Khai phá văn mơ tả bao gồm việc tìm nhóm văn giống nhau, tìm văn thuộc vấn đề, tìm từ thường xuyên Khai phá văn dự đoán gồm phân loại văn vào chủ đề, nhận diện thư rác phân tích cảm xúc tin nhắn Phần tập trung vào khai phá văn dự đốn, cịn gọi phân loại văn (text categorization document classification) Quy trình làm việc giống quy tình khai phá liệu, gồm bước: - Thu thập liệu - Trích xuất thuộc tính - Tiền xử lí liệu - Tạo model - Đánh giá diễn giải kết Ba bước cuối dùng lại kĩ thuật khai phá liệu thông thường Sau bước thứ hai, liệu dạng có cấu trúc Như nói, kĩ thuật khai phá liệu thường yêu cầu đầu vào dạng bảng, khơng thể trực tiếp áp dụng cho đầu vào dạng chữ Do đó, bước thứ hai phải việc chuyển văn thơ thành bảng có dạng thuộc tính-giá trị Các kĩ thuật chuyển đổi tập trung giới thiệu phần Thu thập liệu Cũng khai phá liệu, ta cần thu thập liệu đại diện: liệu để khai phá phải giống với liệu nhận tương lai Để tăng khả có liệu đại diện, liệu phải thu thập với số lượng lớn Một tập liệu văn lớn gọi corpus Mỗi văn corpus chuyển thành đối tượng có cấu trúc bước sau Nếu văn xuất phát từ nhiều nguồn khác nhau, thường chúng có nhiều dạng khác Dạng đơn giản văn thơ, gồm tồn văn văn Dạng tốt văn đánh dấu phần tag metadata Văn đánh dấu tác giả, tiêu đề, ngày phát hành, tên riêng Một định dạng văn phổ biến có khả đánh dấu XML Trích xuất thuộc tính Đây bước quan trọng, đồng thời phổ biến hệ thống khai phá văn Các kiến thức ngôn ngữ học áp dụng rộng rãi giúp làm sạch, đồng thời tạo liệu văn có cấu trúc để nạp vào thuật tốn pha sau Phần sử dụng hai ví dụ nhỏ tiếng Anh tiếng Việt để biểu diễn thuật tốn sau: Ví dụ 1: None of them gives a fig Tơi khơng thích xe đạp này, bàn đạp nặng 2.1 Tách từ - Tokenization Tokenization việc phân chia câu thành từ, từ đơn từ ghép Trước tạo cấu trúc cho văn (ví dụ phân tích cú pháp câu, tạo cấu trúc văn, ), ta phải từ Mỗi token sau coi Mỗi từ câu gọi từ tố (token) Câu tách thành từ tố nhờ vào dấu cách dấu hiệu phân tách từ khác, dấu câu Trong xử lí ngơn ngữ tự nhiên, phương pháp cịn có tên "bag of words" Tùy vào ứng dụng, số kí tự đặc biệt, chí cụm từ coi token Bài toán tokenization đặc biệt quan trọng xử lí tiếng Việt, tiếng Việt ngơn ngữ đơn lập (isolating language), có tính đơn lập mạnh, khơng có dấu phân tách từ Ta xem xét ảnh hưởng hai yếu tố đến việc xử lí ngơn ngữ so sánh với ngôn ngữ đối lập Tiếng Việt xếp vào loại ngôn ngữ đơn lập hai lí do: từ thường có một vài hình vị (morpheme, hiểu đơn giản tiếng), dựa thứ tự từ hình vị để tạo nghĩa Xét ví dụ sau: Sắc đẹp ngàn cân Bức tranh có màu sắc đẹp Hình vị “sắc”, “đẹp”, cụm “sắc đẹp” có nghĩa đứng riêng lẻ Trong cặp ví dụ trên, cụm “sắc đẹp” có nghĩa ví dụ đầu tiên, lại vơ nghĩa ví dụ thứ hai; ví dụ đó, hình vị “sắc” phải thuộc vào “màu sắc” “đẹp” lại đứng riêng, gây lẫn lộn Ở thái cực ngược lại hồn tồn với ngơn ngữ đơn lập ngôn ngữ đa tổng hợp (polysynthetic language) Trong ngôn ngữ đa tổng hợp, tiêu biểu tiếng Phần Lan, từ có nhiều hình vị, chí đủ cho câu (nói cách khác, từ truyền tải ý nghĩa câu), nhiên hình vị lại biến đổi lẫn khơng giữ nguyên đứng riêng, khiến từ dài không bị lầm lẫn hình vị lúc parse Vấn đề quan trọng việc tiếng Việt khơng có phân cách từ Dấu phân cách phổ biến tiếng Việt dấu cách, nhiên dùng để phân cách hình vị khơng phân tách từ Ta so sánh với tiếng Anh, ngôn ngữ đơn lập (tiếng Anh có tính đơn lập yếu nhiều so với tiếng Việt) tiếng Anh có dùng dấu cách để phân tách từ, q trình tách từ dễ dàng nhiều, cần dùng luật đơn giản Regex đủ Do hai lí trên, tách từ tốn khó tiếng Việt, toán tokenization đơn giản phát triển lên thành tốn word segmentation Vì khó khăn này, số thuật toán tách từ tiếng Việt có thiết kế theo hướng kết hợp giai đoạn tách từ đánh dấu cấu trúc câu (POS tagging), khác với tiếng Anh thường làm theo thiết kế pipeline: tokenization đến đánh dấu cấu trúc câu Hiện thuật tốn tokenization mạnh cho tiếng Việt gói POS-tagger book VNCoreNLP Hệ thống sử dụng thiết kế pipeline, với việc tokenization thực sơ lược phương pháp dùng cho tiếng Anh, việc phân tách thành từ sử dụng BiLSTM kết hợp CRF BiLSTM - trường hợp RNN - thuật toán sử dụng rộng rãi cho tốn word segmentation, ngồi cịn phương pháp CRF, MaxEnt, mơ hình Markov ẩn Áp dụng vào hai ví dụ ban đầu ta có: None, of, them, gives, a, fig Tơi, khơng, thích, chiếc, xe_đạp, này, bàn_đạp, của, nó, nặng, 2.2 Khơi phục hình thái gốc từ - stemming Sau tokenization, số lượng từ - token - nhiều Các từ khác chút, ví dụ chia thì, số nhiều, tính từ khác nhau, chúng thay đổi nghĩa Hiện tượng gọi biến đổi hình thái Nhiều tốn khơng cần thay đổi này, dẫn đến nhu cầu việc quy từ biến đổi hình thái từ gốc để giảm số lượng token Giảm số lượng token đồng nghĩa với giảm số lượng thuộc tính, khiến cho ma trận thuộc tính cuối có giá trị tốt đồng thời bớt thưa Tất nhiên, biến đổi hình thái có thay đổi mạnh nghĩa tính phủ định tiền tố a-, in- hay hậu tố -less tiếng Anh lại không bỏ Với ngôn ngữ không đơn lập, tokenization dễ bù lại stemming lại khó ngôn ngữ đơn lập Ngôn ngữ đơn lập, theo định nghĩa, vốn khơng có có biến đổi hình thái - tức biến đổi thì, giống, số nhiều, danhđộng-tính Để tạo tác dụng biến đổi hình thái, ngơn ngữ đơn lập thêm hình vị phụ vào trước sau đồng thời không biến đổi hình vị Cụ thể trường hợp tiếng Việt, hình vị cịn tách ra, cần bỏ hình vị phụ theo danh sách đủ Hai ví dụ sau cho ta thấy điều này: Từ gốc Biến đổi hình thái yêu Đã yêu, yêu, love Loved, will love, Bảng So sánh khơi phục hình thái Hiện thuật tốn stemming phổ biến tiếng Anh Porter, tập trung vào loại bỏ hậu tố Thuật toán dựa tập luật đơn giản, có tốc độ cao Với trường hợp tiếng Anh xuất hiện tượng biến đổi bất quy tắc, cần cơng cụ mạnh để đưa hình thái gốc, thay bỏ tiền tố/hậu tố Việc gọi lemmatization Thơng thường, thuật tốn phải dựa vào từ điển, nhiều thuộc tính ngơn ngữ khác để tiếp tục làm giảm số token Áp dụng vào hai ví dụ ban đầu ta có: None, of, them, give, a, fig Tơi, khơng, thích, chiếc, xe_đạp, này, bàn_đạp, của, nó, nặng, 2.3 Bỏ stop word Đây bước đơn giản góp phần làm liệu đáng kể: - Bỏ từ q phổ biến khơng có nghĩa: giúp làm liệu, tránh bị ảnh hưởng từ này, so phổ biến chúng khiến liệu bị lệch Ví dụ với tiếng Anh ta bỏ mạo từ (a/an/the), giới từ, - Bỏ từ liên quan đến mục đích tốn Ví dụ với tốn phân loại cảm xúc, tính từ thường giữ lại, nhiên nhiều toán khác lại khơng cần thiết bỏ tính từ Áp dụng vào hai ví dụ ban đầu ta có: None, them, give, fig Tơi, khơng, thích, xe_đạp, bàn_đạp, nó, nặng 2.4 Chuyển sang dạng có cấu trúc Đây bước chuyển đổi cuối cùng, chuyển sang dạng có cấu trúc cho thuật toán khai phá liệu Bước chuyển đổi có nhiều cách để liệu phù hợp với thuật toán học máy, để tinh chỉnh kết Một cách chuyển đổi phổ biến ma trận thể xuất token câu Giá trị token không xuất câu, giá trị ngược lại Ngồi ra, có nhiều cách sinh ma trận khác: ma trận số lần xuất hiện, tần số xuất hiện, tần số tf-idf, phương pháp khác hẳn word embedding 2.5 Bag of word có đủ tốt khơng? Nhìn vào ví dụ Fred, tần suất xuất từ “thịt” khiến mơ hình đơn giản nghĩ Fred thích thịt Để phân tích xác hơn, ta phải vận dụng nhiều kĩ thuật từ ngành xử lí ngơn ngữ tự nhiên., nhiên làm tốn phức tạp xử lí chậm Các giai đoạn lại Một có liệu dạng bảng, có giai đoạn tiếp theo: tiền xử lí liệu, tạo mơ hình, đánh giá diễn giải kết Các kỹ thuật khai thác liệu thông thường sử dụng giai đoạn Tiền xử lí bao gồm làm giảm kích thước liệu Trong ứng dụng khai thác văn bản, sau tất bước trình bày – tokenization, stemming loại bỏ từ dừng từ có tần số thấp – ta có Trong kỹ thuật dựa người dùng, người dùng đại diện vector phản hồi Trong ví dụ chúng ta, từ bảng 3, James đại diện vector (?, 1, 1, ?, 1) (?, 3, 4, ?, 4) tương ứng với đánh giá anh phim danh mục phim Chú ý vector người dùng thường thưa – tức người dùng cung cấp phản hồi cho số lượng nhỏ sản phẩm so với tổng số sản phẩm danh mục Để dự đoán phản hồi người dùng u cho sản phẩm i, bước lấy phải hồi k người dùng giống người dùng u với phản hồi họ tất nhiên có vài phản hồi sản phẩm i Ta kí hiệu tập k-láng giềng gần Nu, ki Trong phạm vi sản phẩm gợi ý, ví dụ bảng - gợi ý phản hồi tích cực người dùng u sản phẩm i tính tốn bình quân người dùng v từ Nu, ki tới người dùng u: (1) đó, sim(u,v) vector độ đo tương tự, ví dụ độ đo cosine Khái niệm: độ đo cosine độ đo vector thông dụng, sử dụng vector tương tự thưa Để tính tốn độ tương tự vector thưa, giá trị bị thiếu vector thay Giả sử có vector x = (x1, ,xm) y = (y1, ,ym) Độ đo cosine tính tốn sau: (2) Độ đo cosine phương pháp đo phổ biến khai phá văn RS Ví dụ 4: Tính độ đo cosine người dùng bảng thể bảng dựa liệu này, theo phương trình (1), dự đốn phản hồi tích cực James cho Titanic Forrest Gump tính sau: Do đó, James dự đốn thích Titanic Forrest Gump Trong dự đốn đánh giá, phải nhận tượng đặc biệt gọi thiên vị Người dùng ln thiên vị, có nghĩa có số người, họ cung cấp đánh giá, thường bi quan số khác lạc quan bình quân Do đó, thiên vị nên xem xét q trình tính tốn mức độ liên quan người dùng simcv(u, v) Eve Fred Irene James Eve 1.0 0.75 0.75 0.87 1.0 0.75 0.58 1.0 0.58 Fred Irene James 1.0 Bảng 5: Độ đo cosine thể tương đồng người dùng bảng Một cách làm tốt sử dụng vài tính tốn tương quan để tính giống phản hồi người dùng Ví dụ tương quan Pearson giới thiệu chương 2, định nghĩa simpc Khi mà Pearson correlation không chứa (tức khơng có phản hồi) 1, phạm vi gợi ý Nhưng số (bảng 3) – đại diện cho mơ hình dự đốn đánh giá người dùng u cho mục i (3) đó, vector ru vector rv trung bình đánh giá người dùng u v (được tính từ liệu học), sim(u,v) độ đo tương tự, ví dụ Pearson simpc(u,v) 3.3.2 Lọc cộng tác dựa mặt hàng Tương tự lọc cộng tác dựa quan hệ láng giềng, có kỹ thuật khác gọi kỹ thuật dựa mặt hàng Điểm khác thay so sánh giống người dùng, ta so sánh giống danh mục Theo đó, vector độ đo tương tự tính từ cột ma trận user-item Thêm nữa, độ thiên vị mục xác định phản ánh độ tiếng sản phẩm cộng đồng người dùng (một vài phim bom tiếng số khác nhận đánh giá tiêu cực từ khán giả) 3.3.3 Lọc cộng tác dựa mơ hình Ý tưởng kĩ thuật lọc cộng tác dựa mơ hình map người dùng mục vào không gian ngầm chung (common latent space) Các chiều không gian thường gọi factor, đại diện cho vài thuộc tính ngầm mục sở thích người dùng thuộc tính ngầm Chúng ta giới thiệu vài kỹ thuật để giảm số chiều, ví dụ phân tích thành phần (PCA), chương 4, sử dụng cho kỹ thuật lọc cộng tác dựa mơ hình Tuy nhiên, giới thiệu cách khác, đơn giản, gọi hệ số hóa ma trận cấp thấp (low-rank matrix factorization) Chúng ta minh họa ý tưởng phương pháp hệ số hóa ma trận ví dụ dự đốn đánh giá, tất nhiên có vài mơ hình hệ số hóa cho việc gợi ý mục phù hợp Cho đầu vào, có ma trận user-item kí hiệu R – bảng với n dòng (số người dùng) m cột (số mục) Chỉ có số ô không trống (đã có đánh giá) Các ô không trống gọi liệu train, ô trống điền phản hồi sau Mục tiêu điền ô trống ma trận số gần với phản hồi người dùng Nói cách khác, cần tìm mơ hình hồi quy với phương sai tốt đảm bảo số lượng lỗi liệu nhỏ Bây giờ, tưởng tượng hai ma trận W H với đặc điểm sau: - W có n hàng k cột Hàng thứ u W vector đại diện cho người dùng u khơng gian kín k chiều H có m cột k dòng Cột thứ i H vector đại diện cho mục i không gian k chiều Nhân ma trận W H cho kết ma trận R = W H với kích cỡ kích cỡ R Bây mục tiêu tìm ma trận W H để đảm bảo lỗi nhỏ Cơng thức tính lỗi sau: (4) Ở đây, wu hi đánh giá dự đoán người dùng u với mục i Kết tương ứng với mơ hình tuyến tính giới thiệu chương với W H kết hàm mục tiêu sau: (5) Ví dụ 5: với k = 2, factorization ma trận R (bảng 3) số cài đặt định cho kết ma trận W H là: 1.1995 1.1637 1.626 1.1259 2.1310 2.2286 1.6075 1.8715 -0.0225 -0.4065 0.7055 1.0405 0.394 0.497 2.3268 0.2760 2.0338 0.5395 Ở W, hàng đại diện cho người dùng Eve, Fred, Irene Jame Ở H, cột đại diện cho mục Titanic, Pulp Fiction, Iron man, Forrest Gump, The Mummy Nhân ma trận ta có R dự đốn: 1.477499 2.171588 3.767126 3.131717 2.506566 3.052397 2.091094 3.964578 4.161733 2.997066 3.671365 2.814469 5.245668 5.294111 3.877419 3.087926 2.670543 4.895569 4.745101 3.537480 Từ ta nhìn thấy dự đốn đánh giá James cho phim Titanic Forrest Gump 3.09 4.75 Đồ thị đại diện hệ số user–item, đại diện k-chiều tương ứng với số hàng số cột W H Người dùng giống nhau, khả sở thích giống lớn Ngoài ra, người gần với mục hơn, thích mục Hình Thể người dùng (người xem) sản phẩm (phim) không gian ngầm chung hai chiều Kết luận Có vài điều phải lưu ý cài đặt RS, số trình bày Trước tích hợp RT vào hệ thống chạy, ví dụ cửa hàng điện tử, ta nên đánh giá offline trước liệu giả lập hành vi người dùng Việc làm giúp tiết kiệm chi phí, thời gian, giúp dự đốn số vấn đề hiệu năng, thời gian chạy, Việc cuối đánh giá RT đánh giá online Việc thực sau: phần nhỏ hệ thống sử dụng RT cài đặt Sau ta quan sát biểu người dùng: họ có tăng điểm nhận xét khơng, có sử dụng hệ thống khoảng thời gian dài không,… Việc làm mạo hiểm, trực tiếp ảnh hưởng đến người dùng, người dùng khơng hài lịng dẫn đến khách Chính vậy, ta nên chạy thử nghiệm online đánh giá thử nghiệm offline đem lại kết tốt Có số tính chất mà recommendation system phải có 3.Phân tích mạng xã hội Việc phân tích mạng xã hội (social network analysis) ngày trở nên quan trọng phổ biến mạng xã hội Thể mạng xã hội Mỗi mạng đồ thị, bao gồm đỉnh cạnh (thể liên hệ đỉnh) Cạnh cạnh có hướng vơ hướng, có trọng số Nếu có nhiều cạnh đỉnh, ta gọi cạnh “multiplex” (cạnh song song) Để biểu diễn đồ thị có hướng vơ hướng, cấu trúc sử dụng gọi ma trận kề (adjacency matrix) Ma trận kề A có A[i][j] thể cạnh nối từ đỉnh i đến đỉnh j Với đồ thị vơ hướng ma trận đối xứng qua đường chéo Ví dụ 6: Một ví dụ mạng xã hội, gồm đỉnh người bạn mình, cạnh đồ thị thể đơi bạn ăn tối Hình Ví dụ mạng xã hội Như thấy, có ba vùng khác đồ thị này, ứng với kiểu mạng riêng Các đỉnh A, B, C, D tạo thành hình sao, đồ thị có kiểu tập trung hố, với D tâm Các đỉnh F, G, H, I tạo thành chu trình Cách đỉnh J, K, L, M tạo thành đồ thị đầy đủ, cặp đỉnh có cạnh nối với Đỉnh N độc lập khơng có đỉnh kết nối với Biểu diễn đồ thị dạng ma trận kề có lợi tốc độ truy cập nhanh, sử dụng biến đổi ma trận Ví dụ luỹ thừa ma trận lên k lần, A[i][j] thể số cách từ đỉnh i đến j qua k đỉnh Đặc tính nút Các đặc tính đỉnh/nút liên quan đến kết nối 2.1 Bậc (degree) Bậc đỉnh số cạnh đỉnh Với đồ thị vơ hướng, bậc tổng hàng tổng cột tương ứng đỉnh ma trận kề Với đồ thị có hướng, ta quan tâm đến bậc vào (in-degree) bậc (outdegree) Bậc vào số cạnh tới đỉnh này, bậc số cạnh từ đỉnh Với đỉnh i bậc tổng hàng i, cịn bậc vào tổng cột i ma trận kề 2.2 Khoảng cách (distance) Khoảng cách hai đỉnh đồ thị định nghĩa số cạnh để từ đỉnh đến đỉnh lại Nếu khơng có đường giá trị dương vô (Với trường hợp cạnh đồ thị có trọng số khác khoảng cách hai đỉnh độ dài ngắn để từ đỉnh đến đỉnh lại) Bảng Ma trận khoảng cách mạng hình 2.3 Độ dày đặc (closeness) Đơn vị phản ánh tính liên kết nút mạng lưới Giá trị lớn thể nút liên kết mạnh đến nút khác mạng Với nút v, độ dày đặc tính sau: (6) Theo đó, độ dày đặc tính tốn (từ ma trận khoảng cách) chia cho tổng khoảng cách nút v tất nút u khác v mạng lưới Nếu khơng có kết nối hai nút thay giá trị vơ hạn, số lượng nút mạng lưới thay vào công thức Độ dày đặc nhạy cảm giảm theo kích thước mạng lưới Ví dụ 6: Độ dày đặc nút A từ hình 3, dựa khoảng cách giới thiệu hàng bảng 6, tính sau: ∕ (2 + + + + + + + + + + + + 14) = 0.019607843 Ở đây, thay distance(A, N) = ∞, distance(A, N) = 14 sử dụng (vì mạng lưới có 14 nút) 2.4 Độ trung tâm (Betweenness) Đơn vị sử dụng để đánh giá mức độ quan trọng vị trí nút v mạng lưới Nó tính tốn sau: (7) u t cặp nút khác từ v, nsp(u, t) số lượng đường ngắn từ nút u đến nút t nspv(u,t) số lượng đường ngắn từ u đến t mà qua nút v Độ trung tâm tính tốn mức độ thơng tin phải truyền qua nút mạng lưới Ví dụ 13.13: Do cơng thức tính tốn độ trung tâm tỉ lệ với số lượng nút mạng lưới, mục đích minh hoạ minh hoạ công thức cho phần mạng xã hội thể hình 13.6 Độ trung tâm nút E khơng có đường ngắn hai cặp nút qua E Bây giờ, độ trung tâm nút G: nsp(F, H) = có hai đường có độ dài (cả hai ngắn nhất) hai nút F H, F→G→H F→I→H Tuy nhiên, có đường có qua nút G, nspG(F, H) = Tương tự, nsp(E, H) = nspG(E, H) = Vì khơng có đường ngắn qua nút G, tính độ trung tâm dựa theo cơng thức sau: Tương tự, độ trung tâm nút khác tính tốn với kết betweenness(F) = 3.5, betweenness(H) = 0.5, betweenness(I) = Hình Một phần mạng hình 2.5 Hệ số phân cụm (cluster coeffient) Một số nghiên cứu ba – ba nút kết nối thành tam giác – định dạng quan trọng mà từ loạt quan hệ xã hội gần gũi bắt nguồn Hệ số phân cụm kết hợp đo lường xu hướng nút v để tham gia vào ba định nghĩa sau: (8) Trong triangle(u, v, t) = nút u, v t kết nối thành tam giác triangle(u, v, t) = ngược lại Thêm vào đó, triple(u, v, t) = nút u t kết nối tới nút v, triple(u, v, t) = ngược lại Nếu degree(v) < 2, hệ số phân cụm kết hợp khơng tồn Ví dụ 13.14: Hệ số phân cụm kết hợp nút E mạng lưới hình 13.5 tính tốn sau: nút kết nối tới E, tạo thành tổng cộng ba, triple(D, E, F), triple(D, E, M), triple(D, E, J), triple(F, E, M), triple(F, E, J) triple(M, E, J) 1, tổng cộng thành Tuy nhiên, có tam giác tạo thành, triangle(M, E, J) có giá trị Do đó, hệ số nút E 1/6 = 0.17 Đặc tính mạng Các đặc tính toàn mạng, khác với thuộc tính nút riêng lẻ 3.1 Đường kính (diameter) Đường kính mạng xác định khoảng cách dài tất khoảng cách nút Thuộc tính cho biết nút mạng truy cập dễ dàng Đường kính mạng từ Hình 13.5 khoảng cách dài dựa theo khoảng cách ma trận, khoảng cách nút A H 3.2 Sự trung tâm (centralization) Từ bảng 13.13, cho thấy số trung tâm không đồng nút đồ thị Để tính số không đồng này, số trung tâm mức độ mạng lưới cho mạng N với n nút tính tốn sau: (9) Trong maxuc(u) số trung tâm lớn từ tất nút u mạng lưới (bao gồm nút v), c(v) số trung tâm nút v c hệ số trọng số, độ dày đặc hay độ trung tâm Ví dụ 13.15 Chúng ta thảo luận số độ dày đặc trung tâm ba mạng lưới sau minh họa hình 13.7 Chỉ số dày đặc nút A, B, C D 0.2, 0.2, 0.2 0.33, đó, số lớn 0.33 Do số độ dày đặc trung tâm mạng lưới bên trái tính sau: Ccloseness(left) = (0.33 - 0.2) + (0.33 - 0.2) + (0.33 - 0.2) + (0.33 - 0.33) = 0.4 Cho hai mạng lưới lại, số độ dày đặc ngang với tất nút; là, 0.25 cho nút F, G, H I, 0.33 cho nút J, K, L M Do đó, Ccloseness(giữa) = × (0.25 − 0.25) = = × (0.33 − 0.33) = Ccloseness(phải) “giữa” “phải” mạng lưới nằm bên phải Từ kết thấy mạng lưới bên trái có tính chất trung tâm mạng lưới lại Với mạng lưới từ hình 13.5, trọng số trung tâm Cdegree(N) = 0.187, độ dày đặc trung tâm Ccloseness(N) = 0.202 số độ trung tâm trung tâm Cbetweenness(N) = 0.395 Vậy số trung tâm lớn cho mạng có ý nghĩa gì? Trong ví dụ 13.15 trên, thấy số mạng có tính cực đoan sau: - Được trung tâm nhất, Được trung tâm thấp nhất, vịng trịn Được kết nối tồn hồn Trong mạng lưới dạng sao, nút trung tâm tất nút khác nút trung tâm thấp Mặt khác, mạng lưới dạng vòng tròn mạng kết nối hoàn toàn, tất nút trung tâm Thông thường, số trung tâm mạng lưới chuẩn hóa khoảng [0, 1] với mục đích số hai mạng dễ so sánh Hình Ba mạng lưới ví dụ 3.3 Cliques Một clique tập nút cho hai nút tập kết nối với Ví dụ cliques có kích thước 3, bao gồm nút, mạng lưới từ hình 13.5 tập sau: {E, J, M}, {J, K, L}, {J, K, M}, {J, L, M} {K, L, M} Chỉ có clique có kích thước 4, tập {J, K, L, M} 3.4 Phân cụm kết hợp Chỉ số thể xác suất ba mạng lưới kết nối với để tạo thành tam giác Nó tính tốn tương tự với số phân cụm kết hợp nút (xem phần 13.3.2.5), tỉ lệ số lượng tam giác với số lượng ba kết nối mạng Các hệ số phân cụm mạng lưới dạng vòng trịn ngơi từ Ví dụ 13.15 hệ số phân cụm mạng kết nối hồn tồn ví dụ lại với Hệ số phân cụm mạng lưới từ Hình 13.5 0.357 3.5 Modularity Modularity thể mức độ mạng lưới hiển thị với cấu trúc cụm (thường gọi cộng đồng) Chỉ số mơ đun cao mạng có nghĩa nút chia thành nhóm cho nút nhóm kết nối mật độ cao kết nối nhóm khơng dày đặc Tính mơ đun mạng Hình 13.5 0.44 Xu hướng số nhận xét cuối Về tổng quan, truyền thông xã hội ngày phát triển mạnh năm gần số cơng cụ phân tích mạng xã hội phát triển nhiều lĩnh vực khoa học kỹ thuật Hiện nay, có quan tâm đáng kể dành cho phát triển mạng xã hội, hay nói cách khác, mạng xã hội phát triển theo thời gian Trong phần này, tập trung vào phân tích mạng xã hội tập trung khai thác liệu Lý cho là, thảo luận phần khai thác liệu văn bản, sau hiểu nguyên tắc bản, phân tích từ vựng, từ gốc hay mơ hình bag-of-words, trích xuất thông tin từ văn và, chuyển đổi văn thành cấu trúc định để sử dụng phân cụm, khai thác mẫu dự đoán Tương tự vậy, cách hiểu thuộc tính nút mạng lưới xã hội, trích xuất tính hữu ích sử dụng khai thác liệu = cách sử dụng phương pháp học máy dự đoán mô tả Các hướng phổ biến khai thác liệu mạng xã hội đặt sau Với việc trang mạng xã hội Facebook hay LinkedIn sử dụng ngày tăng, có tồn nhu cầu dự đoán liên kết, nhiệm vụ liên quan đến kỹ thuật phân loại hồi quy mà thảo luận trước sách Mục đích dự đốn liên kết để dự đoán kết nối xuất nhiều nút mạng lưới Nó liên quan đến vấn đề tìm kiếm kết nối bị từ mạng lưới Một nghiên cứu việc sử dụng kỹ thuật khai thác liệu văn việc phân tích ý kiến cảm tính Có nhiều ứng dụng khác nhau, chẳng hạn phân tích cảm tính ý kiến mạng xã hội kiện thực tế theo dõi nguồn gốc tin tức giả mạo Trực quan hóa mạng xã hội lĩnh vực nghiên cứu nhiều ý thời gian gần Như ra, nhiệm vụ dễ dàng việc trực quan hóa tốt phải làm cho phân cụm ngoại lệ nhận biết khả theo đường dẫn Các nghiên cứu khác phân tích mạng xã hội bao gồm phát công đồng khai thác mơ hình tương tác, có liên quan chặt chẽ việc phân cụm sử dụng kỹ thuật khai thác liệu mẫu thường xuyên thảo luận Chương sách Để nghiên cứu thêm khai thác liệu mạng xã hội, vui lòng tham khảo sách trực tuyến Hannemann and Riddle [57] giới thiệu kỹ thuật Zafarani et al [58] 4.Bài tập 10 Tạo tập liệu nhỏ bao gồm cốt truyện (tóm tắt) 20 phim từ số sở liệu phim, bao gồm mười phim khoa học mười phim hài lãng mạn Trích xuất tính từ văn Sử dụng kỹ thuật phân cụm liệu phim phân tích kết Tạo số mơ hình phân loại liệu phim (tập huấn luyện) đánh giá độ xác phim khác (bộ kiểm tra) Yêu cầu 30 người bạn bạn đánh giá số phim sở liệu phim tạo tập thang điểm từ (rất xấu) đến (xuất sắc) tính tốn độ lệch ma trận kết (kích thước 30 × 20) Sử dụng kỹ thuật khai thác liệu văn để phát triển mơ hình dựa nội dung để giới thiệu phim cho ba người bạn dựa đánh giá họ cốt truyện phim đánh giá Thực việc phân cụm bạn bè bạn dựa giống đánh giá phim họ Sử dụng kỹ thuật k-nearest neighbor để giới thiệu phim cho ba người bạn bạn Tạo mạng xã hội bạn bè bạn từ tập trên, cho hai người bạn kết nối đánh giá họ cho phim lệch nhiều Tạo ma trận kề Tính tốn thuộc tính nút mạng tạo ra: mức độ, ma trận khoảng cách độ dày đặc, độ trung tâm phân cụm kết hợp Tính tốn tính chất cấu trúc mạng: đường kính, số trung tâm, cliques, phân cụm kết hợp mô đun ... 4.2 Khai phá web (Web Mining) Một ứng dụng khai văn phổ biến khác phân tích văn từ trang web, ngành gọi khai phá web Một sưu tập lớn văn tìm thấy trang web, từ nguồn khác blog trang web cho tài. .. nhóm văn giống nhau, tìm văn thuộc vấn đề, tìm từ thường xuyên Khai phá văn dự đoán gồm phân loại văn vào chủ đề, nhận diện thư rác phân tích cảm xúc tin nhắn Phần tập trung vào khai phá văn dự... gần với khai phá liệu khai phá văn Khai phá văn cung cấp nhiều kĩ thuật đặc thù để rút tri thức từ văn thô dạng ngôn ngữ tự nhiên Nhìn chung, khai phá liệu gắn liền với liệu, khai phá văn gắn

Định dạng
Số trang	33
Dung lượng	643,66 KB