Phân tích dữ liệu 1 Giới thiệu bộ dữ liệu- 123docz.net

Chương 3 Khuyến nghị cộng tác dựa trên phân tích mạng xã hộ

3.4. Phân tích dữ liệu 1 Giới thiệu bộ dữ liệu

3.4.1. Giới thiệu bộ dữ liệu

Sử dụng bộ dữ liệu nghiên cứu Arnet Citation V13 [24]được thu thập từ các nguồn báo khoa học như DBLP, ACM, MAG. Bộ dữ liệu tập trung thu thập mạng trích dẫn phù hợp cho các nghiên cứu phân cụm hoặc nghiên cứu khuyến nghị học thuật. Qua quá trình phân tích, chúng tôi nhận thấy các tác giả bài báo đều được định danh (ID) độc nhất. Có thể chiết xuất được cả 2 mạng đồng tác giả và mạng trích dẫn, khai thác đặc trưng và huấn luyện mô hình từ 2 mạng.

Data set Paper Citation Relationship

Citation-network V1 629,814 > 632,752 Citation-network V2 1,397,240 > 3,021,489 DBLP-Citation-network V3 1,632,442 > 2,327,450 DBLP-Citation-network V4 1,511,035 2,084,019 DBLP-Citation-network V5 1,572,277 2,084,019 DBLP-Citation-network V6 2,084,055 2,244,018 DBLP-Citation-network V7 2,244,021 4,354,534 DBLP-Citation-network V8 3,272,991 8,466,859 ACM-Citation-network V8 2,381,688 10,476,564 ACM-Citation-network V9 2,385,022 9,671,893 DBLP-Citation-network V9 3,680,007 1,876,067 DBLP-Citation-network V10 3,079,007 25,166,994 DBLP-Citation-network V11 4,107,340 36,624,464 DBLP-Citation-network V12 4,894,081 45,564,149 DBLP-Citation-network V13 5,354,309 48,227,950 Bảng 1.1: Các phiên bản bộ dữ liệu Arnet Citation

Từ bộ dữ liệu, thông qua một số bước lọc cơ bản, chúng tôi chiết xuất được các số liệu quan hệ xã hội sau (Bảng 1.2)

Bộ dữ liệu Quan hệ đồng tác giả Quan hệ trích dẫn

DBLP-Citation-network V13

21532662 230430870

Bảng 1.2: Số liệu quan hệ xã hội từ bộ dữ liệu

Từ bộ dữ liệu thu thập, chúng tôi tiến hành khai thác dựa trên 2 quan hệ xã hội chính của 1 ứng viên:

● Quan hệ đồng tác giả

● Quan hệ trích dẫn

Phân tích dữ liệu từ 2 quan hệ và chiết xuất đặc trưng phù hợp để huấn luyện mô hình máy học dự đoán tiềm năng cộng tác của 1 cặp ứng viên bất kỳ.

3.4.2. Tương đồng nội dung

Hình 2.7: Minh họa lịch sử xuất bản

Ứng với mỗi tác giả đều có một lịch sử xuất bản báo khoa học (Hình 2.7). Giả sử 2 ứng viên có khả năng cộng tác trong tương lai cao nếu lịch sử xuất bản có chủ đề tương tự nhau, như vậy có thể xem sự tương đồng lịch sử cộng tác giữa 2 ứng viên là tiếp cận lọc nội dung đặc thù của hệ khuyến nghị (Đề mục 2.2.1.1), khi kết quả khuyến nghị đánh giá cao các ứng viên có nội dung tương đồng.

Ứng dụng các kỹ thuật vector hóa văn bản như TF-IDF, BOW để biểu diễn vector cho nội dung văn bản và tính toán vector đại diện cho lịch sử xuất bản của một tác giả. Ước lượng tương đồng nội dung giữa 2 ứng viên hiện thực bằng tương đồng vector lịch sử xuất bản, có thể ứng dụng các công thức tương đồng[2]để khai thác tương đồng 2 vector.

3.4.2.1. Biểu diễn vector nội dung

Bằng cách đánh trọng số cao cho những từ hiếm, độc nhất có thể dùng để định danh văn bản liên quan và đánh trọng số thấp cho những từ phổ biến. Kỹ thuật TF-IDF[18] có thể được dùng để tính vector đại diện cho văn bản dài với nhiều“Stop Words”. Tuy nhiên trong bộ dữ liệu nghiên cứu, dữ liệu văn bản liên quan đến một bài báo khoa học chỉ có tiêu đề (Title), những nội dung khác không thể thu thập do vấn đề bản quyền.

Tiêu đề báo khoa học với đặc thù là một văn bản ngắn, thể hiện xúc tích nội dung bài báo, hầu như không có stop-words. Nếu ứng dụng triệt để TF-IDF khả năng khá cao vector đại diện của một số bài báo có trọng số bằng 0 toàn bộ. Chúng tôi mong muốn thông qua quá trình tính toán cho ra kết quả là một tập vector phân biệt đại diện và đồng thời định danh cho bài báo tương ứng. Vì vậy chúng tôi quyết định chọn kỹ thuật BOW, kết hợp với bộ lọc stop-words và kỹ thuật Average Pooling dùng để giảm kích thước vector.

3.4.2.2. Phân tích số liệu

Hình 2.9: Minh họa kỹ thuật Average Pooling, với Pool = 2, Stride = 2 (Internet) Từ bộ dữ liệu Arnet Citation V13, lọc các bài báo không có tiêu đề, định danh, kết hợp với bộ lọc stop-words. Chúng tôi thu thập được số liệu sau (Bảng 1.2).

Bộ dữ liệu Số bài báo Kích thước bộ từ vựng

Arnet Citation V13 4857021 1082600

Bảng 1.2: Số liệu từ vựng

Dựa trên cách thức hoạt động của BOW (Hình 2.8), với mỗi tài liệu, kích thước vector đại diện cũng chính là kích thước bộ từ vựng. Xử lý vector với kích thước hơn 1 triệu là hoàn toàn không khả thi với tài nguyên hiện có của nhóm. Việc đếm từ được thực hiện bằng bảng băm (Hash table), cho kích thước bảng băm là H, nếu H đúng bằng kích thước bộ từ vựng thì xác suất xảy ra va chạm bằng 0, nhưng tốn rất nhiều tài nguyên xử lý. Chúng tôi nhận thấy có thể giảm kích thước H để tăng tốc giải thuật, chấp nhận trường hợp va chạm, sau cùng kết hợp với kỹ thuật Average Pooling (Hình 2.9) giảm kích thước vector đại diện.

Chúng tôi thử nghiệm các kích thước H khác nhau (Bảng 1.3), cho vector đại diện đầu ra cố định với kích thước 64, canh chỉnh thông số p (Pool) và s (Stride) trong ứng dụng Average Pooling 1D theo công thức sau.

Kích trước H Average Pooling 1D Tỉ lệ trùng

500 s = 7, p = 53 2.034%

1000 s = 15, p = 41 2.223%

5000 s = 76, p = 137 2.412%

Bảng 1.3: Tỉ lệ trùng vector nội dung theo kích thước H

5000 là kích thước tối đa tài nguyên của nhóm có thể cấp phát, chúng tôi chọn H = 500 tương ứng với tỉ lệ trùng nhỏ nhất làm tập vector đại diện cho nội dung bài báo. Lịch sử xuất bản của một tác giả là một tập hợp các bài báo, có thể biểu diễn lịch sử xuất bản bằng vector trung bình tập hợp.

Tiến hành bốc 2000 mẫu trong tập hợp cặp cộng tác chiết xuất từ bộ dữ liệu với xác suất đồng dạng (Uniform distribution), tính độ tương đồng theo Cosin giữa 2 tác giả với từng cặp cộng tác, khai thác ảnh hưởng giữa tương đồng nội dung đến quyết định cộng tác (Hình 3.1).

Hình 3.1: Biểu đồ mật độ thể hiện sự tương quan giữa tương đồng nội dung và số cặp cộng tác

Qua kết quả phân tích dữ liệu, mật độ dày các cặp cộng tác sở hữu tương đồng nội dung cosine có giá trị từ 0.0 đến 0.2. Đồng nghĩa với việc sở hữu mối quan tâm chung giữa 2 ứng viên quyết định khá nhiều tiềm năng cộng tác. Chúng tôi quyết định tích hợp đặc trưng tương đồng nội dung vào mô hình máy học, tuy nhiên như đã đề cập trước đó (Đề

mục 2.2.1.4), đây là nhân tố lọc nội dung và hệ khuyến nghị sẽ rất nhàm chán nếu chỉ tập trung vào nhân tố này. Chúng tôi xem xét và thử nghiệm các đặc trưng khác để“làm giàu”kết quả khuyến nghị.

3.4.3. Tương đồng trích dẫn

Hình 3.2: Minh họa trích dẫn

Theo định dạng báo khoa học nói chung Bibtex, mỗi bài báo khoa học đều có danh sách trích dẫn các bài báo khoa học khác (Hình 3.2). Đây có thể được xem như nguồn tư liệu mà tác giả bài báo tham khảo, ứng dụng và cải tiến trong công trình nghiên cứu của mình. Chúng tôi mong muốn có thể khai thác được độ tương đồng giữa 2 tác giả, với giả thuyết đặt ra rằng 2 tác giả cùng tham khảo một số lượng báo khoa học nhất định sẽ có tương quan trọng số gần nhau.

Mỗi tác giả đều có một lịch sử xuất bản, từ lịch sử xuất bản có thể chiết xuất được tập hợp bài báo trích dẫn và ứng với mỗi bài báo trích dẫn lại là một tập hợp tác giả. Từ cơ sở này xây dựng mạng trích dẫn với các đỉnh là tác giả bài báo liên kết với nhau thông qua quan hệ trích dẫn. Có thể nói trong mạng trích dẫn, các tác giả tương tác với nhau, hay nói cách khác theo đặc thù khuyến nghị là“người dùng”tương tác với“đối tượng khuyến nghị”. Chúng tôi xem mạng trích dẫn là một đồ thị có hướng với trọng số là số lần trích dẫn của tác giả A đối với tác giả B, và ứng dụng kỹ thuật RWR (Đề mục 2.2.3) để khai thác tương đồng.

3.4.3.1. Lướt ngẫu nhiên với xác suất khởi động (RWR)

Kỹ thuật lướt ngẫu nhiên, như đã đề cập (Đề mục 2.2.3.2) là cách tiếp cận khai thác độ tương tự 2 đỉnh trong đồ thị. Như[20]đã đề cập, giải thuật sẽ hội tụ sau khoảng 50 vòng

lặp. Chúng tôi tận dụng lại số vòng lặp này để chạy giải thuật, ngoài ra chúng tôi bổ sung thêm công thức Proximity tính độ tương quan giữa 2 đỉnh đồ thị như sau.

Nghiên cứu của Wei Yang [22]đề xuất ứng dụng lướt ngẫu nhiên thiên kiến theo trọng số cạnh. Chúng tôi quyết định thử nghiệm cả 2 kỹ thuật lướt ngẫu nhiên truyền thống với lướt ngẫu nhiên thiên kiến. Với thiên kiến trọng số cạnh chúng tôi thay thế xác suất nhảy

từ 1 đỉnh sang hàng xóm theo công thức sau, với k là tập hợp liên kết trỏ ra từ 1 đỉnh.

3.4.3.2. Phân tích số liệu

Như đã đề cập (Bảng 1.2), từ bộ dữ liệu chúng tôi khai thác được hơn 230 triệu quan hệ trích dẫn. Một đồ thị với kích thước cạnh ở mức độ này, các giải thuật duyệt đồ thị thông thường như BFS, DFS tải dữ liệu và duyệt trên Ram là hoàn toàn không khả thi ngay cả với cấu hình máy chủ. Do đó chúng tôi tham khảo tiếp cận dữ liệu lớn, phân hoạch đồ thị theo cạnh và duyệt theo khái niệm“Pregel”[25].

Hình 3.3: Phân hoạch đồ thị theo cạnh (Pregel)[25]

Tiến hành chạy 2 giải thuật RWR với mỗi giải thuật chạy 50 vòng lặp. Kết quả mỗi giải thuật là một bảng trọng số đỉnh với trọng số thực chất là xếp hạng của đỉnh trong đồ thị.

công thức Proximity chiết xuất độ tương đồng giữa 2 tác giả trên từng cặp trong mẫu. Biểu diễn độ tương quan giữa tương đồng cộng tác đến quyết định cộng tác thông qua biểu đồ mật độ (Hình 3.4, 3.5).

Hình 3.4: Biểu đồ mật độ thể hiện sự tương quan giữa tương đồng trích dẫn và số cặp

cộng tác (RWR)

Hình 3.5: Biểu đồ mật độ thể hiện sự tương quan giữa tương đồng trích dẫn và số cặp

cộng tác (RWR thiên kiến) Qua thực nghiệm số liệu, chúng tôi nhận thấy 2 giải thuật RWR cho ra mật độ phân bổ khá giống nhau. Vì vậy chúng tôi sẽ tiến hành thử nghiệm ảnh hưởng của 2 giải thuật đến độ chính xác kết quả khuyến nghị của hệ thống đầu cuối. Như vậy ở thời điểm hiện tại, chúng tôi hoàn thành chiết xuất và phân tích đặc trưng 2 nhân tố khuyến nghị là khuyến nghị theo nội dung (Tương đồng nội dung) và khuyến nghị theo cộng tác (Tương đồng trích dẫn). Để làm giàu kết quả khuyến nghị, chúng tôi cho rằng các yếu tố ngoại cảnh là không thể bỏ qua và nhất thiết cần phải phân tích để xác minh độ ảnh hưởng đến kết quả khuyến nghị.

3.4.4. Tổ chức cộng tác

Trong bộ dữ liệu, chúng tôi thu thập được tên tổ chức cộng tác ứng với từng ứng viên, mở rộng khai thác quan hệ tổ chức làm giàu kết quả khuyến nghị. Tổ chức cũng là yếu tổ ngoại cảnh ảnh hưởng không nhỏ đến quyết định cộng tác của 2 ứng viên, xét về thực tiễn đa số các bài báo khoa học được công bố các ứng viên làm cùng tổ chức là điều dễ bắt gặp.

Tin huynh[23]cho rằng cộng tác tiềm năng có thể xuất hiện giữa các các trường đại học, tổ chức có quan hệ hợp tác (Hình 3.6). Thực tế không sai lệch, các sinh viên cùng nhóm nghiên cứu trong trường có khả năng rất cao sẽ cộng tác với nhau hoặc cộng tác với giảng viên hướng dẫn nhóm. Tuy nhiên tính toán“sức mạnh”liên kết giữa 2 tổ chức là một vấn đề khá phức tạp.

3.4.4.1. Tổ chức cộng tác tiềm năng

Theo[23]độ mạnh liên kết giữa 2 tổ chức có thể được tính theo công thức tổng trọng số đường đi từ tổ chức này đến tổ chức kia trong mạng liên kết tổ chức. Có thể biểu diễn mạng bằng đồ thị có hướng với trọng số đường đi là số quan hệ đồng tác giả giữa người lao động ở 2 tổ chức. Lúc này bài toán tìm toàn bộ đường đi giữa 2 đỉnh đồ thị áp dụng với mọi đỉnh trong đồ thị là bài toán đồ thị nhiều nguồn (Multiple source) có thời gian chạy giải thuật rất lâu vì phải quay lui triệt để (Exhaustive backtracking). Giải thuật chỉ có thể thực thi trong mẫu thử nhỏ như[23]đã áp dụng. Với kích thước dữ liệu hiện có, giải thuật tìm toàn bộ đường đi là không khả thi.

Qua tham khảo và phân tích, chúng tôi nhận thấy có thể áp dụng kết hợp 2 giải thuật đồ thị là ConnectedComponent chia đồ thị ra thành các cụm (Cluster) có các đỉnh liên kết mạnh mẽ với nhau. Sau đó ứng dụng Pagerank để tính toán mức độ ảnh hưởng của đỉnh trong cụm. Chúng tôi đặt giả thuyết trong một cụm liên kết mạnh mẽ, nếu một đỉnh có nhiều tầm ảnh hưởng (trọng số cao), nhiều khả năng đỉnh đó sẽ có thể liên kết với toàn bộ đỉnh còn lại. Độ mạnh liên kết giữa 2 tổ chức chúng tôi cho rằng có thể được ước lượng bằng trung bình trọng số 2 đỉnh tương ứng trong đồ thị. Đề xuất công thức Org-Rank ước lượng độ quan trọng của 1 đỉnh trong cụm, dựa trên công thức Pagerank truyền thống [20], chúng tôi thay hằng số c nhằm tạo hiệu ứng cá nhân hóa độ quan trọng theo cụ. Cho

3.4.4.2. Phân tích số liệu

Từ bộ dữ liệu chúng tôi thu thập được thông số cụm 3.4.4. Tần suất hoạt động

Phân tích dữ liệu 1 Giới thiệu bộ dữ liệu

Dữ liệu mạng xã hộ