Mục tiêu nghiên cứu của đồ án Trong đồ án này, mục tiêu chính là thu thập các bài báo có ứng dụng hoặc có liên quan đến ChatGPT để thực hiện các nhiệm vụ sau: • Phân tích wordcloud [6] d
Trang 1i
MỤC LỤC
MỤC LỤC i
DANH MỤC HÌNH ii
DANH MỤC BẢNG ii
CHƯƠNG 1 GIỚI THIỆU 3
1.1 Lý do chọn đề tài 3
1.2 Mục tiêu nghiên cứu của đồ án 3
CHƯƠNG 2 THU THẬP VÀ XỬ LÝ DỮ LIỆU 4
2.1 Thu thập dữ liệu 4
2.2 Tiền xử lý dữ liệu 5
2.3 Phân tích Wordcloud của tóm tắt 7
CHƯƠNG 3 XÂY DỰNG VÀ PHÂN TÍCH MẠNG 9
3.1 Cấu trúc đồ thị 9
3.2 Các tiêu chí đánh giá mạng 10
3.3 Phân tích mạng 10
CHƯƠNG 4 KẾT LUẬN 16
4.1 Kết quả đạt được 16
4.2 Hướng phát triển 16
TÀI LIỆU THAM KHẢO 17
Trang 2ii
DANH MỤC HÌNH
Hình 1 Nội dung mẫu dữ liệu dùng để thực nghiệm 5
Hình 2 Dữ liệu các bài báo bị loại 6
Hình 3 Thống kê số bài báo bị loại và đạt yêu cầu 6
Hình 4 Dữ liệu dùng để tạo đồ thị 7
Hình 5 Danh sách stopword được sử dụng 7
Hình 6 Wordcloud của tất cả các tóm tắt 8
Hình 7 Wordcloud của 20 từ nổi bật 8
Hình 7 Giao diện làm việc của Gephi 9
Hình 8 Minh họa dữ liệu đỉnh 9
Hình 9 Minh họa dữ liệu cạnh 10
Hình 10 Cấu trúc mạng tổng thể 11
Hình 11 Sự phân bố bậc của nút 12
Hình 12 Độ trung tâm của nút theo độ trung tâm ở giữa 13
Hình 13 Độ trung tâm của nút dựa trên sự gần gũi 13
Hình 14 Độ trung tâm dựa trên sự gần gũi từ 0 đến 0.5 14
Hình 15 Các cộng đồng trong mạng 14
Hình 16 Top 6 cộng đồng trong mạng 15
DANH MỤC BẢNG Bảng 1 Thống kê số tác giả của bài báo 7
Bảng 2 Các số liệu tổng thể của mạng 11
Bảng 3 Các số liệu về bậc trong mạng 12
Trang 33
1.1 Lý do chọn đề tài
Ngày nay, với sự bùng nổ của công nghệ thông tin, đặc biệt là trí thông minh nhân tạo (Artificial Intelligence - AI), các công cụ hỗ trợ công việc hằng ngày cho con người dựa trên AI ra đời ngày càng nhiều và phát triển nhanh chóng Trong đó, ChatGPT (Chat Generative Pre-training Transformer) được đánh là công cụ phổ biến nhất và là “chatbot trí tuệ nhân tạo tốt nhất” [1] ChatGPT là một chatbot được công ty OpenAI phát triển và ra mắt lần đầu tiên vào tháng 11 năm 2022 ChatGPT là một ứng dụng AI được phát triển từ
mô hình GPT-3.5, một mô hình ngôn ngữ lớn của OpenAI được huấn luyện đồng thời bằng
cả hai kỹ thuật học có giám sát (supervised learning) lẫn học tăng cường (reinforcement)
Sự phối hợp của hai kỹ thuật này nhằm đưa ra câu trả lời giống như một cuộc trò chuyện với người thật Theo số liệu của công ty phân tích Similarweb Ltd., hiện nay có khoảng 1.8
tỷ lượt truy cập vào trang web chat.openai.com hàng tháng [2] Với khả năng xử lý ngôn
ngữ tự nhiên vượt trội và kho dữ liệu huấn luyện khổng lồ, ChatGPT có thể hỗ trợ tốt trong giáo dục, giúp tìm kiếm thông tin, xử lý và giải quyết vấn đề một cách hiệu quả Theo Chen
và cộng sự [3], ChatGPT có khả năng tự động tạo ra câu trả lời và sinh văn bản, phục vụ cho nhiều mục đích như trả lời câu hỏi, dịch thuật và các ứng dụng khác Ngoài ra, ChatGPT cũng có khả năng viết các bài viết với các chủ đề khác nhau [4], hoặc tóm tắt văn bản, tạo nội dung, tạo mã, và sáng tác các câu chuyện, vở kịch, và nhiều hình thức văn bản khác [5] Như vậy, có thể thấy rằng, ChatGPT đã và đang được ứng dụng rộng rãi trong hầu hết các lĩnh vực của đời sống Tuy nhiên, để có cái nhìn chi tiết hơn về ứng dụng của ChatGPT trong lĩnh vực giáo dục, cụ thể là trong nghiên cứu khoa học, tôi chọn đề tài “Phân tích mạng các bài báo ChatGPT” nhằm phân tích và tìm ra những nhà khoa học có nhiều bài báo mà có sử dụng hoặc có nghiên cứu liên quan đến ChatGPT
1.2 Mục tiêu nghiên cứu của đồ án
Trong đồ án này, mục tiêu chính là thu thập các bài báo có ứng dụng hoặc có liên quan đến ChatGPT để thực hiện các nhiệm vụ sau:
• Phân tích wordcloud [6] dựa trên tóm tắt của các bài báo để xác định các từ khóa quan trọng trong các bài báo đó
• Xây dựng và phân tích mạng từ dữ liệu các bài báo để xác định các tác giả
có nhiều ảnh hưởng hoặc ít ảnh hưởng trong mạng
Trang 44
2.1 Thu thập dữ liệu
Trong đề tài này, tôi sử dụng tập dữ liệu thu được từ cơ sở dữ liệu Semantic Scholar (https://www.semanticscholar.org/) Dữ liệu được thu thập bằng cách sử dụng API (Application Programming Interface) được viết bằng ngôn ngữ lập trình Python để thu thập các nội dung như tiêu đề, các tác giả, tóm tắt,… của các bài báo có chứa từ khoá ChatGPT, GPT-3.5 hoặc GPT-4 trong tiêu đề [7] Dữ liệu sau khi thu thập là một tập tin dạng *jsonl có cấu trúc như sau:
• Item paper: loại bài báo, có thể là bài báo hoặc bài báo cáo hội thảo
• Authors: các tác giả của bài báo
• Title: tiêu đề bài báo
• Journal: tên tạp chí xuất bản
• Pulication year: năm xuất bản
• URLs: địa chỉ web của bài báo
• DOI: mã định danh của bài báo
• PMID: mã định danh của bài báo trên thư viện Pubmed
• Abstract: tóm tắt của bài báo
Hình 1 minh họa cấu trúc một mẫu dữ liệu sau khi thu thập Trong đề tài này, tôi đã thu thập được bộ dữ liệu gồm 1192 bài báo với tiêu đề có chứa từ khoá ChatGPT, GPT-3.5 hoặc GPT-4 Mỗi bài báo trong bộ dữ liệu thu được có hơn 10 trường, Tuy nhiên, tôi chỉ quan tâm
sử dụng các trường gồm title, authors và abstract cho việc xây dựng và phân tích mạng
Trang 55
Hình 1 Nội dung mẫu dữ liệu dùng để thực nghiệm
2.2 Tiền xử lý dữ liệu
Do do dữ liệu được thu thập tự động nên trong 1192 kết quả thu thập có một số kết quả không đúng như yêu cầu Vì vậy, trước khi xây dựng mạng, ngoài một số dòng dữ liệu bị lỗi, tôi cũng tiến hành loại bỏ thêm các dòng dữ liệu không đạt yêu cầu với 3 tiêu chí loại như sau:
• Tiêu đề bài báo không có chứa từ khóa ChatGPT, GPT-3.5 hoặc GPT-4;
• Bài báo không thu thập được tóm tắt để sử dụng cho việc tạo đám mây từ khóa (wordcloud);
• Bài báo được viết bằng tiếng Tây Ban Nha, Bồ Đào Nha, Slovakia, Thổ Nhĩ Kỳ, Bosnia, Ukraina,…
Hình 2 minh họa cho các bài báo bị loại bởi 3 tiêu chí như đề cập ở trên Sau khi tiến hành loại bỏ, bộ dữ liệu còn lại 766 bài báo
Trang 66
Hình 2 Dữ liệu các bài báo bị loại
Hình 3 thống kê số lượng các bài báo bị loại theo 3 tiêu chí trên và các bài báo thỏa điều kiện làm dữ liệu cho việc xây dựng đồ thị mạng Từ Hình 3 ta thấy trong 1192 bài thì có
17 bài dữ liệu bị lỗi, 96 bài không có từ khóa ChatGPT hoặc ChatGPT-3.5 hoặc ChatGPT-4,
288 bài không thu thập được tóm tắt, 25 bài viết bằng các ngôn ngữ không phải là tiếng Anh
và còn lại 766 bài đạt yêu cầu
Hình 3 Thống kê số bài báo bị loại và đạt yêu cầu
Thống kê từ Bảng 1 cho thấy, trong 766 bài báo còn lại thì số tác giả độc lập chiếm tỉ
lệ cao (205 bài) và bài báo có nhiều tác giả nhất (31 tác giả) là 1 bài
0 100 200 300 400 500 600 700 800 900
Dữ liệu bị lỗi Dữ liệu
không chứa ChatGPT
Dữ liệu không có tóm tắt
Ngôn ngữ khác
Dữ liệu đạt
Thống kê số bài báo
Trang 77
Bảng 1 Thống kê số tác giả của bài báo
Sau khi được loại bỏ những dòng dữ liệu không phù hợp, dữ liệu tiếp tục được xử lý bằng python nhằm tạo ra những cặp tác giả có mối quan hệ đồng tác giả để làm cạnh của đồ thị Hình 4 thể hiện dữ liệu sau khi được xử lý để tạo đồ thị
Hình 4 Dữ liệu dùng để tạo đồ thị
2.3 Phân tích Wordcloud của tóm tắt
Để tìm hiểu các tác giả đã sử dụng ChatGPT hỗ trợ công việc gì, tôi sử dụng công cụ wordcloud [6] để phân tích nội dung của các tóm tắt Trước khi đưa dữ liệu vào phân tích, các tóm tắt sẽ được loại bỏ các từ không ảnh hưởng đến nội dung của câu (stopword) như: had, into, the, then….và loại bỏ các dấu câu, các kí tự đặc biệt,…Danh sách stopword đã sử dụng được thể hiện trong Hình 5
Hình 5 Danh sách stopword được sử dụng
Hình 6 thể hiện wordcloud của 766 tóm tắt đã thu thập được Từ Hình 6 ta thấy từ được xuất hiện nhiều nhất hay phổ biến nhất là ChatGPT, tiếp đến là research, question, topic, human, model, human, study…Ngoài ra, 20 từ có tần suất xuất hiện nhiều nhất trong 766 tóm tắt cũng được thể hiện trong Hình 7
Trang 88
Hình 6 Wordcloud của tất cả các tóm tắt
Hình 7 Wordcloud của 20 từ nổi bật
Trang 99
3.1 Cấu trúc đồ thị
Trong nghiên cứu này, dữ liệu sau khi được thu thập và tiền xử lý, sẽ được phân tích và
mô hình hóa bằng phần mềm Gephi [8] Gephi là một trong những phần mềm mã nguồn mở hàng đầu trong việc khám phá, trực quan hóa nhiều loại đồ thị và mạng Gephi có giao diện làm việc như Hình 8
Hình 8 Giao diện làm việc của Gephi
Từ dữ liệu sau khi đã được xử lý, tôi tiến hành phân tích và mô hình hóa thành đồ thị
vô hướng với cấu trúc đỉnh và cạnh của đồ thị như sau:
• Đỉnh: mỗi đỉnh của đồ thị tương ứng với một tác giả
• Cạnh: khi tác giả A và tác giả B là đồng tác giả của một bài báo thì sẽ có cạnh nối hai đỉnh tương ứng với A và B
Ngoài ra, nếu A và B là đồng tác giả của nhiều bài báo thì trọng số cạnh AB chính là số lượng bài báo đồng tác giả (mặc định thì trọng số của cạnh là 1) Hình 9 và Hình 10 sau đây minh họa một phần dữ liệu đỉnh và cạnh của mạng
Hình 9 Minh họa dữ liệu đỉnh
Trang 1010
Hình 10 Minh họa dữ liệu cạnh
3.2 Các tiêu chí đánh giá mạng
Trong phân tích mạng xã hội, các thước đo trung tâm là một trong những chỉ số được
sử dụng phổ biến nhất nhằm tìm ra các nút (đỉnh) nổi bật và có ảnh hưởng trong mạng xã hội Trong nghiên cứu này, các thước đo được sử dụng để đánh giá mạng là degree centrality (độ trung tâm dựa trên bậc của nút), closeness centrality (độ trung tâm dựa trên sự gần gũi) và betweeness centrality (độ trung tâm ở giữa) [9] Các thước đo này được định nghĩa như sau:
Độ trung tâm dựa trên bậc của nút 𝐶𝐷(𝑖): đây là một thước đo đơn giản dùng để đếm
số nút lân cận của một nút i nào đó, hay có thể được xác định bằng số cạnh hay số liên kết của nút đó và được tính theo công thức (1)
𝐶𝐷(𝑖) = ∑𝑛𝑗=1𝐴𝑖𝑗 (1)
Độ trung tâm dựa trên sự gần gũi 𝐶𝐶(𝑖): chỉ ra một nút i trong mạng có thể liên lạc nhanh tới các nút khác trong mạng, được xác định bằng công thức (2) với 𝑑𝑖𝑗 là đường đi ngắn nhất từ nút i đến nút j
𝐶𝐶(𝑖) = 1
∑𝑛𝑗=1𝑑 𝑖𝑗 (2)
Độ trung tâm ở giữa 𝐶𝐵(𝑖): thể hiện mức độ ở giữa của một nút i nào đó so với các nút khác, được xác định bằng công thức (3) với 𝜎𝑠𝑡 là số lượng đường đi ngắn nhất từ s đến t, còn
𝜎𝑠𝑡(𝑖) là số lượng đường đi ngắn nhất từ s đến t mà có đi qua i
𝐵𝐶(𝑖) = ∑ 𝜎𝑠𝑡 (𝑖)
𝜎𝑠𝑡 𝑠≠𝑡≠𝑖 (2)
3.3 Phân tích mạng
Sau khi mạng xã hội được tạo thành từ dữ liệu thu thập được, các tác giả của các bài báo sẽ được tập hợp thành một số cộng đồng có đặc điểm tương tự nhau hay chính là mối quan
hệ đồng tác giả Bảng 2 thể hiện số liệu tổng thể của mạng
Trang 1111
Hệ số trung bình phân cụm (average clustering coefficient) 0.976
Bảng 2 Các số liệu tổng thể của mạng
Hình 11 trình bày cấu trúc mạng tổng quát thể hiện tác giả của các bài báo về ChatGPT
và mối quan hệ đồng tác giả của họ Cấu trúc mạng này được bố cục theo kiểu Contraction với scale factor là 2
Hình 11 Cấu trúc mạng tổng thể
Bảng 3 cho thấy số liệu tổng thể về giá trị bậc của các đỉnh trong mạng Từ Bảng 3 ta thấy giá trị bậc cao nhất của đỉnh là 44, tức là có một tác giả nào đó có quan hệ hợp tác với tối
đa là 44 tác giả khác Ngược lại, bậc thấp nhất có giá trị là 0 cho thấy có những tác giả chỉ làm việc độc lập mà không có sự hợp tác với bất cứ tác giả nào
Trang 1212
Trung bình của bậc 4.464
Bảng 3 Các số liệu về bậc trong mạng
Hình 12 thể hiện sự phân bố độ bậc của các nút trong mạng, sự phân bố này tuân theo hàm mũ, trong đó có những nút có bậc cao hơn mức trung bình đóng vai trò là các nút trung tâm
Hình 12 Sự phân bố bậc của nút
Hình 13 và Hình 14 trực quan hóa độ trung tâm của từng nút theo độ trung tâm giữa và
độ trung tâm gần gũi [10] Trong đó, các nút có kích thước lớn và màu xám thể hiện rằng nút
đó có độ trung tâm lớn, các nút màu xanh, màu tím…với kích thước nhỏ hơn tương ứng với các nút có độ trung tâm thấp hơn Dựa vào Hình 13 ta thấy tác giả Liu Y có độ trung tâm ở giữa cao nhất chứng tỏ tác giả này có sự kết nối trong mạng là lớn nhất
Trang 1313
Hình 13 Độ trung tâm của nút theo độ trung tâm ở giữa
Từ Hình 14 ta thấy rằng tác giả Liu Y cũng có chỉ số độ trung tâm dựa trên sự gần gũi cao nhất, chứng tỏ khả năng truyền thông tin đến các nút khác trong mạng là nhanh nhất hay chính là nút có ảnh hưởng lớn trong mạng Các nút có sự ảnh hưởng lớn trong mạng tiếp theo
là các tác giả tương ứng với các nút màu cam Hình 15 thể hiện độ trung tâm gần gũi từ 0 đến 0.5
Hình 14 Độ trung tâm của nút dựa trên sự gần gũi
Trang 1414
Hình 15 Độ trung tâm dựa trên sự gần gũi từ 0 đến 0.5
Hình 16 và Hình 17 trực quan hóa các cộng đồng sau khi thực thi bằng thuật toán tìm kiếm cộng đồng trong mạng [11] Do có nhiều nhóm tác giả khác nhau cũng như có tác giả làm việc độc lập nên có khá nhiều cộng đồng được xác định
Hình 16 Các cộng đồng trong mạng
Ngoài ra, 6 cộng đồng có số thành viên nhiều nhất được thể hiện chi tiết ở Hình 17 Trong
đó, cộng đồng nhiều thành viên nhất là cộng đồng màu tím với số thành viên là 45
Trang 1515
Hình 17 Top 6 cộng đồng trong mạng
Trang 1616
4.1 Kết quả đạt được
Đề tài đã thu thập và phân tích được dữ liệu từ tóm tắt của 1192 bài báo có ứng dụng hoặc liên quan đến ChatGPT Bằng cách phân tích wordcloud của các tóm tắt, đề tài đã cho thấy một số từ khóa phổ biến được xuất hiện trong các bài báo có liên quan đến ChatGPT như: study, research, question…Ngoài ra, từ mô hình đồ thị được xây dựng với sự hỗ trợ của công
cụ Gephi, đã cho thấy cái nhìn tổng quan về ứng dụng ChatGPT trong nghiên cứu khoa học
Từ đồ thị đã xây dựng, ta thấy rằng có rất nhiều nhà nghiên cứu quan tâm đến ChatGPT và ứng dụng nó trong nghiên cứu Tuy nhiên, số cộng đồng sau khi phân tích của đồ thị này khá lớn, cho thấy các tác giả có xu hướng làm việc độc lập tương đối nhiều
4.2 Hướng phát triển
Do dữ liệu thu thập còn hạn chế nên mô hình đồ thị xây dựng được có khá nhiều cộng đồng, điều này dẫn tới việc xác định tầm ảnh hưởng của một nhà nghiên cứu với các nhà nghiên cứu khác chưa được tối ưu Trong thời gian tới, tôi có thể bổ sung thêm nhiều dữ liệu để có thể xây dựng mạng có nhiều sự liên kết giữa các cộng đồng với nhau Điều đó giúp cho việc xác định các nhà khoa học có ảnh hưởng nhất trong mạng được tốt hơn
Trang 1717
TÀI LIỆU THAM KHẢO
[1] Kevin Roose, “The Brilliance and Weirdness of ChatGPT.” [Online] Available: https://www.nytimes.com/2022/12/05/technology/chatgpt-ai-twitter.html
[2] David F Carr, “ChatGPT’s First Birthday is November 30: A Year in Review.” [Online] Available: https://www.similarweb.com/blog/insights/ai-news/chatgpt-birthday/
[3] Y Chen and S Eger, “Transformers Go for the LOLs: Generating (Humourous) Titles from Scientific Abstracts End-to-End,” 2022, doi: 10.48550/ARXIV.2212.10522
[4] H H Thorp, “ChatGPT is fun, but not an author,” Science, vol 379, no 6630, pp 313–
313, Jan 2023, doi: 10.1126/science.adg7879
[5] T P Tate, S Doroudi, D Ritchie, Y Xu, and M W Uci, “Educational Research and AI-Generated Writing: Confronting the Coming Tsunami,” EdArXiv, preprint, Jan
2023 doi: 10.35542/osf.io/4mec3
https://amueller.github.io/word_cloud/auto_examples/simple.html
https://www.semanticscholar.org/product/api/gallery
[8] “Gephi.” [Online] Available: https://gephi.org/about/
[9] J Golbeck and J L Klavans, Introduction to social media investigation: a hands-on approach Waltham, MA: Syngress, an imprint of Elsevier, 2015
[10] Ulrik Brandes, “A Faster Algorithm for Betweenness Centrality,” J Math Sociol.,
vol 25, no 2, pp 163–167, 2011
[11] Vincent D Blondel, Jean-Loup Guillaume, Renaud Lambiotte, Etienne Lefebvre,
“Fast unfolding of communities in large networks,” J Stat Mech Theory Exp., p 6,
2008