Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 67 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
67
Dung lượng
1,79 MB
Nội dung
HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG NGUYỄN NAM TRUNG XÂY DỰNG HỆ THỐNG TRÍCH XUẤT VÀ PHÂN LOẠI SỰ KIỆN TỪ TWITTER LUẬN VĂN THẠC SĨ KỸ THUẬT (Theo định hướng ứng dụng) HÀ NỘI - 2019 HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THƠNG NGUYỄN NAM TRUNG XÂY DỰNG HỆ THỐNG TRÍCH XUẤT VÀ PHÂN LOẠI SỰ KIỆN TỪ TWITTER Chuyên ngành: HỆ THỐNG THÔNG TIN Mã số: 8.48.01.04 LUẬN VĂN THẠC SĨ KỸ THUẬT (Theo định hướng ứng dụng) NGƯỜI HƯỚNG DẪN KHOA HỌC PGS.TS TỪ MINH PHƯƠNG HÀ NỘI - 2019 i LỜI CAM ĐOAN Tôi xin cam đoan cơng trình nghiên cứu tìm hiểu riêng Các số liệu, kết nêu luận văn trung thực chưa công bố cơng trình khác Tác giả luận văn Nguyễn Nam Trung ii MỤC LỤC LỜI CAM ĐOAN i MỤC LỤC ii DANH MỤC BẢNG iv DANH MỤC HÌNH VẼ v MỞ ĐẦU CHƯƠNG - TỔNG QUAN VỀ TRÍCH XUẤT VÀ PHÂN LOẠI SỰ KIỆN TỪ TWITTER 1.1 Giới thiệu mạng xã hội Twitter 1.2 Các đặc trưng thông tin Twitter 1.3 Các vấn đề trích xuất kiện từ Twitter 1.3.1 Xác định vấn đề 1.3.2 Những khó khăn trích xuất thơng tin từ Twitter 10 1.3.3 Ưu điểm việc trích xuất thơng tin từ Twitter 11 1.4 Những hướng tiếp cận trích xuất kiện từ Twitter .12 1.4.1 Cách tiếp cận miền tri thức cụ thể với miền tri thức mở 12 1.4.2 Phương pháp tiếp cận không giám sát, phương pháp tiếp cận giám sát phương pháp tiếp cận bán giám sát .14 1.5 Các vấn đề phân loại kiện từ Twitter 15 1.6 Kết luận chương 17 CHƯƠNG - TRÍCH XUẤT VÀ PHÂN LOẠI SỰ KIỆN TRÊN TWITTER 18 2.1 Trích xuất thông tin kiện từ nội dung tweet 18 2.1.1 Kỹ thuật gán nhãn từ loại (POS Tagging) mơ hình trường ngẫu nhiên có điều kiện 18 iii 2.1.2 Kỹ thuật nhận dạng thực thể có tên văn (NER) 2.1.3 Trích xuất mối quan hệ 25 30 2.1.4 Trích xuất thời gian 34 2.2 Phân lớp kiện sử dụng phương pháp Naive Bayes 35 2.2.1 Tiền xử lý 36 2.2.2 Phân loại tweet sử dụng phân phối Naive Bayes 40 2.3 Kết luận chương 42 CHƯƠNG - THỬ NGHIỆM VÀ ĐÁNH GIÁ 43 3.1 Thu thập liệu thử nghiệm 43 3.2 Thực nghiệm trích xuất kiện từ tweet 46 3.3 Thực nghiệm phương pháp phân lớp 48 3.3.1 Tiền xử lý liệu 3.3.2 Thực nghiệm phân lớp 3.3.3 Đánh giá kết thực nghiệm phân lớp 3.3.4 Kết thực nghiệm phân lớp 49 50 51 52 3.4 Kết luận chương 55 KẾT LUẬN VÀ KIẾN NGHỊ 56 TÀI LIỆU THAM KHẢO 57 iv DANH MỤC BẢNG Số hiệu bảng 1.1 1.2 2.1 2.2 2.3 3.1 3.2 3.3 v DANH MỤC HÌNH VẼ Số hiệu hình vẽ 1.1 1.2 1.3 1.4 1.5 1.6 1.7 1.8 2.1 2.2 2.3 2.4 2.5 2.6 2.7 2.8 2.9 2.10 3.1 3.2 3.3 3.4 3.5 3.6 MỞ ĐẦU Ngày nay, mạng xã hội ngày phát triển sâu vào sống người Có thể nói, mơ hình q trình phát triển giao tiếp mạng, đơn giản hoá phương thức tương tác kết nối người với Mạng xã hội Twitter, Facebook, Sina Weibo trở thành nguồn thông tin thời gian thực chứa lượng lớn nội dung người dùng tự tạo Sự phát triển nhanh chóng tảng đa phương tiện dẫn tới việc liệu ngày tăng đồng thời giữ vai trò quan trọng việc chia sẻ khuếch tán thông tin Hiện giới có hàng trăm mạng mạng xã hội khác nhau, trong mạng xã hội phát triển nhanh thành cơng có mặt muộn, Twitter Các chủ đề Twitter trải dài nhiều lĩnh vực từ vấn đề cá nhân kiện quan trọng xã hội Những tin nhắn chí cịn có độ lan truyền bao phủ nhanh nhiều so với phương tiện truyền thơng truyền thống Việc trích xuất thơng tin hữu ích có thể giúp ích nhiều lĩnh vực xây dựng hệ thống nghiên cứu phân tích thơng tin trước sau kiện hay ứng dụng thực tế xác định thảm họa tự nhiên, dự đoán kiện Mặt khác số lượng tweet chia sẻ ngày cực lớn vấn đề gặp phải tải mặt thông tin Do thông tin kiện cần phân loại theo chủ đề, hướng quan tâm phù hợp với đối tượng khác Chính vậy, việc đưa hệ thống cung cấp thông tin kiện quan trọng đã, diễn từ tweet hữu dụng đặt hướng nghiên cứu khả thi, quan trọng có ý nghĩa thực tiễn Mục tiêu đề tài luận văn em tập trung vào việc xây dựng hệ thống trích trọn kiện quan trọng với số đông người sử dụng theo mốc thời gian từ mạng xã hội Twitter thể qua số đặc trưng thời gian, địa điểm, người liên quan sử dụng tweet tiếng Anh Nghiên cứu có thể hỗ trợ phóng viên chuyên nghiệp tận dụng mạng xã hội trở thành nguồn thơng tin hữu ích trước vấn đề tải thông tin Nội dung luận văn bố cục thành chương sau: Chương – TỔNG QUAN VỀ TRÍCH XUẤT VÀ PHÂN LOẠI SỰ KIỆN TỪ TWITTER Giới thiệu chương: Trình bày tổng quan phương pháp trích xuất kiện từ Twitter, ưu điểm khó khăn gặp phải thực Trình bày mơ hình chung toán phân loại kiện Chương – TRÍCH XUẤT VÀ PHÂN LOẠI SỰ KIỆN TRÊN TWITTER Giới thiệu chương: Trình bày tổng quan vấn đề liên quan đến tiền xử lý liệu, trích xuất kiện phương pháp phân lớp kiện cho tweet sử dụng thuật toán Naive Bayes Chương – THỬ NGHIỆM VÀ ĐÁNH GIÁ Giới thiệu chương: Sử dụng thư viện có sẵn Twitter cung cấp, thực xây dựng liệu từ liệu thực tế có Twitter cho số lượng người dùng, sử dụng kỹ thuật trích xuất phân lớp đề xuất chương để đưa kết thông tin phân lớp kiện nội dung tweet Đánh giá kết so với phương pháp phân lớp khác CHƯƠNG - TỔNG QUAN VỀ TRÍCH XUẤT VÀ PHÂN LOẠI SỰ KIỆN TỪ TWITTER Hiện mạng xã hội thu hút hàng triệu người sử dụng dần trở thành nguồn cung cấp thông tin vấn đề Đặc biệt năm gần Twitter phát triển nhanh để trở thành mạng xã hội phổ biến Mỗi ngày Twitter có khoảng 500 triệu tin nhắn hay gọi tweet người dùng chia sẻ Rõ ràng Twitter trở thành phương tiện giao tiếp quan trọng Với lượng thông tin trao đổi khổng lồ việc xử lý liệu trích xuất thơng tin hữu ích thực cần thiết Luận văn sẽ tập trung vào việc xây dựng hệ thống trích xuất phân loại kiện từ mạng xã hội Twitter giúp giải vấn đề tải mặt thông tin 1.1 Giới thiệu mạng xã hội Twitter Twitter dịch vụ mạng xã hội miễn phí cho phép người dùng sử dụng đọc, nhắn cập nhật mẩu tin nhỏ gọi tweet, dạng micro blog Những mẩu tweet giới hạn tối đa 140 ký tự lan truyền nhanh chóng phạm vi nhóm bạn người nhắn có thể trưng rộng rãi cho người Thành lập từ năm 2006, Twitter trở thành tượng phổ biến toàn cầu, tweet có thể dịng tin cá nhân cập nhật mang tính thời chỗ kịp thời nhanh chóng truyền thơng thơng Theo thống kê 2018, Twitter có khoảng 335 triệu người sử dụng tháng trung bình ngày có 500 triệu tweet đăng , số không ngừng tăng lên, năm số lượng người dùng đăng ký sử dụng dịch vụ tăng lên khoảng 9% [1] Việc giới hạn độ dài tin nhắn 140 ký tự khiến tweet có đặc điểm giống với tin SMS Do tweet trở thành hình thức tốc ký đáng ý 46 Bảng 3.2: Phân bố lớp tập liệu STT 3.2 Thực nghiệm trích xuất kiện từ tweet Ứng dụng sử dụng thư viện twitter_nlp [2] để thực gán nhãn từ loại văn POS nhận dạng thực có tên riêng NER nội dung tweet Để gán nhãn từ loại cho thành phần nội dung tweet thư viện twitter_nlp sử dụng công cụ MALLET để áp dụng mơ hình trường ngẫu nhiên có điều kiện áp dụng từ điển 800 tweet có sẵn kết hợp với 40.000 token trích xuất gán nhãn từ lịch sử chat IRC 50.000 token POS gán nhãn từ từ điển Penn TreeBank Ví dụ đầu vào câu tweet “Mark and John are working at Google in 20/11/2018” Hình 3.4 Xác định thành phần ngữ nghĩa câu 47 IN: "Mark and John are working at Google in 20/11/2018." OUT: Mark/B-ENTITY/NNP and/O/CC John/B-ENTITY/NNP are/O/VBP working/O/VBG at/O/IN Google/B-ENTITY/NNP in/O/IN 20/11/2018/O/CD Tiếp tục chuyển sang cú pháp IOB IN: " Mark and John are working at Google in 20/11/2018." OUT: Mark/B-ENTITY and/O John/B-ENTITY are/O working/O at/O Google/B-ENTITY in/O 20/11/2018/O Thực nhận dạng thực thể có tên IN: " Mark and John are working at Google in 20/11/2018." OUT: Mark/B-person and/O John/B-person are/O working/O at/O Google/B-company in/O 20/11/2018/O Như từ câu tweet “Mark and John are working at Google in 20/11/2018” thu thực thể “Mark” , “John” “Google” Tiếp theo để trích xuất thơng tin thời gian xây dựng tiếp hàm xử lý trích xuất thời gian sử dụng thư viện nltk_contrib Với ví dụ qua xử lý thu IN: " Mark and John are working at Google in 20/11/2018." OUT: Mark and John are working at Google in 20/11/2018 48 Như thơng qua q trình xử lý, từ tweet đầu vào ta trích xuất kiện Entity Mark, John, Google 3.3 Thực nghiệm phương pháp phân lớp Từ tập liệHìnhutrên3.g5ồMơmthìnhổng18012phânlodịngạitweettươngbằngứngthuvớậti tốn18012Naivtwe etBayesẽsử dụng Từ Từ tập liệu gồm tổng 18012 dòng tương ứng với 18012 tweet sử dụng phương pháp k Cross-Validation phương pháp k CrossValidation với k = 10 Tập liệu chia thành 10 phần phần dùng để làm tập huấn luyện phần để làm tập đánh giá Quá trình thực lặp lặp lại 10 cho tất tập chọn làm tập liệu đánh giá Bảng 3.3: Phân phối tập huấn luyện đánh giá Class politics 3749 415 49 3.3.1 Tiền xử lý liệu Từng tweet tiền xử lý để loại bỏ bớt thành phần dư thừa khơng có nhiều ý nghĩa việc phân lớp a Loại bỏ HTML encode IN: "@BrynRenner: GREAT CATCHING UP WITH MY FORMER TEAMMATE AT NORTH CAROLINA & NEW MIAMI DOLPHIN ROBERT QUINN @ PRO DAY TODAY" OUT: @BrynRenner: GREAT CATCHING UP WITH MY FORMER TEAMMATE AT NORTH CAROLINA & NEW MIAMI DOLPHIN ROBERT QUINN @ PRO DAY TODAY b Loại bỏ @mention tag IN: @BrynRenner: GREAT CATCHING UP WITH MY FORMER TEAMMATE AT NORTH CAROLINA & NEW MIAMI DOLPHIN ROBERT QUINN @ PRO DAY TODAY " OUT: : GREAT CATCHING UP WITH MY FORMER TEAMMATE AT NORTH CAROLINA NEW MIAMI DOLPHIN ROBERT QUINN @ PRO DAY TODAY c Loại bỏ URL 50 IN: RT @intifada:Occupation army imposing nine-day closure on West Bank, Gaza for Passover holiday https://t.co/WMBqeipPjV" OUT: RT @intifada:Occupation army imposing nine-day closure on West Bank, Gaza for Passover holiday d Loại bỏ ký tự hashtag : vài trường hợp nội dung hashtag có thể mạng lại thơng tin hữu ích nên luận văn xử lý bỏ dấu # IN: RT @intifada:The game they are creating will leave #cryptokitties in the dust" OUT: RT intifada The game they are creating will leave cryptokitties in the dust 3.3.2 Thực nghiệm phân lớp Sau tiền xử lý, tweet làm tiến hành xây dựng mơ hình phân lớp Ở em sử dụng tf-idf vectorization kết hợp với loại thêm từ stopword tiếng anh Dữ liệu load từ file text vào pandas.DataFrame tiến hành đánh giá 51 Kết thu bao gồm độ xác confusion matrix Hình 3.6 Kết đánh giá phương pháp 3.3.3 Đánh giá kết thực nghiệm phân lớp Khi xây dựng mơ hình phân lớp, cần phép đánh giá để xem mơ hình sử dụng có hiệu khơng để so sánh khả mơ hình Có nhiều cách đánh giá mơ hình phân lớp Tuỳ vào toán khác mà sử dụng phương pháp khác Các phương pháp thường sử dụng là: accuracy score, confusion matrix, ROC curve, Area Under the Curve, Precision and Recall, F1 score, Trong luận văn em xem xét 52 - Accuracy : Độ xác độ xác tổng thể mơ hình tính tổng phân loại xác chia cho tổng số phân loại - Precision: độ xác với điều kiện lớp cụ thể dự đốn tính theo công thức Với true positive) – số mẫu mang gán lớp tương ứng fp số mẫu sai bị gán vào lớp - Recall đại lượng đo đo lường khả mô hình dự đốn để chọn thể lớp định từ tập liệu Với true positive) – số mẫu mang gán lớp tương ứng fp số mẫu sai bị gán lớp sai 3.3.4 Kết thực nghiệm phân lớp Kết thực nghiệm với mơ hình 10 cross-validation sau chạy thuật toán sau - Lần Class politics sport startup - Lần Class politics sport startup - Lần 53 Class politics sport startup - Lần Class politics sport startup - Lần Class politics sport startup - Lần Class politics sport startup - Lần Class politics sport startup - Lần Class politics 54 sport startup - Lần Class politics sport startup - Lần 10 Class politics sport startup Tổng hợp 10 lần kiểm tra 55 Vậy trung bình sau 10-fold Cross Validation thuật toán Multinomial Naive Bayes áp dụng tập liệu có 18012 tweet thu độ xác xấp xỉ 77.8% 3.4 Kết luận chương Trong chương em nêu bước để xử lý tweet để thực việc trích xuất phân loại kiện tập liệu 18.012 tweet thu thập Q trình thực trích xuất kiện trình thể rõ kết trung gian mà tweet xử lý Bên cạnh kết q trình phân loại đạt độ xác xấp xỉ 77,8% chứng tỏ ưu điểm phương pháp Nave Bayes dễ thực thi mà đảm bảo độ xác cao Trong khóa luận này, đánh giá thuật toán phân loại dựa tập liệu huấn luyện kiểm thử thu thập theo chủ đề xác định, điều chưa hồn tồn thể tính xác việc phân loại nội dung tweet với nhiều chủ đề khác Vì thế, việc mở rộng phạm vi miền chủ đề cần mở rộng hướng đến trích xuất phân loại kiện theo miền tri thức mở không giới hạn theo chủ đề có sẵn Sau kết thúc khóa luận, em cố gắng tiếp tục phần nghiên cứu để có phương pháp trích xuất phân loại có độ xác cao phù hợp với liệu tweet 56 KẾT LUẬN VÀ KIẾN NGHỊ Trong sống hàng ngày, lượng thông tin khổng lồ đến từ mạng xã hội thực nguồn tri thức quý giá Các hệ thống trích xuất phân loại thơng tin cụ thể kiện từ nội dung tin nhắn giúp làm giảm tải mặt thông tin làm tăng hiệu q trình tiếp nhận thơng tin người giúp đưa định tốt Phân loại trích xuất kiện dựa liệu, cụ thể mơ hình Naive Bayes cách tiếp cận thành công để xây dựng hệ thống phân loại Kỹ thuật trích xuất phân lớp kiện từ Twitter mở hướng nghiên cứu theo dõi kiện từ Twitter, phân tích đánh giá cộng đồng vấn đề trị, ứng dụng phát cảnh báo thảm họa Tuy nhiên, với phát triển số lượng đa dạng liệu, trích xuất kiện phải có khả tận dụng nguồn thơng tin giàu ngữ cảnh Twitter Khác với văn truyền thống, tin nhắn tweet có chứa nhiều đường link thơng tin đa phương tiện đính kèm Đã có nhiều nghiên cứu thực tìm hiểu thơng tin profile người dùng để xác định địa điểm kiện hay đường link đính kèm để trích xuất thêm nhiều thơng tin hữu ích khác Vì trích xuất kiện từ Twitter tiếp tục phát triển theo hướng phân tích liệu đa phương tiện trương lai.Mặc dù, kỹ thuật trích xuất kiện đạt số kết quả, mạng xã hội Twitter cịn nhiều thách thức Thách thức lớn là, việc xây dựng tập liệu huấn luyện cho thuật toán từ nguồn liệu: hồ sơ cá nhân người dùng, tweet người dùng, số lượng người dùng follow… 57 TÀI LIỆU THAM KHẢO [1] Aslam, Salman, 2018 Twitter by the Numbers: Stats, Demographics [2] Laney, D (February 2001), 3D data management: Controlling data volume, velocity, and variety [3] J Allan, R Papka, and V Lavrenko (1998), On-line new event detection and tracking [4] D S Weld, R Hoffmann, and F Wu (2009), Using wikipedia to bootstrap open information extraction [5] J Pustejovsky, P Hanks, R Sauri, A See, R Gaizauskas, A Setzer, D Radev, B Sundheim, D Day, L Ferro, and M Lazo (2003) The TIMEBANK corpus In Proceedings of Corpus Linguistics [6] Sundheim., R Grishman and B (1996), In Proceedings of the International Conference on Computational Linguistics [7] G Doddington, A Mitchell, M Przybocki, L Ramshaw, S Strassel, and R Weischedel (2004), The Automatic Content Extraction (ACE) Program–Tasks, Data, and Evaluation [8] E Gabrilovich, S Dumais, and E Horvitz (2004), Newsjunkie: providing personalized newsfeeds via analysis of information novelty [9] Jurafsky, N Chambers and D (2011), Template-based information extraction without the templates In Proceedings of ACL [10] J Leskovec, L Backstrom, and J Kleinberg (2009), Meme-tracking and the dynamics of the news cycle [11] J Lin, R Snow, and W Morgan (2011), Smoothing techniques for adaptive online language models: Topic tracking in tweet streams [12] F M Zanzotto, M Pennaccchiotti, and K Tsioutsiouliklis (2011), Linguistic redundancy in Twitter 58 [13] K Gimpel, N Schneider, B O’Connor, D Das,D Mills, J Eisenstein, M Heilman, D Yogatama,J Flanigan, and N A Smith (2011) Part-ofspeech tagging for twitter: Annotation, features, and experiments [14] X Liu, S Zhang, F Wei, and M Zhou (2011), Recognizing named entities in tweets [15] A Ritter, S Clark, Mausam, and O Etzioni (2011) Named entity recognition in tweets: An experimental study [16] E Benson, A Haghighi, and R Barzilay (2011) Event discovery in social media feeds [17] T Sakaki, M Okazaki, and Y Matsuo (2010) Earthquake shakes twitter users: real-time event detection by social sensors [18] S Petrovic, M Osborne, and V Lavrenko (2010) Streaming first story detection with application to twitter [19] H Becker, M Naaman, and L Gravano (2011) Beyond trending topics: Real-world event identification on twitter [20] A.-M Popescu, M Pennacchiotti, and D A Paranjpe (2011) Extracting events and event descriptions from twitter [21] Pennacchiott, A.-M Popescu and M (2011) Dancing with the stars, nba games, politics: An exploration of twitter users’ response to events [22] Tanev, H., Piskorski, J., Atkinson Real-Time News Event Extraction for Global Crisis Monitoring [23] Nishihara, Y., Sato, K., Sunayama (2009) Event Extraction and Visualization for Obtaining Personal Experiences from Blogs [24] A Ritter, S Clark, Mausam, and O Etzioni (2011) Twitter_NLP (https://github.com/aritter/twitter_nlp) [25] MALLET (http://mallet.cs.umass.edu/) ... .14 1.5 Các vấn đề phân loại kiện từ Twitter 15 1.6 Kết luận chương 17 CHƯƠNG - TRÍCH XUẤT VÀ PHÂN LOẠI SỰ KIỆN TRÊN TWITTER 18 2.1 Trích xuất thơng tin kiện từ nội dung tweet... QUAN VỀ TRÍCH XUẤT VÀ PHÂN LOẠI SỰ KIỆN TỪ TWITTER 1.1 Giới thiệu mạng xã hội Twitter 1.2 Các đặc trưng thông tin Twitter 1.3 Các vấn đề trích xuất kiện từ Twitter. ..HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG NGUYỄN NAM TRUNG XÂY DỰNG HỆ THỐNG TRÍCH XUẤT VÀ PHÂN LOẠI SỰ KIỆN TỪ TWITTER Chuyên ngành: HỆ THỐNG THÔNG TIN Mã số: 8.48.01.04