Xây dựng hệ thống trích xuất và phân loại sự kiện từ Twitter (Luận văn thạc sĩ)

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang	65
Dung lượng	1,99 MB

Nội dung

Xây dựng hệ thống trích xuất và phân loại sự kiện từ TwitterXây dựng hệ thống trích xuất và phân loại sự kiện từ TwitterXây dựng hệ thống trích xuất và phân loại sự kiện từ TwitterXây dựng hệ thống trích xuất và phân loại sự kiện từ TwitterXây dựng hệ thống trích xuất và phân loại sự kiện từ TwitterXây dựng hệ thống trích xuất và phân loại sự kiện từ TwitterXây dựng hệ thống trích xuất và phân loại sự kiện từ TwitterXây dựng hệ thống trích xuất và phân loại sự kiện từ TwitterXây dựng hệ thống trích xuất và phân loại sự kiện từ TwitterXây dựng hệ thống trích xuất và phân loại sự kiện từ TwitterXây dựng hệ thống trích xuất và phân loại sự kiện từ TwitterXây dựng hệ thống trích xuất và phân loại sự kiện từ TwitterXây dựng hệ thống trích xuất và phân loại sự kiện từ TwitterXây dựng hệ thống trích xuất và phân loại sự kiện từ Twitter

HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG NGUYỄN NAM TRUNG XÂY DỰNG HỆ THỐNG TRÍCH XUẤT VÀ PHÂN LOẠI SỰ KIỆN TỪ TWITTER LUẬN VĂN THẠC SĨ KỸ THUẬT (Theo định hướng ứng dụng) HÀ NỘI - 2019 HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THƠNG NGUYỄN NAM TRUNG XÂY DỰNG HỆ THỐNG TRÍCH XUẤT VÀ PHÂN LOẠI SỰ KIỆN TỪ TWITTER Chuyên ngành: HỆ THỐNG THÔNG TIN Mã số: 8.48.01.04 LUẬN VĂN THẠC SĨ KỸ THUẬT (Theo định hướng ứng dụng) NGƯỜI HƯỚNG DẪN KHOA HỌC PGS.TS TỪ MINH PHƯƠNG HÀ NỘI - 2019 i LỜI CAM ĐOAN Tôi xin cam đoan cơng trình nghiên cứu tìm hiểu riêng Các số liệu, kết nêu luận văn trung thực chưa công bố cơng trình khác Tác giả luận văn Nguyễn Nam Trung ii MỤC LỤC LỜI CAM ĐOAN i MỤC LỤC ii DANH MỤC BẢNG iv DANH MỤC HÌNH VẼ v MỞ ĐẦU CHƯƠNG - TỔNG QUAN VỀ TRÍCH XUẤT VÀ PHÂN LOẠI SỰ KIỆN TỪ TWITTER .3 1.1 Giới thiệu mạng xã hội Twitter .3 1.2 Các đặc trưng thông tin Twitter 1.3 Các vấn đề trích xuất kiện từ Twitter .8 1.3.1 Xác định vấn đề 1.3.2 Những khó khăn trích xuất thông tin từ Twitter 10 1.3.3 Ưu điểm việc trích xuất thơng tin từ Twitter .11 1.4 Những hướng tiếp cận trích xuất kiện từ Twitter 12 1.4.1 Cách tiếp cận miền tri thức cụ thể với miền tri thức mở .12 1.4.2 Phương pháp tiếp cận không giám sát, phương pháp tiếp cận giám sát phương pháp tiếp cận bán giám sát 14 1.5 Các vấn đề phân loại kiện từ Twitter .15 1.6 Kết luận chương .17 CHƯƠNG - TRÍCH XUẤT VÀ PHÂN LOẠI SỰ KIỆN TRÊN TWITTER 18 2.1 Trích xuất thông tin kiện từ nội dung tweet 18 2.1.1 Kỹ thuật gán nhãn từ loại (POS Tagging) mơ hình trường ngẫu nhiên có điều kiện 18 iii 2.1.2 Kỹ thuật nhận dạng thực thể có tên văn (NER) 25 2.1.3 Trích xuất mối quan hệ 30 2.1.4 Trích xuất thời gian 34 2.2 Phân lớp kiện sử dụng phương pháp Naive Bayes 35 2.2.1 Tiền xử lý 36 2.2.2 Phân loại tweet sử dụng phân phối Naive Bayes 40 2.3 Kết luận chương .42 CHƯƠNG - THỬ NGHIỆM VÀ ĐÁNH GIÁ 43 3.1 Thu thập liệu thử nghiệm 43 3.2 Thực nghiệm trích xuất kiện từ tweet 46 3.3 Thực nghiệm phương pháp phân lớp .48 3.3.1 Tiền xử lý liệu .49 3.3.2 Thực nghiệm phân lớp 50 3.3.3 Đánh giá kết thực nghiệm phân lớp .51 3.3.4 Kết thực nghiệm phân lớp 52 3.4 Kết luận chương .55 KẾT LUẬN VÀ KIẾN NGHỊ 56 TÀI LIỆU THAM KHẢO 57 iv DANH MỤC BẢNG Số hiệu bảng Tên bảng Trang 1.1 Thơng tin kiện trích xuất theo thành phần 1.2 Ví dụ tính hỗn tạp nội dung Tweet 10 2.1 Ví dụ loại thực thể có tên riêng 26 2.2 Đánh giá ưu nhược điểm phương pháp trích xuất mối quan hệ 33 2.3 Biểu thức thời gian 35 3.1 Danh sách tài khoản lấy liệu theo chủ đề 44 3.2 Phân bố lớp tập liệu 46 3.3 Phân phối tập huấn luyện đánh giá 49 v DANH MỤC HÌNH VẼ Số hiệu hình vẽ 1.1 1.2 1.3 1.4 1.5 1.6 1.7 1.8 2.1 2.2 2.3 2.4 2.5 2.6 2.7 2.8 2.9 2.10 3.1 3.2 3.3 3.4 3.5 3.6 Tên hình vẽ Quan hệ người dùng hiển thị tweet theo mối quan hệ Tweet có chứa hashtag nội dung Người dùng Twitter mention người Hành động reply ký hiệu mention sử dụng đầu tweet Tweet có nội dung thơng báo mắt sản phẩm Tweet có nội dung mắt film Tổng hợp hướng nghiên cứu trích xuất liệu từ Twitter Mơ hình tốn phân loại kiện nội dung tweet Danh sách thành phần câu Danh sách nhãn từ điển Penn TreeBank Sơ đồ cửa sổ trượt lựa chọn đặc trưng CRF Ví dụ Nhận dạng thực thể có tên Ví dụ ký pháp nhãn IOB Mơ hình tổng qt Labeled Latent Dirichlet Allocation Ví dụ biểu thức chủ vị tân Từ điển mối quan hệ Freebase Biểu thức thời gian gắn nhãn IOB Thuật toán phân lớp Multinomial Naive Bayes (huấn luyện kiểm thử) Cấu trúc liệu tweet dạng JSON Tổ chức liệu huấn luyện Tổ chức liệu huấn luyện Xác định thành phần ngữ nghĩa câu Mơ hình phân loại tweet thuật toán Naive Bayes Kết đánh giá phương pháp Trang 8 12 16 19 19 23 26 28 30 31 32 35 41 43 45 45 47 49 52 MỞ ĐẦU Ngày nay, mạng xã hội ngày phát triển sâu vào sống người Có thể nói, mơ hình q trình phát triển giao tiếp mạng, đơn giản hoá phương thức tương tác kết nối người với Mạng xã hội Twitter, Facebook, Sina Weibo trở thành nguồn thông tin thời gian thực chứa lượng lớn nội dung người dùng tự tạo Sự phát triển nhanh chóng tảng đa phương tiện dẫn tới việc liệu ngày tăng đồng thời giữ vai trò quan trọng việc chia sẻ khuếch tán thông tin Hiện giới có hàng trăm mạng mạng xã hội khác nhau, trong mạng xã hội phát triển nhanh thành cơng có mặt muộn, Twitter Các chủ đề Twitter trải dài nhiều lĩnh vực từ vấn đề cá nhân kiện quan trọng xã hội Những tin nhắn chí có độ lan truyền bao phủ nhanh nhiều so với phương tiện truyền thơng truyền thống Việc trích xuất thơng tin hữu ích có thể giúp ích nhiều lĩnh vực xây dựng hệ thống nghiên cứu phân tích thơng tin trước sau kiện hay ứng dụng thực tế xác định thảm họa tự nhiên, dự đoán kiện Mặt khác số lượng tweet chia sẻ ngày cực lớn vấn đề gặp phải tải mặt thông tin Do thông tin kiện cần phân loại theo chủ đề, hướng quan tâm phù hợp với đối tượng khác Chính vậy, việc đưa hệ thống cung cấp thông tin kiện quan trọng đã, diễn từ tweet hữu dụng đặt hướng nghiên cứu khả thi, quan trọng có ý nghĩa thực tiễn Mục tiêu đề tài luận văn em tập trung vào việc xây dựng hệ thống trích trọn kiện quan trọng với số đông người sử dụng theo mốc thời gian từ mạng xã hội Twitter thể qua số đặc trưng thời gian, địa điểm, người liên quan sử dụng tweet tiếng Anh Nghiên cứu có thể hỗ trợ phóng viên chuyên nghiệp tận dụng mạng xã hội trở thành nguồn thơng tin hữu ích trước vấn đề tải thông tin Nội dung luận văn bố cục thành chương sau:  Chương – TỔNG QUAN VỀ TRÍCH XUẤT VÀ PHÂN LOẠI SỰ KIỆN TỪ TWITTER Giới thiệu chương: Trình bày tổng quan phương pháp trích xuất kiện từ Twitter, ưu điểm khó khăn gặp phải thực Trình bày mơ hình chung toán phân loại kiện  Chương – TRÍCH XUẤT VÀ PHÂN LOẠI SỰ KIỆN TRÊN TWITTER Giới thiệu chương: Trình bày tổng quan vấn đề liên quan đến tiền xử lý liệu, trích xuất kiện phương pháp phân lớp kiện cho tweet sử dụng thuật toán Naive Bayes  Chương – THỬ NGHIỆM VÀ ĐÁNH GIÁ Giới thiệu chương: Sử dụng thư viện có sẵn Twitter cung cấp, thực xây dựng liệu từ liệu thực tế có Twitter cho số lượng người dùng, sử dụng kỹ thuật trích xuất phân lớp đề xuất chương để đưa kết thông tin phân lớp kiện nội dung tweet Đánh giá kết so với phương pháp phân lớp khác CHƯƠNG - TỔNG QUAN VỀ TRÍCH XUẤT VÀ PHÂN LOẠI SỰ KIỆN TỪ TWITTER Hiện mạng xã hội thu hút hàng triệu người sử dụng dần trở thành nguồn cung cấp thông tin vấn đề Đặc biệt năm gần Twitter phát triển nhanh để trở thành mạng xã hội phổ biến Mỗi ngày Twitter có khoảng 500 triệu tin nhắn hay gọi tweet người dùng chia sẻ Rõ ràng Twitter trở thành phương tiện giao tiếp quan trọng Với lượng thông tin trao đổi khổng lồ việc xử lý liệu trích xuất thơng tin hữu ích thực cần thiết Luận văn sẽ tập trung vào việc xây dựng hệ thống trích xuất phân loại kiện từ mạng xã hội Twitter giúp giải vấn đề tải mặt thông tin 1.1 Giới thiệu mạng xã hội Twitter Twitter dịch vụ mạng xã hội miễn phí cho phép người dùng sử dụng đọc, nhắn cập nhật mẩu tin nhỏ gọi tweet, dạng micro blog Những mẩu tweet giới hạn tối đa 140 ký tự lan truyền nhanh chóng phạm vi nhóm bạn người nhắn có thể trưng rộng rãi cho người Thành lập từ năm 2006, Twitter trở thành tượng phổ biến toàn cầu, tweet có thể dòng tin cá nhân cập nhật mang tính thời chỗ kịp thời nhanh chóng truyền thơng thơng Theo thống kê 2018, Twitter có khoảng 335 triệu người sử dụng tháng trung bình ngày có 500 triệu tweet đăng , số không ngừng tăng lên, năm số lượng người dùng đăng ký sử dụng dịch vụ tăng lên khoảng 9% [1] Việc giới hạn độ dài tin nhắn 140 ký tự khiến tweet có đặc điểm giống với tin SMS Do tweet trở thành hình thức tốc ký đáng ý 44 Trong trình thu thập liệu, lưu trữ tiền xử lý liệu, ứng dụng viết ngôn ngữ Python sử dụng thư viện mã nguồn mở tweepy để thực truy vấn liệu Twitter Twitter cấp Streaming API Search API cho phép truy xuất phần tweet đăng Trung bình có khoảng 6000 tweet giây với tài khoản lập trình viên bình thường có thể truy cập số lượng nhỏ khoảng dới 1% Thông qua API cung cấp Twitter, tiến hành thu thập liệu đủ lớn để xây dựng tập huấn luyện, với mục đích thử nghiệm thuật tốn Chúng ta lấy tweet tài khoản cụ thể theo chủ đề xác định trước bao gồm “Chính trị”,”Thể thao”, “Startup” lấy theo hashtag thuộc chủ đề tương ứng trực tiếp từ Twitter API Bảng 3.1: Danh sách tài khoản lấy liệu theo chủ đề Chính trị Thể thao Startup @BarackObama @BCCI @ycombinator @realDonaldTrump @AlexReimer1 @VCRebecca @ReutersPolitics @IPL @khoslaventures #Election2016 @BrianCostaWSJ @AMAnet politics @SportsBizMiss @CEORealTalk @politico @JimTrotter_NFL @matthewtoren @nprpolitics @bhogleharsha #startups @McClatchyDC @FCBarcelona @500Startups @SwingState @LFC @AWSstartups @GOP12 @Arsenal @ericries @ChelseaFC @ManUtd @DeanJonesBR #IPL #Cricket 45 Mỗi tweet lưu vào file txt phân nhóm theo chủ đề tương ứng Hình 3.2: Tổ chức liệu huấn luyện Hình 3.3: Tổ chức liệu huấn luyện 46 Bảng 3.2: Phân bố lớp tập liệu Tên nhóm Số lượng tweet politics 4164 sport 8648 startup 5200 STT 3.2 Thực nghiệm trích xuất kiện từ tweet Ứng dụng sử dụng thư viện twitter_nlp [2] để thực gán nhãn từ loại văn POS nhận dạng thực có tên riêng NER nội dung tweet Để gán nhãn từ loại cho thành phần nội dung tweet thư viện twitter_nlp sử dụng cơng cụ MALLET để áp dụng mơ hình trường ngẫu nhiên có điều kiện áp dụng từ điển 800 tweet có sẵn kết hợp với 40.000 token trích xuất gán nhãn từ lịch sử chat IRC 50.000 token POS gán nhãn từ từ điển Penn TreeBank Ví dụ đầu vào câu tweet “Mark and John are working at Google in 20/11/2018” Hình 3.4 Xác định thành phần ngữ nghĩa câu 47 IN: "Mark and John are working at Google in 20/11/2018." OUT: Mark/B-ENTITY/NNP and/O/CC John/B-ENTITY/NNP are/O/VBP working/O/VBG at/O/IN Google/B-ENTITY/NNP in/O/IN 20/11/2018/O/CD Tiếp tục chuyển sang cú pháp IOB IN: " Mark and John are working at Google in 20/11/2018." OUT: Mark/B-ENTITY and/O John/B-ENTITY are/O working/O at/O Google/B-ENTITY in/O 20/11/2018/O Thực nhận dạng thực thể có tên IN: " Mark and John are working at Google in 20/11/2018." OUT: Mark/B-person and/O John/B-person are/O working/O at/O Google/B-company in/O 20/11/2018/O Như từ câu tweet “Mark and John are working at Google in 20/11/2018” thu thực thể “Mark” , “John” “Google” Tiếp theo để trích xuất thông tin thời gian xây dựng tiếp hàm xử lý trích xuất thời gian sử dụng thư viện nltk_contrib Với ví dụ qua xử lý thu IN: " Mark and John are working at Google in 20/11/2018." OUT: Mark and John are working at Google in 20/11/2018 48 Như thông qua trình xử lý, từ tweet đầu vào ta trích xuất kiện Entity Mark, John, Event Phase working Date 20/11/2018 Google 3.3 Thực nghiệm phương pháp phân lớp Hình Mơtổng hình18012 phân loại tweet thuật Naive Bayes Từ tập liệu trên3.5 gồm dòng tương ứng với toán 18012 tweet sử dụng Từ Từ tập liệu gồm tổng 18012 dòng tương ứng với 18012 tweet sử dụng phương pháp k Cross-Validation phương pháp k Cross-Validation với k = 10 Tập liệu chia thành 10 phần phần dùng để làm tập huấn luyện phần để làm tập đánh giá Quá trình thực lặp lặp lại 10 cho tất tập chọn làm tập liệu đánh giá Bảng 3.3: Phân phối tập huấn luyện đánh giá Class Train Test politics 3749 415 49 sport 7783 865 startup 4680 520 3.3.1 Tiền xử lý liệu Từng tweet tiền xử lý để loại bỏ bớt thành phần dư thừa khơng có nhiều ý nghĩa việc phân lớp a Loại bỏ HTML encode IN: "@BrynRenner: GREAT CATCHING UP WITH MY FORMER TEAMMATE AT NORTH CAROLINA & NEW MIAMI DOLPHIN ROBERT QUINN @ PRO DAY TODAY" OUT: @BrynRenner: GREAT CATCHING UP WITH MY FORMER TEAMMATE AT NORTH CAROLINA & NEW MIAMI DOLPHIN ROBERT QUINN @ PRO DAY TODAY b Loại bỏ @mention tag IN: @BrynRenner: GREAT CATCHING UP WITH MY FORMER TEAMMATE AT NORTH CAROLINA & NEW MIAMI DOLPHIN ROBERT QUINN @ PRO DAY TODAY " OUT: : GREAT CATCHING UP WITH MY FORMER TEAMMATE AT NORTH CAROLINA NEW MIAMI DOLPHIN ROBERT QUINN @ PRO DAY TODAY c Loại bỏ URL 50 IN: RT @intifada:Occupation army imposing nine-day closure on West Bank, Gaza for Passover holiday https://t.co/WMBqeipPjV" OUT: RT @intifada:Occupation army imposing nine-day closure on West Bank, Gaza for Passover holiday d Loại bỏ ký tự hashtag : vài trường hợp nội dung hashtag có thể mạng lại thơng tin hữu ích nên luận văn xử lý bỏ dấu # IN: RT @intifada:The game they are creating will leave #cryptokitties in the dust" OUT: RT intifada The game they are creating will leave cryptokitties in the dust 3.3.2 Thực nghiệm phân lớp Sau tiền xử lý, tweet làm tiến hành xây dựng mơ hình phân lớp Ở em sử dụng tf-idf vectorization kết hợp với loại thêm từ stopword tiếng anh Dữ liệu load từ file text vào pandas.DataFrame tiến hành đánh giá 51 Kết thu bao gồm độ xác confusion matrix Hình 3.6 Kết đánh giá phương pháp 3.3.3 Đánh giá kết thực nghiệm phân lớp Khi xây dựng mơ hình phân lớp, cần phép đánh giá để xem mơ hình sử dụng có hiệu không để so sánh khả mơ hình Có nhiều cách đánh giá mơ hình phân lớp Tuỳ vào tốn khác mà sử dụng phương pháp khác Các phương pháp thường sử dụng là: accuracy score, confusion matrix, ROC curve, Area Under the Curve, Precision and Recall, F1 score, Trong luận văn em xem xét 52 - Accuracy : Độ xác độ xác tổng thể mơ hình tính tổng phân loại xác chia cho tổng số phân loại - Precision: độ xác với điều kiện lớp cụ thể dự đốn tính theo cơng thức Với true positive) – số mẫu mang gán lớp tương ứng fp số mẫu sai bị gán vào lớp - Recall đại lượng đo đo lường khả mơ hình dự đốn để chọn thể lớp định từ tập liệu Với true positive) – số mẫu mang gán lớp tương ứng fp số mẫu sai bị gán lớp sai 3.3.4 Kết thực nghiệm phân lớp Kết thực nghiệm với mô hình 10 cross-validation sau chạy thuật tốn sau - Lần Class Train Test Precision Recall politics 2809 315 0.834 0.794 sport 5846 648 0.904 0.916 startup 3495 405 0.734 0.694 Class Train Test Precision Recall politics 2809 315 0.936 0.957 sport 5846 648 0.881 0.868 startup 3495 405 0.767 0.884 - - Accuracy 0.724 Lần Lần Accuracy 0.854 53 Class Train Test Precision Recall politics 2809 315 0.936 0.951 sport 5846 648 0.803 0.923 startup 3495 405 0.892 0.857 Class Train Test Precision Recall politics 2809 315 0.734 0.758 sport 5846 648 0.884 0.856 startup 3495 405 0.809 0.794 Class Train Test Precision Recall politics 2809 315 0.634 0.734 sport 5846 648 0.754 0.816 startup 3495 405 0.834 0.694 Class Train Test Precision Recall politics 2809 315 0.834 0.734 sport 5846 648 0.814 0.836 startup 3495 405 0.704 0.719 Class Train Test Precision Recall politics 2809 315 0.834 0.734 sport 5846 648 0.904 0.916 startup 3495 405 0.734 0.694 Class Train Test Precision Recall politics 2809 315 0.781 0.734 - - - - - Accuracy 0.759 Lần Accuracy 0.809 Lần Accuracy 0.740 Lần Accuracy 0.784 Lần Accuracy 0.824 Lần Accuracy 54 sport 5846 648 0.693 0.716 startup 3495 405 0.804 0.784 Class Train Test Precision Recall politics 2809 315 0.734 0.714 sport 5846 648 0.804 0.856 startup 3495 405 0.834 0.794 Class Train Test Precision Recall politics 2809 315 0.758 0.764 sport 5846 648 0.804 0.917 startup 3495 405 0.714 0.724 - - 0.759 Lần Accuracy 0.790 Lần 10 Tổng hợp 10 lần kiểm tra K-Fold Accuracy 0.724 0.854 0.759 0.809 0.740 0.784 0.824 0.759 0.790 10 0.737 Trung bình 0.778 Accuracy 0.737 55 Vậy trung bình sau 10-fold Cross Validation thuật toán Multinomial Naive Bayes áp dụng tập liệu có 18012 tweet thu độ xác xấp xỉ 77.8% 3.4 Kết luận chương Trong chương em nêu bước để xử lý tweet để thực việc trích xuất phân loại kiện tập liệu 18.012 tweet thu thập Q trình thực trích xuất kiện trình thể rõ kết trung gian mà tweet xử lý Bên cạnh kết q trình phân loại đạt độ xác xấp xỉ 77,8% chứng tỏ ưu điểm phương pháp Nave Bayes dễ thực thi mà đảm bảo độ xác cao Trong khóa luận này, đánh giá thuật toán phân loại dựa tập liệu huấn luyện kiểm thử thu thập theo chủ đề xác định, điều chưa hồn tồn thể tính xác việc phân loại nội dung tweet với nhiều chủ đề khác Vì thế, việc mở rộng phạm vi miền chủ đề cần mở rộng hướng đến trích xuất phân loại kiện theo miền tri thức mở khơng giới hạn theo chủ đề có sẵn Sau kết thúc khóa luận, em cố gắng tiếp tục phần nghiên cứu để có phương pháp trích xuất phân loại có độ xác cao phù hợp với liệu tweet 56 KẾT LUẬN VÀ KIẾN NGHỊ Trong sống hàng ngày, lượng thông tin khổng lồ đến từ mạng xã hội thực nguồn tri thức quý giá Các hệ thống trích xuất phân loại thơng tin cụ thể kiện từ nội dung tin nhắn giúp làm giảm tải mặt thông tin làm tăng hiệu q trình tiếp nhận thơng tin người giúp đưa định tốt Phân loại trích xuất kiện dựa liệu, cụ thể mơ hình Naive Bayes cách tiếp cận thành công để xây dựng hệ thống phân loại Kỹ thuật trích xuất phân lớp kiện từ Twitter mở hướng nghiên cứu theo dõi kiện từ Twitter, phân tích đánh giá cộng đồng vấn đề trị, ứng dụng phát cảnh báo thảm họa Tuy nhiên, với phát triển số lượng đa dạng liệu, trích xuất kiện phải có khả tận dụng nguồn thơng tin giàu ngữ cảnh Twitter Khác với văn truyền thống, tin nhắn tweet có chứa nhiều đường link thơng tin đa phương tiện đính kèm Đã có nhiều nghiên cứu thực tìm hiểu thơng tin profile người dùng để xác định địa điểm kiện hay đường link đính kèm để trích xuất thêm nhiều thơng tin hữu ích khác Vì trích xuất kiện từ Twitter tiếp tục phát triển theo hướng phân tích liệu đa phương tiện trương lai.Mặc dù, kỹ thuật trích xuất kiện đạt số kết quả, mạng xã hội Twitter nhiều thách thức Thách thức lớn là, việc xây dựng tập liệu huấn luyện cho thuật toán từ nguồn liệu: hồ sơ cá nhân người dùng, tweet người dùng, số lượng người dùng follow… 57 TÀI LIỆU THAM KHẢO [1] Aslam, Salman, 2018 Twitter by the Numbers: Stats, Demographics [2] Laney, D (February 2001), 3D data management: Controlling data volume, velocity, and variety [3] J Allan, R Papka, and V Lavrenko (1998), On-line new event detection and tracking [4] D S Weld, R Hoffmann, and F Wu (2009), Using wikipedia to bootstrap open information extraction [5] J Pustejovsky, P Hanks, R Sauri, A See, R Gaizauskas, A Setzer, D Radev, B Sundheim, D Day, L Ferro, and M Lazo (2003) The TIMEBANK corpus In Proceedings of Corpus Linguistics [6] Sundheim., R Grishman and B (1996), In Proceedings of the International Conference on Computational Linguistics [7] G Doddington, A Mitchell, M Przybocki, L Ramshaw, S Strassel, and R Weischedel (2004), The Automatic Content Extraction (ACE) Program–Tasks, Data, and Evaluation [8] E Gabrilovich, S Dumais, and E Horvitz (2004), Newsjunkie: providing personalized newsfeeds via analysis of information novelty [9] Jurafsky, N Chambers and D (2011), Template-based information extraction without the templates In Proceedings of ACL [10] J Leskovec, L Backstrom, and J Kleinberg (2009), Meme-tracking and the dynamics of the news cycle [11] J Lin, R Snow, and W Morgan (2011), Smoothing techniques for adaptive online language models: Topic tracking in tweet streams [12] F M Zanzotto, M Pennaccchiotti, and K Tsioutsiouliklis (2011), Linguistic redundancy in Twitter 58 [13] K Gimpel, N Schneider, B O’Connor, D Das,D Mills, J Eisenstein, M Heilman, D Yogatama,J Flanigan, and N A Smith (2011) Part-of-speech tagging for twitter: Annotation, features, and experiments [14] X Liu, S Zhang, F Wei, and M Zhou (2011), Recognizing named entities in tweets [15] A Ritter, S Clark, Mausam, and O Etzioni (2011) Named entity recognition in tweets: An experimental study [16] E Benson, A Haghighi, and R Barzilay (2011) Event discovery in social media feeds [17] T Sakaki, M Okazaki, and Y Matsuo (2010) Earthquake shakes twitter users: real-time event detection by social sensors [18] S Petrovic, M Osborne, and V Lavrenko (2010) Streaming first story detection with application to twitter [19] H Becker, M Naaman, and L Gravano (2011) Beyond trending topics: Real-world event identification on twitter [20] A.-M Popescu, M Pennacchiotti, and D A Paranjpe (2011) Extracting events and event descriptions from twitter [21] Pennacchiott, A.-M Popescu and M (2011) Dancing with the stars, nba games, politics: An exploration of twitter users’ response to events [22] Tanev, H., Piskorski, J., Atkinson Real-Time News Event Extraction for Global Crisis Monitoring [23] Nishihara, Y., Sato, K., Sunayama (2009) Event Extraction and Visualization for Obtaining Personal Experiences from Blogs [24] A Ritter, S Clark, Mausam, and O Etzioni (2011) Twitter_NLP (https://github.com/aritter/twitter_nlp) [25] MALLET (http://mallet.cs.umass.edu/) ... CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG NGUYỄN NAM TRUNG XÂY DỰNG HỆ THỐNG TRÍCH XUẤT VÀ PHÂN LOẠI SỰ KIỆN TỪ TWITTER Chuyên ngành: HỆ THỐNG THÔNG TIN Mã số: 8.48.01.04 LUẬN VĂN THẠC SĨ... 14 1.5 Các vấn đề phân loại kiện từ Twitter .15 1.6 Kết luận chương .17 CHƯƠNG - TRÍCH XUẤT VÀ PHÂN LOẠI SỰ KIỆN TRÊN TWITTER 18 2.1 Trích xuất thơng tin kiện từ nội dung tweet... QUAN VỀ TRÍCH XUẤT VÀ PHÂN LOẠI SỰ KIỆN TỪ TWITTER .3 1.1 Giới thiệu mạng xã hội Twitter .3 1.2 Các đặc trưng thông tin Twitter 1.3 Các vấn đề trích xuất kiện từ Twitter

Ngày đăng: 14/03/2019, 23:34