Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 63 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
63
Dung lượng
2,32 MB
Nội dung
i LỜI CAM ĐOAN Tôi xin cam đoan cơng trình nghiên cứu tìm hiểu riêng tơi Các số liệu, kết nêu luận văn trung thực chưa công bố cơng trình khác Tác giả luận văn Nguyễn Nam Trung ii MỤC LỤC LỜI CAM ĐOAN i MỤC LỤC ii DANH MỤC BẢNG iv DANH MỤC HÌNH VẼ v MỞ ĐẦU CHƯƠNG - TỔNG QUAN VỀ TRÍCH XUẤT VÀ PHÂN LOẠI SỰ KIỆN TỪ TWITTER .3 1.1 Giới thiệu mạng xã hội Twitter .3 1.2 Các đặc trưng thông tin Twitter 1.3 Các vấn đề trích xuất kiện từ Twitter .8 1.3.1 Xác định vấn đề 1.3.2 Những khó khăn trích xuất thơng tin từ Twitter 10 1.3.3 Ưu điểm việc trích xuất thơng tin từ Twitter .11 1.4 Những hướng tiếp cận trích xuất kiện từ Twitter .12 1.4.1 Cách tiếp cận miền tri thức cụ thể với miền tri thức mở .12 1.4.2 Phương pháp tiếp cận không giám sát, phương pháp tiếp cận giám sát phương pháp tiếp cận bán giám sát 14 1.5 Các vấn đề phân loại kiện từ Twitter .15 1.6 Kết luận chương .17 CHƯƠNG - TRÍCH XUẤT VÀ PHÂN LOẠI SỰ KIỆN TRÊN TWITTER 18 2.1 Trích xuất thơng tin kiện từ nội dung tweet 18 2.1.1 Kỹ thuật gán nhãn từ loại (POS Tagging) mơ hình trường ngẫu nhiên có điều kiện 18 iii 2.1.2 Kỹ thuật nhận dạng thực thể có tên văn (NER) 25 2.1.3 Trích xuất mối quan hệ .30 2.1.4 Trích xuất thời gian 34 2.2 Phân lớp kiện sử dụng phương pháp Naive Bayes .35 2.2.1 Tiền xử lý 36 2.2.2 Phân loại tweet sử dụng phân phối Naive Bayes 40 2.3 Kết luận chương .42 CHƯƠNG - THỬ NGHIỆM VÀ ĐÁNH GIÁ 43 3.1 Thu thập liệu thử nghiệm 43 3.2 Thực nghiệm trích xuất kiện từ tweet 46 3.3 Thực nghiệm phương pháp phân lớp .48 3.3.1 Tiền xử lý liệu .49 3.3.2 Thực nghiệm phân lớp 50 3.3.3 Đánh giá kết thực nghiệm phân lớp .51 3.3.4 Kết thực nghiệm phân lớp 52 3.4 Kết luận chương .55 KẾT LUẬN VÀ KIẾN NGHỊ 56 TÀI LIỆU THAM KHẢO 57 iv DANH MỤC BẢNG Số hiệu bảng Tên bảng Trang 1.1 Thông tin kiện trích xuất theo thành phần 1.2 Ví dụ tính hỗn tạp nội dung Tweet 10 2.1 Ví dụ loại thực thể có tên riêng 26 2.2 Đánh giá ưu nhược điểm phương pháp trích xuất mối quan hệ 33 2.3 Biểu thức thời gian 35 3.1 Danh sách tài khoản lấy liệu theo chủ đề 44 3.2 Phân bố lớp tập liệu 46 3.3 Phân phối tập huấn luyện đánh giá 49 v DANH MỤC HÌNH VẼ Số hiệu hình vẽ 1.1 1.2 1.3 1.4 1.5 1.6 1.7 1.8 2.1 2.2 2.3 2.4 2.5 2.6 2.7 2.8 2.9 2.10 3.1 3.2 3.3 3.4 3.5 3.6 Tên hình vẽ Quan hệ người dùng hiển thị tweet theo mối quan hệ Tweet có chứa hashtag nội dung Người dùng Twitter mention người Hành động reply ký hiệu mention sử dụng đầu tweet Tweet có nội dung thơng báo mắt sản phẩm Tweet có nội dung mắt film Tổng hợp hướng nghiên cứu trích xuất liệu từ Twitter Mơ hình toán phân loại kiện nội dung tweet Danh sách thành phần câu Danh sách nhãn từ điển Penn TreeBank Sơ đồ cửa sổ trượt lựa chọn đặc trưng CRF Ví dụ Nhận dạng thực thể có tên Ví dụ ký pháp nhãn IOB Mơ hình tổng qt Labeled Latent Dirichlet Allocation Ví dụ biểu thức chủ vị tân Từ điển mối quan hệ Freebase Biểu thức thời gian gắn nhãn IOB Thuật toán phân lớp Multinomial Naive Bayes (huấn luyện kiểm thử) Cấu trúc liệu tweet dạng JSON Tổ chức liệu huấn luyện Tổ chức liệu huấn luyện Xác định thành phần ngữ nghĩa câu Mơ hình phân loại tweet thuật tốn Naive Bayes Kết đánh giá phương pháp Trang 8 12 16 19 19 23 26 28 30 31 32 35 41 43 45 45 47 49 52 MỞ ĐẦU Ngày nay, mạng xã hội ngày phát triển sâu vào sống người Có thể nói, mơ hình trình phát triển giao tiếp mạng, đơn giản hoá phương thức tương tác kết nối người với Mạng xã hội Twitter, Facebook, Sina Weibo trở thành nguồn thông tin thời gian thực chứa lượng lớn nội dung người dùng tự tạo Sự phát triển nhanh chóng tảng đa phương tiện dẫn tới việc liệu ngày tăng đồng thời giữ vai trò quan trọng việc chia sẻ khuếch tán thông tin Hiện giới có hàng trăm mạng mạng xã hội khác nhau, trong mạng xã hội phát triển nhanh thành công có mặt muộn, Twitter Các chủ đề Twitter trải dài nhiều lĩnh vực từ vấn đề cá nhân kiện quan trọng xã hội Những tin nhắn chí có độ lan truyền bao phủ nhanh nhiều so với phương tiện truyền thông truyền thống Việc trích xuất thơng tin hữu ích có thể giúp ích nhiều lĩnh vực xây dựng hệ thống nghiên cứu phân tích thơng tin trước sau kiện hay ứng dụng thực tế xác định thảm họa tự nhiên, dự đoán kiện Mặt khác số lượng tweet chia sẻ ngày cực lớn vấn đề gặp phải tải mặt thông tin Do thông tin kiện cần phân loại theo chủ đề, hướng quan tâm phù hợp với đối tượng khác Chính vậy, việc đưa hệ thống cung cấp thông tin kiện quan trọng đã, diễn từ tweet hữu dụng đặt hướng nghiên cứu khả thi, quan trọng có ý nghĩa thực tiễn Mục tiêu đề tài luận văn em tập trung vào việc xây dựng hệ thống trích trọn kiện quan trọng với số đơng người sử dụng theo mốc thời gian từ mạng xã hội Twitter thể qua số đặc trưng thời gian, địa điểm, người liên quan sử dụng tweet tiếng Anh Nghiên cứu có thể hỗ trợ phóng viên chuyên nghiệp tận dụng mạng xã hội trở thành nguồn thơng tin hữu ích trước vấn đề q tải thông tin Nội dung luận văn bố cục thành chương sau: Chương – TỔNG QUAN VỀ TRÍCH XUẤT VÀ PHÂN LOẠI SỰ KIỆN TỪ TWITTER Giới thiệu chương: Trình bày tổng quan phương pháp trích xuất kiện từ Twitter, ưu điểm khó khăn gặp phải thực Trình bày mơ hình chung tốn phân loại kiện Chương – TRÍCH XUẤT VÀ PHÂN LOẠI SỰ KIỆN TRÊN TWITTER Giới thiệu chương: Trình bày tổng quan vấn đề liên quan đến tiền xử lý liệu, trích xuất kiện phương pháp phân lớp kiện cho tweet sử dụng thuật toán Naive Bayes Chương – THỬ NGHIỆM VÀ ĐÁNH GIÁ Giới thiệu chương: Sử dụng thư viện có sẵn Twitter cung cấp, thực xây dựng liệu từ liệu thực tế có Twitter cho số lượng người dùng, sử dụng kỹ thuật trích xuất phân lớp đề xuất chương để đưa kết thông tin phân lớp kiện nội dung tweet Đánh giá kết so với phương pháp phân lớp khác CHƯƠNG - TỔNG QUAN VỀ TRÍCH XUẤT VÀ PHÂN LOẠI SỰ KIỆN TỪ TWITTER Hiện mạng xã hội thu hút hàng triệu người sử dụng dần trở thành nguồn cung cấp thông tin vấn đề Đặc biệt năm gần Twitter phát triển nhanh để trở thành mạng xã hội phổ biến Mỗi ngày Twitter có khoảng 500 triệu tin nhắn hay gọi tweet người dùng chia sẻ Rõ ràng Twitter trở thành phương tiện giao tiếp quan trọng Với lượng thông tin trao đổi khổng lồ việc xử lý liệu trích xuất thơng tin hữu ích thực cần thiết Luận văn sẽ tập trung vào việc xây dựng hệ thống trích xuất phân loại kiện từ mạng xã hội Twitter giúp giải vấn đề tải mặt thông tin 1.1 Giới thiệu mạng xã hội Twitter Twitter dịch vụ mạng xã hội miễn phí cho phép người dùng sử dụng đọc, nhắn cập nhật mẩu tin nhỏ gọi tweet, dạng micro blog Những mẩu tweet giới hạn tối đa 140 ký tự lan truyền nhanh chóng phạm vi nhóm bạn người nhắn có thể trưng rộng rãi cho người Thành lập từ năm 2006, Twitter trở thành tượng phổ biến tồn cầu, tweet có thể dòng tin cá nhân cập nhật mang tính thời chỗ kịp thời nhanh chóng truyền thơng thơng Theo thống kê 2018, Twitter có khoảng 335 triệu người sử dụng tháng trung bình ngày có 500 triệu tweet đăng , số không ngừng tăng lên, năm số lượng người dùng đăng ký sử dụng dịch vụ tăng lên khoảng 9% [1] Việc giới hạn độ dài tin nhắn 140 ký tự khiến tweet có đặc điểm giống với tin SMS Do tweet trở thành hình thức tốc ký đáng ý cộng đồng mạng sử dụng rộng rãi thông qua việc sử dụng tin SMS từ điện thoại họ Ngày nay, với phát triển điện thoại thông minh (smartphones), việc cho phép ứng dụng chạy điện thoại kết nối internet trở nên dễ dàng, việc cập nhật thông tin thông qua mạng xã hội Twitter trở lên đơn giản Thêm vào đó, Twitter cấp giao diện lập trình ứng dụng (API) cho phép nhiều ứng dụng có thể truy cập dịch vụ mà Twitter cho phép để lấy cập nhật thông tin, giúp lập trình viên dễ dàng kết nối từ ứng dụng đến Twitter Những điều góp phần làm tăng tính phổ biến mạng xã hội Twitter thông tin mà mạng xã hội mang lại ngày đa dạng hữu ích với người sử dụng 1.2 Các đặc trưng thông tin Twitter Người dùng Twitter cập nhật tin nhắn ngắn bị giới hạn 140 ký tự gọi 𝑡𝑤𝑒𝑒𝑡, thuật ngữ để việc đăng tin nhắn gọi 𝑡𝑤𝑒𝑒𝑡𝑖𝑛𝑔 Người dùng Twitter có mối quan hệ trực tiếp với nhau, người dùng 𝐴 theo dõi người dùng B B không theo dõi A, A thấy tất tweet B ngược lại, B không thấy tweet A Mô tả cho mối quan hệ người dùng thể hình A CA B CB Hình 1.1 Quan hệ người dùng hiển thị tweet theo mối quan hệ Thuật ngữ mà Twitter đề xuất cho mối quan hệ người dùng Twitter với gồm có 𝑓𝑜𝑙𝑙𝑜𝑤𝑒𝑟 𝑓𝑜𝑙𝑙𝑜𝑤𝑒𝑒, 𝑓𝑜𝑙𝑙𝑜𝑤𝑒𝑟 người theo dõi người dùng đó, 𝑓𝑜𝑙𝑙𝑜𝑤𝑒𝑒 người người dùng theo dõi Ví dụ hình 1.1, A theo dõi B, A 𝑓𝑜𝑙𝑙𝑜𝑤𝑒𝑟 B, B 𝑓𝑜𝑙𝑙𝑜𝑤𝑒𝑒 A Mỗi người dùng có danh sách hiển thị tweet cập nhật, danh sách gọi Twitter stream theo thứ tự thời gian Các tweet hiển thị danh sách tweet đăng followee Trong ví dụ hình 1.1, A follow B, tất tweet B hiển thị danh sách tweet A, B khơng follow A tweet A không hiển thị danh sách tweet B, B phải lựa chọn ‘follow’ A để có thể thấy tweet danh sách tweet truy cập vào trang cá nhân A để thấy tất tweet mà A đăng Người dùng Twitter ngồi việc có thể chia sẻ tweet dạng tin văn ngắn, Twitter chọ phép họ cung cấp thêm nhiều thông tin hữu ích tin đó, đặc trưng mà Twitter cung cấp giúp người dùng bổ sung thêm thơng tin hữu ích tweet hashtag, mention retweet - Hashtag: từ chuỗi ký tự liên tiếp đặt sau dấu # Đây dạng liệu mô tả (metadata) dùng để nhóm nhiều thơng tin tương tự lại với Ví dụ với tweet có chứa hashtag ‘#vietnam có ý nghĩa tweet mang thơng tin “vietnam” Hình 1.2 Tweet có chứa hashtag nội dung 44 Trong trình thu thập liệu, lưu trữ tiền xử lý liệu, ứng dụng viết ngôn ngữ Python sử dụng thư viện mã nguồn mở tweepy để thực truy vấn liệu Twitter Twitter cấp Streaming API Search API cho phép truy xuất phần tweet đăng Trung bình có khoảng 6000 tweet giây với tài khoản lập trình viên bình thường có thể truy cập số lượng nhỏ khoảng dới 1% Thông qua API cung cấp Twitter, tiến hành thu thập liệu đủ lớn để xây dựng tập huấn luyện, với mục đích thử nghiệm thuật tốn Chúng ta lấy tweet tài khoản cụ thể theo chủ đề xác định trước bao gồm “Chính trị”,”Thể thao”, “Startup” lấy theo hashtag thuộc chủ đề tương ứng trực tiếp từ Twitter API Bảng 3.1: Danh sách tài khoản lấy liệu theo chủ đề Chính trị Thể thao Startup @BarackObama @BCCI @ycombinator @realDonaldTrump @AlexReimer1 @VCRebecca @ReutersPolitics @IPL @khoslaventures #Election2016 @BrianCostaWSJ @AMAnet politics @SportsBizMiss @CEORealTalk @politico @JimTrotter_NFL @matthewtoren @nprpolitics @bhogleharsha #startups @McClatchyDC @FCBarcelona @500Startups @SwingState @LFC @AWSstartups @GOP12 @Arsenal @ericries @ChelseaFC @ManUtd @DeanJonesBR #IPL #Cricket 45 Mỗi tweet lưu vào file txt phân nhóm theo chủ đề tương ứng Hình 3.2: Tổ chức liệu huấn luyện Hình 3.3: Tổ chức liệu huấn luyện 46 Bảng 3.2: Phân bố lớp tập liệu Tên nhóm Số lượng tweet politics 4164 sport 8648 startup 5200 STT 3.2 Thực nghiệm trích xuất kiện từ tweet Ứng dụng sử dụng thư viện twitter_nlp [2] để thực gán nhãn từ loại văn POS nhận dạng thực có tên riêng NER nội dung tweet Để gán nhãn từ loại cho thành phần nội dung tweet thư viện twitter_nlp sử dụng công cụ MALLET để áp dụng mơ hình trường ngẫu nhiên có điều kiện áp dụng từ điển 800 tweet có sẵn kết hợp với 40.000 token trích xuất gán nhãn từ lịch sử chat IRC 50.000 token POS gán nhãn từ từ điển Penn TreeBank Ví dụ đầu vào câu tweet “Mark and John are working at Google in 20/11/2018” Hình 3.4 Xác định thành phần ngữ nghĩa câu 47 IN: "Mark and John are working at Google in 20/11/2018." OUT: Mark/B-ENTITY/NNP and/O/CC John/B-ENTITY/NNP are/O/VBP working/O/VBG at/O/IN Google/B-ENTITY/NNP in/O/IN 20/11/2018/O/CD Tiếp tục chuyển sang cú pháp IOB IN: " Mark and John are working at Google in 20/11/2018." OUT: Mark/B-ENTITY and/O John/B-ENTITY are/O working/O at/O Google/B-ENTITY in/O 20/11/2018/O Thực nhận dạng thực thể có tên IN: " Mark and John are working at Google in 20/11/2018." OUT: Mark/B-person and/O John/B-person are/O working/O at/O Google/B-company in/O 20/11/2018/O Như từ câu tweet “Mark and John are working at Google in 20/11/2018” thu thực thể “Mark” , “John” “Google” Tiếp theo để trích xuất thơng tin thời gian xây dựng tiếp hàm xử lý trích xuất thời gian sử dụng thư viện nltk_contrib Với ví dụ qua xử lý thu IN: " Mark and John are working at Google in 20/11/2018." OUT: Mark and John are working at Google in 20/11/2018 48 Như thơng qua q trình xử lý, từ tweet đầu vào ta trích xuất kiện Entity Mark, John, Event Phase working Date 20/11/2018 Google 3.3 Thực nghiệm phương pháp phân lớp Hình Mơtổng hình18012 phân loại tweet thuật Naive Bayes Từ tập liệu trên3.5 gồm dòng tương ứng với tốn 18012 tweet sử dụng Từ Từ tập liệu gồm tổng 18012 dòng tương ứng với 18012 tweet sử dụng phương pháp k Cross-Validation phương pháp k Cross-Validation với k = 10 Tập liệu chia thành 10 phần phần dùng để làm tập huấn luyện phần để làm tập đánh giá Quá trình thực lặp lặp lại 10 cho tất tập chọn làm tập liệu đánh giá Bảng 3.3: Phân phối tập huấn luyện đánh giá Class Train Test politics 3749 415 49 sport 7783 865 startup 4680 520 3.3.1 Tiền xử lý liệu Từng tweet tiền xử lý để loại bỏ bớt thành phần dư thừa khơng có nhiều ý nghĩa việc phân lớp a Loại bỏ HTML encode IN: "@BrynRenner: GREAT CATCHING UP WITH MY FORMER TEAMMATE AT NORTH CAROLINA & NEW MIAMI DOLPHIN ROBERT QUINN @ PRO DAY TODAY" OUT: @BrynRenner: GREAT CATCHING UP WITH MY FORMER TEAMMATE AT NORTH CAROLINA & NEW MIAMI DOLPHIN ROBERT QUINN @ PRO DAY TODAY b Loại bỏ @mention tag IN: @BrynRenner: GREAT CATCHING UP WITH MY FORMER TEAMMATE AT NORTH CAROLINA & NEW MIAMI DOLPHIN ROBERT QUINN @ PRO DAY TODAY " OUT: : GREAT CATCHING UP WITH MY FORMER TEAMMATE AT NORTH CAROLINA NEW MIAMI DOLPHIN ROBERT QUINN @ PRO DAY TODAY c Loại bỏ URL 50 IN: RT @intifada:Occupation army imposing nine-day closure on West Bank, Gaza for Passover holiday https://t.co/WMBqeipPjV" OUT: RT @intifada:Occupation army imposing nine-day closure on West Bank, Gaza for Passover holiday d Loại bỏ ký tự hashtag : vài trường hợp nội dung hashtag có thể mạng lại thơng tin hữu ích nên luận văn xử lý bỏ dấu # IN: RT @intifada:The game they are creating will leave #cryptokitties in the dust" OUT: RT intifada The game they are creating will leave cryptokitties in the dust 3.3.2 Thực nghiệm phân lớp Sau tiền xử lý, tweet làm tiến hành xây dựng mô hình phân lớp Ở em sử dụng tf-idf vectorization kết hợp với loại thêm từ stopword tiếng anh Dữ liệu load từ file text vào pandas.DataFrame tiến hành đánh giá 51 Kết thu bao gồm độ xác confusion matrix Hình 3.6 Kết đánh giá phương pháp 3.3.3 Đánh giá kết thực nghiệm phân lớp Khi xây dựng mơ hình phân lớp, cần phép đánh giá để xem mơ hình sử dụng có hiệu không để so sánh khả mô hình Có nhiều cách đánh giá mơ hình phân lớp Tuỳ vào toán khác mà sử dụng phương pháp khác Các phương pháp thường sử dụng là: accuracy score, confusion matrix, ROC curve, Area Under the Curve, Precision and Recall, F1 score, Trong luận văn em xem xét 52 - Accuracy : Độ xác độ xác tổng thể mơ hình tính tổng phân loại xác chia cho tổng số phân loại - Precision: độ xác với điều kiện lớp cụ thể dự đoán tính theo cơng thức Với true positive) – số mẫu mang gán lớp tương ứng fp số mẫu sai bị gán vào lớp - Recall đại lượng đo đo lường khả mơ hình dự đốn để chọn thể lớp định từ tập liệu Với true positive) – số mẫu mang gán lớp tương ứng fp số mẫu sai bị gán lớp sai 3.3.4 Kết thực nghiệm phân lớp Kết thực nghiệm với mơ hình 10 cross-validation sau chạy thuật toán sau - Lần Class Train Test Precision Recall politics 2809 315 0.834 0.794 sport 5846 648 0.904 0.916 startup 3495 405 0.734 0.694 Class Train Test Precision Recall politics 2809 315 0.936 0.957 sport 5846 648 0.881 0.868 startup 3495 405 0.767 0.884 - - Accuracy 0.724 Lần Lần Accuracy 0.854 53 Class Train Test Precision Recall politics 2809 315 0.936 0.951 sport 5846 648 0.803 0.923 startup 3495 405 0.892 0.857 Class Train Test Precision Recall politics 2809 315 0.734 0.758 sport 5846 648 0.884 0.856 startup 3495 405 0.809 0.794 Class Train Test Precision Recall politics 2809 315 0.634 0.734 sport 5846 648 0.754 0.816 startup 3495 405 0.834 0.694 Class Train Test Precision Recall politics 2809 315 0.834 0.734 sport 5846 648 0.814 0.836 startup 3495 405 0.704 0.719 Class Train Test Precision Recall politics 2809 315 0.834 0.734 sport 5846 648 0.904 0.916 startup 3495 405 0.734 0.694 Class Train Test Precision Recall politics 2809 315 0.781 0.734 - - - - - Accuracy 0.759 Lần Accuracy 0.809 Lần Accuracy 0.740 Lần Accuracy 0.784 Lần Accuracy 0.824 Lần Accuracy 54 sport 5846 648 0.693 0.716 startup 3495 405 0.804 0.784 Class Train Test Precision Recall politics 2809 315 0.734 0.714 sport 5846 648 0.804 0.856 startup 3495 405 0.834 0.794 Class Train Test Precision Recall politics 2809 315 0.758 0.764 sport 5846 648 0.804 0.917 startup 3495 405 0.714 0.724 - - 0.759 Lần Accuracy 0.790 Lần 10 Tổng hợp 10 lần kiểm tra K-Fold Accuracy 0.724 0.854 0.759 0.809 0.740 0.784 0.824 0.759 0.790 10 0.737 Trung bình 0.778 Accuracy 0.737 55 Vậy trung bình sau 10-fold Cross Validation thuật toán Multinomial Naive Bayes áp dụng tập liệu có 18012 tweet thu độ xác xấp xỉ 77.8% 3.4 Kết luận chương Trong chương em nêu bước để xử lý tweet để thực việc trích xuất phân loại kiện tập liệu 18.012 tweet thu thập Q trình thực trích xuất kiện trình thể rõ kết trung gian mà tweet xử lý Bên cạnh kết q trình phân loại đạt độ xác xấp xỉ 77,8% chứng tỏ ưu điểm phương pháp Nave Bayes dễ thực thi mà đảm bảo độ xác cao Trong khóa luận này, đánh giá thuật toán phân loại dựa tập liệu huấn luyện kiểm thử thu thập theo chủ đề xác định, điều chưa hồn tồn thể tính xác việc phân loại nội dung tweet với nhiều chủ đề khác Vì thế, việc mở rộng phạm vi miền chủ đề cần mở rộng hướng đến trích xuất phân loại kiện theo miền tri thức mở không giới hạn theo chủ đề có sẵn Sau kết thúc khóa luận, em cố gắng tiếp tục phần nghiên cứu để có phương pháp trích xuất phân loại có độ xác cao phù hợp với liệu tweet 56 KẾT LUẬN VÀ KIẾN NGHỊ Trong sống hàng ngày, lượng thông tin khổng lồ đến từ mạng xã hội thực nguồn tri thức quý giá Các hệ thống trích xuất phân loại thông tin cụ thể kiện từ nội dung tin nhắn giúp làm giảm tải mặt thông tin làm tăng hiệu q trình tiếp nhận thơng tin người giúp đưa định tốt Phân loại trích xuất kiện dựa liệu, cụ thể mơ hình Naive Bayes cách tiếp cận thành công để xây dựng hệ thống phân loại Kỹ thuật trích xuất phân lớp kiện từ Twitter mở hướng nghiên cứu theo dõi kiện từ Twitter, phân tích đánh giá cộng đồng vấn đề trị, ứng dụng phát cảnh báo thảm họa Tuy nhiên, với phát triển số lượng đa dạng liệu, trích xuất kiện phải có khả tận dụng nguồn thông tin giàu ngữ cảnh Twitter Khác với văn truyền thống, tin nhắn tweet có chứa nhiều đường link thơng tin đa phương tiện đính kèm Đã có nhiều nghiên cứu thực tìm hiểu thơng tin profile người dùng để xác định địa điểm kiện hay đường link đính kèm để trích xuất thêm nhiều thơng tin hữu ích khác Vì trích xuất kiện từ Twitter tiếp tục phát triển theo hướng phân tích liệu đa phương tiện trương lai.Mặc dù, kỹ thuật trích xuất kiện đạt số kết quả, mạng xã hội Twitter nhiều thách thức Thách thức lớn là, việc xây dựng tập liệu huấn luyện cho thuật toán từ nguồn liệu: hồ sơ cá nhân người dùng, tweet người dùng, số lượng người dùng follow… 57 TÀI LIỆU THAM KHẢO [1] Aslam, Salman, 2018 Twitter by the Numbers: Stats, Demographics [2] Laney, D (February 2001), 3D data management: Controlling data volume, velocity, and variety [3] J Allan, R Papka, and V Lavrenko (1998), On-line new event detection and tracking [4] D S Weld, R Hoffmann, and F Wu (2009), Using wikipedia to bootstrap open information extraction [5] J Pustejovsky, P Hanks, R Sauri, A See, R Gaizauskas, A Setzer, D Radev, B Sundheim, D Day, L Ferro, and M Lazo (2003) The TIMEBANK corpus In Proceedings of Corpus Linguistics [6] Sundheim., R Grishman and B (1996), In Proceedings of the International Conference on Computational Linguistics [7] G Doddington, A Mitchell, M Przybocki, L Ramshaw, S Strassel, and R Weischedel (2004), The Automatic Content Extraction (ACE) Program–Tasks, Data, and Evaluation [8] E Gabrilovich, S Dumais, and E Horvitz (2004), Newsjunkie: providing personalized newsfeeds via analysis of information novelty [9] Jurafsky, N Chambers and D (2011), Template-based information extraction without the templates In Proceedings of ACL [10] J Leskovec, L Backstrom, and J Kleinberg (2009), Meme-tracking and the dynamics of the news cycle [11] J Lin, R Snow, and W Morgan (2011), Smoothing techniques for adaptive online language models: Topic tracking in tweet streams [12] F M Zanzotto, M Pennaccchiotti, and K Tsioutsiouliklis (2011), Linguistic redundancy in Twitter 58 [13] K Gimpel, N Schneider, B O’Connor, D Das,D Mills, J Eisenstein, M Heilman, D Yogatama,J Flanigan, and N A Smith (2011) Part-of-speech tagging for twitter: Annotation, features, and experiments [14] X Liu, S Zhang, F Wei, and M Zhou (2011), Recognizing named entities in tweets [15] A Ritter, S Clark, Mausam, and O Etzioni (2011) Named entity recognition in tweets: An experimental study [16] E Benson, A Haghighi, and R Barzilay (2011) Event discovery in social media feeds [17] T Sakaki, M Okazaki, and Y Matsuo (2010) Earthquake shakes twitter users: real-time event detection by social sensors [18] S Petrovic, M Osborne, and V Lavrenko (2010) Streaming first story detection with application to twitter [19] H Becker, M Naaman, and L Gravano (2011) Beyond trending topics: Real-world event identification on twitter [20] A.-M Popescu, M Pennacchiotti, and D A Paranjpe (2011) Extracting events and event descriptions from twitter [21] Pennacchiott, A.-M Popescu and M (2011) Dancing with the stars, nba games, politics: An exploration of twitter users’ response to events [22] Tanev, H., Piskorski, J., Atkinson Real-Time News Event Extraction for Global Crisis Monitoring [23] Nishihara, Y., Sato, K., Sunayama (2009) Event Extraction and Visualization for Obtaining Personal Experiences from Blogs [24] A Ritter, S Clark, Mausam, and O Etzioni (2011) Twitter_NLP (https://github.com/aritter/twitter_nlp) [25] MALLET (http://mallet.cs.umass.edu/) ... VỀ TRÍCH XUẤT VÀ PHÂN LOẠI SỰ KIỆN TỪ TWITTER .3 1.1 Giới thiệu mạng xã hội Twitter .3 1.2 Các đặc trưng thông tin Twitter 1.3 Các vấn đề trích xuất kiện từ Twitter. .. 14 1.5 Các vấn đề phân loại kiện từ Twitter .15 1.6 Kết luận chương .17 CHƯƠNG - TRÍCH XUẤT VÀ PHÂN LOẠI SỰ KIỆN TRÊN TWITTER 18 2.1 Trích xuất thơng tin kiện từ nội dung tweet... VỀ TRÍCH XUẤT VÀ PHÂN LOẠI SỰ KIỆN TỪ TWITTER Giới thiệu chương: Trình bày tổng quan phương pháp trích xuất kiện từ Twitter, ưu điểm khó khăn gặp phải thực Trình bày mơ hình chung toán phân loại