Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 52 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
52
Dung lượng
1,03 MB
File đính kèm
123.rar
(9 MB)
Nội dung
ĐẠI HỌC QUỐC GIA TP HCM TRƯỜNG ĐẠI HỌC BÁCH KHOA TRÀN THỊ MI XÁC ĐỊNH THÔNG TIN NHẠY CẢM TRONG CÁC BÀI VIẾT TRÊN MẠNG XÃ HỘI Chuyên ngành: Khoa Học Máy Tính Mã số: 60.48.01.01 LUẬN VĂN THẠC SĨ TP HỒ CHÍ MINH, tháng 07 năm 2017 ĐẠI HỌC QUỐC GIA TP HCM TRƯỜNG ĐẠI HỌC BÁCH KHOA TRẦN THỊ MI XÁC ĐỊNH THÔNG TIN NHẠY CẢM TRONG CÁC BÀI VIẾT TRÊN MẠNG XÃ HỘI Chuyên ngành: Khoa Học Máy Tính Mã số: 60.48.01.01 LUẬN VĂN THẠC SĨ TP HỒ CHÍ MINH, tháng 07 năm 2017 CƠNG TRÌNH ĐƯỢC HOÀN THÀNH TẠI TRƯỜNG ĐẠI HỌC BÁCH KHOA - ĐHQG - HCM Cán hướng dẫn khoa học : PGS TS Đặng Trần Khánh Cán chấm nhận xét : TS Trương Tuấn Anh Cán chấm nhận xét : PGS TS Trần Minh Triết Luận văn thạc sĩ bảo vệ Trường Đại học Bách Khoa, ĐHQG Tp HCM ngày 18 tháng 07 năm 2017 Thành phần Hội đồng đánh giá luận văn thạc sĩ gồm: TS Trần Minh Quang TS Phan Trọng Nhân TS Trương Tuấn Anh PGS TS Trần Minh Triết TS Lê Nam Sơn Xác nhận Chủ tịch Hội đồng đánh giá LV Trưởng Khoa quản lý chuyên ngành sau luận văn sửa chữa (nếu có) CHỦ TỊCH HỘI ĐỒNG TRƯỞNG KHOA KH&KTMT ĐẠI HỌC QUỐC GIA TP.HCM TRƯỜNG ĐẠI HỌC BÁCH KHOA CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM Độc lập - Tự - Hạnh phúc NHIỆM VỤ LUẬN VĂN THẠC SĨ Họ tền học viền: TRẦN THỊ MI Ngày, tháng, năm sinh: 26/2/1987 Chuyên ngành: Khoa học máy tính MSHV : 13070247 Nơi sinh: Ninh Bình Mã số: 60.48.01.01 I TÊN ĐỀ TÀI: Xác định thông tin nhạy cảm viết mạng xã hội II NHIỆM VỤ VÀ NỘI DUNG: - Nghiên cứu phương pháp phân tích xác định thơng tin nhạy cảm - Đề xuất cải tiến phương pháp có hiệu tốt - Hiện thực thí nghiệm để đánh giá hiệu phương pháp đề xuất III NGÀY GIAO NHIỆM VỤ: 16/01/2017 IV NGÀY HOÀN THÀNH NHIỆM VỤ: 18/06/2017 V CÁN Bộ HUỚNG DẪN: PGS TS Đặng Trần Khánh Tp HCM, ngày tháng năm 20 CÁN BỘ HUỚNG DẪN TRUỞNG KHOA KH & KTMT LUẬN VĂN CAO HỌC LỜI CẢM ƠN Tôi xin gửi lời cảm ơn chân thành sâu sắc đến thầy PGS TS Đặng Trần Khánh tận tình hướng dẫn, giúp tơi định hướng từ cách đặt tốn, phương pháp nghiên cứu khoa học công việc cụ thể để hoàn thành luận văn Xin chân thành cảm ơn tất quý Thầy Cô khoa Khoa Học Máy Tính tận tình giảng dạy truyền đạt kiến thức cho suốt trình học tập Tơi xin cảm ơn gia đình, bạn bè động viên tạo điều kiện tốt để tơi hồn thành luận văn TRẦN THỊ MI LUẬN VĂN CAO HỌC TÓM TẮT LUẬN VĂN Hiện mạng xã hội trực tuyến ngày phát triển nhanh chóng, thu hút nhiều người dùng Đi với lợi ích như: truy cập chia sẻ liệu nhanh chóng, khả tương tác linh hoạt người dùng, phân tích định dựa theo nguồn liệu dồi dào, nhiên việc phát triển nhanh chóng với việc chia sẻ liệu công khai mạng xã hội, cải tiến việc phát triển kỹ thuật khai thác liệu dẫn đến rủi ro vấn đề bảo mật thông tin nhạy cảm cá nhân Do đó, việc phát che dấu thông tin nhạy cảm viết mạng xã hội vấn đề quan trọng việc bảo mật thơng tin Có nhiều phương pháp sử dụng để xác định thơng tin có phải nhạy cảm hay không Tuy nhiên, luận văn sử dụng độ đo thông tin kết hợp với vài phương pháp phân tích ngữ nghĩa để xác định thơng tin có nhạy cảm hay khơng Chúng ta xây dựng công cụ với đầu vào tập danh sách câu đầu danh sách câu với cụm từ nhạy cảm câu Phương pháp đề xuất thực chạy thí nghiệm để đánh giá độ xác Kết thí nghiệm cho thấy phương pháp đề xuất đạt độ xác cao so với phương pháp cũ TRẦN THỊ MI LUẬN VĂN CAO HỌC ABSTRACT Nowadays, the online social networks are developing rapidly, with many users Besides the benefits: accessing and sharing data rapidly, flexible communication among users, analyzing and making decisions based on the rich data, however this rapid development and the public data sharing in social networks, the advance techniques in data mining, leaded to the risks in the sensitive personal information security issue Therefore, detecting and hiding the sensitive information in the messages in social networks is the important problem in the security field There are some methods which are used to detect whether the information is sensitive or not In this research, we use the Information Content combined some natural language analyzing methods to detect the sensitive information We also build a demo with the input as sentence set and the output as the list of sentences includes sensitive noun phrases The proposed method is implemented and run some experiments to evaluate the result The experiments show that the proposed method has the higher accuracy than the old method TRẦN THỊ MI LUẬN VĂN CAO HỌC LỜI CAM ĐOAN Tôi cam đoan rằng, ngoại trừ kết tham khảo từ cơng trình khác ghi rõ luận văn, cơng việc trình bày luận văn tơi thực chưa có phần nội dung luận văn nộp để lấy cấp trường trường khác Ngày 18 tháng 06 năm 2017 Trần Thị Mi TRẦN THỊ MI LUẬN VĂN CAO HỌC MỤC LỤC CHƯƠNG I TỔNG QUAN 1.1 Giới thiệu 1.2 Mục tiêu, giới hạn đối tượng nghiên cứu 1.2.1 Mục tiêu 1.2.2 Giới hạn 1.2.3 Đổi tượng nghiên cứu CHƯƠNG II CÁC CƠNG TRÌNH LIÊN QUAN II Công cụ hỗ trợ xử lý ngôn ngữ tự nhiên 11.1.1 Stanford Natural Language Processing Toolkit 11.1.2 WordNet II 1.3 Google Custom Search API 11.2 Các cơng trình nghiên cứu liên quan 12 CHƯƠNG III PHƯƠNG PHÁP GIẢI QUYẾT BÀI TOÁN 29 III Các vấn đề gặp phải 29 111.2 Cải tiến 29 111.3 Hiện thực 31 CHƯƠNG IV PHÂN TÍCH VÀ ĐÁNH GIÁ KẾT QUẢ 34 IV Thí nghiệm triển khai 34 IV Đánh giá 35 CHƯƠNG V KẾT LUẬN 40 V.1 Tổng kết 40 V.2 Hướng phát triển 40 TRẦN THỊ MI LUẬN VĂN CAO HỌC DANH MỤC CÁC TÀI LIỆU THAM KHẢO 41 DANH MỤC HÌNH Hình 1: Các mạng xã hội phổ biến Hình 2: Ví dụ đánh dấu loại từ Hình 3: Các hướng tiếp cận bảo mật thông tin nhạy cảm 12 Hình 4: Vai trò hệ thống đề xuất 13 Hình 5: Mơ hình PID 15 Hình 6: Hệ thống ẩn giấu phát việc tiết lộ 16 Hình 7: Phương pháp đề xuất 31 Hình 8: DSC 35 Hình 9: Chọn ngưỡng chung 35 Hình 10: cố định ngưỡng địa điểm, chạy ngưỡng thời gian 36 Hình 11: Cố định ngưỡng thời gian, chạy ngưỡng địa điểm 36 Hình 12: Đồ thị so sánh phương pháp 37 TRẦN THỊ MI LUẬN VĂN CAO HỌC Tổng quát hóa thực thể: thực thể tổng quát hóa để đạt mức độ riêng tư giữ nguyên số ngữ nghĩa: - Trao đổi thực thể: thực thể tài liệu khác bên ttong tài liệu hốn đổi tùy thuộc vào trường hợp cụ thể - Bổ sung nhiễu: Thực thể thay thực thể tương tự khác trích xuất từ kho khác CHƯƠNG III PHƯƠNG PHÁP GIẢI QUYẾT BÀI TOÁN 111.1 Các vấn đề gặp phải Theo nghiên cứu [7], tác giả sử dụng độ đo IC để xác định thơng tin có nhạy cảm hay khơng Tuy nhiên tác giả lại không xét đến ngữ nghĩa đoạn văn Ví dụ câu phủ định thường không mang ý nghĩa tiết lộ thông tin số động từ không mang ý nghĩa tiết lộ thông tin I don’t live in Chicago I want to live in Chicago Với chủ đề, tác giả tính độ IC ứng với chủ đề Sau lấy độ IC nhỏ làm ngưỡng chung để so sánh Việc lấy chung ngưỡng dẫn đến tình trạng mát q nhiều thơng tin sau chỉnh sửa, số thông tin thực chất không mang tính tiết lộ ứng với chủ đề đánh dấu tiết lộ 111.2 Cải tiến Phương pháp cải tiến luận văn theo [5] [6] [7], Trong luận văn này, sử dụng độ IC [7] để xác định cụm danh từ có tiết lộ nhiều thơng tin hay khơng Tuy nhiên, ta phân loại cụm danh từ thành loại: cụm danh từ địa điểm, cụm danh từ thời gian, cụm danh từ lại Việc xét riêng cụm danh từ địa điểm thời gian so với chủ đề khác hai loại danh từ nhạy cảm, dễ dàng để lộ thông tin quan trọng, gây tác động mạnh mẽ đến đời sống thực tế Ngưỡng đề xuất luận văn gồm ba ngưỡng: Ngưỡng thời gian Ngưỡng địa điểm TRẦN THỊ MI 27 LUẬN VĂN CAO HỌC Ngưỡng chung cho loại chủ đề lại, ngưỡng nhỏ ngưỡng thời gian địa điểm Chúng ta tiến hành phân loại cụm danh từ Neu thuộc cụm danh từ thời gian: so sánh độ thông tin cụm với ngưỡng thời gian Neu thuộc cụm từ địa điểm: so sánh độ thông tin cụm với ngưỡng địa điểm Đối với loại danh từ lại: so sánh với ngưỡng chung nhỏ ngưỡng thời gian địa điểm Tiến hành loại bỏ cụm danh từ kèm với câu mang tính phủ định [7], Sử dụng thuật tốn rút trích cụm danh từ câu danh sách động từ kèm với cụm danh từ Đối với cụm danh từ vị trí: tiến hành kiểm tra động từ kèm với cụm danh từ này, có tồn động từ khơng tiết lộ thơng tin cụm danh từ xem không tiết lộ thông tin [7] Ngược lại so sánh độ thông tin cụm danh từ với ngưỡng địa điểm tương ứng để xác định từ nhạy cảm Đối với cụm danh từ thời gian: so sánh độ thông tin cụm danh từ với ngưỡng thời gian tương ứng để xác định từ nhạy cảm Đối với cụm danh từ không thời gian địa điểm: so sách độ thông tin cụm danh từ với ngưỡng chung để xác định cụm danh từ có nhạy cảm hay không TRẦN THỊ MI 28 LUẶN VÀN CAO HỌC III.3 Hiện thực bin CâL íụíĩi đinh lỪMâ cicíộnttírđl í*èm Khí.rS Khí^ Pvjnj Hình 7: Phương pháp đề xuất TRẦN THỊ MI 29 LUẬN VĂN CAO HỌC Bước Xác định ngưỡng tương ứng vói ba loại cụm danh từ Tổng số kết trả từ tìm kiếm Google 47.000.000.000 theo ước lượng dựa trang web http://worldwidewebsize.com (truy cập vào tháng 3/2017) - Giả sử, sử dụng từ khóa “Chicago” để tính IC làm ngưỡng cho loại danh từ địa điểm với: IC(Chicago) = -log2(hits(Chicago)/N) = log2(92200000 /47000000000) = 8.988991676 - Sử dụng từ khóa “October” để tính IC làm ngưỡng cho loại danh từ thời gian với: IC(October) = -log2(hits(October)/N) = log2( 196000000 /47000000000) = 7.898321317 - Các loại danh từ lại tính theo ngưỡng nhỏ ngưỡng thời gian địa điểm với: IC(Chung) = IC(October) = 7.898321317 Bước Phân tích cú pháp đoạn vãn rút trích cụm danh từ vói danh sách động từ kèm vói Sử dụng Stanford NLP Library, đưa đoạn văn p vào phân tích Kết trả chuỗi phân tích từ vựng, cú pháp P’ ứng với câu P’, tiến hành: - Rút trích cụm danh từ với động từ kèm với - Xác định cụm danh từ có kèm với từ mang ý nghĩa phủ định hay khơng - Rút trích danh sách vị trí từ cụm danh từ Bước Xác định động từ có tiết lộ thơng tin hay khơng Đe xác định động từ có tiết lộ thơng tin hay khơng, sử dụng WordNet để phân tích từ Kết ttả WordNet xác định động từ thuộc danh sách loại số 15 loại WordNet định nghĩa sẵn (theo thông tin nghiên cứu vào tháng 6/2017) Bước Xác định cụm danh từ có tiết lộ thơng tin hay khơng TRẦN THỊ MI 30 LUẬN VĂN CAO HỌC Với câu, tiến hành phân loại cụm danh từ câu thuộc loại: cụm danh từ địa điểm, cụm danh từ thời gian, cụm danh từ chung Đối với cụm danh từ: - Nếu cụm danh từ có kèm với từ mang ý nghĩa phủ định, cụm danh từ xem không tiết lộ thông tin - Nếu cụm danh từ thuộc loại địa điểm, kiểm động từ kèm với cụm danh từ có tiết lộ thơng tin hay khơng, có tồn động từ không tiết lộ thông tin => cụm danh từ xem không tiết lộ thông tin Ngược lại, tính độ IC cụm danh từ so sánh với ngưỡng địa điểm Neu IC lớn ngưỡng địa điểm => cụm danh từ xem tiết lộ thông tin, ngược lại xem không tiết lộ thông tin - Nếu cụm danh từ thuộc loại thời gian, tính độ IC cụm danh từ so sánh với ngưỡng thời gian Neu IC lớn ngưỡng thời gian => cụm danh từ xem tiết lộ thông tin, ngược lại xem không tiết lộ thông tin - Nếu cụm danh từ không thuộc loại địa điểm thời gian, tính độ IC cụm danh từ so sánh chúng với ngưỡng chung Neu IC lớn ngưỡng chung => cụm danh từ xem tiết lộ thông tin, ngược lại xem không tiết lộ thông tin TRẦN THỊ MI 31 LUẬN VĂN CAO HỌC CHƯƠNG IV PHÂN TÍCH VÃ ĐÁNH GIÁ KẾT QUẢ IV l Thí nghiệm triển khai Thu thập liệu Tập liệu huấn luyện lấy ngẫu nhiên 100 câu hên tài khoản Facebook: https://www.facebook.com/EverythingEverywhere https://www.facebook.com/lvankaTrump/ https://www.facebook.com/DanScavino/ https://www.facebook.com/barackobama/ https://www.facebook.com/KimKardashian/ https://www.facebook.com/Selena/ http s://www.facebook com/jennie allison 96 ?fref= ufi&rc=p https://www.facebook.com/sarah.lynn.58555?fref=ufi http s://www.facebook com/l d kerle ?fref= ufi http s://www.facebook, com/beverlyannmorgan gross ?fref=pb https://www.facebook.com/elaine.jones4?fref=pb&hc_location=friends_tabhttps://ww w.facebook.eom/evan.parke.l ?fref=pb&hc_location=friends_tab https://www.facebook.com/profile.php ?id=100005247817220&fref=pb Tien hành tự đánh giá tay liệu nhạy cảm dựa hên tập liệu Xây dựng mơ hình kiểm chứng Tiến hành xây dựng mơ hình để kiểm chứng kết từ tập liệu tự đánh giá trước - Mơ hình RO: xây dựng dựa theo [7] xác định cụm danh từ có tiết lộ nhiều thông tin hay không dựa độ đo IC, dùng ngưỡng chung tất loại danh từ - Mơ hình RI: thêm phân chia thêm hai loại địa điểm thời gian - Mơ hình R2: phân chia thêm hai loại địa điểm thời gian, với việc đưa ngữ nghĩa câu vào (câu phủ định, động từ không mang hàm ý tiết lộ thông tin cụm danh từ thời gian) Ket ttả từ ba mơ hình file liệu CSV với dòng bao gồm thơng tin: - Nội dung câu - Cụm danh từ tiết lộ thông tin - Danh sách vị trí từ ttong cụm danh từ tiết lộ thông tin TRẦN THỊ MI 32 LUẬN VĂN CAO HỌC IV Đánh giá Sau tiến hành chạy thử ba mơ hình ứng với tập liệu ngưỡng, sử dụng độ đo S0rensen-Dice coefficient (DSC) để tính tốn: DSC = Chọn ngưỡng: Theo tù' Theocắu Hình 9: Chọn ngưỡng chung ■=> Chạy độ thông tin từ đến 20 để tìm ngưỡng chung cho kết tốt tập liệu => chọn 7.9 làm ngưỡng chung TRẦN THỊ MI 33 LUẬN VĂN CAO HỌC Hình 10: cố định ngưỡng địa điểm, chạy ngưỡng thời gian Nếu chọn ngưỡng thời gian 7.9, chạy ngưỡng địa điểm từ đến 20, kết quả: - Theo từ - Theo câu Hình 11: Cố định ngưỡng thời gian, chạy ngưỡng địa điểm ■=> Chọn ngưỡng thời gian 7.9, ngưỡng địa điểm 9.0 cho kết tốt TRẦN THỊ MI 34 LUẬN VÀN CAO HỌC Ket ghi nhận sau: Mơ hình Độ xác Độ xác (Tính theo câu) (Tính theo từ) Mơ hình RO 57% 81.8% Mơ hình RI 61% 82.7% Mơ hình R2 64% 83% Bảng 6: Kết so sánh phương pháp Hình 12: Đồ thị so sánh phương pháp Lượng liệu nhỏ nên kết ghi nhận có sai số chạy lượng liệu lớn Với 100 câu lấy ngẫu nhiên từ mạng xã hội facebook, đánh dấu thủ công việc tiết lộ thơng tin Sau chạy thuật tốn gốc từ [7] (RO), kết thu có độ xác 57% (với 81.8% tổng số từ nhận đúng) Sau thêm cải tiến phân chia thêm loại danh từ danh từ thời gian danh từ địa điểm (Rl), độ xác lên đến 61% (với 82.7% tổng số từ đúng) Sau thêm ngữ nghĩa (phủ định, động từ mang ý nghĩa tiết lộ thông tin cụm danh từ địa điểm, thời gian - R2) độ xác lên đến 64% (với 83% tổng số từ đúng) Một nhược điểm phương pháp tính độ thông tin IC phụ thuộc vào kết ttả từ Google API Tuy nhiên, lượt search Google API giới hạn ngày với số lượng => phải nhiều chi phí muốn sử dụng TRẦN THỊ MI 35 LUẬN VĂN CAO HỌC Bài tốn áp dụng câu đơn giản, câu mang ý nghĩa phức tạp, thuật tốn khơng xác Một số kết đuợc ghi nhận sau chạy mơ hình cải tiến lần hai so với mơ hình ngun nhu sau: Đối vói việc loại bỏ việc phát cụm từ tiết lộ thơng tin đối vói câu phủ định Nếu lấy độ thông tin NewYork ngưỡng câu: I’m not from California Xét mặt ngữ nghĩa, câu thực không tiết lộ thông tin nhạy cảm (do câu phủ định) Tuy nhiên, mô hình ngun (RO) mơ hình cải tiến lần (Rl) nhận thông tin tiết lộ California: I ’m not from California Sau chạy qua hệ thống cải tiến lần (R2), hệ thống xác định mặt ngữ nghĩa câu không tiết lộ thông tin, nên không đánh dấu từ California nhạy cảm I ’m not from California Đối vói việc xác định động từ câu có hàm ý tiết lộ thông tin hay không Đối với câu: I really want to fly out to Los Angeles Khơng mang tính chất tiết lộ thơng tin nhạy cảm, mang tính chất biểu thị trạng thái mong muốn Khi chạy mơ hình ngun (RO) mơ hình cải tiến lần (Rl), cho kết quả, xác định Los Angeles cụm từ nhạy cảm: I really want to fly out to Los Angeles Tuy vậy, sau chạy qua mơ hình cải tiến lần hai (R2), hệ thống xác định câu không chứa cụm từ nhạy cảm nào: I really want to fly out to Los Angeles Đối vói việc phân loại nhóm cụm danh từ câu thành ba loại: loại danh từ địa điểm, loại danh từ thòi gian, loại danh từ chung (các danh từ lại) I’ll go to California at 2PM on Monday Giả sử chọn ngưỡng địa điểm IC(Wyoming) = 11.70274988 (Wyoming có độ thơng tin cao tất bang Mỹ, nhằm mục đích tất bang Mỹ TRẦN THỊ MI 36 LUẬN VĂN CAO HỌC nhìn thấy, khơng bị đánh dấu nhạy cảm) Ngưỡng thời gian IC(October) = 7.898321317 (October có độ thơng tin cao tất tháng năm, nhằm mục đích khơng đánh dấu tháng thông tin nhạy cảm) Nếu chạy độ thông tin, báo nguyên sử dụng IC(October) làm ngưỡng IC nhỏ Câu sau chạy qua hệ thống nguyên (RO), phát California Monday, 2PM tiết lộ thông tin I’ll go to California at 2PM on Monday ■=> Không với mục đích ban đầu người dùng cụm danh từ có độ thơng tin nhỏ độ thông tin lớn bang Mỹ (có nghĩa tất bang lại) Ví dụ sau chạy qua hệ thống cải tiến lần (Rl) lần hai (R2) cho kết sau: I’ll go to California at 2PM on Monday ■=> Đáp ứng mong muốn người dùng TRẦN THỊ MI 37 LUẬN VĂN CAO HỌC CHƯƠNG V KẾT LUẬN v.l Tổng kết Với việc phát triển nhanh chóng mạng xã hội nay, việc bảo mật thông tin vấn đề quan trọng Đã có nhiều cơng trình nghiên cứu giới để xác định thơng tin có nhạy cảm hay khơng Trong đó, IC độ đo dùng để xác định độ thông tin liệu Đề tài nghiên cứu nhằm mục đích xây dựng, cải thiện phương pháp phát độ xác từ nhạy cảm câu Đề tài đề số cải tiến nhằm tăng độ xác việc phát từ nhạy cảm kiểm tra câu có phủ định hay khơng, phân loại nhóm danh từ theo ba chủ đề địa điểm, thời gian chủ đề lại (chọn phân loại riêng hai chủ đề địa điểm thời gian hai chủ đề dễ tiết lộ thông tin nhạy cảm nhất) Phương pháp đề xuất thực chạy thí nghiệm để đánh giá độ xác Kết thí nghiệm cho thấy phương pháp đề xuất đạt độ xác cao so với phương pháp cũ V Hướng phát triển Cải tiến thuật toán nhằm tăng độ xác việc phát từ nhạy cảm câu cao hơn, chia nhỏ loại danh từ, sâu vào toán xác định ngưỡng phù hợp Kết hợp xử lý nhập nhằng ngữ nghĩa nhằm tăng độ xác việc xác định Ngồi ra, hướng tới việc kết hợp độ đo khác để tận dụng ưu điểm giải thuật, từ giúp tăng độ xác kết Xa nữa, mong muốn bổ sung thêm việc che dấu từ nhạy cảm DANH MỤC CÁC TÀI LIỆU THAM KHẢO [1] Aylin Caliskan-Islam, Jonathan Walsh, Rachel Greenstadt, Privacy Detective: Detecting Private Information and Collective Privacy Behavior in a Large Social Network, Workshop on Privacy in the Electronic Society, 2014 [2] Grljevic, Olivera, Zita Bosnjak, and Renata Mekovec, Privacy preservation in social network analysis, CECHS, 2012 [3] Midori Hirose, Akira Utsumi, Isao Echizen, Hhoshi Yoshiura, A Private Information Detector for Controlling Circulation of Private Information through Social Networks, 2012 Seventh International Conference on Availability, Reliability and TRẦN THỊ MI 38 LUẬN VĂN CAO HỌC Security, 2012 [4] Natsuki Watanabe, Hiroshi Yoshiura, Detecting Revelation of Private Information on Online Social Networks, 2010 Sixth International Conference on Intelligent Information Hiding and Multimedia Signal Processing, 2010 [5] Nguyen Son Hoang Quoc, et al, A System for Anonymizing Temporal Phrases of Message Posted in Online Social Networks and for Detecting Disclosure, Availability, Reliability and Security (ARES), 2014 Ninth International Conference on IEEE, 2014 [6] Nguyen Son Hoang Quoc, et al, A Rule-Based Approach for Detecting Location Leaks of Short Text Messages, Business Information Systems Workshops Springer International Publishing, 2015 [7] Viejo, Alexandre, and David Sanchez, Enforcing transparent access to private content in social networks by means of automatic sanitization, Expert Systems with Applications 62, 2016 [8] Han B., Cook p., Baldwin T., Automatically constructing a normalisation dictionary for microblogs, Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning, Association for Computational Linguistics, 2012 [9] Ritter A., Clark s., Etzioni o., Named entity recognition in tweets: an experimental study, Conference on Empirical Methods in Natural Language Processing, Association for Computational Linguistics, 2011 [10] Resnik, Philip, Using information content to evaluate semantic similarity in a taxonomy, arXiv preprint cmp-lg/9511007, 1995 [11] Jiang, Jay J., and David w Conrath, Semantic similarity based on corpus statistics and lexical taxonomy, arXiv preprint cmp-lg/9709008, 1997 [12] Shuyo, N., Language detection library for java, 2010 http://code.google.eom/p/language-detection/ [13] Manning, Christopher D., Mihai Surdeanu, John Bauer, Jenny Finkel, Steven J Bethard, and David McClosky, The Stanford CoreNLP Natural Language Processing Toolkit, Proceedings of the 52nd Annual Meeting of the Association for Computational Linguistics: System Demonstrations, 2014 [14] Nguyen B., Giải pháp an danh cho thông điệp mạng xã hội, Đại học Khoa Học Tự Nhiền, 2012 TRẦN THỊ MI 39 LUẬN VĂN CAO HỌC [15] Sanchez, David, and Montserrat Batet, c-sanitized: A privacy model for document redaction and sanitization, Journal of the Association for Information Science and Technology 67.1, 2016 [16] Batet, Montserrat, An information theoretic approach to improve semantic similarity assessments across multiple ontologies, Information Sciences 283, 2014 [17] Sanchez, David, Montserrat Batet, Alexandre Viejo, Utility-preserving sanitization of semantically correlated terms in textual documents, Information Sciences 279, 2014 [18] Sanchez, David, Montserrat Batet, Alexandre Viejo, Automatic general- purpose sanitization of textual documents, IEEE Transactions on Information Forensics and Security 8.6, 2013 TRẦN THỊ MI 40 LUẬN VĂN CAO HỌC LÝ LICH TRÍCH NGANG • Họ tên: Trần Thị Mi Ngày sinh: 26/2/1987 Nơi sinh: Email: Ninh Bình mitran2602@gmail.com Q TRÌNH ĐÀO TẠO: Thời gian Trường đào tạo Chuyên ngành Trình độ 2006 - 2011 Đại học Khoa học Tự nhiên, Đại học Quốc gia TP HCM Công nghệ thông tin Cử nhân 2013-2017 Đại học Bách Khoa, Đại học Khoa học máy tính Thạc sĩ Quốc gia TP HCM QUÁ TRÌNH CƠNG TÁC: Thời gian Đơn vị cơng tác TRẦN THỊ MI Vị trí cơng tác 41 ... thơng tin nhạy cảm cá nhân Do đó, việc phát che dấu thông tin nhạy cảm viết mạng xã hội vấn đề quan trọng việc bảo mật thông tin [2], Nguồn: Internet Hình 1: Các mạng xã hội phổ biến Việc định. .. more and more robotic Bài toán tập trung vào việc phát thông tin nhạy cảm viết mạng xã hội mà cụ thể viết hang cá nhân người dùng mạng xã hội Do đó, giả định liệu đầu vào (các viết hang cá nhân)... Mã số: 60.48.01.01 I TÊN ĐỀ TÀI: Xác định thông tin nhạy cảm viết mạng xã hội II NHIỆM VỤ VÀ NỘI DUNG: - Nghiên cứu phương pháp phân tích xác định thơng tin nhạy cảm - Đề xuất cải tiến phương pháp