Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 68 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
68
Dung lượng
2,68 MB
Nội dung
i LỜI CAM ĐOAN Tôi xin cam đoan đây là kết quả công trình nghiên cứu của bản thân, không sao chép của người khác. Các số liệu, kết quả trình bày trong luận văn này là trung thực. Tất cả những tài liệu tham khảo đều có xuất xứ rõ ràng và được trích dẫn hợp pháp. Tôi xin chịu hoàn toàn trách nhiệm cho lời cam đoan của mình. Học viên Đỗ Quốc Bảo ii LỜI CẢM ƠN Em xin bày tỏ lòng thành kính và biết ơn sâu sắc đến thầy tiến sĩ Phạm Trần Vũ đã nhiệt tình hướng dẫn, chỉ bảo em trong suốt quá trình thực hiện luận văn này. Em xin chân thành cảm ơn Quý thầy cô Khoa Công nghệ thông tin trường Đại học Lạc Hồng đã tạo điều kiện thuận lợi cho em trong suốt thời gian học tập và nghiên cứu tại trường. Xin cảm ơn các anh chị em, bạn bè, đồng nghiệp đã giúp đỡ và động viên rất nhiều trong quá trình em thực hiện luận văn này. Xin cảm ơn cha mẹ, anh chị em và những người thân đã và luôn là chỗ dựa tinh thần, là nguồn động lực to lớn để em vượt qua những khó khăn trong quá trình thực hiện luận văn này. Xin chân thành cảm ơn! Đồng Nai, ngày 15 tháng 5 năm 2013 Học viên Đỗ Quốc Bảo iii MỤC LỤC LỜI CAM ĐOAN i LỜI CẢM ƠN ii MỤC LỤC iii DANH MỤC HÌNH v DANH MỤC BẢNG vi DANH MỤC CÁC TỪ VIẾT TẮT vii MỞ ĐẦU 1 CHƯƠNG 1: TỔNG QUAN VỀ HỒ SƠ CÁ NHÂN VÀ SO SÁNH ĐỘ TƯƠNG ĐỒNG 5 1.1 Tổng quan về hồ sơ cá nhân, độ tương đồng 5 1.1.1 Giới thiệu về hồ sơ cá nhân 5 1.1.2 Giới thiệu về bài toán so sánh độ tương đồng 6 1.1.3 Tổng quan về tình hình nghiên cứu 7 1.2 Quy trình so khớp profile 10 CHƯƠNG 2: MỘT SỐ KỸ THUẬT LIÊN QUAN TRONG XỬ LÝ SO SÁNH ĐỘ TƯƠNG ĐỒNG 13 2.1 Cấu trúc hồ sơ cá nhân 13 2.1.1 Cấu trúc hồ sơ cá nhân cho hệ thống tư vấn của Montainer 13 2.1.2 Cấu trúc hồ sơ cá nhân cho hệ thống đào tạo trực tuyến của Brusilouvsky 14 2.1.3 Cấu trúc hồ sơ cá nhân cho hệ thống đào tạo trực tuyến của Lê Đức Long và cộng sự 16 2.1.4 Kết luận 17 2.2 Xử lý thông tin profile 18 2.2.1 Đặc điểm của từ trong tiếng Việt 18 2.2.2 Tách từ trong tiếng Việt 19 2.2.2.1 Phương pháp Maximum Matching: Forward / Backward 19 2.2.2.2 Phương pháp Transformation – based Learning (TBL) 20 2.2.2.3 Mô hình tách từ bằng WFST và mạng Neural 20 2.2.2.4 Phương pháp tách từ tiếng Việt dựa trên thống kê từ Internet và thuật giải di truyền 22 2.2.2.5 Loại bỏ từ dừng 22 2.2.3 Đặc trưng văn bản tiếng Việt 22 iv 2.3 Biểu diễn văn bản tiếng Việt 24 2.3.1 Mô hình logic 24 2.3.2 Mô hình phân tích cú pháp 26 2.3.3 Mô hình không gian vector 27 2.3.3.1 Mô hình boolean 28 2.3.3.2 Mô hình tần suất 29 2.4 Độ tương đồng 31 2.4.1 Khái niệm độ tương đồng 31 2.4.2 Độ tương đồng 32 2.4.3 Các phương pháp tính độ tương đồng 32 2.4.3.1 Phương pháp tính độ tương đồng sử dụng độ đo Cosine 33 2.4.3.2 Phương pháp tính độ tương đồng dựa vào độ đo khoảng cách Euclide 34 2.4.3.3 Phương pháp tính độ tương đồng dựa vào độ đo khoảng cách Mahattan 34 CHƯƠNG 3: QUY TRÌNH THỰC HIỆN VÀ THỬ NGHIỆM 36 3.1 Quy trình thực hiện 36 3.1.1 Thu thập dữ liệu profile 36 3.1.2 Cấu trúc profile theo đề xuất của tác giả 37 3.1.3 Xử lý dữ liệu profile 39 3.1.3.1 Tách từ tiếng Việt 39 3.1.3.2 Loại bỏ dấu câu, từ dừng 41 3.1.4 Xây dựng tập dữ liệu đặc trưng 42 3.1.4.1 Giới thiệu mô hình phân tích chủ đề ẩn 42 3.1.4.2 Mô hình Latent Dirichlet Allocation 43 3.1.5 So sánh mức độ tương đồng giữa hai profile 45 3.2 Kết quả thực nghiệm 48 3.2.1 Môi trường thực nghiệm 48 3.2.2 Module và công cụ 48 3.2.3 Dữ liệu thực nghiệm 50 3.2.4 Xác định đặc trưng cho từng thuộc tính so sánh 50 3.2.5 Thực nghiệm so sánh profile 53 KẾT LUẬN 57 TÀI LIỆU THAM KHẢO v DANH MỤC HÌNH Hình 1.1: Quy trình so khớp profile 11 Hình 2.1: Cấu trúc tổng quát của Profile do Lê Đức Long đề xuất 16 Hình 2.2: Biểu diễn vector văn bản trong không gian 2 chiều 27 Hình 3.1: Tổng quan giao diện thu thập dữ liệu từ Facebook 36 Hình 3.2: Thực hiện lấy dữ liệu cho profile 37 Hình 3.3: Cấu trúc profile tác giả đề xuất 38 Hình 3.4: Quy trình tách từ 40 Hình 3.5: Tài liệu với K chủ đề ẩn 43 Hình 3.6: Ước lượng tham số cho tập dữ liệu 44 Hình 3.7: Suy luận chủ đề cho các profile mạng xã hội facebook 45 Hình 3.8: Chi tiết so sánh hai profile 47 Hình 3.9: Giao diện module thực hiện lấy dữ liệu profile 48 Hình 3.10: Cấu trúc module hệ thống 49 Hình 3.11: Suy luận theo Employee 50 Hình 3.12: Suy luận theo StatusComments 51 Hình 3.13: Hệ thống xác định chủ đề đặc trưng thuộc tính 51 Hình 3.14: Hệ thống xác định tỉ lệ phần trăm của topic đặc trưng 52 Hình 3.15: Một phần đặc trưng của các topic chủ đề 52 Hình 3.16: Hình ảnh so sánh profile chi tiết 56 vi DANH MỤC BẢNG Bảng 1: Biểu diễn văn bản trong mô hình Logic 25 Bảng 2: Biểu diễn văn bản bằng mô hình Vector 28 Bảng 3: Biểu diễn văn bản với mô hình Boolean 29 Bảng 4: Môi trường thực nghiệm 48 Bảng 5: Bảng khảo sát thu thập profile 53 Bảng 6: Một số kết quả thực nghiệm 55 vii DANH MỤC CÁC TỪ VIẾT TẮT Từ viết tắt Từ đầy đủ AHS Adaptive Hypermedia System AEHS Adaptive Educational Hypermedia System AeLS Adaptive e – Learning System IDF Inverse Document Frequency LDA Latent Drichlet Allocation MM Maximum Matching pLSA Probabilistic Latent Semantic Analysis SVM Support Vector Machine TBL Transformation - based Learning TF Term Frequency WFST Weighted Finit State Transducer 1 MỞ ĐẦU Chúng ta hiện đang ngập lụt trong kho dữ liệu khổng lồ của nhân loại, sự thành công và phát triển của các mạng xã hội như Facebook, Youtube, Linkedin trên nền web 2.0 đã thu hút một cộng đồng online đông đảo, cộng đồng này đã tạo ra một số lượng lớn tài liệu số trên web. Họ có thể chia sẻ và cộng tác trong những lĩnh vực mà họ thấy thích thú. Và tìm kiếm những người có cùng sở thích, cùng sự quan tâm đến một vấn đề nào đó trong các cộng đồng mạng trực tuyến là điều không dễ dàng, đặc biệt là trong cộng đồng đa ngành nghề và cách trở về mặt địa lý, sự hợp tác liên ngành đóng một phần không thể thiếu. Do đó, việc tìm ra những người có cùng mối quan tâm để cùng chia sẻ, cộng tác trong giải quyết một công việc lớn, một bài toán lớn là cần thiết. Ở phương diện khác, nhu cầu giao lưu, giải trí, kết bạn của con người từ khắp các vùng miền là khá lớn và thiết thực trong đời sống xã hội hiện tại. Bởi lẽ đó, việc tìm kiếm những người có cùng sở thích, cùng sự đam mê để cùng nhau thỏa mãn hơn nữa đời sống tinh thần trong cuộc sống đầy bộn bề là hết sức có ý nghĩa. Hiện nay các hệ thống thích nghi cá nhân (Personalized System) đang phát triển rất mạnh và được ứng dụng trong nhiều lĩnh vực như: tìm kiếm thông tin (Information Retrieval ), thương mại điện tử (e - Commerce), hệ thống tư vấn (Recommender System) và gần đây là hệ thống đào tạo trực tuyến (e - Learning). Chẳng hạn, hệ thống bán hàng trực tuyến sẽ tư vấn cho các khách hàng khác nhau chọn mua những sản phẩm khác nhau phù hợp với sở thích từng người. Hệ thống tư vấn thông tin sẽ tư vấn cho các người dùng khác nhau những tài liệu khác nhau phù hợp với chủ đề mà từng người quan tâm. Hệ thống đào tạo trực tuyến sẽ tư vấn cho các người học khác nhau phương pháp học phù hợp với trình độ và khả năng tiếp thu của từng người. Trong các hệ thống thích nghi này, mỗi người dùng sở hữu một hồ sơ cá nhân hay còn gọi là profile hay đặc trưng người dùng và tùy theo lĩnh vực ứng dụng, đặc trưng người dùng sẽ bao gồm 2 những thông tin khác nhau mô tả về người dùng như: họ tên, tuổi, nghề nghiệp, sở thích, nhu cầu, mục tiêu, trình độ hay nền tảng kiến thức, v.v. Đặc trưng người dùng chính là cơ sở để hệ thống cung cấp những thông tin, dịch vụ, tài nguyên phù hợp với từng người dùng. Điều này đem đến sự tiện nghi, thoải mái cho người dùng trong quá trình khai thác hệ thống. Người dùng có cảm giác là hệ thống rất thông minh, hiểu được mình và đáp ứng đúng nhu cầu riêng của mình. Trong lĩnh vực đào tạo từ xa hay đào tạo trực tuyến (e - learning), các hệ thống thích nghi siêu truyền thông (Adaptive Hypermedia System – AHS) hay hệ thống đào tạo thích nghi siêu truyền thông (Adaptive Educational Hypermedia System - AEHS) cũng khai thác profile người dùng để vận dụng sự thích nghi phù hợp với kiến thức cũng như mục tiêu đào tạo. Do đó, việc xây dựng mô hình profile là rất quan trọng, dựa trên profile các hệ thống tính toán, so sánh để cung cấp thông tin, dịch vụ phù hợp nhất cho người sử dụng. Hồ sơ cá nhân là một tập hợp các thông tin được thể hiện dưới dạng văn bản, hình ảnh, trong đó văn bản là chủ yếu, mô hình biểu diễn văn bản phổ biến hiện nay là mô hình không gian vector, trong đó mỗi văn bản được biểu diễn bằng một vector của các từ khóa. Một số khó khăn khi biểu diễn văn bản như tính nhiều chiều của văn bản, tính nhặp nhằng của ngôn ngữ, đồng thời bài toán xử lý văn bản còn gặp phải một số khó khăn là để xây dựng được bộ dữ liệu đặc trưng chuẩn, có độ tin cậy cao thì đòi hỏi phải có một lượng các mẫu dữ liệu huấn luyện đủ tốt. Các dữ liệu huấn luyện này thường rất hiếm và đắt vì đòi hỏi thời gian và công sức của con người. Do vậy, cần phải có hệ thống xử lý văn bản hiệu quả và một phương pháp học có khả năng tận dụng được các nguồn dữ liệu rất phong phú như hiện nay. Đề tài “Giải pháp biểu diễn và so sánh mức độ tương đồng giữa các hồ sơ cá nhân trên mạng xã” là một việc làm không những có ý nghĩa khoa học mà còn mang tính thực tiễn. Luận văn này sẽ tập trung giải quyết hai vấn đề chính sau: 3 Xây dựng mô hình profile của người sử dụng từ các thông tin trên mạng xã hội của họ. Xây dựng giải pháp đánh giá mức độ tương đồng giữa các profile. Luận văn áp dụng kết hợp kỷ thuật phân tích chủ đề ẩn Latent Dirichlet Allocation và Cosin truyền thống để xác định sự tương đồng của các profile. Latent Dirichlet Allocation được xem là phương pháp tập trung vào việc bổ sung các thành phần ngữ nghĩa hỗ trợ cho độ đo tương đồng Cosine tốt nhất hiện nay. Thực nghiệm cho thấy độ chính xác rất khả quan trong so khớp. Mục tiêu của luận văn Xây dựng giải pháp biểu diễn profile người sử dụng từ các thông tin trên mạng xã hội. Xây dựng giải pháp đánh giá mức độ tương đồng giữa các profile. Đối tượng nghiên cứu Trong luận văn này, chỉ giới hạn các thông tin profile bằng tiếng Việt, và đối tượng người sử dụng là người Việt, mạng xã hội là facebook. Phạm vi nghiên cứu Luận văn giới hạn phạm vi nghiên cứu trong cộng đồng người sử dụng tiếng Việt, mạng xã hội facebook. Một số thông tin của hồ sơ cá nhân được xử lý trong luận văn như: thông tin về lịch sử cá nhân, ngày tháng năm sinh, nghề nghiệp, nền giáo dục, tình trạng hôn nhân, mối quan tâm, những hoạt động trên mạng xã hội, thông tin về quê quán, nơi sống hiện tại, về quan điểm tôn giáo, về giới tính, về quan điểm sống. Những vấn đề cần giải quyết trong phạm vi luận văn Nghiên cứu các phương pháp rút trích hồ sơ cá nhân. Nghiên cứu các phương pháp biểu diễn hồ sơ cá nhân. Nghiên cứu phương pháp phân tích về mặt ngữ nghĩa của hồ sơ cá nhân. [...]... trúc của một hồ sơ cá nhân, rút trích thông tin hồ sơ cá nhân, biểu diễn hồ sơ cá nhân, xử lý tiếng Việt, các phương pháp tính toán độ tương đồng Chương 3: Trình bày các bước thực hiện: thu thập thông tin hồ sơ cá nhân, xử lý thông tin hồ sơ, biểu diễn hồ sơ cá nhân trên máy tính theo cấu trúc tác giả đề xuất, quy trình chi tiết tính toán mức độ tương đồng giữa các hồ sơ cá nhân và báo cáo kết quả thực... ra cấu trúc hồ sơ cá nhân mới phù hợp với những hệ thống cụ thể Luận văn nhằm hướng đến việc xây dựng giải pháp biểu diễn hồ sơ cá nhân người sử dụng từ các thông tin trên mạng xã hội để hỗ trợ so sánh mức độ tương đồng giữa các hồ sơ cá nhân Dựa trên đặc trưng hồ sơ cá nhân tổng quát, tác giả sẽ tập trung nghiên cứu đề xuất những tiêu chí để đánh giá mức độ tương đồng giữa các hồ sơ cá nhân Chi tiết... Kết luận: Những gì đã làm được trong việc xây dựng giải pháp biểu diễn hồ sơ cá nhân và so sánh mức độ tương đồng giữa các hồ sơ cá nhân, chỉ ra những điểm cần hoàn thiện hơn cũng như hướng phát triển cho đề tài 5 CHƯƠNG 1: TỔNG QUAN VỀ HỒ SƠ CÁ NHÂN VÀ SO SÁNH ĐỘ TƯƠNG ĐỒNG 1.1 Tổng quan về hồ sơ cá nhân, độ tương đồng 1.1.1 Giới thiệu về hồ sơ cá nhân Hồ sơ cá nhân là một tập hợp gồm những thông tin. .. Nghiên cứu các thuật toán để so khớp các hồ sơ cá nhân: thuật toán LSA, Cosine Đánh giá và chọn một thuật toán so khớp tối ưu để áp dụng so khớp hồ sơ cá nhân Kết hợp thuật toán được chọn với kỹ thuật so khớp ngữ nghĩa, tính toán sự tương đồng của các hồ sơ cá nhân, khắc phục các trường hợp liên quan đến ngữ nghĩa trong so khớp Đánh giá kết quả sau khi so khớp Thử nghiệm trên các hồ sơ khác nhau... có các thông tin liên quan đến màu sắc, hội họa, kiến trúc Do vậy, xây dựng cấu trúc hồ sơ cá nhân là một trong số những khía cạnh quan trọng quyết định đến sự thành công của các hệ thống thích nghi 1.1.2 Giới thiệu về bài toán so sánh độ tương đồng So sánh độ tương đồng là một vấn đề nghiên cứu phổ biến được biết đến như tìm kiếm chuyên gia hoặc so khớp hồ sơ cá nhân, trong rút trích thông tin và. .. một phương pháp tính độ đo tương đồng Các phần xử lý của từng quá trình sẽ được trình bày chi tiết trong các chương tiếp theo 13 CHƯƠNG 2: MỘT SỐ KỸ THUẬT LIÊN QUAN TRONG XỬ LÝ SO SÁNH ĐỘ TƯƠNG ĐỒNG 2.1 Cấu trúc hồ sơ cá nhân Như đã trình bày ở chương 1, hồ sơ cá nhân là phần cơ bản và không thế thiếu trong các hệ thống cung cấp thông tin, dịch vụ cho người sử dụng như hệ thống thích nghi cá nhân, nó... hiện các phân tích và tính độ tương đồng giữa hai câu dựa trên độ tương tự về mặt ngữ nghĩa sử dụng Hidden Topic và tương tự về thứ tự của từ trong câu Bài báo “Dynamic Profile Representation and Matching in Distributed Science Networks” [25] tạm dịch Biểu diễn và so sánh động hồ sơ cá nhân trong các mạng khoa học” của tác giả Phạm Trần Vũ, Trường Đại học Bách Khoa, Đại học Quốc gia TP.HCM, đăng trên. .. 2.2 Xử lý thông tin profile Thông tin profile có thể ở dạng văn bản, hình ảnh, âm thanh và ứng với mỗi dạng thông tin khác nhau đó có các kỷ thuật xử lý cũng như phương pháp khác nhau để chúng ta có được đặc trưng cần so sánh Trong phạm vi luận văn này, xử lý so sánh sự tương đồng giữa các profile mà dữ liệu ở dạng văn bản tiếng Việt nên tác giả sẽ trình bày các kỷ thuật liên quan đến xử lý văn bản tiếng... các từ có nghĩa trong văn bản sẽ được đánh chỉ số và nội dung văn bản được quản lý theo các chỉ số Index đó Mỗi văn bản được đánh chỉ số theo quy tắc liệt kê các từ có nghĩa trong các văn bản với vị trí xuất hiện của nó trong văn bản Từ có nghĩa là từ mang thông tin chính về các văn bản lưu trữ, khi nhìn vào nó, người ta có thể biết chủ đề của văn bản cần biễu diễn Tiến hành Index các văn bản đưa vào... v.v; trong hệ thống tư vấn thông tin, hồ sơ cá nhân có thể chứa những chủ đề mà người dùng quan tâm, trình độ tri thức, ngành nghề của người dùng, v.v Chính những thông tin được lưu trữ trong hồ sơ cá nhân này đã giúp hệ thống phục vụ cho người dùng tốt hơn, thông minh hơn Nói cách khác, sự thông minh và chất lượng của các hệ thống được xây dựng trên nền tảng chính là hồ sơ cá nhân Điều này đem đến sự . giữa các hồ sơ cá nhân và báo cáo kết quả thực nghiệm. Kết luận: Những gì đã làm được trong việc xây dựng giải pháp biểu diễn hồ sơ cá nhân và so sánh mức độ tương đồng giữa các hồ sơ cá nhân, . VỀ HỒ SƠ CÁ NHÂN VÀ SO SÁNH ĐỘ TƯƠNG ĐỒNG 1.1 Tổng quan về hồ sơ cá nhân, độ tương đồng 1.1.1 Giới thiệu về hồ sơ cá nhân Hồ sơ cá nhân là một tập hợp gồm những thông tin của một cá nhân. . bài toán so khớp hồ sơ cá nhân như: cấu trúc của một hồ sơ cá nhân, rút trích thông tin hồ sơ cá nhân, biểu diễn hồ sơ cá nhân, xử lý tiếng Việt, các phương pháp tính toán độ tương đồng. Chương