Thực nghiệm so sánh profile

Với mục tiêu khảo sát thu thập dữ liệu, so sánh sự tương đồng của các profile thu thập được bằng thực tế quan sát (đối tượng khảo sát là những người có tham gia chơi trên mạng xã hội Facebook). Tương ứng với mỗi kết quả thu được, tác giả so sánh với kết quả khi thực hiện so sánh trên hệ thống để rút ra kết luận cho hệ thống.

Mẫu bảng khảo sát thu thập profile như sau :

Quá trình thử nghiệm:

Với khoảng 30 profile thu thập được qua khảo sát chúng tôi bắt cặp các profile để so sánh bằng quan sát thực tế rút ra mức độ tương đồng giữa các profile; song song với đó, chúng tôi cho các profile tương ứng trên mạng xã hội facebook thực hiện tính toán so sánh trên hệ thống, kết quả có được chúng tôi so sánh với kết quả quan sát và có được kết quả như bảng 6:

So sánh hai profile theo quan sát, chúng tôi so sánh theo từng cặp thuộc tính tương ứng của hồ sơ cá nhân bao gồm một số tiêu chí:

 Interested In: Về mối quan tâm của hai hồ sơ cá nhân, họ có cùng mối quan tâm, họ quan tâm đến những lĩnh vực nào, số lĩnh vực họ quan tâm nhiều hay ít, các lĩnh vực có liên quan với nhau hay không?.

 Status/ Comments: Những hoạt động chủ yếu trên mạng xã hội của hai người dùng là gì? Họ thường viết những gì, đăng những nội dung gì?, giữa mối quan tâm và quá trình hoạt động trên mạng xã hội của họ có đúng như vậy không?

 History by year: Giữa hai người có nền giáo dục, nền công việc, những hoạt động chuyên môn, hoạt động xã hội, v.v có tương đồng không? Môi trường làm việc học tập của họ ở quá khứ có gì giống và khác nhau.

 Religious views: hai người có cùng tôn giáo, quan điểm về tôn giáo của họ có khác nhau?

 Hometown/ Current Location: Họ có cùng quê hương, hay cùng vùng miền với nhau, hiện tại họ sinh sống xa cách về mặt địa lý hay cùng một vùng địa lý.

 University/ Employers: Hai người dùng có cùng môi trường đại học không, ngành nghề họ học có tương đồng không, công việc hiện tại của họ có gì giống nhau, hay khác hoàn toàn.

 Relationship Status/ Gender: Hai người dùng đã có gia đình chưa, đang hẹn hò hay đang độc thân.

 Birthday: Giữa hai người dùng có cùng lứa tuổi không, thanh niên, thiếu nhi hay trung niên, v.v.

Bảng 6: Một số kết quả thực nghiệm STT Quan sát Hệ thống 1 85% 91% 2 40% 49% 3 63% 70% 4 73% 81% 5 75% 82% 6 72% 66% 7 80% 88% 8 76% 84% 9 63% 72% 10 10% 6% 11 66% 74% 12 53% 44% 13 64% 54% 14 50% 44% 15 55% 65%

Dựa vào bảng kết quả so sánh mức độ tương đồng giữa quan sát theo tiêu chí và hệ thống, xét thấy trên toàn bộ hệ thống, sai số trung bình khi so sánh giữa quan sát thực tế và hệ thống xử lý là khoảng 8%. Như vậy, tỉ lệ phần trăm của tập dữ liệu toàn thể thu thập được có thể chấp nhận khoảng 90% so với thực

tế. Trừ sai số tỉ lệ tương đồng khi quan sát, ta thấy độ chính xác của hệ thống đạt khoảng 85% đến 90%.

Một số hình ảnh hệ thống so sánh profile

KẾT LUẬN Một số kết quả đạt được

Luận văn đã đề xuất mô hình xây dựng và biểu diễn profile người sử dụng theo một cấu trúc từ các thông tin cá nhân trên mạng xã hội. Xây dựng giải pháp đánh giá mức độ tương đồng giữa các profile.

Việc thu thập profile từ mạng xã hội là tĩnh, mỗi profile được biểu diễn thành một vector mà thành phần của nó gồm các vector con, mỗi vector con biểu diễn cho một thuộc tính của profile.

Quy trình so sánh mức độ tương đồng giữa các profile được đưa ra, trong đó luận văn xây dựng bộ dữ liệu chuẩn thuộc tính dựa trên phân tích chủ đề ẩn LDA, một trong các giải pháp tốt nhất hiện nay tập trung vào việc bổ sung các thành phần ngữ nghĩa hỗ trợ cho độ đo tương đồng Cosine. Kết quả đạt được khả quan, cho thấy tính đúng đắn của việc lựa chọn cũng như kết hợp các phương pháp.

Vấn đề luận văn giải quyết là nền tảng cho nhiều ứng dụng quan trọng trong thực tế, nhất là khi mạng xã hội ngày càng trở nên phổ biến như hiện nay, như các hệ thống thích nghi cá nhân (Personalized System) ứng dụng trong các lĩnh vực tìm kiếm thông tin (Information Retrieval), thương mại điện tử (e - Commerce), trong đào tạo trực tuyến (e - Learning).

Những mặt còn hạn chế

Tuy bước đầu đạt một số kết quả khả quan, nhưng vẫn còn tồn tại một số hạn chế cần khắc phục như:

 Thông tin profile thu được từ mạng xã hội Facebook có nhiều thông tin ảo, do đó quá trình huấn luyện LDA cho tập dữ liệu bao phủ miền ứng dụng chưa thật sự đạt mức tốt nhất.

 Nhiều profile còn hạn chế thông tin cả về lượng lẫn về chất dẫn đến khi so sánh không thể có kết luận như mong muốn.

Hướng phát triển của luận văn

Một số hướng phát triển cho đề tài theo như chúng tôi gồm:

 Mở rộng so sánh mức độ tương đồng giữa các profile không những với thông tin dạng text mà cho cả thông tin dạng hình ảnh.

 Cập nhật động thông tin profile để đáp ứng lại những thông tin thay đổi theo thời gian của profile.

TÀI LIỆU THAM KHẢO Tiếng Việt:

[1] Nguyễn Việt Anh (2009), “Một mô hình tạo khóa học thích nghi trong đào tạo điện tử”, luận án tiến sĩ Công nghệ thông tin, trường Đại học Công Nghệ, Đại học Quốc gia Hà Nội.

[2] Nguyễn Việt Cường (2006), “Sử dụng các khái niệm mờ trong biểu diễn văn bản và áp dụng vào bài toán phân lớp văn bản”, Khoa Công nghệ thông tin, trường Đại học Công Nghệ, Đại học Quốc gia Hà Nội.

[3] Nguyễn Song Hà (2009), “Hệ thống tư vấn Website cho máy tìm kiếm dự trên khai phá Query log”, Khoa Công nghệ thông tin, trường Đại học Công Nghệ, Đại học Quốc gia Hà Nội.

[4] Nguyễn Thị Thu Hằng (2007), “Phương pháp phân cụm tài liệu Web và áp dụng vào máy tìm kiếm”, luận văn cao học, trường Đại học Công Nghệ, Đại học Quốc gia Hà Nội.

[5] Hoàng Minh Hiền (2008), “Độ tương đồng ngữ nghĩa giữa hai câu và ứng dụng trong tóm tắt văn bản”, Khoa Công nghệ thông tin, trường Đại học Công Nghệ, Đại học Quốc gia Hà Nội.

[6] Nguyễn Thị Thùy Linh (2006), “Phân lớp tài liệu Web độc lập ngôn ngữ”, Khoa Công nghệ thông tin , trường Đại học Công Nghệ, Đại học Quốc gia Hà Nội.

[7] Le Duc Long, Vo Thanh C, Nguyen An Te, Tran Van Hao (2008), “Mô hình tổ chức và khai thác e-Course trong đào tạo trực tuyến”, Phòng Khoa học Công nghệ và Môi trường, trường Đại học sư phạm TP. HCM.

[8] Uông Huy Long (2010), “Giải pháp mở rộng thông tin ngữ cảnh phiên duyệt Web người dùng nhằm nâng cao chất lượng tư vấn trong hệ thống tư vấn tin tức”, Khoa Công nghệ thông tin, trường Đại học Công Nghệ, Đại học Quốc gia Hà Nội.

[9] Nguyễn Hữu Phương (2009), “Quảng cáo trực tuyến hướng câu truy vấn với sự giúp đỡ của phân tích chủ đề ẩn và kỹ thuật tính hạng”, Khoa Công nghệ thông tin, trường Đại học Công Nghệ, Đại học Quốc gia Hà Nội. [10] Nguyễn Thế Quang, “Phát triển thuật toán gom cụm văn bản HTML và

ứng dụng”.

[12] Nguyễn Phương Thái, “Phát triển bộ công cụ hỗ trợ xây dựng kho ngữ liệu cho phân tích văn bản tiếng Việt”, luận văn cao học, trường Đại học Khoa học tự nhiên.

[13] Nguyễn Cẩm Tú (2008), “Hidden Topic Discovery toward Classification and Clustering in Vietnamese Web Documents”, luận văn cao học, trường Đại học Công Nghệ, Đại học Quốc gia Hà Nội.

[14] Trần Mai Vũ (2009), “Tóm tắt văn bản dựa vào trích xuất câu”, luận văn cao học, trường Đại học Công Nghệ, Đại học Quốc gia Hà Nội.

Tiếng Anh:

[15] Arturo Montejo-Rasez (2005), “Automatic Text Categorization of document in the High Energy Physics domain”, thesis.

[16] Falko Dressler (2007), “Profile-Matching Techniques for On-Demand

Software Management in Sensor Networks”, Autonomic Networking Group, Department of Computer Science 7, University of Erlangen, Martensstraße 3, 91058 Erlangen, Germany.

[17] George Vosselman (1995), “Road tracing by profile matching and Kalman filtering”, Jurrien de Knecht, Delft University of Technology, The Netherlands.

[18] Haiqing Zheng (2006), “Using Profle Matching and Text Categorization for Answer Extraction in TREC Genomics”, Department of Computer Science and Engineering, Fudan Univerisity, 220 Handan Road, Shanghai 200433, China.

[19] Miquel Montaner (2003), “A Taxonomy of Recommender Agents on the Internet”, Agents Research Laboratory, Institut d’Informàtica i Aplicacions, Universitat de Girona, Campus Montilivi, Spain

[20] Peter Brusilovsky (2010), “Guiding Students to the Right Questions:

Adaptive Navigation Support in an E-Learning System for Java Programming”, School of Information Sciences, University of Pittsburgh, Pittsburgh, PA 15260, USA.

[21] T. Hofmann (1999), “Probabilistic Latent Semantic Analysis”, To appear in: Uncertainity in Articial Intelligence, UAI'99, Stockholm.

[22] Thorsten Joachims, “Text Categorization with Support Vector Machines: Learning with Many Relevant Features”, University Dortmund.

[23] Tong Zhang and Frank J. Oles, “Text Categorization Based on Regularized Linear Classifiacation Methods”, Mathematical Sciences Department IBM.

[24] Tran Vu Pham (2011), Le Nguyen Thach, “Social-Aware Document Similarity Computation for Recommender Systems”, Proceedings of the 2011 IEEE Ninth International Conference on Dependable, Autonomic and Secure Computing.

[25] Tran Vu Pham (2011), “Dynamic Profile Representation and Matching

in Distributed Scientific Networks”, in Journal of Science and Technology Development, Vol. 14, No. K2.

Internet:

[26] Công cụ phân tích chủ đề ẩn, http://jgibblda.sourceforge.net/

Phương pháp Maximum Matching: Forward / Backward

Đặc trưng văn bản tiếng Việt