KHAI PHÁ dữ LIỆU NÂNG CAO

TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI VIỆN TOÁN ỨNG DỤNG VÀ TIN HỌC KHAI PHÁ DỮ LIỆU NÂNG CAO BÁO CÁO CUỐI KỲ Học phần: HỆ HỖ TRỢ RA QUYẾT ĐỊNH Giảng viên hướng dẫn: TS LÊ CHÍ NGỌC Sinh viên thực hiện: NGUYỄN THỊ PHƯƠNG THANH 20163641 NGUYỄN VIỆT HỒNG 20161701 VŨ THU HƯỜNG 20162095 NGƠ GIA LÂM 20162311 HÀ NỘI – 20192 Mục lục CHƯƠNG – KHAI PHÁ DỮ LIỆU NÂNG CAO 7.1 Khai phá liệu văn 7.1.1 Khái niệm 7.1.2 Xử lý ngôn ngữ tự nhiên 7.1.3 Các ứng dụng 13 7.1.4 Các bước khai phá liệu văn 19 7.2 Khai phá liệu Web 29 7.2.1 Tổng quan 29 7.2.2 Khai phá nội dung 31 7.2.3 Khai phá cấu trúc 33 7.2.4 Máy tìm kiếm tối ưu máy tìm kiếm 34 7.2.5 Phân tích sử dụng 41 7.3 Khai phá liệu mạng xã hội 52 7.3.1 Khái niệm 52 7.3.2 Các đặc trưng mạng xã hội 55 7.3.3 Phân tích cộng đồng 57 7.3.4 Phân tích ảnh hưởng 60 7.3.5 Phân tích hành vi 62 7.4 Phân tích khách hàng 65 7.4.1 Phân tích dựa đặc trưng 65 7.4.2 Phân tích bình luận, đánh giá 66 7.4.3 Phân tích dựa hành vi 67 7.4.4 Hệ khuyến nghị 71 7.4.5 Phân tích dựa mạng xã hội 82 CHƯƠNG – KHAI PHÁ DỮ LIỆU NÂNG CAO 7.1 Khai phá liệu văn 7.1.1 Khái niệm Thời đại thông tin mà sống đặc trưng tăng trưởng lượng liệu nhanh chóng thông tin thu thập, lưu trữ, sẵn sàng sử dụng định dạng điện tử Phần lớn liệu kinh doanh lưu trữ văn khơng có cấu trúc Bởi tri thức sức mạnh giới kinh doanh ngày nay, tri thức bắt nguồn từ liệu thông tin, doanh nghiệp mà khai thác cách hữu ích có hiệu nguồn liệu văn họ có tri thức cần thiết để đưa định tốt hơn, dẫn đến lợi cạnh tranh so với doanh nghiệp tụt hậu Vì vậy, phân tích văn khai phá văn phù hợp với tranh lớn doanh nghiệp ngày Mặc dù mục tiêu bao trùm cho phân tích văn khai phá văn biến liệu phi cấu trúc thành thông tin hành động thông qua ứng dụng phân tích xử lý ngơn ngữ tự nhiên (Natural language processing – NLP), định nghĩa chúng đến mức có phần khác nhau, theo số chuyên gia lĩnh vực Theo họ, phân tích văn khái niệm rộng bao gồm tìm kiếm thơng tin (tìm kiếm xác định tài liệu có liên quan cho tập khóa thuật ngữ), trích xuất thơng tin, khai thác liệu khai thác Web, khai phá văn chủ yếu tập trung vào phát tri thức hữu ích từ nguồn liệu văn Hình 7.1.1 minh họa mối quan hệ phân tích văn khai phá văn với lĩnh vực ứng dụng liên quan khác Phần hình 7.1.1 liệt kê mơn học (nền tảng ngơi nhà) đóng vai trị mang tính định phát triển gia tăng lĩnh vực ứng dụng phổ biến Dựa định nghĩa phân tích văn khai phá văn này, người ta đưa cơng thức đơn giản sau: 𝑃ℎâ𝑛 𝑡í𝑐ℎ 𝑣ă𝑛 𝑏ả𝑛 = 𝑇ì𝑚 𝑘𝑖ế𝑚 𝑡ℎơ𝑛𝑔 𝑡𝑖𝑛 + 𝑇𝑟í𝑐ℎ 𝑥𝑢ấ𝑡 𝑡ℎơ𝑛𝑔 𝑡𝑖𝑛 + 𝐾ℎ𝑎𝑖 𝑝ℎá 𝑑ữ 𝑙𝑖ệ𝑢 + 𝐾ℎ𝑎𝑖 𝑝ℎá 𝑊𝑒𝑏 đơn giản 𝑃ℎâ𝑛 𝑡í𝑐ℎ 𝑣ă𝑛 𝑏ả𝑛 = 𝑇ì𝑚 𝑘𝑖ế𝑚 𝑡ℎơ𝑛𝑔 𝑡𝑖𝑛 + 𝐾ℎ𝑎𝑖 𝑝ℎá 𝑣ă𝑛 𝑏ả𝑛 Hình 7.1.1 – Phân tích văn bản, lĩnh vực ứng dụng liên quan môn học bổ trợ Thuật ngữ phân tích văn sử dụng phổ biến bối cảnh ứng dụng thương mại, khai phá văn thường sử dụng giới nghiên cứu học thuật Mặc dù đôi lúc chúng định nghĩa khác nhau, phân tích văn khai phá văn thường sử dụng đồng nghĩa Khai phá văn (được biết đến khai phá liệu văn hay khám phá tri thức sở liệu văn bản) q trình trích xuất mẫu bán tự động (thơng tin hữu ích tri thức) từ lượng lớn nguồn liệu phi cấu trúc Nhớ khai phá liệu q trình xác định tính hợp lệ, lạ, có khả hữu ích cuối có nghĩa mẫu liệu lưu trữ sở liệu có cấu trúc, nơi liệu xếp ghi cấu trúc biến rõ ràng, có thứ tự liên tục Khai phá văn giống khai phá liệu chỗ có mục đích sử dụng quy trình, với khai phá văn bản, đầu vào trình tập hợp tệp liệu phi cấu trúc (hoặc bán cấu trúc) tài liệu Word, tệp PDF, đoạn trích văn bản, tệp XML,… Về chất, khai phá văn coi q trình (với hai bước chính) bắt đầu với việc áp đặt cấu trúc nguồn liệu dựa văn bản, tiếp đến trích xuất thơng tin liên quan tri thức từ liệu dựa văn có cấu trúc này, sử dụng kỹ thuật công cụ khai phá liệu Khai phá văn đem lại lợi ích rõ ràng lĩnh vực có lượng lớn liệu văn tạo ra, chẳng hạn luật (thủ tục tòa án), nghiên cứu học thuật (các báo nghiên cứu), tài (báo cáo hàng quý), y khoa (tóm tắt viện), sinh học (sự tác động qua lại phần tử), công nghệ (bằng sáng chế), tiếp thị (ý kiến khách hàng) Ví dụ, tương tác dựa văn tự với khách hàng dạng khiếu nại (hoặc khen ngợi) yêu cầu bảo hành dụng để xác định cách khách quan đặc tính sản phẩm dịch vụ cho hoàn hảo sử dụng đầu vào để phát triển sản phẩm phân bổ dịch vụ tốt Tương tự, chương trình tiếp cận thị trường tạo lượng lớn liệu Bằng cách không hạn chế việc phản hồi sản phẩm dịch vụ dạng hệ thống hóa, khách hàng trình bày ý nghĩ theo cách riêng họ sản phẩm dịch vụ công ty Một lĩnh vực khác xử lý tự động văn phi cấu trúc có nhiều tác động truyền thông thư điện tử Khai phá văn khơng sử dụng để phân loại lọc thư rác, mà cịn sử dụng để tự động ưu tiên thư dựa độ quan trọng tạo phản hồi tự động (Weng and Liu, 2004) Sau lĩnh vực ứng dụng phổ biến khai phá văn bản: • Trích xuất thơng tin: Xác định cụm từ khóa mối quan hệ văn cách tìm kiếm đối tượng trình tự xác định trước văn mẫu phù hợp Có lẽ hình thức sử dụng phổ biến trích xuất thơng tin trích xuất tên thực thể Trích xuất tên thực thể bao gồm nhận dạng tên thực thể (tên người, tổ chức, địa danh, biểu thức thời gian số loại biểu thức số đó, sử dụng tri thức sẵn có lĩnh vực), lời giải có tham chiếu (phát đồng tham chiếu liên kết anaphoric thực thể văn bản) trích xuất quan hệ (xác định mối quan hệ thực thể) • Theo dõi chủ đề: Dựa hồ sơ người dùng tài liệu người dùng xem, khai phá văn dự đoán tài liệu mà người dùng quan tâm • Tổng kết: Tóm tắt tài liệu để tiết kiệm thời gian cho người đọc • Phân loại: Xác định chủ đề tài liệu sau đặt tài liệu thành tập danh mục định nghĩa trước dựa chủ đề • Phân cụm: Nhóm tài liệu tương tự mà khơng có tập phân loại xác định trước • Khái niệm kết hợp: Kết hợp tài liệu liên quan cách xác định khái niệm chia sẻ chúng, giúp người dùng tìm thấy thơng tin mà có lẽ họ khơng tìm sử dụng phương pháp tìm kiếm truyền thống • Trả lời câu hỏi: Tìm câu trả lời tốt cho câu hỏi thông qua so khớp mẫu với mô hình hướng tri thức Dưới danh sách mô tả số thuật ngữ sử dụng phổ biến khai phá văn bản: • Dữ liệu phi cấu trúc (trái ngược liệu có cấu trúc): Dữ liệu có cấu trúc có định dạng xác định trước Nó thường tổ chức thành ghi lưu trữ sở liệu Ngược lại, liệu phi cấu trúc khơng có định dạng xác định trước, lưu trữ dạng tài liệu văn Về chất, liệu có cấu trúc để máy tính xử lý cịn liệu phi cấu trúc để người xử lý • Corpus/Corpora: Trong ngôn ngữ học, liệu tập hợp nhiều văn có cấu trúc (bây thường lưu trữ xử lý điện tử) chuẩn bị cho mục đích khám phá tri thức • Terms: Là từ đơn cụm từ trích rút trực tiếp từ Corpus miền cụ thể phương pháp xử lý ngơn ngữ tự nhiên (NLP) • Concepts (Khái niệm): đặc trưng tạo từ tập hợp tài liệu phương pháp phân loại, thống kê, dựa quy tắc lai tạo So với thuật ngữ, khái niệm kết trừu tượng cấp cao • Stemming: trình biến đổi từ dạng gốc (được gọi stem root form) cách loại bỏ số ký tự nằm cuối từ mà nghĩ biến thể từ • Stop word (hay noise word): từ lọc trước sau q trình xử lý ngơn ngữ tự nhiên • Synonyms and polysemes: từ đồng nghĩa từ nhiều nghĩa Từ đồng nghĩa từ khác mặt cú pháp giống ngữ nghĩa Từ nhiều nghĩa (hay gọi đồng âm) từ giống cú pháp khác nghĩa • Tokenizing: token khối văn phân loại câu Khối văn tương ứng với token phân loại theo chức • Term dictionary: Một tập thuật ngữ dành riêng cho lĩnh vực sử dụng hạn chế thuật ngữ trích xuất (trích rút) Corpus • Word frequency: Số lần xuất từ tài liệu cụ thể • Part of speech tagging: Quá trình đánh dấu từ văn (danh từ, động từ,…) • Morphology (hình thái): Là nhánh xử lý ngôn ngữ tự nhiên, nghiên cứu mối quan hệ đơn vị ngôn ngữ với hình thức cấu tạo đơn vị • Term by document matrix TDM (occurrence matrix) (ma trận kiện): Một lược đồ chung mối quan hệ dựa tần số thuật ngữ tài liệu dạng bảng, thuật ngữ liệt kê hàng, tài liệu cột, tần số có dạng giá trị ngun • Singular value decomposition (phân tích giá trị kỳ dị): Một phương pháp giảm chiều liệu sử dụng cho ma trận kiện, chuyển ma trận thành kích thước quản lý cách tạo đại diện trung gian tần số phương pháp thao tác ma trận tương tự phân tích thành phần 7.1.2 Xử lý ngôn ngữ tự nhiên Một số ứng dụng khai phá văn ngày đầu sử dụng biểu diễn đơn giản gọi bag-of-words mô tả cấu trúc cho tập hợp tài liệu dựa văn theo thứ tự để phân loại chúng thành hai nhiều lớp xác định trước phân cụm chúng thành nhóm Trong mơ hình bag-of-words, văn trình bày dạng tập hợp từ, không quan tâm đến ngữ pháp trật tự Mơ hình bag-of-words sử dụng số công cụ phân loại tài liệu đơn giản Chẳng hạn, việc lọc thư rác, thông điệp email mơ hình thành từ khơng có thứ tự (một túi từ) so sánh với hai túi định trước khác Một túi chứa đầy từ tìm thấy tin nhắn rác lại chứa đầy từ tìm thấy e-mail hợp lệ Mặc dù số từ có khả tìm thấy hai túi, túi “rác” chứa từ liên quan đến thư rác stock, Viagra, buy thường xuyên so với túi hợp lệ, chứa nhiều từ liên quan đến người dùng hay bạn bè nơi làm việc Mức độ khớp túi từ e-mail cụ thể hai túi chứa mô tả xác định email thư rác hợp lệ Đương nhiên, (con người) không sử dụng từ ngữ mà khơng có số trật tự cấu trúc Chúng ta sử dụng từ câu, có cấu trúc ngữ nghĩa cú pháp Do đó, kỹ thuật tự động (như khai phá văn bản) cần tìm cách bag-of-words để phiên dịch kết hợp ngày nhiều cấu trúc ngữ nghĩa vào thao tác chúng Xu hướng khai phá văn hướng tới bao gồm nhiều tính nâng cao thu cách xử lý ngơn ngữ tự nhiên Xứ lý ngôn ngữ tự nhiên (Natural language processing – NLP) thành phần quan trọng khai phá văn lĩnh vực trí tuệ nhân tạo ngơn ngữ học tính tốn Nó nghiên cứu vấn đề “hiểu” ngơn ngữ tự nhiên người, với góc nhìn chuyển đổi miêu tả ngôn ngữ người (như tài liệu văn bản) thành biểu diễn hình thức (dưới dạng liệu số ký hiệu) dễ dàng cho chương trình máy tính thao tác Mục tiêu NLP vượt thao tác văn theo cú pháp (mà thường gọi đếm từ) để hiểu xử lý ngôn ngữ tự nhiên cách thực sự, xem xét ràng buộc ngữ pháp ngữ nghĩa bối cảnh Định nghĩa phạm vi từ “hiểu” chủ đề thảo luận NLP Xét ngôn ngữ tự nhiên người mơ hồ để thật hiểu ý nghĩa đòi hỏi kiến thức sâu rộng chủ đề (ngồi từ, câu đoạn văn), liệu máy tính khó hiểu ngơn ngữ tự nhiên theo cách với độ xác người NLP chặng đường dài từ ngày đếm từ đơn giản, cịn dài đến thực hiểu ngôn ngữ tự nhiên người Sau vài thách thức thường liên quan đến việc thực NLP: • Gán nhãn từ loại (Part-of-speech tagging): Rất khó để đánh dấu thuật ngữ văn tương ứng với từ loại cụ thể (như danh từ, động từ, tính từ, trạng từ, v.v.) từ loại khơng phụ thuộc vào định nghĩa thuật ngữ mà ngữ cảnh mà sử dụng • Tách văn (Text segmentation): Một số ngôn ngữ viết, chẳng hạn tiếng Trung, tiếng Nhật Tiếng Thái, khơng có ranh giới từ đơn Trong trường hợp này, tác vụ phân tích cú pháp văn yêu cầu xác định ranh giới từ, thường nhiệm vụ khó khăn Giống thách thức phân tách lời nói xuất phân tích ngơn ngữ nói, âm đại diện cho chữ từ nối tiếp • Word sense disambiguation: Nhiều từ có nghĩa Chọn nghĩa đem lại ý nghĩa hồn thành cách tính đến ngữ cảnh mà từ sử dụng • Nhập nhằng ngữ pháp (Syntactic ambiguity): Ngữ pháp ngôn ngữ tự nhiên không rõ ràng, nhiều cấu trúc câu thường cần xem xét Chọn cấu trúc phù hợp thường đòi hỏi kết hợp ngữ nghĩa ngữ cảnh thơng tin • Đầu vào khơng hồn thiện không quy luật (Imperfect or irregular input): Giọng nước vùng miền trở ngại giọng nói lời nói lỗi đánh máy ngữ pháp văn làm cho việc xử lý ngơn ngữ trở nên khó khăn o Văn hóa yếu tố có ảnh hưởng sâu rộng đến hành vi mua hàng người tiêu dùng Ví dụ: * Nike phải thu hồi 38,000 đôi giày có chữ “AIR’ logo chữ “AIR” trông giống Allah ngôn ngữ Ả rập * Tại cá tra không tiêu thụ nhiều Việt Nam mà lại xuất nhiều sang Hoa Kỳ? ➢ Xã hội o Các nhóm tham vấn xã hội: - Thường nhóm xã hội mà người tiêu dùng thành viên> + Gia dình, bạn bè, đồng nghiệp,… + Tơn giáo, nghề nghiệp, cơng đồn,… o Các nhóm xã hội tác động đến hành vi người mua nào? - Hình thành lối sống hành vi - Ảnh hưởng thái độ nhận thức cá nhân - Áp lực để tương thích với đặc điểm chung o Gia đình - Là đơn vị (tổ chức) tiêu dùng quan trọng xã hội - Mỗi thành viên gia đình hình thành nên nhóm tham vấn xã hội có ảnh hưởng lớn đến hành vi mua hàng người mua - Các nhà tiếp thị đặc biệt quan tâm đến vai trò định thành viên gia đình ➢ Cá nhân o Tuổi tác đường đời: Hàng hóa dịch vụ thay đổi qua giai đoạn đời o Nghề nghiệp: Ảnh hưởng đến tính chất hàng hóa, dịch vụ chọn o Tình trạng kinh tế: (thu nhập, tài sản tích tụ, khả vay mượn, quan điểm chi tiêu, tích lũy) ảnh hưởng đến loại số lượng hàng hóa mà họ mua sắm o Phong cách sống: ( cách thức sống, cách sinh hoạt, cách làm việc, cách xử thể qua hành động quan tâm) hàng hóa lựa chọn thơng qua lối sống NTD o Cá tính: đặc tính tâm lý baath, dẫn đến cách ứng xử tương đối bền vững quán ➢ Tâm lý o Động lực ( Motivation ) xuất phát từ nhu cầu thân o Nhận thức ( Perception ) trình chọn lọc, xếp diễn giải thơng tin có o Học hỏi ( Learning ) thay đổi hành vi từ kinh nghiệm o Niềm tin thái độ ( Beliefs and attiudes ) hình thành từ trình học hỏi Ví dụ: quan niệm “nhất dáng nhì da” vẻ đẹp phụ nữ • Vai trị khách hàng: người đưa ý kiến, người tác động, người định,người mua, người sử dụng • Dưới q trình định mua người tiêu dùng: - Các nguồn thơng tin để phân tích hành vi khách hàng: website,khảo sát, vấn, google analytics,yandex metrica,… 7.4.4 Hệ khuyến nghị 7.4.4.1 Tổng quan hệ khuyến nghị a) Giới thiệu Hệ khuyến nghị (Recommender Systems - RS) dạng hệ thống lọc thơng tin (information filtering), sử dụng để dự đốn sở thích (preferences) hay xếp hạng (rating) mà người dùng dành cho mục thơng tin (item) mà họ chưa xem xét tới khứ (item hát, phim, đoạn video clip, sách, báo, ) Ví dụ, hệ thống bán hàng trực tuyến (chẳng hạn Amazon), nhằm tối ưu hóa khả mua sắm khách hàng (user), người ta quan tâm đến việc khách hàng ‘yêu thích’ sản phẩm (item) cách dựa vào liệu khứ họ (dữ liệu xếp hạng mà người dùng bình chọn sản phẩm, thời gian duyệt (browse) sản phẩm, số lần click chuột sản phẩm, ) từ hệ thống dự đốn người dùng thích sản phẩm đưa gợi ý phù hợp cho họ Hình ví dụ minh họa cho hệ thống gợi ý bán hàng Amazon Ngoài lĩnh vực thương mại điện tử thấy ví dụ trên, RS ứng dụng thành công nhiều lĩnh vực khác giải trí: gợi ý hát cho người nghe (ví dụ, hệ thống LastFM - www.last.fm), gợi ý phim ảnh (ví dụ, hệ thống Netflix - www.netflix.com), gợi ý video clip (ví dụ, hệ thống YouTube - www.youtube.com); giáo dục đào tạo (gợi ý nguồn tài nguyên học tập sách, báo, địa web,… cho người học); hệ thống trợ giảng thơng minh (như dự đốn lực học tập người học) (Thai-Nghe et.al, 2012, 2011a) Hệ khuyến nghị không đơn dạng Hệ thống thông tin mà cịn lĩnh vực nghiên cứu nhà khoa học quan tâm Kể từ năm 2007 đến nay, hàng năm có hội thảo chuyên hệ thống gợi ý ACM (ACM RecSys) tiểu bang dành riêng cho RS hội nghị lớn khác ACM KDD, ACM CIKM, b) Các khái niệm Trong RS, thông thường người ta quan tâm đến ba thông tin người dùng (user), mục tin (item, item sản phẩm, phim, hát, báo, tùy hệ thống), phản hồi (feedback) người dùng mục tin (thường xếp hạng/đánh giá – rating biểu diễn mức độ thích/quan tâm họ) Các thông tin biểu diễn thông qua ma trận Hình Ở đó, dịng user, cột item, ô giá trị phản hồi (ví dụ, xếp hạng) biểu diễn “mức độ thích” user item tương ứng Các có giá trị item mà user xếp hạng khứ Những ô trống item chưa xếp hạng (điều đáng lưu ý user xếp hạng cho vài item khứ, có nhiều trống ma trận – cịn gọi ma trận thưa – sparse matrix) Hình Ma trận biểu diễn liệu RS (user-item-rating matrix) Nhiệm vụ RS dựa vào có giá trị ma trận (dữ liệu thu từ q khứ), thơng qua mơ hình xây dựng, RS dự đốn cịn trống (của user hành), sau xếp kết dự đốn (ví dụ, từ cao xuống thấp) chọn Top-N items theo thứ tự, từ gợi ý chúng cho người dùng c)Thông tin phản hồi người dùng hai dạng tốn RS Trong RS, giá trị phản hồi (feedback) rui người dùng mục tin ghi nhận lại để làm sở cho việc dự đoán giá trị Tùy theo hệ thống mà giá trị có ý nghĩa khác nhau, ví dụ dùng để đo độ “phù hợp” hay “mức độ thích” (thường đánh giá sản phẩm) hệ thống thương mại điện tử hay “năng lực/kết thực hiện” người dùng hệ thống e- learning Giá trị rui xác định cách tường minh (explicit feedbacks) thông qua việc đánh giá/xếp hạng (ví dụ, rating từ * đến *****; hay like (1) dislike (0),…) mà u bình chọn cho i; rui xác định cách không tường minh (implicit feedbacks) thông qua số lần click chuột, thời gian mà u duyệt/xem i,… Có dạng tốn RS dự đốn xếp hạng (rating prediction) hệ thống có phản hồi tường minh trình bày dự đốn mục thơng tin (item prediction/recommendation) việc xác định xác suất mà người dùng thích mục tin tương ứng (Pilaszy & Tikk, 2009) Trong khuôn khổ viết này, tập trung nhiều lĩnh vực dự đoán xếp hạng 7.4.4.2 Các phương pháp tiếp cận Hiện tại, RS có nhiều giải thuật đề xuất, nhiên gom chúng vào nhóm (xem thêm (Su et.al., 2009), (Ricci et.al., 2010), (Bobadilla et.al., 2013)) • Nhóm giải thuật lọc cộng tác (Collaborative Filtering): nhóm này, giải thuật chủ yếu sử dụng: o Phương pháp láng giềng (Neighborhood-based, cịn gọi Memorybased), dựa liệu khứ người dùng “tương tự - similarity” (user-based approach), dựa liệu khứ item “tương tự” (item-based approach) o Dựa mơ hình (Model-based): Nhóm liên quan đến việc xây dựng mơ hình dự đốn dựa liệu thu thập khứ Như mô hình Bayesian, mơ hình nhân tố tiềm ẩn (latent factor models): kỹ thuật phân rã ma trận (matrix factorization) điển hình • Nhóm giải thuật lọc nội dung (Content-based Filtering): Gợi ý item dựa vào hồ sơ (profiles) người dùng dựa vào nội dung/thuộc tính (attributes) item tương tự item mà người dùng chọn khứ • Nhóm lai ghép: Kết hợp cách Một khuyết điểm phương pháp lọc theo nội dung khó khăn việc thu thập thơng tin, phần lớn mơ hình dựa lọc cộng tác cần thông tin (user id, item id, feedback) hoạt động tốt Do khuynh hướng đa phần nhà nghiên cứu thiên nhóm lọc cộng tác Ta tìm hiểu phương pháp tiếp cận: a) Lọc theo nội dung Lọc theo nội dung phương pháp thực dựa việc so sánh nội dung thông tin hay mơ tả hàng hóa, nhằm tìm sản phẩm tương tự với mà người dùng quan tâm để giới thiệu cho họ sản phẩm [3] Các phương pháp tiếp cận cho lọc theo nội dung có nguồn gốc từ lĩnh vực truy vấn thơng tin, sản phẩm biểu diễn hồ sơ sản phẩm, người dùng biểu diễn hồ sơ người dùng Phương pháp dự đoán nội dung nguyên sản phẩm thực dựa vào việc xem xét hồ sơ sản phẩm có mức độ phù hợp cao với hồ sơ người dùng • Bài tốn lọc theo nội dung Bài tốn lọc theo nội dung phát biểu sau Cho P = {p1, p2, , pN} tập gồm N sản phẩm Nội dung sản phẩm p# P ký hiệu Content(p) biểu diễn thông qua tập K đặc trưng nội dung P Tập đặc trưng sản phẩm p xây dựng kỹ thuật truy vấn thơng tin để thực mục đích dự đoán sản phẩm khác tương tự với p Cho U = { u1, u2, , uM} tập gồm M người dùng Với người dùng u# U, gọi ContentBasedProfile(u) hồ sơ người dùng u Hồ sơ người dùng u thực chất lịch sử truy cập đánh giá người sản phẩm ContentBasedProfile(u) xây dựng cách phân tích nội dung sản phẩm mà người dùng u truy nhập đánh giá dựa kỹ thuật truy vấn thơng tin Bài tốn lọc theo nội dung dự đốn sản phẩm có nội dung thích hợp với người dùng dựa tập hồ sơ sản phẩm Content(p) hồ sơ người dùng ContendBasedProfile(u) • Các phương pháp pháp lọc theo nội dung Lọc theo nội dung tiếp cận theo hai xu hướng: Lọc dựa nhớ lọc dựa mơ hình Lọc nội dung dựa vào nhớ Lọc nội dung dựa vào nhớ phương pháp sử dụng toàn tập hồ sơ sản phẩm tập hồ sơ người dùng để thực huấn luyện dự đoán Trong phương pháp này, sản phẩm tính tốn so sánh với tất hồ sơ người dùng Những sản phẩm có mức độ tương tự cao với hồ sơ người dùng dùng để tư vấn cho người dùng Lọc nội dung dựa vào mơ hình Lọc nội dung dựa mơ hình phương pháp sử dụng tập hồ sơ sản phẩm tập hồ sơ người dùng để xây dựng nên mơ hình huấn luyện Mơ hình dự đốn sau sử dụng kết mơ hình huấn luyện để sinh tư vấn cho người dùng Trong cách tiếp cận này, lọc nội dung sử dụng kỹ thuật học máy mạng Bayes, phân cụm, định, mạng nơron nhân tạo để tạo nên dự đoán b) Lọc cộng tác Không giống lọc theo nội dung, lọc cộng tác khai thác khía cạnh liên quan đến thói quen sở thích người sử dụng sản phẩm để đưa dự đoán sản phẩm cho người dùng So với lọc theo nội dung, lọc cộng tác khơng phải phân tích, bóc tách, hiểu, đánh mục cho đặc trưng nội dung sản phẩm Chính vậy, lọc cộng tác lọc hiệu nhiều dạng sản phẩm khác hàng hóa, sữa, ảnh, tài liệu [4] Cùng hệ tư vấn, người dùng tư vấn nhiều loại mặt hàng khác cho dù mặt hàng biểu diễn không gian đặc trưng nội dung khác • Bài tốn lọc cộng tác Ký hiệu U= {u1, u2,…, uN} tập gồm N người dùng, P= {p1, p2, , pM} tập gồm M sản phẩm mà người dùng lựa chọn Mỗi sản phẩm pi# P hàng hóa, sữa, ảnh, tạp chí, tài liệu, sách, báo, dịch vụ dạng thông tin mà người dùng cần đến Tiếp theo, ký hiệu R={rij}, i = N, j = M ma trận đánh giá, người dùng ui# U đưa đánh giá cho số sản phẩm pj# P trọng số rij Giá trị rij phản ánh mức độ ưa thích người dùng ui sản phẩm pj Giá trị rij thu thập trực tiếp cách hỏi ý kiến người dùng thu thập gián tiếp thông qua chế phản hồi người dùng Giá trị rij = Ø trường hợp người dùng ui chưa đánh giá chưa biết đến sản phẩm pj Với người dùng cần tư vấn ua (được gọi người dùng thời, người dùng cần tư vấn, hay người dùng tích cực), tốn lọc cộng tác toán dự đoán đánh giá ua mặt hàng mà ua chưa đánh giá (raj = Ø), sở tư vấn cho ua sản phẩm đánh giá cao Bảng 1.1 thể ví dụ với ma trận đánh giá R = (rij) hệ gồm người dùng U = {u1, u2, u3, u4, u5} sản phẩm P= {p1, p2, p3, p4} Mỗi người dùng đưa đánh giá sản phẩm theo thang bậc {Ø, 1, 2, 3, 4, 5} Giá trị rij = Ø hiểu người dùng ui chưa đánh giá chưa biết đến sản phẩm pj Các giá trị r5,2 = ? sản phẩm hệ thống cần dự đốn cho người dùng u5 Bảng 1.1.Ví dụ ma trận đánh giá lọc cộng tác p1 p2 p3 u1 u2 p4 Ø u3 Ø u4 4 u5 ? Ø Ø Ma trận đánh giá R= (rij) thông tin đầu vào phương pháp lọc cộng tác Dựa ma trận đánh giá, phương pháp lọc cộng tác thực hai tác vụ: Dự đoán quan điểm người dùng thời (Active User) sản phẩm mà họ chưa đánh giá, đồng thời đưa danh sách sản phẩm có đánh giá cao phân bổ cho người dùng thời • Các phương pháp lọc cộng tác Cũng giống lọc theo nội dung, lọc cộng tác tiếp cận theo hai xu hướng chính: Lọc cộng tác dựa nhớ lọc cộng tác dựa mơ hình Mỗi phương pháp tiếp cận có ưu điểm hạn chế riêng, khai thác mối liên hệ ma trận đánh giá người dùng Cách tiếp cận cụ thể phương pháp thực sau Lọc cộng tác dựa nhớ Các phương pháp lọc dựa nhớ sử dụng toàn ma trận đánh giá để sinh dự đoán sản phẩm cho người dùng thời Về thực chất, phương pháp học lười hay học dựa ví dụ sử dụng học máy Phương pháp thực theo hai bước: Tính tốn mức độ tương tự bước tạo nên dự đốn • Tính tốn mức độ tương tự sim(x, y): Mô tả khoảng cách, liên quan, hay trọng số hai người dùng x y (hoặc hai sản phẩm x y) • Dự đốn: Đưa dự đoán cho người dùng cần tư vấn cách xác định tập láng giềng người dùng Tập láng giềng người dùng cần tư vấn xác định dựa mức độ tương tự cặp người dùng sản phẩm Việc tính tốn mức độ tương tự hai người dùng x y xem xét dựa vào tập sản phẩm hai người dùng đánh giá Tương tự, việc tính toán mức độ tương tự hai sản phẩm x y xem xét dựa vào tập người dùng đánh giá hai sản phẩm Sau đó, sử dụng độ đo cụ thể để xác định mức độ tương tự hai người dùng sản phẩm Chú ý hai phương pháp lọc theo nội dung lọc cộng tác sử dụng độ đo cosin giống tập sản phẩm Tuy nhiên, lọc theo nội dung sử dụng độ tương tự cosin cho véc tơ trọng số tính theo độ đo tần suất tần suất xuất ngược, lọc cộng tác sử dụng cosin hai véc tơ biểu diễn đánh giá người dùng Lọc cộng tác dựa vào mơ hình Khác với phương pháp dựa nhớ, phương pháp lọc dựa mơ hình [2] sử dụng tập đánh giá để xây dựng mơ hình huấn luyện Kết mơ hình huấn luyện sử dụng để sinh dự đoán quan điểm người dùng sản phẩm chưa họ đánh giá Ưu điểm của phương pháp mô hình huấn luyện có kích thước nhỏ nhiều so với ma trận đánh giá thực dự đốn nhanh Mơ hình cần cập nhật lại có thay đổi lớn thực lại phần xây dựng mơ hình Một số mơ hình tiêu biểu: Mơ hình mạng Bayes( Bayesian Belief Net), mơ hình ngữ nghĩa ẩn(Laten Semantic Model), mơ hình đồ thị hai phía(Beparties Graph Model) c) Kết hợp phương pháp( Hybrid Recommender System) Nghiên cứu gần chứng minh phương pháp lai, kết hợp lọc cộng tác lọc dựa nội dung hiệu số trường hợp Các phương pháp lai thực theo nhiều cách: o Bằng cách đưa dự đoán dựa nội dung dựa lọc cộng tác riêng biệt sau kết hợp chúng o Bằng cách thêm khả dựa nội dung vào phương pháp cộng tác (và ngược lại) o Bằng cách thống phương pháp tiếp cận thành mơ hình Một số nghiên cứu thực nghiệm so sánh hiệu suất phương pháp lai với phương pháp cộng tác túy chứng minh phương pháp lai cung cấp khuyến nghị xác phương pháp túy Những phương pháp sử dụng để khắc phục số vấn đề thường gặp hệ thống gợi ý Cold Start vấn đề thưa thớt Netflix ví dụ tốt việc sử dụng hệ thống hybrid recommender Trang web đưa đề xuất cách so sánh thói quen xem tìm kiếm người dùng tương tự (ví dụ: lọc cộng tác) cách cung cấp phim có chung đặc điểm với phim mà người dùng đánh giá cao (lọc dựa nội dung) Một loạt kỹ thuật đề xuất làm sở cho hệ thống gợi ý: kỹ thuật hợp tác (collaborative), dựa nội dung (content-based), dựa kiến thức (knowledge-based) nhân học (demographic techniques) Mỗi kỹ thuật có thiếu sót, vấn đề Cold Start cho hệ thống cộng tác dựa nội dung (phải làm với người dùng với xếp hạng) tắc nghẽn kỹ thuật tri thức (knowledge engineering bottleneck) phương pháp dựa tri thức Một hệ thống gợi ý lai hệ thống kết hợp nhiều kỹ thuật với để đạt số sức mạnh tổng hợp chúng • Cộng tác – Collaborative: Hệ thống tạo đề xuất sử dụng thông tin hồ sơ xếp hạng cho người dùng mục khác Các hệ thống cộng tác định vị “người dùng/mục” ngang hàng với lịch sử xếp hạng tương tự người dùng mục tạo đề xuất sử dụng vùng lân cận Các thuật toán dựa người dùng dựa hàng gần kết hợp để giải vấn đề Cold Start cải thiện kết đề xuất • Dựa nội dung – Content-based: Hệ thống tạo đề xuất từ hai nguồn: tính liên quan đến sản phẩm xếp hạng mà người dùng cung cấp cho họ Đề xuất dựa nội dung coi đề xuất cố phân loại người dùng cụ thể tìm hiểu trình phân loại cho lượt thích khơng thích người dùng dựa tính sản phẩm • Nhân học – demographic techniques: Trình giới thiệu nhân học cung cấp đề xuất dựa hồ sơ nhân học người dùng Sản phẩm đề xuất sản xuất cho mục nhân học khác nhau, cách kết hợp xếp hạng người dùng mục • Dựa tri thức – knowledge-based: Trình giới thiệu dựa kiến thức gợi ý sản phẩm dựa suy luận nhu cầu sở thích người dùng Kiến thức chứa kiến thức chức rõ ràng cách tính sản phẩm định đáp ứng nhu cầu người dùng Thuật ngữ Hybrid recommender systems sử dụng để mô tả hệ thống recommender kết hợp nhiều kỹ thuật đề xuất với để tạo liệu đầu Có bảy kỹ thuật lai (hybridization techniques): • Có trọng số (Weighted): Điểm số thành phần đề xuất khác kết hợp theo số lượng • Chuyển đổi (Switching): Hệ thống chọn thành phần đề xuất áp dụng hệ thống chọn • Hỗn hợp (Mixed): Các khuyến nghị từ người giới thiệu khác trình bày để đưa đề xuất • Kết hợp tính (Feature Combination): Các tính lấy từ nguồn tri thức khác kết hợp với đưa cho thuật tốn gợi ý • Tính tăng cường (Feature Augmentation): Một kỹ thuật gợi ý sử dụng để tính tốn tính tập hợp tính năng, sau phần đầu vào cho kỹ thuật • Cascade: Các khuyến nghị ưu tiên nghiêm ngặt, với ưu tiên thấp phá vỡ mối quan hệ việc tính điểm người cao • Cấp độ meta (Meta-level): Một kỹ thuật đề xuất áp dụng tạo số loại mô hình, sau đầu vào sử dụng kỹ thuật 7.4.5 Phân tích dựa mạng xã hội Các liệu thu thập qua mạng xã hội như: • Hồ sơ cá nhân o Tuổi, giới tính, tình trạng nhân… o Nơi làm việc, nghề nghiệp, trường học cấp, học vấn,… o Gia đình, thành phần gia đình… • Sở thích o Ngắn hạn, trung bình, dài hạn,… • Hành vi/thói quen o Thói quen sinh hoạt, làm việc, du lịch,… • Ý định, nhu cầu • Cảm xúc • Tính cách Phân tích cộng đồng: • Phân tích cộng đồng giúp hiểu người dùng • Phân tích cộng đồng đưa góc nhìn dự tương tác người dùng • Một số hành vi phát hiện, quan sát họ tham gia cộng đồng • Một số kỹ thuật phát cộng đồng:phân cụm phân cấp, phân cụm theo đồ thị,phân cụm phân hoạch,phân cụm theo phổ, thuật tốn phân chia Việc phân tích khách hàng dựa mạng xã hội xác định nhóm người dùng có khía cạnh chung(sở thích, thói quen,…) từ xác định xu hướng sản phẩm mà người dùng mong muốn ... thức hội Khai phá thông tin kiến thức từ Web Khai phá liệu Web gì? Khai phá liệu Web dùng kỹ thuật Khai phá liệu truyền thống để Khai phá thông tin, kiến thức từ Web Tuy nhiên, Khai phá Web khơng... dụng quy trình Khai phá, tác vụ Khai phá Web phân thành ba loại: Khai phá cấu trúc web, Khai phá nội dung Web Khai phá sử dụng Web Hình 7.2.1: Phân loại khai phá Web Q trình khai phá liệu Web thơng... trình Khai phá Web tương tự trình Khai phá liệu Khác biệt nhiều nằm việc thu thập liệu Trong Khai phá liệu truyền thống, liệu thường thu thập lưu trữ kho liệu Còn Khai phá Web, thu thập liệu nhiệm

Định dạng
Số trang	83
Dung lượng	1,46 MB