Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 18 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
18
Dung lượng
686,48 KB
Nội dung
HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG
MAI THỊ NHƯ
ĐỀ TÀI: LỌCCỘNGTÁCDỰATRÊNMÔHÌNH
ĐỒ THỊHAIPHÍA
CHUYÊN NGÀNH: TRUYỀN DỮ LIỆU VÀ MẠNG MÁY TÍNH
MÃ SỐ: 60.48.15
TÓM TẮT LUẬN VĂN THẠC SĨ
HÀ NỘI - 2012
Luận văn được hoàn thành tại:
HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG
Người hướng dẫn khoa học.: TS Nguyễn Duy Phương
Phản biện 1:
…………………………………………………………………
Phản biện 2:
…………………………………………………………………
Luận văn sẽ được bảo vệ trước Hội đồng chấm luận văn thạc sĩ
tại Học viện Công nghệ Bưu chính Viễn thông
Vào lúc: giờ ngày tháng năm ……
Có thể tìm hiểu luận văn tại:
- Thư viện của Học viện Công nghệ Bưu chính Viễn thông
PHẦN MỞ ĐẦU
1. Tính cấp thiết của đề tài nghiên cứu
Vấn đề quá tải thông tin (Information Overload) được J.Denning nêu ra lần đầu
tiên vào năm 1982. Với những lý lẽ và bằng chứng thuyết phục, Denning khẳng định khả
năng lựa chọn thông tin hữu ích của người dùng máy tính sẽ gặp khó khăn nghiêm trọng
bởi sự gia tăng không ngừng lượng thông tin khổng lồ đến từ hàng trăm kênh truyền hình,
hàng triệu băng hình, sách, báo, tạp chí, tài liệu thông qua các hệ thống giao dịch điện tử.
Vấn đề Denning công bố ngay lập tức được cộng đồng các nhà khoa học máy tính nhiệt
tình hưởng ứng và tập trung nghiên cứu phương pháp hạn chế ảnh hưởng của vấn đề quá
tải thông tin đối với người dùng, thúc đẩy một lĩnh vực nghiên cứu mới đó là lọc thông tin.
Lọc thông tin (Information Filtering) là lĩnh vực nghiên cứu các quá trình lọc bỏ
những thông tin không thích hợp và cung cấp thông tin thích hợp đến với mỗi người dùng.
Lọc thông tin được xem là phương pháp hiệu quả hạn chế tình trạng quá tải thông tin được
quan tâm nhiều nhất hiện nay.
Hệ tư vấn (Recommender System) là hệ thống có khả năng tự động phân tích, phân
loại, lựa chọn và cung cấp cho người dùng những thông tin, hàng hóa hay dịch vụ mà họ
quan tâm. Hệ tư vấn được xem như một biến thể điển hình có vai trò quan trọng trong lọc
thông tin. Nhiều hệ tư vấn đã được thương mại hóa và triển khai thành công, tiêu biểu là hệ
tư vấn của các hãng Amazon.com, Netflix.com, Procter & Gamble.
Hệ tư vấn được xây dựng dựatrênhai kỹ thuật lọc thông tin chính: Lọc theo nội
dung (Content-Based Filtering) và lọccộngtác (Collaborative Filtering). Lọc theo nội
dung khai thác những khía cạnh liên quan đến nội dung thông tin sản phẩm hoặc người
dùng đã từng sử dụng hay truy nhập trong quá khứ để tạo nên tư vấn. Trái lại, lọccộngtác
khai thác những khía cạnh liên quan đến thói quen sở thích của người sử dụng sản phẩm
để đưa ra dự đoán các sản phẩm mới cho người dùng này.
Lọc cộngtác được tiếp cận theo hai xu hướng chính: Lọccộngtácdựa vào bộ nhớ
(Memory Based Collaborative Filtering) và Lọccộngtácdựatrênmôhình (Model Based
Collborative Filtering). So với lọccộngtácdựa vào bộ nhớ, lọccộngtácdựatrênmôhình
cho lại kết quả tốt hơn. Chính vì vậy, em đã lựa chọn đề tài “Lọc cộngtácdựatrênmô
hình đồthịhai phía” để thực hiện trong khuôn khổ luận văn thạc sĩ chuyên ngành truyền
số liệu và mạng máy tính.
2. Mục tiêu của luận văn
Mục tiêu của luận án là nghiên cứu áp dụng, cải tiến phương pháp lọccộngtácdựa
trên mô hình, cụ thể là môhìnhđồthịhaiphía nhằm cải thiện độ chính xác của lọc thông
tin trong các hệ tư vấn. Đặc biệt, nghiên cứu tập trung vào việc nâng cao kết quả dự đoán
nhu cầu người dùng trong trường hợp dữ liệu thưa.
3. Các kết quả đạt được của luận văn
Luận văn đã thực hiện đầy đủ những nội dung theo đề cương đã được phê duyệt.
Những kết quả đạt được của luận văn bao gồm:
Nghiên cứu và tổng hợp được những vấn đề tổng quan về lọccộng tác, bao gồm:
- Kiến trúc tổng quát của các hệ thống lọc thông tin, phân biệt hệ thống lọc thông
tinh với các hệ thống khác như hệ thống truy vấn thông tin (Information Retrieval)
hệ thống tách thông tin (Information Extraction);
- Phát biểu bài toán lọccộngtác tổng quát và những vấn đề liên quan.
- Nghiên cứu và tổng hợp lại các phương pháp lọccộngtác tổng quát: Lọccộngtác
dựa trên bộ nhớ (MBCF), lọccộngtácdựatrênmôhình (MDBCF). Phân tích rõ
lợi thể và hạn chế của mỗi phương pháp để xác định mục tiêu nghiên cứu cụ thể
của đề tài.
Nghiên cứu và mở rộng môhìnhđồthịhaiphía cho lọccộng tác, bao gồm:
- Nghiên cứu và mở rộng phương pháp biểu diễn đồthịhaiphía cho lọccộng tác.
Trong đó, phương pháp biểu diễn mở rộng trực tiếp môhình của Huang.
- Nghiên cứu và mở rộng phương pháp dự đoán cho lọccộngtác bằng cách xem xét
bài toán lọccộngtác như bài toán tìm kiếm trênđồ thị.
- Thử nghiệm, so sánh và đánh giá kết quả của môhình so với các phương pháp
khác. Kết quả cho kiểm nghiệm cho thấy, môhình đã cải thiện đáng kể chất lượng dự
đoán cho lọccộng tác. Đặc biệt, môhình hạn chế được vấn đề dữ liệu thưa của lọc
cộng tác.
Xây dựng hệ thống tư vấn lựa chọn phim dựatrênmôhìnhđồthịhai phía. Mô
hình phản ánh đầy đủ các chức năng cơ bản của một hệ thống lọc và cho lại kết quả
tư vấn tốt trong trường hợp dữ liệu thưa.
4. Bố cục của luận văn
Nội dung luận văn được xây dựng thành ba chương, trong đó:
Chương 1. giới thiệu tổng quan về lọccộng tác. Trình bày những nghiên cứu cơ bản
của lọccộng tác, các phương pháp lọccộngtác và những vấn đề cần tiếp tục nghiên cứu
của mỗi phương pháp. Trên cơ những nghiên cứu cơ bản, xác định rõ hướng nghiên cứu cụ
thể của đề tài.
Chương 2. trình bày phương pháp biểu diễn, phương pháp dự đoán cho lọccộngtác
bằng môhìnhđồthịhai phía. Đây cũng là kết quả nghiên cứu chính của đề tài.
Chương 3. Trình bày thiết kế và xây dựng ứng dụng hệ tư vấn lưạ chọn phim. Ứng
dụng được thiết kế và cài đặt theo phương pháp lọccộngtác được trình bày trong chương
2. Cuối cùng là phần kết luận.
CHƯƠNG 1: TỔNG QUAN VỀ LỌCCỘNGTÁC
Mục tiêu chính của chương này trình là bày những vấn đề tổng quan về lọccộng
tác, các phương pháp lọccộng tác, phân tích rõ những hạn chế tồn tại mỗi phương pháp
để từ đó xác định rõ hướng nghiên cứu cụ thể của đề tài. Những kết quả nghiên cứu của
đề tài sẽ được trình bày trong các chương tiếp theo của luận văn.
1.1. Tổng quan về lọc thông tin
1.1.1. Kiến trúc tổng quát của hệ thống lọc thông tin
Một hệ thống lọc thông tin tổng quát bao gồm bốn thành phần cơ bản. Thành phần
phân tích dữ liệu (Data Analyser Component), thành phần môhình người dùng (User
Model Component), thành phần học (Learning Component) và thành phần lọc ( Filtering
Component).
Hinh 1.1. Kiến trúc tổng quát của hệ thống lọc thông tin
1.1.2. Lọc thông tin và truy vấn thông tin
1.1.3. Lọc thông tin và các hệ tư vấn
1.2. Phát biểu bài toán lọccộngtác
Cho tập hợp hữu hạn U = {u
1
, u
2
,…, u
N
} là tập gồm N người dùng, P = {p
1
, p
2
, ,
p
M
} là tập gồm M sản phẩm. Mỗi sản phẩm p
x
P có thể là hàng hóa, phim, ảnh, tạp chí,
tài liệu, sách, báo, dịch vụ hoặc bất kỳ dạng thông tin nào mà người dùng cần đến. Để
thuận tiện trong trình bày, ta viết p
x
P ngắn gọn thành xP; và u
i
U là iU.
Mối quan hệ giữa tập người dùng U và tập sản phẩm P được biểu diễn thông qua
ma trận đánh giá R={ r
ix
}, i = 1 N, x = 1 M. Mỗi giá trị r
ix
thể hiện đánh giá của người
dùng i
U cho một số sản phẩm x
P. Giá trị r
ix
có thể được thu thập trực tiếp bằng cách
hỏi ý kiến người dùng hoặc thu thập gián tiếp thông qua cơ chế phản hồi của người dùng.
Giá trị r
ix
= được hiểu người dùng i chưa đánh giá hoặc chưa bao giờ biết đến sản
phẩm x.
Tiếp đến ta ký hiệu, P
i
P là tập các sản phẩm được đánh giá bởi người dùng iU và
U
x
U là tập các người dùng đã đánh giá sản phẩm xP. Với một người dùng cần được tư
vấn aU (được gọi là người dùng hiện thời, người dùng cần được tư vấn, hay người dùng
tích cực), bài toán lọccộngtác là dự đoán đánh giá của a đối với những mặt hàng x (P \
P
a
), trên cơ sở đó tư vấn cho người dùng a những sản phẩm được đánh giá cao.
Ma trận đánh giá R = (r
ix
) là đầu vào duy nhất của các phương pháp lọccộng tác. Dựa
trên ma trận đầu vào, các phương pháp lọccộngtác thực hiện như được mô tả trong Hình
1.2.
Hinh 1.2. Các thành phần của hệ thống lọccộngtác
Có nhiều phương pháp đề xuất khác nhau để giải quyết bài toán lọccộng tác. Tuy
vậy ta có thể phân loại các phương pháp thành hai cách tiếp cận chính: Lọccộngtácdựa
vào bộ nhớ và lọccộngtácdựa vào mô hình. Nội dung cụ thể của hai phương pháp này
được trình bày trong những mục tiếp theo.
1.3. Phương pháp lọccộngtácdựatrên bộ nhớ
Lọc cộngtácdựatrênđộ bộ nhớ được tiếp cận theo hai phương pháp chính:
Phương pháp lọcdựa vào người dùng (UserBased) và lọcdựa vào sản phẩm (ItemBased).
Mỗi phương pháp đều có những ưu điểm riêng khai thác những khía cạnh liên quan đến
người dùng hoặc sản phẩm. Đặc điểm chung của cả hai phương pháp này là sử dụng toàn
bộ tập dữ liệu đánh giá để dự đoán quan điểm của người dùng cần được tư vấn về các sản
phẩm mà họ chưa hề biết đến.
1.3.1. Phương pháp UserBased và ItemBased
1.3.2. Ví dụ minh họa
1.3.3. Hạn chế của phương pháp User-Based và Item-Based
1.4. Phương pháp dựatrênmôhình
Việc thiết kế và phát triển các môhình (như các thuật toán học máy, khai phá dữ
liệu) có thể cho phép hệ thống học cách nhận biết các mẫu phức tạp dựatrên dữ liệu
huấn luyện, và sau đóđưa ra các dự đoán thông minh cho nhiệm vụ lọccộngtác cho dữ
liệu kiểm thử hay dữ liệu thực, dựatrên các môhình đã học được. Các thuật toán CF dựa
trên mô hình, như là các môhình Bayesian, các môhình phân cụm và các mạng phụ
thuộc đã được nghiên cứu để giải quyết những hạn chế của các thuật toán CF dựatrên bộ
nhớ
1.4.1. Các thuật toán CF mạng bayes tin cậy
1.4.2. Các thuật toán CF phân cụm
1.4.3. Những vấn đề còn hạn chế
1.5. Mục tiêu nghiên cứu của đề tài.
Mục tiêu nghiên cứu chính của đề tài là:
Đưa ra phương pháp biểu diễn đồthị phù hợp với các bộ dữ liệu hiện nay.
Phương pháp xây dựng dựatrênmôhìnhđồthịhaiphía gồm các đỉnh
người dùng và đỉnh sản phẩm. Các đỉnh người dùng và đỉnh sản phẩm được
liên kết với nhau dựatrên dữ liệu đánh giá của người dùng với các sản
phẩm.
Xây dựng và đưa ra phương pháp huấn luyện và dự đoán dựatrênmôhình
đồ thị trọng số.
Thử nghiệm và đánh giá dựatrên các tập dữ liệu thực hiện nay, từ đó rút ra
kết quả để so sánh với các nghiên cứu trước đây để thấy được hiệu quả của
các phương pháp.
CHƯƠNG 2:LỌC CỘNGTÁCDỰATRÊNMÔHÌNHĐỒTHỊ
HAI PHÍA
Nội dung chương này trình bày một môhìnhlọccộngtácdựatrênđồthịhai phía.
Phương pháp biểu diễn phù hợp với tất cả các bộ dữ liệu hiện nay của lọccộng tác.
Phương pháp dự đoán được đưa về bài toán tìm kiếm trênđồthị cho phép ta sử kế thừa
được các thuật toán hiệu quả trênđồ thị. Kết quả thử nghiệm trên dữ liệu thực về phim
cho thấy môhình đề xuất cải thiện đáng kể chất lượng dự đoán cho lọccộng tác.
2.1 Giới thiệu về đồthịhaiphía
Định nghĩa. Đồthị vô hướng G= <T, E>, trong đó T là tập đỉnh, E là tập các cặp
là tập cạnh được gọi là đồthịhaiphía (Đồ thị lưỡng phân, đồthị phân đôi, đồthị đối
sánh) nếu T được chia thành hai tập U, V (T = UV) sao cho với mọi cạnh e =(s,t)
E thì
s
U và tV.
Hinh 2.1. Ví dụ về đồthịhai phía.
[...]... biểu diễn đồthị phù hợp với tất cả các bộ dữ liệu thực của lọccộngtác Đối với vấn đề kết nâng cao kết quả dự đoán cho lọccộng tác, luận văn đề xuất phương pháp xem xét bài toán lọccộngtác như bài toán tìm kiếm trênđồthị Phương pháp dự đoán được qui về việc xem xét các đường đi có độ dài L giữa đỉnh người dùng và đỉnh sản phẩm Việc biểu diễn quan hệ Người dùng- Sản phẩm như một đồthịhaiphía cho... CHỌN PHIM DỰATRÊNMÔHÌNHĐỒTHỊHAIPHÍA Hệ thống tư vấn lựa chọn phim (Film Recommendation System) được xây dựng dựa vào mô hìnhđồthịhaiphía đã được trình bày trong Chương2 Hệ thống cho phép người dùng xem phim, tra cứu nội dung phim, đánh giá phim, tìm kiếm nội dung phim, tư vấn phim và một số chức năng cập nhật thông tin về phim và thông tin người dùng Toàn bộ hệ thống được xây dựng dựatrên công... thưa của lọccộng tác, luận văn sử dụng biểu diễn mô hìnhđồthịhaiphía Trong đó, một phía là tập người dùng, phía còn lại là tập các sản phẩm hệ thống cần cung cấp cho người dùng Mối liên hệ giữa tập người dùng và tập sản phẩm là các cạnh đánh giá của người dùng đối với mỗi sản phẩm Để khắc phục được những hạn chế trước đây, môhình sử dụng phương pháp ước lượng trọng số cho mỗi cạnh của đồthị Phương... đánh giá Dựatrên biểu diễn đồthị này, hệ thống tư vấn có thể được triển khai dễ dàng theo tất cả các khía cạnh: Phân bổ thông tin thích hợp hoặc gỡ bỏ thông tin không thích hợp cho mỗi người dùng Để phân bổ thông tin phù hợp và loại bỏ thông tin không phù hợp cho mỗi người dùng, đồthị tổng quát được thực hiện tách thành haiđồthị con: Đồthị con G+ biểu diễn các đánh giá thích hợp và đồthị con... hiện trên các dạng thông tin đa phương tiện Lọccộngtác có thể lọc được mọi loại thông tin nhưng gặp phải khó khăn khi người dùng dữ liệu đánh giá thưa thớt, một người dùng mới chưa có đánh giá nào về sản phẩm, một sản phẩm mới chưa được người dùng nào đánh giá Dựa vào những nghiên cứu cơ bản này, luận văn tập trung xây dựng môhìnhđồthịhaiphía cho lọccộngtác để giải quyết vấn đề dữ liệu thưa và... nghiệm trên các bộ dữ liệu thực về sách và phim có nhiều mức đánh giá khác nhau cho thấy môhình đề xuất cho lại độ chính xác, độ nhạy và tỷ lệ F cao hơn hẳn các phương pháp ItemBased, UserBased và Huang-Graph Điều đó có thể khẳng định, phương pháp biểu diễn và dự đoán của mô hìnhđồthịhaiphía có trọng số đề xuất cải thiện đáng kể chất lượng dự đoán cho lọccộngtác Ưu điểm nổi bật của môhình so... Tầng dữ liệu 3.2 Môhình các lớp cơ sở 3.3 Các chức năng chính của hệ thống 3.3.1 Giao diện trang chủ của FRS 3.3.2 Mô tả chi tiết phim 3.3.3 Giao diện tìm kiếm thông tin về phim 3.3.4 Hiển thị phim theo thể loại 3.3.5 Tư vấn phim cho người dùng 3.4 Kết luận Hệ thống tư vấn lựa chọn phim được xây dựng dựa vào mô hìnhđồthịhaiphía đã mô tả đầy đủ các chức năng chính của một hệ thống lọc thông tin,... giữa người dùng và sản phẩm Cuối cùng, phương pháp lọctrên mô hìnhđồthịhaiphía được sử dụng để xây dựng hệ tư vấn lựa chọn phim Hệ thống phản ánh đầy đủ các chức năng cơ bản của một hệ thống lọc thông tin, bao gồm thành phần phân tích thông tin, thành phần môhình người dùng, thành phần học và thành phần lọc Hệ thống cho lại kết quả tư vấn tốt trên bộ dữ liệu MovieLens gồm 3900 phim và 6040 người... nổi bật của môhình so với những môhình trước đây là thỏa mãn biểu diễn hiện có của tất cả các tập dữ liệu của lọccộngtác Phương pháp dự đoán được đưa về bài toán tìm kiếm trênđồthị có trọng số cho phép ta phân biệt được mức độ quan trọng của từng loại đường đi bằng cách sử dụng các thuật toán hiệu quả đã được áp dụng thành công cho nhiều ứng dụng khác nhau trênđồthị Chất lượng dự đoán được cải... các đánh giá không thích hợp Quá trình suy diễn trênđồthị G+ phản ánh mức độ phù hợp của sản phẩm tương ứng cho mỗi người dùng Quá trình suy diễn trênđồthị G- phản ánh mức độ không phù hợp của sản phẩm tương ứng cho mỗi người dùng Cuối cùng, kết quả dự đoán được tổ hợp lại làm kết quả dự đoán chung cho cả môhình Trong trường hợp dữ liệu thưa, môhình cho phép mở rộng độ là đường đi từ đỉnh người . pháp.
CHƯƠNG 2:LỌC CỘNG TÁC DỰA TRÊN MÔ HÌNH ĐỒ THỊ
HAI PHÍA
Nội dung chương này trình bày một mô hình lọc cộng tác dựa trên đồ thị hai phía.
Phương. với lọc cộng tác dựa vào bộ nhớ, lọc cộng tác dựa trên mô hình
cho lại kết quả tốt hơn. Chính vì vậy, em đã lựa chọn đề tài Lọc cộng tác dựa trên mô
hình