Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 71 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
71
Dung lượng
1,63 MB
Nội dung
ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
NGUYỄN THU TRANG
HỌC X Ế P HẠNGTRONGTÍNH HẠN G ĐỐI TƯỢNG
VÀ TẠONHÃNCỤMTÀI LIỆU
Ngành: Công nghệ Thông tin
Chuyên ngành: Hệ thống Thông tin
Mã số: 60 48 05
luận văn thạc sĩ
NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS.TS Hà Quang Thụy
Hà Nội - 2008
Lời cam đoan
Tôi xin cam đoan đây là công trình nghiên cứu của bản thân. Các số liệu, kết quả
trình bày trongluận văn này là trung thực và chưa từng được ai công bố trong bất
kỳ công trình luận văn nào trước đây.
Học Viên
Nguyễn Thu Trang
ii
Lời cảm ơn
Trước tiên, em muốn gửi lời cảm ơn sâu sắc nhất đến PGS.TS Hà Quang Thụy -
Người thầy kính yêu, người hướng dẫn, chỉ bảo em tận tình từ những bước nghiên
cứu đầu tiên và hoàn thành luận văn.
Tôi chân thành cảm ơn các thầy cô trong bộ môn Các Hệ Thống Thông Tin, và
phòng thí nghiệm SISLAB, nhóm xemina Data Mining và đặc biệt gửi lời cảm ơn
tới ThS.Nguyễn Cẩm Tú đã giúp đỡ, hỗ trợ tôi trong quá trình nghiên cứu, hoàn
thành đề tài.
Tôi cảm ơn các thầy cô và các cán bộ của trường Công nghệ đã tạo cho tôi những
điều kiện thuận lợi để học tập và nghiên cứu.
Cuối cùng, xin gửi lời cảm ơn tới gia đình, GB và bạn b è nguồn động viên tinh
thần to lớn với tôi, luôn cổ vũ và tin tưởng tôi.
Nguyễn Thu Trang
iii
Mục lục
MỞ ĐẦU 1
1 Xếphạngđốitượng 2
1.1 Giới thiệu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.2 Phương pháp PageRank . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.3 Xếphạngđốitượng . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.4 Phương pháp đánh giá xếphạng . . . . . . . . . . . . . . . . . . . . . 6
1.5 Tổng kết . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
2 Họcxếphạng 9
2.1 Giới thiệu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
2.2 Phương pháp họcxếphạng . . . . . . . . . . . . . . . . . . . . . . . 11
2.2.1 Hồi quy có thứ tự và Pairwise . . . . . . . . . . . . . . . . . . 11
2.2.2 Họcxếphạng danh sách Listwise . . . . . . . . . . . . . . . . 13
2.3 Tổng kết chương . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
3 Xếphạngtrong máy tìm kiếm thực thể 16
3.1 Máy tìm kiếm thực thể . . . . . . . . . . . . . . . . . . . . . . . . . . 17
iv
MỤC LỤC v
3.2 Xếphạng thực thể . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
3.2.1 Mô hình Impression . . . . . . . . . . . . . . . . . . . . . . . . 22
3.2.2 Nhận xét, đánh giá mô hình Impression . . . . . . . . . . . . . 27
3.2.3 Mô hình đề xuất . . . . . . . . . . . . . . . . . . . . . . . . . 29
3.3 Thực nghiệm . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
3.3.1 Công cụ sử dụng . . . . . . . . . . . . . . . . . . . . . . . . . 32
3.3.2 Dữ liệu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
3.3.3 Kết quả và đánh giá . . . . . . . . . . . . . . . . . . . . . . . 34
3.4 Tổng kết chương . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
4 Tạonhãncụmtàiliệu 37
4.1 Giới thiệu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
4.2 Phương pháp lựa chọn nhãn . . . . . . . . . . . . . . . . . . . . . . . 39
4.3 Họcxếphạngnhãncụm . . . . . . . . . . . . . . . . . . . . . . . . . 42
4.3.1 Các đặc trưng . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
4.3.2 Học hàm tínhhạng . . . . . . . . . . . . . . . . . . . . . . . . 44
4.4 Thực nghiệm . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
4.4.1 Nguồn dữ liệu . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
4.4.2 Dữ liệuhọc . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
4.4.3 Kết quả và đánh giá . . . . . . . . . . . . . . . . . . . . . . . 47
4.5 Tổng kết chương . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
Kết luận 49
Tài liệu tham khảo 51
A Dữ liệu 59
MỤC LỤC vi
A.1 Dữ liệu tìm kiếm thuốc . . . . . . . . . . . . . . . . . . . . . . . . . . 59
A.2 Cây wiki . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
Danh sách hình vẽ 62
Danh sách bảng 63
Bảng ký hiệu và từ viết tắt
Từ viết tắt Mô tả Trang định nghĩa
IR Information Retrieval 6
SVM Suport Vector Machine 2
LTR Learning To Rank 1
MAP Mean Average Precision 7
OR Ordinal R egression 10
vii
MỞ ĐẦU
Xếp hạng các đốitượng (trang Web, tác giả, chủ đề, trường đại học, công ty ) có ý
nghĩa quan trọng t rong lĩnh vực khai phá dữ liệu, là trung tâm của nhiều ứng dụng
- điển hình là máy tìm kiếm. Các phương pháp tínhhạng được nghiên cứu và phát
triển từ rất nhiều năm trước, nhưng khoảng 3 năm trở lại đây, hướng tiếp cận sử
dụng phương pháp học máy để xếphạngđốitượng trở thành một vấn đề thu hút
được rất nhiều sự quan tâm như trong SIGIR 2007 và SIGIR 2008 đã tổ chức hội
thảo chuyên đề về họcxếphạng (learning to rank: LTR)[49].
Học xếphạng đang được nhiều nhà khoa học trên thế giới quan tâ m nghiên cứu
và ứng dụng, như cải tiến hàm tínhhạngtrong máy tìm kiếm của nhóm Yuehua Xu
tại ICML năm 2007 [59], mô hình t ính hạng thực thể trong máy tìm kiếm thực thể
của nhóm các tác giả Tao Cheng, Kevin Chang trong [17, 18, 19], và sử dụng học
xếp hạng để đánh giá trọng số của các cụm từ [65, 53].
Luận văn Học x ếp hạngtrongtínhhạngđốitượngvàtạonhãncụmtàiliệu thực
hiện khảo sát, phân tích các phương pháp họcxếphạng đang được quan tâm hiện
nay và từ đó đưa ra mô hình xếphạng thực thể áp dụng vào máy tìm kiếm thực thể
trong tiếng Việt, cụ thể là tìm kiếm thực thể thuốc vàhọcxếphạng để tạo nhãn
cho cụmtài liệu. Qua đó cho thấy ứng dụng to lớn và ý nghĩa quan trọng của bài
toán họcxếp hạng.
Luận vă n này gồm bố n chương, nội dung được mô tả như dưới đây.
Chương 1. Tổng quan về xếphạngđốitượng giới thiệu những nội dung cơ bản
nhất về bài toán xếphạngvà đặt vấn đề họcxếphạngđối tượng.
1
MỞ ĐẦU 2
Chương 2. Họcxếphạngđốitượng trình bày hai phương pháp họ c xếphạng cơ
bản. Đồng thời, chương này cũng giới thiệu thuật toán học được sử dụng nhiều
trong họcxếphạng là máy véc-tơ hỗ trợ (SVM) và hồi quy tuyến tính.
Chương 3. Họcxếphạngtrong máy tìm kiếm thực thể đưa ra mô hình học xếp
hạng đốitượngvà thực nghiệm tínhhạng thực thể thuốc trong máy tìm kiếm
thực thể.
Chương 4. Gán nhãn c ụm tàiliệu phân tích, áp dụng và báo cáo kết quả thực
nghiệm họcxếphạng từ/cụm từ để tạonhãn cho các cụmtài liệu.
Phần kết luận tổng kết và tóm lược nội dung chính của luận văn.
C h ư ơ n g 1
Xếp hạngđối tượng
1.1 Giới thiệu
Trong nhiều ứng dụng cần xếphạng các đốitượng theo tiêu chí nào đó, đơn giản
như việc xếphạnghọc sinh trong một lớp theo điểm trung bình, hay xếphạng các
trường đại học, và đặc biệt là việc xếphạng các kết quả tr ả về của máy tìm kiếm.
Xếp hạngđốitượng là việc sắp xếp các đốitượng theo độ phù hợp với tiêu chí tùy
vào từng ứng dụng cụ thể. Do đó cần xác định hàm tính giá trị về độ phù hợp để
sắp xếp của các đốitượng theo tiêu chí đã đặt ra, và hàm đó được gọi là hàm tính
hạng (ra nking function: RF). Mỗi khi nói tới xếphạngđốitượng chúng ta quan tâm
tới hàm tính hạng.
Một điển hình của bài toán xếphạng là việc xếphạng các kết quả trả về của
máy tìm kiếm. Trong máy tìm kiếm thông thường (như Google, Yahoo) độ quan
trọng hay còn gọi hạng tra ng là đại lượng cơ sở để xếp hạng. Giá trị này được xác
định dựa vào việc phân tích đồ thị liên kết giữa các trang web. Với tập các tài liệu
D = d
1
, d
n
, khi có truy vấn q của người dùng máy tìm kiếm cần tìm những tài liệu
2
[...]... là các trang web như xếphạng các trường đại học [4, 3, 55], xếphạng các nhà khoa học, bài báo [48] Với những xếphạng đơn giản như xếphạnghọc sinh theo điểm trung bình, xếphạng các doanh nghiệp theo doanh thu năm có một tiêu chí xếphạng rõ ràng và hàm tínhhạng "dễ dàng" xác định Tuy nhiên trong nhiều ứng dụng như xếphạng các trường đại học, xếphạng các nhà khoa học, xếphạng các kết quả trả... rõ hơn về bài toán họcxếphạngvà ứng dụng Chương 2 Họcxếphạng 2.1 Giới thiệu Các nghiên cứu về họcxếphạng chủ yếu tập trung vào ứng dụng xếphạng các tàiliệu trả về từ máy tìm kiếm dựa theo truy vấn Có tập các tàiliệu D = {d1 , d2 , , dn } và với truy vấn q, cần xác định hàm xếphạng r để sắp xếp các tàiliệu D theo độ phù hợp với truy vấn Tổng quát bài toán xếphạngđốitượng nói chung, ta...3 CHƯƠNG 1 XẾPHẠNGĐỐITƯỢNGtrong D phù hợp với truy vấn q, và sau đó sắp xếp các tàiliệu theo độ phù hợp với truy vấn và độ quan trọng giảm dần Đó là quá trình xếphạngvà hàm tínhhạng là hàm kết hợp của giá trị độ tương tự giữa tàiliệu với truy vấn similarity(q, di ) vàhạng trang thành chỉ số xếphạng được Arvind Arasu và các tác giả đề cập tới trong [6] Việc xác định hàm tínhhạng đóng vai... một xếp hạng, các độ đo thông dụng tronghọc máy như độ chính xác (precision), độ hồi tưởng (recall), độ đo F không sử dụng Xếphạng yêu cầu các đốitượng "đúng" (phù hợp tiêu chí) cần được xếp ở các vị trí đầu tiên của bảng xếphạng càng tốt Giả sử 6 đốitượngtương ứng là: a, b, c, d, e Trong đó a, b, c là các đốitượng phù hợp và d, e là các đốitượng không phù hợp Một xếphạng của các đối tượng. .. Theo tính chất của chuỗi Markov, tổng các thành phần của véc-tơ π bằng 1: n i=1 πi = 1 Vậy véc-tơ hạng trang chính là véc-tơ riêng của ma trận P 1.3 XếphạngđốitượngHạng trang PageRank là độ đo đầu tiên để xếphạng các trang web Và vì vậy, có thể coi hạng trang là hàm xếphạng các đốitượng - cụ thể đốitượngtrong trường hợp này là các trang web Và ngày càng có nhiều các nghiên cứu về xếp hạng. .. các đốitượng x = (x1 , , xn ) ∈ Rn , với n là số đặc trưng của mỗi đốitượng Cần tìm hàm h(x) : X → R để sắp xếp các đốitượng x theo độ phù hợp Dữ liệuhọc S là xếphạng đúng của một tập các đốitượng X ⊂ X được đưa ra để học hàm h(x) Tùy từng ứng dụng mà người dùng có các mức yêu cầu khác nhau về sắp xếp thứ hạng đúng và có các kiểu dữ liệu học: 1 Xác định giá trị độ phù hợp y cụ thể của từng đối tượng. .. khác nhau giữa hai xếphạng trên [40] Do đó, thay vì chuyển bài toán xếphạng về bài toán hồi quy và phân lớp, họcxếphạng từ danh sách sắp thứ hạng đã được các tác giả [62, 12, 10, 50] quan tâm Với Listwise, dữ liệuhọc là tập S = {x1 , , xn } các đốitượng thuộc X với thứ hạng sắp xếptương ứng Y = {y1 , , yn } Phương pháp họcxếphạng trực tiếp từ danh sách xếphạng do Yisong Yue và các đồng tác giả... máy tìm kiếm, mỗi loại đốitượng cần xếphạng có nhiều đặc trưng khác nhau, cần tìm ra mối quan hệ về độ quan trọng của các đặc trưng đó Và từ đó kết hợp các đặc trưng thành một hàm gọi l hàm tínhhạng để xếphạng các đốitượngĐốitượng có giá trị hạng càng cao thì có thứ hạng càng cao (thứ hạng cao nhất là 1, và lần lượt giảm dần 2, 3 ) Ví dụ, vấn đề xếphạng các trường đại học đang nhận được nhiều... (đảm bảo tính chất R-Discriminative) Đánh giá chất lượng của xếphạng các bộ thực thể t tìm được, [18] giới thiệu các phương pháp xếphạng làm đối sánh: • N (Naive): xếphạng theo phần trăm các tàiliệu có chứa t • L (Local Model Only): xếphạng dựa theo trọng số cục bộ cao nhất của t trong từng tàiliệu • G (Global Aggregation Only): xếphạng theo tổng trọng số của các tàiliệu có chứa t Và PR được... xếphạngHọcxếphạng được Joachims [36, 49] đánh giá là lĩnh vực nổi lên với sự phát triển lớn mạnh trong các nghiên cứu về truy tìm thông tin (information retrieval )và học máy (machine learning) Nói một cách khác, học hàm tínhhạng hiện đang là vấn đề được quan tâm trong lĩnh vực học máy và có nhiều ứng dụng trong truy tìm thông tin, theo [61] Họcxếphạng là học hàm của các đặc trưng để sắp xếp . và sử dụng học xếp hạng để đánh giá trọng số của các cụm từ [65, 53]. Luận văn Học x ếp hạng trong tính hạng đối tượng và tạo nhãn cụm tài liệu thực hiện khảo sát, phân tích các phương pháp học. hạng đối tượng giới thiệu những nội dung cơ bản nhất về bài toán xếp hạng và đặt vấn đề học xếp hạng đối tượng. 1 MỞ ĐẦU 2 Chương 2. Học xếp hạng đối tượng trình bày hai phương pháp họ c xếp hạng. toán học được sử dụng nhiều trong học xếp hạng là máy véc-tơ hỗ trợ (SVM) và hồi quy tuyến tính. Chương 3. Học xếp hạng trong máy tìm kiếm thực thể đưa ra mô hình học xếp hạng đối tượng và thực