Thông tin tài liệu
ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
NGUYỄN THU TRANG
HỌC X Ế P HẠNG TRONG TÍNH HẠN G ĐỐI TƯỢNG
VÀ TẠO NHÃN CỤM TÀI LIỆU
Ngành: Công nghệ Thông tin
Chuyên ngành: Hệ thống Thông tin
Mã số: 60 48 05
luận văn thạc sĩ
NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS.TS Hà Quang Thụy
Hà Nội - 2008
Lời cam đoan
Tôi xin cam đoan đây là công trình nghiên cứu của bản thân. Các số liệu, kết quả
trình bày trong luận văn này là trung thực và chưa từng được ai công bố trong bất
kỳ công trình luận văn nào trước đây.
Học Viên
Nguyễn Thu Trang
ii
Lời cảm ơn
Trước tiên, em muốn gửi lời cảm ơn sâu sắc nhất đến PGS.TS Hà Quang Thụy -
Người thầy kính yêu, người hướng dẫn, chỉ bảo em tận tình từ những bước nghiên
cứu đầu tiên và hoàn thành luận văn.
Tôi chân thành cảm ơn các thầy cô trong bộ môn Các Hệ Thống Thông Tin, và
phòng thí nghiệm SISLAB, nhóm xemina Data Mining và đặc biệt gửi lời cảm ơn
tới ThS.Nguyễn Cẩm Tú đã giúp đỡ, hỗ trợ tôi trong quá trình nghiên cứu, hoàn
thành đề tài.
Tôi cảm ơn các thầy cô và các cán bộ của trường Công nghệ đã tạo cho tôi những
điều kiện thuận lợi để học tập và nghiên cứu.
Cuối cùng, xin gửi lời cảm ơn tới gia đình, GB và bạn b è nguồn động viên tinh
thần to lớn với tôi, luôn cổ vũ và tin tưởng tôi.
Nguyễn Thu Trang
iii
Mục lục
MỞ ĐẦU 1
1 Xếp hạng đối tượng 2
1.1 Giới thiệu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.2 Phương pháp PageRank . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.3 Xếp hạng đối tượng . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.4 Phương pháp đánh giá xếp hạng . . . . . . . . . . . . . . . . . . . . . 6
1.5 Tổng kết . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
2 Học xếp hạng 9
2.1 Giới thiệu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
2.2 Phương pháp học xếp hạng . . . . . . . . . . . . . . . . . . . . . . . 11
2.2.1 Hồi quy có thứ tự và Pairwise . . . . . . . . . . . . . . . . . . 11
2.2.2 Học xếp hạng danh sách Listwise . . . . . . . . . . . . . . . . 13
2.3 Tổng kết chương . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
3 Xếp hạng trong máy tìm kiếm thực thể 16
3.1 Máy tìm kiếm thực thể . . . . . . . . . . . . . . . . . . . . . . . . . . 17
iv
MỤC LỤC v
3.2 Xếp hạng thực thể . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
3.2.1 Mô hình Impression . . . . . . . . . . . . . . . . . . . . . . . . 22
3.2.2 Nhận xét, đánh giá mô hình Impression . . . . . . . . . . . . . 27
3.2.3 Mô hình đề xuất . . . . . . . . . . . . . . . . . . . . . . . . . 29
3.3 Thực nghiệm . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
3.3.1 Công cụ sử dụng . . . . . . . . . . . . . . . . . . . . . . . . . 32
3.3.2 Dữ liệu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
3.3.3 Kết quả và đánh giá . . . . . . . . . . . . . . . . . . . . . . . 34
3.4 Tổng kết chương . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
4 Tạo nhãn cụm tài liệu 37
4.1 Giới thiệu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
4.2 Phương pháp lựa chọn nhãn . . . . . . . . . . . . . . . . . . . . . . . 39
4.3 Học xếp hạng nhãn cụm . . . . . . . . . . . . . . . . . . . . . . . . . 42
4.3.1 Các đặc trưng . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
4.3.2 Học hàm tính hạng . . . . . . . . . . . . . . . . . . . . . . . . 44
4.4 Thực nghiệm . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
4.4.1 Nguồn dữ liệu . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
4.4.2 Dữ liệu học . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
4.4.3 Kết quả và đánh giá . . . . . . . . . . . . . . . . . . . . . . . 47
4.5 Tổng kết chương . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
Kết luận 49
Tài liệu tham khảo 51
A Dữ liệu 59
MỤC LỤC vi
A.1 Dữ liệu tìm kiếm thuốc . . . . . . . . . . . . . . . . . . . . . . . . . . 59
A.2 Cây wiki . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
Danh sách hình vẽ 62
Danh sách bảng 63
Bảng ký hiệu và từ viết tắt
Từ viết tắt Mô tả Trang định nghĩa
IR Information Retrieval 6
SVM Suport Vector Machine 2
LTR Learning To Rank 1
MAP Mean Average Precision 7
OR Ordinal R egression 10
vii
MỞ ĐẦU
Xếp hạng các đối tượng (trang Web, tác giả, chủ đề, trường đại học, công ty ) có ý
nghĩa quan trọng t rong lĩnh vực khai phá dữ liệu, là trung tâm của nhiều ứng dụng
- điển hình là máy tìm kiếm. Các phương pháp tính hạng được nghiên cứu và phát
triển từ rất nhiều năm trước, nhưng khoảng 3 năm trở lại đây, hướng tiếp cận sử
dụng phương pháp học máy để xếp hạng đối tượng trở thành một vấn đề thu hút
được rất nhiều sự quan tâm như trong SIGIR 2007 và SIGIR 2008 đã tổ chức hội
thảo chuyên đề về học xếp hạng (learning to rank: LTR)[49].
Học xếp hạng đang được nhiều nhà khoa học trên thế giới quan tâ m nghiên cứu
và ứng dụng, như cải tiến hàm tính hạng trong máy tìm kiếm của nhóm Yuehua Xu
tại ICML năm 2007 [59], mô hình t ính hạng thực thể trong máy tìm kiếm thực thể
của nhóm các tác giả Tao Cheng, Kevin Chang trong [17, 18, 19], và sử dụng học
xếp hạng để đánh giá trọng số của các cụm từ [65, 53].
Luận văn Học x ếp hạng trong tính hạng đối tượng và tạo nhãn cụm tài liệu thực
hiện khảo sát, phân tích các phương pháp học xếp hạng đang được quan tâm hiện
nay và từ đó đưa ra mô hình xếp hạng thực thể áp dụng vào máy tìm kiếm thực thể
trong tiếng Việt, cụ thể là tìm kiếm thực thể thuốc và học xếp hạng để tạo nhãn
cho cụm tài liệu. Qua đó cho thấy ứng dụng to lớn và ý nghĩa quan trọng của bài
toán học xếp hạng.
Luận vă n này gồm bố n chương, nội dung được mô tả như dưới đây.
Chương 1. Tổng quan về xếp hạng đối tượng giới thiệu những nội dung cơ bản
nhất về bài toán xếp hạng và đặt vấn đề học xếp hạng đối tượng.
1
MỞ ĐẦU 2
Chương 2. Học xếp hạng đối tượng trình bày hai phương pháp họ c xếp hạng cơ
bản. Đồng thời, chương này cũng giới thiệu thuật toán học được sử dụng nhiều
trong học xếp hạng là máy véc-tơ hỗ trợ (SVM) và hồi quy tuyến tính.
Chương 3. Học xếp hạng trong máy tìm kiếm thực thể đưa ra mô hình học xếp
hạng đối tượng và thực nghiệm tính hạng thực thể thuốc trong máy tìm kiếm
thực thể.
Chương 4. Gán nhãn c ụm tài liệu phân tích, áp dụng và báo cáo kết quả thực
nghiệm học xếp hạng từ/cụm từ để tạo nhãn cho các cụm tài liệu.
Phần kết luận tổng kết và tóm lược nội dung chính của luận văn.
C h ư ơ n g 1
Xếp hạng đối tượng
1.1 Giới thiệu
Trong nhiều ứng dụng cần xếp hạng các đối tượng theo tiêu chí nào đó, đơn giản
như việc xếp hạng học sinh trong một lớp theo điểm trung bình, hay xếp hạng các
trường đại học, và đặc biệt là việc xếp hạng các kết quả tr ả về của máy tìm kiếm.
Xếp hạng đối tượng là việc sắp xếp các đối tượng theo độ phù hợp với tiêu chí tùy
vào từng ứng dụng cụ thể. Do đó cần xác định hàm tính giá trị về độ phù hợp để
sắp xếp của các đối tượng theo tiêu chí đã đặt ra, và hàm đó được gọi là hàm tính
hạng (ra nking function: RF). Mỗi khi nói tới xếp hạng đối tượng chúng ta quan tâm
tới hàm tính hạng.
Một điển hình của bài toán xếp hạng là việc xếp hạng các kết quả trả về của
máy tìm kiếm. Trong máy tìm kiếm thông thường (như Google, Yahoo) độ quan
trọng hay còn gọi hạng tra ng là đại lượng cơ sở để xếp hạng. Giá trị này được xác
định dựa vào việc phân tích đồ thị liên kết giữa các trang web. Với tập các tài liệu
D = d
1
, d
n
, khi có truy vấn q của người dùng máy tìm kiếm cần tìm những tài liệu
2
[...]... là các trang web như xếp hạng các trường đại học [4, 3, 55], xếp hạng các nhà khoa học, bài báo [48] Với những xếp hạng đơn giản như xếp hạng học sinh theo điểm trung bình, xếp hạng các doanh nghiệp theo doanh thu năm có một tiêu chí xếp hạng rõ ràng và hàm tính hạng "dễ dàng" xác định Tuy nhiên trong nhiều ứng dụng như xếp hạng các trường đại học, xếp hạng các nhà khoa học, xếp hạng các kết quả trả... rõ hơn về bài toán học xếp hạng và ứng dụng Chương 2 Học xếp hạng 2.1 Giới thiệu Các nghiên cứu về học xếp hạng chủ yếu tập trung vào ứng dụng xếp hạng các tài liệu trả về từ máy tìm kiếm dựa theo truy vấn Có tập các tài liệu D = {d1 , d2 , , dn } và với truy vấn q, cần xác định hàm xếp hạng r để sắp xếp các tài liệu D theo độ phù hợp với truy vấn Tổng quát bài toán xếp hạng đối tượng nói chung, ta...3 CHƯƠNG 1 XẾP HẠNG ĐỐI TƯỢNG trong D phù hợp với truy vấn q, và sau đó sắp xếp các tài liệu theo độ phù hợp với truy vấn và độ quan trọng giảm dần Đó là quá trình xếp hạng và hàm tính hạng là hàm kết hợp của giá trị độ tương tự giữa tài liệu với truy vấn similarity(q, di ) và hạng trang thành chỉ số xếp hạng được Arvind Arasu và các tác giả đề cập tới trong [6] Việc xác định hàm tính hạng đóng vai... một xếp hạng, các độ đo thông dụng trong học máy như độ chính xác (precision), độ hồi tưởng (recall), độ đo F không sử dụng Xếp hạng yêu cầu các đối tượng "đúng" (phù hợp tiêu chí) cần được xếp ở các vị trí đầu tiên của bảng xếp hạng càng tốt Giả sử 6 đối tượng tương ứng là: a, b, c, d, e Trong đó a, b, c là các đối tượng phù hợp và d, e là các đối tượng không phù hợp Một xếp hạng của các đối tượng. .. Theo tính chất của chuỗi Markov, tổng các thành phần của véc-tơ π bằng 1: n i=1 πi = 1 Vậy véc-tơ hạng trang chính là véc-tơ riêng của ma trận P 1.3 Xếp hạng đối tượng Hạng trang PageRank là độ đo đầu tiên để xếp hạng các trang web Và vì vậy, có thể coi hạng trang là hàm xếp hạng các đối tượng - cụ thể đối tượng trong trường hợp này là các trang web Và ngày càng có nhiều các nghiên cứu về xếp hạng. .. các đối tượng x = (x1 , , xn ) ∈ Rn , với n là số đặc trưng của mỗi đối tượng Cần tìm hàm h(x) : X → R để sắp xếp các đối tượng x theo độ phù hợp Dữ liệu học S là xếp hạng đúng của một tập các đối tượng X ⊂ X được đưa ra để học hàm h(x) Tùy từng ứng dụng mà người dùng có các mức yêu cầu khác nhau về sắp xếp thứ hạng đúng và có các kiểu dữ liệu học: 1 Xác định giá trị độ phù hợp y cụ thể của từng đối tượng. .. khác nhau giữa hai xếp hạng trên [40] Do đó, thay vì chuyển bài toán xếp hạng về bài toán hồi quy và phân lớp, học xếp hạng từ danh sách sắp thứ hạng đã được các tác giả [62, 12, 10, 50] quan tâm Với Listwise, dữ liệu học là tập S = {x1 , , xn } các đối tượng thuộc X với thứ hạng sắp xếp tương ứng Y = {y1 , , yn } Phương pháp học xếp hạng trực tiếp từ danh sách xếp hạng do Yisong Yue và các đồng tác giả... máy tìm kiếm, mỗi loại đối tượng cần xếp hạng có nhiều đặc trưng khác nhau, cần tìm ra mối quan hệ về độ quan trọng của các đặc trưng đó Và từ đó kết hợp các đặc trưng thành một hàm gọi l hàm tính hạng để xếp hạng các đối tượng Đối tượng có giá trị hạng càng cao thì có thứ hạng càng cao (thứ hạng cao nhất là 1, và lần lượt giảm dần 2, 3 ) Ví dụ, vấn đề xếp hạng các trường đại học đang nhận được nhiều... (đảm bảo tính chất R-Discriminative) Đánh giá chất lượng của xếp hạng các bộ thực thể t tìm được, [18] giới thiệu các phương pháp xếp hạng làm đối sánh: • N (Naive): xếp hạng theo phần trăm các tài liệu có chứa t • L (Local Model Only): xếp hạng dựa theo trọng số cục bộ cao nhất của t trong từng tài liệu • G (Global Aggregation Only): xếp hạng theo tổng trọng số của các tài liệu có chứa t Và PR được... xếp hạng Học xếp hạng được Joachims [36, 49] đánh giá là lĩnh vực nổi lên với sự phát triển lớn mạnh trong các nghiên cứu về truy tìm thông tin (information retrieval )và học máy (machine learning) Nói một cách khác, học hàm tính hạng hiện đang là vấn đề được quan tâm trong lĩnh vực học máy và có nhiều ứng dụng trong truy tìm thông tin, theo [61] Học xếp hạng là học hàm của các đặc trưng để sắp xếp . và sử dụng học xếp hạng để đánh giá trọng số của các cụm từ [65, 53]. Luận văn Học x ếp hạng trong tính hạng đối tượng và tạo nhãn cụm tài liệu thực hiện khảo sát, phân tích các phương pháp học. hạng đối tượng giới thiệu những nội dung cơ bản nhất về bài toán xếp hạng và đặt vấn đề học xếp hạng đối tượng. 1 MỞ ĐẦU 2 Chương 2. Học xếp hạng đối tượng trình bày hai phương pháp họ c xếp hạng. toán học được sử dụng nhiều trong học xếp hạng là máy véc-tơ hỗ trợ (SVM) và hồi quy tuyến tính. Chương 3. Học xếp hạng trong máy tìm kiếm thực thể đưa ra mô hình học xếp hạng đối tượng và thực
Ngày đăng: 28/03/2014, 17:20
Xem thêm: LUẬN VĂN: HỌC XẾP HẠNG TRONG TÍNH HẠNG ĐỐI TƯỢNG VÀ TẠO NHÃN CỤM TÀI LIỆU pdf, LUẬN VĂN: HỌC XẾP HẠNG TRONG TÍNH HẠNG ĐỐI TƯỢNG VÀ TẠO NHÃN CỤM TÀI LIỆU pdf, 4 Phương pháp đánh giá xếp hạng, 2 Phương pháp học xếp hạng, 1 Máy tìm kiếm thực thể, 2 Xếp hạng thực thể, 2 Phương pháp lựa chọn nhãn, 3 Học xếp hạng nhãn cụm, A.1 Dữ liệu tìm kiếm thuốc