LUẬN VĂN: HỌC XẾP HẠNG TRONG TÍNH HẠNG ĐỐI TƯỢNG VÀ TẠO NHÃN CỤM TÀI LIỆU pdf

71 406 0
LUẬN VĂN: HỌC XẾP HẠNG TRONG TÍNH HẠNG ĐỐI TƯỢNG VÀ TẠO NHÃN CỤM TÀI LIỆU pdf

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ NGUYỄN THU TRANG HỌC X Ế P HẠNG TRONG TÍNH HẠN G ĐỐI TƯỢNG VÀ TẠO NHÃN CỤM TÀI LIỆU Ngành: Công nghệ Thông tin Chuyên ngành: Hệ thống Thông tin Mã số: 60 48 05 luận văn thạc sĩ NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS.TS Hà Quang Thụy Hà Nội - 2008 Lời cam đoan Tôi xin cam đoan đây là công trình nghiên cứu của bản thân. Các số liệu, kết quả trình bày trong luận văn này là trung thực chưa từng được ai công bố trong bất kỳ công trình luận văn nào trước đây. Học Viên Nguyễn Thu Trang ii Lời cảm ơn Trước tiên, em muốn gửi lời cảm ơn sâu sắc nhất đến PGS.TS Hà Quang Thụy - Người thầy kính yêu, người hướng dẫn, chỉ bảo em tận tình từ những bước nghiên cứu đầu tiên hoàn thành luận văn. Tôi chân thành cảm ơn các thầy cô trong bộ môn Các Hệ Thống Thông Tin, và phòng thí nghiệm SISLAB, nhóm xemina Data Mining đặc biệt gửi lời cảm ơn tới ThS.Nguyễn Cẩm Tú đã giúp đỡ, hỗ trợ tôi trong quá trình nghiên cứu, hoàn thành đề tài. Tôi cảm ơn các thầy cô các cán bộ của trường Công nghệ đã tạo cho tôi những điều kiện thuận lợi để học tập nghiên cứu. Cuối cùng, xin gửi lời cảm ơn tới gia đình, GB bạn b è nguồn động viên tinh thần to lớn với tôi, luôn cổ vũ tin tưởng tôi. Nguyễn Thu Trang iii Mục lục MỞ ĐẦU 1 1 Xếp hạng đối tượng 2 1.1 Giới thiệu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 1.2 Phương pháp PageRank . . . . . . . . . . . . . . . . . . . . . . . . . 3 1.3 Xếp hạng đối tượng . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5 1.4 Phương pháp đánh giá xếp hạng . . . . . . . . . . . . . . . . . . . . . 6 1.5 Tổng kết . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8 2 Học xếp hạng 9 2.1 Giới thiệu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9 2.2 Phương pháp học xếp hạng . . . . . . . . . . . . . . . . . . . . . . . 11 2.2.1 Hồi quy có thứ tự Pairwise . . . . . . . . . . . . . . . . . . 11 2.2.2 Học xếp hạng danh sách Listwise . . . . . . . . . . . . . . . . 13 2.3 Tổng kết chương . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15 3 Xếp hạng trong máy tìm kiếm thực thể 16 3.1 Máy tìm kiếm thực thể . . . . . . . . . . . . . . . . . . . . . . . . . . 17 iv MỤC LỤC v 3.2 Xếp hạng thực thể . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 3.2.1 Mô hình Impression . . . . . . . . . . . . . . . . . . . . . . . . 22 3.2.2 Nhận xét, đánh giá mô hình Impression . . . . . . . . . . . . . 27 3.2.3 Mô hình đề xuất . . . . . . . . . . . . . . . . . . . . . . . . . 29 3.3 Thực nghiệm . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32 3.3.1 Công cụ sử dụng . . . . . . . . . . . . . . . . . . . . . . . . . 32 3.3.2 Dữ liệu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33 3.3.3 Kết quả đánh giá . . . . . . . . . . . . . . . . . . . . . . . 34 3.4 Tổng kết chương . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36 4 Tạo nhãn cụm tài liệu 37 4.1 Giới thiệu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37 4.2 Phương pháp lựa chọn nhãn . . . . . . . . . . . . . . . . . . . . . . . 39 4.3 Học xếp hạng nhãn cụm . . . . . . . . . . . . . . . . . . . . . . . . . 42 4.3.1 Các đặc trưng . . . . . . . . . . . . . . . . . . . . . . . . . . . 42 4.3.2 Học hàm tính hạng . . . . . . . . . . . . . . . . . . . . . . . . 44 4.4 Thực nghiệm . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45 4.4.1 Nguồn dữ liệu . . . . . . . . . . . . . . . . . . . . . . . . . . . 45 4.4.2 Dữ liệu học . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46 4.4.3 Kết quả đánh giá . . . . . . . . . . . . . . . . . . . . . . . 47 4.5 Tổng kết chương . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48 Kết luận 49 Tài liệu tham khảo 51 A Dữ liệu 59 MỤC LỤC vi A.1 Dữ liệu tìm kiếm thuốc . . . . . . . . . . . . . . . . . . . . . . . . . . 59 A.2 Cây wiki . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60 Danh sách hình vẽ 62 Danh sách bảng 63 Bảng ký hiệu từ viết tắt Từ viết tắt Mô tả Trang định nghĩa IR Information Retrieval 6 SVM Suport Vector Machine 2 LTR Learning To Rank 1 MAP Mean Average Precision 7 OR Ordinal R egression 10 vii MỞ ĐẦU Xếp hạng các đối tượng (trang Web, tác giả, chủ đề, trường đại học, công ty ) có ý nghĩa quan trọng t rong lĩnh vực khai phá dữ liệu, là trung tâm của nhiều ứng dụng - điển hình là máy tìm kiếm. Các phương pháp tính hạng được nghiên cứu phát triển từ rất nhiều năm trước, nhưng khoảng 3 năm trở lại đây, hướng tiếp cận sử dụng phương pháp học máy để xếp hạng đối tượng trở thành một vấn đề thu hút được rất nhiều sự quan tâm như trong SIGIR 2007 SIGIR 2008 đã tổ chức hội thảo chuyên đề về học xếp hạng (learning to rank: LTR)[49]. Học xếp hạng đang được nhiều nhà khoa học trên thế giới quan tâ m nghiên cứu và ứng dụng, như cải tiến hàm tính hạng trong máy tìm kiếm của nhóm Yuehua Xu tại ICML năm 2007 [59], mô hình t ính hạng thực thể trong máy tìm kiếm thực thể của nhóm các tác giả Tao Cheng, Kevin Chang trong [17, 18, 19], sử dụng học xếp hạng để đánh giá trọng số của các cụm từ [65, 53]. Luận văn Học x ếp hạng trong tính hạng đối tượng tạo nhãn cụm tài liệu thực hiện khảo sát, phân tích các phương pháp học xếp hạng đang được quan tâm hiện nay từ đó đưa ra mô hình xếp hạng thực thể áp dụng vào máy tìm kiếm thực thể trong tiếng Việt, cụ thể là tìm kiếm thực thể thuốc học xếp hạng để tạo nhãn cho cụm tài liệu. Qua đó cho thấy ứng dụng to lớn ý nghĩa quan trọng của bài toán học xếp hạng. Luận n này gồm bố n chương, nội dung được mô tả như dưới đây. Chương 1. Tổng quan về xếp hạng đối tượng giới thiệu những nội dung cơ bản nhất về bài toán xếp hạng đặt vấn đề học xếp hạng đối tượng. 1 MỞ ĐẦU 2 Chương 2. Học xếp hạng đối tượng trình bày hai phương pháp họ c xếp hạng cơ bản. Đồng thời, chương này cũng giới thiệu thuật toán học được sử dụng nhiều trong học xếp hạng là máy véc-tơ hỗ trợ (SVM) hồi quy tuyến tính. Chương 3. Học xếp hạng trong máy tìm kiếm thực thể đưa ra mô hình học xếp hạng đối tượng thực nghiệm tính hạng thực thể thuốc trong máy tìm kiếm thực thể. Chương 4. Gán nhãn c ụm tài liệu phân tích, áp dụng báo cáo kết quả thực nghiệm học xếp hạng từ/cụm từ để tạo nhãn cho các cụm tài liệu. Phần kết luận tổng kết tóm lược nội dung chính của luận văn. C h ư ơ n g 1 Xếp hạng đối tượng 1.1 Giới thiệu Trong nhiều ứng dụng cần xếp hạng các đối tượng theo tiêu chí nào đó, đơn giản như việc xếp hạng học sinh trong một lớp theo điểm trung bình, hay xếp hạng các trường đại học, đặc biệt là việc xếp hạng các kết quả tr ả về của máy tìm kiếm. Xếp hạng đối tượng là việc sắp xếp các đối tượng theo độ phù hợp với tiêu chí tùy vào từng ứng dụng cụ thể. Do đó cần xác định hàm tính giá trị về độ phù hợp để sắp xếp của các đối tượng theo tiêu chí đã đặt ra, hàm đó được gọi là hàm tính hạng (ra nking function: RF). Mỗi khi nói tới xếp hạng đối tượng chúng ta quan tâm tới hàm tính hạng. Một điển hình của bài toán xếp hạng là việc xếp hạng các kết quả trả về của máy tìm kiếm. Trong máy tìm kiếm thông thường (như Google, Yahoo) độ quan trọng hay còn gọi hạng tra ng là đại lượng cơ sở để xếp hạng. Giá trị này được xác định dựa vào việc phân tích đồ thị liên kết giữa các trang web. Với tập các tài liệu D = d 1 , d n , khi có truy vấn q của người dùng máy tìm kiếm cần tìm những tài liệu 2 [...]... là các trang web như xếp hạng các trường đại học [4, 3, 55], xếp hạng các nhà khoa học, bài báo [48] Với những xếp hạng đơn giản như xếp hạng học sinh theo điểm trung bình, xếp hạng các doanh nghiệp theo doanh thu năm có một tiêu chí xếp hạng rõ ràng hàm tính hạng "dễ dàng" xác định Tuy nhiên trong nhiều ứng dụng như xếp hạng các trường đại học, xếp hạng các nhà khoa học, xếp hạng các kết quả trả... rõ hơn về bài toán học xếp hạng ứng dụng Chương 2 Học xếp hạng 2.1 Giới thiệu Các nghiên cứu về học xếp hạng chủ yếu tập trung vào ứng dụng xếp hạng các tài liệu trả về từ máy tìm kiếm dựa theo truy vấn Có tập các tài liệu D = {d1 , d2 , , dn } với truy vấn q, cần xác định hàm xếp hạng r để sắp xếp các tài liệu D theo độ phù hợp với truy vấn Tổng quát bài toán xếp hạng đối tượng nói chung, ta...3 CHƯƠNG 1 XẾP HẠNG ĐỐI TƯỢNG trong D phù hợp với truy vấn q, sau đó sắp xếp các tài liệu theo độ phù hợp với truy vấn độ quan trọng giảm dần Đó là quá trình xếp hạng hàm tính hạng là hàm kết hợp của giá trị độ tương tự giữa tài liệu với truy vấn similarity(q, di ) hạng trang thành chỉ số xếp hạng được Arvind Arasu các tác giả đề cập tới trong [6] Việc xác định hàm tính hạng đóng vai... một xếp hạng, các độ đo thông dụng trong học máy như độ chính xác (precision), độ hồi tưởng (recall), độ đo F không sử dụng Xếp hạng yêu cầu các đối tượng "đúng" (phù hợp tiêu chí) cần được xếp ở các vị trí đầu tiên của bảng xếp hạng càng tốt Giả sử 6 đối tượng tương ứng là: a, b, c, d, e Trong đó a, b, c là các đối tượng phù hợp d, e là các đối tượng không phù hợp Một xếp hạng của các đối tượng. .. Theo tính chất của chuỗi Markov, tổng các thành phần của véc-tơ π bằng 1: n i=1 πi = 1 Vậy véc-tơ hạng trang chính là véc-tơ riêng của ma trận P 1.3 Xếp hạng đối tượng Hạng trang PageRank là độ đo đầu tiên để xếp hạng các trang web vì vậy, có thể coi hạng trang là hàm xếp hạng các đối tượng - cụ thể đối tượng trong trường hợp này là các trang web ngày càng có nhiều các nghiên cứu về xếp hạng. .. các đối tượng x = (x1 , , xn ) ∈ Rn , với n là số đặc trưng của mỗi đối tượng Cần tìm hàm h(x) : X → R để sắp xếp các đối tượng x theo độ phù hợp Dữ liệu học S là xếp hạng đúng của một tập các đối tượng X ⊂ X được đưa ra để học hàm h(x) Tùy từng ứng dụng mà người dùng có các mức yêu cầu khác nhau về sắp xếp thứ hạng đúng có các kiểu dữ liệu học: 1 Xác định giá trị độ phù hợp y cụ thể của từng đối tượng. .. khác nhau giữa hai xếp hạng trên [40] Do đó, thay vì chuyển bài toán xếp hạng về bài toán hồi quy phân lớp, học xếp hạng từ danh sách sắp thứ hạng đã được các tác giả [62, 12, 10, 50] quan tâm Với Listwise, dữ liệu học là tập S = {x1 , , xn } các đối tượng thuộc X với thứ hạng sắp xếp tương ứng Y = {y1 , , yn } Phương pháp học xếp hạng trực tiếp từ danh sách xếp hạng do Yisong Yue các đồng tác giả... máy tìm kiếm, mỗi loại đối tượng cần xếp hạng có nhiều đặc trưng khác nhau, cần tìm ra mối quan hệ về độ quan trọng của các đặc trưng đó từ đó kết hợp các đặc trưng thành một hàm gọi l hàm tính hạng để xếp hạng các đối tượng Đối tượng có giá trị hạng càng cao thì có thứ hạng càng cao (thứ hạng cao nhất là 1, lần lượt giảm dần 2, 3 ) Ví dụ, vấn đề xếp hạng các trường đại học đang nhận được nhiều... (đảm bảo tính chất R-Discriminative) Đánh giá chất lượng của xếp hạng các bộ thực thể t tìm được, [18] giới thiệu các phương pháp xếp hạng làm đối sánh: • N (Naive): xếp hạng theo phần trăm các tài liệu có chứa t • L (Local Model Only): xếp hạng dựa theo trọng số cục bộ cao nhất của t trong từng tài liệu • G (Global Aggregation Only): xếp hạng theo tổng trọng số của các tài liệu có chứa t PR được... xếp hạng Học xếp hạng được Joachims [36, 49] đánh giá là lĩnh vực nổi lên với sự phát triển lớn mạnh trong các nghiên cứu về truy tìm thông tin (information retrieval )và học máy (machine learning) Nói một cách khác, học hàm tính hạng hiện đang là vấn đề được quan tâm trong lĩnh vực học máy có nhiều ứng dụng trong truy tìm thông tin, theo [61] Học xếp hạnghọc hàm của các đặc trưng để sắp xếp . và sử dụng học xếp hạng để đánh giá trọng số của các cụm từ [65, 53]. Luận văn Học x ếp hạng trong tính hạng đối tượng và tạo nhãn cụm tài liệu thực hiện khảo sát, phân tích các phương pháp học. hạng đối tượng giới thiệu những nội dung cơ bản nhất về bài toán xếp hạng và đặt vấn đề học xếp hạng đối tượng. 1 MỞ ĐẦU 2 Chương 2. Học xếp hạng đối tượng trình bày hai phương pháp họ c xếp hạng. toán học được sử dụng nhiều trong học xếp hạng là máy véc-tơ hỗ trợ (SVM) và hồi quy tuyến tính. Chương 3. Học xếp hạng trong máy tìm kiếm thực thể đưa ra mô hình học xếp hạng đối tượng và thực

Ngày đăng: 28/03/2014, 17:20

Từ khóa liên quan

Mục lục

  • MỞ ĐẦU

  • 1 Xếp hạng đối tượng

    • 1.1 Giới thiệu

    • 1.2 Phương pháp PageRank

    • 1.3 Xếp hạng đối tượng

    • 1.4 Phương pháp đánh giá xếp hạng

    • 1.5 Tổng kết

    • 2 Học xếp hạng

      • 2.1 Giới thiệu

      • 2.2 Phương pháp học xếp hạng

        • 2.2.1 Hồi quy có thứ tự và Pairwise

        • 2.2.2 Học xếp hạng danh sách Listwise

        • 2.3 Tổng kết chương

        • 3 Xếp hạng trong máy tìm kiếm thực thể

          • 3.1 Máy tìm kiếm thực thể

          • 3.2 Xếp hạng thực thể

            • 3.2.1 Mô hình Impression

            • 3.2.2 Nhận xét, đánh giá mô hình Impression

            • 3.2.3 Mô hình đề xuất

            • 3.3 Thực nghiệm

              • 3.3.1 Công cụ sử dụng

              • 3.3.2 Dữ liệu

              • 3.3.3 Kết quả và đánh giá

              • 3.4 Tổng kết chương

              • 4 Tạo nhãn cụm tài liệu

                • 4.1 Giới thiệu

                • 4.2 Phương pháp lựa chọn nhãn

Tài liệu cùng người dùng

Tài liệu liên quan