Web mining in Thematic Search Engines
Web mining in Thematic Search Engines I.Giới thiệu Gần đây sự cải tiến của công nghệ Search engine có thế tạo cho người sử dụng Internet một lượng lớn tri thức mà có thể truy cập trên nhiều đường khác nhau. Hiện nay phần lớn mọi người dùng Search engine cung cấp khả năng tìm kiếm trên cơ sở dữ liệu của hàng tỉ trang Web, nơi mà những câu truy vấn được thực hiện ngay tức khắc. Trọng tâm là quá trình chuyển số lượng lớn (sự duy trì và lập chỉ mục trên cơ sở dữ liệu lớn của trang Web và quá trình chọn nhanh những trang thoả một vài tiểu chuẩn) đến đặc trưng ( quá trình nhận dạng trang với đặc trưng lớn của người sử dụng). Một phương hướng thúc đẩy sự phát triển tự nhiên của người sử dụng Internet đó là bây giờ họ có thể chọn công cụ tìm kiếm và sẳn sàng trả tiền cho nhà cung cấp hệ thống và chờ đợi để truy vấn của họ được trả lời tốt hơn. Trong khung cảnh đó, có vài vấn đề được đề cập sử dụng của khai phá dữ liệu và kỹ thuật tối ưu hoá, mà thường được gọi là Web mining (khai phá dữ liệu Web). Ở đây, chúng ta mô tả phương thức cải tiến cho kết quả tìm kiếm chuẩn trong Search engine, ở tài liệu và trang có giá trị giới hạn của số tiêu đề, và người dùng có các mô tả hạn chế. Sử dụng phương thức kỹ thuật phân cụm (cluster) để khai báo, trong tập hợp của trang kết quả từ truy vấn đơn, những tập hợp con đồng nhất một khía cạnh nào đó với vector nền tảng trong ngữ cảnh hoặc mô tả; khi chúng ta xây dựng số nhỏ và tiềm năng của tập hợp con tốt của những trang, thì mỗi đoạn của mỗi phân cụm (cluster) trang với điểm cao hơn. Hoạt động trên tập hợp con của thuật toán di truyền, chúng ta khai báo một tập hợp con với tất cả điểm tốt và ở bên trong tính không đồng dạng cao. Mỗi tập hợp con cung cấp cho người sử dụng một vài trang không giống hệt nhau rằng miêu tả sự đúng của cấu trúc của tập hợp ban đầu của trang. Bởi vì những trang chúng ta thấy bằng thuật toán vector có chiều cố định, vai trò ngữ cảnh hoặc mô tả cơ bản vector trung tâm và cụ thể thuộc cách tiếp cận của phương thức này. II. Nền tảng (Background) Với P là tập hợp của những trang Web, với p P∈ chỉ số trang trong tập hợp. Bây giờ cho rằng P là kết quả của truy vấn chuẩn đến cơ sở dữ liệu của trang, và như vậy đại diện tập hợp của trang mà thoả mãn một vài điều kiện biểu diễn của người sử dụng. Mỗi trang p P∈ kết hợp với điểm cơ bản trong truy vấn tạo ra P, mà xác định thứ tự những trang có mặt trình bày trong truy vấn. Vai trò của thứ tự quyết định đặc trưng của tìm kiếm: Trên thực tế, nếu chiều của P có liên quan, khả năng có thể xảy ra người sử dụng trang P có thể giảm những vị trí của p cũng có thể tăng. Với những khả năng như vậy dẫn đến hai hạn chế sau: Trang năm ở vị trí đầu tiên có khả năng là đồng dạng (hoặc bằng nhau) với mỗi trang cùng vị trí; những trang mà không có điểm cao nhưng điển hình của một vài hướng của tập hợp P - 1 - mà xuất hiện những vị trí rất thấp trong phân cấp, với khả năng xảy ra không đáng kể khi người sử dụng bắt đầu. Phương thức này chúng ta cố gắn vượt qua hai hạn chế, trọng tâm của việc chọn từ ban đầu của tập hợp P nhỏ của tập hợp các trang với điểm cao và tách ra đầy đủ từ mỗi trang. Với điều kiện cần áp dụng cách tiếp cận có giá trị cộng thêm thông tin từ người sử dụng, tạo ra một ngữ cảnh tìm kiếm ( tạo ra tiêu đề chung để tìm kiếm có thể tìm đến, không nhất thiết liên kết với từ khoá tìm kiếm cho việc tạo ra tập hợp P), và người sử dụng khai báo ( nhận ra sự chủ quan của người sử dụng, mà cung cấp trực tiếp bằng cách chọn trong số tập hợp xác định trước được khai báo hoặc được lấy ra từ trang đã được duyệt qua của người dùng trước đó). III.Các điểm chính: Khái niệm cơ bản của phương thức là sử dụng thông tin truyền bằng tìm kiếm ngữ cảnh hoặc sử dụng khai báo và phân tích cấu trúc của P và quyết định trong tập hợp con tối ưu nhỏ nhất mà trình bày tất cả thông tin có giá trị. Được hoàn thành trong ba bước. Bước thứ nhất: Tìm kiếm ngữ cảnh và người sử dụng khai báo sử dụng trích đoạn có giới hạn của từ quan trọng hoặc đặc điểm trang được sử dụng tạo ra, từ tất cả các trang trong P, vector đặc điểm (vector trang). Như vậy vector miêu tả đường đặc biệt nhìn thấy trang, rõ ràng mỗi ngữ cảnh/khai báo và tạo thành nền theo các bước cơ bản. Thứ hai, vector trang được phân tích bằng thuật toán phân cụm (clustering algorithm) mà các phân đoạn nằm trong tập hợp con của trang đồng dạng. Nó được quy vào hai chiều phân cấp của trang, mỗi trang p có thể bây giờ được sắp đặt theo điểm chính trong cụm của nó. Với điểm mục tiêu cung cấp cho người sử dụng một danh sách giảm mà được mô tả cấu trúc xác định bằng cụm và hàm điểm gốc. Bước thứ 3 là kết thúc, một giải thuật di truyền làm việc trên trang mà có điểm cao trong mỗi cụm đưa ra một tập hợp con của trang đó mà hỗn hợp đầy đủ và giá trị tốt của điểm gốc. Ở phần sau, chúng ta mô tả bước thứ 3 một cách chi tiết. IV. Vector trang (Page Vectorization) Bước đầu tiên của phương pháp trình bày mỗi trang thu được bằng vector hữu hạn chiều, nơi mỗi thành phần đại diện thước đo đặc trưng của trang (Vector trang). Rõ ràng, trình bày cốt yếu cho thành công của phương pháp; tất cả thông tin của một trang mà nó không được duy trì trong bước này thì sẽ bị mất trong bước tiếp theo. Với lý do đó nên nhấn mạnh phương pháp tự nhiên của vector quá trình, nơi chỉ những thông tin thích đáng cho một ngữ cảnh hoặc khai báo có hiệu quả được giử lại sử dụng cho sau này. Sự nhất thiết và rõ ràng, mỗi thành phần của vector là số biến cố một từ đặc biệt; chúng ta có thể xem xét đặc điểm vừa phải mà nó không đặc biệt liên - 2 - kết với từ chứa đựng trong trang, thí dụ như sự có mặt của bức tranh, bảng biểu, tiêu đề và v.v .Với những gì đã đề cập trước đó, vector dựa vào ngữ cảnh cơ bản hoặc khai báo được chọn bởi người sử dụng. Bạn có thể giả thiết rằng với mỗi ngữ cảnh/ khai báo mà có thể thực hiện trong Search engine, một danh sách những từ mà có liên quan đến ngữ cảnh/ khai báo có giá trị, và vector liên quan của trang được lưu lại. Nhiều phương pháp tinh vi với cách tiếp cận đơn giản có thể và cần được xem xét. Số chiều của vector m (nghĩa là số của những từ thích đáng liên quan đến ngữ cảnh) không phải giới hạn về mặt lý thuyết một cách đặc biệt nhỏ, nhưng chúng ta nên tránh suy nghĩ để mà áp dụng phương thức lên số các trang quan trọng, nó được xem xét một cách hợp lý 100m ≤ . Chúng ta đề xuất hai phương thức để xác định một danh sách các từ: - Những từ được xác định trong một pha cài đặt, khi quản lý Search engine quyết định các ngữ cảnh / các khai báo được hỗ trợ và từ nào là tiểu biểu của ngữ cảnh / khai báo đó. Thao tác này được hoàn thành với người sử dụng thuộc công cụ dành cho môi trường đặc biệt. - Những từ được xác định bắt đầu từ một tập hợp ban đầu của trang được sử dụng làm mẫu huấn luyện cho ngữ cảnh / khai báo. Khi khai báo của người dùng được sử dụng, chúng ta có thể xem xét một mẫu huấn luyện cho một khai báo của trang mà các trang được duyệt qua bởi người sử dụng mới đây mà khai báo đến các từ kết hợp với những khai báo phát sinh bởi hành vi của người sử dụng. V. Phân cụm trang (Page Clustering) Nghiên cứu rộng là làm sao để cải thiện những kết quả lấy ra bởi phương pháp phân cụm. Trong nghiên cứu chiến lược để xây dựng phân cụm của toàn bộ các tài liệu được chọn lọc và phù hợp với truy vấn tới trọng tâm của cụm. Mới đây, phân cụm đã được sử dụng để giúp đỡ người dùng trong việc duyệt một tập hợp các tài liệu và trong việc tổ chức những kết quả trả về của Search engine hoặc bằng Metasearch engine trong trả lời câu hỏi của người sử dụng. Phân cụm tài liệu trong thông tin thu hồi thường giải quyết những giải thuật phân cụm có thứ bậc hoặc thuật toán k-means. Mặc dù giải thuật phân cụm có thứ bậc rất chậm khi áp dụng trên tài liệu cơ sở dữ liệu lớn (liên kết đơn và phương thức trung bình nhóm có độ phức tạp 2 (| | )O P , phương thức liên kết đầy đủ có độ phức tạp 3 (| | )O P ), thuật toán k-means nhanh hơn (nó thực hiện có độ phức tạp tính toán ( | |)O k P ). Việc do hiệu lực của phân cụm và so sánh việc thực hiện của các giải thuật khác nhau là một nhiệm vụ phức tạp, và không có phương pháp nào thoả mãn hoàn toàn để có thể so sánh kết quả của thuật toán phân cụm. Phần lớn sử dụng tiểu chuẩn để đánh giá chất lượng phân cụm mà thoả mãn tiểu chuẩn Calinski- Harabasx (C-H) thông tin biểu hiện bằng số giả F; cao hơn chỉ số đánh giá, chất lượng cụm tốt hơn. Với một phân cụm đã cho, biểu thức toán học của - 3 - thông tin biểu hiện bằng số giả F là: 2 2 (1 ) / ( 1) ( ) R R C H k n k − − = − − , trong đó 2 ( ) /R SST SSE SST= − với SST là tổng của khoản cách có thứ tự của mỗi đối tượng từ trọng tâm đến toàn bộ, và SSE là tổng của khoản cách của đối tượng từ trọng tâm của nhóm. Từ những thí nghiệm trong thực tế và sử dụng dữ liệu mô phỏng số giả F chất lượng cụm được đo lường, chúng ta thừa nhận thuật toán k-mean phân cụm thực hiện tốt trong giới hạn thời gian tính toán – nên định kiểu trong ứng dụng, nơi số của trang và chiều của vector có thể lớn. VI. Giải thuật di truyền (Genetic Algorithm) Giải thuật di truyền thực hiện một cách hiệu quả và thông tin đó được lấy từ nhiều nhà nghiên cứu khác nhau. Chen (1995) sử dụng giải thuật di truyền để tối ưu hoá từ khoá để gợi ý cho những tài liệu. Giữa hai nhóm Kraft, Petry, Buckles, Sadavisan (1997) và Sanchez, Pierre (1994) giới thiệu cách tiếp cận tăng cừng mô tả câu truy vấn dựa vào giải thuật di truyền. Boughanem, Chrisment và Tamine (1999) một giải thuật di truyền được triển khai để tìm và tối ưu tập hợp các tài liệu tốt nhất phù hợp với nhu cầu người sử dụng. Horng và Yeh (2000) đưa ra phương pháp để rút từ khoá từ tài liệu và gán cho nó trọng số. Mục tiêu là lựa chọn tập hợp con nhỏ P’ của tập hợp trang P gốc của tổng các điểm lớn, nhưng sự giống nhau giữa các trang được chọn lọc một cách thận trọng. Chúng ta chọn tập hợp con bằng cách sử dụng giải thuật di truyền (GA). Có vài lý do để chúng ta lựa chọn giải thuật này. Thứ nhất sử dụng kỹ thuật Metaheuristic tốt trong việc tối ưu hoá các vấn đề với hàm đối tượng và những ràng buộc không có trong biểu thức toán học đơn giản. Thứ hai, chúng ta phải xác định một giải pháp tốt trong một thời gian tính toán nhỏ, và chiều của vấn đề có thể lớn một cách đáng kể. Thứ ba, cấu trúc của vấn đề rõ ràng, được trình bày bằng cấu trúc dữ liệu thường sử dụng GA. GA là thuật toán tìm kiếm cục bộ được bắt đầu từ chọn các chuỗi ban đầu được trình bày bằng hàm phân phối phát triển vấn đề. Mỗi chuỗi có thể gọi là nhiễm sắc thể (chromosome) và kết hợp với giá trị được gọi là hàm phù hợp (fitness function-ff) mà có thể tạo ra một cá thể mới bằng thực hiện di truyền. Mọi phân phối nhiễm sắc thể được gọi là gene và giá trị được gọi là alletic value. Các giá trị này có thể thay đổi nên có thể gán bảng alletic, thường bảng alletic nằm {0,1}. Với mỗi di truyền, thuật toán sử dụng giá trị hàm phù hợp với đánh giá khả năng tồn tại của mỗi chuỗi i bằng sử dụng toán tử đơn để tạo ra một tập hợp mới của cá thể nhân tạo ( một quần thể mới) mà phép thử có thể được cải thiện trên hàm ff bằng cách sử dụng giá trị cũ. Quá trình tiến hoá bị dừng lại khi không có đột biến nào quan trọng của hàm fitness có thể thu được. Thực hiện giải thuật di truyền là việc lặp đi lặp lại và: - 4 - - Lặp lại, nơi mà các chuổi riêng lẽ được sao chép theo giá trị của hàm fitness. - Sự lai ghép chéo đơn, trong đó những thành viên tái sản xuất trong lai ghép ngẫu nhiên và sau đây mỗi cặp của chuổi trải qua thay đổi chéo. - Đột biến, là sự thay đổi không thường xuyên ngẫu nhiên của giá trị của nhiễm sắc thể với xác suất nhỏ. Bắt đầu từ các cụm đang tồn tại, chúng ta định nghĩa nhiễm sắc thể của tập hợp con cá thể ban đầu của trang với tập hợp giới hạn ( thuật ngữ trong GA, một trang là một gene). Giải thuật di truyền làm việc trên cá thể ban đầu kết thúc bằng biểu diễn tập hợp con của trang hiện tại của người sử dụng. Ý tưởng bắt đầu tiến hoá của di truyền của cá thể mà đúng như vậy rất nhỏ so với tập hợp ban đầu của trang P. Mỗi nhiễm sắc thể được tạo ra bằng cách chọn lọc trang từ mỗi cụm, bắt đầu với một hay nhiều điểm cao. Như vậy, nhiễm sắc thể đầu tiên được tạo ra chứa đựng trang với điểm cao trong mỗi cụm, với nhiễm sắc thể thứ hai chứa điểm tốt thứ hai và v.v .Nếu tập hợp của cụm nhỏ hơn số nhiễm sắc thể được tạo ra thì cụm không được đại diện cho mỗi nhiễm sắc thể, trong khi những cụm khác có tập hợp cao hơn của một trang đại diện bằng một nhiễm sắc thể nào đó. Chúng ta cho biết với dc là số của trang bao gồm mỗi nhiễm sắc thể trong quần thể ban đầu và nc là số nhiễm sắc thể. Một quần thể gồm có np=dc*nc trang. Hàm fitness tính toán cho mỗi nhiễm sắc thể được biểu diễn bằng giá trị dương cao “tốt” cho nhiễm sắc thể và như vậy hàm được làm cực đại. Nó bao gồm ba giai đoạn: Thứ nhất là tính tổng các điểm của trang trong nhiễm sắc thể C, nghĩa là 1 ( ) ( ) i i p C t C score p ∈ = ∑ với score(p i ) là điểm gốc của trang p i được mô tả trước đó. Cần xem xét giới hạn khả năng dương của nhiều trang dương có điểm cao trong nhiễm sắc thể mà còn trả lại những nhiễm sắc thể của trang có điểm thấp. Hạn chế thứ hai của hàm fitness đó là cân bằng. Với ID là số chiều; tỷ lệ 2 / (| | ) 1t np abs C ID= − + cấu thành từ 2 số hạn của hàm fitness. np đạt cực đại khi chiều của C chính xác bằng chiều của ID và nhanh chóng giảm cho đến khi số những trang được chứa trong nhiễm sắc thể C nó có thể nhỏ hơn hoặc lớn hơn ID. Nhiễm sắc thể nằm trong quần thể ban đầu được mô tả bằng điểm biến thiên cao của cụm thuộc các trang có liên quan. Sự tiến hoá của quần thể thay đổi đặc trưng, tạo ra nhiễm sắc thể với thích nghi cao của trang thuộc cụm và rất giống nhau trong mỗi cụm. Hơn nữa, sự kiện của trang thuộc về cụm khác nhau và khác nhau trong không gian vector không được đảm bảo, trong khi phụ thuộc một cách tự nhiên về dữ liệu và trên quá trình xử lý phân cụm ban đầu. Với lý do đó, chúng ta giới thiệu hàm fitness thứ ba, đánh giá toàn bộ đánh giá không giống nhau của các trang trong nhiễm sắc thể. Với ( , ) i j D p p khoảng cách Euclidean của những vector đại điện cho - 5 - trang là p i , p j . Khi đó 3 , , ( ) ( , ) i j i j i j p p C p p t C D p p ∈ ≠ = ∑ là tổng của các khoảng cách giữa hai cặp của trang trong nhiễm sắc thể C và đánh giá tổng biến thiên rõ ràng của C. Mẫu cuối cùng của hàm fitness của nhiễm sắc thể C và 1 2 3 ( ) . ( ) . ( ) . ( )ff C t C t C t C= α +β + γ với tham số α,β, γ phụ thuộc vào độ lớn của điểm ban đầu và vector biểu diễn trang. Đặc biệt α,β,γ được chọn đóng góp cân bằng của 1 2 3 ( ), ( ), ( )t C t C t C . Ngoài ra, chúng có thể biểu thị sự thích ứng của các thuộc tính khác nhau được biểu diễn bằng ba thời thời điểm. Mục tiêu của GA tìm bằng phương thức di truyền, một nhiễm sắc thể C * sao cho: * 1, ., ( ) max ( ) nc ff C ff C= . VII. Hướng phát triển Ứng dụng phân tích dữ liệu tinh xảo và kỹ thuật khai phá dữ liệu trong tìm kiếm của thông tin trên Web là lĩnh vực được quan tâm ngày càng nhiều trong nghiên cứu và công nghiệp. Là chiến lược quan trọng của công cụ này nó không được đánh giá thấp và ý nghĩa của thông tin ngày một tăng. Như vậy phương hướng thúc đẩy tìm kiếm đưa ra công cụ giúp đỡ cải thiện kết quả tìm kiếm thông tin trên Web. Một câu hỏi đặc ra là phương thức này có thể chạy trực tuyến trong Search engine chuẩn thực hiện truy vấn của người sử dụng. Chúng ta tin tưởng rằng điểu chỉnh thích hợp của thông số và ứng dụng thuật toán thích hợp thì quá trình tìm kiếm được xử lý một cách thoả mãn. Công việc tương lai sẽ bao trùm mở rộng kỹ thuật vector trang và định nghĩa và thủ tục kiểm tra tự động điểu chỉnh tham số trong giải thuật di truyền. - 6 - MỤC LỤC I.Giới thiệu .1 II. Nền tảng (Background) .1 III.Các điểm chính: 2 IV. Vector trang (Page Vectorization) .2 V. Phân cụm trang (Page Clustering) 3 VI. Giải thuật di truyền (Genetic Algorithm) 4 VII. Hướng phát triển .6 MỤC LỤC 7 - 7 -