I.Giới thiệu Sự quan trọng của Search Engine Hãy thử tưởng tượng một cuộc sống hoàn toàn không có niên giám điện thoại hay một trợ giúp nào khác. Sử dụng điện thoại lúc đó sẽ trở nên rất khó khăn. Điều này cũng tương tự như dùng Web mà không có công cụ tìm kiếm (search engine). Với search engine, bạn chỉ cần biết một vài thông tin hay từ khoá là có thể tìm được nơi cần đến. Theo một nghiên cứu do công ty Zona Research (Mỹ) tiến hành năm 1999 thì search engine hiện là phương thức tìm kiếm thông tin trên Web được sử dụng nhiều nhất, nó chiếm tới 77% tổng thời gian tìm kiếm. Theo kết quả khảo sát người tiêu dùng của một công ty khác vào năm 1999 thì 88% người dùng trực tuyến có sử dụng một search engine và 72% có dùng một search engine để tìm kiếm hàng hoá bán lẻ. Đối với nhiều người dùng, search engine là yếu tố định hình nên bức tranh về kho thông tin trên Web. Tuy nhiên, một nghiên cứu gần đây của NEC Research Institute và Inktomy cho thấy có tới hơn một tỷ trang Web riêng biệt trên Internet và hầu hết các search engine đã bỏ qua không lập chỉ mục cho 14 số trang này. Mặt khác, khoảng 714% những nội dung đã được lập chỉ mục lại không còn tồn tại trên Net. Search Engine là gì ? Search engine phần mềm cung cấp các địa chỉ Web có chứa một hay nhiều thông tin, từ khoá mà người dùng cần tìm kiếm. Thuật ngữ search engine đôi lúc được dùng không chính xác để chỉ các chỉ mục Web do các biên tập viên biên soạn. Web crawler còn được gọi là spider (con nhện) là một phần của search engine, chuyên “chu du” khắp Web, sao chép từng trang nó tìm được và lập chỉ mục các từ khóa, tên trang. Với quy mô của Web, với số lượng quá lớn các trang không được truy cập đến trong nhiều năm và trang có chứa những từ quá phổ biến dẫn đến những site không liên quan, việc lập chỉ mục dù chỉ một phần của Web để có thể trả về kết quả phù hợp là một quá trình đòi hỏi rất nhiều công sức to lớn. Tuy nhiên, về căn bản, công việc này rất đơn giản: chương trình phần mềm thông minh sẽ “chu du” khắp trên Web, tìm kiếm và lưu trữ bất cứ thông tin nào chưa có trong chỉ mục và thường là lưu toàn bộ trang Web. Thông tin thu thập được có thể từ những trang đã được lập chỉ mục trước đó nhưng đã thay đổi, liên kết đến những trang chưa được lập chỉ mục và các địa chỉ Web do các công ty thứ ba đưa lên. Một khi các chỉ mục đã được tập hợp lại, chúng sẽ được kiểm tra để loại bỏ những thông tin trùng lắp, chẳng hạn như các phiên bản khác nhau của cùng một site (site dự phòng); loại bỏ những trang lập lại quá nhiều lần cùng từ khoá. Một số search engine còn có khả năng gán trạng thái đặc biệt cho trang Web có dùng siêu thẻ (metatag) chứa các thành phần mô tả thông tin. Một số search engine có khả năng phân tích nội dung trang Web và cho biết tần suất mà những trang khác liên kết đến trang này. Như vậy, trang Web càng phổ biến thì nội dung của nó càng dễ tìm kiếm. Khi người dùng đưa yêu cầu tìm kiếm thông tin cho search engine hay dịch vụ thư mục, các giải thuật tinh vi bên trong sẽ được kích hoạt. Mỗi search engine có một cách xử lý khác nhau đối với thông tin mà nó nhận được từ người dùng, nhưng mục tiêu thì giống nhau: dự đoán người dùng cần gì và trả về thông tin tương ứng. Những vấn tin của người dùng thường được phân tích rất chi tiết để phát hiện những sai sót chính tả trong từ khoá hay liệu thông tin này đã được tìm kiếm chưa. Công nghệ Search engine có thế tạo cho người sử dụng Internet mộ
- 1 - HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG TIỂU LUẬN MÔN HỌC DATA MINING CHỦ ĐỀ : Web mining Trong Search Engine Giảng viên : Trần Đình Quế Sinh viên : Nguyễn Huy Sơn HÀ NỘI – 4/2011 I.Giới thiệu Sự quan trọng của Search Engine Hãy thử tưởng tượng một cuộc sống hoàn toàn không có niên giám điện thoại hay một trợ giúp nào khác. Sử dụng điện thoại lúc đó sẽ trở nên rất khó khăn. Điều này cũng tương tự như dùng Web mà không có công cụ tìm kiếm (search engine). Với search engine, bạn chỉ cần biết một vài thông tin hay từ khoá là có thể tìm được nơi cần đến. Theo một nghiên cứu do công ty Zona Research (Mỹ) tiến hành năm 1999 thì search engine hiện là phương thức tìm kiếm thông tin trên Web được sử dụng nhiều nhất, nó chiếm tới 77% tổng thời gian tìm kiếm. Theo kết quả khảo sát người tiêu dùng của một công ty khác vào năm 1999 thì 88% người dùng trực tuyến có sử dụng một search engine và 72% có dùng một search engine để tìm kiếm hàng hoá bán lẻ. Đối với nhiều người dùng, search engine là yếu tố định hình nên bức tranh về kho thông tin trên Web. Tuy nhiên, một nghiên cứu gần đây của NEC Research Institute và Inktomy cho thấy có tới hơn một tỷ trang Web riêng biệt trên Internet và hầu hết các search engine đã bỏ qua không lập chỉ mục cho 1/4 số trang này. Mặt khác, khoảng 7-14% những nội dung đã được lập chỉ mục lại không còn tồn tại trên Net. Search Engine là gì ? Search engine phần mềm cung cấp các địa chỉ Web có chứa một hay nhiều thông tin, từ khoá mà người dùng cần tìm kiếm. Thuật ngữ search engine đôi lúc được dùng không chính xác để chỉ các chỉ mục Web do các biên tập viên biên soạn. Web crawler còn được gọi là spider (con nhện) là một phần của search engine, chuyên “chu du” khắp Web, sao chép từng trang nó tìm được và lập chỉ mục các từ khóa, tên trang. Với quy mô của Web, với số lượng quá lớn các trang không được truy cập đến trong nhiều năm và trang có chứa những từ quá phổ biến dẫn đến những site không liên quan, việc lập chỉ mục dù chỉ một phần của Web để có thể trả về kết quả phù hợp là một quá trình đòi hỏi rất nhiều công sức to lớn. Tuy nhiên, về căn bản, công việc này rất đơn giản: chương trình phần mềm thông minh sẽ “chu du” khắp trên Web, tìm kiếm và lưu trữ bất cứ thông tin nào chưa có trong chỉ mục và thường là lưu toàn bộ trang Web. Thông tin thu thập được có thể từ những trang đã được lập chỉ mục trước đó nhưng đã thay đổi, liên kết đến - 2 - những trang chưa được lập chỉ mục và các địa chỉ Web do các công ty thứ ba đưa lên. Một khi các chỉ mục đã được tập hợp lại, chúng sẽ được kiểm tra để loại bỏ những thông tin trùng lắp, chẳng hạn như các phiên bản khác nhau của cùng một site (site dự phòng); loại bỏ những trang lập lại quá nhiều lần cùng từ khoá. Một số search engine còn có khả năng gán trạng thái đặc biệt cho trang Web có dùng siêu thẻ (metatag) chứa các thành phần mô tả thông tin. Một số search engine có khả năng phân tích nội dung trang Web và cho biết tần suất mà những trang khác liên kết đến trang này. Như vậy, trang Web càng phổ biến thì nội dung của nó càng dễ tìm kiếm. Khi người dùng đưa yêu cầu tìm kiếm thông tin cho search engine hay dịch vụ thư mục, các giải thuật tinh vi bên trong sẽ được kích hoạt. Mỗi search engine có một cách xử lý khác nhau đối với thông tin mà nó nhận được từ người dùng, nhưng mục tiêu thì giống nhau: dự đoán người dùng cần gì và trả về thông tin tương ứng. Những vấn tin của người dùng thường được phân tích rất chi tiết để phát hiện những sai sót chính tả trong từ khoá hay liệu thông tin này đã được tìm kiếm chưa. Công nghệ Search engine có thế tạo cho người sử dụng Internet một lượng lớn tri thức mà có thể truy cập trên nhiều đường khác nhau. Hiện nay phần lớn mọi người dùng Search engine cung cấp khả năng tìm kiếm trên cơ sở dữ liệu của hàng tỉ trang Web, nơi mà những câu truy vấn được thực hiện ngay tức khắc. Trọng tâm là quá trình chuyển số lượng lớn (sự duy trì và lập chỉ mục trên cơ sở dữ liệu lớn của trang Web và quá trình chọn nhanh những trang thoả một vài tiểu chuẩn) đến đặc trưng ( quá trình nhận dạng trang với đặc trưng lớn của người sử dụng). Một phương hướng thúc đẩy sự phát triển tự nhiên của người sử dụng Internet đó là bây giờ họ có thể chọn công cụ tìm kiếm và sẳn sàng trả tiền cho nhà cung cấp hệ thống và chờ đợi để truy vấn của họ được trả lời tốt hơn. Trong khung cảnh đó, có vài vấn đề được đề cập sử dụng của khai phá dữ liệu và kỹ thuật tối ưu hoá, mà thường được gọi là Web mining (khai phá dữ liệu Web). Ở đây, chúng ta mô tả phương thức cải tiến cho kết quả tìm kiếm chuẩn trong Search engine, ở tài liệu và trang có giá trị giới hạn của số tiêu đề, và người dùng có các mô tả hạn chế. Sử dụng phương thức kỹ thuật phân cụm (cluster) để khai báo, trong tập hợp của trang kết quả từ truy vấn đơn, những tập hợp con đồng nhất một khía cạnh nào đó với vector nền tảng trong ngữ cảnh hoặc mô tả; khi chúng ta xây dựng số nhỏ và tiềm năng của tập hợp con tốt của những trang, thì mỗi đoạn của mỗi phân cụm (cluster) trang với điểm cao hơn. Hoạt động trên tập hợp con của thuật toán di truyền, chúng ta khai báo một tập hợp con với tất cả điểm tốt và ở bên trong tính không đồng dạng cao. Mỗi tập hợp con cung cấp cho người sử dụng một vài trang không giống hệt nhau rằng miêu tả sự đúng của cấu trúc của tập hợp ban đầu của trang. Bởi vì những trang chúng ta thấy bằng thuật toán vector có chiều cố định, vai trò ngữ cảnh hoặc mô tả cơ bản vector trung tâm và cụ thể thuộc cách tiếp cận của phương thức này. - 3 - Web Minning là gì ? Để làm rõ sự mơ hồ về những gì các hình thức của Web mining. Ko-Sa La và Blockeel đã đề xuất các thành phần của Web mining theo các nhiệm vụ sau đây: 1. Tìm kiếm nguồn tài nguyên: các nhiệm vụ lấy dữ liệu Web document. 2. Lựa chọn thong tin và xử lý sơ bộ: tự động lựa chọn và tiền xử lý cụ thể trong hình thành từ thu hồi tài nguyên Web. 3. Khái quát: tự động phát hiện các mẫu chung tại trang web riêng lẻ cũng như trên nhiều trang web. 4. Phân tích: xác nhận hoặc kết hợp các mẫu tối giản Nói chung, nhiệm vụ Web mining có thể được phân loại thành ba mục Web content mining, Web structure mining và Web usage mining. Tuy nhiên, có khác nhau của hai phương pháp tiếp cận để phân loại Web mining. 1. Web usage mining là một quá trình trích xuất thông tin hữu ích từ máy chủ tức là người dùng các bản ghi history Web usage mining là một quá trình tìm hiểu những gì người dùng đang tìm kiếm trên Internet. Một số người dùng có thể tìm kiếm dữ liệu văn bản chỉ, trong khi một số người khác cóđược quan tâm đến dữ liệu đa phương tiện. 2. Web content mining là một quá trình để khám phá thông tin hữu ích từ văn bản, hình ảnh, dữ liệu âm thanh hoặc video trong trang web. Web content mining đôi khi được gọi là trang web khai thác văn bản, bởi vì nội dung văn bản là khu vực nghiên cứu rộng rãi nhất. Các công nghệ thường được sử dụng trong khai thác nội dung trang web được NLP (xử lý ngôn ngữ tự nhiên) và IR (Thông tin hồi). Mặc dù khai thác dữ liệu là một thuật ngữ tương đối mới, công nghệ này không. Các công ty đã sử dụng máy tính mạnh mẽ để sàng lọc những khối lượng dữ liệu máy quét siêu thị và phân tích báo cáo nghiên cứu thị trường trong nhiều năm. Tuy nhiên, sự đổi mới liên tục trong khả năng xử lý máy tính, lưu trữ đĩa, và phần mềm thống kê được đáng kể tăng tính chính xác của phân tích trong khi lái xe xuống các chi phí 3. Web structure mining là quá trình sử dụng lý thuyết đồ thị để phân tích cấu trúc nút và kết nối của một trang web. Theo kiểu cấu trúc dữ liệu web, khai thác cấu trúc web có thể được chia thành hai loại: Trích xuất các mẫu từ các siêu liên kết trong trang web: một siêu liên kết là một thành phần cấu trúc kết nối các trang web đến một vị trí khác nhau. Khai thác các tài liệu được cấu trúc: phân tích các cấu trúc cây giống như các cấu trúc trang để mô tả cách sử dụng tag HTML hay XML. Dưới đây là mô hình quan hệ giữa chúng - 4 - II. Nền tảng (Background) Với P là tập hợp của những trang Web, với p P∈ chỉ số trang trong tập hợp. Bây giờ cho rằng P là kết quả của truy vấn chuẩn đến cơ sở dữ liệu của trang, và như vậy đại diện tập hợp của trang mà thoả mãn một vài điều kiện biểu diễn của người sử dụng. Mỗi trang p P∈ kết hợp với điểm cơ bản trong truy vấn tạo ra P, mà xác định thứ tự những trang có mặt trình bày trong truy vấn. Vai trò của thứ tự quyết định đặc trưng của tìm kiếm: Trên thực tế, nếu chiều của P có liên quan, khả năng có thể xảy ra người sử dụng trang P có thể giảm những vị trí của p cũng có thể tăng. Với những khả năng như vậy dẫn đến hai hạn chế sau: Trang năm ở vị trí đầu tiên có khả năng là đồng dạng (hoặc bằng nhau) với mỗi trang cùng vị trí; những trang mà không có điểm cao nhưng điển hình của một vài hướng của tập hợp P mà xuất hiện những vị trí rất thấp trong phân cấp, với khả năng xảy ra không đáng kể khi người sử dụng bắt đầu. Phương thức này chúng ta cố gắn vượt qua hai hạn chế, trọng tâm của việc chọn từ ban đầu của tập hợp P nhỏ của tập hợp các trang với điểm cao và tách ra đầy đủ từ mỗi trang. Với điều kiện cần áp dụng cách tiếp cận có giá trị cộng thêm thông tin từ người sử dụng, tạo ra một ngữ cảnh tìm kiếm ( tạo ra tiêu đề chung để tìm kiếm có thể tìm đến, không nhất thiết liên kết với từ khoá tìm kiếm cho việc tạo ra tập hợp P), và người sử dụng khai báo ( nhận ra sự chủ quan của người sử dụng, mà cung cấp trực tiếp bằng cách chọn trong số tập hợp xác định trước được khai báo hoặc được lấy ra từ trang đã được duyệt qua của người dùng trước đó). - 5 - III.Các điểm chính: Khái niệm cơ bản của phương thức là sử dụng thông tin truyền bằng tìm kiếm ngữ cảnh hoặc sử dụng khai báo và phân tích cấu trúc của P và quyết định trong tập hợp con tối ưu nhỏ nhất mà trình bày tất cả thông tin có giá trị. Được hoàn thành trong ba bước. Bước thứ nhất: Tìm kiếm ngữ cảnh và người sử dụng khai báo sử dụng trích đoạn có giới hạn của từ quan trọng hoặc đặc điểm trang được sử dụng tạo ra, từ tất cả các trang trong P, vector đặc điểm (vector trang). Như vậy vector miêu tả đường đặc biệt nhìn thấy trang, rõ ràng mỗi ngữ cảnh/khai báo và tạo thành nền theo các bước cơ bản. Thứ hai, vector trang được phân tích bằng thuật toán phân cụm (clustering algorithm) mà các phân đoạn nằm trong tập hợp con của trang đồng dạng. Nó được quy vào hai chiều phân cấp của trang, mỗi trang p có thể bây giờ được sắp đặt theo điểm chính trong cụm của nó. Với điểm mục tiêu cung cấp cho người sử dụng một danh sách giảm mà được mô tả cấu trúc xác định bằng cụm và hàm điểm gốc. Bước thứ 3 là kết thúc, một giải thuật di truyền làm việc trên trang mà có điểm cao trong mỗi cụm đưa ra một tập hợp con của trang đó mà hỗn hợp đầy đủ và giá trị tốt của điểm gốc. Ở phần sau, chúng ta mô tả bước thứ 3 một cách chi tiết. IV. Vector trang (Page Vectorization) Bước đầu tiên của phương pháp trình bày mỗi trang thu được bằng vector hữu hạn chiều, nơi mỗi thành phần đại diện thước đo đặc trưng của trang (Vector trang). Rõ ràng, trình bày cốt yếu cho thành công của phương pháp; tất cả thông tin của một trang mà nó không được duy trì trong bước này thì sẽ bị mất trong bước tiếp theo. Với lý do đó nên nhấn mạnh phương pháp tự nhiên của vector quá trình, nơi chỉ những thông tin thích đáng cho một ngữ cảnh hoặc khai báo có hiệu quả được giử lại sử dụng cho sau này. Sự nhất thiết và rõ ràng, mỗi thành phần của vector là số biến cố một từ đặc biệt; chúng ta có thể xem xét đặc điểm vừa phải mà nó không đặc biệt liên kết với từ chứa đựng trong trang, thí dụ như sự có mặt của bức tranh, bảng biểu, tiêu đề và v.v Với những gì đã đề cập trước đó, vector dựa vào ngữ cảnh cơ bản hoặc khai báo được chọn bởi người sử dụng. Bạn có thể giả thiết rằng với mỗi ngữ cảnh/ khai báo mà có thể thực hiện trong Search engine, một danh sách những từ mà có liên quan đến ngữ cảnh/ khai báo có giá trị, và vector liên quan của trang được lưu lại. Nhiều phương pháp tinh vi với cách tiếp cận đơn giản có thể và cần được xem xét. Số chiều của vector m (nghĩa là số của những từ thích đáng liên quan đến ngữ cảnh) không phải giới hạn về mặt lý thuyết một cách đặc biệt nhỏ, nhưng chúng ta nên tránh suy nghĩ để mà áp dụng phương thức lên số các trang quan trọng, nó được xem xét một cách hợp lý 100m ≤ . Chúng ta đề xuất hai phương thức để xác định một danh sách các từ: - Những từ được xác định trong một pha cài đặt, khi quản lý Search engine quyết định các ngữ cảnh / các khai báo được hỗ trợ và từ nào là tiểu biểu của ngữ cảnh / khai báo đó. Thao tác này được hoàn thành với người sử dụng thuộc công cụ dành cho môi trường đặc biệt. - 6 - - Những từ được xác định bắt đầu từ một tập hợp ban đầu của trang được sử dụng làm mẫu huấn luyện cho ngữ cảnh / khai báo. Khi khai báo của người dùng được sử dụng, chúng ta có thể xem xét một mẫu huấn luyện cho một khai báo của trang mà các trang được duyệt qua bởi người sử dụng mới đây mà khai báo đến các từ kết hợp với những khai báo phát sinh bởi hành vi của người sử dụng. V. Phân cụm trang (Page Clustering) Nghiên cứu rộng là làm sao để cải thiện những kết quả lấy ra bởi phương pháp phân cụm. Trong nghiên cứu chiến lược để xây dựng phân cụm của toàn bộ các tài liệu được chọn lọc và phù hợp với truy vấn tới trọng tâm của cụm. Mới đây, phân cụm đã được sử dụng để giúp đỡ người dùng trong việc duyệt một tập hợp các tài liệu và trong việc tổ chức những kết quả trả về của Search engine hoặc bằng Metasearch engine trong trả lời câu hỏi của người sử dụng. Phân cụm tài liệu trong thông tin thu hồi thường giải quyết những giải thuật phân cụm có thứ bậc hoặc thuật toán k-means. Mặc dù giải thuật phân cụm có thứ bậc rất chậm khi áp dụng trên tài liệu cơ sở dữ liệu lớn (liên kết đơn và phương thức trung bình nhóm có độ phức tạp 2 (| | )O P , phương thức liên kết đầy đủ có độ phức tạp 3 (| | )O P ), thuật toán k-means nhanh hơn (nó thực hiện có độ phức tạp tính toán ( | |)O k P ). Việc do hiệu lực của phân cụm và so sánh việc thực hiện của các giải thuật khác nhau là một nhiệm vụ phức tạp, và không có phương pháp nào thoả mãn hoàn toàn để có thể so sánh kết quả của thuật toán phân cụm. Phần lớn sử dụng tiểu chuẩn để đánh giá chất lượng phân cụm mà thoả mãn tiểu chuẩn Calinski-Harabasx (C-H) thông tin biểu hiện bằng số giả F; cao hơn chỉ số đánh giá, chất lượng cụm tốt hơn. Với một phân cụm đã cho, biểu thức toán học của thông tin biểu hiện bằng số giả F là: 2 2 (1 ) / ( 1) ( ) R R C H k n k − − = − − , trong đó 2 ( ) /R SST SSE SST= − với SST là tổng của khoản cách có thứ tự của mỗi đối tượng từ trọng tâm đến toàn bộ, và SSE là tổng của khoản cách của đối tượng từ trọng tâm của nhóm. Từ những thí nghiệm trong thực tế và sử dụng dữ liệu mô phỏng số giả F chất lượng cụm được đo lường, chúng ta thừa nhận thuật toán k- mean phân cụm thực hiện tốt trong giới hạn thời gian tính toán – nên định kiểu trong ứng dụng, nơi số của trang và chiều của vector có thể lớn. VI. Giải thuật di truyền (Genetic Algorithm) Giải thuật di truyền thực hiện một cách hiệu quả và thông tin đó được lấy từ nhiều nhà nghiên cứu khác nhau. Chen (1995) sử dụng giải thuật di truyền để tối ưu hoá từ khoá để gợi ý cho những tài liệu. Giữa hai nhóm Kraft, Petry, Buckles, Sadavisan (1997) và Sanchez, Pierre (1994) giới thiệu cách tiếp cận tăng cừng mô tả câu truy vấn dựa vào giải thuật di truyền. Boughanem, Chrisment và Tamine (1999) một giải thuật di truyền được triển khai để tìm và tối ưu tập hợp các tài liệu tốt nhất phù hợp với nhu cầu người sử dụng. Horng và Yeh (2000) đưa ra phương pháp để rút từ khoá từ tài liệu và gán cho nó trọng số. Mục tiêu là lựa chọn tập hợp con nhỏ P’ của tập hợp trang P gốc của tổng các điểm lớn, nhưng sự giống nhau giữa các trang được chọn lọc một cách thận - 7 - trọng. Chúng ta chọn tập hợp con bằng cách sử dụng giải thuật di truyền (GA). Có vài lý do để chúng ta lựa chọn giải thuật này. Thứ nhất sử dụng kỹ thuật Metaheuristic tốt trong việc tối ưu hoá các vấn đề với hàm đối tượng và những ràng buộc không có trong biểu thức toán học đơn giản. Thứ hai, chúng ta phải xác định một giải pháp tốt trong một thời gian tính toán nhỏ, và chiều của vấn đề có thể lớn một cách đáng kể. Thứ ba, cấu trúc của vấn đề rõ ràng, được trình bày bằng cấu trúc dữ liệu thường sử dụng GA. GA là thuật toán tìm kiếm cục bộ được bắt đầu từ chọn các chuỗi ban đầu được trình bày bằng hàm phân phối phát triển vấn đề. Mỗi chuỗi có thể gọi là nhiễm sắc thể (chromosome) và kết hợp với giá trị được gọi là hàm phù hợp (fitness function-ff) mà có thể tạo ra một cá thể mới bằng thực hiện di truyền. Mọi phân phối nhiễm sắc thể được gọi là gene và giá trị được gọi là alletic value. Các giá trị này có thể thay đổi nên có thể gán bảng alletic, thường bảng alletic nằm {0,1}. Với mỗi di truyền, thuật toán sử dụng giá trị hàm phù hợp với đánh giá khả năng tồn tại của mỗi chuỗi i bằng sử dụng toán tử đơn để tạo ra một tập hợp mới của cá thể nhân tạo ( một quần thể mới) mà phép thử có thể được cải thiện trên hàm ff bằng cách sử dụng giá trị cũ. Quá trình tiến hoá bị dừng lại khi không có đột biến nào quan trọng của hàm fitness có thể thu được. Thực hiện giải thuật di truyền là việc lặp đi lặp lại và: - Lặp lại, nơi mà các chuổi riêng lẽ được sao chép theo giá trị của hàm fitness. - Sự lai ghép chéo đơn, trong đó những thành viên tái sản xuất trong lai ghép ngẫu nhiên và sau đây mỗi cặp của chuổi trải qua thay đổi chéo. - Đột biến, là sự thay đổi không thường xuyên ngẫu nhiên của giá trị của nhiễm sắc thể với xác suất nhỏ. Bắt đầu từ các cụm đang tồn tại, chúng ta định nghĩa nhiễm sắc thể của tập hợp con cá thể ban đầu của trang với tập hợp giới hạn ( thuật ngữ trong GA, một trang là một gene). Giải thuật di truyền làm việc trên cá thể ban đầu kết thúc bằng biểu diễn tập hợp con của trang hiện tại của người sử dụng. Ý tưởng bắt đầu tiến hoá của di truyền của cá thể mà đúng như vậy rất nhỏ so với tập hợp ban đầu của trang P. Mỗi nhiễm sắc thể được tạo ra bằng cách chọn lọc trang từ mỗi cụm, bắt đầu với một hay nhiều điểm cao. Như vậy, nhiễm sắc thể đầu tiên được tạo ra chứa đựng trang với điểm cao trong mỗi cụm, với nhiễm sắc thể thứ hai chứa điểm tốt thứ hai và v.v Nếu tập hợp của cụm nhỏ hơn số nhiễm sắc thể được tạo ra thì cụm không được đại diện cho mỗi nhiễm sắc thể, trong khi những cụm khác có tập hợp cao hơn của một trang đại diện bằng một nhiễm sắc thể nào đó. Chúng ta cho biết với dc là số của trang bao gồm mỗi nhiễm sắc thể trong quần thể ban đầu và nc là số nhiễm sắc thể. Một quần thể gồm có np=dc*nc trang. Hàm fitness tính toán cho mỗi nhiễm sắc thể được biểu diễn bằng giá trị dương cao “tốt” cho nhiễm sắc thể và như vậy hàm được làm cực đại. Nó bao gồm ba giai đoạn: Thứ nhất là tính tổng các điểm của trang trong nhiễm sắc thể C, nghĩa là 1 ( ) ( ) i i p C t C score p ∈ = ∑ với score(p i ) là điểm gốc của trang p i được mô tả trước đó. Cần xem xét giới hạn khả năng dương của nhiều trang dương có điểm cao trong nhiễm sắc thể mà còn trả lại những nhiễm sắc thể của trang có điểm thấp. Hạn chế thứ hai của hàm fitness đó là cân bằng. - 8 - Với ID là số chiều; tỷ lệ 2 / (| | ) 1t np abs C ID= − + cấu thành từ 2 số hạn của hàm fitness. np đạt cực đại khi chiều của C chính xác bằng chiều của ID và nhanh chóng giảm cho đến khi số những trang được chứa trong nhiễm sắc thể C nó có thể nhỏ hơn hoặc lớn hơn ID. Nhiễm sắc thể nằm trong quần thể ban đầu được mô tả bằng điểm biến thiên cao của cụm thuộc các trang có liên quan. Sự tiến hoá của quần thể thay đổi đặc trưng, tạo ra nhiễm sắc thể với thích nghi cao của trang thuộc cụm và rất giống nhau trong mỗi cụm. Hơn nữa, sự kiện của trang thuộc về cụm khác nhau và khác nhau trong không gian vector không được đảm bảo, trong khi phụ thuộc một cách tự nhiên về dữ liệu và trên quá trình xử lý phân cụm ban đầu. Với lý do đó, chúng ta giới thiệu hàm fitness thứ ba, đánh giá toàn bộ đánh giá không giống nhau của các trang trong nhiễm sắc thể. Với ( , ) i j D p p khoảng cách Euclidean của những vector đại điện cho trang là p i , p j . Khi đó 3 , , ( ) ( , ) i j i j i j p p C p p t C D p p ∈ ≠ = ∑ là tổng của các khoảng cách giữa hai cặp của trang trong nhiễm sắc thể C và đánh giá tổng biến thiên rõ ràng của C. Mẫu cuối cùng của hàm fitness của nhiễm sắc thể C và 1 2 3 ( ) . ( ) . ( ) . ( )ff C t C t C t C= α +β + γ với tham số α,β, γ phụ thuộc vào độ lớn của điểm ban đầu và vector biểu diễn trang. Đặc biệt α,β, γ được chọn đóng góp cân bằng của 1 2 3 ( ), ( ), ( )t C t C t C . Ngoài ra, chúng có thể biểu thị sự thích ứng của các thuộc tính khác nhau được biểu diễn bằng ba thời thời điểm. Mục tiêu của GA tìm bằng phương thức di truyền, một nhiễm sắc thể C * sao cho: * 1, , ( ) max ( ) nc ff C ff C= . VII. Hướng phát triển Ứng dụng phân tích dữ liệu tinh xảo và kỹ thuật khai phá dữ liệu trong tìm kiếm của thông tin trên Web là lĩnh vực được quan tâm ngày càng nhiều trong nghiên cứu và công nghiệp. Là chiến lược quan trọng của công cụ này nó không được đánh giá thấp và ý nghĩa của thông tin ngày một tăng. Như vậy phương hướng thúc đẩy tìm kiếm đưa ra công cụ giúp đỡ cải thiện kết quả tìm kiếm thông tin trên Web. Một câu hỏi đặt ra là phương thức này có thể chạy trực tuyến trong Search engine chuẩn thực hiện truy vấn của người sử dụng. Chúng ta tin tưởng rằng điểu chỉnh thích hợp của thông số và ứng dụng thuật toán thích hợp thì quá trình tìm kiếm được xử lý một cách thoả mãn. Công việc tương lai sẽ bao trùm mở rộng kỹ thuật vector trang và định nghĩa và thủ tục kiểm tra tự động điểu chỉnh tham số trong giải thuật di truyền. Tài liệu tham khảo Graph-theoretic Techniques for Web Content Mining Web Mining Tutorial Mining the Web Web Mining: Applications and Techniques A Study of Web Mining Research - 9 - MỤC LỤC HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG 1 TIỂU LUẬN MÔN HỌC 1 I.Giới thiệu 2 II. Nền tảng (Background) 5 III.Các điểm chính: 6 IV. Vector trang (Page Vectorization) 6 V. Phân cụm trang (Page Clustering) 7 VI. Giải thuật di truyền (Genetic Algorithm) 7 VII. Hướng phát triển 9 Tài liệu tham khảo 9 Graph-theoretic Techniques for Web Content Mining 9 Web Mining Tutorial 9 MỤC LỤC 10 - 10 - . MINING CHỦ ĐỀ : Web mining Trong Search Engine Giảng viên : Trần Đình Quế Sinh viên : Nguyễn Huy Sơn HÀ NỘI – 4/2011 I.Giới thiệu Sự quan trọng của Search Engine Hãy thử tưởng tượng một cuộc. viên biên soạn. Web crawler còn được gọi là spider (con nhện) là một phần của search engine, chuyên “chu du” khắp Web, sao chép từng trang nó tìm được và lập chỉ mục các từ khóa, tên trang. Với. tỉ trang Web, nơi mà những câu truy vấn được thực hiện ngay tức khắc. Trọng tâm là quá trình chuyển số lượng lớn (sự duy trì và lập chỉ mục trên cơ sở dữ liệu lớn của trang Web và quá trình