mộ số vấn đề chọn lọc của công nghệ thông tin và truyền thông

Một số vần đề chọn ỉọc cùa Công nghệ thông tỉn và truvền thông, Hưng Yên, ĩ 9-20 tháng 08 năm 20ĩ 0 MỘT PHƯƠNG PHÁP XỬ LÝ KÉT QUẢ TÌM KIẾM TRÊN WEB Trần Ngọc Hà *, Hoàng Xuân Huấn Nguyễn Phương Chi^ (1) Khoa Toán, Đại học Sư phạm, Đại học Thái Nguyên (2) Khoa Công nghệ thông tin, Đại học Công nghệ, Đại học Quốc Gia Hà Nội (3)Khoa Cơ bản, Đại học Ngoại thương Khí sử dụng các công cụ tìm kiếm thông dụng hiện nay, kết quả tìm idem thicờng là rất nhiều tài liệu và các kết quả được đảnh giá là cỏ liên quan tời từ khỏa nhiều nhất sẽ được iru tiên hiển thị trước. Phương pháp này nhiều khi không tiện lợi cho người dùng, thậm chí người dùng có thể bỏ qua các kết quả cần tìm vì chủng không cỏ thứ hạng cao trong tập kết quả tìm kiếm. Để giải quyết vẩn đề này, báo cáo đề xuất hiển thị kết quả tìm kiếm web theo chủ đề. Để xác định chủ đề cho tài liệu, tnrởc hết sử dụng mô hĩnh tập thô dung sai để tăng chất lượng việc biểu diễn các tài liệu và các cụm từ nhằm tăng hiệu qitả phân cụm; sau đó sử dụng phương pháp phân cụm bán giảm sát Seeded - KMeans vào việc phân cụm và xác định chủ đề tài liệu. Nhờ cách xử lý này, người dùng dựa trên từ khỏa cỏ thể tìm tài liệu theo chủ đề. Từ khóa: tập thô dung sai, đồng xuất hiện, phân cụm bán giám sát, Seeded - KMeans, tìm kiếm web 1. Giới thiệu Cùng với sự phát triển rộng rãi của Internet, các máy tìm kiếm hiệu quả trên web đang được nhiều người quan tâm nghiên cứu (xem [2],[3],[8]). Mỗi khi cần tìm kiếm một thông tin nào đó, người dùng sẽ cung cấp cho máy tìm kiếm một số từ khóa, các máy tìm kiếm sẽ trả về cho người dùng các tài liệu có chứa từ khóa này. Thường thì có hàng trăm hoặc hàng ngàn tài liệu như vậy, điều này gây khó khăn cho người dùng trong việc tìm đúng tài liệu cần tìm. Thực tể cho thấy nếu các kết quả tìm kiếm được chia thành các chủ đề sẽ giúp người dùng dễ xác định được tài liệu mình cần tìm hơn. Điều này gợi ra cách tiếp cận mới là phân cụm kết quả tìm kiểm theo chủ đề và hiển thị kết quả dựa trên chủ đề theo lựa chọn của người dùng. Việc phân cụm kết quả tim kiếm web gặp phải một số khó khăn sau: • Không thể xác định trước được số cụm để gán chủ đề. • Sau khi phân cụm, chọn nhãn nào cho từng cụm để phù hợp cho người dùng? 181 Một số vẩn đề chọn lọc cùa Câng nghệ thông tin và truyền thông, Hung Yén, 19-20 tháng 08 năm 2010 • Vì thực hiện trực tuyến nên yêu cầu phải có tốc độ xử lý nhanh. Để giải quyết được các khó khăn trên, trong báo cáo này chúng tôi sử dụng mô hình tập thô dung sai (xem [2], [3], [5]) vào việc biểu diễn tài liệu làm tăng chất lượng biểu diễn tài liệu. Để tạo ra được nhãn cho các cụm kết quả tìm kiếm và tăng chất lượng của việc phân cụm, chúng tôi sử dụng thuật toán phân cụm bán giám sát Seeded - KMeans vào việc phân cụm, trong đó nhân của cụm sẽ dựa vào nhãn của tài liệu ở tập giống (seed) trong các trang web được chọn trước. Phần còn lại của báo cáo bao gồm các nội dung sau: mục 2 trình bày về máy tìm kiếm web, mục 3 giới thiệu bài toán phân cụm kết quả tìm kiếm web và mô hình tập thô dung sai, mục 4 trình bày thuật toán phân cụm bán giám sát dựa trên mô hình tập thô dung sai, mục 5 trình bày thử nghiệm của chúng tôi, và cuối cùng là kết luận. 2. M áy tìm kiếm web Máy tìm kiếm Web là một công cụ giúp người sử dụng tìm kiếm thông tin trên mạng một cách nhanh chóng và đầy đủ. Cấu trúc của một máy tìm kiếm web gồm các thành phần sau (xem [3], [8]): Trình thu thập web (Web Crawler) hay còn được gọi là Web Spider là một trong hai thành phần tương tác trực tiếp với World Wide Web (WWW). Web crawler CÓ nhiệm vụ phát hiện các trang mới trên WWW bằng cách thu thập các siêu liên kết từ các trang tài liệu. Quá trình này được thực hiện đệ qui để thăm dò hầu hết các trang web trên Internet. Web crawler sẽ phải sử dụng một số kỹ thuật để tránh không bị lấy thông tin trùng lặp; nó vừa thu thập các trang web mới nhưng cũng đồng thời kiểm tra lại những siêu liên kết đã không còn tồn tại trên WWW để loại chúng khỏi các kết quả tìm kiếm. Chỉ mục tài liệu (Document Index): Thành phần lập chỉ mục tài liệu thực hiện chức năng xây dựng bảng chỉ số tài liệu hỗ trợ công việc tìm kiếm. Thông thường, các hộ thống tìm kiếm thông tin thực hiện việc tìm kiếm các tài liệu hoặc dựa trên phương pháp lựa chọn tài liệu có chứa các từ trong câu hỏi tray vấn, hoặc dựa trên phương pháp xếp hạng tài liệu (Document Ranking) liên quan đến câu hỏi truy vấn. Do đó hầu hết các máy tìm kiếm đều sử dụng biến dữ liệu có cấu trúc chỉ mục ngược (inverted index) để hỗ trợ thực hiện công việc này. Lưu trữ tài liệu (Document Cache): Hiện nay có nhiều máy tìm kiếm vừa lưu trữ bảng chỉ số tài liệu như ở phần trên, vừa lưu trữ tài liệu gốc. Tính hạng tài liệu (Document Ranking) World Wide Web càng ngày càng phát triển do vậy lượng thông tin ngày càng lớn, số kết quả tìm kiếm với một từ khóa bất kỳ đều rất lớn, ngay cả với những câu hỏi truy vấn hoàn thiện và chính xác, số kết quả tìm kiếm vẫn có thể lên đến hàng ngàn hoặc hàng triệu. Chính vì vậy cần có module tính hạne; tài 182 Một sẩ vấn đề chọn lọc cùa Công nghệ thông tin và truyền thông, Hưng Yên, 19-20 tháng 08 năm 2010 liệu để xác định được tài liệu nào có độ liên quan đến các từ khóa mà người dùng tìm kiểm nhất. Xử lí truy vấn là thành phần có nhiệm vụ phân tích cú pháp tìm kiếm của người dùng thông qua các toán tử và cú pháp được định nghĩa, sau đó bộ xử lí truy vấn kết hợp với bảng chỉ số tài liệu, các tài liệu được lưu trừ, và thành phần tính hạng tài liệu để đưa ra tập kết quả tìm kiếm thỏa mãn cú pháp tìm kiếm của người dùng. Giao diện biểu diễn kết quả là thành phần quan trọng trong máy tìm kiếm và trực tiếp tương tác với người sử dụng. Do vậy giao diện biểu diễn kết quả tìm kiếm là yểu tố đầu tiên được xem xét khi đánh giá chất lượng của một chương trình tìm kiếm, nó có vai trò vô cùng quan trọng và có ảnh hưởng rất lớn đến toàn bộ chất lượng của máy tìm kiểm. 3. Phân cụm kết quả tìm kiếm web và mô hình tập thô dung sai. Trong mục này chúng tôi giới thiệu tóm tắt bài toán phân cụm kết quả tìm kiếm trên web, phương pháp phân cụm bán giám sát Seeded-Kmeans và mô hình tập thô dung sai (chi tiết hơn xem [1], [4], [5], [6]) 3.1. Bài toán phân cụm kết quả tìm kiếm web Phân cụm dữ liệu là bài toán học không giám sát được phát biểu như sau: Giả sử ta có tập các đối tượng D={dl,d2, )dn} và ô(di; dj) là độ tương tự giữa hai đối tượng di và dj. Phân cụm là chia tập đối tượng D thành K cụm C={cl,c2, ,ck} sao cho mỗi đối tượng đều thuộc về một cụm, các đối tượng trong cùng một cụm thì tương tự nhau hơn các phần tà thuộc các cụm khác nhau (số lượng cụm k có thể được xác định trước hoặc xác định nhờ phương pháp phân cụm). Nhược điểm của các phương pháp phân cụm hiên thời là kết quả phân cụm khó phù hợp với các yêu cầu của người dùng. Vì vậy, một hướng tiếp cận mới giúp tăng hiệu quả cho các thuật toán phân cụm là sử dụng các thông tin hỗ trợ từ người dùng và được gọi là phân cụm bán giám sát (semi supervised clustering [1]). Các thông tin bổ trợ có thể được cho dưới dạng tập các cặp ràng buộc hoặc một tập nhỏ một số dữ liệu được gán nhẵn. Trong phân cụm, việc đánh giá độ tương tự giữa các đối tượng dựa trên các tiêu chí khác nhau ví dụ như khoảng cách giữa các đối tượng hoặc dựa trên khái niệm, .Phân cụm tài liệu là phương pháp phân cụm dựa trên khái niệm, khi đó các tài liệu trong cùng một cụm đều liên quan đến khái niệm chung của cụm. Hay nói cách khác, các đối tượng được nhóm lại theo nội dung chúng diễn tả, không đơn giản là chỉ dựa theo độ đo khoảng cách hình học. Các phương pháp phân cụm kết quả tìm kiểm web cũng xuất phát từ phân cụm tài liệu, tuy nhiên chúng lại khác so với các thuật toán phân cụm trước đó về nhiều mặt. Đáng chú ý nhất, các thuật toán phân cụm tài liệu làm việc trên tập dữ liệu văn bản dài (hay các văn bản tóm tắt) với sổ lượng lớn. Ngược lại, các thuật toán phân cụm kết quả tìm kiểm 183 Một sổ vấn đề chọn lọc của Công nghệ thông tin và truyền thông, Hưng Yên, ¡9-20 tháng 08 năm 2010 web làm việc trên các tập tài liệu có độ dài trung bình (khoảng vài trăm phần tử với độ dài từ 10-20 từ). Trong phân cụm tài liệu, yểu tố quan trọng là chất lượng của các cụm và khả năng mở rộng với độ lớn của số lượng tài liệu vì nó thường sử dụng để phân cụm toàn bộ tập tài liệu. Đối với phân cụm kết quả tìm kiếm web, ngoài việc cung cấp các cụm chất lượng tốt, nó còn cần tạo ra các mô tả ngắn gọn xúc tích và có ý nghĩa cho nhóm. Ngoài ra, các thuật toán phài nhanh, cho kết quả ngay lập tức (vì phải xử lý các kết quả tìm kiếm ngay trước khi hiển thị đến người sử dụng) và phải mở rộng được qui mô với sự gia tăng yêu cầu của người sử dụng. Có nhiều phương pháp phân cụm khác nhau như phân hoạch, phân cấp, chia lưới, dựa trên mật độ, Đối với bài toán phân cụm tài liệu, phương pháp phân cụm phân hoạch thường được lựa chọn. Trong báo cáo này chúng tôi cũng sử dụng phương pháp phân cụm phân hoạch cho việc phân cụm kết quả tìm kiếm web. 3.2. Thuật toán phân cụm bán giám sát Seeded - Kmeans Đối với phương pháp phân cụm nửa giám sát dựa trên tập dữ liệu được gán nhãn, để hình thành nên các cụm giống nhằm khởi tạo cho một thuật toán phân cụm hoặc để sinh ra các ràng buộc dẫn dắt quá trình phân cụm, người ta sẽ sử dụng tập dữ liệu được gán nhãn. Seeded-KMeans là thuật toán phân cụm bán giám sát điển hình dựa trên tập dữ liệu đã được người dùng gán nhãn được Basu đề xuất năm 2002 (xem [1]). Thuật toán này sử dụng tập con ^ được gọi là tập giống gồm các đối tượng đã được gán nhãn để khởi tạo cho thuật toán KMeans. Trên thực tế tập giống s thường chỉ chiếm một phần nhỏ trong tập đối tượng X. Do vậy khi tập giống không đầy đủ thì các cụm còn lại được khởi tạo ngẫu nhiên trên phần bù của s trong X. Dưới đây là thể hiện chi tiết của thuật toán Seeded - KMeans. Thuật toán Seeded-KMeans Input; - Tập các đối tượng dừ liệu X = e Số lượng cụm: K - Tập giống S = [Jt\Sh Output: K phân hoạch tách rời: của X sao cho hàm mục tiêu được tối ưu. Thuật toán: Bưó'c 1: Khởi tạo các cụm: ^ JC , với h = t«-0. Bước 2: Gán cum; Gán mỗi đối tương dữ liêu X vào cum h' (tức là tâp ) với /i* = argmin * l /j J /l=l 184 Một sổ vẩn đề chọn lọc của Công nghệ thông tin và truyền thông, Hưng Yên, 19‘20 tháng 08 năm 20ì 0 Bước 3: ước lượng tâm: * Bước 4: t <-t+l Bước 5: Dừng nếu hội tụ hoặc quay lại bước 2. Bảng 1 - Thuật toán Seeded - KMeans 3.3. Mô hình tập thô dung sai (Tolerance Rough Set Model - TRSM) Lý thuyết tập thô (rough set theory) lần đầu tiên được đề xuất bởi z. Pawlak vào đầu những năm 1980 và nhanh chóng được xem như một công cụ xử lý các thông tin mơ hồ và không chắc chắn trong việc phân tích và phân lớp dữ liệu. Trong lý thuyết tập thô, mỗi tập con X trong tập vũ trụ u có thể được xấp xi bởi xấp xỉ trên và xấp xỉ dưới của nỏ trong không gian xấp xi 9Ĩ=(Ư,R) trong đó R c UxU là một quan hệ tương đương (quan hệ tương đương là quan hệ có các tính chất phản xạ, đối xứng và bắc cầu). Hai đổi tượng x,y C u được nói là bất khả phân biệt theo quan hệ R nếu xRy. Xấp xỉ dưới và xấp xỉ trên của bất cứ tập X c u trong 9Ĩ ký hiệu là LR(X) và UR(X) được định nghĩa là: • LR(X)={xeU |[x]RcX } (1) • UR(X)={ xeU | [x]Rn X ?i0} (2) Trong đó [x]R là lớp tương đưofng của các đối tượng bất khả phân biệt với X theo quan hệ tương đương R. Mô hình tập thô dựa trên quan hệ tương đương luôn giả sử rằng tập T của các tò chi mục có thể chia thành các lớp tưoTig đưcmg tách rời nhau dựa trên quan hệ tương đương. Tuy nhiên trong vấn đề xử lý ngôn ngữ tự nhiên và tìm kiếm thông tin, người ta nhận thấy trong ba tính chất của quan hệ tương đương thì quan hệ bắc cầu không thực sự phù hợp bởi vì với mỗi từ đều có một lớp các từ có nghĩa tuơng tự. Các lớp này không rời rạc (lớp tương đương) mà chúng phủ nhau, nghĩa của các từ không có tính chất bắc cầu. Quan hệ dung sai (tolerance relation) là quan hệ chỉ thỏa mãn hai tính chất là tính chất phản xạ và tính chất đối xứng. Các lớp phủ nhau có thể được sinh ra bởi các quan hệ dung sai. Mô hình xấp xỉ chung sử dụng quan hệ dung sai được giới thiệu trong đó không gian chung được gọi là không gian dung sai (tolerance space) có chứa các lớp phủ nhau của các đối tượng trong vũ trụ (các lớp dung sai). Không gian dung sai được định nghĩa gồm 4 phần 9ĩ= (U, I, V, p) trong đó u là tập vũ trụ các đối tượng, 1:U->2U là một hàm không chắc chắn, v: 2U X 2U -> [0,1] là một hàm tính độ mập mờ, P: I(U) -> {0; 1} là hàm cấu trúc. 185 Một số vẩn đề chọn lọc cùa Công nghệ thống tin và truyền thông, Hưng Yên, 19-20 thảng 08 năm 2010 Giả s ử mỗi đối tượng X có thể hiểu được bởi các thông tin Inf(x) về nó. Hàm không chắc chắn I xác định một lớp dung sai I(x) của các đối tượng được coi là có thông tin tương tự với X. Hàm này có thể là một hàm bất kỳ thỏa mãn 2 điều kiện xe I(x) và xe I(y) <=> ye I(x) V x,ye u. Dễ thấy I(x) là lớp dung sai của X bởi vi quan hệ xRy<=^ yG I(x) là một quan hệ dung sai. Hàm tính độ mập mờ V được dùng để xác định mức độ bao phủ giữa các tập hợp. V có thể là bất cứ hàm đơn điệu đối với 2 tham sổ của nó v(X,Y) < v(X,Z) V X,Y,ZeU và YcZ. Hàm cấu trúc p phân lóp I(x) với mỗi xe ư thành 2 lớp là các tập con có cấu trúc (P(I(x))=l) và các tập con không có cấu trúc (P(I(x))=0). xấp xỉ trên và xấp xỉ dưới của mọi đối tượng xeU trong được định nghĩa là: • LR(X) = {XG U| P(I(x))= 1 & v(I(x),X)= 1} {f) • UR(X)={ xe UI P(I(x))=l& v(I(x),X)>0} (4) Vấn đề cơ bản của việc sử dụng không gian dung sai là làm thế nào để xác định được I, V và p cho phù hợp. 4. Thuật toán phân cụm bán giám sát dựa trên TRSM Trước khi trình bày thuật toán, chúng tôi giới thiệu tóm tắt về không gian dung sai (chi tiết xem [4],[6]) 4.1. Không gian dung sai Giả sử D = {dl, d2, dn} là tập các tài liệu và T={tl, là tập các từ chỉ mục của tập tài liệu D. Trong TRSM, không gian dung sai được ký hiệu qua một vũ trụ của tất cả các từ chỉ mục U = (5) Đe xác định được mối quan hệ giữa các từ chỉ mục trong các lớp, quan hệ dung sai R được xác định là sự xuất hiện đồng thời của các từ trong tất cả các tài liệu từ tập D. Quan hệ đồng xuất hiện của các từ chỉ mục giúp xác định mối quan hệ ngữ nghĩa và làm sáng tỏ ý nghĩa thực sự của các từ trong ngữ cảnh của các tài liệu và việc tính toán trở lên đơn giản và hiệu quả. Giả sử fD(ti, tj) là số lượng các tài liệu trong D xuất hiện cả hai từ ti và tj. Hàm không chắc chắn I phụ thuộc vào ngưỡng 0 được định nghĩa là I0 (ti)= {tj|fD (ti,tj)> 0} U{ti} ^ (6) Rõ ràng hàm trên thỏa mãn các tính chất phản xạ và đối xứng với mọi ti và tj s T. Vì vậy quan hệ dung sai I cTxT có thể định nghĩa qua hàm I: e i0 (ti) (7) 186 Một sô vấn để chọn lọc của Công nghệ thông tin và truvền thông, Hưng Yên, 19-20 tháng 08 năm 2010 Trong đó 10 (ti) là lớp dung sai của từ chỉ mục ti Để đánh giá mức độ bao hàm của một tập trong tập khác, hàm bao phủ không chắc chắn được định nghĩa là: X n Y v{X,Y) = X (8) Hàm tính độ phụ thuộc của từ khoá ti e T, X C T: ịu {t,,x) = v ự , ụ , ) , x ) J - ^ ^ ụ p ^ leih) ( 9 ) Từ những giả sử trên ta có thể coi tất cả các lớp dung sai của mỗi ti đều là các tập con có cấu trúc, nghĩa là P(I9(ti)) =1 với V ti e T Các xấp xỉ trên và dưới của tập X C T trong không gian vừa xác định được: LR (X) = {tieT: v(I0(ti),X) =1} (10) U R (X )-{ tie T ; v(I0(ti),X)>O} (11) Trong mô hình không gian vector chuẩn, một tài liệu được xem như một nhóm của các từ, những từ xuất hiện trong tài liệu sẽ được gán các giá trị trọng số khác 0 trong vector biểu diễn tài liệu. Với TRSM, để tăng chất lượng biểu diễn tài liệu, ta không chỉ sử dụng các từ xuất hiện trực tiếp trong tài liệu mà còn cả các từ có liên quan về mặt ý nghĩa với các từ đó. Một cách biểu diễn tài liệu chất lượng hơn có thể coi là sự biểu diễn tài liệu bởi tập các lớp dung sai của các từ mà nó chứa. Ta có thể đơn giản hóa việc biểu diễn tài liệu với các xấp xỉ trên của nó. Giả sử di = {til, ti2, ,tik } là 1 tài liệu trong D và til, ti2, ,,tik là các từ chi mục của di: ư.(rf,) = {í,E r|v(/,(/,,),rf,)> 0) Để có cái nhìn trực quan hơn về lớp dung sai của các từ chỉ mục và xấp xỉ trên của tài liệu ta đi xét 1 ví dụ gồm 10 tài liệu được biểu diễn bời các tà chỉ mục như trong bảng 2. Với ngưỡng đồng xuất hiện 0=2, sử dụng công thức (6) ta tính được lớp dung sai của các từ chỉ mục là: I2(tl)={tl, t2, t5, tl6}, I2(t2)={tl, t2, t4, t5, t26}, I2(t4)={ t2, t4}, I2(t5)={ tl, t2, t5}, I2(t6)={ t6, t7 }, I2(t7)={t6,t7}, I2(tl6)={ tl, tl6}, I2(t26)={t2, t26}, với các từ còn lại thì lớp dung sai chỉ gồm 1 phần tử là chính nó. Tài liêu Từ khóa Xâp xỉ trên d, Uĩ hĩ t3, Í4, th hĩ ^3) U, U. t[6, Í26 d2 1?3 h, tg Uĩ t?, tg, - d3 th tsí ^10» t||, Ì2 t|» Í2, Í4, ts, t|0, tii, t|6, Í26 ¿4 hi ^7» tl2j tl3> ti4 tóí t?) ti2, t|3, ti4 ds hĩ t|5> U tl) Í2, t4,ts, ÍỊ5, Í26 d6 t|í tl6) t|7í tig, t|9, Í20 tl, Í2, ts, t|6, t]7, t|8, ti9, Ì2Ồ 187 Một số vấn đề chọn lọc của Cổng nghệ thông tin và truyền thông, Hưng Yên, ¡9-20 tháng 08 năm 2010 d y t 2 t í Í22, t2 3 , t24 , ^25 ^2U t22» t23 , t2 4 , h s d « t2> t i 2 , t2 6 , Í27 t l , t2 , Í 4 ,t 5 , t i 2 , Í26, t27 d ọ t2 6 ) t 2 , t2 8 t l , t2 , t4 ,Í 5 , Ỉ26, t28 d io ti 6 i t 2 l , Ỉ29, t3 0 tl> t2 , t s , t |6 , t 2 |, Í29, Í30 Bảng 2 - Ví dụ về xấp xỉ trên của tài liệu vói ngưỡng đồng xuất hiện là 2 Lược đồ TF*IDF được sử dụng để gán trọng số cho vector tài liệu. Đe tận dụng các xấp xỉ của tài liệu, lược đồ được mở rộng để giải quyết truờng hợp các từ chỉ có trong xấp xi trên của tài liệu nhưng không xuất hiện trong chính tài liệu (hoặc các từ xuất hiện trong tài liệu nhưng lại không nằm trong xấp xỉ dưới của tài liệu. N Nếu t - £ d; 0 f „ ,) /( l + lo g ( 7 ^ » N ế u tj£ U ,( d ,) -d , Nếut.ỂUR(di) (13) Trong đó wij là trọng sổ của từ.tj trong tài liệu di. Sự mở rộng này đảm bảo rằng các từ chỉ xuất hiện trong xấp xi trên của di mà không xuất hiện trong di phải có trọng số nhỏ hơn bất cứ từ nào xuất hiện trong di. Sự tiêu chuẩn hóa bằng độ dài vector được áp dụng cho tất cả các xấp xi trên của tài liệu. 4.2. Thuật toán phân cụm bán giám sát dựa trên TRSM Thuật toán phân cụm TRS-SK (Tolerance Rough Set Seeded KMeans) cơ bản dựa trên thuật toán Seeded - KMeans được giới thiệu ở trên; do vậy thuật toán đảm bảo hoạt động tương đối nhanh (phù hợp với phân cụm kết quả online) trong khi vẫn đảm bảo được chất lượng của các cụm. Việc sừ dụng không gian dung sai và xấp xỉ trên để tăng mối quan hệ giữa các tài liệu và giữa tài liệu với cụm cho phép thuật toán phát hiện ra sự tương tự khó phát hiện mà các thuật toán khác không làm được. Trong phân cụm kết quả tìm kiếm, việc gán nhãn tốt cũng quan trọng như chất lượng nội dung cụm. Chúng tôi đã sử dụng các chủ đề của tập dữ liệu giống để làm nhãn cho các cụm dữ liệu. Thuật toán TRS-SK gồm 5 bước: Tiền xử lý tài liệu, xây dựng cách biểu diễn tài liệu, tạo ra các lớp dung sai, phân CVUII, gán nhãn cho cụm. Dưới đây là các bước chính của thuật toán. 4.2.1. Tiền x ử lý Tiền xử lý dữ liệu văn bản trước khi đưa vào các thuật toán phân cụm là rất cần thiết và có thể làm tăng hiệu xuất của thuật toán. Đầu tiên ta loại bỏ khỏi kết quả tìm kiếm những ký tự không phải là chữ cái (ví dụ: $,@,.• •)> các thẻ HTML và các mã ký tự đặc biệt 188 Một so vấn đề chọn lọc của Công nghệ thông tin và truvền thông, Hưng Yên, Ĩ9-20 tháng 08 năm 2ỒỈỒ như &amp, &quot, .Sau bước này ta sử dụng các thuật toán tách từ tiếng Việt để tách tài liệu thu được thành các từ có nghĩa. Bước tiếp theo là loại bỏ các từ dừng (stop words là những từ xuất hiện nhiều nhưng ko có giá trị trong việc phân cụm) 4.2.2. Xãy dự ng ma trận từ - tài liệu Thuật toán TRSM sử dụng mô hình không gian vector để xây dựng ma trận từ - tài liệu biểu diễn các tài liệu Bảng đồng xuất hiện được xây dựng sau khi tập tài liệu đã qua pha tiền xử lí và nó được trích chọn theo quy luật sau: • Bỏ qua số, các từ có ít hơn hai kí tự và các từ xuất hiện trong câu hỏi truy vấn vì chúng xuất hiện hầu hết trong các kết quả. • Sử dụng bộ lọc để loại bỏ các từ có tần xuất thấp (nhỏ hơn 1 ngưỡng nào đó cho trước) vì những từ này sẽ làm tăng số đặc tính của tài liệu. Sau khi trích chọn ta xây dựng ma trận tò - tài liệu theo luợc đồ trọng sổ TF*IDF (xem [6]) 4.2.3.Tạo lớp dung s a i[6] Mục đích của việc tạo lớp dxmg sai là để xác định tập các tò có liên quan đến mỗi từ với quan hệ dung sai là quan hệ đồng xuất hiện; tập hợp tà đó được gọi là lớp dung sai. Ta định nghĩa ma trận đồng xuất hiện của từ như sau: Trong đó tcx,y là tần số đồng xuất hiện của hai từ x,y-nghĩa là số tài liệu có chứa đồng thời cả hai từ X và y. Quan hệ dung sai R giữa các từ được định nghĩa là: xRy«=>tcx,y > 9 Trong đó 0 được gọi là ngưỡng đồng xuất hiện. Độ phức tạp tính toán của bước 1 là 0(NxM), bước 2 và bước 3 đều là 0(M2). Như vậy độ phức tạp của toàn bộ thuật toán là 0(NxM2). Chi tiết về thuật toán có thể xem [6] 4.2.4. Thuật toản ph ân cụm TRS-SK cải tiến TRS-SK là sự cải tiến của thuật toán Seeded - KMeans để tạo các nhóm tài liệu tương tự. Các bước chính của thuật toán được mô tả như sau: Thuật toán TRS-SK Input: Tập các kêt quả tìm kiêm D, sô lượng cụm K, tập các kêt quả đã được gán nhãn s (Tập dữ liệu giống) và ngưỡng tương tự s Output: K cụm phủ nhau từ tập các kết quả tỉm kiếm D với các giá trị thành viên thích hợp Thuật toán: 1. Lấy tất cả các kết quả đã được gán nhãn thuộc tập dữ liệu giống s để khởi tạo cho K cụm Ci, C2, ■ ■ ■, Ck- Đặc trưng của các cụm dược thể hiện bởi các tập Rị , R2, ■. ■, Rk _______________ 189 Một số vấn đề chọn lọc của Công nghệ thông tin và truyền thông, Hưng Yên, ỉ 9-20 tháng 08 năm 2010 2. Repeat Forcach dieD{ Poreach Ck(k=l, , K) { Tính toán độ tương tự giữa xấp xi trên của tài với các đặc trưng của cụm S(ưr(di), Rk) If(S(U,(di), R 0>5) then{ Gán di vào cụm Cỵ với mức độ thành viên được tính là: m(di, Ck)- S(Ur(di), Rk) } foreach(Ck){ Tính lại biểu diễn cụm Ri( Until thỏa mãn điều kiện dửng ______ Bảng 3 - Thuật toán TRS-SK Trong bước phân cụm này, với mỗi cụm CK ta xây dựng được biểu diễn cụm RK theo qui tắc sau: 1. Khởi tạo RK=(Ị). 2. Các từ xuất hiện trong các tài liệu trong cụm với tần số cho phép (được điều khiển bởi ngưỡng ơ) được thêm vào RX. 3. Chọn các từ có trọng số cao nhất từ các tài liệu trong cụm mà chưa có từ nào được thêm vào RK để thêm vào cách biểu diễn cụm RK. Trọng số của các từ ti trong Rk được tính là giá trị trung bình các trọng số của tất cả Ằ Á .1* A . / •» các lân xuât hiện trong các tài liệu của Ck: (14) Độ tương tự giữa các tài liệu và giữa các tài liệu với các cụm được tính theo độ đo cosin 5 (^ ,y )= J t -ỉ + í // V - (15) Việc áp dụng TRSM vào thuật toán phân cụm sẽ có 2 ưu điểm chính là: 1. Làm giảm các hệ số có giá trị bằng 0 khi ta biểu diễn các tài liệu bời các từ liên quan đến nó trong các lớp dung sai. 2. Có khả năng phát hiện ra các tài liệu mà có ít từ chung (hoặc thâm chí ko có) với tập các từ phổ biến. 190 [...]... định và truyền các thông điệp không cần thiết mức độ cao Hơn nữa sự ước luợng • 215 M ột số vấn đề chọn lọc của Công nghệ thông tin và truyền thông, Hưng Yên, Ỉ9-20 thảng 08 năm 2ỒỈỒ tải lưu lượng là khó và tốn thời gian, thời gian các cuộc gọi tới và thời gian thực hiện cuộc gọi là không rõ ràng và bất định Đe giải quyết được vấn đề này cần có một cơ chế dự báo phù hợp hơn, hiệu quả hơn Gần đây, đa số. .. (low_range[kt[i]]x(hi_code[i-l]-low_code[i-l]))/D 196 (2.4) MỘI sổ vấn đề chọn lọc của Cóng nghệ thông tin và íruvền thông, Hưng Yên, 19-20 thúng 08 năm 2010 hi_code[i] = low_code[ị-I]+ (hi_range[kt[i]] x(hi_code[i-1]-low_code[i-1]))/D ( 2 5 ) } (Các công thức (2.4) và (2.5) đượcxác định từ (1.1 ),( 1.5) và (2.3)) Mã số của bản rõ: Có thể chọnmộtgiá trị bất kỳ của miền mã Tn làm mã số cho bản rõ Gọi code là mã số của bản rõ thì code thỏa... của các khoảng trong mỗi chiều Do đó ta thấy việc lựa chọn thông số kích thuớc của khoảng là bao nhiêu ảnh hưởng rất lớn đến chất lượng của cụm và thời gian tính toán của thuật toán Hơn nữa việc xác định các khối mật độ cao từ các khối mật độ cao dự kiến mà có mật độ lớn hơn một ngưỡng cố định được định nghĩa từ trước có thể sẽ không phát hiện ra 206 Một số vấn đè chọn lọc của Công nghệ thông tin và. .. lớn, nhiều chiều trong 212 Một số vấn đề chọn lọc cúa Công nghệ thông tin và truvền thông, Hưng Yên, 19-20 thảng 08 năm 2010 khôntĩ gian không đầy đủ Đặc biệt đi sâu nghiên cứu thuật toán song song pMAFIA và đã đề xuất thuật toán pMAFIA-TID là cải tiến một số điểm sau đây của thuật toán pMAFIA: • Trong cấu trúc của DU ta lưu thêm danh sách chỉ sổ các giao dịch TID hỗ trợ • Đếm số bản ghi thỏa mân C D... ] ^ x (1.2) 193 Một sổ vấn đề chọn lọc của Công nghệ thông tin 1.1.2 P hép biến đỏi ngirực Khi biết hình chiếu y, thì X V’ c) truyền thông, Hưng Yên, 19-20 ihcing 08 nàm 2010 được xác định theo công thức: b-a và X eọỉ là nghịch ảnh của y theo [a,b] và ký hiệu; X = [a,b]-> y (1.4) 1.2 Phép chiếu một đoạn thẳng lên một đoạn thẳng 1.2.1 P hép chiếu thu n h ỏ đòng dạng Hình chiếu [yi,y2] của [xi,X2] lên... 200 Một số vấn để chọn lọc của Công nghệ thông tin và truyền thông, Hưng Yên, 19-20 tháng 08 năm 2010 b T huật toán giải mã Bang cách phân tích tương tự ta suy ra tổng số phép toán cần thực hiện là: 16x sizexn phép gán bit (3.14) 3.2.3 So sánh độ p h ứ c tạp của 2 p h ư ơ n g p h á p Troníỉ phương pháp mã hóa số học gốc chọn phép toán nhân bit làm phép toán cơ sở, trong khi đó phương pháp mã hóa số. .. Vãn Ất, Nguyễn Hiếu Cường, Nguyễn Văn Long, Đỗ Văn Tuấn, Cao Thị Luyên, Trần Đăng Hiên, Đề xuất thuật toán xử lý số nguyên lớn và ứng dụng trong các hệ mật mã khóa cóng khai, Kỷ yểu hội thảo Quốc gia "Một số vấn đề chọn lọc của công nghệ thông tin và truyền thông" , Biên Hòa, 05-06 tháng 8 năm 2009, Nhà XB Khoa học và Kỳ thuật, Hà Nội -2010, 107-118 [2] Howard, P.G and Jeffrey Scott Vitter, Practical... 1987 204 Một số vắn để chọn Ịọc của Công nghệ thông tin và truvền thông, Hưng Yên, 19-20 thảng 08 năm 2010 MỘT SỐ CẢI TIẾN THUẬT TOÁN SONG SONG PHÂN CỤM DỮ LIỆU LỚN, NHIÈƯ CHIÈU D ựA TRÊN LƯỚI THÍCH NGHI PMAFIA Nguyễn M ạnh Hùng, Phạm Thị Bích Vân, Đỗ Thị Mai Hường Khoa Công nghệ thông tin, Học viện Kỹ thuật Quân sự Phân cụm dữ liệu trong không gian dữ liệu lớn, nhiều chiều và không đầy đủ là một trong... bằng số lần duyệt của thuật toán pMAFIA Tổng số phép toán theo cách vừa nêu là n < Ncdu * N (vì riị < / / ) Để thực hiện theo cách đếm như ở trên thì pMAFIA-TID sẽ thêm vào mồi bản ghi dữ liệu một trường ID Khi đọc dữ liệu vào bộ nhớ trong của máy tính ta sẽ đọc vào một mảng với các chỉ số mảng tương ứng với ID của bản ghi Khi đó trên mỗi CDU hoặc DU ta 208 Một so vấn đè chọn lục cùa Cõng nghệ thông tin. .. đó số CDƯ tăng theo hàm mũ đối với số chiều, do vậy khi tập dữ liệu lớn, số chiều tăng và đặc biệt số CDU hình thành trong từng chiều rất lớn thì pMAFIA-TID với cải tiến không phải duyệt qua toàn bộ tập dữ liệu cũng như khi so sánh hai DU chỉ kiểm tra ở một trường là rất có ý nghĩa Ta sẽ chứng mình nhận định này trong phần thực nghiệm sau đây 209 Một số vắn đề chọn lọc cùa Công nghệ thông tin và truyền . Ci, C2, ■ ■ ■, Ck- Đặc trưng của các cụm dược thể hiện bởi các tập Rị , R2, ■. ■, Rk _______________ 189 Một số vấn đề chọn lọc của Công nghệ thông tin và truyền thông, Hưng Yên, ỉ 9-20 tháng. quả tìm kiểm 183 Một sổ vấn đề chọn lọc của Công nghệ thông tin và truyền thông, Hưng Yên, ¡9-20 tháng 08 năm 2010 web làm việc trên các tập tài liệu có độ dài trung bình (khoảng vài trăm phần tử. chủ đề của chúng trên các website gốc. 191 Một số vẩn đề chọn lọc cùa Công nghệ thông tin và truvền thông, Hung Yên, 19-20 tháng 08 năm 2010 Qua nhiều lần thử nghiệm chúng tôi thấy việc lựa chọn

Định dạng
Số trang	222
Dung lượng	8,49 MB