1. Trang chủ
  2. » Công Nghệ Thông Tin

BC bigdata sử dụng weda để phân tích dữ liệu

8 91 0

Đang tải... (xem toàn văn)

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 8
Dung lượng 358,33 KB

Nội dung

BC bigdata sử dụng weda để phân tích dữ liệu cho người dungf cái nhìn Convolutional Neural Network Models Deep Learning Convolutional Neural Convolutional Neural Network Models Deep Learning Convolutional Neural

6.2 Mơ hình Information Retrieval (IR) Một mơ hình IR quản lý cho tài liệu truy vấn đại diện cho liên quan tài liệu tới người dùng truy vấn xác định Có mơ hình IR bao gồm: Mơ hình Boolean, mơ hình khơng gian vector, mơ hình ngơn ngữ, mơ hình xác suất Ba mơ hình đầu thuờng sử dụng hệ thống IR Web Mặc dù mơ hình biểu diễn tài liệu truy vấn khác nhau, chúng sử dụng framework giống Tất chúng nghiên cứu tài liệu truy vấn điều kiện Trình tự thuật ngữ vị trí câu tài liệu bị bỏ qua Đó tài liệu mô tả thuật ngữ đặc biệt Một thuật ngữ đơn giản từ mà ngữ nghĩa giúp ghi nhớ tài liệu chủ đề Chúng ta nên lưu ý thuật ngữ khơng từ ngữ tự nhiên từ điển Đưa sưu tập tài liệu D, V = {t , t , , t } tập hợp thuật ngữ đặc biệt sưu tập, nơi mà ti điều khoản Bộ V thường gọi từ vựng sưu tập | V | kích thước nó, tức số lượng điều khoản V Trọng số w > liên kết với số hạng t a tài liệu d D Đối với thuật ngữ không xuất tài liệu dj, wij = Mỗi dj tài liệu đại diện với vectơ giới hạn, |V| ij i j dj = (w1j, w2j, , w|j), trọng lượng wij tương ứng với thuật ngữ ti V định lượng mức độ quan trọng ti tài liệu dj Trình tự thành phần (hoặc thuật ngữ) vector không đáng kể Lưu ý theo quy ước sách này, chữ in thường in đậm sử dụng để thể vectơ Với biểu diễn vectơ này, tài liệu đơn giản biểu diễn dạng bảng quan hệ (hoặc ma trận) Mỗi thuật ngữ thuộc tính trọng lượng giá trị thuộc tính Trong mơ hình truy xuất khác nhau, wij có tính tốn khác 6.2.1 Mơ hình Boolean Mơ hình Boolean mơ hình thơng tin sớm đơn giản Nó sử dụng khái niệm khớp xác để khớp tài liệu với truy vấn người dùng Cả truy vấn truy xuất dựa đại số Boolean Document Representation: Trong mơ hình Boolean, tài liệu truy vấn biểu diễn dạng tập hợp thuật ngữ Đó là, thuật ngữ xem xét có mặt vắng mặt tài liệu Sử dụng biểu diễn vectơ tài liệu trên, trọng số wij ( {0, 1}) thuật ngữ ti tài liệu dj ti xuất tài liệu dj không, tức là, wij = ti xuất dj = với TH khác (1) Boolean Queries: Như đề cập chương 6.1, thuật ngữ truy vấn kết hợp cách hợp lý cách sử dụng tốn tử Boolean AND, OR NOT, có ngữ nghĩa thơng thường họ logic Do đó, truy vấn Boolean có ngữ nghĩa xác Chẳng hạn, truy vấn, ((x AND y) AND (NOT z)) nói tài liệu truy xuất phải chứa hai điều khoản x y z Như ví dụ khác, biểu thức truy vấn (x OR y) có nghĩa số điều khoản phải có tài liệu lấy Ở đây, ta giả sử x, y z điều khoản Nói chung, chúng biểu thức Boolean Document Retrieval: Đưa truy vấn Boolean, hệ thống truy xuất tài liệu làm cho truy vấn hợp lý Do đó, việc thu hồi dựa tiêu chí định nhị phân, tức là, tài liệu có liên quan không liên quan Theo trực giác, điều gọi kết hợp xác Khơng có khái niệm phù hợp phần xếp hạng tài liệu lấy Đây nhược điểm lớn mơ hình Boolean, thường dẫn đến hạn chế kết thu Rõ ràng tần suất điều khoản gần gũi đóng góp đáng kể vào liên quan tài liệu Chính vấn đề này, mơ hình Boolean sử dụng thực tế Hầu hết cơng cụ tìm kiếm hỗ trợ số hình thức truy xuất Boolean giới hạn cách sử dụng tốn tử bao gồm loại trừ rõ ràng Ví dụ: Truy vấn cấp cho Google, ‘khai thác GoogleData + giá thiết bị đường ăn, +(bao gồm) - (loại trừ) tương tự toán tử Boolean AND NOT tương ứng Tốn tử OR hỗ trợ 6.2.2 Mơ hình khơng gian Vector Mơ hình có lẽ mơ hình IR biết đến nhiều sử dụng rộng rãi Document Representation Một tài liệu mơ hình khơng gian vectơ biểu diễn dạng vectơ trọng lượng, mà trọng lượng thành phần tính dựa số biến thể TF sơ đồ TF-IDF Trọng lượng thuật ngữ ti tài liệu dj khơng {0, 1} mơ hình Boolean, số Term Frequency (TF) Scheme: Trong phương pháp này, trọng số thuật ngữ ti dj tài liệu số lần ti xuất tài liệu dj, ký hiệu fij Chuẩn hóa áp dụng (xem Cơng thức (2)) Thiếu sót sơ đồ TF khơng xem xét tình thuật ngữ xuất nhiều tài liệu sưu tập TF-IDF Scheme: Đây chương trình trọng số biết đến nhiều nhất, TF viết tắt tần số thuật ngữ IDF tài liệu nghịch đảo tần số Có số biến thể chương trình Ở chương trình Đặt N tổng số tài liệu hệ thống sưu tập dfi số lượng tài liệu thuật ngữ ti xuất lần Đặt fij số đếm tần số thô thuật ngữ ti tài liệu dj Sau đó, tần số thuật ngữ chuẩn hóa (ký hiệu tfij) ti dj cho mức tối đa tính tất điều khoản xuất tài liệu dj Nếu thuật ngữ ti khơng xuất dj tfij = Nhắc lại | V | kích thước từ vựng sưu tập Tần số tài liệu nghịch đảo (ký hiệu idfi) thuật ngữ ti đưa bởi: Trực giác thuật ngữ xuất số lượng lớn tài liệu sưu tập, khơng quan trọng không ngoại lệ Các trọng số hạn TF-IDF cuối đưa bởi: Queries Một truy vấn q trình bày xác giống tài liệu thu thập tài liệu Thuật ngữ trọng số wiq thuật ngữ ti q tính theo cách tương tự tài liệu bình thường, khác chút Ví dụ, Salton Buckley [52] đề xuất sau: Xếp hạng tài liệu mức độ liên quan Thường khó để đưa định nhị phân việc tài liệu liên quan đến truy vấn định Khơng giống mơ hình Boolean, mơ hình khơng gian vectơ khơng đưa định Thay vào đó, tài liệu xếp hạng theo mức độ liên quan chúng với truy vấn Một cách để tính tốn mức độ liên quan tính tốn độ tương tự truy vấn q với truy vấn tài liệu dj sưu tập tài liệu D Có nhiều phương pháp tương đồng Một phương pháp tiếng tương tự cosin, cosin góc vectơ truy vấn q vectơ tài liệu dj, Sự tương tự cosine sử dụng rộng rãi phân cụm văn / tài liệu Tích số hai vectơ phép đo tương tự khác, Xếp hạng tài liệu thực cách sử dụng giá trị tương tự chúng Đỉnh tài liệu xếp hạng coi phù hợp với truy vấn Một cách khác để đánh giá mức độ liên quan tính trực tiếp điểm phù hợp cho tài liệu để truy vấn Phương pháp Okapi phương pháp biến thể kỹ thuật phổ biến cài đặt Truy xuất Okapi cơng thức đưa dựa điều [51, 55] Nó rằng: Các biến thể Okapi có hiệu cosine cho truy xuất truy vấn ngắn Vì việc trình bày cơng thức trực tiếp cách sử dụng túi trực tuyến dễ dàng ký hiệu từ tài liệu vectơ, dj tài liệu ký hiệu dj truy vấn q ký hiệu q Các ký hiệu bổ sung sau: ti thuật ngữ fij số tần số thô thuật ngữ ti tài liệu dj fiq số tần số thô thuật ngữ ti truy vấn q N tổng số tài liệu sưu tập dfi số tài liệu có chứa thuật ngữ ti dlj độ dài tài liệu (tính byte) dj avdl chiều dài tài liệu trung bình sưu tập Điểm phù hợp Okapi dj tài liệu cho truy vấn q là: k1 (trong khoảng từ 1,0-2), b (thường 0,75) k2 (trong khoảng 11000) thông số Một chức cho điểm khác trọng số chuẩn hóa có trục chức điểm số, ký hiệu pnw [55]: Trong s tham số (thường đặt thành 0,2) Lưu ý kinh nghiệm chức dựa trực giác đánh giá thử nghiệm Có nhiều biến thể chức sử dụng thực tế 6.2.3 Mơ hình ngơn ngữ thống kê Các mơ hình ngơn ngữ thống kê (hoặc đơn giản mơ hình ngơn ngữ) dựa xác suất có tảng lý thuyết thống kê Ý tưởng việc cách tiếp cận để thu hồi đơn giản Đầu tiên, ước tính mơ hình ngơn ngữ cho tài liệu sau xếp hạng tài liệu theo khả truy vấn cho mơ hình ngơn ngữ Ý tưởng tương tự trước sử dụng tự nhiên xử lý ngơn ngữ nhận dạng giọng nói Việc xây dựng thảo luận phần dựa người [68, 69] Lấy thông tin cách sử dụng mơ hình ngơn ngữ lần đề xuất Ponte Croft [46] Đặt truy vấn q chuỗi thuật ngữ, q = q1q2 Khắc qm tài liệu sưu tập D tập hợp tài liệu, D = {d1, d2, tầm, dN} Trong ngơn ngữ mơ hình hóa phương pháp tiếp cận, coi xác suất truy vấn q Được tạo mô hình xác suất dựa tài liệu dj, tức là, Pr (q | dj) Để xếp hạng tài liệu truy xuất, quan tâm đến việc ước tính xác suất sau Pr (dj | q) Sử dụng quy tắc Bayes, có Để xếp hạng, Pr (q) khơng cần thiết giống cho tài liệu Pr (dj) thường coi bề ngồi khơng ảnh hưởng đến thứ hạng Ta cần tính Pr (q | dj) Mơ hình ngơn ngữ sử dụng hầu hết cơng việc có dựa unigram, tức thuật ngữ riêng lẻ (từ) xem xét Đó là, mơ hình giả định thuật ngữ (từ) tạo độc lập, phân phối đa thức từ Trường hợp chung n-gram mơ hình, thuật ngữ thứ n quy định dựa điều khoản n-1 trước Dựa phân phối đa cực mơ hình unigram, ta có: Trong fiq số lần mà thuật ngữ ti xảy q | IV | 1Pr (ti | d j) Vấn đề truy xuất giảm xuống để ước tính Pr (ti | dj), tần số tương đối, Hãy nhớ lại fij số lần mà thuật ngữ ti xảy tài liệu dj | dj | biểu thị tổng số từ dj Tuy nhiên, vấn đề với ước tính thuật ngữ khơng xuất dj có xác suất 0, đánh giá thấp xác suất thuật ngữ vơ hình tài liệu Tình tương tự văn phân loại mơ hình Bayes ngây thơ (xem Phần 3.7) Một số xác suất thường gán cho thuật ngữ chưa thấy tài liệu, gọi làm mịn Làm mịn điều chỉnh ước tính xác suất để tạo xác suất xác Tên làm mịn xuất phát từ thực tế kỹ thuật có xu hướng phân phối nhiều thống nhất, cách điều chỉnh xác suất thấp xác suất trở lên, xác suất cao trở xuống Không làm phương pháp làm mịn nhằm mục đích ngăn chặn xác suất khơng, họ cố gắng cải thiện độ xác mơ hình nói chung Làm mịn phụ gia truyền thống Khi � = 1, làm mịn Laplace < �

Ngày đăng: 03/04/2020, 22:52

TỪ KHÓA LIÊN QUAN

w