Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 23 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
23
Dung lượng
695,35 KB
Nội dung
HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG - NGUYỄN NGỌC HÙNG ANH NGHIÊN CỨU GIẢI PHÁP PHÂN TÍCH HÀNH VI NGƯỜI DÙNG QUA MẠNG HỌC SÂU NHẰM THIẾT KẾ GIẢI THUẬT TƯ VẤN KÊNH CHO NGƯỜI XEM TRUYỀN HÌNH Chuyên ngành: HỆ THỐNG THƠNG TIN Mã số: 8.48.01.04 TĨM TẮT LUẬN VĂN THẠC SĨ (Theo định hướng ứng dụng) TP HỒ CHÍ MINH – NĂM 2022 Luận văn hồn thành tại: HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG Người hướng dẫn khoa học: PGS.TS TRẦN THU HÀ Phản biện 1: …………………………………………… Phản biện 2: ………………………………………… Luận văn bảo vệ trước Hội đồng chấm luận văn thạc sĩ Học viện Cơng nghệ Bưu Viễn thông Vào lúc: ngày tháng năm Có thể tìm hiểu luận văn tại: - Thư viện Học viện Cơng nghệ Bưu Viễn thông 1 MỞ ĐẦU Lý chọn đề tài Hiện nay, Ngành Công nghệ thông tin phát triển mạnh phần cứng phần mềm Với phát triển đó, có lĩnh vực phát triển mạnh, xu tương lai kết hợp phát triển phần cứng lẫn phần mềm lĩnh vực dịch vụ phát sóng Truyền hình Internet Để trì dịch vụ Truyền hình Internet, mơ hình OTT (Over The Top) giải pháp cung cấp nội dung cho người sử dụng dựa tảng Internet cung cấp bên thứ ba Công nghệ OTT cho phép cung cấp nguồn Truyền hình có nội dung phong phú đa dạng theo yêu cầu người sử dụng vào thời điểm nào, kì nơi đâu với thiết bị phù hợp với ứng dụng có kết nối Internet Trên giới, công nghệ OTT làm thay đổi mặt dịch vụ truyền hình số cổ điển Cùng với phát triển thiết bị cơng nghệ đại điện thoại, máy tính, Smart Tivi phương tiện kỹ thuật số Nhằm giúp cho người sử dụng nhanh chóng tìm nội dung muốn xem, mơ hình OTT có tiện ích sau: Tạo ứng dụng chương trình xem lại kênh vừa xem trước Tâm lý người xem thường chọn cho thêm chương trình dự bị kênh xem khơng cịn hút (do quảng cáo, trục trặc kỹ thuật), việc ln chuyển hai kênh thường xem, sử dụng nút nhấn cách hiệu giúp người xem nhanh chóng xem chọn lựa Tạo danh sách kênh yêu thích, giảm số lượng hàng trăm kênh xuống thành vài kênh mà người xem quan tâm Tạo chủ đề để phân loại chương trình xem lại kênh tổng hợp, ca nhạc, phim, v.v… Nhờ mà người xem nhanh chóng chọn chủ đề chương trình để xem Tiện ích thứ áp dụng cho nội dung xem lại, VoD (Video on Demand) Đối với kênh truyền hình trực tiếp, chưa thể xem chương trình phát sóng theo chủ đề riêng Việc sử dụng lịch phát sóng truyền thống giải pháp áp dụng rộng rãi kênh truyền hình: chương trình phát sóng liệt kê theo theo thứ tự thời gian cho đài / kênh phát sóng Người sử dụng phải chọn kênh phát sóng để xem chương trình phát có chủ đề cần xem hay khơng Thơng tin nội dung chương trình phát sóng mơ tả lịch phát sóng Tuy nhiên người xem phải đọc cách “thủ công” tất thông tin cho chương trình phát sóng để tìm nội dung yêu thích Với hạn chế nêu tìm kiếm chương trình truyền hình muốn xem, ứng dụng tiến cơng nghệ để cung cấp dịch vụ cho người dùng cách tối ưu nên em chọn đề tài “Nghiên cứu giải pháp phân tích hành vi người dùng qua mạng học sâu nhằm thiết kế giải thuật tư vấn kênh cho người xem truyền hình” cho luận văn Thạc sĩ Mục đích cải thiện chất lượng thời gian tìm kiếm thơng tin chủ đề gợi ý nội dung giúp cho người xem dễ dàng xem chủ đề yêu thích cách nhanh Mục đích nghiên cứu Nghiên cứu phân tích hành vi người dùng qua mạng học sâu thiết kế giải thuật tư vấn kênh cho người xem truyền hình: Nghiên cứu, phân loại đoạn văn tiếp nhận đầu vào dùng mơ hình phân tích biết trước để xử lý đoạn văn chương trình truyền hình phân loại nhóm theo tựa đề chương trình phát sóng lịch phát sóng truyền thống gán thành nhãn tên chủ đề giao diện dịch vụ tìm kiếm Đây giải pháp nâng cao chất lượng dịch vụ Truyền hình tiết kiệm thời gian tra cứu kênh nội dung theo chủ đề cho người xem Nghiên cứu ứng dụng thuật toán Kmeans sở quy luật xác định, đề xuất tiêu chí để đánh giá, phân loại nội dung, tần suất xuất cụm từ, cấu trúc văn phạm, cách dùng từ, diễn giải để làm sở xác định chủ đề nội dung Truyền hình [4] Nghiên cứu thiết kế giải thuật phân biệt câu từ, ngữ pháp, động từ , danh từ thuộc cấu trúc câu tiến hành “đào tạo” thuộc tính Các nội dung huấn luyện gán vào chủ đề tương ứng [2] Tiến hành thử nghiệm sản phẩm giúp người dùng tìm kiếm kênh truyền hình biết thơng tin kênh có nội dung mong muốn xem tiết kiệm thời gian tạo cảm giác thoải mái cho người dung đầu cuối giải trí Đối tượng phạm vi nghiên cứu Đối tượng nghiên cứu: Biến đổi liệu thô thu từ trang web có lịch phát sóng Truyền hình để phục vụ mục đích nghiên cứu Sử dụng thuật toán K-means clustering để phân loại bổ sung theo luật xác định để tìm chủ đề chương trình Truyền hình Sử dụng phương pháp tự động phân loại bổ sung theo chủ đề chương trình Truyền hình dựa vào mơ hình máy học PhoBERT So sánh phương pháp phân loại đoạn văn như: Bert, PhoBert Phạm vi nghiên cứu: Dựa vào quy luật xác định để phân tích số lần xuất cụm từ, cấu trúc văn phạm người dùng yêu cầu để làm sở xác định cho việc định nhóm gợi ý cho người xem Dựa vào hỗ trợ mơ hình máy học PhoBERT để phân tích tự động nội dung chủ đề bổ sung theo chủ đề yêu thích người xem Mơ hình OTT chia thành ba thành phần chính, thực chức cách sau: Thu thập thông tin từ trạng thái hệ thống 6 Nhận yêu cầu từ phận người dùng, xây dựng mơ hình định Nhận lệnh thực thi Phương pháp nghiên cứu Luận văn sử dụng phương pháp nghiên cứu lý thuyết kết hợp với xây dựng ứng dụng thử nghiệm: Thu thập tài liệu, thơng tin có liên quan tới đề tài để phục vụ nghiên cứu Ứng dụng công nghệ lập trình python cơng nghệ lĩnh vực máy học như: BERT, PhoBERT, v.v… để so sánh, phát triển hệ thống thử nghiệm Tiến hành đánh giá kết thử nghiệm, đưa hướng phát triển mở rộng để tài để đáp ứng nhu cầu triển khai thực tế 7 CHƯƠNG 1: CƠ SỞ LÝ LUẬN Chương luận văn giới thiệu khái quát vai trị OTT dịch vụ truyền hình Internet Hiệu tính q trình điều chỉnh nội dung để thích ứng với nguồn phát Phân loại nội dung chương trình phát theo nhóm chủ đề Hiệu việc phân loại chương trình theo nội dung truyền tải Giúp cho thấy tầm quan trọng việc phân loại nội dụng kênh Truyền hình Gợi ý cho người xem thơng qua sở thích thói quen họ 1.1 Tổng quan mơ hình OTT Mơ hình OTT (Over The Top) giải pháp cung cấp nội dung cho người dùng âm thanh, hình ảnh tảng Internet độc lập, với mơ hình cơng nghệ OTT, nội dung truyền hình phân phối qua nhiều hạ tầng Internet, không thiết sở hữu nhà cung cấp dịch vụ Đây điểm khác biệt so với dịch vụ truyền thống truyền hình cáp, truyền hình vệ tinh Với phát triển thiết bị công nghệ smartphone, Smart TV làm thay đổi nhà mạng dịch vụ truyền hình, đặt biệt khoảng 10 năm qua, chắn nhiều thay đổi năm Từ mơ hình OTT ngày sử dụng phổ biến lĩnh vực Internet mở nhiều hội cho nhà cung cấp dịch vụ truyền Netflix, VTVGo, SCTV Online, v.v… Tại Việt Nam dịch vụ truyền hình Internet phát qua Smart TV ứng dụng truyền hình phát thiết bị di động ngày phổ biến tăng mạnh, nhà cung cấp truyền hình OTT đầu tư phát triển với nội dung chất lượng cao đa dạng hơn, giúp cho người dùng dễ dàng xem chọn lựa nội dung u thích dễ dàng 1.2 Mơ hình IPTV truyền thống IPTV xem hệ tiền thân truyền hình tảng OTT Trên hệ thống IPTV, dịch vụ truyền hình số được cung cấp qua thiết bị đầu cuối Set-top-box (STB) Qua thiết bị này, thuê bao xem kênh, thực dịch vụ thuê bao dịch vụ tương tác đa phương tiện khác thông qua tảng kết nối trực tiếp – quản lý nhà cung cấp dịch vụ (managed IP) Bản chất kết nối STB nhà cung cấp dịch vụ dựa tảng IP, nên dịch vụ IPTV dễ dàng cung cấp với dịch vụ Internet khác truy cập trang Web, điện thoại qua Internet, v.v… Hỗ trợ truyền hình có tính tương tác chiều: tạo điền kiện cho việc cung cấp đa dạng ứng dụng truyền hình có tính tương tác cao truyền hình trực tiếp với nhiều góc quay, truyền hình có độ nét cao theo u cầu, trị chơi truyền hình tương tác, v.v… Xem lại chương trình kênh truyền hình: kết hợp với chức ghi hình cho phép người dùng xem lại chương trình phát sóng thời điểm khác trước Cải thiện trải nghiệm riêng biệt xem truyền hình: nhờ tương tác chiều với nhà cung cấp dịch vụ thơng qua STB, người dùng chọn lựa kênh muốn xem thời gian xem cho phù hợp với thị hiếu Sử dụng băng thông cách hiệu quả: công nghệ IPTV bảo đảm phát kênh lên hạ tầng truyền dẫn có người u cầu Chính dù có khả cung cấp nhiều chương trình thời điểm, băng thông hạ tầng sử dụng cách hợp lý Giải trí thư giãn xem truyền hình qua nhiều thiết bị đầu cuối, hệ thống IPTV cung cấp nội dung khơng TV mà cịn PC hay điện thoại thơng minh kết nối trực tiếp với mạng nội STB 10 1.3 Các khó khăn thách thức dịch vụ truyền hình Internet Với khó khăn bước kỹ thuật phát triển dịch vụ kinh doanh mơ hình OTT tiêu biểu Với mơ hình nào, đặc điểm việc triển khai OTT ln địi hỏi giải pháp cho vấn đề sau: Số lượng truy cập lớn: không bất thường tượng gói OTT tạo 2,5 triệu người xem tuần đầu triển khai Mơ hình mua quyền xem truyền hình: mua quyền xem phim truyền hình thiết bị xem phim qua thiết bị khác nhà Mô hinh OTT theo chế bảo mật, cho phép người dùng có quyền xem tận hưởng phim có chương trình TV Trong q trình khảo sát chi tiết môi trường phát triển OTT khác nhau, ta có thách thức sau: Khả cung cấp nội dung từ nhiều nguồn khác cho nhiều định dạng độ phân giải khác 11 Sự đa dạng số lượng, chất lượng hỗ trợ tính khác thiết bị đầu cuối Tính bảo mật nội dung, linh động việc mua quyền sử dụng Khả tích hợp với hệ thống hỗ trợ vệ tinh hoạt động với dịch vụ IPTV CDN, CMS Khả tìm kiếm, phát nhận tư vấn để tìm nội dung phù hợp 1.4 Các phương pháp phân loại văn Bài tốn mơ hình phân loại văn thường có hai cách phân loại khác là: phân loại dựa luật phân loại dựa máy học Phân loại dựa luật cách phân loại cho đơn giản để phân loại dạng văn Việc phân loại nội dung câu văn dựa vào luật ngữ pháp tiếng việt Các luật có nghiên cứu đề xuất từ chuyên gia Đối với cách phân loại này, loạt biểu thức tạo để so sánh với nhãn từ đưa định phân loại nội dung văn nhãn văn Phân loại dựa máy học cách tiếp cận sử dụng phổ biến rộng rãi để giải toán phân loại nội dung văn 12 Cách tiếp cận thay kiến thức chuyên môn tập liệu lớn nội dung tiêu đề gán nhãn (tập liệu mẫu) Cách tiếp cận dựa học máy chia làm hai nhóm nhóm phương pháp học máy truyền thống nhóm phương pháp sử dụng mạng nơ-ron (Neural NetWork) Nhóm phương pháp học máy truyền thống thường sử dụng tính xác suất Naïve Bayes, Maximum Entropy, Máy Vector hỗ trợ (Support Vector machine - SVM), Cách tiếp cận học máy giải hạn chế cách tiếp cận dựa luật 13 CHƯƠNG 2: PHÂN TÍCH THIẾT KẾ ỨNG DỤNG Chương tập trung vào thiết kế phương pháp phân loại văn theo dạng chủ đề, dùng mơ hình phân tích để xử lý chủ đề đưa kết phân loại theo nhóm chủ đề 2.1 Sơ lược phân loại nội dung tiêu đề mơ hình OTT Phân loại nội dung chương trình phát sóng truyền hình quy đổi tốn lớn phân loại văn bản, phân loại câu văn hay từ vựng Đây toán Xử lý Ngôn ngữ Tự nhiên (NLP Natural Language Processing) Bài tốn phân loại tên chương trình mơ hình hóa qua mạng học sâu (deeplearning) với mơ hình chuyển đổi câu văn (sequence-to-sequence Model) Dữ liệu đầu vào gán nhãn mơ hình học từ liệu gán nhãn cho trước, sau dùng để dự đoán nhãn tương ứng cho liệu mơ hình 2.2 Quy trình phân loại nội dung tiêu đề mơ hình OTT Phân loại nội dung tiêu đề xây dựng mơ hình thuật tốn học máy huấn luyện phân loại sử dụng 14 vector thuộc tính liệu Có nhiều mơ hình học máy sử dụng để huấn luyện tạo mơ hình cuối Trong nghiên cứu sử dụng mơ hình PhoBert để huấn luyện bao gồm lớp đầu vào, lớp ẩn lớp đầu Mơ hình phân loại liệu gồm hai giai đoạn: Giai đoạn huấn luyện (training) giai đoạn học tập mơ hình phân loại văn Trong bước này, mơ hình học từ liệu có nhãn Dữ liệu văn số hóa thơng qua trích xuất đặc trưng (feature extractor) để mẫu liệu tập huấn luyện trở thành vector nhiều chiều (đặc trưng) Thuật toán máy học học tối ưu tham số để đạt kết tốt tập liệu Nhãn liệu dùng để đánh giá việc mơ hình học tốt khơng dựa vào để tối ưu Giai dự đốn (prediction), giai đoạn sử dụng mơ hình học máy sau học xong Ở giai đoạn này, liệu cần dự đoán thực bước trích xuất đặc trưng Mơ hình học sau nhận đầu vào đặc trưng đưa kết dự đốn 15 2.3 Thuật toán K-Means K-means thuật toán phân cụm đơn giản thuộc loại học không giám sát (tức liệu khơng có nhãn) sử dụng để giải toán phân cụm Ý tưởng thuật toán phân cụm K-Means phân chia liệu thành cụm khác Trong số lượng cụm cho trước k Công việc phân cụm xác lập dựa nguyên lý khác Các điểm liệu cụm phải có số tính chất định Tức điểm cụm phải có liên kết lẫn Đối với máy tính điểm cụm điểm liệu gần 2.4 Giới thiệu mơ hình BERT BERT (Bidirectional Encoder Representations from Transformers) (tạm dịch: Mơ hình mã hóa hai chiều liệu từ khối Transformer), phương pháp kỹ thuật xây dựng dựa mơ hình mạng mô theo hệ thống nơ-ron thần kinh người (neural network) dùng để đào tạo trước (pre-train) q trình xử lý ngơn ngữ tự nhiên Nói cách đơn giản, sử dụng để giúp Google phân biệt rõ ngữ cảnh từ xuất truy vấn tìm kiếm 16 CHƯƠNG 3: TRIỂN KHAI ỨNG DỤNG Trong chương trình bày phương án cài đặt phương pháp tự động phân loại bổ sung theo chủ đề chương trình truyền hình xây dựng Chương 3.1 Xây dựng liệu Với mơ hình OTT người dùng muốn xem danh sách chương trình xem vào thời điểm Người dùng nhập tên thể loại đầu danh sách khởi tạo danh sách chương trình phát sóng theo thể loại người dùng yêu cầu, không lệ thuộc vào khái niệm “Kênh” cổ điển, tập trung vào nội dung / chủ đề nội dung mà người thuê bao quan tâm Hình 3.1 thể sơ đồ chức hiển thị danh sách kênh cho người dùng theo chủ đề 3.2 Thiết lập thực nghiệm Với liệu chuẩn bị cho thiết lập thực nghiệm, luân văn lấy 1000 tiêu đề lịch phát sóng truyền hình theo pháp quy tiếng việt Luận văn chia thành nhãn Để đánh giá kết việc xác định thực thể thuộc tính ta đánh giá thơng qua độ xác (precision), độ bao phủ (recall), tính cân độ xác độ bao phủ (F1) xác định sau: 17 precision = recall = F1 = số nhãn gán tổng số nhãn gán số nhãn gán tổng số nhãn thực tế ∗ precision ∗ recall precision + recall 3.3 Công cụ thực nghiệm Luận văn lấy liệu phát sóng từ trang web VTV: https://vtv.vn/lich-phat-song.htm Dữ liệu khoảng 1000 tiêu đề phát sóng dịch vụ truyền hình VTV ngày Nội dung bao gồm chủ đề như: phim truyện, thời sự, thể thao, giải trí, ca nhạc, kỹ sống, trẻ em, du lịch 3.4 Các mơ hình thực nghiệm Luận văn sử dụng hai công cụ thực nghiệm sklearn svm Linear SVC sử dụng cho mơ hình SVM simpletransformers sử dụng cho hai mơ hình cịn lại BERT multilingual PHOBERT 3.5 Kết thực nghiệm Kết phân loại nhị phân theo nhãn mơ hình lệch Các nhãn phân loại theo mô hình PhoBert điều đạt kết tốt, 85% 18 CHƯƠNG 4: ĐÁNH GIÁ KẾT QUẢ THỬ NGHIỆM Chương mô tả chi tiết việc thử nghiệm cải tiến mơ hình OTT lĩnh vực phân loại nội dung chương trình phát sóng truyền hình 4.1 Mơ tả kết phân loại chương trình Mơ tả kết giao diện hiển thị danh sách kênh truyền hình trình chiếu ngày Người dùng nhập vào ô tìm kiếm để tìm danh sách kênh trình chiếu khung lịch phát sóng VTV Ví dụ: Người dùng nhập “Thể thao 24 giờ” danh sách theo chủ đề thể thao thị lên theo kênh VTV Người dùng chọn kênh theo nơi dụng mà họ u thích tìm khung mà họ xem 4.2 Kết luận Phân loại chương trình truyền hình theo nội dung / chủ đề coi phương pháp giúp người xem tiếp cận với nội dung cần xem cách nhanh chóng hơn, tiện lợi Các tựa đề chương trình truyền hình thường mệnh đề ngắn, câu dài trọn vẹn Chính việc phân tích ngữ nghĩa theo phương pháp xử lý ngơn ngữ tự nhiên (NLP) phức tạp không hiệu Đề tài tập trung 19 nhiều tuần liệu chương trình truyền hình, tập hợp từ khóa thường gặp cho chủ đề cho trước Việc phân loại mệnh đề cách tính “khoảng cách nhỏ nhất” mệnh đề xuất mệnh đề từ khóa thuộc chủ đề / tiêu chí định 4.3 Kiến nghị hướng nghiên cứu Tiến hành cài đặt đánh giá phương pháp tự động để phân bổ nội dung theo kênh phát môi trường Internet thực tế Đề tài cần nghiên cứu phát triển thêm giải pháp, thuật toán AI (Deep learning, Machine learning) để phân tích điều khiển dạng Text giọng nói để phân loại đáp ứng nhu cầu thực tế, giúp cho người dùng tìm kiếm nhanh nội dung chương trình truyền hình muốn xem, gợi ý cho người dùng chủ đề theo sở thích, thói quen khoảng thời gian ngắn xác Cải thiện giao diện để thân thiện cho người dùng tính tương thích theo chương trình phát sóng Đề tài đề xuất phương thức khác hẳn với truyền hình truyền thống để xem Tivi Người xem xác định chủ đề muốn xem bật Tivi 20 KẾT LUẬN Đề tài phân loại chương trình truyền hình Internet theo nội dung phương pháp giúp cho người xem tiếp cận với nội dung Truyền hình khoảng thời gian ngắn Với tính tương thích chương trình, lịch xem truyền hình quen thuộc phân tích lại Kênh truyền hình khơng cịn giữ vai trị quan trọng việc tìm kiếm nội dung cần xem Từ khóa tìm kiếm phân loại thực chương trình phát sóng Việc tìm kiếm từ khóa có tên chương trình, việc xếp chương trình theo chủ đề nội dung cải tạo hồn tồn giao diện lịch phát sóng cung cấp đề tài Nhằm giảm khó khăn cho người xem việc phân biệt kênh khơng có tín hiệu kênh có độ trễ để nghe / nhìn nội dung lần vào xem truyền hình Đề tài nghiên cứu khái quát tựa đề chương trình Truyền hình tự động phân tích ngữ nghĩa theo phương pháp xử lý ngơn ngữ tự nhiên để phân lớp thành nhiều tuần liệu chương trình truyền hình, tập hợp từ khóa thường gặp cho chủ đề để gợi ý trước cho người xem Tên tựa đề thường mệnh đề không trọn vẹn (không đủ thành 21 câu trọn nghĩa), việc phân tích học sâu cho kết tốt Tựa đề tiếng Việt Nam, kiểu chơi chữ dùng từ để tựa đề thêm súc tích, v.v… gây ảnh hưởng khơng nhỏ đến kết dự đốn hệ thống Việc cân chủ đề phát sóng truyền hình (trẻ em du lịch chiếm phần nhỏ tồn chương trình truyền hình) tác động đến sai lệch việc dự đoán chủ đề Việc sử dụng mơ hình PhoBert huấn luyện trước với nhiều từ việt ngữ hơn, việc tự động tìm kiếm qua nguồn tìm kiếm Internet để hiểu thêm môi trường cho tựa đề chương trình, làm phong phú thêm số lượng chất lượng tập tin học thêm cho mơ hình huấn luyện hướng khả thi hứa hẹn cải thiện tốt việc nhận biết / phân loạt tên chương trình cách nhanh chóng xác