1. Trang chủ
  2. » Luận Văn - Báo Cáo

Nhận diện thông tin thành phần sản phẩm trên nhãn với công nghệ học máy

48 1 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC BÁCH KHOA ———————– * ———————– BÁO CÁO LUẬN VĂN TỐT NGHIỆP NHẬN DIỆN THÔNG TIN THÀNH PHẦN SẢN PHẨM TRÊN NHÃN VỚI CÔNG NGHỆ HỌC MÁY HỘI ĐỒNG KHOA HỌC MÁY TÍNH GVHD TS Nguyễn Đức Dũng ThS Vương Bá Thịnh GVPB TS Nguyễn Tiến Thịnh Sinh viên thực hiện: Đồn Thị Ngọc Minh 1720031 Tp Hồ Chí Minh, Ngày 17 tháng 10 năm 2022 Lời cam đoan Tơi xin cam đoan cơng trình nghiên cứu riêng hướng dẫn TS Nguyễn Đức Dũng ThS.Vương Bá Thịnh Nội dung nghiên cứu kết trung thực chưa công bố trước Các số liệu sử dụng cho q trình phân tích, nhận xét tơi thu thập từ nhiều nguồn khác ghi rõ phần tài liệu tham khảo Ngồi ra, tơi có sử dụng số nhận xét, đánh giá số liệu tác giả khác, quan tổ chức khác Tất có trích dẫn thích nguồn gốc Nếu phát có gian lận nào, tơi xin hoàn toàn chịu trách nhiệm nội dung luận văn tốt nghiệp Trường Đại học Bách Khoa thành phố Hồ Chí Minh khơng liên quan đến vi phạm tác quyền, quyền gây trình thực Lời cám ơn Bách Khoa, từ chứa nhiều cung bậc cảm xúc nhắc đến, ước mơ thời tuổi trẻ ba tôi, xuân tôi, niềm tự hào nhắc đến, động lực chứng tỏ thân tơi bước đời Chính nơi nuôi dưỡng nên ước mơ tôi, nơi gặp người tuyệt vời từ thầy cô bạn bè, người kề vai sát cánh, giúp đỡ tơi qua đoạn đường khó khăn Tơi cịn nhớ in ngày đầu ngáo ngơ học lập trình, khoảnh khắc căng thẳng làm assignment vỡ oà sung sướng đậu môn PPL thầy Phùng, thời gian loay hoay khơng biết tìm lời giải cho tốn Luận văn mà tự đặt Giờ đây, sau hồn thành đề tài mình, muốn gửi lời tri ân đến thầy cô, bạn bè vẽ nên xn tơi • Người đầu tiên, em muốn cám ơn cô Nguyễn Khoa Thuỷ Lan Cám ơn cô luôn giúp đỡ, quan tâm em người tay giải vấn đề “trời ơi" em • Em muốn gửi lời cám ơn đến thầy Nguyễn Hứa Phùng Cám ơn thầy ln kiên trì dạy bảo em kiến thức nhất, luôn động viên em câu chuyện thầy thật nguồn động lực để em bước tiếp đường • Em muốn gửi lời cám ơn đến thầy Nguyễn Đức Dũng Cám ơn thầy chịu cảm thơng giúp đỡ em q trình em làm luận văn • Đặc biệt, em muốn gửi lời cám ơn đến thầy Vương Bá Thịnh thầy Trần Thanh Bình, em cám ơn hai thầy ln sát cánh bên em suốt trình em học nơi Hai thầy vừa người thầy, vừa người bạn lôi em khỏi đoạn đường lầy lội em • Và em xin gửi lời cám ơn đến tồn thầy cán khoa Khoa học Kỹ thuật Máy tính Cám ơn người đồng hành em suốt trình em học Cuối cùng, em xin gửi lời chúc sức khoẻ đến quý thầy cô, chúc thầy cô giữ lửa nhiệt huyết trình giảng dạy hướng dẫn cho hệ sinh viên Chúc cho trường Đại học Bách Khoa khoa Khoa học Kỹ thuật Máy tính ngày phát triển Tóm tắt nội dung Sự phát triển ngành công nghiệp mỹ phẩm với sàn thương mại điện tử đem đến cho người dùng hội tiếp cận nhiều sản phẩm làm đẹp sản phẩm chăm sóc cá nhân đa dạng Tuy nhiên, đem đến việc bối rối cho lựa chọn sản phẩm phù hợp với u cầu người tiêu dùng Chính vậy, đề tài xây dựng hệ thống gợi ý dựa việc phân tích nhãn thành phần sản phẩm, để gợi ý sản phẩm tương tự khác, cho người dùng có tiếp cận nhãn hàng với phân khúc khác Đề tài sử dụng Tesseract OCR để phân tích nhãn thành phần, sau sử dụng mơ hình KNN (K Nearest Neighbor - KNN ) để xây dựng hệ thống gợi ý sản phẩm liên quan Bài toán giải u cầu đặt ra, phân tích chuỗi từ hình chụp nhãn thành phần, sau phân tích chuỗi thành thành phần đưa sản phẩm tương tự Khó khăn q trình xử lý tốn, hình ảnh đưa vào có ký tự đặc biệt, chuỗi trả sau phân tích chưa hồn tồn xác, bên cạnh đó, việc loại bỏ hợp chất không quan trọng địi hỏi phải có chun mơn lĩnh vực Hố học Mặc dù, đề tài cịn nhiều thiếu sót, thiếu phần đánh giá chất lượng mơ hình hệ thống gợi ý, đưa sản phẩm, tạo bước đầu cho trình nghiên cứu sau Mục lục Giới thiệu 1.1 Đặt vấn đề 1.2 Mục tiêu 1.3 Tổng quan báo cáo 1 2 Kiến thức tảng 2.1 Tesseract OCR 2.1.1 Kiến trúc 2.1.1.1 Tìm đường sở 2.1.1.2 Cơ sở phù hợp 2.1.1.3 Phân đoạn từ 2.1.1.4 Liên kết ký tự bị hỏng 2.1.1.5 Phân loại ký tự 2.1.1.6 Phân loại từ 2.1.2 Ngôn ngữ 2.1.3 Đào tạo 2.2 K-Nearest Neighbors 2.2.1 Mơ hình tốn học thuật toán kNN 2.2.2 Ưu điểm KNN 2.2.3 Nhược điểm KNN 2.3 Hệ thống gợi ý [10] 2.3.1 Các khái niệm 2.3.2 Thông tin phản hồi từ người dùng hai dạng tốn RS 2.3.3 Các kỹ thuật RS 2.3.4 Kỹ thuật k láng giềng dựa người dùng/mục tin (User/Item kNNs) 2.3.5 Kỹ thuật Phân rã ma trận (Matrix factorization - MF) 2.3.6 Các kỹ thuật khơng cá nhân hóa 2.4 Các phương pháp đánh giá 2.4.1 Đánh giá độ tin cậy giải thuật 2.4.2 Đánh giá hiệu việc gợi ý 3 5 6 7 10 11 11 11 12 12 Các nghiên cứu liên quan 3.1 Hệ thống gợi ý sản phẩm chăm sóc da dựa nội dung [2] 3.1.1 RELATED WORK 3.1.1.1 Collaborative Filtering 3.1.1.2 Content-based Filtering 21 21 21 21 22 ii 13 13 14 16 19 20 20 20 3.1.2 3.1.1.3 Thiết kế 3.1.2.1 3.1.2.2 3.1.2.3 3.1.2.4 3.1.2.5 3.1.2.6 Hybrid Approach thực Thu thập dự liệu Chiết xuất thành phần Content-based Filtering IF-IPF Filtering Test Plan Kết Hướng tiếp cận Thí nghiệm 4.1 Hướng tiếp cận luận văn 4.2 Thí nghiệm 4.2.1 Mơ hình nhận diện ký tự quang học 4.2.1.1 Bộ liệu 4.2.1.2 Tiền xử lý liệu 4.2.1.3 Sử dụng engine Tesseract trích xuất liệu 4.2.1.4 Độ đo lường đánh giá kết 4.2.2 Xây dựng hệ thống gợi ý 4.2.2.1 Chuẩn bị kiến thức tảng 4.2.2.2 Bộ liệu 4.2.2.3 Tiền xử lý liệu 4.2.2.4 Hệ thống gợi ý 4.2.2.5 Phương pháp đánh giá 4.3 Đánh giá kết mơ hình Tổng kết từ hình ảnh 23 24 25 25 25 26 27 27 29 29 29 29 29 30 31 31 32 32 33 33 34 35 37 38 Chương Giới thiệu 1.1 Đặt vấn đề Trong năm gần đây, nhu cầu làm đẹp tăng cao dẫn đến bùng nổ ngành công nghiệp mỹ phẩm Với xuất hàng loạt nhãn hàng đa dạng chủng loại, khách hàng có nhiều lựa chọn cho Tuy nhiên, việc gây khơng khó khăn cho người tiêu dùng việc trải nghiệm sản phẩm họ khơng có kiến thức thành phần mỹ phẩm, đặc tính hóa học thành phần Nếu người dùng tìm kiếm sản phẩm tương tự sản phẩm họ biết với thành phần chức tương tự gặp khơng khó khăn Đã có nhiều hệ thống gợi ý xây dựng dựa đánh giá sản phẩm, theo tên thành phần mỹ phẩm, loại da Mặc dù vậy, hệ thống nhiều điểm hạn chế chưa đưa thành phần mang tính đặc trưng sản phẩm, gợi ý sản phẩm có chức khác thành phần Nguyên nhân chủ yếu chưa xây dựng mơ hình phân loại chức thành phần sản phẩm Đây động lực để em thực dự án Nhận diện thông tin thành phần sản phẩm nhãn với công nghệ học máy nhằm xây dựng hệ thống gợi ý sản phẩm có chức thành phần tương tự với sản phẩm có Hệ thống góp phần cải thiện hệ thống gợi ý sản phẩm chăm sóc da sàn thương mại điện tử 1.2 Mục tiêu Dựa vào nhu cầu thực tế sử dụng phần mềm Nhận diện thông tin thành phần sản phẩm nhãn khả thân mà em đề mục tiêu sau: • Ứng dụng Tesseract-OCR để nhận diện chữ viết hình ảnh nhãn thành phần chuyển dạng văn (text) • Xây dựng mơ hình phân loại sản phẩm theo chức (giới hạn áp dụng vài sản phẩm chăm sóc da) dựa thành phần • Xây dựng hệ thống gợi ý cho người dùng gửi ảnh nhãn sản phẩm trả kết sản phẩm có thành phần chức tương tự Nhận diện thông tin thành phần sản phẩm 25 Các nghiên cứu liên quan muốn bao gồm chống lão hóa, dưỡng ẩm, kiểm sốt dầu, trị mụn, kiểm soát mẩn đỏ thu nhỏ lỗ chân lơng Sau đó, sử dụng tần suất tài liệu nghịch đảo tần số thuật ngữ (TF-IDF) để lọc sản phẩm đưa đề xuất định dạng tương tự lọc dựa nội dung 3.1.2.1 Thu thập dự liệu Bộ liệu có mỹ phẩm từ nghiên cứu Jeong sử dụng dự án [?] Dữ liệu lấy từ sephora.com, trang web cung cấp sản phẩm làm đẹp từ nhiều thương hiệu Trong số nhiều loại mặt hàng chăm sóc cá nhân, có sáu loại chiết xuất để tập trung vào sản phẩm chăm sóc da Sáu loại bao gồm kem dưỡng ẩm, chăm sóc da mặt, sữa rửa mặt, mặt nạ dưỡng da, điều trị mắt chống nắng Tập liệu bao gồm 1472 mục bao gồm thông tin thương hiệu, tên, giá cả, cấp bậc, loại da thành phần hóa học sản phẩm Ngoài ra, xếp hạng cho tất 1472 mặt hàng trích xuất từ sephora.com với loại da người đánh giá Việc trích xuất thực cơng cụ có tên Scrapestorm1 cho phép thu thập liệu từ trang web khác Bộ liệu sử dụng cụ thể để đánh giá hiệu phương pháp sau triển khai hệ thống khuyến nghị dựa nội dung Việc thiết kế phương pháp khắc phục thảo luận kỹ Phần ?? 3.1.2.2 Chiết xuất thành phần Phương pháp chiết xuất thành phần theo sát cách tiếp cận Jeong’s [?] Ban đầu, liệu thu thập lọc theo đầu vào loại da người dùng Khi người dùng chọn sản phẩm mà họ chọn, hệ thống chiết xuất thành phần sản phẩm gửi đến hệ thống giới thiệu với tập liệu Sephora Danh sách tất thành phần lấy từ cột thành phần tập liệu chia thành mã thông báo Sau kiểm tra trùng lặp, nguyên tố hóa học cung cấp số để lưu từ điển Tiếp theo, ma trận thuật ngữ tài liệu (DTM) tạo sản phẩm thành phần tương ứng cho sản phẩm Một ma trận trống khởi tạo chứa đầy số không Ở đây, số hàng thể số lượng sản phẩm chăm sóc da số cột thể tổng số thành phần Sau đó, mã hóa nóng sử dụng để điền vào ma trận thành phần mỹ phẩm với (hiện tại) (khơng có), tùy thuộc vào tồn thành phần sản phẩm Một ví dụ ma trận minh họa Hình 3.2 Hình 3.2: Cosmetic-ingredient matrix 3.1.2.3 Content-based Filtering Sau thành phần chiết xuất xử lý, chúng chuyển vào hệ thống giới thiệu với loại da người dùng Lọc dựa nội dung sử dụng dựa dự án củ[?] Trong phương pháp này, tính tương tự cosin sử dụng để đo lường giống thành phần thành phần sản phẩm Nó áp dụng để đưa k 25 26 Các nghiên cứu liên quan khuyến nghị cho n danh mục sản phẩm để xếp hạng mỹ phẩm có đặc tính tương tự với sản phẩm gốc Sử dụng ma trận tạo Phần 3.1.2.2, tất mặt hàng mỹ phẩm vector hóa thành tọa độ hai chiều Các tọa độ cài đặt vào phương trình để thu khoảng cách điểm khác Cuối cùng, giá trị xếp theo thứ tự tăng dần để xếp hạng từ sản phẩm tương tự đến sản phẩm tương tự Quá trình lặp lại cách chuyển danh mục sản phẩm khác để lọc liệu Việc chia nhỏ tập liệu thành loại khác cho phép hệ thống đề xuất sản phẩm nhiều danh mục 3.1.2.4 IF-IPF Filtering Trong trường hợp người dùng chưa sử dụng yêu thích sản phẩm Sephora, họ nhận khuyến nghị dựa loại da hiệu làm đẹp mong muốn Thành phần hàng đầu giúp tăng hiệu làm đẹp định xác định cách tính tốn giá trị TF-IDF, dự án tôi, gọi tần số sản phẩm nghịch đảo tần số thành phần (IF-IPF) Các giá trị IF-IPF suy cách sử dụng phương trình 2, Trong đó: • np : số lượng thành phần có sản phẩm p nhóm hiệu ứng sắc đẹp X • m: số lượng sản phẩm nhóm tác dụng làm đẹp X • αp,i : thứ hạng thành phần i liệt kê sản phẩm p Trong đó: • N : số lượng sản phẩm tập liệu • pf (i): số lượng sản phẩm bao gồm thành phần i 26 27 Các nghiên cứu liên quan Các sản phẩm có chứa thành phần sau lọc phân loại thành loại sản phẩm Cuối cùng, k đề xuất hàng đầu từ danh mục trả lại cho người dùng 3.1.2.5 Test Plan Để đánh giá hiệu suất hệ thống đề xuất dựa nội dung, xếp hạng người dùng lọc theo loại da nhập trích xuất từ Sephora cách sử dụng Scrapestorm Một số xếp hạng có thẻ "đề xuất sản phẩm này" xếp hạng khác khơng Các thẻ số quan trọng cho biết người dùng có hài lịng với sản phẩm hay khơng Các đánh giá có thẻ gắn nhãn ’có’ đánh giá khác để trống Sau đó, số lượng đánh giá gắn thẻ tính chia cho tổng số đánh giá Tỷ lệ phần trăm kết rút để đánh giá tính hiệu hệ thống khuyến nghị 3.1.2.6 Kết Content-based Filtering Một nhóm gồm nữ sinh, người có loại da riêng biệt, yêu cầu xác định loại da họ Để xác minh kết quả, kiểm tra trực tuyến từ Interact sử dụng Tiếp theo, họ yêu cầu cung cấp sản phẩm mà họ sử dụng thích sephora.com Các đầu vào đưa vào hệ thống khuyến nghị dựa nội dung, năm khuyến nghị tạo cho tất loại sản phẩm Hình 3.3 Hình 3.3: Sample of content-based filtering result Với số lượng đánh giá lớn sản phẩm, trình xác nhận thực hai nữ sinh có da thường da dầu Kết hiển thị Hình 3.4 Hình 3.4: Validation result for normal and oily skin IF-IPF Filtering sinh viên nam có kiến thức tối thiểu sản phẩm tỉ mỉ yêu cầu cung cấp loại da họ với hiệu mong muốn họ Họ bao gồm bốn 27 28 Các nghiên cứu liên quan số năm loại có sẵn Một lần nữa, chúng tìm thấy xác minh cách sử dụng kiểm tra trực tuyến Họ nhận khuyến nghị Hình 3.3 dựa đầu vào họ Để xác thực, đề xuất hai nam sinh có da bình thường da dầu sử dụng Kết thể Hình 3.4 Trong Hình 3.4, tên viết tắt CBF IF-IPF sử dụng để thể tính lọc dựa nội dung tần suất tài liệu nghịch đảo tần số thành phần Đối với người tham gia có da bình thường, CBF cho độ xác 82,59% làm tròn đến chữ số thập phân thứ hai IF-IPF có 82,60% Trong trường hợp da dầu, CBF có độ xác trung bình 77,55% IF- IPF tạo độ xác 80,35% Các yếu tố ngoại lai 52,94% hình thành hiệu chi phí thấp sản phẩm chăm sóc da đắt tiền Nhưng tỷ lệ khác tương đối quán 70%, cho thấy khuyến nghị hợp lý Hơn nữa, khác biệt tỷ lệ phần trăm CBF IF-IPF nhỏ 0,1 loại da thường da dầu Do đó, kết luận hai phương pháp hiệu người ta chọn sử dụng hai phương pháp cần thiết Cũng cần lưu ý số lượng đánh giá không quán, dao động từ 20 đến 100 Vì chúng khơng có trọng số đồng đều, độ xác kết giảm xuống 28 Chương Hướng tiếp cận Thí nghiệm 4.1 Hướng tiếp cận luận văn Theo mục tiêu đề ra, em thực nhận diện thông tin thành phần sản phẩm nhãn (sentence level) Vì em sử dụng Tesseract-OCR để chuyển hình ảnh thành dạng text, sau chọn mơ hình KNN làm sở để thiết kế mơ hình phân loại Các sản phẩm giới hạn luận văn bao gồm: Kem chống nắng, Kem dưỡng da, Sữa rửa mặt Quá trình bao gồm hai mơ hình con: • Optical Character Recognition: sử dụng engine Tesseract để chuyển hình ảnh nhãn sản phẩm thành chuỗi thành phần • Classifier: Sau chuỗi thành phần, ta tiến hành phân loại từ vào nhóm khác (tương đương với việc phân loại chất hóa học quan trọng định nhóm chức sản phẩm) Sau ta chọn mơ hình KNN để tiến hành phân loại chức xây dựng hệ thống gợi ý dựa bảng thành phần 4.2 Thí nghiệm 4.2.1 Mơ hình nhận diện ký tự quang học 4.2.1.1 Bộ liệu • Chuẩn bị tập liệu Open Beauty Facts: Bộ liệu hình ảnh lấy từ dự án phi lợi nhuận Open Beauty Facts xây dựng nhiều người dùng tồn giới u cầu liệu hình ảnh nhãn sản phẩm phải viết tiếng anh Nội dung hình ảnh thơng tin thành phần sản phẩm, không chứa thông tin khác (như loại sản phẩm, ngày tháng sản xuất, ) Tiếp theo chuẩn bị thơng tin liệu hình ảnh làm sở để đánh giá độ xác engine • Tình trạng liệu: Các hình ảnh liệu người dùng chụp lại, số hình ảnh có chất lượng thấp, ánh sáng khơng đồng đều, trầy xước, hình ảnh bị cắt phần thơng tin thành phần Hình cho thấy ví dụ mẫu mẫu hình ảnh tập liệu Nhận diện thông tin thành phần sản phẩm 29 30 Hướng tiếp cận Thí nghiệm Bảng 4.1: Một số nhãn thành phần liệu 4.2.1.2 Tiền xử lý liệu Chọn lọc hình ảnh có đầy đủ thơng tin thành phần sản phẩm, loại bỏ số thông tin không cần thiết nhãn sản phẩm Hình ảnh nên có kích thước lớn chữ rõ, nhãn không bị trầy xước Xoay chiều hình ảnh với chiều dọc chữ Hình 4.1: Một số hình ảnh bị loại bỏ khơng đảm bảo yêu cầu đầu vào tập liệu Bảng 4.2: Các hình ảnh chọn để đưa vào hệ thống OCR Tesseract Sau lựa chọn hình ảnh thoả mãn yêu cầu đầu vào, xây dựng tập liệu gồm hình ảnh nhãn thành phần text chuỗi thành phần nhãn (được thực tay) Tập liệu dùng để so sánh đánh giá độ xác engine 30 31 Hướng tiếp cận Thí nghiệm Hình 4.2: Tập liệu hình ảnh nhãn thành phần 4.2.1.3 Sử dụng engine Tesseract trích xuất liệu từ hình ảnh Hình ảnh sau chọn lọc đưa vào engine Tesseract để phân tích thành chuỗi Bảng 4.3: Kết chuỗi thành phần in sau đưa hình ảnh vào 4.2.1.4 Độ đo lường đánh giá kết Tỉ lệ lỗi ký tự (Character error rate - CER) đolường hiệu suất phổ biến cho tác vụ có đầu chuỗi văn CER đượctính dựa số lượng tối thiểu phép tính để chuyển đổi từ chuỗi nguồn sangmột chuỗi đích hư cơngthức tính CER tiêu chuẩn tương tự WER: Với N số lượng ký tự chuỗi đích (nhãn).Slà số lượng ký tự cần thay thế,D số lượng ký tự cần xóa I số lượng ký tự cần thêm vào để biến chuỗi thành chuỗi đích (trong tất phép biến đổi, chọn phép biến đổi chotổng I 31 32 Hướng tiếp cận Thí nghiệm + S + D nhỏ nhất) Lưu ý ký tự bao gồm khoảng trắng(space), dấu câu hay ký tự đặc biệt khác Mơ hình tốt có kết độ đo CER thấp 4.2.2 Xây dựng hệ thống gợi ý 4.2.2.1 Chuẩn bị kiến thức tảng Một kỹ thuật quan trọng trình tiền xử lý liệu One hot encoding Trước tiên ta cần hiểu rõ khái niệm vai trị hệ thống Cách truyền thống để đưa liệu hạng mục dạng số mã hóa one-hot Trong cách mã hóa này, “từ điển” cần xây dựng chứa tất giá trị liệu hạng mục Sau giá trị hạng mục mã hóa vector nhị phân với toàn phần tử trừ phần tử tương ứng với vị trí giá trị hạng mục từ điển Ví dụ, ta có liệu cột "Sài Gịn", "Huế", "Hà Nội" ta thực bước sau: • Xây dựng từ điển Trong trường hợp ta xây dựng từ điển ["Hà Nội", "Huế", "Sài Gịn"] • Sau xây dựng từ điển ta cần lưu lại số hạng mục từ điển Với từ điển trên, số tương ứng "Hà Nội": 0, "Huế": 1, "Sài Gịn": • Cuối cùng, ta mã hóa giá trị ban đầu sau: Với từ điền thứ nhất: Hình 4.3: Mã hố One hot Vì giá trị hạng mục mã hóa vector với phần tử vị trí tương ứng từ điển nên vector gọi “one-hot vector” Số chiều vector số từ từ điển Diễn giải theo cách khác, giá trị nhị phân vector thể việc giá trị hạng mục xét “có phải là” giá trị tương ứng từ điển không Với giá trị không nằm từ điển (out-of-vocabolary hay OOV), ta mã hóa chúng thành [0, 0, 0] theo nghĩa chúng giá trị từ điển Có cách khác phổ biến để mã hóa giá trị khơng có từ điển thêm từ "unknown" vào từ điển tất giá trị xếp vào mục "unknown" Cần lưu ý "unknown" giá trị tập liệu Việc mã hóa 32 33 Hướng tiếp cận Thí nghiệm giá trị chưa biết vector gây cho mơ hình nhầm lẫn hai giá trị giống Nếu cách đó, bạn biết giá trị xuất nhiều tương lai, bạn nên đưa chúng vào từ điển cách cụ thể để có cách mã hóa riêng, tránh trùng lặp với giá trị khác Nếu giá trị xảy ra, ta cho chung vào mã coi chúng có tính chất giống “hiếm” Cố gắng mã hóa cho giá trị dẫn đến tình trạng phải dùng nhiều nhớ mơ hình phức tạp để cố gắng học trường hợp cá biệt, overfitting dễ xảy 4.2.2.2 Bộ liệu • Chuẩn bị tập liệu Open Beauty Facts: Bộ liệu hình ảnh lấy từ dự án phi lợi nhuận Open Beauty Facts xây dựng nhiều người dùng toàn giới Bộ liệu bao gồm nhiều thông tin như: Tên sản phẩm, thương hiệu, phân loại, thành phần, sản phẩm chăm sóc cá nhân Dưa theo nhu cầu đề tài nên em lựa chọn thông tin cần quan tâm bao gồm : Thành phần, phân loại Các sản phẩm giới hạn luận văn bao gồm: Kem chống nắng, Kem dưỡng da, Sữa rửa mặt • Chuẩn bị liệu phân loại thành phần ( thành phần đặc trưng sản phẩm thành phần chung ): Trong sản phẩm mỹ phẩm có chứa nhiều thành phần sử dụng rộng rãi nhiều sản phẩm khác nhau, không đặc trưng cho tính chất sản phẩm Những thành phần chủ yếu chất độn, chất bảo quản, chất nhũ hố, chất làm mềm, nước, dung mơi, hương liệu, màu Chính vậy, thành phần cần loại khỏi tập liệu để tránh gây nhiễu cho hệ thống Trước vào xử lý liệu, cần chuẩn bị liệu hỗ trợ gồm : tập liệu thành phần đặc trưng sản phẩm, tập liệu thành phần nhiễu Sử dụng nguồn tài liệu CosIng (EU’s official database for cosmetic ingredients) tham khảo trang web http://www.cosmeticsinfo.org/Ingredient-dictionary để xây dựng liệu hỗ trợ 4.2.2.3 Tiền xử lý liệu Sau có tập liệu hỗ trợ cho trình phân loại, ta chạy tự động để loại bỏ liệu không quan trọng khỏi bảng thành phần chất, liệu lại dùng để so sánh với tập liệu thành phần đặc trưng 33 34 Hướng tiếp cận Thí nghiệm Hình 4.4: Bộ liệu thành phần không quan trọng Dữ liệu sau loại bỏ thông tin nhiễu, dùng kỹ thuật one hot encodeing để đưa liệu hạng mục dạng số mã hóa one-hot Trong liệu thông tin thành phần, ta kiểm tra đảm bảo tên thành phần xác Tập liệu chứa 100 sản phẩm, cột tên chất quan trọng định loại sản phẩm, cột cuối nhãn phân loại Hình 4.5: Dữ liệu sau gắn nhãn 4.2.2.4 Hệ thống gợi ý Sau đưa liệu dạng one hot, ta sử dụng KNN để tính khoảng cách điểm liệu nhằm xác định liệu có thơng số tương tự liệu đầu vào, gợi ý cho người dùng 34 35 Hướng tiếp cận Thí nghiệm Hình 4.6: Mơ hình hệ thống gợi ý 4.2.2.5 Phương pháp đánh giá Để đánh giá độ xác thuật tốn KNN classifier này, xem xem có điểm test data dự đoán Lấy số lượng chia cho tổng số lượng tập test data độ xác 35 36 Hướng tiếp cận Thí nghiệm Hình 4.7: Đo accuracy với k = Hình 4.8: Đo accuracy với k = Trong kỹ thuật major voting bên trên, 10 điểm gần coi có vai trị giá trị phiếu điểm Tôi cho không cơng bằng, rõ ràng điểm gần nên có trọng số cao (càng thân cận tin tưởng) Vậy nên đánh trọng số khác cho 10 điểm gần Cách đánh trọng số phải thoải mãn điều kiện điểm gần điểm test data phải đánh trọng số cao (tin tưởng hơn) Cách đơn giản lấy nghịch đảo khoảng cách (Trong trường hợp test data trùng với điểm liệu training data, tức khoảng cách 0, ta lấy label điểm training data) Scikit-learn giúp đơn giản hóa việc cách gán gía trị weights = ’distance’ (Giá trị mặc định weights ’uniform’, tương ứng với việc coi tất điểm lân cận có giá trị như trên) 36 37 Hướng tiếp cận Thí nghiệm Hình 4.9: Đo accuracy với k = đánh trọng số 4.3 Đánh giá kết mơ hình Trong q trình nghiên cứu, tơi đã: • Hiểu cách hoạt động OCR, sử dụng engine Tesseract • Tổng hợp, đánh giá ưu nhược điểm cách phương pháp, công nghệ nghiên cứu, sử dụng • Tiếp cận vấn đề theo nhiều hướng khác nhau, nghiên cứu hệ thống gợi ý • Thực số phương pháp xử lý liệu xây dựng mơ hình KNN cho hệ thống gợi ý • Cuối cùng, tơi đề xuất hướng phát triển đề tài tương lai: Phân tích đa dạng sản phẩm mỹ phẩm phát triển hệ thống gợi ý sàn thương mại điện tử, cải thiện hệ thống OCR để phân tích hình ảnh tốt Bên cạnh đó, q trình phân tích thành phần, nhận thấy số sản phẩm mỹ phẩm sử dụng chất độc hại, đề tài phát triển thêm cảnh báo chất độc cho người dùng 37 Chương Tổng kết Cùng với phát triển ngành công nghiệp mỹ phẩm lớn mạnh sàn thương mại điện tử, việc xây dựng hệ thống gợi sản phẩm mỹ phẩm cho người dùng ngày cấp thiết Các hệ thống gợi ý ngày xây dựng theo hướng cá nhân hoá, phục vụ cho yêu cầu người Nghiên cứu tương lai phát triển hệ thống khuyến nghị đáng tin cậy kết hợp yếu tố màu da, hoạt động người dùng ngày, thói quen địa để làm cho nghiên cứu trở nên mạnh mẽ Nhận diện thông tin thành phần sản phẩm 38 Tài liệu tham khảo [1] Hernando A Gutiérrez H Bobadilla J., Ortega F Recommender systems survey knowledge-based systems 46:109–132, 2013 [2] Gyeongeun Lee A content-based skincare product recommendation system https://portfolios.cs.earlham.edu/wpcontent/uploads/2020/05/GyeongeunL eeP aper.pdf, 2020 [3] Nguyễn Thái Nghe Nguyễn Hùng Dũng Hệ thống gợi ý sản phẩm bán hàng trực tuyến sử dụng kỹ thuật lọc cộng tác Tạp chí Khoa học Trường Đại học Cần Thơ, 31a (2014):36–51, 2014 [4] Tikk D Pilaszy, I Recommending new movies: Even a few ratings are more valuable than metadata in proceedings of the third acm conference on recommender systems (recsys 2009) pages 93–100, 2009 [5] M Sushak P Bergstrom Resnick P., Iakovou N and J Riedl Grouplens: An open architecture for collaborative filtering of netnews In Proceedings of the 1994 Computer Supported Cooperative Work Conference, 1994 [6] Rokach L Shapira B Kantor P.B eds Ricci, F Recommender systems handbook 2011 [7] Guy Shani and Asela Gunawardana Evaluating recommendation systems 2011 in recommender systems handbook page 257–297, 2011 [8] T.M Su, X Khoshgoftaar A survey of collaborative filtering techniques advances in artificial intelligence 4:1–4, 2009 [9] Pilaszy I Nemeth B Tikk D Takacs, G Scalable collaborative filtering approaches for large recommender system Journal of Machine Learning Research, 10:623–656, 2009 [10] Nguyen Thai-Nghe Hệ thống gợi ý: Kỹ thuật ứng dụng https://www.researchgate.net/publication/310059523, 2016 [11] R Volinsky C Y., Bell Matrix factorization techniques for recommender systems IEEE Computer Society Press, 42(8):30–37, 2009 Nhận diện thông tin thành phần sản phẩm 39

Ngày đăng: 20/06/2023, 20:40

Xem thêm:

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w