TAILIEUCHUNG - Phân loại web đồi trụy dựa vào văn bản và hình ảnh

Nghiên cứu này tiếp cận theo phương pháp máy học để từ đó có thể phát hiện tự động những website chứa hình ảnh khiêu dâm và văn bản có nội dung đồi trụy. Cụ thể, sử dụng giải thuật SVM để phân lớp hình ảnh dựa vào phân loại màu da cải tiến và Naïve Bayes để phân lớp văn bản. | Phân loại web đồi trụy dựa vào văn bản và hình ảnh NGHIÊN CỨU KHOA HỌC Phân loại web đồi trụy dựa vào văn bản và hình ảnh Pornographic web classification based on text and images 1 2 Phạm Thị Hường , Nguyễn Văn Thanh Email: phamthihuongdtth@ 1 Trường Đại học Sao Đỏ 2 Trường THPT Châu Thành Ngày nhận bài: 15/6/2018 Ngày nhận bài sửa sau phản biện: 23/11/2018 Ngày chấp nhận đăng: 27/12/2018 Tóm tắt Nghiên cứu này tiếp cận theo phương pháp máy học để từ đó có thể phát hiện tự động những website chứa hình ảnh khiêu dâm và văn bản có nội dung đồi trụy. Cụ thể, sử dụng giải thuật SVM để phân lớp hình ảnh dựa vào phân loại màu da cải tiến và Naïve Bayes để phân lớp văn bản. Kết quả cho thấy mô hình đề xuất có độ chính xác phân lớp cao hơn một số phương pháp đã công bố. Từ khóa: Máy vector hỗ trợ; phân lớp văn bản; phân lớp hình ảnh; Naïve Bayes; phân loại web. Abstract This study approaches a machine learning method to automatically detect websites containing pornographic images and texts. Specifically, SVM is used to image classify based on the improved skin color classification, and Naïve Bayes is used to text classify. The results show that the proposed model has higher classification accuracy than some published methods. Keywords: Support vector machine; text classification; image classification; Naïve Bayes; web classification. 1. GIỚI THIỆU Thực tế hiện nay, số lượng thanh thiếu niên suy giữa các tài liệu web, sau đó mô hình hóa chúng đồi đạo đức cũng như phạm tội ngày càng tăng dạng vector nhằm phân lớp văn bản, sử dụng cao. Một trong những nguyên nhân đó là do ảnh phân tích ngữ nghĩa tiềm ẩn (LSA) và đặc trưng hưởng từ những thông tin không lành mạnh tràn trang web (WPFS) để trích chọn các đặc trưng ngữ lan trên internet, lượng lớn thông tin đó chưa được nghĩa và văn bản. Kết quả phân lớp có giá trị TP phân loại hay kiểm soát để giúp người sử dụng trung bình cho hai phương pháp là

TÀI LIỆU LIÊN QUAN
TỪ KHÓA LIÊN QUAN
Đã phát hiện trình chặn quảng cáo AdBlock
Trang web này phụ thuộc vào doanh thu từ số lần hiển thị quảng cáo để tồn tại. Vui lòng tắt trình chặn quảng cáo của bạn hoặc tạm dừng tính năng chặn quảng cáo cho trang web này.