TAILIEUCHUNG - Ứng dụng giải thuật Singular Value Decomposition trên nền hệ thống phân tán vào bài toán phát hiện sao chép

Bài viết tiến hành đề xuất một phương pháp phát hiện ra tập tiềm năng có sử dụng thuật toán tách giá trị đơn theo mô hình lập trình song song. Các cài đặt và thử nghiệm của chúng tôi đã cho thấy có thể áp dụng phương pháp để phát hiện ra các tập tiềm năng bị sao chép và sắp xếp (ranking) chúng, từ đó có thể hạn chế số lượng tập tin cần phân tích, so sánh để phát hiện ra các đoạn bị sao chép. Đồng thời phương pháp được đề xuất cũng có thể song song hóa để chạy trên một cụm máy tính, nhờ đó có thể áp dụng trên các tập dữ liệu có dung lượng lớn như là một thư viện điện tử thực thụ. | Kỷ yếu Hội nghị Khoa học Quốc gia lần thứ IX Nghiên cứu cơ bản và ứng dụng Công nghệ thông tin FAIR 9 Cần Thơ ngày 4-5 8 2016 DOI ỨNG DỤNG GIẢI THUẬT SINGULAR VALUE DECOMPOSITION TRÊN NỀN HỆ THỐNG PHÂN TÁN VÀO BÀI TOÁN PHÁT HIỆN SAO CHÉP Nguyễn Võ Thông Thái 1 Bùi Võ Quốc Bảo2 Huỳnh Phụng Toàn2 Trần Cao Đệ2 1 Trung tâm Công nghệ phần mềm Đại học Cần Thơ 2 Khoa Công nghệ thông tin amp Truyền thông Đại học Cần Thơ nvtthai@ bvqbao@ hptoan@ tcde@ TÓM TẮT Ngày nay có rất nhiều tài liệu văn bản có thể truy xuất được dễ dàng dưới dạng tài liệu kỹ thuật số và vì vậy người ta có thể truy cập và sao chép dễ dàng. Vấn đề đạo văn nói chung và sao chép luận văn đồ án nói riêng có thể nói là những mặt tiêu cực phổ biến hiện nay cần được phát hiện và ngăn chặn. Các phương phát phát hiện sao chép tài liệu mới nhất được công bố trong các Hội thảo PAN Workshop vừa qua thường dựa trên lập chỉ mục nghịch đảo cho cụm 4 từ 4-gram . Việc xác định một tập hợp con các tài liệu tiềm năng có thể bị sao chép dựa trên ngưỡng số 4-gram chung cho thấy một số hạn chế như tập tiềm năng có thể rất lớn và không thể xếp độ ưu tiên theo số lượng 4-gram chung nên có thể dẫn đến việc tìm kiếm sao chép lâu. Trong bài báo này chúng tôi đề xuất một phương pháp phát hiện ra tập tiềm năng có sử dụng thuật toán tách giá trị đơn theo mô hình lập trình song song. Các cài đặt và thử nghiệm của chúng tôi đã cho thấy có thể áp dụng phương pháp để phát hiện ra các tập tiềm năng bị sao chép và sắp xếp ranking chúng từ đó có thể hạn chế số lượng tập tin cần phân tích so sánh để phát hiện ra các đoạn bị sao chép. Đồng thời phương pháp được đề xuất cũng có thể song song hóa để chạy trên một cụm máy tính nhờ đó có thể áp dụng trên các tập dữ liệu có dung lượng lớn như là một thư viện điện tử thực thụ. Từ khóa Đạo văn tách giá trị đơn xử lý phân tán tính toán song song. I. GIỚI THIỆU Vấn đề hay vấn nạn sao chép tài liệu đạo văn ngày nay đang là một vấn đề .

TAILIEUCHUNG - Chia sẻ tài liệu không giới hạn
Địa chỉ : 444 Hoang Hoa Tham, Hanoi, Viet Nam
Website : tailieuchung.com
Email : tailieuchung20@gmail.com
Tailieuchung.com là thư viện tài liệu trực tuyến, nơi chia sẽ trao đổi hàng triệu tài liệu như luận văn đồ án, sách, giáo trình, đề thi.
Chúng tôi không chịu trách nhiệm liên quan đến các vấn đề bản quyền nội dung tài liệu được thành viên tự nguyện đăng tải lên, nếu phát hiện thấy tài liệu xấu hoặc tài liệu có bản quyền xin hãy email cho chúng tôi.
Đã phát hiện trình chặn quảng cáo AdBlock
Trang web này phụ thuộc vào doanh thu từ số lần hiển thị quảng cáo để tồn tại. Vui lòng tắt trình chặn quảng cáo của bạn hoặc tạm dừng tính năng chặn quảng cáo cho trang web này.