TAILIEUCHUNG - MultiBooks - Tổng hợp IT - PC part 20

Tham khảo tài liệu 'multibooks - tổng hợp it - pc part 20', công nghệ thông tin, kỹ thuật lập trình phục vụ nhu cầu học tập, nghiên cứu và làm việc hiệu quả | Error Ngược lại recall của thuật toán A là thước đo bao nhiêu tài liệu là kết quả đúng đã được truy vấn cho lại. Độ chính xác hỏi câu hỏi Bao nhiêu tài liệu do thuật toán A tìm ra là đúng . Recall hỏi câu hỏi Bao nhiêu tài liệu được tìm ra bởi thuật toán A . Error Sử dụng cùng ký pháp như độ chính xác recall Rt kết hợp với chủ điểm t cho bởi công thức sau Error Tỷ lệ recall tổng thể R kết hợp với bộ thử Dtest của tài liệu và Ttest của chủ điểm cho bởi Nói cách khác hình ta cần đếm mọi tài liệu trong phần giao của hai vùng và cộng thêm 1 rồi chia nó cho tổng số thành phần trong vùng không tô cộng thêm 1 . Error Thí dụ giả sử tổng các đối tượng trong mỗi vùng của hình được chỉ ra trong hình . Sau đó độ chính xác của truy vấn chủ điểm cụ thể cho bởi Error Cùng cách suy diễn recall của cùng chủ điểm này được tính như sau Độ chính xác và recall hình thành hai cách nổi tiếng nhất để đo thuật toán truy vấn văn bản tốt như thế nào . Trong nhiều trường hợp một thuật toán với độ chính xác rất cao có thể có recall rất tồi. Thí dụ thuật toán không cho lại cái gì có thể có độ chính xác 100 nhưng thuật toán này không hữu ích. Mặt khác thuật toán với tỷ lệ recall rất cao có thể có độ chính xác rất tồi. Thuật toán luôn cho lại mỗi tài liệu với 100 recall nhưng lại không được sử dụng nhiều. Danh sách dừng gốc từ và bảng tần số Trong phần này một số kỹ thuật cơ bản sử dụng trong phần lớn các hệ thống truy vấn tài liệu văn bản được trình bày. Danh sách dừng Stop List kết hợp với tập tài liệu D là tập StopL của các từ không thích hợp lắm deemed irrelevant mặc dù nó có thể xuất hiện thường xuyên. Thí dụ hệ thống SMART của Cornell University sử dụng stop list với 439 từ. Thí dụ các từ xuất hiện trong danh sách dừng có thể là the and for with. Rõ ràng danh sách dừng có thể khác nhau vì D khác nhau. Thí dụ nếu D là tập tài liệu kết hợp với các bài báo khoa học của Bộ môn máy tính University of Meryland thì hiệu quả nếu đưa từ word computer vào danh sách dừng liên kết với cơ

TAILIEUCHUNG - Chia sẻ tài liệu không giới hạn
Địa chỉ : 444 Hoang Hoa Tham, Hanoi, Viet Nam
Website : tailieuchung.com
Email : tailieuchung20@gmail.com
Tailieuchung.com là thư viện tài liệu trực tuyến, nơi chia sẽ trao đổi hàng triệu tài liệu như luận văn đồ án, sách, giáo trình, đề thi.
Chúng tôi không chịu trách nhiệm liên quan đến các vấn đề bản quyền nội dung tài liệu được thành viên tự nguyện đăng tải lên, nếu phát hiện thấy tài liệu xấu hoặc tài liệu có bản quyền xin hãy email cho chúng tôi.
Đã phát hiện trình chặn quảng cáo AdBlock
Trang web này phụ thuộc vào doanh thu từ số lần hiển thị quảng cáo để tồn tại. Vui lòng tắt trình chặn quảng cáo của bạn hoặc tạm dừng tính năng chặn quảng cáo cho trang web này.