TAILIEUCHUNG - Báo cáo khoa học: "Classifying the Hungarian Web"

In this paper we present some lessons learned from building viz s la, the keyword search and topic classification system used on the largest Hungarian portal, [ origo .hu]. Based on a simple statistical language model, and the large-scale supporting evidence from vizsla, we argue that in topic classification only positive evidence matters. | Classifying the Hungarian Web András Kornai Metacarta Inc. 875 Massachusetts Ave. Cambridge MA 02139 andras@ Marc Krellenstein Reed-Elsevier Inc. 200 Wheeler Rd. Burlington MA 01803 Michael Mulligan divine Inc. 1 Wayside Road Burlington MA 01803 mulligan@ David Twomey CEHQ Inc. 145 Rosemary Street Ste H Needham MA 02494 dtwomey@ Fruzsina Veress Teragram Corp. 236 Huntington Ave. Boston MA 02115 veress@ Alec Wysoker deNovis Inc. One Cranberry Hill Suite 203 Lexington MA 02421 Abstract In this paper we present some lessons learned from building vizsla the keyword search and topic classification system used on the largest Hungarian portal . Based on a simple statistical language model and the large-scale supporting evidence from vi z sla we argue that in topic classification only positive evidence matters. 0 Introduction Novices are often attracted to menu-based portals because these are easy to navigate. As they get more familiar with the web users soon realize that their portal covers only a tiny fraction of the web and move to keyword search engines. But as their information needs and sophistication grow so does their frustration with simple keyword search. As a result seemingly obscure features such as boolean searches wildcards and topic classification become increasingly relevant to them. To most users the ideal system would be one that combines the ease of navigation provided . by Yahoo with the near-exhaustive coverage provided . by Google. But topic classification the Yahoo way by professional editors is expensive and the results of using amateur editors as in dmo z are often highly questionable. One way to address the problem of low editorial bandwidth is to automate the topic classification process. Section 1 of this paper describes a Hungarian portal that uses both manual and automatic topic classification and gives a brief overview of the keyword

TỪ KHÓA LIÊN QUAN
TAILIEUCHUNG - Chia sẻ tài liệu không giới hạn
Địa chỉ : 444 Hoang Hoa Tham, Hanoi, Viet Nam
Website : tailieuchung.com
Email : tailieuchung20@gmail.com
Tailieuchung.com là thư viện tài liệu trực tuyến, nơi chia sẽ trao đổi hàng triệu tài liệu như luận văn đồ án, sách, giáo trình, đề thi.
Chúng tôi không chịu trách nhiệm liên quan đến các vấn đề bản quyền nội dung tài liệu được thành viên tự nguyện đăng tải lên, nếu phát hiện thấy tài liệu xấu hoặc tài liệu có bản quyền xin hãy email cho chúng tôi.
Đã phát hiện trình chặn quảng cáo AdBlock
Trang web này phụ thuộc vào doanh thu từ số lần hiển thị quảng cáo để tồn tại. Vui lòng tắt trình chặn quảng cáo của bạn hoặc tạm dừng tính năng chặn quảng cáo cho trang web này.