TAILIEUCHUNG - Tách thông tin từ văn bản trên web.

Với nhiều tỷ trang Web phân bố trên hầu hết các quốc gia, World Wide Web (WWW) là môi trường tốt cho việc biểu diễn và truy cập thông tin dạng số. Tuy nhiên, lượng thông tin khổng lồ đó cũng tạo ra những khó khăn lớn trong việc tìm kiếm, chia sẻ thông tin trên WWW. Hiện nay, thông tin trên WWW được biểu diễn chủ yếu dưới dạng ngôn ngữ tự nhiên (các trang Web trên ngôn ngữ HTML). Cách biểu diễn đó phù hợp với con người nhưng lại gây ra nhiều khó khăn cho các. | Công cụ hỗ trợ tạo ngữ nghĩa trang Web sử dụng kỹ thuật tách thông tin từ văn bản A Toolkit for Creating Semantic Web Contents Using Information Extraction Techniques Từ Minh Phương, Trịnh Hữu Kiên Abstract. The Semantic Web is an extension of the cha đẻ của WWW, Web có ngữ nghĩa là sự mở rộng current Web in which information is given formal and của WWW hiện tại bằng cách thêm vào các mô tả ý explicit meaning. The Semantic Web enables computer nghĩa (hay ngữ nghĩa) của thông tin dưới dạng mà programs to understand information contents and thus chương trình máy tính có thể “hiểu” và do vậy cho facilitates more efficient discovery, automation, integration phép xử lý thông tin hiệu quả hơn [1]. Như vậy, Web and sharing of data. To create Semantic Web contents one có ngữ nghĩa sẽ bao gồm các thông tin (trang Web) needs appropriate tools. In this paper, we describe such a được biểu diễn theo cách truyền thống cùng với ngữ toolkit we have constructed. The most important feature of nghĩa của các thông tin này được biểu diễn một cách the toolkit is that it makes use of information extraction techniques for automatically annotating Webpage contents. tường minh. Việc thêm phần ngữ nghĩa cung cấp thêm Experiments with a real life application show promising tri thức cho các chương trình (các agent), giúp nâng results and demonstrate the usefulness of the toolkit. cao chất lượng phân loại, tìm kiếm, trao đổi thông tin. Muốn xây dựng Web có ngữ nghĩa cần có công cụ I. ĐẶT VẤN ĐỀ hỗ trợ. Trong bài báo này, chúng tôi mô tả bộ công cụ Với nhiều tỷ trang Web phân bố trên hầu hết các mà chúng tôi xây dựng phục vụ mục đích này cùng quốc gia, World Wide Web (WWW) là môi trường tốt với các giải pháp kỹ thuật được lựa chọn và sử dụng. cho việc biểu diễn và truy cập thông tin dạng số. Tuy Phần quan trọng của bộ công cụ là phần tách thông tin nhiên, lượng thông tin khổng lồ đó cũng tạo ra những tự động cho phép rút ngắn thời gian tạo phần ngữ khó khăn lớn trong việc tìm kiếm, chia sẻ thông

TỪ KHÓA LIÊN QUAN
Đã phát hiện trình chặn quảng cáo AdBlock
Trang web này phụ thuộc vào doanh thu từ số lần hiển thị quảng cáo để tồn tại. Vui lòng tắt trình chặn quảng cáo của bạn hoặc tạm dừng tính năng chặn quảng cáo cho trang web này.