TAILIEUCHUNG - Mpeg 7 audio and beyond audio content indexing and retrieval phần 7

Mô tả SpokenContent cố gắng để có bộ nhớ hiệu quả và linh hoạt, đủ để làm cho các ứng dụng hiện tại không lường trước được có thể có trong tương lai. Nó bao gồm một đại diện nhỏ gọn của từ nhiều và / hoặc phụ từ giả thuyết được sản xuất bởi một động cơ ASR. | 166 4 SPOKEN CONTENT The flexibility of the MPEG-7 SpokenContent description makes it usable in many different application contexts. The main possible types of applications are Spoken document retrieval. This is the most obvious application of spoken content metadata already detailed in this chapter. The goal is to retrieve information in a database of spoken documents. The result of the query may be the top-ranked relevant documents. As SpokenContent descriptions include the time locations of recognition hypotheses the position of the retrieved query word s in the most relevant documents may also be returned to the user. Mixed SpokenContent lattices . combining words and phones could be an efficient approach in most cases. Indexing of audiovisual data. The spoken segments in the audio stream can be annotated with SpokenContent descriptions . word lattices yielded by an LVCSR system . A preliminary audio segmentation of the audio stream is necessary to spot the spoken parts. The spoken content metadata can be used to search particular events in a film or a video . the occurrence of a query word or sequence of words in the audio stream . Spoken annotation of databases. Each item in a database is annotated with a short spoken description. This annotation is processed by an ASR system and attached to the item as a SpokenContent description. This metadata can then be used to search items in the database by processing the SpokenContent annotations with an SDR engine. A typical example of such applications already on the market is the spoken annotation of photographs. In that case speech decoding is performed on a mobile device integrated in the camera itself with limited storage and computational capacities. The use of a simple phone recognizer may be appropriate. Perspectives One of the most promising perspectives for the development of efficient spoken content retrieval methods is the combination of multiple independent index sources. A SpokenContent .

TỪ KHÓA LIÊN QUAN
Đã phát hiện trình chặn quảng cáo AdBlock
Trang web này phụ thuộc vào doanh thu từ số lần hiển thị quảng cáo để tồn tại. Vui lòng tắt trình chặn quảng cáo của bạn hoặc tạm dừng tính năng chặn quảng cáo cho trang web này.