Đang chuẩn bị nút TẢI XUỐNG, xin hãy chờ
Tải xuống
Mô tả phân loại là sản lượng cốt lõi của hệ thống học nghiên cứu và tầm quan trọng cho các câu hỏi quan trọng trong các lĩnh vực sinh học, khoa học trái đất, và khoa học môi trường. Những mô tả này có chứa một lượng lớn các thông tin về các đặc tính hình thái của sinh vật trên trái đất, phân bố địa lý của họ, và hóa thạch, lịch sử địa chất của họ. Phần lớn những dữ liệu này không phổ biến rộng rãi cho người sử dụng rất nhiều tiềm năng bởi vì họ chủ yếu là công. | 6 Automated Extraction of Biodiversity Data from Taxonomic Descriptions Gordon B. Curry and Richard J. Connor CONTENTS Abstract.63 6.1 Introduction.64 6.2 Scope of the Data.65 6.3 Historical Legacy of Systematics.65 6.3.1 How to Get Information from Taxonomic Descriptions into a Database.67 6.4 Basic Problem.69 6.4.1 The Spectrum from Nonstructured to Structured Electronic Data.70 6.5 Conventions of Taxonomic Descriptions.75 6.6 Automatic Extraction of Information from Taxonomic Descriptions.76 6.7 Querying XML-Tagged Text.76 6.7.1 Advantage of Using XML Tagging to Extract Taxonomic Data.79 6.7.2 Applicability of the Technique.80 6.8 The Future. .80 Acknowledgments .81 References .81 ABSTRACT Taxonomic descriptions are the core output of systematics research and of critical importance for key questions in the fields of biology earth science and environmental science. These descriptions contain vast amounts of information about the morphological features of organisms on Earth their geographic distribution and for fossils their geological history. Much of these data are not widely available to the many potential users because they are predominantly published as hard copy in systematics journals or monographs. Digitization of these descriptions would make them much more widely available but doing this manually would be an enormous and unrealistic task. This chapter describes an alternative method of automating the digitization of taxonomic descriptions using new techniques in computing science that exploit the high degree of structure and organization imposed by systematic convention and rigorous editorial procedures. The method involves parsing such partially structured text to generate XML tags around discrete sections of the text. Once tagged complex queries can be run across the data that were not possible with the non-tagged text and the tagged text can more readily be imported into an existing data 63 2007 by Taylor Francis Group LLC 64 Biodiversity Databases .