Kinh doanh - Marketing
Kinh tế quản lý
Biểu mẫu - Văn bản
Tài chính - Ngân hàng
Công nghệ thông tin
Tiếng anh ngoại ngữ
Kĩ thuật công nghệ
Khoa học tự nhiên
Khoa học xã hội
Văn hóa nghệ thuật
Sức khỏe - Y tế
Văn bản luật
Nông Lâm Ngư
Kỹ năng mềm
Luận văn - Báo cáo
Giải trí - Thư giãn
Tài liệu phổ thông
Văn mẫu
Tài liệu HOT
Tìm
Danh mục
Kinh doanh - Marketing
Kinh tế quản lý
Biểu mẫu - Văn bản
Tài chính - Ngân hàng
Công nghệ thông tin
Tiếng anh ngoại ngữ
Kĩ thuật công nghệ
Khoa học tự nhiên
Khoa học xã hội
Văn hóa nghệ thuật
Y tế sức khỏe
Văn bản luật
Nông lâm ngư
Kĩ năng mềm
Luận văn - Báo cáo
Giải trí - Thư giãn
Tài liệu phổ thông
Văn mẫu
Thông tin
Điều khoản sử dụng
Quy định bảo mật
Quy chế hoạt động
Chính sách bản quyền
0
Trang chủ
Công Nghệ Thông Tin
Cơ sở dữ liệu
Approximate String Joins in a Database (Almost) for Free
TAILIEUCHUNG - Approximate String Joins in a Database (Almost) for Free
ProDom(Corpet et al., 2000) is one of the earliest clustered protein family databases and continually updates its methods and services. Currently, it coordinates some of its larger entries with Pfam-A and uses PSI-BLAST to cluster the remaining sequences in SWISS-PROT and TrEMBL. While only large entries have been scrutinized manually, the consistency of all families is assessed by computing a series of numerical measurements. The resulting families are represented as consensus sequences and gapped multiple alignments. Phylogenetic trees are computed from these alignments and used to display a family in overlapped subfamilies based on distances in the tree. Documentation consists of links to the protein sequence databases and to other protein family databases (PROSITE,. | Approximate String Joins in a Database Almost for Free Luis Gravano Columbia University gravano@ Nick Koudas AT T Labs-Research koudas@ Panagiotis G. Ipeirotis Columbia University pirot@ S. Muthukrishnan AT T Labs-Research muthu@ H. V. Jagadish University of Michigan jag@ Divesh Srivastava AT T Labs-Research divesh@ Abstract String data is ubiquitous and its management has taken on particular importance in the past few years. Approximate queries are very important on string data especially for more complex queries involving joins. This is due for example to the prevalence of typographical errors in data and multiple conventions for recording attributes such as name and address. Commercial databases do not support approximate string joins directly and it is a challenge to implement this functionality efficiently with user-defined functions UDFs . In this paper we develop a technique for building approximate string join capabilities on top of commercial databases by exploiting facilities already available in them. At the core our technique relies on matching short substrings of length q called g-grams and taking into account both positions of individual matches and the total number of such matches. Our approach applies to both approximate full string matching and approximate substring matching with a variety of possible edit distance functions. The approximate string match predicate with a suitable edit distance threshold can be mapped into a vanilla relational expression and optimized by conventional relational optimizers. We demonstrate experimentally the benefits of our technique over the direct use of UDFs using commercial database systems and real data. To study the I O and CPU behavior of approximate string join algorithms with variations in edit distance and -gram length we also describe detailed experiments based on a prototype implementation. Permission to copy .
Sơn Quân
95
10
pdf
Báo lỗi
Trùng lắp nội dung
Văn hóa đồi trụy
Phản động
Bản quyền
File lỗi
Khác
Upload
Tải xuống
đang nạp các trang xem trước
Bấm vào đây để xem trước nội dung
Tải xuống
TÀI LIỆU LIÊN QUAN
Stage-Gate Innovation Management Guidelines
29
62
0
DISCUSSION PAPAERS IN DIPLOMACY: COMMERCIAL DIPLOMACY AND INTERNATIONAL BUSINESS
1
62
0
[TO BE PUBLISHED IN THE GAZETTE OF INDIA, EXTRAORDINARY PART-II, SECTION-3, SUB-SECTION (i)] - MINISTRY OF CORPORATE AFFAIRS
11
56
0
THE TRUTH ABOUT BOOK MARKETING
30
64
0
DIGITAL MUSIC REPORT 2009: New BusiNess Models for a ChaNgiNg eNviroNMeNt
32
72
0
Identifying Mental Health and Substance Use Problems of Children and Adolescents: A Guide for Child-Serving Organizations
222
51
0
Third Annual Child & Adolescent Mental Health Service Report 2010 - 2011
86
53
0
Freedom of Expression on the Internet - A study of legal provisions and practices related to freedom of expression, the free flow of information and media pluralism on the Internet in OSCE participating States
238
65
0
Air Pollution -We expect our air to be clean
118
59
0
REPORT OF THE SINGLE AUDIT OF THE LOUISVILLE/JEFFERSON COUNTY METRO GOVERNMENT: CRIT LUALLEN AUDITOR OF PUBLIC ACCOUNTS
212
46
0
TÀI LIỆU XEM NHIỀU
Một Case Về Hematology (1)
8
462378
61
Giới thiệu :Lập trình mã nguồn mở
14
27095
79
Tiểu luận: Tư tưởng Hồ Chí Minh về xây dựng nhà nước trong sạch vững mạnh
13
11385
543
Câu hỏi và đáp án bài tập tình huống Quản trị học
14
10582
468
Phân tích và làm rõ ý kiến sau: “Bài thơ Tự tình II vừa nói lên bi kịch duyên phận vừa cho thấy khát vọng sống, khát vọng hạnh phúc của Hồ Xuân Hương”
3
9864
108
Ebook Facts and Figures – Basic reading practice: Phần 1 – Đặng Tuấn Anh (Dịch)
249
8912
1161
Tiểu luận: Nội dung tư tưởng Hồ Chí Minh về đạo đức
16
8534
426
Mẫu đơn thông tin ứng viên ngân hàng VIB
8
8111
2279
Giáo trình Tư tưởng Hồ Chí Minh - Mạch Quang Thắng (Dành cho bậc ĐH - Không chuyên ngành Lý luận chính trị)
152
8052
1836
Đề tài: Dự án kinh doanh thời trang quần áo nữ
17
7310
268
TỪ KHÓA LIÊN QUAN
Cơ sở dữ liệu
potent combination
commonest oral lesion
oesophageal symptoms
antiretroviral treatment
TB incidence
antiretroviral drugs
preventive treatment
Opportunistic infections
morbidity and mortality
TÀI LIỆU MỚI ĐĂNG
THE ANTHROPOLOGY OF ONLINE COMMUNITIES BY Samuel M.Wilson and Leighton C. Peterson
19
231
4
19-01-2025
B2B Content Marketing: 2012 Benchmarks, Budgets & Trends
17
242
3
19-01-2025
Đóng mới oto 8 chỗ ngồi part 9
10
188
3
19-01-2025
báo cáo hóa học:" Increased androgen receptor expression in serous carcinoma of the ovary is associated with an improved survival"
6
164
3
19-01-2025
Báo cáo nghiên cứu nông nghiệp " Biofertiliser inoculant technology for the growth of rice in Vietnam: Developing technical infrastructure for quality assurance and village production for farmers "
12
153
2
19-01-2025
Quy Trình Canh Tác Cây Bông Vải
8
171
3
19-01-2025
Bảng màu theo chữ cái – V
11
177
2
19-01-2025
báo cáo hóa học:" Quality of data collection in a large HIV observational clinic database in sub-Saharan Africa: implications for clinical research and audit of care"
7
164
4
19-01-2025
CHƯƠNG 2: RỦI RO THÂM HỤT TÀI KHÓA
28
167
1
19-01-2025
Sử dụng mô hình ARCH và GARCH để phân tích và dự báo về giá cổ phiếu trên thị trường chứng khoán
24
1080
2
19-01-2025
TÀI LIỆU HOT
Mẫu đơn thông tin ứng viên ngân hàng VIB
8
8111
2279
Giáo trình Tư tưởng Hồ Chí Minh - Mạch Quang Thắng (Dành cho bậc ĐH - Không chuyên ngành Lý luận chính trị)
152
8052
1836
Ebook Chào con ba mẹ đã sẵn sàng
112
4469
1379
Ebook Tuyển tập đề bài và bài văn nghị luận xã hội: Phần 1
62
6419
1280
Ebook Facts and Figures – Basic reading practice: Phần 1 – Đặng Tuấn Anh (Dịch)
249
8912
1161
Giáo trình Văn hóa kinh doanh - PGS.TS. Dương Thị Liễu
561
3871
680
Giáo trình Sinh lí học trẻ em: Phần 1 - TS Lê Thanh Vân
122
3932
610
Giáo trình Pháp luật đại cương: Phần 1 - NXB ĐH Sư Phạm
274
4827
568
Tiểu luận: Tư tưởng Hồ Chí Minh về xây dựng nhà nước trong sạch vững mạnh
13
11385
543
Bài tập nhóm quản lý dự án: Dự án xây dựng quán cafe
35
4546
490
Đã phát hiện trình chặn quảng cáo AdBlock
Trang web này phụ thuộc vào doanh thu từ số lần hiển thị quảng cáo để tồn tại. Vui lòng tắt trình chặn quảng cáo của bạn hoặc tạm dừng tính năng chặn quảng cáo cho trang web này.