TAILIEUCHUNG - Near duplicate document detection survey