Enhancing reliability and response times via replication in computing clusters Conference Poster

abstract

  • Computing clusters have been widely deployed for scientific and engineering applications to support intensive computation and massive data operations. As applications and resources in a cluster are subject to failures, fault-tolerance strategies are commonly adopted, sometimes at the expense of additional delays in job response times, or unnecessarily increasing resource usage. In this paper, we explore concurrent replication with canceling, a fault-tolerance approach where jobs and their replicas are processed concurrently, and the successful completion of either triggers the removals of its replica. We propose a stochastic model to study how this approach affects the cluster service level objectives (SLOs), particularly the offered response time percentiles. In addition to the expected gains in reliability, the proposed model allows us to determine the regions of the utilization where introducing replication with canceling effectively reduces the response times. Moreover, we show how this model can support resource provisioning decisions with reliability and response time guarantees.
  • Los clústeres de computación se han desplegado ampliamente para aplicaciones científicas y de ingeniería con el fin de soportar computación intensiva y operaciones de datos masivas. Dado que las aplicaciones y los recursos de un clúster están sujetos a fallos, se suelen adoptar estrategias de tolerancia a fallos, a veces a expensas de retrasos adicionales en los tiempos de respuesta de los trabajos, o de un aumento innecesario del uso de los recursos. En este trabajo, exploramos la replicación concurrente con la cancelación, un enfoque de tolerancia a fallos en el que los trabajos y sus réplicas se procesan de forma concurrente, y la finalización exitosa de cualquiera de ellos desencadena la eliminación de su réplica. Proponemos un modelo estocástico para estudiar cómo este enfoque afecta a los objetivos de nivel de servicio del clúster (SLOs), particularmente los percentiles de tiempo de respuesta ofrecidos. Además de las ganancias esperadas en fiabilidad, el modelo propuesto nos permite determinar las regiones de la utilización en las que introducir la replicación con cancelación reduce eficazmente los tiempos de respuesta. Además, mostramos cómo este modelo puede apoyar las decisiones de aprovisionamiento de recursos con garantías de fiabilidad y tiempo de respuesta.

publication date

  • 2015/8/21

edition

  • 26

keywords

  • Cluster computing
  • Fault tolerance
  • Response time (computer systems)
  • Stochastic models

ISBN

  • 9781479983810

number of pages

  • 9

start page

  • 1355

end page

  • 1363