Variability-aware request replication for latency curtailment Conference Poster

abstract

  • La variabilidad del tiempo de procesamiento es común en los sistemas distribuidos, donde los recursos muestran un rendimiento dispar debido a, por ejemplo, diferentes niveles de carga de trabajo, procesos en segundo plano y contención en entornos virtualizados. Sin embargo, es fundamental que los proveedores de servicios mantengan bajo control la variabilidad en el tiempo de respuesta para poder ofrecer servicios que respondan a las necesidades. Investigamos cómo se puede utilizar la replicación de solicitudes para explotar la variabilidad del tiempo de procesamiento y reducir los tiempos de respuesta, teniendo en cuenta no sólo los valores medios sino también la cola de la distribución del tiempo de respuesta. Nos centramos en la configuración distribuida, donde la replicación se logra ejecutando copias de las solicitudes en varios servidores que, de lo contrario, evolucionan de forma independiente, y esperando a que la primera réplica complete el servicio. Construimos modelos que capturan la evolución de un sistema con peticiones replicadas utilizando métodos aproximados y observamos que los tiempos de servicio altamente variables ofrecen las mejores oportunidades para la replicación, reduciendo el tiempo de respuesta en particular. Además, el efecto de la replicación no es uniforme sobre la distribución del tiempo de respuesta: las ganancias en una métrica, por ejemplo, la media, pueden ser a costa de otra, por ejemplo, los percentiles de cola. Esto se demuestra en una amplia gama de experimentos numéricos virtuales. Se puede ver que la captura de la variabilidad del tiempo de servicio es clave para la evaluación de las estrategias de tolerancia de latencia y en su diseño.
  • Processing time variability is commonplace in distributed systems, where resources display disparate performance due to, e.g., different workload levels, background processes, and contention in virtualized environments. However, it is paramount for service providers to keep variability in response time under control in order to offer responsive services. We investigate how request replication can be used to exploit processing time variability to reduce response times, considering not only mean values but also the tail of the response time distribution. We focus on the distributed setup, where replication is achieved by running copies of requests on multiple servers that otherwise evolve independently, and waiting for the first replica to complete service. We construct models that capture the evolution of a system with replicated requests using approximate methods and observe that highly variable service times offer the best opportunities for replication - reducing the response time tail in particular. Further, the effect of replication is non-uniform over the response time distribution: gains in one metric, e.g., the mean, can be at the cost of another, e.g., the tail percentiles. This is demonstrated in wide range of numerical virtual experiments. It can be seen that capturing service time variability is key to the evaluation of latency tolerance strategies and in their design.

publication date

  • 2016/7/27

edition

  • 2016-July

keywords

  • Experiments
  • Processing
  • Servers

ISBN

  • 9781467399531