Cómo hacer troubleshooting y no morir en el intento

50 %
50 %
Information about Cómo hacer troubleshooting y no morir en el intento

Published on June 14, 2016

Author: sysarmy

Source: slideshare.net

1. Como hacer troubleshooting y no morir en el intento Fer Gleiser fgleiser@dc-solutions.com.ar @fergleiser

2. Introduccion ● Que es ● Objetivos ● Metodologias ● Ejemplos practicos

3. Objetivos ● Desarrollar tecnicas para resolver problemas ● Mejorar el tiempo de resolucion ● Mejorar el diagnostico

4. (Anti) Metodologias ● Street light ● Blame-someone-else ● Random change ● Googlemancia

5. (pseudo) Metodologias ● Shotgun debugging ● Tools method

6. Metodologias ● USE ● Metodo cientifico ● Universal Troubleshooting Process ● TSA analysis ● Checklists ● Diagnostico diferencial

7. Puntos Importantes ● Definir bien el problema ● Analisis del ambiente (alguna vez anduvo? Que cambio?) ● Criterios de estimacion ● Causas comunes primero ● Cherry picking ● Distinguir causa de sintoma

8. Lo mas Importante! ● Lo mas importante no es llegar rapido a la causa ● Lo mas importante es descartar rapido todo lo que no es la causa

9. Primeros pasos ● Prepararse ● Hacer plan de control de daños ● Definir CLARAMENTE cual es el problema ● Reproducir el problema ● Mantenimiento preventivo y correctivo

10. Siguientes pasos ● Buscar la causa raiz ● Corregir el problema ● Hacer las pruebas y verificar que este corregido ● Festejen :) ● Evitar que vuelva a ocurrir

11. Como acotar el problema ● Diffing ● Negative testing ● Hacer pruebas que descarten la mayor cantidad de causas a la vez ● Drill down ● Divide and Conquer

12. Ejemplo 1: ping asimetrico ● Dos hosts en la misma red ● Desde el host A puedo llegar al B, pero no al reves

13. Ejemplo 1: ping asimetrico

14. Ejemplo 2: backup lento ● Sintoma: Sin previo aviso el backup de un server pasa de 80 minutos a casi 14 horas

15. Ejemplo 2: backup lento

16. Ejemplo 3: Relaying denied a usuarios legitimos ● Los usuarios no pueden enviar mail hacia afuera en forma remota ● Desde la oficina funciona bien ● Hacia otros usuarios internos funciona bien

17. Ejemplo 3: Relaying denied a usuarios legitimos

18. Ejemplo 4: Es el samba o no? ● Crash aleatorio de la aplicacion ● Sospechan de un file server con samba

19. Ejemplo 4: Es el samba o no?

20. Ejemplo 5: storage con latencia ● Pruebas de carga sobre storage nuevo ● DBA reporta que los tiempos no son todo lo buenos que deberian ser ● Cuando se hace el backup los requests a la base se encolan y provocan timeouts

21. Ejemplo 5: storage con latencia

Add a comment