Nenhum sistema está seguro... : março 2019

Por Thiago Alvarenga

DISPONIBILIDADE EM DATACENTERS

O que é o gerenciamento da disponibilidade?

Gerir a disponibilidade significa implementar políticas de redundância para assegurar que todos os recursos tecnológicos sejam preservados afim de garantir a continuidade do negócio. Deste modo, a capacidade de um serviço, componente ou item está em consonância às necessidades sob o plano de disponibilidade do site e em detrimento deste plano ele pode conter ações reativas e proativas para assegurar que a disponibilidade possa exceder às expectativas atuais ou futura. Intrínseco a este plano de disponibilidade, ele aborda às demandas, o suporte às determinadas áreas do negócio, os aspectos que impliquem em indisponibilidade (incidentes e problemas) assim como os critérios de desempenho e capacidade.

Conceitos Básicos

· Disponibilidade – capacidade em atender funções esperadas, quando necessário, mensurada de forma percentual.

· Confiabilidade – intervalo de tempo em que o objeto medido funciona sem interrupção. Para bens tangíveis, como dispositivos, medido pelo Mean Time Between Failures - MTBF e para bens intangíveis, como serviços, medido pelo Mean Time Between System Incidents - MTBSI (Uptime).

· Sustentabilidade – desempenho na restauração após uma falha, sendo medido por MTTR (Mean Time to Repair), ou Downtime.

· Funcionalidade – capacidade em cumprir níveis acordados para os aspectos de disponibilidade, confiabilidade e sustentabilidade.

· Resiliência - capacidade de se recuperar ou se adaptar na ocorrência de mudanças, do inesperado ou adversidades (i.e., tolerância a falhas)

· Defeito – perda das propriedades esperadas. – Ex. perda de capacidade de isolamento de um cabo.

· Falha – perda da funcionalidade, causada por um defeito. – Ex. perda do isolamento.

· Falta – efeitos possíveis em consequência de uma falha. – Ex. curto-circuito ou choque.

· DEFEITO -> FALHA -> FALTA

Cálculo da Disponibilidade

Disponibilidade = (TSA – MTTR / TSA) * 100%

Sistemas de Alta Disponibilidade

Sistema de TIC tolerante a falhas de hardware, software e de suprimento de energia, a fim de torna-lo disponível o máximo de tempo disponível.
Contém redundâncias para reduzir os Single Points of Failure – SPOF, impossibilitando que uma única falha comprometa o funcionamento de todo o sistema. Ex: Clusters.
Sistemas Dual-Node – a duplicação dos elementos pode oferecer:

Redundância – ativo/ativo
Balanceamento de carga – ativo/ativo com cargas parciais;
Hot Standby – ativo/passivo, com ativação automática.
Níveis de alta disponibilidade: vai de 95% que corresponde a um downtime de 18 dias e 6h por ano, até 99,999% que corresponde a um downtime de 5 minutos por ano.
Disponibilidade contínua – preservação de um sistema ou serviço continuamente disponível, sem falhas.

Sistema de Informações de Disponibilidade

Conjunto de ferramentas e atividades que apoiam a realização do processo de gestão da disponibilidade.
Atividades concernentes às responsabilidades da gestão de disponibilidade:
Atividades Reativas – monitoramento e análise das medições, gerando relatórios de disponibilidade, que mostram as falhas (indisponibilidades ou não atendimento a métricas), para investigação de causas e ações de contorno.

Atividades Proativas – a partir dos relatórios de disponibilidade, pode-se avaliar riscos com dados operacionais concretos, possibilitando o planejamento de serviços novos, a revisão e a alteração de serviços de produção, o desenvolvimento de mecanismos de resiliência e a implantação de contramedidas a um custo que seja justificável. Seu principal produto é a concepção dos planos de disponibilidade.

Um componente essencial para alimentação de um sistema de informações de disponibilidade são os diferentes pontos de contato com os usuários, uma vez que servem para a entrada de incidentes e problemas que impactam na disponibilidade (Call Center, Help Desk e Service Desk).
Outras definições importantes:

Incidente: evento que não é parte da operação padrão e afeta a qualidade.
Problema: é uma causa desconhecida de um ou mais incidentes que afetam a normalidade dos serviços.
Erro conhecido: envolve o diagnóstico da causa e a potencial aplicação da solução de contorno.

Disponibilidade e nível de serviço

Os Acordos de Nível de Serviço (ANS), também conhecidos comumente por SLA (Service Level Agreement) são artefatos escritos, podendo ou não ser na forma de um contrato legalmente estabelecido, ou ainda ser parte de um contrato mais amplo, que celebra um pacto entre um provedor e um cliente, definindo metas para o serviço a ser prestado e as responsabilidades de ambas as partes.
Um ANS gera expectativas consistentes sobre a qualidade da prestação de um serviço de TI.
A disponibilidade é um indicador chave de desempenho a ser contemplado em um ANS, sendo a sua gestão indispensável para que este acordo seja devidamente cumprido.
A estrutura de um ANS pode ser baseada em:

Serviços: abrange todos os clientes de um serviço.

Cliente: abrange todos os serviços contratados por um cliente.

Multinível: • Corporativo: abrange todos os assuntos genéricos. • Cliente: abrange todos os assuntos que são relevantes a um grupo específico de clientes ou unidades de negócios. • Serviço: abrange todos os assuntos que são relevantes a um serviço específico para um cliente específico.

domingo, 10 de março de 2019

Disponibilidade em Datacenters

Uma análise crítica sobre o modelo de trabalho, direitos e incentivos

Visualizações de página do mês passado