fbpx
Hospedagem

Disaster Recovery Plan: o que é e qual a sua importância?

Disaster Recovery é um plano de recuperação preventivo, usado em casos extraordinários como incêndios, interrupção energética, roubo, perda de dados e até desastres naturais, e tem como principal objetivo garantir a continuidade das operações em infraestruturas corporativas, especialmente as de TI, em tempo hábil para mitigar qualquer prejuízo.

Esse planejamento requer conhecimento profundo das especificidades da infraestrutura e de todo o aparato que deve ser utilizado para a resolução dos problemas, redefinição de diretrizes e reestruturação. Além disso, como as circunstâncias da ocorrência e estrutura de negócios são únicas, é imprescindível que o plano seja adaptado para atender às necessidades de cada empresa.

Segundo a Emergency Preparedness Solutions, 80% das empresas vítimas de um desastre que não se recuperam em um mês e 70% dos negócios cujo nível de comprometimento dos dados inibe a devida restituição das informações são extintas em um ano. Neste artigo explicamos o que é o Disaster Recovery, os motivos pelos quais esse plano é importante e como estruturá-lo de forma eficiente. Vamos lá?

Afinal, o que é Disaster Recovery?

De acordo com o NFIB National Small Business, os desastres provocados pelo homem afetam 10% de todas as pequenas empresas, entretanto 30% dos problemas que demandam um plano de recuperação de desastres ocorre por motivação natural. Uma simples queda de energia pode colocar todo um negócio em risco: 43% das empresas que sofrem uma perda de dados nunca reabrem e 51% fecham em dois anos.

Conforme falamos, o Disaster Recovery é um plano de recuperação e reestruturação de operações em caso de desastre. Como é um guia preventivo e, de certa forma, reativo, deve ser estruturado antes de qualquer tipo de interrupção.

Parte do processo de elaboração de um Disaster Recovery consiste em tentar prever possíveis ocorrências para fazer planos de contingência adequados. Logo, o objetivo não é criar um projeto único capaz de resolver todos os riscos, mas um documento abrangente que antecipe situações, guie ações e mitigue potenciais vulnerabilidades.

Antes da elaboração efetiva do Disaster Recovery, é preciso considerar aspectos estratégicos, como o responsável pela elaboração e possíveis adaptações do plano, o responsável pelas decisões na ocorrência do desastre e um tomador de decisões alternativo, caso o designado principal não esteja disponível.

Outros aspectos estratégicos abrangem treinamento dos colaboradores, guia de procedimentos, alertas e notificações que comuniquem a ocorrência, procedimentos de evacuação, abrigo e responsabilização, equipamentos que devem ser usados e, principalmente, serviços essenciais que precisam ser mantidos para uma operação mínima que resguarde a capacidade da empresa.

Como cada tipo de desastre afeta as operações de uma forma específica, é necessário que o plano especifique quais etapas de recuperação devem ser executadas e em que ordem. Demais detalhes dependem da natureza do negócio e especificidades da operação, bem como do tipo de desastre ou interrupção.

A documentação deve ser inteligível, ou seja, capaz de ser interpretada por qualquer pessoa. Além disso, deve ser atualizada conforme mudanças estruturais e estratégicas da empresa. Por exemplo, abranger uma expansão, caso novas unidades sejam criadas.

Quais as camadas de proteção para a recuperação de desastres?

Na década de 1980, o Share Technical Steering Committee, conjuntamente com a IBM, estabeleceu quais os níveis de serviço para a recuperação de desastres são mais relevantes, por meio de camadas numeradas de 0 a 6 (a 7ª camada foi adicionada posteriormente).

Com isso, assim como o Uptime Institute estabeleceu os quatro níveis de tolerância a falhas chamados Tier, o Disaster Recovery Plan é delimitado por sete Tiers. Cada camada corresponde a um projeto e as diretrizes ajudam a manter ou retomar rapidamente as funções críticas de um sistema após um desastre, como descrevemos a seguir.

Tier 0 — no off-site data

Essa é uma infraestrutura que não conta com banco de dados externos. Para a recuperação, basta usar parâmetros e sistemas locais.

Tier 1 — backup físico sem um hot site

As empresas que usam essa camada fazem backups em intervalos de tempo específicos e mantém os dados armazenados em um ambiente externo. Além disso, o local de armazenamento tem proteção criptográfica, registro em diário, que auxilia nas verificações de integridade, e as chaves ou senhas armazenadas separadamente.

Tier 2 — backup físico com um hot site

Essa camada tem as mesmas provisões para recuperação de desastres que a Tier 1, entretanto, também fornece um sistema de backup de sistemas (“hot site”) em um local físico remoto e geograficamente distante. O hotsite é capaz de lidar com os mesmos processos de dados que o sistema principal para que, caso ocorra um desastre, todos os backups sejam instalados sem problemas.

Tier 3 — cofre eletrônico

Além das atribuições anteriores, a Tier 3 adiciona uma camada de proteção de dados e infraestruturas por meio do chamado “Cofre eletrônico”: os dados de missão crítica são transmitidos para um servidor remoto (cofre eletrônico) por meio de um canal dedicado. Uma vez que a largura de banda de tal canal é limitada, apenas dados predefinidos e, consequentemente, de extrema importância para a operacionalidade dos sistemas, podem ser armazenados nesse tipo de backup.

Tier 4 — ambiente secundário ativado

Nesse estágio, as empresas empregam meios de armazenamento mais rápidos para backups. Além disso, as unidades têm tempos de acesso ágeis, mas ainda precisam ser enviadas para um local de armazenamento remoto. Por isso, cópias pontuais e um ambiente de armazenamento secundário fica ativo para que os dados vitais sejam copiados de um para o outro (cada ambiente faz o backup do outro).

Tier 5 — integridade de transação e confirmação de dois ambientes

Nesse modelo, os dados são transmitidos continuamente de um local para o outro para preservar a integridade da transação: todos os arquivos transacionais permanecem em seu contexto original e preservam seus links e interdependências. A recuperação retorna os processos ao ponto do tempo imediatamente anterior ao desastre. O aplicativo que gerencia esse processo pode, portanto, ser reiniciado exatamente de onde parou, quase sem perda de dados.

Tier 6 — perda de dados mínima a zero

Nessa camada a recuperação é instantânea, o que, geralmente, envolve o espelhamento ou replicação de disco. Dessa forma, o presume a existência de um aplicativo que replica a infraestrutura de forma síncrona ou assíncrona para um local remoto geograficamente distante. Essa solução é, necessariamente, independente do software usado para as operações diárias da infraestrutura. Vantagens adicionais incluem compactação e criptografia mais rápidas e controle total sobre o acesso e autenticação de dados.

Tier 7 — soluções automatizadas e integradas

Essa camada foi adicionada posteriormente para incluir a automação operacional do sistema, uma característica contemplada com a evolução dos equipamentos que integram as infraestruturas de TI. O Tier 7 representa o nível mais alto de disponibilidade em cenários de recuperação de desastres. Entretanto, conforme o nível de Tier aumenta, os custos para a sua devida implantação também crescem.

Por que é necessário estabelecer um Disaster Recovery Plan?

Todas as empresas digitalmente avançadas enfrentam riscos eminentes de ataques cibernéticos, principalmente os ransomwares, que se tornam mais sofisticados à medida que a tecnologia avança. É muito mais econômico e eficaz replicar os elementos críticos de uma infraestrutura do que arcar com o resgate de informações ou a descriptografia dos arquivos sequestrados.

Em qualquer tipo de desastre, seja um ataque de ransomware, seja um desastre natural, também é possível que toda a estrutura seja danificada. Ainda é preciso incluir como potencial vulnerabilidade à ocorrência de incêndios, alagamentos, deslizamentos, queda generalizada de energia (de toda uma cidade, por exemplo), entre outros.

Um Disaster Recovery Plan pode auxiliar na pronta recuperação em vários cenários de desastre, basta que a empresa crie um projeto estratégico de mitigação de risco, essencial para a continuidade das operações em situações diversas.

Qual a vantagem da criação de um Plano de Recuperação de Desastre?

Um Disaster Recovery Plan é capaz de minimizar a ameaça real de perdas financeiras, interrupção das operações e redução da credibilidade da marca na ocorrência de desastres como quedas de energia, ataques de hackers e condições não controladas (desastres naturais, por exemplo). Isso porque a documentação permite planejar uma recuperação organizada, controlada, e segura para o restabelecimento de processos e serviços.

A importância do Disaster Recovery Plan está relacionada à ocorrência de problemas potenciais decorrentes de falhas de máquinas, equipamentos e outros ativos que compõem a infraestrutura da empresa, falhas humanas e demandas de mercado.

Proteger a infraestrutura

Embora a maioria dos hardwares e outros ativos de TI seja resistente a falhas e, de certa forma, resiliente, nenhum equipamento, principalmente quando há uma interconexão entre eles e uma dependência natural de uma conexão com a Internet, está imune a falhas.

A única maneira de garantir que uma falha de hardware não interrompa processos ou cause uma perda irreversível de dados é o estabelecimento de uma rotina de backup, com uma cópia replicada e armazenada em um local geograficamente distante e outra idealmente em nuvem.

Também seria mais prudente, eficiente e menos oneroso a terceirização da infraestrutura de TI, pois esse modelo é capaz de garantir a segurança dos processos e dos dados da contratante por meio de altos níveis de SLA (Service Level Agreement).

Mitigar falhas humanas

Assim como existe a vulnerabilidade de ativos e tecnologias, o humanware também é uma potencial ameaça. Para mitigar qualquer tipo de atuação baseada na falta de qualificação e negligência de colaboradores é imprescindível inibir qualquer possibilidade de falha.

Nenhum profissional está imune às falhas e isso significa prevenir situações como perda de documentos, falta de segurança em processos de salvamento, falha nos cuidados com os equipamentos durante a rotina de trabalho, entre outros.

A melhor forma de prevenir o erro humano é disponibilizar capacitação e treinamentos para melhorar a atuação dos colaboradores em processos de negócio. Entretanto, também é imprescindível viabilizar firewalls redundantes, antivírus e software anti-spyware em uma infraestrutura.

Garantir a credibilidade no mercado

Um último aspecto pode ser ainda mais estratégico: a credibilidade da marca. Com adventos como o IoT (Internet das Coisas) e a digitalização de processos, as empresas precisaram ser mais transparentes e responsáveis. Além disso, a alta competitividade viabilizada pela Internet também exige qualidade máxima e diferenciais competitivos por parte da empresa.

Isso é um fator crítico, pois qualquer comprometimento da credibilidade da marca pode interferir diretamente na capacidade da empresa em lidar com problemas, na predileção dos clientes e em sua competitividade no mercado. Resumidamente, os principais benefícios dessa abordagem preventiva está na:

  • segurança dos dados;
  • ininterruptividade;
  • experiência do usuário;
  • redução de custos;
  • facilidade na implantação e manutenção da infraestrutura.

Como implantar um Disaster Recovery Plan?

O planejamento do projeto é parte importante do processo e consiste em estabelecer a melhor abordagem para a demanda da unidade, por meio da adoção de diretrizes que forneçam proteção abrangente contra perdas.

Esse planejamento inclui a elaboração de um inventário de ativos, pois essa é a base pelo qual todas as outras falhas ocorrerão. Também é preciso fornecer treinamento para os colaboradores que atuam na infraestrutura, bem como designar uma equipe de recuperação de desastres responsável pela operação. Veja como implantar um Disaster Recovery Plan a seguir.

Identifique operações críticas

Nesta etapa, identifique quais operações são críticas para o funcionamento da infraestrutura e a criticidade de uma interrupção em relação à capacidade global da empresa. Isso pode ser identificado com base no tipo de produtos ou serviços comercializados e a inviabilidade de mudança de estrutura física.

Ao compreender as vulnerabilidades existentes, sejam elas específicas do setor, sejam exclusivas do negócio, é possível implementar mudanças para aumentar a segurança da infraestrutura de TI. Considere estas questões:

  • Quais elementos das operações e processos são tão essenciais que a empresa não pode sobreviver sem acesso instantâneo a eles?
  • Quais são os dados críticos?
  • A empresa lida com dados sensíveis de terceiros?
  • Quais informações proprietárias precisam ser protegidas?

Avalie os cenários de desastre

Considere a revisão de diferentes cenários de desastres e como eles afetariam os processos da empresa. O que seria preciso fazer em caso de um desastre natural? O que aconteceria se um hacker criptografasse informações críticas e exigisse um resgate? É necessário ter um plano abrangente, com diretrizes para qualquer cenário, mas também delimitar ações estratégicas para situações diferentes — as ações de recuperação em uma perda de dados não pode ser a mesma de um incêndio, por exemplo.

Crie um plano de comunicação

Não importa que tipo de desastre aconteça, um plano de comunicação é essencial para garantir a continuidade das operações. Para isso, designe pessoas específicas para funções críticas e de alto nível de responsabilização. Por exemplo, ao primeiro sinal de incêndio, o supervisor de manutenção notifica seu supervisor que aciona o sistema de alertas da empresa para comunicar os profissionais que compõem a equipe.

Também será preciso criar um plano para comunicar aos clientes, parceiros de negócio e outros agentes sobre o fato, assim como para informar um novo canal de comunicação com a empresa. Inclua ainda comunicações regulatórias e de relações-públicas necessárias para garantir transparência nas ações, a fim de que acionistas e clientes compreendam as medidas tomadas para protegê-los.

Determine as ferramentas que podem ser usadas

Um bom Disaster Recovery Plan viabiliza um data center de nível superior, com servidores de backup, sem pontos de falha nas conexões de energia e rede e com alta capacidade de replicação e armazenamento dos dados para proteger a empresa de qualquer tempo de inatividade.

Além disso, uma infraestrutura bem-preparada é certificada e conta com servidores robustos, acima de 128GB de RAM e 32 núcleos, largura de banda e rede de 1GBps, RAID e seguro, com capacidade de oferecer planos de hospedagem adequados para a necessidade da empresa.

Desenvolva um plano de backup e recuperação de dados

O plano de backup é essencial para garantir a continuidade das operações, principalmente em decorrência de falhas estruturais. Embora o objetivo seja evitar uma interrupção completa, ocorrências previsíveis, como ataques cibernéticos, podem ser inevitáveis. É fundamental que você tenha um plano para retificar e minimizar os danos possíveis.

A redundância de TI é um requisito muito importante que complementa a capacidade da infraestrutura em lidar com falhas. O termo está relacionado à adição de componentes ou funções críticas à infraestrutura de TI para garantir integridade e ininterruptibilidade quando um ou mais componentes falham.

Os data centers descrevem os níveis de redundância como N, N + 1, 2N e 2N + 1, sendo o nível mais alto o 2N + 1, baseado em um sistema de backup completo acrescido de um componente adicional para tolerância total à falhas. A aplicação da redundância é parte integrante do Disaster Recovery Plan e deve ser a primeira ação de empresas que buscam mais segurança em suas infraestruturas. Veja como aplicar esse requisito como parte determinante para um bom plano de recuperação de desastres:

  • servidores: a redundância dos servidores é obtida por meio da replicação da capacidade computacional, de integração com outros componentes e de armazenamento. Além disso, deve estar constantemente conectado à Internet;
  • rede e Internet: consiste em estabelecer planos alternativos para switches e roteadores, para que a conexão com a rede ou à Internet seja mantida em qualquer situação. Nessa arquitetura também é preciso adicionar firewalls;
  • backups: conforme falamos, os backups precisam ser mantidos em servidores remotos dedicados, servidores locais e em nuvem. Os backups multicamadas complementam a operação: enquanto alguns dados são salvos localmente outros são armazenados em ambientes geograficamente distantes;
  • unidades de disco: consiste em aumentar a disponibilidade de unidades de disco por meio do espelhamento pois, se uma unidade de disco em um conjunto RAID falha, a outra unidade pode substituí-la;
  • suprimentos de energia: adiciona fontes de alimentação redundantes para garantir operacionalidade em casos de interrupção ou picos de energia elétrica:
  • UPSs: os sistemas UPS (Uninterruptible Power Supply) ou no-break devem ser instalados em cada fonte de alimentação de energia nos racks de trabalho da infraestrutura de TI. Ele também garante a manutenção das operações em sistemas de ar-condicionado, iluminação e dispositivos de segurança, como câmeras de monitoramento e sistemas de alerta e iluminação;
  • circuitos elétricos: cada UPS precisa estar ligado a um disjuntor diferente com caixas elétricas distintas para evitar problemas em circuito;
  • geradores: os geradores permitem adicionar redundância em sistemas de energia elétrica que alimentam toda a infraestrutura;
  • sistemas de telecom: as linhas de telecomunicações precisam ser redundantes, principalmente para realizar chamados em casos de emergência. Isso ocorre por meio da contratação de diferentes provedores e instalações independentes na infraestrutura.

Delimite funções para todos da equipe

Defina quais as funções críticas em caso de desastre. Assim como todo funcionário tem a função de manter a segurança dos processos, também é preciso estabelecer um papel em situações de recuperação. É possível delegar funções por departamento ou por nível de responsabilidade, mas cada pessoa deve contribuir para um resultado global.

Documente o plano

Todas as determinações devem ser devidamente documentadas. Além disso, o plano de recuperação de desastres deve incluir a listagem dos ativos da infraestrutura, dados necessários para as operações, informações de contato para sua equipe de recuperação, locais de reunião alternativos, atribuições para cada integrante da equipe, planos de comunicação e etapas de ação.

Estabeleça um acompanhamento pós-desastre

A experiência de um desastre pode embasar decisões mais acertadas e melhores respostas em outras situações com o mesmo, ou maior, potencial de interrupção de processos.

Teste a efetividade do plano

Depois de desenvolver um Disaster Recovery Plan, teste a efetividade do plano. Para isso, crie um exercício de simulação e execute-o. Assim, é possível identificar possíveis falhas que comprometam a qualidade das ações de todos os envolvidos.

O impacto da perda ou corrupção de dados por falha de hardware, erro humano, hacking ou malware pode ser significativo — acarretar a perda de receita direta, significar um custo de oportunidade, comprometer a confiabilidade da empresa, danificar irremediavelmente a imagem da marca, prejudicar o know-how a disponibilidade de informações sensíveis e ainda gerar custos legais para a empresa. Portanto, um Disaster Recovery Plan é essencial para a restauração de dados e até de uma infraestrutura de TI em situações críticas.

Gostou do artigo? Que tal assinar a nossa newsletter para receber informações relevantes sobre outras formas de manter a segurança, a disponibilidade, o desempenho e a integridade da sua infraestrutura de TI?