3 dicas para utilizar o Machine Learning sem comprometer os dados dos usuários

3 dicas para utilizar o Machine Learning sem comprometer os dados dos usuários

4 minutos de leitura

Empresas adotam cada vez mais Machine Learning para desenvolver produtos personalizados aos clientes, mas é preciso pensar na privacidade dos usuários.



Por Redação em 28/10/2019

Empresas adotam cada vez mais Machine Learning para desenvolver produtos personalizados aos clientes, mas é preciso pensar na privacidade dos usuários.

Quando olhamos para o Machine Learning (ML), as companhias investem nesta tecnologia emergente por vários motivos. Destacamos três deles:

  • Desenvolver novos produtos e serviços aos clientes;
  • Oferecer esses produtos e serviços de forma personalizada;
  • Trazer experiências únicas ao consumidor.

Mas para garantir essa experiência ao consumidor, projetos de ML precisam ser treinados. E este treinamento só é possível com o uso de um grande volume de dados.

E quando falamos em dados, devemos falar também da privacidade desses dados.

Esse assunto sempre vai ser uma preocupação para as empresas, já que muitas se apoiam em tecnologias para remodelar os seus negócios.

Além disso, legislações como a LGPD e a preocupação dos consumidores com o uso dos dados mostram que a segurança deve ser prioridade.

Então, um grande dilema surge: como aumentar a privacidade do usuário enquanto o Machine Learning ajuda a desenvolver novos produtos?

LEIA TAMBÉM: Veja como vazamento de dados pode destruir a reputação da sua empresa

Os tomadores de decisão de TI das empresas precisam ter uma certeza: privacidade não é coletar os dados, usá-los ou descarta-los achando que os usuários estarão seguros e não identificáveis por ter esgotado a fonte de treinamento do ML.

Hoje, já existem métodos que garantem uma maior privacidade dos clientes, enquanto eles mantêm a precisão dos projetos de Machine Learning. O Google, por exemplo, utiliza algumas técnicas, entre elas a generalização dos dados (que explicaremos mais abaixo).

Tendo isso em mente, confira a seguir três práticas que CIOs podem adotar para aumentar a privacidade do usuário ao mesmo tempo em que a performance de soluções de ML pode ser melhorada. As dicas foram publicadas em um artigo assinado por Catherine Nelson, cientista de dados da empresa Concur Labs, no site InformationWeek:

1. Limite os dados pessoais que sua empresa coleta

É uma das recomendações básicas para aumentar a privacidade dos usuários. Quando sua empresa limita a quantidade de dados pessoais coletados, isso permite usar apenas o necessário para garantir a disponibilidade da solução de Machine Learning.

Uma sugestão trazida pela especialista é criar uma “discagem de privacidade” (basta imaginar um telefone antigo) para que usuários tenham o poder de decidir quais informações as empresas podem coletar — acompanhadas, preferencialmente, de uma explicação dos benefícios que cada informação compartilhada pode trazer para a sua experiência.

Segundo Nelson, isso dará ao usuário um melhor conhecimento e controle daquilo que ele irá fornecer.

Essa “discagem de privacidade” é feita em uma escala de um a 10:

  1. Número de documentos, como o CPF
  2. Nome e sobrenome
  3. Endereço de e-mail
  4. Número de telefone
  5. Endereço residencial (Rua/Avenida/etc e número da residência)
  6. CEP
  7. Nome próprio (grupo de pessoas com nome João, por exemplo)
  8. Dados de geolocalização (aplicativos e navegador, por exemplo)
  9. Empresa
  10. Todos os nomes

Nos números menores, os dados pessoais que podem identificar uma pessoa são removidos. À medida que a escala se aproxima de 10, os dados excluídos não podem ser usados para tornar um usuário identificável.

Mas isso não significa que a empresa não vá conseguir treinar o Machine Learning. Pelo contrário, ela ainda vai ter outras informações adicionais, sem identificar o usuário, para desenvolver uma solução.

Outra sugestão é o aprendizado federado, que consiste no treinamento do ML dentro do próprio dispositivo do usuário (um exemplo é quando você conversa com o Google Assistente ou Siri da Apple). Após isso, toda a informação coletada é enviada para a nuvem ou data center da empresa.

Embora seja uma técnica mais complexa, o aprendizado federado mantém os dados brutos no dispositivo do consumidor. Assim, a empresa consegue limitar a coleta de dados, mas sem abrir mão da alta precisão de treinamento.

2. Use apenas um subconjunto de dados

Também é possível aumentar a privacidade do usuário em um estágio mais inicial de aprendizado: quando a empresa vai selecionar quais dados vão treinar o modelo de Machine Learning. Um exemplo é a generalização dos dados, utilizado pelo Google.

– Generalização dos dados:
A generalização dos dados é um modelo que remove parte dos dados ou substitui parte deles por um valor comum, conhecido como k-anonimato.

K-anonimato é uma técnica que vai esconder a identidade de um usuário dentro de um grupo de indivíduos com características semelhantes.

Para ilustrar a técnica, pense o seguinte: o tamanho de um grupo de pessoas vai ser representado por um número (k). Como explica o Google, o k-anonimato é alcançado quando há, pelo menos, k-1 indivíduos com as mesmas propriedades.

No exemplo dado pelo Google, se k é igual a 50 e a propriedade seja o CEP, haverá 49 outros usuários com o mesmo código de endereçamento. Assim é praticamente impossível identificar qualquer pessoa nesse grupo.

3. Evite vazamento de dados nas previsões de um modelo de Machine Learning

Modelos de Machine Learning podem expor alguns dados de treinamento durante o desenvolvimento dos algoritmos. Entretanto, a privacidade diferencial é uma técnica que pode impedir a quebra de privacidade dos usuários.

Essa técnica é uma definição matemática que utiliza um mecanismo de ruído para que os dados de um usuário não o identifiquem quando eles estiverem em um conjunto maior de dados.

Seria como criar uma anomalia para que o indivíduo seja mascarado durante o treinamento do Machine Learning. Mesmo assim, outras informações mais “superficiais” seriam capazes de garantir o resultado esperado pela empresa.

Sua empresa só ganha com Machine Learning e privacidade

Investir em Machine Learning não impede a sua empresa de garantir a segurança dos usuários. Quando você consegue ser transparente sobre como os dados dos clientes são usados, eles confiam e se aproximam mais da sua marca.

Mas é preciso um trabalho de transformação e ele deve começar internamente. Os CIOs devem expandir a visão sobre privacidade para orientar desenvolvedores de produtos e cientistas de dados a garantir as melhores práticas no treinamento de um algoritmo.

Principais destaques desta matéria:

  • Cresce a adoção de Machine Learning (ML) nos projetos das empresas;
  • Porém, o algoritmo precisa de muitos dados para ser treinado. Isso abre discussão sobre a privacidade dos usuários;
  • Confira 3 dicas para equilibrar o desenvolvimento de ML e garantir o uso seguro dos dados.


Matérias relacionadas

Da esquerda para a direita: Paula Maia, Maria Teresa Lima, Mauro Periquito, Ellen Gonçalves e Evair Gallardo. Painel Mobilidade Urbana: Infraestrutura, legislação e segurança no Futurecom 2025 Conectividade

Infraestrutura digital deixa de ser gargalo para smart cities

Conectividade abre espaço para cidades inteligentes e uso intensivo de dados no Brasil, que já tem 5G em 1500 cidades

Painel de discussão no evento Futurecom 2025 sobre redes privativas, conectividade B2B e tecnologias de redes para o futuro do setor de telecomunicações. Conectividade

Redes privativas 5G vão de mídias às indústrias e siderurgias

Combinadas com computação de borda, inteligência artificial e rede pública, tecnologia tem ampliado experiências da produção de chocolates à transmissão de futebol

Painel de discussão sobre a expansão da fibra óptica no Brasil no Futurecom 2025, com vários especialistas e painel de monitoramento exibido ao fundo. Conectividade

Fibra óptica tornou a conectividade uma commodity, dizem especialistas

Para crescer no acesso, operadoras devem investir em novos serviços além de telecom, atuando como hub digital

Conectividade IoT e IA em cidades inteligentes promovendo segurança, vigilância e inovação tecnológica com proteção à privacidade. Conectividade

Conectividade e proteção à privacidade habilitam Cidades Inteligentes com IoT e IA

Dispositivos de sensoriamento e automação impactam governança e qualidade de vida urbana, com infraestrutura de alto desempenho e segurança

    Embratel agora é Claro empresas Saiba mais