Getty Images
6 maneiras de reduzir diferentes tipos de viés no aprendizado de máquina
À medida que a adoção do aprendizado de máquina cresce, as empresas devem se tornar especialistas em dados ou arriscar resultados imprecisos, injustos ou até mesmo perigosos. Assim, você pode combater o viés de ML.
À medida que as empresas intensificam o uso de sistemas habilitados para aprendizado de máquina em suas operações diárias, elas se tornam cada vez mais dependentes desses sistemas para ajudá-las a tomar decisões críticas de negócios. Em alguns casos, os sistemas de aprendizado de máquina funcionam de forma autônoma, por isso é especialmente importante que a tomada de decisão automatizada funcione conforme o esperado.
No entanto, os sistemas baseados em aprendizado de máquina são tão bons quanto os dados usados para treiná-los. Se houver vieses inerentes nos dados usados para alimentar um algoritmo de aprendizado de máquina, o resultado pode ser sistemas não confiáveis e potencialmente prejudiciais.
Neste artigo, você aprenderá por que o viés nos sistemas de inteligência artificial (IA) é uma preocupação, como identificar diferentes tipos de viés e seis métodos eficazes para reduzir o viés no aprendizado de máquina (machine learning ou ML).
Por que é importante eliminar o viés?
O poder do aprendizado de máquina vem de sua capacidade de aprender com dados e aplicar essa experiência de aprendizado a novos dados que os sistemas nunca viram antes. No entanto, um dos desafios que os cientistas de dados enfrentam é garantir que os dados inseridos nos algoritmos de aprendizado de máquina não sejam apenas limpos, precisos e, no caso de aprendizado supervisionado, bem rotulados, mas também livres de dados inerentemente tendenciosos que podem distorcer resultados de aprendizado de máquina.
O poder do aprendizado supervisionado, uma das principais abordagens do aprendizado de máquina, em particular, depende muito da qualidade dos dados de treinamento. Portanto, não deve ser surpresa que, quando dados de treinamento tendenciosos são usados para ensinar esses sistemas, os resultados são sistemas de IA tendenciosos. Os sistemas de IA tendenciosos implantados podem causar problemas, especialmente quando usados em sistemas automatizados de tomada de decisão, operação autônoma ou software de reconhecimento facial que faz previsões ou julgamentos sobre indivíduos.
Alguns exemplos notáveis de resultados insatisfatórios causados por viés algorítmico incluem: um sistema de reconhecimento de imagem do Google que identificou imagens minoritárias de forma ofensiva; pedidos de crédito automatizados do Goldman Sachs que desencadearam uma investigação sobre preconceito de gênero; e um programa de inteligência artificial racialmente tendencioso usado para condenar criminosos. As empresas precisam estar muito vigilantes sobre o viés do aprendizado de máquina: qualquer valor que os sistemas de IA e aprendizado de máquina forneçam em termos de eficiência ou produtividade desaparecerá se os algoritmos discriminarem indivíduos e subconjuntos da população.
No entanto, o viés da IA não se limita apenas à discriminação contra as pessoas. Conjuntos de dados distorcidos podem comprometer os processos de negócios quando aplicados a objetos e dados de todos os tipos. Por exemplo, pegue um modelo de aprendizado de máquina que foi treinado para reconhecer vestidos de noiva. Se o modelo fosse treinado em dados ocidentais, os vestidos de noiva seriam classificados principalmente pela identificação de tons de branco. Este modelo falharia em países não ocidentais, onde vestidos de noiva coloridos são mais comumente aceitos. Os erros também são abundantes quando os conjuntos de dados são tendenciosos em termos de hora do dia em que os dados foram coletados, a condição dos dados e outros fatores.
Todos os exemplos descritos acima representam algum tipo de viés que os humanos introduziram como parte de seus métodos de identificação e seleção de dados para treinar o modelo de aprendizado de máquina. Como os tecnólogos de sistemas de construção são necessariamente influenciados por suas próprias experiências, eles devem estar cientes de que seus vieses individuais podem prejudicar a qualidade dos dados de treinamento. O viés individual, por sua vez, pode facilmente se tornar um viés sistêmico, pois previsões ruins e resultados injustos são automatizados.
Como identificar e medir o viés da IA
Parte do desafio de identificar o viés decorre da dificuldade de ver como alguns algoritmos de aprendizado de máquina generalizam seu aprendizado a partir dos dados de treinamento. Em particular, os algoritmos de aprendizado profundo provaram ser notavelmente poderosos em suas capacidades. Essa abordagem para redes neurais aproveita grandes quantidades de dados, poder de computação de alto desempenho e uma abordagem sofisticada de eficiência, resultando em modelos de aprendizado de máquina com recursos profundos.
O aprendizado profundo, no entanto, é uma "caixa preta". Não está claro como o modelo de rede neural preditiva chegou a uma decisão individual. Você não pode simplesmente consultar o sistema e determinar com precisão quais entradas resultaram em quais saídas. Isso dificulta a detecção e remoção de viés potencial quando ele surge nos resultados. Os pesquisadores estão cada vez mais focados em adicionar explicabilidade às redes neurais. A verificação é o processo de testar as propriedades das redes neurais. No entanto, devido ao tamanho das redes neurais, pode ser difícil verificar o viés.
Até que tenhamos sistemas verdadeiramente explicáveis, precisamos entender como reconhecer e medir o viés de IA em modelos de aprendizado de máquina. Alguns dos vieses nos conjuntos de dados surgem da seleção de conjuntos de dados de treinamento. O modelo precisa representar os dados como eles existem no mundo real. Se seu conjunto de dados for artificialmente restrito a um subconjunto da população, você obterá resultados distorcidos no mundo real, mesmo que funcione muito bem com os dados de treinamento. Da mesma forma, os cientistas de dados devem ter cuidado ao selecionar quais dados incluir em um conjunto de dados de treinamento e quais recursos ou dimensões são incluídos nos dados para treinamento de aprendizado de máquina.
As empresas estão combatendo o viés de dados inerente implementando programas para expandir não apenas a diversidade de seus conjuntos de dados, mas também a diversidade de suas equipes. Mais diversidade nas equipes significa que pessoas de muitas perspectivas e experiências variadas estão alimentando os pontos de dados para aprender nos sistemas. Infelizmente, a indústria de tecnologia de hoje é muito homogênea; não há muitas mulheres ou pessoas de cor no campo. Os esforços para diversificar as equipes também devem ter um impacto positivo nos modelos de aprendizado de máquina produzidos, pois as equipes de ciência de dados poderão entender melhor os requisitos para conjuntos de dados mais representativos.
Diferentes tipos de viés de aprendizado de máquina
Existem algumas fontes de viés que podem ter um impacto adverso nos modelos de aprendizado de máquina. Alguns deles são representados nos dados coletados e outros nos métodos usados para amostrar, agregar, filtrar e refinar esses dados.
- Viés de amostragem. Uma forma comum de viés resulta de erros cometidos durante a coleta de dados. Um viés de amostragem ocorre quando os dados são coletados de uma forma que superamostra de uma comunidade e subamostra de outra. Isso pode ser intencional ou não intencional. O resultado é um modelo super-representado para um determinado recurso e, como resultado, é ponderado ou enviesado dessa maneira. A amostragem ideal deve ser completamente aleatória ou coincidir com as características da população a ser modelada.
- Viés de medição. O viés de medição é o resultado de não medir ou registrar com precisão os dados que foram selecionados. Por exemplo, se você usar salário como medida, pode haver diferenças de salário, incluindo bônus ou outros incentivos, ou diferenças regionais nos dados. Outros vieses de medição podem resultar do uso de unidades erradas, da normalização incorreta dos dados ou de erros de cálculo.
- Viés de exclusão. Assim como o viés de amostragem, o viés de exclusão surge de dados que são removidos inadequadamente da fonte de dados. Quando você tem petabytes ou mais de dados, é tentador selecionar uma pequena amostra para usar no treinamento, mas, ao fazer isso, você pode excluir inadvertidamente determinados dados, resultando em um conjunto de dados distorcido. O viés de exclusão também pode ocorrer devido à desduplicação de dados quando os itens de dados são realmente distintos.
- Viés do experimentador ou observador. Às vezes, o próprio ato de registrar os dados pode ser tendencioso. Ao registrar dados, o experimentador ou observador pode registrar apenas algumas instâncias de dados, omitindo outras. Talvez você esteja construindo um modelo de aprendizado de máquina com base nos dados do sensor, mas apenas coletando amostras a cada poucos segundos, sem elementos de dados importantes. Ou há algum outro problema sistêmico na forma como os dados foram observados ou registrados. Em alguns casos, os próprios dados podem até ser distorcidos pelo ato de observar ou registrar esses dados, potencialmente desencadeando mudanças comportamentais.
- Preconceito prejudicial. Uma forma insidiosa de viés tem a ver com os preconceitos humanos. Em alguns casos, os dados podem estar contaminados por vieses baseados em atividades humanas que subestimaram certas comunidades e selecionaram demais outras. Ao usar dados históricos para treinar modelos, especialmente em áreas que já foram afetadas por viés prejudicial, deve-se tomar cuidado para garantir que novos modelos não incorporem esse viés.
- Viés de confirmação. O viés de confirmação é o desejo de selecionar apenas informações que apoiem ou confirmem algo que você já sabe, em vez de dados que possam sugerir algo que vá contra noções preconcebidas. O resultado são dados falhos porque foram selecionados de forma tendenciosa ou porque informações que não suportam a noção preconcebida são descartadas .
- Bandwagoning ou efeito bandwagon. O efeito bandwagon é uma forma de viés que ocorre quando há uma tendência nos dados ou em alguma comunidade. À medida que a tendência cresce, os dados que a suportam aumentam, e os cientistas de dados correm o risco de super-representar a ideia nos dados que coletam. Além disso, qualquer significância nos dados pode ser de curta duração: o efeito bandwagon pode desaparecer tão rapidamente quanto apareceu.
Sem dúvida, existem outros tipos de viés que podem ser representados no conjunto de dados além dos listados acima, e todas essas formas precisam ser identificadas no início do projeto de aprendizado de máquina.
Seis maneiras de reduzir o viés no aprendizado de máquina
1. Identifique possíveis fontes de viés. Usando as fontes de viés acima como guia, uma maneira de abordar e mitigar o viés é examinar os dados e ver como diferentes formas de viés podem afetar os dados usados para treinar o modelo de aprendizado de máquina. Você selecionou os dados sem viés? Você garantiu que não há viés de erros na entrada de dados ou observação? Você está se certificando de que não está usando um conjunto de dados históricos contaminado com viés ou viés de confirmação? Ao fazer essas perguntas, você pode ajudar a identificar e potencialmente eliminar esse viés.
2. Estabelecer diretrizes e regras para eliminar preconceitos e procedimentos. Para manter o viés sob controle, as organizações devem estabelecer diretrizes, regras e procedimentos para identificar, comunicar e mitigar o possível viés do conjunto de dados. As organizações com visão de futuro estão documentando casos de viés à medida que ocorrem, descrevendo as etapas tomadas para identificar o viés e explicando os esforços feitos para mitigar o viés. Ao estabelecer essas regras e comunicá-las de forma aberta e transparente, as organizações podem dar o passo certo para resolver problemas de viés do modelo de aprendizado de máquina.
3. Identifique dados representativos precisos. Antes de coletar e agregar dados para o treinamento do modelo de aprendizado de máquina, as organizações devem primeiro tentar entender como deve ser um conjunto de dados representativo. Os cientistas de dados devem usar suas habilidades de análise de dados para entender a natureza da população a ser modelada junto com as características dos dados usados para criar o modelo de aprendizado de máquina. Essas duas coisas precisam corresponder para construir um conjunto de dados com o menor viés possível.
4. Documente e compartilhe como os dados são selecionados e limpos. Muitas formas de viés ocorrem ao selecionar dados de grandes conjuntos de dados e durante operações de limpeza de dados. Para garantir que poucos erros indutores de viés sejam cometidos, as organizações devem documentar sua seleção de dados e métodos de limpeza e permitir que outros examinem quando e se os modelos mostram algum tipo de viés. A transparência permite remover a análise de causa raiz de fontes de viés em iterações futuras do modelo.
5. Avalie o desempenho do modelo e selecione o menos tendencioso, além do desempenho. Os modelos de aprendizado de máquina costumam ser testados antes de serem colocados em prática. Na maioria das vezes, essas etapas de avaliação se concentram nos aspectos de precisão e exatidão do modelo. As organizações também devem adicionar medidas de detecção de viés nas etapas de avaliação de seu modelo. Mesmo que o modelo funcione com certos níveis de exatidão e precisão para tarefas específicas, ele ainda pode perder medidas de viés, o que pode indicar problemas com os dados de treinamento.
6. Monitorar e revisar os modelos em operação. Por fim, há uma diferença entre o desempenho do modelo de aprendizado de máquina no treinamento e o desempenho no mundo real. As organizações devem fornecer métodos para monitorar e revisar continuamente os modelos enquanto trabalham. Se houver sinais de que certas formas de viés estão aparecendo nos resultados, a organização pode agir antes que o viés cause danos irreparáveis.
Combater o viés de aprendizado de máquina torna os sistemas mais robustos
Quando o viés é incorporado em modelos de aprendizado de máquina, pode ter um impacto adverso em nossas vidas diárias. O viés é exibido na forma de exclusão, como certos grupos que têm empréstimos negados ou não podem usar a tecnologia, ou a tecnologia não funciona da mesma forma para todos. À medida que a IA continua a fazer parte de nossas vidas, os riscos de viés só aumentam. Empresas, pesquisadores e desenvolvedores têm a responsabilidade de minimizar o viés nos sistemas de IA. Muito disso se resume a garantir que os conjuntos de dados sejam representativos e que a interpretação dos conjuntos de dados seja bem compreendida. No entanto, apenas garantir que os conjuntos de dados não sejam tendenciosos não removerá o viés; portanto, ter diversas equipes de pessoas trabalhando no desenvolvimento de IA continua sendo uma meta importante para as empresas.