por Marcelo Costa e Rodrigo Kramper*
O movimento ativista Black Lives Matter (em
português, Vidas Negras Importam) trouxe à tona a discussão da prática do
racismo pelas instituições públicas ou privadas, que, de forma indireta,
promovem a exclusão ou o preconceito. Primeiramente, vamos definir alguns
conceitos. O preconceito abarca uma miríade de discriminações que vão além da
raça e envolvem gênero, local de origem, orientação sexual e classe social,
entre outros aspectos. Sendo assim, o racismo é uma das muitas faces do
preconceito.
Pensando em uma discriminação institucional,
temos como exemplo aquela que faz com que em nossas empresas, segundo dados do
IBGE (Instituto Brasileiro de Geografia e Estatística), mulheres recebam cerca
de 20% menos do que os homens em condições similares.
Agora, vamos a uma discussão que avança no
mercado de tecnologia: atualmente, uma das áreas mais populares da Inteligência
Artificial é o Machine Learning ou Aprendizado de Máquina, cujo programa de
computador aprende com a experiência captada a partir de padrões de dados
históricos das organizações. E se nossos dados forem racistas, misóginos ou
discriminatórios em relação à profissão ou residência? Nesse momento, entramos
na seara dos algoritmos com vieses, ou seja, que possuem uma distorção
sistemática.
O Compas, software amplamente utilizado em
tribunais americanos para aplicação de sentenças, é um exemplo de sistema
discriminatório. Um estudo independente realizado pela ONG Propublica revelou
que, no sistema, os negros tinham o dobro de chances de serem classificados
como possíveis reincidentes de crimes violentos em comparação aos brancos.
Da mesma forma, em 2014, a Amazon utilizou um
algoritmo de seleção de currículos que priorizava candidatos do sexo masculino
em detrimento do feminino. É muito comum também os birôs de crédito que têm
utilizado dados de CEP ou profissão como fonte de dados para concessão de
crédito. Esse viés leva a negativas de créditos para a população que reside em
áreas consideradas periféricas, ou seja, uma tendência discriminatória.
Normalmente, esses problemas decorrem da
construção de modelos sem conhecimento e sem a correção de vieses ocultos, o
que pode levar a resultados distorcidos, tendenciosos ou mesmo errados,
reforçando estigmas sociais, econômicos e raciais, além de institucionalizá-los
com o requinte de parecerem resultados científicos, já que são baseados em
modelos matemáticos.
A grande discussão é que o caráter
discriminatório do Aprendizado de Máquina não advém apenas de dados históricos,
como também de outros vieses. Podemos citar três aspectos que podem
influenciar. Um deles é o viés de amostragem, que ocorre quando a amostra
analisada pelo algoritmo é incompleta ou não representa o ambiente no qual ele
será executado. Um artigo do MIT, por exemplo, demonstrou falhas em mecanismos
de reconhecimento facial, no qual a proporção entre imagens de homens chega a
ser 75% e de brancos, 80%, implicando diversos erros para o reconhecimento de
mulheres e outras etnias.
Já o viés de preconceito se refere a modelos
treinados por dados influenciados por estereótipos ou fatores culturais. Por
exemplo, modelos de reconhecimento de imagem treinados com homens em
escritórios e mulheres cozinhando, assim como de concessão de crédito que
penalizam profissões mais operacionais ou periferias. Neste caso, o uso do CEP
pode perpetuar a exclusão social.
Outra possibilidade é o viés é do observador, que
traz para a análise de dados eventuais preconceitos do profissional de dados,
como resultados que associam homens com escritórios e mulheres com cozinhas.
Ele compartilha dessa visão de mundo e sociedade. Logo, esse é o resultado que
ele espera encontrar nos dados.
Detectar e corrigir vieses nos dados não é fácil.
Porém, um começo promissor reside em conhecer os dados, a sua qualidade e
proporcionalidade amostral, assim como ter pensamento crítico sobre fatores
históricos e sociais que podem influenciar os dados, assim como o uso de
diversidade nos times de desenvolvimento. Trazer visões e experiências
diferentes aos projetos é um bom começo para o uso correto dos algoritmos de
aprendizado de máquina.
*Marcelo Costa é
analista de dados e Rodrigo Kramper é líder da prática de Advanced Data and
Analytics Solutions, ambos da ICTS Protiviti, empresa especializada em soluções
para gestão de riscos, compliance, auditoria interna, investigação, proteção e
privacidade de dados.