Aplicação de machine learning para análise do debate presidencial

imagem

Uso de Data Science no auxílio ao voto
Debates são momentos importantes para que os eleitores possam conhecer melhor os candidatos disponíveis e formar sua decisão acerca daquele que mais os representam. Em 2018, esta tarefa mostrou-se mais desafiadora do que o usual, dado o grande número de candidatos ao pleito de presidente da república. Num cenário de grande competitividade como este, os eleitores tendem a tomar decisões baseadas em detalhes e impressões que podem ser difíceis de analisar sob uma ótica puramente racional. Tendo isto em mente, testamos algumas abordagens não convencionais de análise de dados não estruturados para ajudar a tirar insights do desempenho dos candidatos durante o debate e da repercussão que o mesmo causou nos eleitores. Para isso, avaliamos o debate ocorrido na emissora Globo no dia 4/10/2018.

Dividimos as análises em 3 segmentos principais, de acordo com o tipo de dado analisado:

  1. Detecção de emoção facial e tempo de exposição dos candidatos
  2. Transcrição das falas dos candidatos e análise de diferenças nos discursos
  3. Análise de repercussão do debate e principais influenciadores de opinião no Twitter

1. Detecção de emoção facial e tempo de exposição dos candidatos

Para esta análise, selecionamos um frame a cada segundo do vídeo do debate e utilizamos alguns algoritmos de deep learning para detectar e recortar imagens de faces nestas imagens, resultando em um universo de cerca de 10 mil imagens. Em seguida, treinamos uma rede neural para identificar o rosto de cada candidato e separamos as imagens por candidato. Por fim, utilizamos uma API de detecção de sentimentos através de características da face de cada candidato.

Presença em tela dos candidatos

Embora todos os candidatos tenham tido um tempo de tela semelhante devido à estrutura do debate,  o candidato com mais tempo de tela foi o candidato Henrique Meirelles, devido principalmente ao minuto de resposta obtido após acusação do candidato Álvaro Dias. Alckmin aparece em segundo lugar no ranking de exposição em tela, tendo sido muito requisitado a responder perguntas de seus adversários. Uma possível causa para este fato é a ausência do candidato Bolsonaro do debate, o que pode ter concentrado críticas à direita na figura do tucano. Haddad aparece em terceiro lugar, presumivelmente por sua posição de vice-liderança nas pesquisas de intenção de voto, o que também fez o petista ser mais requisitado a responder perguntas.

Mapa de emoções no debate

A análise acumulada dos sentimentos de face de cada candidato ao longo do debate revela uma distinção dos candidatos em três grupos principais: Ciro Gomes, Fernando Haddad e Geraldo Alckmin demonstraram poucas emoções ao longo do debate, exceto por expressões de Felicidade, capturadas nos sorrisos dos mesmos durante as perguntas e respostas das quais participaram. Por se tratarem de candidatos mais experientes em debates do tipo, estão mais treinados para responder a ataques e críticas com sorrisos. Álvaro Dias, Guilherme Boulos e Henrique Meirelles são mais expressivos, com frequentes demonstrações de Surpresa e Raiva. Por fim, Marina Silva apresentou postura serena e séria ao longo do debate.

2. Transcrição das falas dos candidatos e análise de diferenças nos discursos

Para esta análise, separamos o arquivo de áudio do debate nos trechos falados por cada candidato e em seguida utilizamos um algoritmo de reconhecimento de de transcrição de voz para texto. Contabilizamos as citações de candidatos a outros candidatos e a figuras relevantes do cenário político atual (Temer, Dilma e Lula). Utilizamos também a técnica Tf-idf (term frequency–inverse document frequency) para poder avaliar palavras mais faladas pelos candidatos e que ao mesmo tempo são menos faladas por outros candidatos, conseguindo assim destacar as diferenças nos discursos de cada candidato.

Citações de candidatos

Bolsonaro foi o candidato mais citado por seus adversários, com 29 citações, tendo sido poupado apenas por Álvaro Dias e Henrique Meirelles. Além disso, Temer concentrou 24 citações, tendo sido citado principalmente por Boulos e Haddad. Lula foi citados 9 vezes (por Haddad, Álvaro Dias, Alckim e Meirelles), assim como Dilma (citada por Alckmin, Álvaro Dias, Ciro e Meirelles).

Nuvem de palavras das características únicas do discurso dos candidatos

A análise das nuvens de palavras específicas de cada candidato revelam traços da estratégia de cada um no debate:

  • Álvaro Dias destacou em seu discurso termos relacionados à corrupção e à operação Lava Jato
  • Ciro exaltou o Ceará e o Nordeste e criticou membros da equipe de Bolsonaro (General Mourão e Paulo Guedes)  e o teto de gastos (emenda constitucional 95)
  • Haddad utilizou feitos de seu período como Ministro da Educação e criticou Alckmin e os governos tucanos
  • Alckmin centrou seu discurso nas reformas que propõe e nas respostas diretas às perguntas feitas a ele
  • Boulos baseou seu discurso em preocupações relacionadas à volta da ditadura militar e criticou políticas de Bolsonaro e Temer, relacionando o apoio de Alckmin ao governo do atual presidente
  • Meirelles enfatizou sua competência e seriedade como parte de seu discurso
  • Marina Silva tentou apontar erros nas gestões petistas e enfatizar a esperança como forma de crítica a Bolsonaro

3. Análise de repercussão do debate e principais influenciadores de opinião no Twitter

Para esta análise, utilizamos a API do twitter para fazer o streaming de cerca de 350 mil tweets com palavras chaves relacionadas ao debate e aos candidatos. Em seguida, identificamos através de um algoritmo de SNA (social network analysis) os perfis mais influentes e como estes perfis se organizaram em comunidades ao longo do período do debate. Por fim, identificamos para as 5 principais comunidades encontradas, os 10 usuários com mais retweets, identificando também os 5 tweets mais retuitados.

Grafo com análise da rede de tweets e retweets

A análise dos tweets e retweets revela uma rede de 5 grandes comunidades de usuários que se formaram e repercutiram o debate (veja a Visualização interativa do grafo aqui):

  • Comunidade de apoio a Bolsonaro (em roxo): é a maior comunidade formada, com 1.423 usuários diferentes. A distância das outras comunidades indica que os perfis desta rede tiveram baixa interação com outros perfis, o que pode ser explicado em parte por conta da entrevista de Bolsonaro transmitida pela Record durante o debate
  • Comunidade de apoio a Haddad (em verde): é a segunda maior comunidade formada, com 1.248 membros. Dentre os perfis mais influentes desta rede estão o perfil do próprio Haddad, o perfil de Lula, o perfil de Boulos e o de jornalistas e artistas identificados com a esquerda
  • Comunidade de memes (em azul): é a terceira maior comunidade formada, com 563 usuários. Entre seus membros estão perfis de humor e que comentaram o debate se utilizando de memes
  • Comunidade de apoio a Ciro (em cinza): é a quarta maior comunidade formada, com 480 perfis. Principalmente alimentada pelo perfil oficial de Ciro Gomes e perfis criados por membros de sua campanha
  • Comunidade de críticos ao debate (em laranja): com 358 membros, reúne perfis críticos mais identificados com a esquerda. Agrega também sites de notícia como a Folha de São Paulo e perfis ligados a Marina Silva

Principais influenciadores de cada comunidade e tweet mais retuitado

Abaixo podemos verificar os principais influenciadores de cada comunidade:

Para cada comunidade, temos também o tweet mais retuitado:

  • Comunidade de apoio a Bolsonaro:

  • Comunidade de apoio a Haddad:

  • Comunidade de memes:

  • Comunidade de apoio a Ciro:

  • Comunidade de críticos ao debate:

 

Como conclusão, é possível utilizar fontes não tradicionais de dados para ajudar a entender melhor aspectos que a primeira vista são mais subjetivos nos discursos e posturas dos candidatos e na maneira como as pessoas repercutem o debate.

 

Deixe uma resposta