Metodologia
1. Metodologia

O Publique-se, lançado em 2018, começou como um mecanismo de busca que indexava milhares de processos judiciais do Supremo Tribunal Federal (STF) e do Superior Tribunal de Justiça (STJ) nos quais ao menos uma das partes já havia sido candidato(a) a cargo eletivo no Brasil. Ao facilitar o acesso a autos, relatórios, comprovantes e documentos anexados a estes processos, nosso objetivo era ajudar repórteres em investigações jornalísticas sobre candidatos a cargos públicos.

Nesta segunda fase do projeto, expandimos o escopo do Publique-se de duas formas. Primeiramente, incluímos os dados principais dos processos envolvendo políticos e suas movimentações. Em segundo lugar, expandimos os tribunais pesquisados: agora, também indexamos processos da Justiça Estadual, Federal e do Trabalho (ações civis públicas).

2. Amostra

Partindo das bases de dados do Tribunal Superior Eleitoral desde 2016, usamos dois critérios para a inclusão de políticos em nossa amostra: (i) todos(as) candidatos(as) a cargos eletivos, seus vices ou suplentes, com pelo menos 8.000 (oito mil) votos, quando os(as) candidatos(as) tiverem concorrido a cargos nas esferas estadual ou federal; (ii) todos(as) candidatos(as), seus suplentes ou vices, em municípios com mais de 200.000, quando os(as) candidatos(as) tiverem concorrido a cargos nas eleições municipais. No total, buscamos processos de cerca de 51.000 políticos brasileiros.

Além dos critérios acima, filtramos os processos judiciais por assuntos e naturezas processuais de interesse público. Como critério, mantivemos na base: (i) processos que estejam relacionados a exercício de função pública (por exemplo, ações de improbidade administrativa) ou prestação de serviços a órgãos públicos (por exemplo, contratos administrativos); (ii) processos de natureza privada mas sob responsabilidade dos Ministérios Públicos Estaduais e Federal (por exemplo, violência doméstica ou crimes contra o meio ambiente); (iii) processos relacionados à atuação profissional ou empresarial cujo impacto seja público, amplo e notório (por exemplo, recuperação judicial de empresas); (iv) processos cujo assunto esteja tipificado no Código de Penal (Decreto-Lei nº 2.848/1940) e legislação subsequente. Julgamos que estes processos são os mais relevantes para os eleitores brasileiros pois eles contêm informações sobre as disputas nas quais os políticos se envolvem tanto no exercício da função pública quanto nos casos em que há grande interesse da população. Adiantamos, contudo, que não há nenhuma avaliação de mérito das ações judiciais por parte do Publique-se, da Abraji, do Digesto, da Transparência Internacional Brasil ou dos profissionais envolvidos neste projeto. Nós apenas facilitamos o acesso a documentos públicos, conforme o Princípio da Publicidade (Art. 37, caput, CF/88) e respeitando as restrições do Art 5º, LX, da CF/88 e de legislação ordinária. A lista completa de assuntos judiciais usada no Publique-se e os nomes dos políticos que foram pesquisados está disponível na seção de Downloads.

3. Obtenção de Processos e Checagens

A busca e disponibilização de processos na plataforma do Publique-se contêm várias etapas. A primeira delas é a obtenção da lista de candidatos(as) a cargos eletivos no Brasil desde 2016, e senadores(as) eleitos(as) e suplentes em 2014. Para tanto, utilizamos o Repositório de Dados Eleitorais do TSE e extraímos os nomes e os números de cadastro de pessoa física (CPF) para os candidatos da nossa amostra.

Após essa etapa, nós buscamos processos cujas partes contenham nomes de políticos nos bancos de dados do Digesto, empresa de inteligência jurídica e nossa parceira no Publique-se. Acessamos a API (em inglês, a Application Programming Interface, que é forma de disponibilização dos dados) do Digesto e baixamos todos os detalhes, movimentações e partes dos processos judiciais nos diversos cortes jurisdicionais do direito brasileiro. A busca por nomes, contudo, é incompleta, pois podemos encontrar partes cujos nomes sejam idênticos (homônimos) aos de políticos brasileiros.

Nosso próximo passo, portanto, é filtrar esses processos, de acordo com suas partes, para identificar a amostra correta de políticos(as). A primeira medida é identificar os(as) políticos(as) usando seus CPFs, que são reportados pelo TSE. Nós buscamos os CPFs nos documentos processuais das partes, se estes foram incluídos, e filtramos os processos em que há correspondência entre o CPF do(a) político(a) e da parte. Nós executamos a mesma busca quando uma das partes é uma empresa e um de seus sócios(as) é político(a). Para tanto, nós utilizamos o CNPJ e o CPF de seus sócios(as) nos casos em que as empresas tenham cadastro ativo na Receita Federal.

Na ausência desses identificadores únicos, nós recorremos a técnicas de análise de texto para encontrar partes que também sejam políticos(as) brasileiros(as). Essas técnicas baseiam-se na análise textual dos nomes dos(as) políticos(as), do assunto judicial e do conteúdo das movimentações de cada processo.

Primeiramente, nós identificamos políticos(as) por seu nome completo. Selecionamos apenas políticos(as) cujos nomes apareçam menos de 5 vezes no universo de nomes de políticos(as) para reduzirmos a probabilidade de encontrar partes homônimas. Por exemplo, há 150 “José Carlos da Silva” e apenas 3 “Gilson Martins dos Santos” políticos brasileiros nos registros do TSE. A alta frequência dos nomes indica, preliminarmente, a chance de encontrarmos muitos homônimos se utilizarmos o nome completo indiscriminadamente. Portanto, apenas políticos(as) cujo nome apareça menos de 5 vezes no TSE, como “Gilson Martins dos Santos”, são identificados nesta etapa.

Em seguida, identificamos políticos(as) por correspondência de nome parcial. Aqui, utilizamos distância de Levenshtein e outros métodos comuns de teoria da informação e processamento de linguagem natural. Estas técnicas consistem na identificação de texto por edição de caracteres (“Luisa” e “Luiza” tem apenas um caractere de diferença), proporção de nome comum (“Ayrton Senna” é um subconjunto de “Ayrton Senna da Silva”), ou relevância de parte do nome para identificar nome completo (“Bündchen” é mais relevante do que “Gisele” para encontrar “Gisele Bündchen” em uma listas de mulheres brasileiras).

Nós filtramos os casos remanescentes, sejam de nomes completos muito comuns ou nomes parciais não identificados acima, usando aprendizado de máquina supervisionado, que é uma técnica para classificação de pessoas/objetos em categorias pré-definidas. Nós utilizamos características socioeconômicas, geográficas, processuais e eleitorais para estimar a probabilidade de que uma parte de um processo judicial seja um(a) político(a) brasileiro(a). Quando possível, nós informamos o grau de confiança de nossas previsões.

Por fim, em cada uma das etapas acima, nós fazemos a checagem manual dos casos identificados por amostragem. Selecionamos uma amostra aleatória de processos em que ao menos uma parte seja um(a) político(a) brasileiro(a) e manualmente verificamos os autos processuais deste processo em seu tribunal de origem. Todavia, nenhum método é perfeito; nós indicamos abaixo como replicar nossa metodologia e comunicar erros contidos no Publique-se.

4. Transparência

Todos os passos descritos na obtenção dos dados e checagens estão disponíveis no repositório deste projeto no GitHub. A única exceção são os códigos necessários para acesso à API do Digesto, já que este é um serviço exclusivo de seus clientes. Os dados que alimentam o Publique-se estão na seção de Downloads e, caso você tenha identificado algum erro, pedimos que você entre em contato no Fale Conosco.

5. Cronograma e Atualizações

Esta segunda fase do Publique-se começou com a atualização dos processos do STF e STJ. Mensalmente, incluiremos novas remessas de processos da Justiça Estadual, Federal e do Trabalho (ações civis públicas).

Quando o TSE divulgar os(as) candidatos(as) das eleições municipais de 2020, a base de processos passará por nova atualização de políticos(as). A divulgação dos dados respeitará o calendário eleitoral do TSE para registro e confirmação de candidaturas aos cargos de vereador(a) ou prefeito(a).