Como obter dados de processos judiciais?

Infelizmente, os dados do judiciário não são abertos. Por isso, conseguir dados para fazer jurimetria chega a ser uma arte. Eu gosto muito da maneira que descrevemos as possíveis metodologias no nosso projeto sobre Tempos dos processos de homicídio, projeto realizado em parceria com o Instituto Sou da Paz e financiado pelo Ministério da Justiça. Vou reproduzir aqui.

A obtenção de dados de processos segue dois passos essenciais: listagem e extração.

Listagem

A listagem de processos envolve obter os números identificadores dos processos, usualmente no formato da Res. 65 do CNJ. A lista deve conter todos os casos que fazem parte do escopo de nossa pesquisa, a partirdos recortes temporais escolhidos.

A listagem é a etapa mais complicada do desafio de obter dados processuais pois é muito fácil cometer pequenos erros com grandes consequências. Por exemplo, a listagem via consulta de jurisprudência do tribunal não considera casos que se encerraram na primeira instância, nem processos que ainda estão aguardando decisão.

Nesse sentido, vale à pena separar os estudos em prospectivos e retrospectivos. Estudos propectivos são aqueles em que os processos são listados a partir de seu nascimento e acompanhados até a sua morte. Já os estudos retrospectivos listam os processos a partir de um evento específico (por exemplo, sentença ou acórdão), estudando o que ocorreu no passado dos processos.

Em estudos retrospectivos, a forma mais comum de montar a lista de processos é através das pesquisas de jurisprudência. Alguns tribunais como o TJSP também disponibilizam consultas dos julgados de primeiro grau, permitindo a listagem de processos a partir da sentença.

Já em estudos prospectivos, a forma mais comum de obter listas de processos é a partir dos Diários de Justiça Eletrônicos (DJEs), que são arquivos PDF enormes documentando toda a movimentação judiciária. Outra forma de listar processos é a partir da consulta de processos, utilizando como base o nome/documento da parte ou outros critérios disponibilizados pela ferramenta de consulta do tribunal. A segunda forma infelizmente apresenta diversas limitações práticas, como listagens truncadas quando resultam em muitos casos.

Tanto em estudos prospectivos quanto retrospectivos, é possível obter informações de processos de mais duas maneiras. O primeiro envolve a elaboração de ofícios ou utilização da LAI para obter dados diretamente dos tribunais. O segundo – e ineficiente – envolve a amostragem de números de processos, utilizando a resolução 65 do CNJ para gerar números válidos, de forma aleatória ou sequencial.

Extração

A extração dos dados de processos dos tribunais possui dois passos. O primeiro é buscar cada número de processo da lista no sistema de consulta, salvando os resultados em arquivos HTML. O segundo é ler e interpretar de forma automática os dados do arquivo HTML, transformando-o num conjunto de dados preparado para análise.

As duas tarefas são executadas por rotinas computacionais. Usualmente, os dados são organizados em quatro blocos:

  • Informações básicas: contém classe, assunto, vara, comarca, status, indicador de
    processo digital, local físico, entre outras.
  • Partes: contém nome do(s) réu(s), quando existe(m), advogado e tipo de advogado
    (defesa pública ou particular).
  • Movimentações: contém datas, títulos e conteúdo de todas as movimentações do
    processo. São movimentações desde despachos simples, remessas e conclusos até ata
    de audiências, sentenças completas etc. Trata-se da base mais rica do tribunal, mas
    também a mais difícil de analisar.
  • Documentos: contém os autos dos processos. Geralmente necessita de acesso privilegiado aos processos (por exemplo, acesso de advogado ou pesquisador credenciado).

Dependendo do tribunal, os dados extraídos podem ter formatos diferentes.

Com os dados obtidos, passamos para a etapa de arrumação/faxina, que prepara a base para ajustar nossos modelos e montar nossas visualizações. Mas isso é assunto para outro tópico :slight_smile:

Wrap-up

Como os dados não são abertos, é difícil construir ferramentas que funcionam para todos os tribunais. Nossa recomendação é que a categoria #obtencao-de-dados sirva para discutir como dados podem ser obtidos em diferentes tribunais. Assim podemos trocar experiências e melhorar nosso conhecimento de forma colaborativa.

2 Curtidas

E quando o problema não é a coleta dos dados, mas sim o que fazer com os dados, ou seja, como analisar? Por exemplo, como analisar casos em que temos mais de um processo para uma mesma pessoa física? Devo organizar meu banco de dados pelo NPJ ou pelo CPF? Penso que quando estamos tratando do entendimento processual, ou seja, desfecho, deve-se organizar os dados pelo NPJ. Já se o intuito é entender o que leva a pessoa X a fazer um acordo, devemos estruturar por CPF. Mas está correto este pensamento? Se sim, como tratamos as variáveis “independentes”?