Ad image

Codex: repositório de dados do Judiciário atinge 144 milhões de processos armazenados

Portal O Judiciário Redação

Compartilhe

A Plataforma Codex alcançou, em junho, 144 milhões de processos judiciais armazenados no repositório central do Conselho Nacional de Justiça (CNJ). A ferramenta é um dos projetos do Judiciário brasileiro de gerenciamento e processamento de dados judiciais, que possibilita a construção de datasets para o treinamento de modelos de Inteligência Artificial (IA).  

Publicidade
Ad image

“Em termos de estratégia de centralização e de construção de um repositório único de dados sobre o Judiciário, o Codex não tem semelhante em tamanho e complexidade no mundo”, ressalta João Thiago Guerra, juiz auxiliar da presidência do CNJ. 

O projeto foi desenvolvido pelo Tribunal de Justiça de Rondônia (TJRO) e posteriormente nacionalizado em parceria com o CNJ. Em 2021, ele passou a integrar o Programa Justiça 4.0 e os tribunais iniciaram a adesão à plataforma. Em 2022, o Conselho instituiu o Codex como ferramenta oficial de extração de dados dos sistemas de processo eletrônico por meio da Resolução n. 446/2022.  

De 6 fontes de dados e 4 milhões de processos judiciais carregados, em 2021, o Codex chegou a 158 fontes de dados, de 92 tribunais e conselhos, em junho de 2023, totalizando 144 milhões de processos judiciais e 3,6 bilhões de documentos armazenados. “Nossa expectativa é chegar ao dobro disso com a integração de mais fontes de dados”, afirma Marcelo Feijó, gerente técnico do projeto no Justiça 4.0.  

Publicidade
Ad image

Os números atualizados de implantação do Codex foram apresentados no Fórum Justiça e Inovação (Fiji), que aconteceu em Brasília em 19 e 20 de junho. De acordo com o monitoramento do Justiça 4.0, 92 tribunais brasileiros e Conselhos — o que representa 99% do Judiciário — possuem, pelo menos, uma fonte de dados integrada ao Codex. 34 deles têm 70% dos seus dados processuais disponibilizados no repositório.  

Acesso a dados de qualidade

Um dos principais benefícios do Codex é gerar datasets para treinamento de IA de forma a atender as necessidades do Judiciário brasileiro no desenvolvimento dessa tecnologia. Com a ferramenta, o CNJ pode disponibilizar dados saneados e seguros aos tribunais, por meio de acesso local e por APIs, para que desenvolvam modelos de IA, a serem compartilhados na Plataforma Sinapses. 

“Os dados estão disponíveis para serem trabalhados de forma colaborativa, padronizada, auditada, que é uma das grandes preocupações do desenvolvimento de IA, e de forma controlada, com acesso para quem é do Poder Judiciário”, explica Thiago Vieira, diretor de Tecnologia da Informação (TI) do CNJ. 

Lucas Victorasso Jardim, especialista em IA do Justiça 4.0, destaca a importância da qualidade dos dados para o desenvolvimento dos modelos. “Os dados são o embasamento dos algoritmos de IA. A performance dos algoritmos tende a melhorar em acurácia conforme se aumenta a quantidade de dados utilizados no treinamento”, explica. 

De acordo com Lucas, um conjunto de dados deve ter qualidades relativas a volume, diversidade e uniformidade, por exemplo. “A diversidade permite evitar vieses. Assim, temos que garantir uma base com diversidade adequada, que seja representativa da realidade”. Para Lucas Jardim, o potencial do Codex é grande pelo nível de curadoria e volume de dados. “Ele está em desenvolvimento e temos expectativa de crescer ainda mais”, afirma.  

Arquitetura e segurança

“A arquitetura do Codex permite normalizar e padronizar os dados para trabalhar com IA no formato de texto puro”, explica Pablo Moreira, analista de sistemas do CNJ. A ferramenta permite identificar o conteúdo do arquivo e fazer a extração do texto; converter imagem em texto e enviar os dados extraídos para o repositório central.  

A segurança desses dados também é uma das prioridades do Conselho explica Moreira. “Estamos tratando, por vezes, de dados de processos sigilosos, com sigilo médico e segredo de Justiça, por exemplo. Foram criadas, dentro do Codex, ferramentas de segurança e auditoria que permitem saber quem acessa o dado e o que foi acessado.”  

Para o diretor de TI do CNJ, Thiago Vieira, torna-se evidente em projetos como o Codex e o Sinapses o conceito de colaboração, preconizado pela Plataforma Digital do Poder Judiciário (PDPJ-Br). “Há um grande volume de dados judiciais. Precisamos, agora, orquestrar e trabalhar colaborativamente para chegar nos resultados que queremos. O Judiciário brasileiro é enorme, então nossos resultados têm que ser proporcionais ao nosso tamanho e só alcançaremos isso por meio do trabalho colaborativo.” 

Texto: Raquel Lasalvia 
Edição: Thaís Cieglinski
Agência CNJ de Notícias 

Compartilhe este arquivo