Analisando propostas

Regex dos Diários da Justiça (Expressões Regulares)

Publicado em 13 de Novembro de 2015 dias na TI e Programação

Sobre este projeto

Aberto

Primeira etapa
publicações a serem consideradas:
·        diário da justiça do stf
·        diário da justiça do stj

resultado esperado:
·        excel com as fórmulas regex, conforme especificações abaixo.
·        Uma planilha por publicação

Formato/Modelo do Resultado
1.      Aba [Recorte]
a.      Coluna [Start] --> Fórmula RegEx --> Procura por texto que marca o início de um bloco que será recortado.

b.      Coluna [Stop] --> Fórmula RegEx --> Procura por texto que marca o término de um bloco. Preenchido somente quando tratar-se de um bloco complexo (que será subdividido e compartilha prefixo e sufixo entre os sub-blocos).
c.      Coluna [Before] --> Fórmula RegEx --> Procura por texto que valida a coluna [Start]. Isso ocorre quando [Start] só será válido quando for precedido deste texto específico.
d.      Coluna [NotBefore] --> Fórmula RegEx --> Procura por texto que invalida a coluna [Start]. Isso ocorre quando [Start] não será válido quando for precedido deste texto específico.
e.      Coluna [CutOut] --> Fórmula RegEx --> Procura um texto específico que desejamos ignorar, ou seja, remover do resultado sem alterar inicio/fim de bloco.
2.      Aba [Títulos]
a.      Coluna [Titulo1] --> Fórmula RegEx --> Procura por texto que representa um título, no nível 1
b.      Coluna [Titulo2] --> Fórmula RegEx --> Procura por texto que representa um título, no nível 2, que é subordinado ao nível 1
c.
      Coluna [Titulo3] --> Fórmula RegEx --> Procura por texto que representa um título, no nível 3, que é subordinado ao nível 2

Observações Importantes:
1.      No momento da execução das fórmulas da Aba [Recorte] o sistema acrescenta automaticamente o modificador de "Insensibilidade de Caso" as fórmulas, o que neste caso significa que serão todas "Case Insensitive".
2.      No momento da execução das fórmulas da Aba [Títulos] o sistema NÃO acrescenta o modificador de "Caso" as fórmulas, o que neste caso significa que serão todas "Case Sensitive", isso se não tenha sido explicitamente tratado o assunto dentro da fórmula.
3.      As formulas serão executadas pelo motor do Framework .Net da Microsoft, o que pode exigir atenção em pequenas diferenças de sintaxe em relação aos demais motores (Java ou PHP por exemplo).
4.      Deve-se considerar sempre que o texto pesquisado no momento é um paragrafo ou uma tabela. Não se deve partir do pressuposto que será uma linha ou a pagina.
5.      As formulas da aba [Recorte] NÃO devem ter grupo de captura, servindo apenas para testar o MATCH.
6.      As formulas da aba [Títulos] devem definir um único grupo de captura que retornará exatamente o título esperado.
7.      Os titulos, de qualquer nível, podem ser qualquer informação, seja ela significativa ou não. A intenção é somente manter a estrutura do documento original.
8.      Depois que um bloco é iniciado o sistema inclui o texto que se seguir neste mesmo bloco até que uma das seguintes situações ocorra:

            i.      Achar o inicio de um novo bloco (MATCH da coluna [Start]), ou;
          ii.      Achar um texto que ocorra MATCH na coluna [Stop] (no caso de blocos complexos), ou;
          iii.
    Achar um texto que ocorra MATCH em qualquer das colunas de Título.

Passaremos esclarecimentos por telefone.

Categoria TI e Programação
Subcategoria Aplicativos desktop
Isso é um projeto ou uma posição de trabalho? Um projeto
Tenho, atualmente Eu tenho especificações
Disponibilidade requerida Conforme necessário
Experiência nesse tipo de projeto Sim (Eu já gerenciei esse tipo de projeto)
Plataformas exigidas Windows

Prazo de Entrega: Não estabelecido

Habilidades necessárias

Outro projetos publicados por P. R.