Não sou programador, então não faço ideia de que linguagem seria usada; posto aqui apenas a minha ideia estruturada para saber a possibilidade de ser feita.
Eu preciso de um programa pra gerar um índice remissivo - ou onomástico ou alfabético - devidamente linkado de maneira automática, utilizando um pdf na primeira ação, e vários arquivos html na segunda ação.
No PDF, utilizando o Adobe Acrobat, pesquisaríamos uma lista específica de palavra e número (ex: ação, 95) que se refere à palavra constante no índice e à página na qual ela se encontra. Essa pesquisa no PDF teria que encontrar a tal palavra na sua respectiva página, selecioná-la junto de duas ou três palavras anteriores e posteriores (ex: toda essa ação gera reação), de modo a selecionar um trecho e gerar uma lista com esse conteúdo (ex: ação; toda essa ação gera reação; 95).
Feito isso, nos HTMLs, rodando offline, utilizaríamos essa lista para buscar esse determinado trecho e inserir, antes da primeira palavra dele, um <a id="palavranúmero"></a> (ex: <a id="ação95"></a>toda essa ação gera reação). Obs: essa busca teria que ignorar possíveis tags aplicadas nesses trechos, como <span>, <em>, <strong>, etc, e contar apenas as palavras.
Com isso todas as palavras do índice estariam ancoradas nos HTMLs. Feito isso, uma outra ação varreria todos os Htmls e geraria um novo html, com a lista em ordem alfabética e linkada para o html no qual se encontra a âncora, da seguinte forma: <p>ação, <a href="../Text/
capitulo1.xhtml#ação95">95</a></p>
Não sei se ficou muito claro, mas estou disponível para explicar melhor a quem se interessar.
Delivery term: Not specified