uma ponte entre TEI e E-Dictor

No Dia da Humanidades Digitais, como em quase todos os dias em que trabalho com as nossos ficheiros XML, movo-me entre etiquetas TEI e etiquetas E-Dictor.
O TEI é um ‘pacto’ académico que nos permite uma marcação de texto que é legível pelos browsers da Internet e simultaneamente fiel às convenções filológicas na edição de fontes primárias. Combinado com uma folha de estilo, conduz a edições digitais como as do site PS-Fly-Cards.
O E-Dictor é uma ferramenta que os colegas do Tycho Brahe desenvolveram e que permite usar o mesmo programa para a transcrição das fontes, a sua edição e a anotação POS. São etapas indispensáveis na preparação de um corpus linguístico para operações automáticas de busca, estatísticas múltiplas, anotação sintática.
Mas há um problema! Um XML de E-Dictor não está marcado com as mesmas etiquetas de um XML-TEI.
Solução: – o nosso colega Michel Généreux escreveu a nosso pedido — e autoriza obviamente a respetiva divulgação — um script PERL que converte ficheiros TEI em ficheiros E-Dictor. Vai a respetiva ligação no fim deste post. É preciso guardá-lo usando um editor de texto, e é preciso dar-lhe a extensão pl (neste caso, script.pl). Está pensado para fazer as seguintes operações:
1. Apagar o TEIHEADER e substituí-lo por um cabeçalho aceitável em E-Dictor.
2. Transformar o BODY do TEI num corpo de texto também aceitável em E-Dictor
3. Esconder todas as etiquetas de BODY do TEI, à exceção das que dizem respeito  à marcação de abreviaturas e ao respetivo desenvolvimento
N.B. As nossas abreviaturas são marcadas do seguinte modo, numa combinação dos elementos ABBR e EXPAN muito pouco ortodoxa, mas necessária para os nossos objetivos.
Ex: se o manuscrito tem “Sr.”, no XML TEI escrevemos <abbr>S<expan>enho</expan>r</abbr>
Para usar este script, basta guardá-lo na mesma pasta onde está o XML-TEI e escrever na linha de comandos esta ordem:
perl script.pl input.xml > output.xml
O ficheiro output.xml abre-se em E-Dictor e já vem com o reconhecimento de todas as expansões de abreviatura bem vermelhinas, como todos gostamos.
Para esclarecerem dúvidas, podem contactar qualquer membro do projeto Post Scriptum.
O script.pl está acessível neste endereço: http://alfclul.clul.ul.pt/cards-fly/files/script.txt.