-
Vida longa ao Unicode!
Publicado em 1 de fevereiro de 2010 Sem comentáriosA luta pela padronização na Web comemora mais um grade fato: o Unicode (se você não reconhece esse termo, que tal UTF-8?) reina quando o assunto é o encoding utilizado pelas páginas (pelo menos as encontráveis pelo Google). Confira uma parte do post feito por Augusto Campos no blog BR-Linux.org:
E esta maioria está a poucos passos de galgar um degrau a mais: tornar-se superior à soma de todas as demais opções – ao menos no que diz respeito ao conjunto dos sites indexados pelo Google.
Consta que o Google vai promover uma festa quando a marca de 50% for ultrapassada. E como a tendência está bem clara no gráfico, não deve demorar. (via h-online.com)
Bom, se houver mesmo uma festa, eu gostaria de ir, mas… será que essa festa será uma festa normal?!?!?
De qualquer forma, é um acontecimento que devemos comemorar (profissionais da web), pois é um grande avanço rumo a um trabalho melhor, menos dependente de monopólios, mais colaborativa ainda! Como muitos leitores já sabem, quando se trabalha com dados oriundos da Web, já é uma briga conseguir extrair tudo num formato decente para seu banco de dados. Quando ainda temos que lidar com vários conjuntos de caracteres diferentes, quando é tão simples usar um único conjunto. Recomendo, caso você trabalhe com Python, a biblioteca BeautifulSoup, que fará a maior parte do esforço para você lidar com aquelas páginas que insistem em não usar o Unicode. Aliás, segue aqui um ótimo artigo para quem quer falar a mesma língua com a maioria do mundo: Tudo sobre Python e Unicode
Cheers!
Deixar uma resposta



