Pages

Wednesday, July 04, 2007

Google Desktop

A essa altura, todo mundo já sabe que o Google Desktop agora possuí uma versão para Linux. Meu objetivo não é dar essa notícia, mas falar sobre o software em si com a visão de alguém que nunca usou a versão Windows do mesmo programa.

A primeira versão para Linux é apenas o básico, ou seja, pesquisa no nome e no conteúdo de alguns tipos de arquivo (a versão windows dá suporte a mais tipos). O beagle [1], o mais bem sucedido software opensource equivalente ao Google Desktop, não só possuí todas as características de busca dessa primeira versão do Google Desktop, como tem uma abrangência tipos de arquivos indexáveis muito maior.

Mas não só de buscas vive o Google Desktop. Na sua base, ele já inclui alguma integração com outros serviços do Google, como o GMail e, principalmente, a integração com o sistema de buscas do google na web.

E por esse motivo resolvi experimentar o Google Desktop. Do download à inicialização do programa, não houve qualquer tipo de problema [2]. Tudo muito simples e ... bem, simples ... Todo o gerenciamento de opções ocorre via interface web, ou seja, via navegador padrão do sistema.

Eu indexei apenas os meus principais diretórios de arquivo. Em sua grande maioria, PDFs. O total chega perto de 90GB. Depois de instalado, algumas particularidades sobre o programa:
  1. não consome muitos recursos da máquina, mesmo enquanto constrói o primeiro índice, por isso mesmo a construção é muito lenta, no meu caso, com o Athlon XP 2000, pouco mais de 24 horas;
  2. ele não indexa arquivos ou diretórios ocultos;
  3. ele não segue links de diretórios que estejam dentro do diretório principal de busca;
  4. o índice (criado em ~/.google/) é extremamente pequeno frente o seu conteúdo e quantidade de arquivos que eu possuo, no meu caso foram aproximadamente 1 GB, menos de 1 %, a tempos a trás, o Beagle gerou 4 GB de índice para menos material (em parte essa diferença reside na capacidade do Beagle de indexar outros tipos de arquivo, mas só isso não justifica no meu caso);
  5. as buscas dentro de arquivos são extraordinariamente mais eficientes, ou melhor, tão eficientes quanto na versão web, e muito mais rápidas do que uma busca usando o find com outro comando (o motivo é simples e óbvio, no Google Desktop existe um índice pré-construído, com o find, não);
  6. ele realiza buscas no cache no firefox (por hora o único navegador para linux suportado) encontrando resultados em páginas que você navegou recentemente.
  7. ao fazer buscas no Google, antes dos resultados você é informado de quantos e quais são os arquivos você possuí combinam com a expressão de buscada.
Você leu o último item ? A integração com o Google mostra resultados da "Pesquisa no Computador" em páginas de resultados da Pesquisa na Web do Google. Você não tem idéia de como eu fiquei feliz com isso. Não faz idéia de como eu vou diminuir a quantidade e material duplicado baixado para minha máquina. Toda vez que eu fizer uma busca no google, antes de qualquer coisa, eu verei o que já tenho... Essa integração com o Google, sozinha, já justifica baixar e instalar esse novo software (e perder 1 GB de espaço). Não. Não é exagero. Se você usa muito o Google (como todo mortal com um computador e internet) então terá grandes benefícios com essa integração. Desde que fiz a instalação do Google Desktop, em 10 buscas eu encontrei o que queria 8 vezes dentro da minha própria máquina. Está certo que alguém pode dizer: por que não abrir o beagle primeiro fazer a busca e só depois fazer a busca na web. Certo. Concordo, mas e a disciplina para isso ? Se os resultados estiverem integrados em um única interface, então, essa interface leva muita vantagem.

Há algumas coisas que são importantes de serem observadas na configuração do Google Desktop.

Abrindo a página de configurações, os quatro itens da primeira página exigem um certo carinho. Primeiro temos os tipos de arquivo que você quer indexar o conteúdo. Recomendo que marque todos os itens, exceto o que fala sobre "páginas seguras no histórico da web". Ao marcar todos os itens você vai demorar mais tempo para construir o seu índice inicial, e este será maior, mas você terá maior poder de busca, e eu não vejo porque limitar o poder do software aqui. Se for necessário você poderá fazer isso no terceiro item dessa mesma página.

O segundo item da página referência aos diretórios que você quer pesquisar. Muita atenção nesse item. Personalize-o da forma que julgar necessária. Lembrando que ele não pesquisa em arquivos/diretórios ocultos e não segue links.

Os dois últimos itens são os mais importantes dessa página. O terceiro, "Não pesquisar esses itens" permite excluir determinados diretórios ou arquivos onde você não quer fazer buscas/indexar. Também permite que você exclua determinadas urls da suas buscas na web (mais um ponto para a integração com o Google).

Já o último item diz: "Remover arquivos excluídos dos resultados de pesquisa. Arquivos excluídos não poderão mais ser pesquisados". Bem, vamos supor que você crie um arquivo novo, esse arquivo será "Arquivo1.txt", você sai toma uma água e quando volta você renomeia pra "ArqJ.txt". Se esse item estiver desmarcado, o Google Desktop será capaz de encontrar os dois arquivos em uma busca por "Arq*.txt". E você poderá consultar o arquivo eliminado salvo no cache Do meu ponto de vista, essa opção deveria vir marcada por default e quem quisesse que desmarcasse. Por que isso pode fazer o índice crescer de tamanho exponencialmente, basta que você tenha uma grande movimentação de arquivos no seu HD (como eu, pois tudo que entra no meu computador vai para o dir "~/Inbox" e só depois eu o coloco no diretório definitivo). Por outro lado, essa é uma forma realmente interessante de fazer um "undelete" de um determinado arquivo que você tenha eliminado no terminal (onde não existe lixeira).

A segunda aba fala sobre a integração com o Gmail. Algumas pessoas podem pensar nas questões de privacidade, mas eu que uso o Gmail/Google Talk, Picasa Web Album, Google Reader, Google Docs & Spreadsheets, Google Calendar, iGoogle, o Google Notebook, o Feedburner, o YouTube e o Blogger, se tiver que questionar a palavra do Google quanto a sua política de privacidade teria que ter feito isso a muito tempo atrás. Note que se ativar a integração com o Gmail você praticamente fará uma cópia (em texto puro) de todos os seus e-mails em cache local (não se preocupe, compactado o texto puro não dá quase nada em espaço). O que é uma boa (se não ótima) forma de fazer um backup básico dos e-mails.

A terceira aba é a que fala do comportamento do software em si. Eu destaco última opção dessa aba como a mais importante, pois é nela que se define a integração com as pesquisas feitas na web. E como eu já disse, é um dos melhores recursos desse software.

A última aba é apenas sobre a ativar ou não os "Recursos Avançados". Pelo que entendi, no momento, é apenas para fornecer ao Google dados sobre a performance do aplicativo. Sem ganho de recursos extras.

Algumas coisas interessantes que não são ditas:
  1. o google desktop precisa do pdftotext e do ps2ascii para exibir o conteúdo dos arquivos PDF/PS (se você não os tem, instale-os ou ficará sem buscas no conteúdo desses arquivos).
  2. ele "só" pesquisa as 6 mil primeiras palavras contidas dentro de um arquivo, mais ou menos 8 páginas de texto puro.
  3. ele não pesquisa (ainda) dentro de arquivos compactados ou iso.
Se por um lado eu fico feliz com o software que eu tenho agora disponível para fazer buscas no meu computador, por outro lado eu penso o que vai ser dos equivalentes livres que não sofrerem uma apreciável injeção de motivação. Claro que deveremos ver se serão confirmadas a aceitação no Google Desktop pelos usuários (se for como o Google Earth, pior para o equivalentes livres, se for como o Picasa, pior pro Google).

Eu acredito que o Google se sairá muito bem dessa, especialmente por causa da integração com o serviços do Google. Se forem seguidos os mesmos passos de seus equivalentes para Windows e Mac, então, tem tudo para ser um sucesso no Linux também

Conclusão
Mesmo tendo iniciado sua versão linux na sua forma mais simples, o Google Desktop se mostra extremamente eficiente ao que ele promete fazer. Pela boa performance em buscas no conteúdo dos arquivos, pela excelente integração inicial com o serviço de buscas do Google e pelo não essencial, mas não menos eficiente e interessante, integração com o Gmail. Certamente, o diferencial desse aplicativo será a integração com os serviços do Google, algo que os concorrentes livres não terão.

Notas
  1. Muitos usuários informam que o Beagle tem por hábito consumir mais recursos do que estamos dispostos a disponibilizar para um daemon, entretanto, um breve consulta na página de solução de problemas pode corrigir isso.
  2. Veja aqui ou aqui como instalar o Google Desktop, o primeiro é para baixar e instalar, o segundo ensina a configurar os novos repositórios do Google (opção recomendada).
  3. Os primeiros passos e a central de ajuda são ótimas fontes de informação em português para quem estiver perdido com o software.

4 comments:

  1. Para variar, excelente post! O meu comentário é só para avisar que o Google Desktop, apesar de não ter versão nativa para 64bits, roda no Debian Sid e Ubuntu Feisty amd64, se baixarmos o .deb e instalarmos com dpkg -i --force-architecture.


    []s

    ReplyDelete
  2. Penna,
    obrigado, primeiro pelo elogio e depois pela informação adicional.

    []'s

    ReplyDelete
  3. Valeu Mitre. Acho que esclareceu algumas dúvida quanto ao GD e mostrou algumas vantagens como integração.

    Vou apontar sua dica do meu post da notícia porque sua explicação está bem bacana.

    [off]Ah, sou um comentário, esse link que você tem para o meu blog é do blog antigo, se puder, peço para atualizar para o novo. O link é o desse comentário. Valeu (se quiser editar e tirar isso pode[/off]

    ReplyDelete
  4. Lucas, disponha ... fico feliz que tenha gostado do texto...

    Quanto ao link, está corrigido. Infelizmente eu não posso editar o comentário, só aceitar ou rejeitar. Mas não vejo nenhum problema deixar sua observação ali...
    Muita coisa ficou meio fora do lugar quando eu deixei de usar o Bloglines e passei a usar o Google Reader (é o Bloglines que monta o Blogroll).

    Se souber de algum outro equivoco (ou se outros que lerem isso souber de algo fora do lugar) é só informar...

    Abraços;

    ReplyDelete