12 de março de 2012

Tutorial PDFBox



PDFBox é uma biblioteca que permite manipular arquivos PDF, seja para criação de novos documentos ou mesmo de documentos já existentes, permitindo a extração de seu conteúdo.
Essa ferramenta possui as seguintes características:

  • PDF to text extraction
  • Merge PDF Documents
  • PDF Document Encryption/Decryption
  • Lucene Search Engine Integration
  • Fill in form data FDF and XFDF
  • Create a PDF from a text file
  • Create images from PDF pages
  • Print a PDF

Este tutorial demonstra o uso do PDFBox, implementando exemplos de cada funcionalidade disponível pela biblioteca. Com o objetivo secundário, busca apresentar o Apache Maven aos desenvolvedores que estão iniciando com essa ferramenta.

Videos em breve.

Gostaria de agradecer a oportunidade de escrever meus artigos e tutoriais no java sem café. É uma honra poder compartilhas minhas experiencias e ideias neste espaço tão especial construído pela professora Andréia.
Java sem café, sem dúvida nenhuma se tornou um ponto de referencia para aqueles que buscam conteúdo de qualidade. Espero contribuir e continuar o excelente trabalho que Andréia vem realizando.

Obs. Gosto muito de café!
Ivan Salvadori


3 comentários:

  1. Sempre esbarrando nos seus tutoriais.

    Pena que este não ajudou muito.

    Alguém saberia uma forma de capturar uma imagem que está dentro de um documento PDF?

    O que eu consigo até agora é pegar o documento e gerar uma imagem de uma página.

    Então é como se a API PDFBox gerasse um PrintScreen de uma página e a convertesse em imagem.

    Não é ruim, mas não é o que eu estava procurando.

    ResponderExcluir
    Respostas
    1. Enfim, consegui solucionar o problema usando iText e um código que já rolava pelo fórum do GUJ.

      Adaptei o final dele ao que eu queria e funcionou. Ao menos com uns 3 ou 4 testes em diferentes formas de criação de um PDF.

      Como um criado pelo Word com um BMP, outro com o Word apartir de um PNG e um do Usuário que escaneia o documento.

      Funcionou.

      O post inicial pode ser visto aqui:

      http://www.guj.com.br/java/272893-pdfbox---extrair-imagens-de-um-pdf

      Até+.

      Excluir

Deixe seu comentário... ;)