PDFBox é uma biblioteca que permite manipular arquivos PDF, seja para criação de novos documentos ou mesmo de documentos já existentes, permitindo a extração de seu conteúdo.
Essa ferramenta possui as seguintes características:
- PDF to text extraction
- Merge PDF Documents
- PDF Document Encryption/Decryption
- Lucene Search Engine Integration
- Fill in form data FDF and XFDF
- Create a PDF from a text file
- Create images from PDF pages
- Print a PDF
Este tutorial demonstra o uso do PDFBox, implementando exemplos de cada funcionalidade disponível pela biblioteca. Com o objetivo secundário, busca apresentar o Apache Maven aos desenvolvedores que estão iniciando com essa ferramenta.
Gostaria de agradecer a oportunidade de escrever meus artigos e tutoriais no java sem café. É uma honra poder compartilhas minhas experiencias e ideias neste espaço tão especial construído pela professora Andréia.
Java sem café, sem dúvida nenhuma se tornou um ponto de referencia para aqueles que buscam conteúdo de qualidade. Espero contribuir e continuar o excelente trabalho que Andréia vem realizando.
Obs. Gosto muito de café!
Ivan Salvadori
Sempre esbarrando nos seus tutoriais.
ResponderExcluirPena que este não ajudou muito.
Alguém saberia uma forma de capturar uma imagem que está dentro de um documento PDF?
O que eu consigo até agora é pegar o documento e gerar uma imagem de uma página.
Então é como se a API PDFBox gerasse um PrintScreen de uma página e a convertesse em imagem.
Não é ruim, mas não é o que eu estava procurando.
Enfim, consegui solucionar o problema usando iText e um código que já rolava pelo fórum do GUJ.
ExcluirAdaptei o final dele ao que eu queria e funcionou. Ao menos com uns 3 ou 4 testes em diferentes formas de criação de um PDF.
Como um criado pelo Word com um BMP, outro com o Word apartir de um PNG e um do Usuário que escaneia o documento.
Funcionou.
O post inicial pode ser visto aqui:
http://www.guj.com.br/java/272893-pdfbox---extrair-imagens-de-um-pdf
Até+.
Que bom então Samir! :)
Excluir