Extrair texto de arquivo PDF usando PHP
- Erick Giorgio
- 20 Dec 2022
Foi criado no git um projeto com exemplo de manipulação de PDF com PHP.
Primeiro vamos instalar a(s) bibliotecas necessária para extração de texto em PDF.Adicionar o PDFParser no seu arquivo composer.json :

Ou no terminal executar o comando
$ composer require smalot/pdfparser
O comando vai fazer o download de todas as dependências e ira criar o
/vendor/autoload.php
Agora, crie um novo arquivo php como exemplo
/src/exemplos/extracttextpdf.php
No exemplo abaico pegamos pegamos um arquivo pdf de amostra que, irá analisar todo o arquivo pdf e extrair texto por completo ou por página.
<?php
// Include Composer autoloader if not already done.
include 'vendor/autoload.php';
// Parse pdf file and build necessary objects.
$parser = new \Smalot\PdfParser\Parser();
$pdf = $parser->parseFile('document.pdf');
$text = $pdf->getText();
echo $text;
<?php
// Include Composer autoloader if not already done.
include 'vendor/autoload.php';
// Parse pdf file and build necessary objects.
$parser = new \Smalot\PdfParser\Parser();
$pdf = $parser->parseFile('document.pdf');
// Retrieve all pages from the pdf file.
$pages = $pdf->getPages();
// Loop over each page to extract text.
foreach ($pages as $page) {
echo $page->getText();
A saída será o texto contido no PDF.