Extrair texto de arquivo PDF usando PHP

Image Extrair texto de arquivo PDF usando PHP

Foi criado no git um projeto com exemplo de manipulação de PDF com PHP.

Primeiro vamos instalar a(s) bibliotecas necessária para extração de texto em PDF.Adicionar o PDFParser no seu arquivo composer.json :


image-alt33

Ou no terminal executar o comando


$ composer require smalot/pdfparser


O comando vai fazer o download de todas as dependências e ira criar o

/vendor/autoload.php

Agora, crie um novo arquivo php como exemplo


/src/exemplos/extracttextpdf.php


No exemplo abaico pegamos pegamos um arquivo pdf de amostra que, irá analisar todo o arquivo pdf e extrair texto por completo ou por página.


<?php 
// Include Composer autoloader if not already done.
include 'vendor/autoload.php';
 
// Parse pdf file and build necessary objects.
$parser = new \Smalot\PdfParser\Parser();
$pdf    = $parser->parseFile('document.pdf');
 
$text = $pdf->getText();
echo $text;


<?php 
// Include Composer autoloader if not already done.
include 'vendor/autoload.php';
 
// Parse pdf file and build necessary objects.
$parser = new \Smalot\PdfParser\Parser();
$pdf    = $parser->parseFile('document.pdf');
 
// Retrieve all pages from the pdf file.
$pages  = $pdf->getPages();

// Loop over each page to extract text.
foreach ($pages as $page) {
   echo $page->getText();


A saída será o texto contido no PDF.