Site Info Site Info

Extraer Texto De Una Imagen Python

Extraer Texto De Una Imagen Python

Para extraer texto de una imagen usando Python, necesitas seguir varios pasos. Estos pasos involucran la instalación de bibliotecas necesarias y la escritura del código.

Paso 1: Instalar las bibliotecas necesarias

Primero, necesitas instalar las bibliotecas Tesseract OCR y Pytesseract. Tesseract OCR es el motor de reconocimiento óptico de caracteres (OCR). Pytesseract es un envoltorio de Python para Tesseract.

Puedes instalar Tesseract OCR dependiendo de tu sistema operativo. En Windows, descarga el instalador desde una fuente confiable e instálalo. Asegúrate de añadir la ruta de instalación a las variables de entorno del sistema.

Para Linux (Debian/Ubuntu), puedes usar el siguiente comando en la terminal:

sudo apt update
sudo apt install tesseract-ocr

Una vez instalado Tesseract OCR, instala Pytesseract usando pip:

pip install pytesseract
pip install pillow

Necesitarás la biblioteca Pillow para trabajar con imágenes.

Cómo agregar texto a una imagen | Python- openCV (putText) - YouTube
Cómo agregar texto a una imagen | Python- openCV (putText) - YouTube

Paso 2: Importar las bibliotecas

En tu script de Python, importa las bibliotecas Pytesseract y PIL (Pillow):

from PIL import Image
import pytesseract

Esto permite usar las funciones de ambas bibliotecas.

Paso 3: Configurar la ruta de Tesseract

Pytesseract necesita saber dónde está instalado Tesseract OCR. Configura la ruta a Tesseract en tu código.

PYTESSERACT OCR + PYTHON: RECONOCIMIENTO DE TEXTO! Cómo extraer texto
PYTESSERACT OCR + PYTHON: RECONOCIMIENTO DE TEXTO! Cómo extraer texto

Por ejemplo, si instalaste Tesseract en `C:\Program Files\Tesseract-OCR`, el código sería:

pytesseract.pytesseract.tesseract_cmd = r'C:\Program Files\Tesseract-OCR\tesseract.exe'

Asegúrate de reemplazar la ruta con la ubicación correcta en tu sistema.

Paso 4: Abrir la imagen

Abre la imagen que contiene el texto usando Pillow:

img = Image.open('nombre_de_la_imagen.png')

Reemplaza `nombre_de_la_imagen.png` con el nombre de tu archivo de imagen.

COMO EXTRAER TEXTO DE UNA IMAGEN / COPIAR Y PEGAR - YouTube
COMO EXTRAER TEXTO DE UNA IMAGEN / COPIAR Y PEGAR - YouTube

Paso 5: Extraer el texto de la imagen

Usa la función `image_to_string()` de Pytesseract para extraer el texto:

texto = pytesseract.image_to_string(img)

Esto convierte la imagen en texto.

Paso 6: Imprimir el texto extraído

Imprime el texto extraído:

Cómo extraer el texto de una imagen utilizando Python, Tesseract y
Cómo extraer el texto de una imagen utilizando Python, Tesseract y
print(texto)

Esto mostrará el texto reconocido en la consola.

Código Completo de Ejemplo

Aquí está el código completo:

from PIL import Image
import pytesseract

# Configurar la ruta de Tesseract (ajusta la ruta según tu instalación)
pytesseract.pytesseract.tesseract_cmd = r'C:\Program Files\Tesseract-OCR\tesseract.exe'

# Abrir la imagen
img = Image.open('nombre_de_la_imagen.png')

# Extraer el texto
texto = pytesseract.image_to_string(img, lang='spa') # 'spa' para español

# Imprimir el texto
print(texto)

Recuerda reemplazar `'nombre_de_la_imagen.png'` con el nombre real de tu archivo de imagen. Además, se agregó el parámetro `lang='spa'` para indicar que el texto en la imagen está en español, lo que puede mejorar la precisión del reconocimiento.

Considera que la calidad de la imagen afecta la precisión del OCR. Imágenes claras y bien definidas darán mejores resultados.

Gallery

Extraer texto de una imagen con Python - YouTube
🖼️ ¿Cómo extraer texto de imágenes? | Python-tesseract | PDF2IMAGE
Extraer imágenes de PDF en Python | Extracción de imagen PDF
Agregar Texto a Imagenes con Python Automatizadamente » Ronaldao.com
Extraer texto y datos de un archivo PDF con Python - Facialix
Extraer texto y datos de un archivo PDF con Python - YouTube