Volver al blog
Novedades

Por qué creamos InvoiceData: automatizar la contabilidad española con IA

Si alguna vez has tenido que procesar facturas en España —ya sea como autónomo, como gestor o como desarrollador que integra contabilidad en una aplicación— sabes que el problema va mucho más allá de «leer un PDF».

Las facturas españolas tienen su propia lógica: tipos de IVA (4 %, 10 %, 21 %), IRPF en facturas de profesionales, números de NIF y CIF con su propio algoritmo de validación, y facturas simplificadas frente a completas. Las herramientas genéricas que existen en el mercado están pensadas para el procesamiento de facturas anglosajón: extraen importe total, proveedor y fecha. Para el caso español, eso no es suficiente.

El problema que vimos

Empezamos a construir InvoiceData porque nosotros mismos necesitábamos una solución. Estábamos ayudando a una empresa a digitalizar su proceso de cierre contable mensual: cientos de facturas de proveedores en PDF, algunas bien formateadas, muchas escaneos torcidos o con calidad deficiente. El flujo manual era insostenible.

Probamos las alternativas disponibles. La mayoría eran costosas, estaban pensadas para el mercado norteamericano o europeo genérico, y ninguna entendía el desglose de IVA español ni validaba el NIF del emisor. Había que hacer trabajo manual igualmente.

Decidimos construirlo desde cero, con la fiscalidad española como prioridad, no como añadido.

Qué extrae InvoiceData

El objetivo es que, dado cualquier PDF o imagen de factura española, el sistema devuelva un JSON estructurado con todos los campos relevantes sin configuración previa:

  • Datos del emisor: nombre, NIF/CIF, dirección, régimen fiscal
  • Datos del receptor: nombre, NIF/CIF, dirección
  • Número de factura y fecha de emisión
  • Base imponible, tipo de IVA y cuota de IVA (para cada tipo si hay varios)
  • Retención de IRPF cuando aplica
  • Total de la factura
  • Líneas de detalle: descripción, cantidad, precio unitario e importe
  • Tipo de factura: ordinaria, simplificada, rectificativa

Además, cada campo incluye un nivel de confianza. Si el sistema no está seguro de un valor, lo indica, para que el proceso de revisión humana sea eficiente. Lo explicamos en detalle en cómo extraer datos de facturas PDF automáticamente.

Validación de NIF y CIF

Uno de los problemas más frecuentes en facturas recibidas son errores en el número de identificación fiscal. Un NIF o CIF mal escrito invalida la factura a efectos fiscales.

InvoiceData valida el formato y el dígito de control de NIF, CIF y NIE según el algoritmo de la AEAT. Si el número extraído no supera la validación, se marca como error y se indica el campo afectado. Esto ahorra tiempo de revisión y evita sorpresas en inspecciones. Repasamos los fallos más habituales en los errores que impiden deducir el IVA.

Cómo funciona la tecnología

Para facturas digitales en PDF nativo, el texto se extrae directamente y se procesa con un modelo de extracción de datos fiscales. Para documentos escaneados o fotos, primero aplicamos OCR y luego el mismo proceso.

El motor está orientado específicamente a las particularidades de la facturación española —IVA desglosado por tipos, retención de IRPF, validación de NIF/CIF y facturas simplificadas— en lugar de ser un modelo genérico internacional.

API y exportaciones

El acceso principal es vía API REST: subes un fichero, recibes el JSON. También puedes usar la interfaz web para subidas manuales y exportar a CSV o Excel para integrarlo directamente en tu flujo contable. Puedes ver todo lo que incluye en la página de funcionalidades.

Los formatos de exportación (CSV, Excel y JSON) están pensados para importarse en los programas de contabilidad habituales del mercado español.

Dónde estamos ahora

InvoiceData está en fase de lanzamiento. Si tienes un caso de uso concreto —ya seas autónomo, gestor, empresa o desarrollador que quiere integrar extracción de facturas en su aplicación— nos interesa hablar contigo.

Solicita una demo y pruébalo con tus propias facturas. Sin tarjeta, sin compromiso.