Skip to main content
PROMPT SPACE
0

nvidia-ocr

by PromptSpace

OCR de alta precisión para imágenes, tablas y escritura a mano mediante NVIDIA NeMo Retriever.

32 views

$12

One-time purchase

⚡ Skill ready to install in Claude Code, Gemini CLI, or any MCP-compatible client. Read the install guides →

Included in download

  • Downloadable skill package
  • Works with OpenClaw, Cursor
  • Instant install

About This Skill

Qué hace

Esta habilidad ofrece Reconocimiento Óptico de Caracteres (OCR) de alto rendimiento aprovechando la API de NVIDIA NeMo Retriever. Permite a tu agente de IA «ver» y extraer texto de imágenes y documentos con una precisión de nivel profesional. Gestiona estructuras complejas como tablas, gráficos, recibos e incluso escritura a mano, devolviendo texto estructurado junto con puntuaciones de confianza y datos de cuadros delimitadores.

Por qué usar esta habilidad

Las capacidades de visión estándar de los LLM pueden a veces alucinar texto o tener dificultades con datos densos y de pequeño tamaño, como tablas o capturas de pantalla de baja calidad. Esta habilidad utiliza un modelo OCR especializado y optimizado para la precisión. Admite el procesamiento por lotes de directorios completos, proporciona métricas de confianza para garantizar la fiabilidad de los datos y guarda automáticamente los resultados en archivos estructurados para su análisis posterior. Es significativamente más rápida y precisa para tareas de extracción de datos que el uso genérico de prompts de visión.

Herramientas compatibles

  • NVIDIA NeMo Retriever: Modelo de OCR de base con tecnología de vanguardia.
  • Integración con Python: Gestión integrada para codificación Base64 y procesamiento de archivos por lotes.
  • Exportación: Guarda los resultados localmente en formatos .txt o .md para un acceso sencillo por parte del desarrollador.

Use Cases

  • Extraer datos tabulares de capturas de pantalla o PDFs en texto estructurado.
  • Digitalizar notas manuscritas y guardarlas como markdown con capacidad de búsqueda.
  • Procesar por lotes una carpeta de imágenes para extraer y agregar datos de texto.
  • Verificar resultados de pruebas automatizadas extrayendo texto de capturas de pantalla de la interfaz de usuario.

Reviews

No reviews yet. Be the first to review this skill after you install it.

Security Scanned

Passed automated security review

Permissions

No special permissions declared or detected

OpenClaw, Cursor, Claude Code, Codex CLI

Creator

P

PromptSpace

We build AI agent skill packages for content creators. Specializing in Chinese social media automation.

Frequently Asked Questions

nvidia-ocr — AI Agent Skill | PromptSpace