¿Qué es una expresión regular y para qué sirve?

Una expresión regular (regex) es una secuencia de caracteres que define un patrón de búsqueda. Se usa para validar formatos (emails, teléfonos, contraseñas), buscar y reemplazar texto en código, o extraer información de cadenas. Son compatibles con la mayoría de lenguajes de programación como JavaScript, Python, PHP, Java y muchos otros.

¿Cómo funciona un validador de expresiones regulares?

Un validador de regex permite escribir una expresión regular y probarla contra un texto de ejemplo en tiempo real. Resalta las coincidencias encontradas, muestra los grupos de captura y permite activar o desactivar flags como "g" (global), "i" (insensible a mayúsculas) o "m" (multilínea). Esto facilita depurar patrones complejos sin tener que ejecutar código.

¿Cuáles son los flags más habituales en expresiones regulares?

Los flags más comunes son: "g" (global, encuentra todas las coincidencias en lugar de solo la primera), "i" (ignora mayúsculas y minúsculas), "m" (multilínea, trata ^ y $ como inicio/fin de línea en lugar de todo el texto) y "s" (dotAll, hace que el punto . también coincida con saltos de línea). En JavaScript se añaden al final de la expresión: /patrón/gi.

¿Cuál es el patrón regex para validar un correo electrónico?

Un patrón básico y ampliamente usado para emails es /^[a-zA-Z0-9._%+\-]+@[a-zA-Z0-9.\-]+\.[a-zA-Z]{2,}$/. Verifica que haya caracteres antes del @, un dominio con punto y una extensión de al menos 2 letras. Para casos más complejos (etiquetas, dominios internacionales) se necesitan patrones más elaborados, aunque en producción suele ser más fiable enviar un email de verificación.

¿En qué se diferencia un validador de regex online de usar la consola del navegador?

Un validador dedicado ofrece resaltado visual de coincidencias, desglose de grupos de captura, biblioteca de patrones predefinidos y retroalimentación inmediata sin necesidad de escribir código. La consola del navegador requiere ejecutar manualmente líneas como str.match(/patrón/g) y no muestra las coincidencias de forma gráfica. Para aprender o depurar patrones complejos, una herramienta visual es significativamente más rápida.

meskeIA

Validador de Expresiones Regulares

Testa y valida regex con resaltado de coincidencias

Términos de UsoTérminos|Política de PrivacidadPrivacidad|Contacto

Expresión Regular

//g

Flags:

Texto de prueba

Resultados

Escribe un patrón y texto para ver las coincidencias

Biblioteca de Patrones Comunes

Referencia Rápida

Caracteres

. Cualquier carácter

\d Dígito (0-9)

\w Alfanumérico

\s Espacio en blanco

Cuantificadores

* 0 o más

+ 1 o más

? 0 o 1

{n} Exactamente n

Anclas

^ Inicio

$ Final

\b Límite de palabra

Grupos

(abc) Grupo de captura

[abc] Clase de caracteres

a|b Alternancia

¿Qué son las expresiones regulares?

Las expresiones regulares (regex o regexp) son secuencias de caracteres que definen un patrón de búsqueda. Desarrolladas en los años 50 por el matemático Stephen Kleene, hoy son omnipresentes en programación, validación de formularios, procesamiento de texto y herramientas de línea de comandos.

Validación de formularios: Email, teléfono, código postal, DNI.
Búsqueda y reemplazo avanzado: En editores de código, procesadores de texto, scripts.
Extracción de datos (scraping): Capturar fechas, precios o URLs de texto no estructurado.
Procesamiento de logs: Filtrar y analizar millones de líneas de log de servidores.

Sintaxis avanzada: más allá del cheatsheet

Grupos de captura nombrados: (?<nombre>patrón) — en lugar de referirse al grupo por número (\1), usa el nombre (\k<nombre>). Más legible y mantenible.
Grupos de no captura: (?:patrón) — agrupa sin crear un grupo de captura. Útil cuando necesitas alternancia pero no quieres el overhead de captura.
Lookahead positivo: (?=patrón) — asegura que el texto va seguido de algo, sin incluirlo en la coincidencia. Ej: \d+(?= €) captura el número antes del símbolo del euro.
Lookahead negativo: (?!patrón) — asegura que el texto NO va seguido de algo. Ej: foo(?!bar) captura "foo" solo cuando no va seguido de "bar".
Lookbehind positivo: (?<=patrón) — asegura que el texto va precedido de algo. Ej: (?<=€)\d+ captura el número después del euro.
Cuantificadores perezosos: *?, +?, ?? — por defecto los cuantificadores son «voraces» (greedy) y capturan lo máximo posible. El ? los hace «perezosos» y capturan lo mínimo posible.

Diferencias entre motores de regex

JavaScript: Motor ECMA. Soporta lookahead/lookbehind (ES2018+), grupos nombrados (ES2018+), flag s (dotAll, ES2018+), flag d (indices, ES2022+). No soporta: lookbehind de longitud variable en motores antiguos.
Python (re): Motor similar a PCRE. Soporta lookbehind de longitud variable limitada (re.fullmatch), re.VERBOSE para comentarios en el patrón. Sintaxis de grupos: (?P<nombre>).
PCRE (PHP, Nginx, grep -P): El más completo. Soporta lookbehind variable, recursión ((?R)), condicionales, posesivos (a++), atómicos.
POSIX (grep básico, sed): El más limitado. No soporta \d, \w. Usa [0-9], [a-zA-Z0-9_]. No tiene grupos de no captura ni lookaheads.

Nota: Esta herramienta usa el motor de JavaScript (navegador).

Errores comunes y cómo evitarlos

Catastrophic backtracking: Patrones como (a+)+ con texto largo pueden bloquear el navegador. Ocurre cuando el motor explora exponencialmente todas las combinaciones posibles. Evita anidar cuantificadores sobre clases ambiguas.
Olvidar escapar metacaracteres: Los caracteres . * + ? ^ $ [ ] | ( ) \ tienen significado especial. Para buscarlos literalmente, escápalos con \.
Anclas incorrectas: Sin ^ y $, el patrón puede coincidir en cualquier parte del texto. Para validación, siempre ancla: ^\d5$ valida exactamente 5 dígitos.
Flag global con exec() en bucle: En JavaScript, regex.exec() con flag g mantiene estado. Si reseteas el texto sin resetear el regex, el índice queda desalineado. Usa regex.lastIndex = 0 o crea una nueva instancia.
Asumir que regex valida semántica: Un regex puede validar que un email tiene el formato correcto, pero no que el dominio existe o que el buzón acepta correo. La validación completa requiere envío de email de confirmación.

Patrones avanzados de uso frecuente

Contraseña segura: ^(?=.*[a-z])(?=.*[A-Z])(?=.*\d)(?=.*[@$!%*?&])[A-Za-z\d@$!%*?&]{8,}$ — al menos 8 caracteres con minúscula, mayúscula, número y símbolo.
Slug de URL: ^[a-z0-9]+(?:-[a-z0-9]+)*$ — solo minúsculas, números y guiones intermedios.
Dirección MAC: ^([0-9A-Fa-f]{2}[:-]){5}[0-9A-Fa-f]{2}$
Número decimal con coma: ^\d+([.,]\d{1,2})?$ — admite tanto punto como coma decimal.
Hashtag: #[a-zA-ZÀ-ÿ\w]+ — incluye caracteres acentuados.

Tabla Comparativa: Metacaracteres Esenciales

Categoría	Metacarácter	Significado	Ejemplo de patrón	Caso de uso típico
Anchors	`^`	Inicio de cadena / línea	`^\d+`	Validar que la cadena empieza con dígitos
	`$`	Final de cadena / línea	`\d+$`	Validar que la cadena termina con dígitos
	`\b`	Límite de palabra	`\bcat\b`	Buscar palabra exacta sin substring parcial
Cuantificadores	`*`	0 o más repeticiones (greedy)	`ab*c`	Campos opcionales de longitud variable
	`+`	1 o más repeticiones (greedy)	`\w+`	Palabras que deben tener al menos un carácter
	`?`	0 o 1 repetición (opcional)	`colou?r`	Aceptar variantes ortográficas (color / colour)
	`{n}`	Exactamente n repeticiones	`\d{5}`	Código postal español de 5 dígitos exactos
	`{n,m}`	Entre n y m repeticiones	`[a-z]{2,4}`	Extensiones de dominio (es, com, info)
Clases	`\d`	Dígito (equivale a [0-9])	`\d{2}/\d{2}/\d{4}`	Validar fecha en formato DD/MM/YYYY
	`\w`	Alfanumérico + guión bajo	`\w+@\w+\.\w+`	Estructura básica de email
	`\s`	Espacio en blanco (espacio, tab, salto)	`\s+`	Normalizar espacios múltiples en texto
	`[abc]`	Clase de caracteres personalizada	`[aeiou]`	Encontrar todas las vocales en un texto
Grupos	`(...)`	Grupo de captura	`(\d{4}-\d{2}-\d{2})`	Extraer fechas para procesarlas por partes
	`(?:...)`	Grupo de no captura	`(?:https?://)\w+`	Agrupar sin crear referencia de captura
	`(?=...)`	Lookahead positivo	`\d+(?= €)`	Capturar precio sin incluir el símbolo
Alternación	`a\|b`	Coincide con a o con b	`cat\|dog`	Validar múltiples valores permitidos

Casos de Uso por Perfil Profesional

Desarrollador Web

Validación de formularios de usuario en el frontend y backend.

/^[\w.-]+@[\w.-]+\.[a-zA-Z]{2,}$/Email

/^(\+34)?[6789]\d{8}$/Teléfono España

/^[0-9XYZ]\d{7}[A-Z]$/DNI/NIE

/^\d{5}$/Código Postal

Tip: Combina regex con validación semántica (verificar dominio del email) para mayor fiabilidad.

Data Scientist

Extracción de datos estructurados desde texto no estructurado (logs, documentos, scraping).

/\d{1,3}\.\d{1,3}\.\d{1,3}\.\d{1,3}/gIPs en logs

/\d{4}-\d{2}-\d{2}T\d{2}:\d{2}/gTimestamps ISO

/\d+[.,]\d{2}\s*€/gPrecios en euros

Tip: Usa grupos de captura nombrados (?<nombre>...) para acceder a los datos extraídos por clave en lugar de por índice.

SysAdmin

Filtrado y análisis de logs del sistema con herramientas de línea de comandos.

grep -E 'ERROR|WARN' app.logFiltrar por nivel

grep -P '\[5\d{2}\]' access.logErrores 5xx HTTP

sed -E 's/(\d+\.\d+\.\d+\.\d+)/[IP]/g'Anonimizar IPs

Tip: En POSIX (grep básico, sed sin -E) usa [0-9] en lugar de \d y [a-zA-Z0-9_] en lugar de \w.

QA Tester

Verificación automatizada de formatos en salidas de la aplicación y APIs.

/^[0-9a-f]{8}-([0-9a-f]{4}-){3}[0-9a-f]{12}$/iUUID v4

/^\d{4}-\d{2}-\d{2}$/Fecha ISO 8601

/^https?:\/\/.+\..+/URLs en respuestas

Tip: Escribe siempre casos negativos: cadenas vacías, longitudes límite y caracteres especiales como ñ, tildes o emojis.

Preguntas Frecuentes sobre Expresiones Regulares

¿Qué diferencia hay entre regex greedy y lazy?

Los cuantificadores greedy (voraces) como *, + y ? capturan la mayor cantidad de texto posible. Los lazy (perezosos) como *?, +? capturan la mínima cantidad. Ejemplo: ante <b>texto</b>, el patrón <.*> (greedy) captura todo, mientras que <.*?> (lazy) captura solo <b>.

¿Cómo hacer una regex para validar email?

Un patrón práctico es /^[\w.-]+@[\w.-]+\.[a-zA-Z]{2,}$/. No existe una regex perfecta para email (la especificación RFC 5322 es muy compleja). Para producción, lo más fiable es validar el formato básico con regex y luego enviar un email de confirmación para verificar que el buzón existe.

El estándar permite caracteres como +, comillas y paréntesis en el usuario del email, que muchas regex descartan. Decide el nivel de permisividad según tu caso de uso.

¿Qué son los grupos de captura?

Los paréntesis (...) crean un grupo de captura: la parte del texto que coincide queda almacenada para usarla después. En JavaScript, match[1] devuelve el primer grupo. Con grupos nombrados (?<año>\d{4}), accedes por match.groups.año. Los grupos de no captura (?:...) agrupan sin almacenar.

¿Diferencia entre \d y [0-9]?

En la mayoría de motores modernos (JavaScript, Python, PCRE) son equivalentes para el ASCII básico. Sin embargo, \d en algunos motores puede incluir dígitos Unicode (como dígitos árabes ٠١٢ o dígitos de escrituras asiáticas). Si necesitas estrictamente dígitos ASCII, usa [0-9]. En POSIX (grep sin -P) \d no está disponible, debes usar [0-9].

¿Cómo hacer que la regex sea case-insensitive?

Añade el flag i al patrón. En JavaScript: /patrón/i o new RegExp('patrón', 'i'). En Python: re.compile('patrón', re.IGNORECASE). En grep: grep -i. En esta herramienta, activa el botón i (insensible) en la sección de flags.

¿Qué es el lookahead y lookbehind?

Son aserciones de posición que comprueban qué hay delante o detrás sin incluirlo en la coincidencia. Lookahead positivo (?=...): el texto debe ir seguido de algo. Lookahead negativo (?!...): el texto NO debe ir seguido de algo. Lookbehind positivo (?<=...): el texto debe ir precedido de algo. Lookbehind negativo (?<!...): el texto NO debe ir precedido de algo.

¿Por qué mi regex funciona en JavaScript pero no en Python?

Cada motor tiene pequeñas diferencias. Las más comunes: (1) Python usa (?P<nombre>) para grupos nombrados, JavaScript usa (?<nombre>). (2) Python no soporta lookbehind de longitud variable en algunos casos. (3) En Python, re.match() ancla al inicio pero no al final (usar re.fullmatch() para anclar ambos). (4) En Python los strings raw r'\d+' evitan problemas con el escape de barras invertidas.

¿Cómo optimizar una regex lenta (ReDoS)?

El ReDoS (Regular Expression Denial of Service) ocurre con patrones que generan backtracking exponencial, como (a+)+ ante cadenas largas. Estrategias de mitigación: (1) Evita anidar cuantificadores sobre clases ambiguas. (2) Usa cuantificadores posesivos (a++) o grupos atómicos ((?>a+)) si el motor los soporta. (3) Añade anchors para reducir el espacio de búsqueda. (4) Usa herramientas como safe-regex o rxxr2 para detectar patrones vulnerables.

Cómo Construir una Regex de Cero: 7 Pasos

Define el patrón en lenguaje natural

Antes de escribir ningún símbolo, describe con palabras qué quieres encontrar. Ejemplo: “un número de teléfono español que puede empezar con +34, seguido de 9 dígitos que empiecen por 6, 7, 8 o 9”. Esta descripción es tu especificación de requisitos.

Identifica los caracteres literales

Distingue qué partes son texto fijo (literal) y qué partes varían. En el ejemplo del teléfono, +34 es literal, pero los 9 dígitos varían. Los caracteres con significado especial en regex (. * + ? ^ $ [ ] | ( ) \) deben escaparse con \ cuando los usas como literales.

Añade metacaracteres para las partes variables

Reemplaza las descripciones de las partes variables por metacaracteres: \d para dígitos, \w para alfanuméricos, [6789] para una clase de caracteres concreta. Construye el esqueleto del patrón: (\+34)?[6789]\d\d\d\d\d\d\d\d.

Simplifica con cuantificadores

Sustituye repeticiones por cuantificadores. \d\d\d\d\d\d\d\d se convierte en \d{8}. El patrón queda: (\+34)?[6789]\d{8}. Elige entre greedy (*, +), lazy (*?) o exacto ({n}) según el caso.

Prueba con casos positivos y negativos

Valida el patrón contra ejemplos válidos (+34612345678, 912345678) e inválidos (123456789, +34512345678, cadena vacía). Si algún caso no funciona como esperas, ajusta el patrón. Usa esta herramienta para probar en tiempo real.

Añade anchors para validación estricta

Si el patrón debe validar toda la cadena (no buscar dentro de ella), añade ^ al inicio y $ al final: ^(\+34)?[6789]\d{8}$. Sin anchors, el patrón encontraría el teléfono aunque la cadena contuviese texto adicional alrededor.

Documenta el patrón

Guarda el patrón junto a una descripción, los casos de prueba y la fuente normativa (si valida un formato oficial). En Python puedes usar re.VERBOSE para añadir comentarios dentro del propio patrón. En JavaScript, considera definirlo como constante con nombre descriptivo: const TELEFONO_ESPANOL = /^(\+34)?[6789]\d{8}$/.

Mejores Prácticas al Escribir Regex

Prueba siempre los casos límite

Cadena vacía, un solo carácter, el valor mínimo y máximo permitido, caracteres especiales (@, -, _), unicode (tildes, ñ, emojis) y saltos de línea. El 80% de los bugs de regex aparecen en los extremos, no en los casos típicos.

Usa grupos no capturantes cuando sea posible

Cuando solo necesitas agrupar para aplicar un cuantificador o alternación, usa (?:...) en lugar de (...). Los grupos de captura tienen un coste de memoria y hacen el código más difícil de mantener si hay muchos grupos numerados.

Comenta las regex complejas

En Python usa el modo verbose (re.VERBOSE) para añadir comentarios y espacios dentro del patrón. En otros lenguajes, define la regex como constante con nombre descriptivo y añade un comentario explicando su propósito, formato esperado y ejemplos válidos.

Prefiere regex específicas sobre genéricas

Un patrón demasiado amplio como .* acepta casi cualquier cosa y da falsos positivos. Define exactamente qué caracteres son válidos, sus rangos de longitud y su estructura. Cuanto más específico sea el patrón, menos mantenimiento necesitará en el futuro.

Valida también el lado servidor

Nunca confíes únicamente en la validación regex del frontend. Un atacante puede saltársela manipulando la petición HTTP. La regex del cliente mejora la experiencia de usuario; la del servidor protege la integridad de los datos.

Evita compilar la misma regex en cada iteración

Si aplicas el mismo patrón en un bucle de miles de registros, compila la regex una sola vez fuera del bucle. En Python: patrón = re.compile(r'\d+'). En JavaScript, define el literal de regex fuera de la función. Esto puede mejorar el rendimiento en factores de 10x o más.

Errores frecuentes que causan bugs silenciosos

Olvidar escapar el punto: . en regex significa “cualquier carácter”, no un punto literal. Para buscar un punto real escribe \.. El patrón 3.14 coincide con 3X14, 3014, etc. Siempre escapa los metacaracteres cuando los uses como literales.
ReDoS con patrones anidados: Patrones como (a+)+, (\w+\s?)+ o ([a-zA-Z]+)* ante entradas largas que no coinciden pueden causar backtracking exponencial y bloquear el hilo de ejecución durante segundos o minutos. Nunca uses estos patrones en código expuesto a datos de usuarios no confiables.
Asumir que \d incluye solo dígitos ASCII: En motores con soporte Unicode completo, \d puede incluir dígitos de otros sistemas de escritura (٣, ৩, ３...). Si necesitas estrictamente 0-9, usa [0-9]. En JavaScript con flag u, el comportamiento es más predecible.
Olvidar los anchors ^ y $: Sin ^ y $, el patrón \d{5} coincide con cualquier cadena que contenga 5 dígitos consecutivos, incluyendo abc12345xyz. Para validación de formato completo, siempre añade anchors: ^\d{5}$.
Usar regex para parsear HTML o XML: Las regex no pueden parsear HTML/XML correctamente porque son lenguajes no regulares con anidamiento arbitrario. Usa un parser DOM (DOMParser en JavaScript, BeautifulSoup en Python, SimpleXML en PHP) para trabajar con documentos HTML/XML.
Confundir re.match() con re.fullmatch() en Python: re.match() ancla al inicio pero no al final, por lo que re.match(r'\d{5}', '12345abc') devuelve coincidencia. Para validar la cadena completa usa re.fullmatch() o añade $ al patrón.

🔗Apps relacionadas

📦Validador JSONValida y formatea 🔄Base64Codifica/decodifica 🔗Generador UTMParámetros de campaña