Como Unir Bases De Datos En R

Written by Teresa Romero
Updated at: 18 December 2025

Unir bases de datos en R, también conocido como "merge" o "join", es el proceso de combinar dos o más conjuntos de datos en un solo conjunto de datos basado en una o más columnas comunes. Esto es esencial para el análisis de datos cuando la información que necesitas está distribuida en múltiples archivos o tablas. Imagina que tienes una tabla con información de clientes y otra con sus historial de compras. Unirlas te permite analizar el comportamiento de compra por tipo de cliente.

¿Cuándo necesito unir bases de datos?

Las aplicaciones son vastas. Necesitarás unir bases de datos cuando:

Tienes información relacionada separada en distintos archivos (ej: datos demográficos y resultados de encuestas).
Quieres enriquecer una base de datos con información adicional de otra (ej: agregar datos geográficos a una lista de direcciones).
Necesitas combinar datos provenientes de diferentes fuentes (ej: información de ventas de diferentes sucursales).

Pasos para unir bases de datos en R usando la función `merge()`:

Aquí te mostramos un ejemplo sencillo con la función merge(), la más común para estas tareas:

Must Read

Carga tus bases de datos: Primero, carga los data frames que quieres unir. Por ejemplo:


        df1 <- read.csv("archivo1.csv")
        df2 <- read.csv("archivo2.csv")

Identifica la columna común: Encuentra la columna o columnas que ambas bases de datos comparten y que usarás para la unión. Digamos que es la columna "ID".
Usa la función merge(): La sintaxis básica es:
```
        df_unido <- merge(df1, df2, by = "ID")
        
```
Aquí, by = "ID" indica que la unión se basa en la columna "ID".
Tipos de Uniones: La función merge() permite diferentes tipos de uniones. Por defecto realiza una unión interna (inner join), que solo incluye filas con valores coincidentes en la columna "ID" en ambas bases de datos. Puedes usar los argumentos all.x = TRUE (unión izquierda/left join), all.y = TRUE (unión derecha/right join), o all = TRUE (unión completa/full outer join) para incluir todas las filas de una o ambas bases de datos, completando con NA los valores faltantes. Por ejemplo: df_unido <- merge(df1, df2, by = "ID", all.x = TRUE).

¡Importante! Asegúrate de que la columna común tenga el mismo formato (ej: numérico o texto) en ambas bases de datos para evitar errores. Verifica los resultados después de la unión para confirmar que la información se ha combinado correctamente. La función str(df_unido) te será útil para ver la estructura del nuevo data frame.