Rosana Ferrero, PhD’s Post

View profile for Rosana Ferrero, PhD

📊 PhD Bioestadística | Ciencia de Datos | RStats | Educación & Divulgación | ML & IA 🎯 Ayudo a investigadores y profesionales a tomar mejores decisiones con datos

💡 ¡Atención! 🚀 No todos los valores atípicos/influyentes son problemáticos. A veces, son clave para entender la variabilidad en nuestros datos. 🤔 Si los eliminamos sin pensarlo, ¡podríamos sesgar nuestro modelo! 😱 🔍 Antes de eliminar cualquier punto: ¡Evalúa! Pregúntate: 1️⃣ ¿Son errores de medición? Si son observaciones genuinas de la muestra, ¿Son atípicas o influyentes? 2️⃣ ¿Por qué? ¿Cómo impactan en el modelo? Puedes compara el modelo con y sin esos valores para evaluar cómo cambian los coeficientes o las predicciones 🧐 📊 Para ello, R tiene una herramienta poderosa: influence.measures(). Esta función te ayuda a analizar: ✅ dffit: Cambios en los valores predichos. ✅ dfb: Cambios en los coeficientes. ✅ cov.r: Impacto en la matriz de covarianza (esto puede llevar a resultados menos precisos y a conclusiones incorrectas). ✅ cook.d: Distancias de Cook, ¡la medida del impacto total! ✅ hat: Valores de apalancamiento, que indican cuán lejos están tus observaciones de los promedios. ✨ Si alguna medida está marcada con un asterisco, ¡atención! 🚨 🔎 Por ejemplo, en un análisis de regresión lineal donde la variable dependiente son ventas y la independiente es la inversión en publicidad youtube del conjunto de datos "marketing" (paquete Datarium), encontramos dos observaciones influyentes. 🚀 👉 Las observaciones 36 y 179 obtuvieron valores destacados en dffit y cook.d. Para la observación 36: dfb.1_: 0.17 (el intercepto sube 0.17 unidades de error estándar al incluirla). dfb.yotb: -0.30 (el coeficiente de youtube baja 0.30 unidades de error estándar al incluirla). Algo similar ocurre con la observación 179. 🔄 Resumen del impacto: Ambas observaciones influyen principalmente en la pendiente del modelo, pero para evaluar si este cambio es relevante debe analizarse el contexto y objetivo del estudio. 🔥🤯 🤔 ¿Eliminas o retienes? ¡Es tu decisión! 💪 🧠 Si omites o retienes dichas observaciones es una cuestión de juicio, una opción es informar de los resultados de ambos modelos. 💬 ¡Cuéntame! ¿Cómo manejas los valores influyentes en tus análisis? 👇 📚 Referencias Belsley, D. A., Kuh, E. and Welsch, R. E. (1980). Regression Diagnostics. New York: Wiley. Cook, R. D. and Weisberg, S. (1982). Residuals and Influence in Regression. London: Chapman and Hall. Williams, D. A. (1987). Generalized linear model diagnostics using the deviance and single case deletions. Applied Statistics, 36, 181–191. doi:10.2307/2347550. Fox, J. (1997). Applied Regression, Linear Models, and Related Methods. Sage. Fox, J. (2002) An R and S-Plus Companion to Applied Regression. Sage Publ. Fox, J. and Weisberg, S. (2011). An R Companion to Applied Regression, second edition. Sage Publ;https://buff.ly/4fbCYA4. #stats #rstats #dataviz #datascience #analytics #regression

  • No alternative text description for this image
Edgar Fernando Rodriguez Villalobos

CRO| Financial Risk Management |Market and Liquidity Risk - |Artificial Intelligence & Data Mining for financial institutions | Team Management | RTILB | ALM | SIAR | SARM | SARL | SARC |

5mo

Gracias por compartir

Like
Reply
Daniel Zaldaña

💡Artificial Intelligence | Algorithms | Thought Leadership

5mo

¡Excelente publicación, Rosana🏅! Es fundamental no eliminar valores atípicos sin una evaluación cuidadosa, ya que pueden contener información valiosa. 👏 En Python, tenemos herramientas similares para analizar la influencia de las observaciones. Por ejemplo, podemos utilizar la biblioteca statsmodels con métodos como: dfbetas: Para evaluar el cambio en los coeficientes. cooks_distance: Medir la influencia total de cada observación. hat_matrix_diag: Calcular los valores de apalancamiento.

Luiz Carlos

Gestor Sênior | Líder em Administração, Vendas e Logística | Especialista em Gestão e desenvolvimento de Pessoas, Processos e Carreiras | Inteligência Emocional | Liderança e Análise Comportamental.

5mo

Genial

Like
Reply
M. Gonzalo Claros

Catedrático en la Universidad de Málaga

5mo

Los valores extremos o atípicos son el fundamento sobre el que se basa la detección de genes con expresión diferencial y muchos otros aspectos de los seres vivos (esos que vivimos en contra de la segunda ley de la termodinámica).

Ignacio Minoli

Ph.D. in Biological Sciences | Biologist, Data Analyst, Developer & Researcher | Biogeography, GIS, Conservation, Programming, Visualizations, Digital Transformation and Scientific Decision Making

5mo

Me parece muy acertado el mensaje de este post. A veces, al estudiar en un contexto biológico poblaciones de especies y compararlas (i.e, en morfometría) hay algunas variables con valores extremos, que son reales y pertencen a ese grupo a comparar. Ahí nacen la necesidad de decidir: 1) ¿Elimino esos individuos con algunas variables de valores extremos y disminuyo la variación intragrupo para poder comparar "mejor" intergrupo? 2) ¿Mantengo esa variación biológica real de unos pocos individuos de ese grupo a comparar para obtener conclusiones más fieles y reales de mis resultados? Es un tema personal aunque puede ser cuestionable éticamente según el punto de vista de cada uno. Muy buenos tus posts Rosana!! 👏 👏 👏

Camila Cassinelli Ruiz

Gestionando el mejor talento humano para el manejo del riesgo crediticio

5mo

Hola, totalmente de acuerdo. Incluso cuando solo pensamos en outliers a casos univariados, cuando en la visa real los valores atípicos se dan ante la confluencia de diversas variables. Es decir, un valor por sí solo podría no verse como outlier, pero cuando lo vemos en conjunto con otras variables, sí se vería muy extraño. Ya esto es en el contexto multivariado, para lo cual tenemos LOF.

Like
Reply
Jesus Barreiro Enguidanos

Educador Financiero de Calidad. (UNE-11402). Presidente de la Comisión de Control del Plan de Pensiones del Grupo ENCE

5mo

Muy didáctico

Like
Reply
Erika Gutierrez Martinez

Académica en Facultad de Psicología UNAM

5mo

Me encanta

Like
Reply
See more comments

To view or add a comment, sign in

Explore topics