Topic #41. Statistics and Research Part 3: Types of Study Design, Levels of Evidence and More
January 5, 2026
In academic medicine, not all studies and not all journals are created equally.
Impact Factor and Quality of Levels of Evidence Pyramid
A researcher’s goal is to create the best study design to look at a particular issue which will also help to get that study get accepted and published in the most reputable journal. But how would you know what’s a good study, what’s a good journal?
Journals are ranked by something called an Impact Factor (IF). A journal’s IF is a metric that assesses the citation rate of articles published in a particular journal over a specific time – that’s usually 2 years. The higher the number, the better. It’s not a perfect indicator (nothing is) but it gives you a sense of the journal quality, and trust me, editors are always trying to get their IF higher. For example - looking at journals I read as a pediatrician and a breastfeeding researcher/devotee - impact factors (2024/2025): The Lancet Child and Adolescent Health 15.5, Pediatrics 6.4, International Breastfeeding Journal 2.8, Breastfeeding Medicine 2.7, Journal of Human Lactation 1.8. Impact Factors change every year.
Regarding study design, a pyramid exists that shows levels of evidence for study design with the top of the pyramid indicating the highest quality of evidence. You can see that systematic reviews and meta-analyses are at the top followed by RCTs.
Let’s start from the top of the pyramid and work down.
Systematic review – this is not an actual study but rather a summary of the literature on a clearly formulated question. The scope of the review is identified in advance. A comprehensive search is conducted to find all the relevant studies. Explicit criteria are used to include or exclude studies thus ensuring quality and rigor. Critical appraisals of study design and methodology are conducted for all the literature on the specific topic.
Meta-analysis - this is not an actual study either but rather a statistical combination of the results from several studies as if they were all part of one big study. This increases the sample size and reduces the possibility of type 2 errors in the many smaller studies. (A small sample size can cause a Type 2 error which is discussed below.)
Randomized controlled trial - often referred to as a “RCT”. This is the gold standard for testing health claims. Participants are randomly assigned into a control group (no treatment) and a test group (receive a given treatment or whatever is being tested). RCTs are considered good studies because good randomization will wash out any population bias and RCTs have good internal validity.
Cohort study - this type of a study looks at what causes disease in different groups (cohorts) followed by a group that shares a specific factor of exposure to a risk factor over time to see if they develop a mutual ailment.
Case-control study - a study that compares groups of people with a specific condition with other groups of people who do not have that specific condition.
Case report/case series - this is a report about something going on with one person (case report) or a group of people with similar clinical characteristics (case series). These are used as a first step to share information about new diseases or health conditions.
Resources
Where can you go to find research studies, or the literature, on topics?
PubMed
PubMed is a free search engine where you can find a database of references and abstracts on the life sciences and biomedical topics. The citation for the article is presented; the abstract of the paper is usually shared.
Cochrane Library
The Cochrane Library contains systematic reviews on a variety of medical topics compiled by worldwide experts. This is a free site.
Examples of Cochrane reviews include: 1) Non-pharmacologic care for opioid withdrawal in newborns; 2) Interventions for preventing mastitis after childbirth
A recent review was: Immediate or Early Skin-to-Skin Contact for Mothers and Their Healthy Newborn Infants Link
Academy of Breastfeeding Medicine
The Academy of Breastfeeding Medicine (ABM) is a worldwide organization of medical doctors dedicated to the promotion, protections and support of breastfeeding
ABM publishes protocols on a wide variety of topics. These are available for free in multiple languages. Each protocol contains citations of articles related to the topic.
Examples of protocols you can find on the ABM website include: Hypoglycemia, Going Home/Discharge, Supplementation.
More
Finally, a few topics to touch on that I am not quite sure where to put but want to make sure to mention them.
Bias - any tendency which prevents unprejudiced consideration of a question
Hawthorne effect - when subjects of a study behave differently because they know they are being watched.
Example: A study of hand-washing among medical staff found that compliance with hand-washing was 55% greater when the staff knew they were being watched compared with when they were not being watched. (Eckmanns 2006)
Nominal and ordinal data are two different kinds of categorical data.
Nominal data are distinctive named categories but with no implied order. Examples of nominal data are: eye color, hair color, gender.
Ordinal data are distinctive categories but with an implied order. A well-known example of ordinal data is the Likert scale, a way to grade responses: 1 (Like) - 2 (Like Somewhat) - 3 (Neutral) - 4 (Dislike). In the hospital setting, an example of a Likert scale is the pain scale: 0 is no pain and the scale goes up to 10 which is the worst pain imaginable.
Type 1 vs Type 2 error
A Type 1 error is a statistical term. It produces a false positive. A Type 1 error can be caused by random chance and improper research techniques.
A Type 2 error is a statistical term. It produces a false negative. It is often caused by a small sample size.
Standard deviation - 68-95-99.7 rule
In statistics, the standard deviation indicates the average deviation of values from the mean.
A low standard deviation tells you that the values tend to be close to the mean of a set. A high standard deviation means that the values are spread out over a wider range.
Remember this: the 68-95-99.7 rule. This is a shorthand used to remember the percentage of values that fall within a range. In a bell-shaped curve distribution, 68% of the values lie within 1 Standard Deviation (SD) of the mean, 95% lie within 2 SD of the mean, and 99.7 lie within 3 SD of the mean.
Tema #40. Estadísticas y Investigación Part 3: Tipos de Diseño de Estudios, Niveles de Evidencia y Mas
En la medicina académica, no todos los estudios ni todas las revistas son iguales.
Factor de impacto y pirámide de calidad de la evidencia
El objetivo de un investigador es diseñar el mejor estudio posible para abordar un tema específico, lo que también contribuirá a que el estudio sea aceptado y publicado en la revista de mayor prestigio. Pero, ¿cómo saber qué es un buen estudio y qué es una buena revista?
Las revistas se clasifican según un indicador llamado Factor de Impacto. El factor de impacto de una revista es una métrica que evalúa la tasa de citación de los artículos publicados en una revista determinada durante un período específico, generalmente dos años. Cuanto mayor sea el número, mejor. No es un indicador perfecto (nada lo es), pero da una idea de la calidad de la revista, y créanme, los editores siempre intentan aumentar su factor de impacto. Por ejemplo, si consideramos las revistas que consulto como pediatra e investigadora/especialista en lactancia materna, los factores de impacto (2024/2025) son: The Lancet Child and Adolescent Health 15.5, Pediatrics 6.4, International Breastfeeding Journal 2.8, Breastfeeding Medicine 2.7, Journal of Human Lactation 1.8.
En cuanto al diseño de los estudios, existe una pirámide que muestra los niveles de evidencia según el diseño del estudio, donde la cúspide de la pirámide indica la mayor calidad de la evidencia. Se puede observar que las revisiones sistemáticas y los metaanálisis se encuentran en la parte superior, seguidos de los ensayos clínicos aleatorizados.
Comencemos por la cima de la pirámide y descendamos.
Revisión sistemática: No se trata de un estudio propiamente dicho, sino de un resumen de la literatura sobre una pregunta claramente formulada. El alcance de la revisión se define de antemano. Se realiza una búsqueda exhaustiva para encontrar todos los estudios relevantes. Se utilizan criterios explícitos para incluir o excluir estudios, garantizando así la calidad y el rigor. Se realizan evaluaciones críticas del diseño y la metodología de todos los estudios sobre el tema específico.
Metaanálisis: Tampoco se trata de un estudio propiamente dicho, sino de una combinación estadística de los resultados de varios estudios, como si formaran parte de un único estudio de mayor tamaño. Esto aumenta el tamaño de la muestra y reduce la posibilidad de errores de tipo II en los estudios más pequeños. (Un tamaño de muestra pequeño puede causar un error de tipo II, que se explica más adelante).
Ensayo controlado aleatorizado: A menudo denominado “ECA”. Este es el estándar de oro para evaluar las afirmaciones sobre salud. Los participantes se asignan aleatoriamente a un grupo de control (sin tratamiento) y a un grupo de prueba (que recibe un tratamiento específico o lo que se esté evaluando). Los ECA se consideran estudios de alta calidad porque una buena aleatorización elimina cualquier sesgo de la población y presentan una buena validez interna.
Estudio de cohortes: este tipo de estudio analiza las causas de una enfermedad en diferentes grupos (cohortes) a los que se les da seguimiento a lo largo del tiempo, y que comparten un factor de exposición a un riesgo específico, para observar si desarrollan una misma afección.
Estudio de casos y controles: un estudio que compara grupos de personas con una afección específica con otros grupos de personas que no la padecen. La desventaja de este tipo de estudio es que algunas correlaciones entre los grupos podrían ser resultado de la casualidad.
Informe de caso/serie de casos: se trata de un informe sobre lo que le sucede a una persona (informe de caso) o a un grupo de personas con características clínicas similares (serie de casos). Se utilizan como primer paso para compartir información sobre nuevas enfermedades o afecciones de salud.
¿Dónde se pueden encontrar estudios de investigación o bibliografía sobre estos temas?
PubMed
PubMed es un motor de búsqueda gratuito que ofrece una base de datos de referencias y resúmenes sobre ciencias de la vida y temas biomédicos. Generalmente, el resumen del artículo está disponible de forma gratuita; la cita del artículo siempre se presenta.
Biblioteca Cochrane
La Biblioteca Cochrane contiene revisiones sistemáticas sobre diversos temas médicos, elaboradas por expertos de todo el mundo.
Ejemplos de revisiones Cochrane incluyen: 1) Cuidados no farmacológicos para la abstinencia de opioides en recién nacidos; 2) Intervenciones para prevenir la mastitis después del parto.
Academia de Medicina de la Lactancia Materna
La Academia de Medicina de la Lactancia Materna (ABM) es una organización mundial de médicos dedicada a la promoción, protección y apoyo de la lactancia materna.
La ABM publica protocolos sobre una amplia variedad de temas. Estos están disponibles de forma gratuita en varios idiomas.
Ejemplos de protocolos que puede encontrar en el sitio web de la ABM incluyen: Hipoglucemia, Alta hospitalaria, Suplementación.
Más información
Finalmente, algunos temas que quiero mencionar, aunque no estoy seguro de dónde ubicarlos.
Sesgo: cualquier tendencia que impide la consideración imparcial de una cuestión.
Efecto Hawthorne: cuando los sujetos de un estudio se comportan de manera diferente porque saben que están siendo observados.
Ejemplo: Un estudio sobre el lavado de manos entre el personal médico reveló que el cumplimiento de las normas de lavado de manos era un 55 % mayor cuando el personal sabía que estaba siendo observado, en comparación con cuando no lo estaba. (Eckmanns 2006)
Los datos nominales y ordinales son dos tipos diferentes de datos categóricos.
Los datos nominales son categorías distintivas con nombres, pero sin un orden implícito. Ejemplos de datos nominales son: color de ojos, color de cabello, género.
Los datos ordinales son categorías distintivas con un orden implícito. Un ejemplo conocido de datos ordinales es la escala de Likert, una forma de calificar las respuestas: 1 (Me gusta) - 2 (Me gusta un poco) - 3 (Neutral) - 4 (No me gusta). En el ámbito hospitalario, un ejemplo de escala de Likert es la escala del dolor: 0 es ausencia de dolor y la escala llega hasta 10, que es el peor dolor imaginable.
Error de tipo 1 frente a error de tipo 2
Un error de tipo 1 es un término estadístico. Produce un falso positivo. Un error de tipo 1 puede ser causado por el azar o por técnicas de investigación inadecuadas.
Un error de tipo 2 es un término estadístico. Produce un falso negativo. Suele ser causado por un tamaño de muestra pequeño.
Desviación estándar - Regla 68-95-99.7
En estadística, la desviación estándar indica la desviación promedio de los valores con respecto a la media.
Una desviación estándar baja indica que los valores tienden a estar cerca de la media del conjunto. Una desviación estándar alta significa que los valores están dispersos en un rango más amplio.
Recuerde esto: la regla 68-95-99.7. Esta es una regla mnemotécnica para recordar el porcentaje de valores que se encuentran dentro de un rango determinado. En una distribución con forma de campana, el 68% de los valores se encuentran dentro de 1 desviación estándar (DE) de la media, el 95% dentro de 2 DE de la media y el 99.7% dentro de 3 DE de la media.



