Калькулятор t-критерия Стьюдента
Рассчитайте t-статистику, p-значение и доверительный интервал для двух независимых выборок. Проверьте статистическую значимость различий с помощью t-критерия Стьюдента.
Калькулятор t-критерия Стьюдента
Рассчитайте t-статистику, p-значение и доверительный интервал для двух независимых выборок и проверьте статистическую значимость различий.
Группа 1
Группа 2
Как пользоваться калькулятором
Примеры расчёта
Результат: t ≈ 2.94, df = 58, p ≈ 0.0047 — различие статистически значимо.
Результат: t ≈ 0.70, df = 22, p ≈ 0.492 — различие не значимо.
Результат: t ≈ -3.11, df = 76, p ≈ 0.0026 — препарат значимо снижает давление.
Формулы расчёта
Калькулятор использует t-критерий для двух независимых выборок с равными дисперсиями (критерий Стьюдента):
Sp = √[ ((n₁ − 1)·s₁² + (n₂ − 1)·s₂²) / (n₁ + n₂ − 2) ]
t = (X̄₁ − X̄₂) / (Sp · √(1/n₁ + 1/n₂))
df = n₁ + n₂ − 2
SE = Sp · √(1/n₁ + 1/n₂)
CI₉₅ = (X̄₁ − X̄₂) ± tкрит · SEгде tкрит — критическое значение t-распределения для df и α = 0.05 (двустороннее).
p-значение вычисляется численным интегрированием функции плотности t-распределения. Используется двусторонний тест: p = 2 · (1 − CDF(|t|, df)).
Пошаговое объяснение
Расчёт t-критерия проходит в несколько этапов:
Где применяется
- Медицина: сравнение эффективности двух препаратов (снижение давления, уровень холестерина).
- Образование: оценка разницы в успеваемости между двумя методиками преподавания.
- Маркетинг: A/B-тестирование — сравнение конверсии двух вариантов лендинга.
- Промышленность: контроль качества — сравнение прочности материалов от двух поставщиков.
- Сельское хозяйство: сравнение урожайности двух сортов пшеницы на разных участках.
- Психология: измерение уровня тревожности в двух группах — до и после терапии (парный критерий) или между разными методиками.
Важные нюансы
- Допущение о нормальности. t-критерий предполагает, что данные в обеих группах примерно нормально распределены. При больших выборках (n > 30) это допущение менее критично благодаря центральной предельной теореме.
- Равенство дисперсий. Данный калькулятор использует версию с равными дисперсиями. Если дисперсии сильно различаются (s₁/s₂ > 2 или < 0.5), используйте t-критерий Уэлча.
- Двусторонний тест. Калькулятор выполняет двусторонний тест — проверяет наличие любого различия. Если вас интересует направленное различие (например, только улучшение), используйте односторонний тест (p/2).
- Размер выборки. Минимальный размер каждой группы — 2 наблюдения. При малых выборках (n < 10) t-критерий чувствителен к отклонениям от нормальности.
- Независимость наблюдений. Наблюдения в группах должны быть независимы. Для связанных выборок (например, измерения «до и после») используйте парный t-критерий.
- Интерпретация p-значения. p > 0.05 не доказывает равенство групп, а лишь говорит о недостатке доказательств для отвержения нулевой гипотезы.
Частые ошибки
- Использование t-критерия для ненормальных данных. Если данные сильно асимметричны или содержат выбросы, t-критерий может дать ложные выводы. Проверьте нормальность или используйте непараметрический U-критерий Манна–Уитни.
- Игнорирование неравенства дисперсий. Применение критерия с равными дисперсиями к данным с сильно различающимися дисперсиями завышает или занижает p-значение. Всегда сравнивайте s₁ и s₂.
- Подмена стандартного отклонения стандартной ошибкой. В поле «Стандартное отклонение» нужно вводить s, а не SE = s/√n. Это частая путаница.
- Множественные сравнения без поправки. Если вы сравниваете более двух групп попарно t-тестом, растёт вероятность ложноположительного результата. Используйте ANOVA с поправкой Бонферрони или Тьюки.
- Интерпретация значимости как величины эффекта. Статистически значимое различие может быть крошечным и практически бесполезным. Оценивайте величину эффекта (Cohen's d).
- Округление промежуточных значений. Ввод округлённых средних и SD может исказить итоговый результат. Вводите как минимум 2 знака после запятой.
Ответы на частые вопросы
p-значение — это вероятность получить наблюдаемую (или более экстремальную) разность средних при условии, что нулевая гипотеза верна (то есть группы на самом деле не различаются). Маленькое p (обычно < 0.05) говорит о том, что различие вряд ли случайно.
Оба проверяют гипотезы о средних. Z-критерий требует знания истинной дисперсии генеральной совокупности. T-критерий использует выборочную дисперсию и применяется, когда дисперсия неизвестна — это более реалистичный сценарий.
Традиционно α = 0.05. В исследованиях с высокими ставками (например, медицинские испытания) могут использовать α = 0.01. В exploratory-анализе допустим α = 0.10.
Да, но с осторожностью. Если проценты получены из бинарных данных (доля успехов), лучше использовать z-тест для пропорций или критерий хи-квадрат, особенно при малых выборках.
Формально при α = 0.05 это граничный случай. На практике принимают решение исходя из контекста: если p = 0.050 — можно считать результат погранично значимым, но лучше собрать больше данных.
Доверительный интервал симметричен относительно наблюдаемой разности средних, а не относительно нуля. Если разность средних равна 5, а SE = 2, то 95% ДИ будет примерно от 1 до 9.
Источники и справочные данные
Расчёт основан на классическом t-критерии Стьюдента для независимых выборок с равными дисперсиями, описанном Уильямом Госсетом (псевдоним «Student») в 1908 году. P-значение вычисляется численным интегрированием функции плотности t-распределения методом Симпсона. Критические значения t-распределения для доверительных интервалов находятся методом бисекции. Формулы соответствуют стандартам, принятым в руководствах: Zar J.H. «Biostatistical Analysis», Sokal R.R. & Rohlf F.J. «Biometry», а также ГОСТ Р 50779.22-2005 по статистическим методам.
t-критерий Стьюдента: полное руководство
Что такое t-критерий Стьюдента?
T-критерий Стьюдента — один из самых популярных статистических методов проверки гипотез. Он отвечает на простой вопрос: действительно ли две группы различаются по среднему значению какого-либо показателя, или наблюдаемая разница — лишь случайность? Метод разработан в 1908 году Уильямом Госсетом, химиком пивоварни Guinness, который публиковался под псевдонимом «Student».
В основе критерия лежит сравнение разности средних с естественной вариативностью данных. Если разница велика по сравнению с разбросом — она статистически значима. Математически это выражается через t-статистику: отношение разности средних к её стандартной ошибке.
Три вида t-критерия
Существует три основных варианта t-критерия, каждый для своей ситуации:
- Одновыборочный t-критерий — сравнивает среднее одной выборки с известным или гипотетическим значением. Например, проверка, отличается ли средний рост сотрудников от 170 см.
- Двухвыборочный t-критерий для независимых групп — сравнивает средние двух независимых выборок. Именно его реализует данный калькулятор. Пример: сравнение зарплат мужчин и женщин.
- Парный t-критерий — применяется, когда одни и те же объекты измерены дважды (до и после). Например, вес пациентов до и после диеты.
Выбор неправильного варианта — распространённая ошибка. Если вы измеряете давление у 20 пациентов до и после приёма препарата, нужно использовать парный критерий, а не критерий для независимых групп.
Допущения t-критерия
Чтобы результаты t-теста были достоверными, данные должны удовлетворять нескольким условиям:
Как интерпретировать результат
После нажатия «Рассчитать» вы получаете несколько показателей. Ключевые — t-статистика и p-значение. Абсолютная величина t показывает силу различия: |t| > 2 обычно указывает на значимое различие при достаточном размере выборки. P-значение — вероятность случайно получить такое различие, если группы на самом деле одинаковы.
Если p < 0.05 — вы можете говорить о статистически значимом различии на уровне 5%. Это означает, что вероятность ошибки первого рода (ложного обнаружения эффекта, когда его нет) не превышает 5%. Доверительный интервал дополняет картину: если 95% ДИ для разности средних не включает ноль — различие значимо на уровне 0.05.
Важно: статистическая значимость не равна практической важности. Различие может быть значимым, но очень маленьким (например, 0.3 мм рт.ст. давления). Оценивайте величину эффекта отдельно.
Ограничения и альтернативы
T-критерий — мощный, но не универсальный инструмент. Он плохо работает с выбросами, асимметричными данными и порядковыми шкалами. В таких случаях лучше применять:
- U-критерий Манна–Уитни — непараметрический аналог, сравнивает не средние, а медианы через ранги. Подходит для порядковых данных и не требует нормальности.
- Критерий Уэлча — модификация t-критерия, не требующая равенства дисперсий. Рекомендуется по умолчанию во многих областях.
- Бутстреп-методы — позволяют оценить доверительный интервал без предположений о распределении.
Для сравнения более двух групп используйте однофакторный дисперсионный анализ (ANOVA). Попарное применение t-тестов к трём и более группам без поправки на множественность сравнений резко увеличивает вероятность ложных открытий.
Практические рекомендации
Перед расчётом проверьте данные на выбросы — одно экстремальное значение может сильно исказить среднее и стандартное отклонение. При малых выборках (n < 15) особенно важно убедиться в отсутствии явных нарушений нормальности — постройте гистограмму или Q-Q график.
Всегда указывайте не только p-значение, но и величину эффекта. Cohen's d — популярная мера: d = (X̄₁ − X̄₂) / Sp. Значения 0.2, 0.5 и 0.8 интерпретируются как слабый, средний и сильный эффект соответственно. Доверительный интервал даёт больше информации, чем бинарный ответ «значимо / не значимо», и настоятельно рекомендуется к отчёту.
Планируя исследование, заранее рассчитайте необходимый размер выборки. Для обнаружения среднего эффекта (d = 0.5) с мощностью 80% и α = 0.05 требуется примерно по 64 наблюдения в каждой группе. Недостаточная выборка — частая причина ложноотрицательных результатов.
И наконец, статистический тест — лишь инструмент. Он не заменяет продуманный дизайн исследования и критическое мышление. Результат t-теста должен интерпретироваться в контексте предметной области и с учётом возможных систематических ошибок.
Спросить у ИИ
Задайте вопрос по этой странице
Осталось вопросов: 5. Только по этой странице.
Оцените страницу
Нужен другой инструмент?
Все инструменты в категории