Успех любого исследования в значительной мере зависит от правильности подходов, использованных на этапе его планирования. Для клинических исследований это характерно в полной мере, особенно учитывая законодательное регулирование в данной сфере, наличие морально-этических аспектов, типично высокую стоимость и длительность исследований. Рассмотрим проблему оценки размера выборки - критически важный этап планирования, ошибки на котором могут свести на нет все дальнейшие усилия.
Официальным руководством по статистическим вопросам планирования, анализа и представления результатов клинических исследований является документ Международной конференцией по гармонизации технических требований к регистрации ЛС для человека (International Conference on Harmonization, ICH) - E9 Statistical Principles for Clinical Trials (pdf). В нем изложены самые общие принципы и требования, но нет готовых рецептов и ответов на вопросы типа "сколько взять пациентов для исследования с такими-то целями".
Официальным руководством по статистическим вопросам планирования, анализа и представления результатов клинических исследований является документ Международной конференцией по гармонизации технических требований к регистрации ЛС для человека (International Conference on Harmonization, ICH) - E9 Statistical Principles for Clinical Trials (pdf). В нем изложены самые общие принципы и требования, но нет готовых рецептов и ответов на вопросы типа "сколько взять пациентов для исследования с такими-то целями".
За готовыми решениями можно обратиться к фундаментальному руководству Sample size calculations in clinical research, второе издания которого вышло в 2008 году (главный редактор - Shein-Chung Chow). Книга не единственная в своем роде, но, на мой взгляд, наилучшим образом подходит для изучения вопроса и практической работы. Тут можно найти расчетные формулы и готовые таблицы для различных дизайнов (одна группа, параллельное исследование с двумя группами, перекрестное исследование и др.); различный типов главной переменной (количественные, категориальные); различных целей исследования (превышающая эффективность, неуступающая эффективность, терапевтическая эквивалентность, биоэквивалентность). Для малых выборок, т.е. практически для любого пилотного исследования, исследования I фазы или исследования биоэквивалентности предпочтительнее использовать таблицы, поскольку в них приводится более консервативная оценка размеров выборки по сравнению с формулами. Во всех остальных случаях пригодятся формулы, которые обеспечивают гораздо больший простор для творчества: можно задать любой уровень значимости, мощность и величину эффекта. NB! В примерах из книги попадаются ошибки в уровнях значимости, следует быть внимательным.
Более 80 формул из этой книги реализованы в пакете TrialSize (руководство в pdf) для языка R (wiki). Для примера выполним расчет размера выборки для сравнения двух средних арифметических в исследовании на неуступающую/превышающую эффективность:
Аргументы:
В данном случае проверяется нулевая гипотеза об отсутствии различий между двумя средними арифметическими, т.е. H0: margin = delta против Ha: margin ≠ delta
Авторская формулировка H0: margin ≤ delta против Ha: margin > delta не совсем верна, поскольку нет априорных знаний о направленности различий, и соответствующие статистические критерии нужно использовать в двустороннем варианте. Именно поэтому уровень значимости задан равным 0,025 (односторонняя вероятность, которая используется для расчетов авторами книги и пакета TrialSize; соответствующая двусторонняя вероятность ошибки первого рода будет равна общепринятому значению 0,05).
Для множества других случаев расчет может быть выполнен с использованием других столь же простых формул. Но следует помнить, что сделанные таким образом оценки будут справедливы при относительно больших (десятки-сотни человек) размерах групп и при выполнении предпосылок используемых статистических методов. Например, для количественных переменных предполагается нормальное распределение; если эта предпосылка нарушается, то итоговое сравнение придется выполнять при помощи непараметрических критериев, параметрическая оценка численности групп окажется заниженной и не позволит получить требуемую мощность. В дальнейшем планирую рассмотреть еще как минимум один случай, когда "классические" методы оказываются бесполезны и нужны менее очевидные подходы. Также чудесной альтернативой оцениванию размеров выборки при помощи формул является бутстреп. Но об этом - в другой раз :).
Более 80 формул из этой книги реализованы в пакете TrialSize (руководство в pdf) для языка R (wiki). Для примера выполним расчет размера выборки для сравнения двух средних арифметических в исследовании на неуступающую/превышающую эффективность:
> # Устанавливаем пакет TrialSize. > install.packages("TrialSize") > # Загружаем пакет. > library(TrialSize) > # Расчет количества пациентов в одной группе > n <- TwoSampleMean.NIS(alpha = 0.025, + beta = 0.2, + sigma = 10, + k = 1, + delta = 0, + margin = 5) > round(n, 0) [1] 63
Аргументы:
- alpha - уровень значимости (вероятность ошибки первого рода);
- beta - вероятность ошибки второго рода (мощность = 1 - beta);
- sigma - объединенное стандартное отклонение для двух групп;
- k - k = n1 / n2 (например, k = 2 соответствует соотношению численности групп 1:2);
- delta - граница неуступающей/превышающей эффективности (величина минимальных клинически значимых различий);
- margin - разность истинных значений средних арифметических в группах.
В данном случае проверяется нулевая гипотеза об отсутствии различий между двумя средними арифметическими, т.е. H0: margin = delta против Ha: margin ≠ delta
Авторская формулировка H0: margin ≤ delta против Ha: margin > delta не совсем верна, поскольку нет априорных знаний о направленности различий, и соответствующие статистические критерии нужно использовать в двустороннем варианте. Именно поэтому уровень значимости задан равным 0,025 (односторонняя вероятность, которая используется для расчетов авторами книги и пакета TrialSize; соответствующая двусторонняя вероятность ошибки первого рода будет равна общепринятому значению 0,05).
Для множества других случаев расчет может быть выполнен с использованием других столь же простых формул. Но следует помнить, что сделанные таким образом оценки будут справедливы при относительно больших (десятки-сотни человек) размерах групп и при выполнении предпосылок используемых статистических методов. Например, для количественных переменных предполагается нормальное распределение; если эта предпосылка нарушается, то итоговое сравнение придется выполнять при помощи непараметрических критериев, параметрическая оценка численности групп окажется заниженной и не позволит получить требуемую мощность. В дальнейшем планирую рассмотреть еще как минимум один случай, когда "классические" методы оказываются бесполезны и нужны менее очевидные подходы. Также чудесной альтернативой оцениванию размеров выборки при помощи формул является бутстреп. Но об этом - в другой раз :).
Комментариев нет:
Отправить комментарий