Без кейворда

Относительный риск (также известный как коэффициент риска или коэффициент распространенности) - это отношение вероятностей событий на двух уровнях переменной или двух параметрах предикторов в модели, где «событие» - это интересующий уровень реакции.

Относительный риск (также известный как коэффициент риска или коэффициент распространенности) - это отношение вероятностей событий на двух уровнях переменной или двух параметрах предикторов в модели, где «событие» - это интересующий уровень реакции. Относительный риск можно оценить в контексте модели или с использованием немодельного подхода. Оценки параметров модели можно избежать, используя PROC FREQ, даже если задействовано более одного предиктора.

При оценке эффекта конкретного предиктора в модели представляет интерес оценить относительный риск для этого предиктора с поправкой на влияние других предикторов. Для непрерывного предсказателя относительный риск p x +1 / p x интерпретируется как изменение вероятности события при увеличении предсказателя на единицу. Для категориального предсказателя относительный риск p x i / p x j интерпретируется как изменение вероятности события при переходе с уровня j предсказателя на уровень i .

Когда распространенность события низкая, отношение шансов дает хорошую оценку относительного риска (Agresti 2002). В этой ситуации оценки отношения шансов из PROC FREQ или обычной логистической модели (биномиальной модели, связанной с логитом по умолчанию), соответствующей PROC LOGISTIC, можно использовать для оценки относительных рисков. Если вероятность события не мала, можно использовать другие подходы. Ниже представлены четыре метода: оценка без модели, оценка с использованием макроса для оценки соответствующей нелинейной комбинации параметров логистической модели, оценка с использованием лог-связанной биномиальной модели и использование подхода Пуассона с оценкой GEE (Zou, 2004). Оценка относительных рисков на основе полиномиальных моделей отклика обсуждается и проиллюстрирована в этой заметке.

Немодельный подход с использованием PROC FREQ

В простейшем случае одного двоичного предиктора двоичного ответа данные могут быть организованы в виде таблицы 2x2, а относительный риск оценивается с помощью параметра RELRISK в операторе TABLES команды PROC FREQ. Например, предположим, что группе из 100 мужчин и независимой группе из 100 женщин задают вопрос Да / Нет, и 30 мужчин ответили Да, а 45 женщин ответили Да. Данные собраны в таблицу 2x2, и оценка относительного риска запрашивается с использованием следующих утверждений:

Опция RELRISK позволяет получить оценки относительного риска и отношения шансов. Поскольку уровень интереса (уровень события) равен Response = Yes, и поскольку Yes является первым столбцом (из-за порядка данных и использования опции ORDER = DATA), оценка относительного риска предоставляется в "Когорте ( Col1 Risk) »в таблице« Оценки относительного риска ». Относительный риск ответа «Да» для женщин по сравнению с мужчинами составляет 1,50 с доверительным интервалом (1,0365, 2,1707). Обратите внимание, что оценка отношения шансов составляет 1,91, и что вероятность события не мала - примерно 37,5% в целом.

Статистика для таблицы пола по ответам
Соотношение шансов и относительные риски Статистика Ценить 95% доверительный интервал Соотношение шансов 1,9091 Относительный риск (столбец 1) 1,5000 Относительный риск (столбец 2) 0,7857
1,06733,4148
1.03652,1707
0,63130,9779

Если существует несколько предикторов, относительный риск для конкретного предиктора может быть получен из опции CMH с другими предикторами, указанными первыми в определении таблицы. Переменные, предшествующие двум последним переменным (которые определяют переменные строки и столбца таблицы), обрабатываются как переменные стратификации. Пример этого приведен ниже в разделе, описывающем модифицированный подход Пуассона.

Обратите внимание, что PROC FREQ можно использовать для оценки относительного риска, только если переменная строки имеет два уровня.

Нелинейная оценка с использованием логистической модели

Поскольку логарифмические шансы (также называемые логитом ) являются функцией отклика в логистической модели, такие модели позволяют вам оценить логарифмические шансы для совокупностей в данных. Популяция - это настройка предикторов модели. Возведя в степень, вы можете оценить шансы. Точно так же разница между двумя популяциями приводит к расчетной разнице в логарифмических шансах, что эквивалентно логарифмическому отношению шансов. Опять же, возведя в степень, вы можете оценить отношение шансов, сравнивая популяции. Таким образом, простые линейные комбинации параметров логистической модели могут использоваться для получения оценок шансов и соотношений шансов.

Однако таким способом нельзя получить отношение вероятностей событий (средние по совокупности). Чтобы оценить относительный риск (отношение вероятностей), вам необходимо оценить нелинейную функцию параметров логистической модели. В то время как оператор ESTIMATE в PROC LOGISTIC оценивает только линейные комбинации параметров модели, макрос NLEstimate может оценивать любые линейные или нелинейные комбинации, которые вы задаете. Точно так же PROC NLMIXED и его оператор ESTIMATE могут использоваться для соответствия модели и оценки нелинейных комбинаций. Макрос NLMeans упрощает задачу оценки и проверки различий, соотношений или контрастов средних значений.

Для приведенного выше примера логистическая модель может быть записана как

где I (женщины) = 1, если GENDER = "Women", и 0 в противном случае. Эту же модель можно записать в терминах логарифмических коэффициентов (logit) как:

и может быть подогнан с помощью PROC LOGISTIC, как показано в следующих утверждениях. Оператор LSMEANS предоставляет оценки логарифмических шансов для каждого пола. Опция ILINK добавляет оценки вероятностей событий, применяя обратную логит-ссылку. Опция E создает таблицу коэффициентов линейной комбинации параметров, которые определяют логарифмические шансы для каждого пола. Таблица сохраняется оператором ODS OUTPUT для последующего использования с макросом NLMeans. Оператор STORE сохраняет подобранную модель для использования с макросами NLMeans и NLEstimate.

Эти частичные результаты показывают параметры подобранной логистической модели, за которыми следует расчетное отношение шансов для пола, которое соответствует результату выше из PROC FREQ. Наконец, показаны коэффициенты, определяющие логарифмические шансы и оценочные логарифмические шансы и вероятности событий. Обратите внимание, что вероятности события 0,45 и 0,3 соответствуют вероятностям, показанным в таблице из PROC FREQ.

Анализ оценок максимального правдоподобия Параметр DF Оценивать Стандартная

ошибка Wald

Chi-Square Pr>ChiSq Перехватить Пол Женщины Пол Мужчины
1-0,84720,218215,07460,0001
10,64660,29674,74950,0293
00...
Оценка отношения шансов Эффект Точечная оценка 95%

Предел уверенности Вальда Пол Женщины против мужчин
1,9091.0673,415
Коэффициенты средних наименьших квадратов по признаку пола Параметр Пол Ряд 1 Ряд 2 Перехват: Ответ = Нет Пол Женщины Женщины Пол Мужчины Мужчины
11
1
1
Гендерные наименьшие квадраты средние Пол Оценивать Стандартная ошибка z Значение Pr>| z | Иметь в виду Стандартная ошибка

среднего Женщины Мужчины
-0.20070.2010-1,000,31810,45000,04975
-0,84720,2182-3,880,00010,30000,04583

Использование макроса NLMeans

Относительный риск легче всего оценить с помощью макроса NLMeans как отношения вероятностей событий. Чтобы использовать макрос, вы предоставляете сохраненную модель из оператора STORE, сохраненную таблицу коэффициентов из оператора LSMEANS / E и функцию связи, используемую в модели. По умолчанию макрос NLMeans оценивает и проверяет попарные различия между средними оценками. В этом примере это будет разница в вероятностях гендерного события. Чтобы запросить оценку отношения, а не разницы, укажитеoptions = ratio. По умолчанию нулевая гипотеза, проверяемая макросом, является проверкой равенства нулю. Что касается относительного риска, то интересующей нас нулевой гипотезой является проверка того, что относительный риск равен единице. Для этого укажитеnull = 1(требуется версия 1.3 или новее макроса NLMeans и версия 1.8 или новее макроса NLEST).

Метка указывает, что первое среднее значение (женщины) делится на второе среднее значение (мужчины). Если требуется обратная величина, добавьтеобратнуюопцию:options = ratio reverse. Расчетный относительный риск составляет 1,5 при 95% доверительном интервале большой выборки (0,95, 2,05) и значительно отличается от 1 ( p = 0,0771). Обратите внимание, что предполагаемый относительный риск и его доверительный интервал очень похожи на оценку, полученную с помощью PROC FREQ выше. Результаты немного отличаются из-за разных используемых методов оценки.

Относительный риск

Этикетка Оценивать Стандартная ошибка Wald Chi-Square Pr>ChiSq Альфа Ниже Верхний 1/1
1,4999 0,2828 3,12468 0,0771 0,05 0,9456 2,0543

Использование макроса NLEST / NLEstimate

Макрос NLEST / NLEstimate также использует подобранную модель, сохраненную оператором STORE в PROC LOGISTIC. Затем он использует PROC NLMIXED для оценки указанной функции параметров модели. Дельта-метод используется для получения доверительных границ. Вы пишете функцию для оценки, используя имена параметров, и указываете ее в параметреf =macro. Метку можно указать в параметреlabel =. См. Описание макроса NLEST для получения подробной информации об отображении имен параметров и использовании макроса. Функция ЛОГИСТИКА (x) = [1 + e - (x)] -1 позволяет легко записать относительный риск как отношение вероятностей. Как обсуждалось выше, чтобы проверить, что относительный риск равен 1, укажитеnull = 1(требуется версия 1.8 или более поздняя версия макроса NLEST).

Результаты совпадают с результатами макроса NLMeans выше.

Оценка нелинейной функции

Этикетка Оценивать Стандартная ошибка Wald Chi-Square Pr>ChiSq Альфа Ниже Верхний Отн. Риск (женщины / мужчины)
1,4999 0,2828 3,12468 0,0771 0,05 0,9456 2,0543

Использование PROC NLMIXED

PROC NLMIXED не имеет оператора FREQ для агрегированных данных, подобных приведенным выше. Один из способов справиться с этим - преобразовать агрегированные данные в данные одного субъекта, как это делается на следующем шаге ДАННЫЕ. Если бы данные уже были в форме одного субъекта, никакой предварительной обработки не потребовалось бы. Переменная двоичного ответа Y создается со значениями 1 (для события) и 0. Это ответ, который моделируется в PROC NLMIXED.

В PROC NLMIXED вы пишете модель для вероятности события p , а затем указываете p в опции распределения BINARY в операторе MODEL. Функция LOGISTIC снова используется, на этот раз для определения логистической модели, а затем снова в операторах ESTIMATE для определения отношения вероятностей для женщин и мужчин. Первый оператор ESTIMATE предоставляет оценку и доверительный интервал для относительного риска, а также тест, что относительный риск равен нулю. Чтобы проверить, что относительный риск равен 1, а не 0, второй оператор ESTIMATE вычитает 1 из функции.

Результаты аналогичны результатам макроса NLEST / NLEstimate выше.

Лог-связанная биномиальная модель

Как показано ниже, возведение в степень оценки параметра в лог-связанной биномиальной модели позволяет напрямую оценить относительный риск. Вот линейная лог-связанная модель с одной переменной:

журнал ( p ) = a + bx

В рамках этой модели увеличение предиктора на одну единицу дает следующие результаты:

журнал ( p 1 ) = a + b ( x +1) = a + bx + b (1)

журнал ( p 2 ) = a + bx (2)

Вычитая (2) из ​​(1):

журнал ( p 1 ) - журнал ( p 2 ) = b

Но обратите внимание, что log ( p 1 ) - log ( p 2 ) = log ( p 1 / p 2 ) = log ( относительный риск ), подразумевая, что оценка параметра для предиктора b оценивает относительный риск log. Таким образом, возведение в степень оценки параметра e b дает оценку относительного риска.

Вы можете подогнать биномиальную модель с привязкой к журналу, используя PROC GENMOD с опциями DIST = BINOMIAL и LINK = LOG. Однако использование ссылки журнала может привести к проблемам подбора, поскольку журнал не гарантирует, что прогнозируемые вероятности отображаются в диапазон [0,1], который требуется для вероятностей. Дедденс, Петерсен и Лей (2003) предлагают обычно использовать опцию оператора MODEL INTERCEPT = -4 при подборе этой модели. Эта опция обеспечивает начальное значение -4 для точки пересечения в процессе оценки максимального правдоподобия. Смысл этого можно увидеть, отметив, что 0< p p ) p), поэтому его оценку имеет смысл начать с отрицательного диапазона.

Deddens, et. al. обратите внимание, что PROC GENMOD все еще может не соответствовать модели с привязкой к журналу, потому что решение попадает на границу пространства параметров. Когда это происходит, они предполагают, что решение часто может быть найдено путем подгонки модели к набору данных, состоящему из множества копий исходных данных, дополненных одной копией, в которой значения ответа противоположны значениям в исходных данных. Это помещает решение в пространство параметров, где алгоритм оптимизации может его найти. Хотя это дает хорошие оценки параметров модели и, следовательно, хорошие оценки скорректированных относительных рисков, стандартные ошибки уменьшаются за счет репликации данных. Чтобы исправить это, они умножают стандартные ошибки на квадратный корень из числа копий и повторно вычисляют тесты и доверительные интервалы.Тот же эффект может быть достигнут при использовании весов, нормализованных к фактическому размеру выборки, так что повторение данных и корректировка стандартных ошибок не нужны.

На основе примера, представленного авторами, следующие утверждения соответствуют лог-связанной модели исходным данным, дополненным копией данных с обратными ответами. Чтобы можно было проиллюстрировать вычисление относительного риска как для непрерывных, так и для категориальных предикторов, вводится категориальная переменная A. Оригинальные наблюдения авторов находятся на уровне A = 1. Данные приведены для дополнительного уровня A = 2. Фактическим значениям присваивается вес 10 000, а наблюдениям с обратным ответом присваивается вес 1. Чтобы нормализовать веса так, чтобы они суммировались с исходным размером выборки, веса умножаются на истинный размер выборки, 20, и делятся. по сумме весов 200 020. Сумма нормализованных весов и есть фактический размер выборки 20.Это корректирует стандартные ошибки и связанную статистику, чтобы они были правильными.

В приведенных ниже инструкциях PROC GENMOD инструкция LSMEANS оценивает индивидуальные риски и относительный риск, сравнивая уровень A = 2 с уровнем A = 1 при среднем значении X. Опция EXP добавляет столбцы Exponentiated в таблицу наименьших квадратов средних значений, показывающую оцененный риск. , стандартная ошибка и доверительный интервал на каждом уровне A. Он также добавляет столбцы Exponentiated в таблицу Differences, показывающую оцененный относительный риск и его доверительный интервал. Оператор ESTIMATE обеспечивает оценку относительного риска для увеличения X на одну единицу в исходных данных авторов в A = 1. Логарифмическая оценка относительного риска отображается в столбце «Оценка L'Beta», а оценка относительного риска - в столбце «Средняя оценка» таблицы «Результаты контрастной оценки» ПРИМЕЧАНИЕ.

Результаты оператора ESTIMATE предоставляют оценку и доверительный интервал как для относительного риска («Средняя оценка»), так и для логарифмического относительного риска («Оценка L'Beta») в A = 1. Результаты показывают, что событие (Y = 1) в 1,23 раза более вероятно, когда предиктор X увеличивается на одну единицу. Предполагаемые риски на каждом уровне A отображаются в столбце Exponentiated в таблице Least Squares Means. Оценка риска в A = 1 составляет 0,3898, а в A = 2 - 0,4533. Оценка отношения рисков 0,8601 отображается в столбце Exponentiated в таблице Differences вместе с доверительным интервалом (0,2707, 2,7327).

Результаты оценки контрастности Этикетка Средняя оценка Иметь в виду Оценка L'Beta Стандартная

ошибка Альфа L'Beta Хи-квадрат Pr>ChiSq Пределы уверенности Пределы уверенности RR (X + 1) / X
1,2329 1,0093 1,5059 0,2093 0,1021 0,05 0,0093 0,4094 4,21 0,0403
Метод наименьших квадратов а Оценивать Стандартная ошибка z Значение Pr>| z | Альфа Ниже Верхний Экспоненциальный Exponentiated

Lower Экспоненциальный

верхний 1 2
-0,9420 0,4593 -2,05 0,0403 0,05 -1,8423 -0,04180 0,3898 0,1585 0,9591
-0,7913 0,3700 -2,14 0,0325 0,05 -1,5165 -0,06602 0,4533 0,2195 0,9361
Различия средних наименьших квадратов а _a Оценивать Стандартная ошибка z Значение Pr>| z | Альфа Ниже Верхний Экспоненциальный Exponentiated

Lower Экспоненциальный

верхний 1 2
-0,1507 0,5898 -0,26 0,7983 0,05 -1,3068 1,0053 0,8601 0,2707 2,7327

Модифицированный подход Пуассона Цзоу

Zou показывает, что, когда модель Пуассона подходит для двоичного ответа, надежная оценка дисперсии, предоставляемая оператором REPEATED в PROC GENMOD, дает правильную оценку стандартной ошибки относительного риска. Обратите внимание, что оператор REPEATED реализует метод оценки обобщенных оценочных уравнений (GEE), который обычно используется для повторяющихся измерений или продольных данных. Однако этот метод также можно использовать для данных без повторных измерений, когда требуется надежная оценка дисперсии.

Следующие утверждения создают набор данных для 28-дневного исследования смертности, показанного в Zou (2004), и соответствуют модифицированной модели Пуассона. Доктор Цзоу любезно предоставил код (измененный для использования оператора LSMEANS).

Поскольку TREAT является предиктором КЛАССА, использующим параметризацию GLM по умолчанию, оператор LSMEANS может использоваться для получения оценок относительного риска (оценка) и относительного риска (экспоненциальная оценка). По результатам оценка относительного риска составляет 2,30 с доверительным интервалом (1,27, 4,15).

Различия в методе наименьших квадратов. относиться _относиться Оценивать Стандартная ошибка z Значение Pr>| z | Альфа Ниже Верхний Экспоненциальный Exponentiated

Lower Экспоненциальный

верхний 1 0
0,8315 0,3013 2,76 0,0058 0,05 0,2409 1,4222 2,2969 1,2724 4,1460

Для сравнения, Zou соответствует биномиальной модели с лог-связью.

Оценка по этой модели несколько меньше - 1,94 с доверительным интервалом (1,05, 3,59).

Различия в методе наименьших квадратов. относиться _относиться Оценивать Стандартная ошибка z Значение Pr>| z | Альфа Ниже Верхний Экспоненциальный Exponentiated

Lower Экспоненциальный

верхний 1 0
0,6652 0,3124 2,13 0,0332 0,05 0,05293 1,2775 1,9449 1,0544 3,5876

Zou также сравнивает результаты с немодельным подходом, используя метод Mantel-Haenszel, доступный в PROC FREQ. Опция CMH используется для размещения слоев. Опция NOPRINT также используется для подавления отображения таблиц TREAT * OUTCOME для всех страт. Хотя в этом примере есть только три таблицы, специфичные для страты, в целом их может быть много. Использование опции NOPRINT ограничивает отображаемые результаты статистическими таблицами, созданными опцией CMH.

Поскольку опция ORDER = DATA с этими данными помещает уровень события в первый столбец таблицы, оценка относительного риска Mantel-Haenszel отображается в строке «Когорта (риск Col1)» как 2,28 с доверительным интервалом (1,27.4.09).

Оценки общего относительного риска (строка 1 / строка 2) Тип обучения Метод Ценить 95% доверительный интервал Кейс-контроль Mantel-Haenszel (Соотношение шансов) Logit Когорта Mantel-Haenszel (Риск Col1) Logit Когорта Mantel-Haenszel (Риск Col2) Logit
6,7494 1,7603 25,8784
6,7950 1,7798 25,9431
2,2752 1,2662 4,0883
1.7584 1,0696 2,8907
0,6987 0,5504 0,8868
0,7756 0,6302 0,9546

использованная литература

Дедденс, Дж. А., Петерсен, М. Р., и Лей, X. (2003), Оценка коэффициентов распространенности, когда PROC GENMOD не сходится, Труды Двадцать восьмой ежегодной Международной конференции группы пользователей SAS ® , Сиэтл, Вашингтон.

Цзоу, Г. (2004), "Модифицированный подход регрессии Пуассона к проспективным исследованиям с двоичными данными", Am. J. Epidemiol. , 159: 702-706.

ПРИМЕЧАНИЕ: В версиях до SAS® 9.2 опция EXP необходима для увеличения контрастности (в данном случае только параметр для X), что приводит к оценке относительного риска для увеличения единицы X. Начиная с SAS 9.2, EXP опция не требуется, поскольку оценки контраста с применением функции обратной связи (обозначенной как «Среднее») предоставляются по умолчанию.

Информация об операционной системе и выпуске

Семейство продуктов Продукт Система Выпуск SAS
Сообщается Фиксированный*
Система SAS SAS / STAT Все н / д
*Для выпусков программного обеспечения, которые еще не являются общедоступными, фиксированный выпуск - это выпуск программного обеспечения, в котором планируется устранить проблему.

Относительный риск - это отношение вероятностей событий на двух уровнях переменной или двух параметрах предикторов в модели. Оценка показана с использованием PROC FREQ, нелинейной оценки в логистической модели, лог-связанной биномиальной модели и подхода Пуассона с оценкой GEE (Zou, 2004).