Понимание теоремы Байеса с отношениями

Моей первой интуицией относительно теоремы Байеса было «брать доказательства и учитывать ложные срабатывания».

Моей первой интуицией относительно теоремы Байеса было «брать доказательства и учитывать ложные срабатывания». Означает ли лабораторный результат, что вы заболели? Хорошо, насколько редко встречается заболевание, и как часто у здоровых людей анализы дают положительный результат? Необходимо учитывать вводящие в заблуждение сигналы.

Это помогло мне справиться с практическими проблемами, но я не мог думать с Байесом. Большие препятствия:

С процентными ставками трудно урезонить.Шансы сравнивают относительную частоту сценариев (A: B), в то время как проценты используют «глобальный сценарий» от части к целому [A / (A + B)]. У монеты равные шансы (1: 1) или 50% шанс выпадения орла. Большой. Что происходит, когда вероятность выпадения орла в 18 раз выше? Ну, шансы 18: 1, можете ли вы вычислить десятичный процент? (Я подожду…) Коэффициенты требуют меньше вычислений, поэтому начнем с них.

Уравнения упускают из виду общую картину.Вот обычно представленная теорема Байеса:

Он читается справа налево с множеством условных вероятностей. Как насчет этой версии:

Байес пытается начать с предположения (вероятность дождя: солнечного света 1: 3), собрать доказательства (в Сахаре июль, солнечное сияние в 1000 раз больше) и обновить свое предположение (вероятность дождя: солнечного света 1: 3000). «Корректировка доказательств» - это то, насколько лучше или хуже мы думаем о наших шансах сейчас, когда у нас есть дополнительная информация (если бы в Сиэтле был декабрь, вы могли бы сказать, что дождь был в 1000 раз выше вероятности).

Начнем с соотношений и перейдем к сложной версии.

Пещерный статистик Ог

Ог только что закончил свою программу CaveD и проводит статистическое исследование для своего племени:

  • Всего он видел 50 оленей и 5 медведей (шансы 50: 5).
  • Ночью он увидел 10 оленей и 4 медведя (с коэффициентом 10: 4).

Что он может вывести? Хорошо,

Ночью он понимает, что вероятность появления оленей на 1/4 ниже, чем раньше:

(Другими словами, медведи в 4 раза чаще ночью)

Давайте немного рассмотрим коэффициенты. A: B описывает, сколько A мы получаем на каждый B (представьте мили на галлон как соотношение миль: галлон). Сравните значения с делением: переход от 25: 1 к 50: 1 означает, что вы удвоили свою эффективность (50/25 = 2). Точно так же мы только что обнаружили, как изменилась наша сумма «оленей на медведя».

Ог с радостью продолжает свои исследования:

  • У реки медведи в 20 раз чаще (он видел 2 оленей и 4 медведя, поэтому 2: 4/50: 5 = 1:20)
  • Зимой вероятность выпадения оленей в 3 раза выше (30 оленей и 1 медведь, 30: 1/50: 5 = 3: 1).

Он берет сценарий, сравнивает его с базовым уровнем и вычисляет корректировку свидетельств.

Пещерный человек Кларенс подписывается на журнал Ога и хочет применить полученные данные к своему лесу (где олени: медведи - 25: 1). Предположим, Кларенс слышит приближение животного:

  • Его общая оценка - 25: 1 соотношение олень: медведь.
  • Ночью, вероятность появления медведей в 4 раза =>25: 4
  • Это у реки, вероятность появления медведей в 20 раз выше =>25:80
  • Это зимой, олени в 3 раза чаще =>75:80

Кларенс угадает «медведя» с почти равными шансами (75:80) и на цыпочках выходит оттуда.

Это Байес. На причудливом языке:

  • Начните с априорной вероятности, общих шансов перед доказательством
  • Соберите доказательства и определите, насколько они меняют шансы
  • Вычислить апостериорную вероятность, шансы после обновления

Байесовский спам-фильтр

Давайте создадим спам-фильтр на основе байесовского детектора медведя Og.

Во-первых, соберите коллекцию обычных писем и спама. Запишите, как часто слово встречается в каждом:

(«Привет» отображается одинаково, но «покупка» смещается в сторону спама)

Мы вычисляем шансы так же, как и раньше. Предположим, что входящее письмо имеет вероятность спама 9: 1, и мы видим «привет, дорогая»:

  • У обычного сообщения вероятность спама 9: 1: обычное
  • Отрегулируйте «привет» =>сохраните коэффициент 9: 1 («привет» одинаково вероятен в обоих наборах)
  • Сделайте поправку на «дорогая» =>9: 5 («дорогая» появляется в 5 раз чаще в обычных электронных письмах)
  • Конечные шансы =>9: 5 шансы на спам

Мы учимся противодействовать спаму (с вероятностью 9: 5). Тем не менее, это меньше спама, чем наши стартовые шансы (9: 1), поэтому мы пропустили его.

Теперь рассмотрим сообщение типа «купите виагру»:

  • Предыдущее убеждение: вероятность спама 9: 1
  • Отрегулируйте для «покупки»: 27: 2 (корректировка 3: 2 в отношении спама)
  • Отрегулируйте для («виагры»):… э-э-э!

«Виагра» никогда не появлялась в обычном сообщении. Это гарантия от спама?

Скорее всего, нет: мы должны разумно приспособиться к новым свидетельствам. Давайте предположим, что где-то есть обычное электронное письмо с этим словом, и сделаем коэффициент «виагры» 3: 1. Наши шансы становятся 27: 2 * 3: 1 = 81: 2.

Теперь мы куда-то идем! Наше первоначальное предположение 9: 1 меняется на 81: 2. Это спам?

Ну насколько ужасен ложный срабатывание?

Вероятность 81: 2 означает, что на каждые 81 спам-сообщение, подобное этому, мы ошибочно блокируем 2 обычных сообщения электронной почты. Такое соотношение может быть слишком болезненным. Имея больше доказательств (больше слов или других характеристик), мы могли бы подождать с коэффициентом 1000: 1, прежде чем называть сообщение спамом.

Изучение теоремы Байеса

Мы можем проверить нашу интуицию, проверив, задаем ли мы наводящие вопросы естественным образом:

Действительно ли доказательства независимы?Есть ли связь между поведением животных ночью и зимой или слова, которые встречаются вместе? Конечно. Мы «наивно» предполагаем, что доказательства независимы (и тем не менее, неуклюже, создаем эффективные фильтры).

Сколько доказательств достаточно?Видно ли, что 2 оленя и 1 медведь имеют такое же соотношение доказательств 2: 1, что и 200 оленей и 100 медведей?

Насколько точны были исходные шансы?Все меняют прежние убеждения. («Байесианец - это тот, кто, смутно ожидая лошадь и мельком увидев осла, твердо уверен, что видел мула».)

Имеют ли значение абсолютные вероятности?Обычно нам нужна наиболее вероятная теория («Олень или медведь?»), А не глобальная вероятность этого сценария («Какова вероятность, что олени ночью зимой у реки, а медведи ночью зимой у реки?» ? »). Многие байесовские вычисления игнорируют глобальные вероятности, которые отменяются при делении, и по существу используют подход, ориентированный на случайности.

Можно ли обмануть наш фильтр?Спам-сообщение может добавлять куски обычного текста, чтобы они выглядели безобидными, и «отравляли» фильтр. Вы, наверное, сами это видели.

Какие доказательства нам следует использовать?Пусть говорят данные. Электронная почта может иметь множество характеристик (время дня, заголовки сообщений, страна происхождения, HTML-теги…). Дайте каждой характеристике фактор правдоподобия и позвольте Байесу разобраться с ними.

Мышление с соотношениями и процентами

Соотношение и процентный подходы задают несколько разные вопросы:

Соотношения:учитывая шансы каждого исхода, как данные корректируют их?

Корректировка свидетельств лишь постепенно искажает первоначальные шансы.

Проценты:каковы шансы на исход после того, как будут найдены подтверждающие доказательства?

В процентном случае

  • «% Медведей» - это общая вероятность появления медведя где угодно.
  • «% Bears Going to River» - насколько вероятно, что медведь вызовет точку данных «река».
  • «% Bear at River» - это совокупный шанс, что медведь окажется у реки. С точки зрения статистики, P (событие и свидетельство) = P (событие) * P (событие подразумевает свидетельство) = P (событие) * P (свидетельство | событие). Я рассматриваю условные вероятности как «шансы того, что X подразумевает Y», а не искаженные «шансы Y при условии, что X произошло».
  • 1% населения болеет раком
  • 9,6% здоровых людей имеют положительный результат теста, 80% людей, больных раком, дают положительный результат.

Если вы видите положительный результат, каков шанс рака?

Соотношение подход:

  • Соотношение Рак: Здоровое 1:99.
  • Корректировка доказательств: 80/100: 9,6 / 100 = 80: 9,6 (80% больных людей находятся «у реки», а 9,6% здоровых людей).
  • Окончательные шансы: 1:99 * 80: 9,6 = 80: 950,4 (примерно 1:12 шансы рака,

Интуиция: первоначальные шансы 1:99 сильно искажены. Даже с увеличением в 8,3 раза (80: 9,6) из-за положительного результата теста рак остается маловероятным.

Процентный подход:

  • Вероятность рака составляет 1%
  • Вероятность истинного положительного результата = 1% * 80% = 0,008
  • Вероятность ложного срабатывания = 99% * 9,6% = 0,09504
  • Вероятность рака = 0,008 / (0,008 + 0,09504) = 7,7%

Когда мы пишем в процентах, мы исходим из абсолютных вероятностей. Вероятность найти больного пациента с положительным результатом составляет 0,8% в целом, а вероятность найти здорового пациента с положительным результатом - 9,504%. Затем мы вычисляем вероятность того, что эти глобальные проценты указывают на что-то полезное.

Пусть подходы дополняют друг друга: проценты для просмотра с высоты птичьего полета и коэффициенты для просмотра того, как настраиваются отдельные шансы. Множество других интерпретаций мы отложим на другой день.