Продолжение; начало здесь.
Бен Голдакр
«Глава 4. Обман в исследованиях
Содержание
- 1 «Глава 4. Обман в исследованиях
- 2 Явный подлог
- 3 Проверяйте лекарство на ненормально идеальных пациентах
- 4 Сравнивайте ваше лекарство с чем-нибудь никчемным
- 5 Слишком короткие исследования
- 6 Исследования, прекращающиеся раньше срока
- 7 Продленные исследования
- 8 Слишком мелкомасштабные исследования
- 9 Исследования, при которых сравниваются неинформативные результаты
- 10 Исследования, результаты которых сгруппированы странным способом
- 11 Исследования, в которых не учитываются выбывшие пациенты
- 12 Исследования, в которых после завершения изменились основные результаты
- 13 Хитрый анализ подгрупп
- 14 Пристрастно выбранные подгруппы исследований, а не подгруппы пациентов
- 15 Исследования с целью продвижения лекарства
- 16 Делайте вид, что результаты положительные, независимо ни от чего
До сего момента я говорил о проведении клинических исследований как о чем-то само собой разумеющемся, как будто в них нет ничего сложного: просто берете несколько пациентов, разделяете их на две группы, даете первой одно лекарство, а второй – другое, потом немного погодя смотрите, есть ли разница в результатах, продемонстрированных обеими группами.
Скоро мы увидим, как можно различными способами фундаментально исказить и ход эксперимента, и анализ результатов так, чтобы преувеличить эффективность лекарств и скрыть вред, приносимый ими. Некоторые из применяемых уловок и приемов являются грубым нарушением закона: мошенничество, например, непростительно и бесчестно. Некоторые трюки балансируют на грани, превращая информацию в полуправду. Некоторые могут пойти на крайние меры в трудной ситуации, чтобы сэкономить деньги или получить результаты как можно быстрее, и поэтому можно судить о каждом конкретном исследовании, только зная все его обстоятельства. Однако, я думаю, ясно то, что во многих случаях люди прибегают к нечестным приемам под давлением ложных стимулов.
Также следует помнить, что многие нечестные исследования, включая те из них, о которых речь пойдет дальше, проводятся независимыми учеными. Фармацевтические компании не устают подчеркивать, что при проведении сравнения методов независимо проспонсированных исследований с методами исследований, оплаченных производителями лекарств, последние оказывались более удачными. Возможно, это и правда, но данная информация почти что не относится к делу по простой причине: независимые исследователи всего лишь статисты в этом спектакле. 97 % клинических исследований, о которых сообщается в печати, спонсируются фармацевтическими компаниями. Они составляют львиную долю всех проверок лекарств, поэтому организующие их специалисты задают тон и устанавливают стандарты.
Наконец, прежде чем мы перейдем к сути дела, хочу предупредить читателей, что следующая глава довольна сложна. В ней излагается сложная для понимания обычного, рядового гражданина информация научного характера, которую по силам усвоить каждому, однако в некоторых случаях от вас потребуется прилагать больше мыслительных усилий, чем обычно. Для особо трудных случаев я привожу краткое резюме в начале, после чего идет изложение всей истории. Если подробная информация окажется слишком сложной для вас, можете пропустить все детали и полагаться на краткую выжимку в начале статьи. Я не обижусь. Что касается последней главы, посвященной уловкам в маркетинге, то она просто нашпигована ужасными историями, которые вам никак нельзя пропустить.
Итак, об обмане в исследованиях.
Явный подлог
Подлог и фальсификация данных – это настоящая пощечина обществу. В этой главе мы познакомимся с различными коварными уловками, с пограничными случаями (балансирующими на грани полуправды и полулжи), и случаями изящного плутовства на грани дозволенного. Из всех способов одурачивания больше всего я не люблю подлог, потому что для подделки чего бы то ни было большого ума не требуется. Мошеннику не нужны ни изощренная методология, ни умение правдоподобно отрицать вину, ни доводы, подкрепляющие факты. Мошенник берет и просто выдумывает результаты. Уничтожать информацию, игнорировать факты, придумывать – и так по кругу – вот и все, что ему нужно уметь делать.
К счастью для меня и для пациентов, такой род подлога сравнительно редок, насколько можно судить по свидетельствам очевидцев. Лучшая на текущий момент оценка распространения случаев фальсификации была сделала авторами систематического обзора 2009 года, в котором были сведены все результаты исследований 21-й работы. В ходе исследования специалистов из различных областей науки опросили на предмет фальсификации данных. Неудивительно, что в зависимости от постановки вопроса люди давали разные ответы. 2 % респондентов признались в том, что занимались фабрикацией, фальсификацией или редактированием данных по крайней мере один раз в своей карьере, однако число утвердительных ответов выросло до 14 %, если интервьюируемых спрашивали, известно ли им о подобного рода поступках их коллег. Треть опрошенных допустила также и применение сомнительных исследовательских практик в ходе эксперимента, и снова эта цифра выросла до 70 %, когда их спросили о коллегах.
Можно частично, если не полностью, объяснить такую большую диспропорцию в количестве ответов на вопросы, адресованные напрямую респондентам, и на те, что касались их коллег, тем фактом, что опрашиваемый – один человек, но у него много знакомых, однако поскольку вопросы обсуждались деликатные, можно допустить, что количество утвердительных ответов занижено. Чтобы быть до конца откровенным, нужно сказать, что представители таких наук, как медицина или психология, склонны к фабрикации данных больше, так как при проведении различных исследований многие факторы разнятся, и это означает, что идеальное воспроизведение предыдущих результатов возможно крайне редко. В итоге никто не заподозрит ничего плохого в том, если ваши результаты будут противоречить результатам другого исследования. В областях науки, где исход экспериментов более очевиден и выражается наличием или отсутствием чего-либо, неудача при воспроизведении результатов выявит мошенника гораздо быстрее.
Специалисты во многих сферах науки склонны к пристрастному отбору данных для отчета, и даже некоторые очень известные ученые совершали манипуляции с результатами своих исследований. Американский физик Роберт Милликен получил Нобелевскую премию в 1923 году после демонстрации эксперимента с капельками масла, доказав, что электричество существует в виде отдельных элементов – электронов. Милликен был ученым среднего уровня (пик, когда совершаются подлоги) и долгое время не мог похвастаться большими достижениями в своей карьере. В своей знаменитой работе, опубликованной в «Физическом обзоре» он написал:
«Это не выборочные результаты по отдельной группе капель, а результаты по всем каплям за время эксперимента, который продолжался в течение 60 дней».
Это утверждение не соответствовало действительности. В работе упоминалось о 58 капельках, но в его записной книжке значилось 175. Напротив стояли записи типа «Прекрасно! Публиковать эти данные» и «Не совпадает, это не сработает». В научной литературе через несколько лет разгорелись ожесточенные дебаты о том, считать ли это подлогом и насколько Милликену повезло, что его результаты смогли быть воспроизведены впоследствии. Но в любом случае, отобранные им данные для отчета (и их пристрастное толкование), были получены во время проведения непрерывной цепи исследовательских действий, которые кажутся абсолютно невинными, если их не изучать слишком пристально. Что делать исследователю с резко выделяющимися показателями в одной графе таблицы, если цифры во всех остальных ее графах выглядят так безупречно? А если что-то упало на пол? А что если машина была неисправна? По этой причине во многих экспериментах действуют четкие правила относительно исключения данных.
Также существует и такой феномен, как явная фабрикация данных. Так доктор Скотт Ройбен, американский анестезиолог, работавший над созданием обезболивающего средства, за всю свою жизнь не провел и 20 клинических исследований из всех, что были описаны им в статьях, опубликованных за прошедшие 10 лет.1 В некоторых случаях он даже не делал вид, что получил лицензию на проведение тестирования лекарств на пациентах в клинике, где работал, а просто вписывал в отчет о результатах исследования цифры, которые придумывал на ходу. Нам никогда не следует забывать, что данные в медицине добывают не для каких-то абстрактных целей или построения отвлеченных теорий. Ройбен утверждал, что будто бы нашел вещества не из группы опиатов, которые при этом были такими же эффективными для послеоперационного купирования боли, как и опиаты. Новость всех восхитила. Опиаты обычно вызывают зависимость и имеют много побочных эффектов.
Практика проведения обезболивания во многих странах изменилась, и сейчас в этой сфере царит настоящая путаница. Мошенничество с фактами имеет место в разных сферах медицины, и оно опасно тем, что в результате подлога данных врач и пациент могут принять неверные решения, однако когда речь заходит о боли, вряд ли можно нанести пациенту больший вред.
Есть различные способы, как можно поймать мошенника, однако постоянный неусыпный контроль со стороны медицинских и научных учреждений – не выход, так как не всегда можно вести достаточно строгий мониторинг нарушений. Часто факт подлога или фальсификации раскрывается коллегами мошенника из корыстных побуждений, становится известен случайно либо разоблачается при возникновении сомнений в правдоподобности результатов. Малкольм Пирс, например, британский хирург-акушер, опубликовал отчет о случае, где утверждал, что он удалил внематочную беременность, затем имплантировал плод женщине, а в результате у нее родился здоровый ребенок.
Анестезиолог и хирургическая сестра, работавшие в той же больнице, посчитали случившееся маловероятным и заявили, что наверняка услышали бы о таком примечательном случае. Они проверили все истории болезни, не нашли ни одной записи о проведении подобной операции, и таким образом все усилия хирурга пошли прахом.2 Примечательно, что в том же номере журнала была опубликована еще одна статья Пирса, в которой сообщалось об исследовании, где принимали участие 200 женщин с синдромом поликистозных яичников, которых Пирс лечил от повторяющихся выкидышей. Исследование не имело места, и оказалось, что Пирс не только сочинил всю историю от начала до конца, придумал имена пациентов и результаты, но и выдумал название несуществующей фармацевтической компании, которая якобы финансировала исследование. В эпоху Интернета ложь, подобная этой, будет жить недолго.
Есть и другие методы обнаружения фактов подлога. Человеческий мозг – очень плохой генератор случайных чисел, поэтому простые случаи фальсификации данных часто раскрывались статистиками судебной медицины, которые обращали внимание на частоту повторяемости последних цифр. Если некто будет выдумывать числа на ходу и вписывать их в колонку в случайном порядке, то наиболее часто повторяемой цифрой всегда будет семерка, которая нравится нашему подсознанию больше всего.
Чтобы замаскировать подлог, фальсификатору нужен генератор случайных чисел, однако прибегнув к его помощи, он столкнется с другой интересной проблемой, которая называется эффект идеального единообразия в случайных числах. Так немецкий физик Ян Хедрик Шен выступал соавтором приблизительно одной работы каждую неделю на протяжении 2001 года, однако его результаты выглядели слишком уж точными. В конечном счете кто-то заметил, что в двух исследованиях на результаты идеальной модели был наложен один и тот же «шум» из цифровых данных. Оказалось, что многие числа были сгенерированы на компьютере с использованием тех же самых уравнений, которые должны были использоваться для проверки данных вместе с якобы случайными реалистично выглядящими вариациями, встроенными в модель.
Есть множество способов, к которым следует прибегать для выявления случаев явной и наглой фальсификации. Нам нужно проводить более тщательные и качественные расследования; регулярно вести более совершенный мониторинг; налаживать отношения с редакторами журналов, мотивируя их сообщать о подозрительных работах, отвергнутых ими; обеспечивать лучшую защиту тем, кто своевременно подал сигнал; проводить выборочную случайную проверку первичных данных по журналам и т. д. Люди часто говорят обо всех этих методах, но редко кто прибегает к их использованию, а все потому что ответственность за нарушения определена неясно и туманно.
Итак, подлог или фальсификация данных. И то, и другое случается в медицине. Этим занимаются не особо умные люди. И подлог можно смело называть преступлением. И такие преступления случаются при содействии «плохих парней». Однако объем ошибочных данных, попадающих в анналы медицинской литературы благодаря подлогу, не так уж и велик по сравнению с регулярными, изощренными и – больше чем что-либо – правдоподобно отрицаемыми каждодневными методологическими искажениями, примеров которых так много в этой книге. Несмотря на очевидность этого, явный подлог практически единственный источник искаженных данных, который регулярно освещается в СМИ, просто потому что факт фальсификации более доступен уму обывателя. И это одна из причин, чтобы прекратить рассказывать о нем и перейти к главному.
Проверяйте лекарство на ненормально идеальных пациентах
Как мы увидели, принимающие участие в клинических исследованиях пациенты часто не имеют ничего общего с реальными больными, которых наблюдает врач каждый день в ходе обычной клинической практики. Поскольку такие идеальные пациенты с больше вероятностью выздоровеют, это преувеличивает эффект от лекарства и заставляет новые дорогие препараты выглядеть более привлекательными в плане соотношения цены и качества, чем они есть на самом деле.
В реальном мире пациенты часто гораздо «многограннее». У них могут быть другие расстройства организма, они могут принимать множество различных медикаментов, которые могут взаимодействовать друг с другом совершенно непредсказуемым образом. Обычные пациенты могут употреблять алкоголь чаще, чем идеальные больные, либо у них могут быть проблемы с почками. Таковы обычные пациенты. Однако в большинстве исследований, на результаты которых мы полагаемся при принятии конкретных решений, лекарства тестируются на нерепрезентативных, ненормально идеальных пациентах, которые часто слишком молоды, имеют в анамнезе всего лишь одно заболевание, испытывают меньше проблем со здоровьем и т. д.3
Разве результаты таких исследований, проведенных на нетипичных пациентах, могут применяться к обычным больным? Во всяком случае, мы знаем, что различные группы пациентов реагируют на лекарства по-разному. Исследования, проведенные на представителях идеальных групп населения, могут, например, завысить достоинства лекарства или же выявить какие-либо полезные свойства, которых у него нет. Иногда в особо критичных случаях равновесие между опасными свойствами лекарства и его эффективностью может полностью меняться у разных групп населения. Так, например, была подтверждена эффективность лекарств против аритмии – они продлевали жизнь пациентам, у которых наблюдались нарушения частоты сердечного ритма, – однако их часто прописывали также и тем, кто пережил сердечный приступ, но у кого были лишь незначительные нарушения сердцебиения. Когда эти препараты были испытаны на второй группе пациентов, ко всеобщему ужасу, обнаружилось, что они в значительной степени повышают риск наступления преждевременной смерти.4
Врачи и ученые часто закрывают глаза на такие случаи, но когда вы начинаете сопоставлять показатели пациентов, принимавших участие в исследованиях, и обычных пациентов, сравнивая все цифры подряд, проблема сразу приобретает более широкий масштаб.
При проведении одного исследования 2007 года было выбрано 179 астматиков из числа обычных граждан с целью проверки, скольких из них признают годными для участия в исследовании лекарств от астмы.5 Ответ – в среднем 6 %. Что интересно, речь шла не о каких-то старых исследованиях. Большинство больных не было допущено к исследованиям, на основе которых были разработаны единые международные рекомендации для лечения астмы в клиниках общего профиля и специализированных больницах. Этих рекомендаций придерживаются во всем мире, но при этом, как показала проверка, они базируются на результатах исследований, из которых исключили бы почти каждого пациента из числа обычных людей, к которым эти же самые рекомендации и будут применяться при лечении.
Авторы другой работы отобрали 600 пациентов, которых лечили от депрессии в амбулаторной клинике, и обнаружили, что в среднем только треть из них была бы допущена к участию в 39 исследованиях по изучению свойств лекарства от депрессии, материалы которых были недавно опубликованы.6 Организаторы часто жалуются на то, что стало трудно набрать пациентов для проведения исследований, однако в одной научной работе описано, как 186 человек с депрессией в анамнезе попробовали записаться на два тестирования антидепрессантов, и больше 7 человек из 8 не были приняты, так как они не соответствовали требованиям.7
Чтобы увидеть, как все происходит на самом деле, мы можем проследить за группой пациентов с каким-то конкретным заболеванием. В 2011 году несколько исследователей из Финляндии собрали всех пациентов, у которых когда-либо был перелом бедра, и проверили, пройдут ли они по критериям, предъявляемым к кандидатам на участие в исследовании по проверке бисфосфонатов – широко распространенного средства для предотвращения переломов.8 Заявки подали 7 411 пациентов, но 2 134 были исключены сразу же, так как они были мужчинами, а исследование проводилось на женщинах. Есть ли какая-то разница в реакции на лекарства среди мужчин и женщин? Иногда есть. Из оставшихся 5 277 пациентов 3 596 были исключены, потому что не подходили по возрасту: он должен был быть между 65 и 75 годами. Наконец, 609 пациентов забраковали, так как у них не было остеопороза. Осталось только 1 072 человека. Таким образом, результаты исследования лекарств для профилактики переломов могут строго применяться только к одному из семи пациентов с переломом в анамнезе. Они, конечно, могут подействовать и на тех, которых не допустили к проверке, однако такое допущение будет умозрительным. Даже если лекарства и окажутся эффективными для больных из этой «исключенной» группы пациентов, у разных людей сила эффекта проявится по-разному.
Дело не только в том, что стало затруднительно измерить эффективность лекарств. Проблема гораздо шире: по вышеуказанным причинам искажаются наши оценки соотношения цены и качества (в эпоху растущих затрат в сфере медицинских услуг нам нужно также побеспокоиться и о финансовой составляющей при покупке медикаментов). Вот вам один пример, касающийся одного из новых обезболивающих средств под названием коксиб. Препарат попал на рынок благодаря тому, что вызывает меньше кровотечений желудочно-кишечного тракта по сравнению со старыми дешевыми обезболивающими, как, например, недорогой ибупрофен.
Коксиб, видимо, на самом деле, снижает риск возникновения кровотечений в желудочно-кишечном тракте, что хорошо, так как такие кровотечения могут быть достаточно опасными. На самом деле препарат сокращал такой риск примерно вдвое, как показали результаты исследований. Они проводились, конечно же, на идеальных пациентах, у которых наблюдалась повышенная предрасположенность к возникновению кровотечения в желудке или кишечнике. Для людей, проводивших исследование, такой выбор был вполне обоснован: если вы хотите показать, что лекарство сокращает риск возникновения кровотечений, будет гораздо легче и дешевле продемонстрировать это на группе больных, у которых кровотечения случаются довольно часто. В противном случае действие лекарства будет проявляться редко, поэтому к исследованию понадобится привлечь очень большое количество пациентов.
Но появляется интересная проблема, если использовать цифры, отражающие снижение частоты возникновения кровотечений у ненормально идеальных пациентов, для подсчета стоимости предотвращения кровотечения у больных в реальном мире. NICE подсчитала, что такие затраты будут равняться 20 000 долларов на каждый случай предотвращения кровотечения, однако верный ответ, скорее всего, 100 000 долларов.9 Можно легко понять, где NICE сделала ошибку, выполняя математические вычисления на нескольких простых приблизительных округленных числах, хотя они выглядят почти в точности как настоящие, что очень удобно. Мы должны считать в долларах, потому что анализ, вскрывающий эту проблему, был опубликован в американском научном журнале.
У пациентов из исследования был высокий риск возникновения кровотечений. В течение года у 50 человек из 1000 наблюдалось по одному случаю. Эта частота была снижена до 25 из 1000, если пациенты принимали коксиб, так как этот препарат снижает вероятность появления кровотечения в два раза. Коксиб обходится каждому пациенту в 500 долларов в год. Поэтому потратив $500 000 на 1 000 пациентов, вы получаете на 25 кровотечений меньше, а $500 000÷25 означает, что предотвращенные случаи обходятся вам в $20 000 каждый.
Но если посмотреть на обычных пациентов, принимающих коксиб, имена которых есть в базе данных врачей общего профиля, то можно увидеть, что у них риск возникновения кровотечений гораздо ниже. В течение года они случаются у 10 человек из 1 000. Эта цифра снижается до 5, если они принимают коксиб, так как препарат снижает вероятность кровотечения вдвое. Так что вы платите $500 000 за 1 000 пациентов, чтобы те принимали коксиб в течение года, однако при этом получаете на 5 кровотечений меньше, и значит $500 000÷5. Получается, предотвращенные случаи кровотечений обходятся вам в $100 000 каждое. Это гораздо больше, чем $20 000.
Проблема нерепрезентативности пациентов, принимавших участие в исследованиях, называется проблемой внешней валидности или генерализуемости (обобщаемости). Она может сделать результаты исследования полностью бесполезными для обычных, среднестатистических больных, хотя такая практика абсолютно обычна при проведении научных изысканий, которые выполняются при урезанном бюджете, в сжатые сроки, с целью получения быстрых результатов и при участии людей, которых не волнует то, что эти результаты не будут иметь ничего общего с реальным миром клинической практики. Вроде бы попахивает скандалом, но не громким, а тихим и незаметным. О нем не напишут статью с броским заголовком, так как в истории нет конкретного лекарства-убийцы. Просто изо дня в день происходит медленное и ненужное загрязнение почти всей базы данных в медицине нерепрезентативной информацией.
Сравнивайте ваше лекарство с чем-нибудь никчемным
Испытываемые лекарства часто сравниваются с каким-нибудь не очень качественным препаратом. Мы уже видели, как компании предпочитают сравнивать свои лекарства с таблетками плацебо – пилюлей с сахаром, которая не содержит никакого действующего вещества, поэтому при таких исследованиях планка для прохождения устанавливается очень низко. Также распространено явление, когда во время исследований новый препарат сопоставляется с его заведомо неэффективным аналогом или же с качественным препаратом, который специально дают испытуемым в нелепо мизерных дозах либо наоборот – в несуразно больших.
Ваше лекарство точно предстанет в выгодном свете, если сравнивать его с каким-нибудь не очень действенным препаратом. Идея может показаться абсурдной и даже жестокой, поэтому мы довольны тем, что исследователь Дэниэл Сейфер собрал большую коллекцию исследований, организаторы которых прибегали к использованию низких доз, специально для демонстрации этого явления.10 В одном исследовании пароксетин сравнивался с амитриптилином. Пароксетин – один из новейших антидепрессантов, который почти не вызывает побочных эффектов, таких как сонливость. Амитриптилин – очень старый препарат, известный тем, что от него клонит в сон, поэтому в обычной клинической практике врачи часто советуют пациентам принимать его на ночь, потому что сонливость не сильно беспокоит, если пациент уже спит. Но в этом исследовании амитриптилин давался дважды днем, утром и на ночь. У пациентов большую часть дня отмечалась сонливость от лекарства, поэтому пароксетин на таком фоне выглядел лучше.
Как один из вариантов, в некоторых исследованиях дорогой новый препарат сравнивается со старым, который дают в необычно больших дозах, и поэтому он вызывает более тяжелые побочные эффекты. Этот прием можно проиллюстрировать на примере широкого спектра антипсихотических средств. К нему прибегало не одно поколение исследователей при проведении сравнения двух препаратов.
Шизофрения подобна раку. Это болезнь, от которой нет идеального лекарства, поэтому польза от приема медикаментов часто должна сопоставляться с вредом от побочных эффектов. У каждого страдающего шизофренией разные цели. Некоторые предпочитают жить в постоянной опасности наступления рецидива, потому что любой ценой хотят избежать неприятных ощущений от побочного действия лекарств. Другие полагают, что рецидивы представляют угрозу для их жизни и могут стоить им дома, друзей, работы, поэтому согласны терпеть в обмен на улучшение в самочувствии.
Часто принять решение сложно, потому что побочные эффекты при приеме препаратов от шизофрении – обычное явление. Особенно распространены двигательные расстройства (которые немного похожи на симптомы болезни Паркинсона) и набор веса. В связи с этим целью инновационных мероприятий на данном поле деятельности было создать таблетки, которые устраняют симптомы болезни, но не вызывают побочных эффектов. Около 20 лет назад произошел прорыв. На рынок была выпущена новая группа лекарств, так называемые атипичные средства, которые обещали больным именно то, что им было нужно больше всего. Был проведен ряд исследований для сравнения новых препаратов со старыми.
Сейфер нашел шесть работ, авторы которых сравнивали антипсихотические лекарства нового поколения со старым, надоевшим всем галоперидолом (всем хорошо известно, что он вызывает сильные побочные эффекты). Препарат давался испытуемым в дозах по 20 мг в день. Нельзя сказать, что это слишком много. Такая доза не вырубит больного немедленно, а ее размер не превышает максимально допустимую норму, указанную в Британском национальном фармакологическом справочнике, стандартной инструкции, которой пользуются все врачи при назначении лечения. Однако 20 мг – очень странная доза. Пациенты, получающие действующее вещество в таких больших количествах, неизбежно будут испытывать ряд различных побочных эффектов.
Интересно, что 10 лет спустя история в точности повторилась: рисперидон был одним из первых препаратов из группы нового поколения антипсихотических средств. Срок действия патента на него закончился, он тут же стал очень дешевым, как все лекарства старого поколения. Как следствие, многие фармацевтические компании хотели показать, что их дорогой антипсихотический препарат нового поколения был лучше, чем рисперидон, который неожиданно стал считаться устаревшим. В связи с этим появились результаты исследований, сравнивавших новые лекарства с рисперидоном (его давали в дозе 8 мг). Снова оговоримся: 8 мг – не очень много, но все равно такая дозировка превышает средний уровень. Пациенты, получающие препарат в таких больших количествах, будут, скорее всего, часто жаловаться на побочные эффекты, в результате чего другое лекарство предстанет в более выгодном свете.
И снова мы имеем дело с тихим и незаметным скандалом. Это не значит, что любой из этих специфических препаратов является верным убийцей больных, о котором нужно немедленно написать статью с броским заголовком. Просто во время проведения исследований факты в целом постоянно искажаются.
Слишком короткие исследования
Исследования, как мы видели, часто длятся очень недолго, потому что компании хотят получить результаты как можно скорее, чтобы представить лекарство в лучшем виде, пока на него действует принадлежащий им патент. Ввиду этого возникает несколько проблем, включая те, что мы уже рассмотрели, а именно: для подтверждения эффективности препарата исследователи используют «суррогатные маркеры» (сопутствующие положительные эффекты), такие как изменения в биохимии крови, вместо «конечных маркеров» (основной эффект), например, сокращения частоты сердечных приступов, отслеживание которых занимает дольше времени. При этом недостаточно длительные исследования могут также исказить полезные свойства лекарства просто из-за своей непродолжительности, если долговременные эффекты отличаются от кратковременных.
Например, при операции по удалению раковой опухоли пациент подвержен кратковременным рискам: он может умереть прямо на операционном столе или после хирургического вмешательства от инфекции, однако люди надеются, что эти кратковременные риски уравновешиваются долговременной оптимистичной перспективой. Если провести исследование и сравнить пациентов, которые были прооперированы, с теми, кто отказался от удаления опухоли, но при этом оценивать результаты, собранные в течение лишь одной недели, то можно заметить, что прооперированные пациенты умирали быстрее, чем воздержавшиеся от хирургического вмешательства. Это происходит потому, что некоторые больные могут жить месяцами и даже годами с опухолью, и преимущества такой операции становятся очевидными лишь через месяцы и годы, в то время как риски, относящиеся к тому малому количеству людей, умерших на операционном столе, проявляются немедленно.
Та же самая проблема возникает и при проведении сравнения лекарств. Может наблюдаться неожиданный, мгновенный, кратковременный полезный эффект, скажем, от лекарства для похудения, который со временем снижается и сводится к нулю. Или же могут возникать кратковременные положительные эффекты и долговременные побочные, которые можно отследить только при более длительном наблюдении за пациентами. Так, например, препарат для похудения «Фенфен» вызывал снижение веса при весьма успешных кратковременных исследованиях, но когда принимающие его пациенты наблюдались на протяжении более длительных сроков, таблетки начинали негативно сказываться на состоянии сердечных клапанов.11 Бензодиазепин, лекарство вроде валиума, очень хорош для устранения чувства тревоги в короткие сроки. Исследование, длившееся 6 недель, выявило огромный положительный эффект от него, однако на протяжении последующих месяцев и лет положительное действие снижалось, и пациенты привыкали к препарату. Такие нежелательные явления, проявляющиеся в долгосрочной перспективе, можно обнаружить только во время проведения долговременных исследований.
Однако это не означает, что длительные исследования автоматически выигрывают по сравнению с кратковременными. Все дело в клиническом вопросе, на который вы ищете ответ, или, может быть, пытаетесь уйти от него. Если вы имеете дело с таким дорогим противораковым препаратом, как «Герцептин», вам наверняка захочется узнать, будет ли лечение этим лекарством в течение короткого периода так же эффективно, как и на протяжении более долгого временного отрезка, чтобы не покупать много таблеток без особой надобности и не подвергаться при этом воздействию побочных эффектов в течение более длительного времени. Чтобы узнать это, нужно провести быстрые исследования или, по меньшей мере, исследования с результатами, собранными в течение долгого периода наблюдения, но после проведения не очень длительного лечения. Roche подала заявку на лицензию на «Герцептин», предоставив данные по 12-месячным исследованиям. В Финляндии проверка лекарства проводилась только 9 недель. Обнаружился значительный положительный эффект от препарата, и ведомство Новой Зеландии, аналогичное NICE (Национальный институт здравоохранения и качества медицинской помощи), решило согласовать 9-недельный курс лечения для раковых больных. Компания Roche в свою очередь аннулировала результаты кратковременного исследования и организовала новые продолжительностью 2 года . Как вы догадываетесь, если нам хочется узнать, являются ли 9 недель лечения «Герцептином» такими же эффективными, как лечение тем же препаратом в течение 12 месяцев, нужно провести несколько исследований для сравнения режимов этих двух видов лечения. Спонсирование подобных мероприятий – часто рискованное и смелое предприятие.
Исследования, прекращающиеся раньше срока
Если исследования прекращаются раньше или позже намеченной даты, потому что проводящие их специалисты следят за результатами и выбирают наиболее подходящие по мере их поступления, шансы получить удовлетворительные для организаторов данные повышаются. Это происходит благодаря случайным колебаниям в числовых показателях. Речь идет о несколько усложненном способе, как можно повысить свои шансы выиграть в «орел – решку», используя вышеупомянутую стратегию: «Бросаем! Так, две из трех. Бросаем! Три из пяти? Бросаем! Пять из семи».
Снова и снова мы будем возвращаться в этой книге к одному и тому же принципу: если создать такую ситуацию, при которой у исследователя будет много шансов получить положительный результат, но использовать статистические тесты, предполагающие, что была лишь одна возможность, то можно очень сильно повысить вероятность получения ложноположительного результата. В этом состоит суть проблемы, с которой сталкиваются люди, скрывающие отрицательные результаты. Аналогичная проблема наблюдается и при выборе метода анализа результатов исследований, данные которых не были сокрыты.
Например, если подбрасывать монетку достаточно долго, то очень скоро можно дождаться, когда выпадут четыре орла подряд. Это не одно и то же, если сказать: «Сейчас я брошу монетку и выброшу четыре орла подряд» и сделать это. Мы знаем, что временной промежуток, в течение которого были собраны данные, позволяет выбрать ряд привлекательных для исследователя результатов, и это, как мы тоже знаем, приведет к созданию неправильного представления о лекарстве и неверному толкованию данных.
В исследовании CLASS на протяжении шести месяцев сравнивали новое обезболивающее под названием целекоксиб с двумя старыми препаратами. При приеме нового лекарства наблюдалось меньше проблем с желудочно-кишечным трактом, поэтому его прописывало все больше врачей. Годом позже выяснилось, что изначально планировалось провести еще одно исследование продолжительностью в один год. В течение более длительной проверки целекоксиб не подтвердил свою эффективность, но когда в отчет были включены только результаты за шесть месяцев, препарат засиял во всем великолепии. Именно эти результаты и были указаны в научной статье для публикации.
Нужно признать, что прекращение исследований раньше срока иногда может быть обоснованным. Например, часто прекращают проверку, если у пациентов двух различных групп наблюдаются очень весомые и явные различия в проявленном положительном эффекте, особенно если разница такая большая, такая недвусмысленная и информативная, что даже если отнести ее на счет побочных эффектов, ни один терапевт в здравом уме не продолжит прописывать неудачное лекарство и никто не станет пробовать дать его пациенту снова.
Однако тут надо быть очень осторожным. Некоторые ужасно искаженные данные просочились в науку благодаря людям, которые слишком полагались на такие случайно полученные результаты. Например, исследования по изучению свойств бисопролола во время сосудистой хирургии были остановлены раньше срока, когда в одной группе пациентов сильный сердечный приступ случился всего у двоих, а в контрольной группе, принимавшей плацебо, – у 18 человек. Был сделан вывод, что похоже, препарат очень эффективный и спасает жизни людей, поэтому в рекомендации по лечению были внесены соответствующие поправки. Но когда начали возникать подозрения, что во время предыдущих тестирований полезные свойства препарата были завышены, провели два новых больших исследования, которые обнаружили, что от бисопролола на самом деле не было никакой пользы.12 Первоначальные результаты оказались неверными и заставили исследователей прекратить проверку раньше срока после череды смертей, произошедших по случайному совпадению.
Здесь нужно прояснить, что комитет по этике, контролирующий проведение исследования, может сам иногда потребовать остановить проверку раньше срока, а проверка данных во время исследования представляет собой сложный этический вопрос. Если врачу кажется, что нашлись факты, подтверждающие наличие вреда от того или иного препарата, до окончания исследований (или же сходный этический вопрос – если обнаружено, что один препарат гораздо лучше другого), нужно ли в таком случае продолжать подвергать пациентов воздействию лекарства, которое может представлять серьезную опасность, только для того, чтобы дойти до конца, либо же отнести эти результаты на счет случайного совпадения? И нужно ли закрывать всю лавочку и завершать исследования, при этом зная о существовании потенциальной возможности, что такие случайные результаты могут попасть в медицинские статьи и создать неверное впечатление о лекарстве, а на их основе будут приниматься неверные решения о лечении больных в будущем? Особенно это беспокоит, если вспомнить, что после сокращенных исследований все равно нужно проводить более масштабные и длительные, подвергая риску новых людей, только для того чтобы проверить, были ли результаты аномальными.
Одним из способов, как можно уменьшить нежелательные последствия, вызываемые досрочным прекращением исследований, является разработка правил остановки экспериментальных работ, которые должны быть внедрены еще в самом начале. Эти правила должны быть тщательно разработанными и достаточно строгими, чтобы исключить возможность их применения при возникновении случайной вариации данных, которую можно наблюдать в любом исследовании на каком-нибудь этапе его проведения. Такие правила полезны, так как они ограничивают степень влияния человеческого суждения, которое может быть необъективным и предвзятым.
Однако какие бы мероприятия ни проводились для сокращения последствий от досрочных прекращений исследований, они все равно будут приводить к загрязнению данных. В обзоре от 2010 года были рассмотрены около 100 прерванных исследований и 400 сходных исследований, проведенных до конца в соответствии с планом. Результаты остановленных раньше срока исследований были лучше и завышали эффективность проверяемых лекарств примерно на четверть.13 При проведении другого недавнего обзора выяснилось, что количество исследований, остановленных раньше срока, удвоилось с 1990 года,14 что не очень хорошая новость. В любом случае к результатам исследований, остановленных раньше срока, нужно относиться по меньшей мере с большой долей скепсиса. В особенности потому, что в вышеупомянутых систематических обзорах отмечается, что исследования были прекращены досрочно без указания каких-либо причин.
Наконец, все эти факты нагнетают еще большую тревогу, если посмотреть на то, какие именно исследования останавливались раньше срока, кто их останавливал и для чего используются их результаты в настоящий момент.
В 2008 году четверо итальянских ученых свели вместе все рандомизированные исследования по проверке противораковых препаратов, которые были опубликованы в предыдущие 11 лет и были остановлены ради блага пациентов.15 Больше половины были опубликованы в течение трех прошедших лет, и это лишний раз свидетельствует о том, что данный вопрос становится все более актуальным. Отрасль разработки противораковых препаратов – быстро развивающая сфера медицины, которая постоянно находится на виду. Здесь время – деньги, а новые лекарства могут принести прибыль в кратчайшее время. Результаты 86 % исследований, остановленных раньше срока, использовались при обосновании подачи заявки на лицензию для выпуска новых препаратов на рынок.
Продленные исследования
Было бы ошибкой думать, что какой-то из описанных выше случаев представляет собой пример нарушения простых правил, которые должны бездумно выполняться. Исследование может прекратиться раньше по глупым, необоснованным причинам, однако его могут остановить до срока и по вполне объективным обстоятельствам. Подобным же образом может произойти обратное: иногда исследование может быть продлено обоснованно, но иногда продление исследования или включение в него результатов последующих периодов могут разбавить значимые данные и сделать их менее заметными в общей массе. Салметерол – ингаляторный препарат, используемый для лечения астмы и эмфиземы легких. То, что описано далее16 – если вы сможете понять все технические подробности до конца, – может испугать многих людей, поэтому помните, что это не руководство и здесь не приводится конкретных рекомендаций относительно того, какое лекарство хорошее, а какое плохое. Мы выявляем необъективные методы, которые иногда применяются компаниями при исследованиях всех типов лекарств.
Салметерол – бронхолитическое средство. Принцип его действия основан на расширении воздухоносных путей, благодаря чему астматику становится легче дышать. В 1996 году то тут, то там начали появляться сообщения о том, что салметерол иногда начинает оказывать противоположное действие, вызывая так называемый «парадоксальный бронхоспазм», и только ухудшает самочувствие пациентов. Критики-дилетанты часто игнорируют такие сообщения, так как, по их мнению, они не имеют отношения к науке, но они поступают неправильно. Вовсе не означает, что сообщения о таких случаях не имеют никакой ценности, так как их возникновение часто свидетельствует о первых признаках появления проблемы (или неожиданно выявленной эффективности).
Производитель салметерола, компания GSK, решила расследовать ранние отчеты о негативном действии препарата и организовала рандомизированные исследования. В них состояние пациентов, пользовавшихся аэрозолем салметерола, сравнивалось с самочувствием пациентов, в ингаляторах которых было лекарство-плацебо, то есть без активных веществ. Первичная конечная точка исследования была предварительно определена как «смерть от остановки дыхания и опасные для жизни состояния». Вторичная конечная точка исследования – такие случаи, как смерть от астмы (подгруппа смертей от остановки дыхания), смерть по любым причинам и смерть от астмы и опасные для жизни состояния, – опять все собрано в одну кучу.
Для исследования предполагалось набрать 60 000 больных и понаблюдать за ними в течение 28 недель. Исследователи должны были встречаться с пациентами через каждые 4 недели, чтобы узнать о динамике и проблемах. На протяжении 6 месяцев этого 28-недельного периода исследователей попросили докладывать о любых серьезных отрицательных явлениях у больных, которые были им известны, однако они не искали такие явления специально.
Потом случилась темная история, о которой в подробностях рассказали на страницах журнала Lancet несколькими годами позднее Питер Лурие и Сидни Вольф, изучив документы Управления по контролю за качеством пищевых продуктов и лекарственных веществ. В сентябре 2002 года внутренний Комитет по контролю за исследованиями устроил заседание, на котором просмотрел результаты по всем 26 000 пациентам, обследованным в ходе проверки. Судя по конечной первичной точке – «смерть от остановки дыхания и опасные для жизни состояния», – салметерол был хуже плацебо, хотя разница была не очень статистически значимой. То же самое можно было сказать и о «смертях от астмы». Комитет уведомил GSK о следующем: вы можете проверить правильность результатов на еще 10 000 пациентах, чтобы подтвердить догадку, или завершить исследования с «дальнейшей публикацией результатов в кратчайшие сроки». GSK выбрала последнее и представила внутренний отчет об анализе данных на одной из научных конференций, заявив, что он «незавершенный и неокончательный». В Управлении по контролю за качеством пищевых продуктов и лекарственных веществ забеспокоились и решили внести изменения в текст на этикетке лекарства, где теперь должно было содержаться упоминание о том, что препарат вызывает «небольшое, но значительное повышение количества случаев смерти от астмы».
С этого момента начинаются интересные вещи. GSK выслала статистику по исследованию в Управление, однако предоставленные расчеты были произведены не при помощи метода, указанного в плане исследования, предоставленного до начала работ, который предполагал, что общее количество случаев этих неблагоприятных событий должно учитываться за 28-недельный период исследований, когда такие события тщательно отслеживались, что вполне логично. Вместо этого GSK выслала цифры за весь 12-месячный период: и за 28 недель, когда неблагоприятные эффекты тщательно отслеживались, и за 6 месяцев после окончания исследования, когда поиск неблагоприятных событий активно не велся, поэтому они реже фиксировались в отчете. Это означает, что большое количество неблагоприятных состояний, имевших место в течение 28-недельного периода исследований, понизилось за счет данных более позднего периода, в результате чего проблема стала выглядеть гораздо менее значимой.
Если вы посмотрите на таблицу, приведенную в статье из журнала Lancet, вы увидите, как уловка GSK отразилась на данных. Не расстраивайтесь, если поймете не все. В таблице есть и простая, и сложная для понимания информация. «Относительный риск» описывает, насколько чаще у пациента возникло бы какое-либо событие (например, смерть), если бы он находился в группе, принимавшей салметерол, в сравнении с группой, которая получала плацебо. Так, значение относительного риска, равное 1,31, означает, что вероятность наступления этого события (например, смерти) на 31 % выше.
Цифры в скобках означают 95 %-й доверительный интервал. Если цифра за скобками, обозначающая относительный риск, это наша точечная оценка для измерения разницы в риске между двумя группами (салметерол и плацебо), то 95 %-й доверительный интервал говорит нам о том, насколько можно быть уверенным в этом результате. Статистики будут выстраиваться в очередь, чтобы дать мне пинка, если я все упрощаю, но по сути, если вы проводите тот же эксперимент, на тех же пациентах, в той же стране сотни раз, то все равно каждый раз будете получать немного разные результаты просто из-за действия фактора случайности. Но при совпадении в 95 случаях из 100 истинный относительный риск будет лежать где-то между двумя противоположными точками в 95 %-м доверительном интервале. Если вы знаете лучший способ объяснить это в трех словах, то мой адрес электронной почты вы найдете в конце книги.
GSK не уведомила Управление, какой именно набор результатов был передан. Только в 2004 году в госведомстве поинтересовались промежутком времени, за который были предоставлены результаты, и в фармацевтической компании ответили: за 12 месяцев. В Управлении остались недовольны ответом, однако это недовольство было выражено в вежливой форме:
«Сотрудники нашего отдела предполагали, что будут высланы только данные за период 28 недель, так как именно 28-недельный период представляет интерес с точки зрения клинических испытаний».
В госведомстве потребовали предоставить данные за период 28 недель и сказали, что вся информация, которую намереваются внести в инструкцию к лекарству, будет составлена на основе этих данных. При их изучении, как видите, картина эффективности лекарства становится куда более мрачной. Прошло два года после окончания испытаний, прежде чем их результаты были опубликованы в научных изданиях и изучены врачами. Также понадобилось много времени, чтобы наконец внести изменения в инструкцию к лекарству, где пациентам объяснялись результаты исследования.
Как подчеркнули Лурие и Вольф, из этой истории можно извлечь два интересных урока. Во-первых, у компании была возможность помешать распространению информации о негативных результатах и не дать дойти ей до пациентов и врачей, несмотря на то что производитель был хорошо осведомлен, что препарат был популярен и широко использовался на протяжении долгого периода времени (с подобным мы уже сталкивались ранее). И во-вторых, мы бы никогда не узнали обо всех этих событиях, если бы о деятельности Экспертной комиссии Управления по контролю за качеством пищевых продуктов и лекарственных веществ не было хотя бы частично известно публике. Когда за проблемой следит много глаз, легче заметить скрытые подтасовки в данных. И с этим мы уже раньше сталкивались.
GSK написала письмо в журнал Lancet о том, что данные за 12 месяцев были единственными данными, проанализированными Комитетом по контролю за исследованиями, который является независимым от компании органом (исследования проводила КИО).17 В нем говорилось, что о рисках сообщалось незамедлительно, а врачам, выписывавшим салметерол, высылались письма в январе 2003 года, когда исследования были официально остановлены. Соответствующее информационное сообщение появилось на сайтах GSK и Управления по контролю за качеством пищевых продуктов и лекарственных веществ, где говорилось о том, что препарат был проблемным лекарством.
Слишком мелкомасштабные исследования
Исследование малого масштаба может быть проведено, если предполагается, что проверяемое лекарство спасает жизни пациентов при состояниях, ведущих к неминуемой смерти. Однако для обнаружения незначительных различий между двумя препаратами нужно провести более масштабное исследование. И потребуется провести уж совсем большую проверку, чтобы убедиться, что два лекарства одинаково эффективны.
Большинство людей думает, что знают точно одну вещь об исследовании: большое количество участников обеспечивает более надежные показатели. Это правда, однако количество участников не единственный значимый фактор. Польза от многочисленности в том, что при большой выборке уравновешиваются случайные колебания в спектре параметров испытуемых. Если ученый проводит небольшое исследование чрезвычайно действенного препарата для улучшения умственной концентрации в двух группах по 10 человек в каждой и если хотя бы один человек из одной группы погуляет на вечеринке за день до проведения теста на концентрацию, то его плохие показатели испортят все высокие результаты остальных участников. Если в исследовании участвует больше людей, такого рода отклонения уравновешиваются за счет большого количества проверяемых.
Стоит помнить, что иногда малое исследование может быть оправданным, так как размер группы участников зависит от множества факторов. Например, если ученый имеет дело с болезнью, вызывающей у человека смерть в течение суток, а у него есть лекарство, которое, по его словам, может излечить эту болезнь немедленно, не нужно набирать много людей, чтобы показать действенность препарата. Если же различия, которые вы пытаетесь обнаружить между двумя группами, принимающими разные средства, очень тонкие, тогда вам нужно больше участников, чтобы определить эту незначительную разницу по сравнению с естественным фоном каждодневных непредвиденных изменений в состоянии всех индивидов из вашего исследования.
Иногда можно увидеть публикации о проведении подозрительно большого числа малых исследований, организованных для проверки только одного лекарства. Когда такое происходит, резонно предположить, что это своего рода маркетинговое мероприятие, устроенное с целью публикации серии статей, а не истинные научные изыскания. Вскоре вы познакомитесь с еще несколькими маркетинговыми приемами в разделе «Исследования с целью продвижения лекарства».
Во всем этом скрыта еще и очень интересная методологическая проблема. Когда вы планируете провести исследование для определения различий в показателях двух групп пациентов, принимающих различные лекарства, вы делаете так называемый расчет мощностей. С его помощью можно сказать, сколько пациентов вам понадобится для проверки, если вероятность обнаружить 20 %-ю разницу в количестве летальных исходов у пациентов из разных групп при данной ожидаемой частоте смертей у ваших участников составит 80 %. Если исследование проведено и не обнаружено никакой разницы в количестве смертей в группах пациентов, принимавших разные препараты, это значит, что вы не нашли фактов, подтверждающих преимущества одного лечения перед другим.
Это не то же самое, что показать равноценность двух разных препаратов друг другу. Если вы хотите показать, что два лечения эквивалентны, тогда по ряду сложных технических причин (мне нужно где-то провести границу) вам нужно гораздо большее число участников.
Люди об этом часто забывают. Например, исследование INSIGHT было организовано, чтобы проверить, действительно ли нифедипин лучше, чем коамилозид, при лечении высокого кровяного давления. Никаких фактов, подтверждающих это, найдено не было. В то же время в научной статье утверждалось, будто бы эти два лекарства идентичны друг другу, хотя на самом деле это было неправдой.18 Десятки врачей и ученых прислали письма с указанием на ошибку.
Исследования, при которых сравниваются неинформативные результаты
Состав крови мгновенно реагирует на прием дозы лекарства, а проведение анализа крови – обычная и несложная процедура. Однако пациентов больше интересует избавление от боли и страданий, чем колонки цифр на листке из лаборатории с результатами анализа.
Мы говорили уже об этом в предыдущей главе, но нужно снова и снова повторять это, так как в наших клинических знаниях есть еще очень много пробелов – и их количество нельзя преувеличить – из-за неоправданной, слепой веры в суррогатные критерии эффективности. Было проведено множество исследований для сравнения статинов с плацебо, которые показали, что первые могут достаточно успешно использоваться для предотвращения смертельных случаев. Во время других исследований один статин сравнивался с другим, однако оценка обоих препаратов производилась на основе суррогатных критериев клинической эффективности. Никто еще никогда не сравнивал статины друг с другом по критерию, какой из них лучше спасает от смерти. Это поистине непростительный промах, принимая во внимание то, что десятки миллионов людей по всему миру принимали эти препараты на протяжении многих лет. Если даже один из них предотвращает инфаркты всего лишь на 2 % эффективнее, чем другие, то получается, каждый день сотни людей умирают зря из-за нашего незнания. А этих смертей можно было бы избежать. Десятки миллионов пациентов подвергаются ненужному риску, потому что принимают лекарства, которые не сравнивались должным образом между собой. При этом по каждому из этих пациентов можно получить ценные данные, которые могут быть использованы для формирования новых знаний о том, какое лекарство в целом лучше, при условии проведения систематических рандомизированных исследований, направленных на изучение действия препарата на основные точки клинической эффективности. Обо всем этом вы узнаете больше в следующей главе, где мы будем обсуждать потребность в проведении больших простых исследований, потому что данная проблема не относится к научным. Пациенты лишаются жизни из-за нашего некритичного принятия данных исследований, во время которых не измерялись долгосрочные или основные критерии клинической эффективности.
Исследования, результаты которых сгруппированы странным способом
Иногда использование неверного способа компоновки данных для получения итогового эффекта от лечения может привести к искажению результатов. Например, просто сдвинув пороговые отметки вправо, можно превратить незначительный положительный эффект от лекарства в значимый, завышая его эффективность. А при группировке нескольких положительных свойств препарата, воздействующих на разные параметры организма, в одно для получения «совокупного результата» можно разбавить данные по вредным эффектам или сделать так, чтобы ненужные свойства лекарства, воздействующие на параметры организма, не представляющие интереса, создали впечатление, будто наблюдается улучшение по целому ряду точек клинической эффективности.
Даже если вы собираете абсолютно истинные итоговые данные по основной точке клинической эффективности лекарства, то неправильно выбранный способ, при помощи которого вы сводите эти данные в течение исследования, может исказить общую картину. Приведу сначала несколько простых примеров, как это делается, а затем несколько более сложных.
Самый грубый пример: авторы многих статей (слава богу, все это уже в прошлом) использовали метод фиксации худшего зарегистрированного значения побочных эффектов.19 Это может привести к большим искажениям данных, так как при таком методе принимается во внимание только один лишь худший побочный эффект, который наблюдался когда-либо у пациента на протяжении всего исследования, а не сумма всех значений побочных эффектов, зарегистрированных в течение всего процесса. На графиках ниже вы можете увидеть, почему это так важно. Лекарство, представленное верхним графиком, выглядит таким же хорошим, как и лекарство внизу, благодаря использованному методу учета наихудшего значения из всех побочных эффектов, хотя лекарство внизу гораздо лучше, с точки зрения тяжести побочных эффектов.
Другой способ сведения результатов, который искажает общую картину, состоит в следующем: исследователь назначает пороговый критерий эффективности, после чего можно сделать вид, будто незначительное улучшение свидетельствует о значительной пользе от применения данного лекарства, в то время как в реальности ее может не быть вообще. Например, 10 %-е уменьшение интенсивности симптомов у больных может быть расценено как отличный результат, хотя пациенты все так же остаются немощными.20 Это в особенности искажает истинную картину, когда при лечении одним лекарством достигается значительное улучшение в состоянии пациента, при условии если средство вообще работает, а при применении другого лекарства наблюдается лишь скромный эффект, если оно работает вообще, но оба преодолевают произвольно установленный и скромный порог в 10 % в группах с одинаковым количеством пациентов: неожиданно более скромный препарат начинает казаться таким же действенным, как и лучшее лекарство в данном классе.
Также можно сводить вместе сразу несколько различных эффектов лекарства, чтобы получить один «суммарный эффект».21 Часто такое допускается, однако иногда данный подход может завышать положительные свойства лекарства. Например, в целом сердечные приступы происходят сравнительно редко, что справедливо и в том случае, если речь идет о большинстве исследований, при которых тестируются лекарства для лечения сердечно-сосудистых заболеваний. По этой причине такие исследования часто проводятся с большим количеством участников, чтобы иметь возможность определить разницу в частоте случаев сердечных приступов у пациентов двух групп. Из-за этого обычно все важные результаты воздействия лекарства «от сердечно-сосудистых заболеваний» группируются друг с другом. В этой «суммарной группе» объединяются смертельные случаи, сердечные приступы и грудная жаба (грудная жаба, или стенокардия, если вы не знаете, это боль в груди из-за проблем с сердцем. Она вызывает беспокойство, но не настолько сильное, как сердечный приступ и смерть). Значительное улучшение параметров по всем этим трем пунктам вместе может создать впечатление, что лекарство – прорыв и панацея от сердечных приступов и смерти, пока вы не взглянете на необработанные данные и не увидите, что на протяжении исследования сердечных приступов и летальных исходов почти не регистрировалось, а значит, на самом деле все улучшения параметров касаются лишь стенокардии.
Один из наиболее значимых суммарных эффектов был взят из знаменитого британского исследования UKPDS, во время которого изучалось, влияет ли как-нибудь интенсивный контроль уровня сахара в крови у диабетиков на реальные показатели организма. Сообщалось о трех ожидаемых результатах лечения: положительного эффекта от лекарства на первые два (смерть и смерть от диабета) зафиксировано не было, однако отмечалось 12 %-е увеличение суммарной эффективности препарата. Его совокупный эффект складывался из множества различных факторов:
• Неожиданная смерть;
• Смерть от высокого или низкого уровня сахара в крови;
• Сердечный приступ без смерти;
• Стенокардия;
• Сердечная недостаточность;
• Инсульт;
• Почечная недостаточность;
• Ампутация;
• Кровоизлияние в среднюю камеру глаза;
• Поражение глазных артерий вследствие диабета, требующее лечения лазером;
• Слепота на один глаз;
• Катаракты, требующие удаления.
Как видим, перед нами довольно длинный список, и 12 %-е снижение по всем его пунктам, конечно, выглядит как «результаты, производящие впечатление на пациента», как мы говорим в бизнесе (РПВП, если вам так больше нравится). Однако большинство улучшений в этом совокупном эффекте относится к людям, которым было проведено успешное лечение лазером в связи с повреждением глазных артерий. Это прекрасно, но едва ли эту болезнь можно назвать самой важной из всего списка. Такой результат возник, главным образом, благодаря своеобразной обработке данных, но его нельзя назвать конкретным реальным результатом. Если вас интересует действительный эффект, то можно сказать следующее: в количестве людей, жалующихся на потерю зрения, не было никаких изменений, но в любом случае понятно, что сокращение числа поражений глаз – менее важный результат, чем понижение числа сердечных приступов, смертей, инсультов или ампутаций. Сходным образом исследование обнаружило, что лекарство оказывает полезное воздействие на некоторые маркеры крови, предполагающие наличие проблем с почками, но фактического влияния на динамику развития самих почечных болезней в конечной стадии зафиксировано не было.
Все это интересно только потому, что исследование UKPDS имело немного легендарную репутацию среди врачей, поскольку выявило положительное воздействие препарата на многие точки клинической эффективности, начиная с интенсивного контроля уровня сахара в крови у диабетиков. Как возникло это широко распространившееся суеверие? Одна из групп предприимчивых исследователей решила найти все 35 обзорных работ по диабету, в которых цитировалось исследование UKPDS, и посмотреть, что было написано в них.22 В 28 работах говорилось, что исследование подтвердило наличие полезного совокупного эффекта, но только в одном упоминалось, что большинство отдельных эффектов относилось к улучшениям, касающимся наиболее обычных параметров, и только в шести было упомянуто об обнаружении отсутствия влияния на количество смертей, то есть на конечную точку клинической эффективности, которая имеет наибольшее значение при лечении больного. В ходе исследования выяснилось, что мы живем в мрачной реальности: слухи, упрощенные данные и выдаваемые за действительные желаемые результаты – все это с легкостью кочует из одной научной работы в другую, как и непроверенная и несоответствующая действительности информация со скоростью эпидемии распространяется по интернет-форумам, где обсуждаются вопросы по самым разным темам.
Исследования, в которых не учитываются выбывшие пациенты
Иногда пациенты выбывают из процесса исследования вообще. Часто это происходит потому, что им не понравился прописанный препарат. Однако при анализе данных, собранных с двух групп, принимавших участие в исследовании, нужно убедиться в том, что были приняты в расчет все пациенты, которым было назначено лечение. В противном случае полезные свойства лекарства будут завышены.
Анализировать пациентов по лекарству, которое они принимали, а не по лечению, которое было им назначено на стадии рандомизации исследования, – одна из классических ошибок на стадии анализа данных, которая может чудовищно извратить все результаты. С первого взгляда все выглядит достаточно логично: если 30 % пациентов выбыли из процесса и не принимали ваши новые таблетки, они не испытывали на себе никаких положительных эффектов лекарства и не должны включаться в группу, которой был назначен проверяемый препарат.
Но как только вы начинаете задумываться о том, почему люди выбыли из исследования, проблемы этого метода начинают становиться очевидными. Может быть, пациенты прекратили принимать таблетки, потому что они вызывали ужасные побочные эффекты. Может быть, они прекратили прием, так как посчитали препарат недейственным и просто избавились от него. Может быть, больные не стали продолжать назначенный им курс и приходить на консультации, потому что умерли из-за вашего лекарства. Рассматривать пациентов только с позиции лекарства, которое они принимали, значит проводить анализ «по плану». Как показала практика, такой метод значительно завышает полезные свойства лекарств, поэтому не должен использоваться.
Если при проведении итоговых расчетов вы будете относить всех пациентов, которым было прописано ваше лечение (включая выбывших), к группе, принимавшей препарат, то такой метод будет называться «анализом общей выборки пациентов, начавших проходить лечение». Такой анализ и более консервативный, и имеет гораздо больше смысла, с точки зрения философии. Вы собираетесь использовать результаты вашего лечения для обоснования вашего решения, чтобы предложить какому-либо пациенту принять эти таблетки, а не насильно затолкать их людям в горло. Поэтому необходимо, чтобы результаты были взяты из анализа, при котором люди оценивались по критерию, что им было прописано врачом, а не по тому, что они в действительности принимали.
Мне посчастливилось оценивать 60 экзаменационных работ – настоящий день сурка, если такой бывает, – в которых пятую часть оценки нужно было заработать путем объяснения метода анализа общей выборки пациентов, начавших проходить лечение. В этом анализе вся суть доказательной медицины, ее программа, поэтому очень странно до сих пор видеть, как проводятся бесконечные анализы «по протоколу», в соответствии с планом исследования, результаты которых заносятся в выпускаемые фармацевтическими компаниями отчеты. В одном систематическом обзоре были сначала изучены все отчеты об исследованиях, поданные компаниями в государственный орган по контролю за распространением лекарств в Швеции, а затем опубликованные научные работы, относящиеся к тем же исследованиям (если таковые были).23 Все поданные в ведомство документы, за исключением одного, включали как результаты анализа, проведенного с учетом всех пациентов, начавших проходить лечение, так и данные анализа «по протоколу», в соответствии с планом исследования, потому что органы по контролю за распространением лекарств, при всех их огрехах и одержимости секретностью, ведут контроль за методологией немного строже, чем многие научные журналы. Все научные работы, кроме двух, сообщали только об анализе, проведенном «по протоколу» (в соответствии с планом исследования), который завышает полезные свойства лекарства. Именно эту версию читали врачи. В следующем разделе мы рассмотрим еще один пример, как научные журналы вносят свою лепту в завышение результатов. Несмотря на декларируемые ими задачи, что они де являются стражами, следящими за публикацией результатов качественно проведенных исследований, часто такие издания не выполняют свою работу должным образом.
Исследования, в которых после завершения изменились основные результаты
Если во время проведения исследования измеряется несколько точек клинической эффективности, но автор расценивает улучшение в любой из них как положительный результат, то такие результаты недействительны. Наши тесты, необходимые, чтобы решить, является ли результат статистически значимым, предполагают, что исследователь измеряет только один параметр, одну точку клинической эффективности. Измеряя десяток параметров (точек клинической эффективности), ученый создает ситуацию, когда у него появляются десятки шансов получить положительный результат вместо одного, но при этом не декларирует это открыто. Получается, что в таком случае исследование является нечестным по своей структуре, и во время его проведения можно будет с большей вероятностью получить положительные результаты, чем они будут проявляться в действительности.
Представьте, что мы играем в кости и договариваемся, пусть даже в одностороннем порядке, о простой вещи: если я выбрасываю две шестерки, вы даете мне 10 фунтов. Я бросаю кубик, и выпадает две тройки, но я все равно требую выплатить мне 10 фунтов, заявляя, что именно об этом мы договорились изначально и что вы должны были мне дать 10 фунтов за выброс двух троек. Вы платите, и все довольны. По такому сценарию ведется сегодня игра в сфере клинических научных исследований. Такая практика, когда люди производят так сказать замену одних изначально установленных точек клинической эффективности на другие, является обычной и общепринятой. А нам, пациентам, приходится мириться с ней.
До проведения клинического исследования нужно написать его план. Это документ, в котором описывается то, что вы собираетесь сделать: сколько участников вы собираетесь набрать, где и как вы будете это сделать, какой препарат будет назначен каждой группе и какие точки клинической эффективности вы будете измерять. В исследовании нужно будет измерять все параметры как возможные точки клинической эффективности: вероятно, будет даже несколько различных шкал оценок для измерения боли, или депрессии, или чего-либо другого, что заинтересует вас (качество жизни или мобильность, которую вы измеряете при помощи какой-нибудь анкеты, смерть по разным причинам, смерть по каждой из ряда представленных причин и прочие параметры).
Все это делается до начала исследования для того, чтобы избежать одной простой проблемы: если вы измеряете много параметров, некоторые из них будут более привлекательными и статистически значимыми просто благодаря возникновению естественных случайных вариаций в данных исследования. Помните, что вы имеете дело с живыми людьми, проживающими в материальном мире, и их болевой порог, глубина депрессии, степень мобильности, качество жизни и т. д. будут разными от человека к человеку по ряду причин, и многие из них не будут иметь ничего общего с вмешательством, последствия от которого вы проверяете в ходе вашего исследования.
Если вы честный исследователь, вы будете использовать статистические тесты специально для выявления истинных полезных свойств лекарства, которое вы проверяете. Вы будете пытаться отличить эти реальные изменения от обычных случайных изменений в фоновых данных, которые вы увидите в результатах ваших пациентов при проведении различных тестов. Больше чем что бы то ни было вы захотите избежать получения ложноположительных результатов.
Традиционная пропорция статистической значимости совпадений 1 к 20. Грубо говоря, объясняя эту формулу простыми словами, если вы проведете одно и то же исследование много раз, используя те же методы, с теми же участниками из той же группы населения, то вы получите такие же положительные результаты, которые наблюдались в одном из 20 исследований, просто по случайности, даже если лекарство не оказывало совсем никакого полезного эффекта. Если вы будете зачерпывать двумя стаканчиками из одной бадьи с красными и белыми шариками, то и дело, чисто случайно, в одном стаканчике будет оказываться необычно мало красных шариков, а в другом – необычно много красных шариков. То же самое происходит и при измерении параметров здоровья пациентов: будут встречаться некоторые случайные вариации, и иногда все будет выглядеть так, как будто одно лекарство лучше другого, с точки зрения улучшения параметров организма, но на самом деле такое улучшение будет случайным. Статистические тесты разработаны для того, чтобы не дать этим самым случайным колебаниям параметров организма сбить нас с толку.
Поэтому сейчас давайте представим, что вы проводите исследование, при котором измеряете 10 разных независимых точек клинической эффективности. Если мы установим пропорцию статистической значимости как 1 к 20, тогда даже если ваше лекарство вообще не будет оказывать никакого полезного эффекта, в одном исследовании у вас все равно будет вероятность в пределах 40 % найти положительное действие лекарства по крайней мере на одну из точек клинической эффективности просто из-за случайных колебаний в ваших данных. Если вы предварительно не укажете, какие из параметров являются конечными точками эффективности, установленными изначально для исследования, то вы схитрите, а получив положительный результат по любой из 10 выбранных точек, вы объявите о позитивном результате вашего исследования.
Можете ли вы сразу открыто заявить о том, что делаете:
«Эй, мы измерили 10 точек эффективности, и по одной из них наблюдается улучшение показателей, поэтому наше лекарство классное»?
Да, наверное, так можно сделать, и в определенных обстоятельствах это сработает, потому что многие чтецы научных статей с удовольствием проглотят такую наживку и переключат внимание с одних точек клинической эффективности на другие. Однако большинство заметит вашу уловку. Им захочется увидеть отчет с результатами по изначально намеченным точкам клинической эффективности. Они-то знают, что, если измерять 10 параметров сразу, один из них уж точно будет выглядеть привлекательным просто по счастливой случайности.
Проблема состоит в том, что, даже если люди и знают, что вы должны устанавливать конечную точку клинической эффективности перед началом исследования, эти точки часто оказываются разными в плане исследования и в научной статье: они меняются после того, как проводящие исследование люди просмотрели результаты. Даже вы, случайный читатель, нашедший эту книгу на скамейке в метро, а не профессор статистики или врач, и то поймете, что это настоящее безумие. Если конечная точка клинической эффективности, упоминаемая в законченной статье, отличается от конечной точки клинической эффективности, намеченной до начала исследований, тогда создается совершенно абсурдная ситуация: весь смысл конечной точки клинической эффективности в том, что она назначается до того, как начинаются исследования. Однако люди меняют конечные точки клинической эффективности, и это не просто случайная проблема. На самом деле, это почти что обычное дело, нормальная практика среди исследователей.
В 2009 году группа исследователей собрала все работы, которые только могла найти, посвященные различным случаям использования лекарства под названием габапентин.24 Затем они посмотрели на данные тех исследований, по которым им удалось получить внутренние документы, где была указана первоначальная конечная точка клинической эффективности для каждого. Конечно, материалы половины всех исследований вообще не публиковались (возмущений по этому поводу не должно быть меньше с каждым новым случаем). Были опубликованы результаты по 12 исследованиям, и ученые проверили, действительно ли конечная точка клинической эффективности, упомянутая в научной статье, совпадала с той, которая декларировалась как таковая во внутренних документах до начала исследований.
Данные, которые были найдены, представляли собой настоящий хаос. Из 21 первичной конечной точки клинической эффективности, предварительно указанной в планах исследования, о которых следовало сообщить, было упомянуто только 11. О шести точках клинической эффективности, установленных первоначально, не упоминается нигде ни в какой форме, а еще четыре хоть и были включены в отчет, но упоминались в таком контексте, как будто они были вторичными точками клинической эффективности. Можно посмотреть на все с другого конца телескопа: в 12 опубликованных статьях об исследованиях сообщалось о 28 конечных точках клинической эффективности, но половина из них были новыми и никогда в действительности не были заявлены изначально как такие точки. Это было просто смешно. Никаких отговорок ни для исследователей, изменивших одни точки на другие, ни для работников научных журналов, которые не потрудились проверить информацию, быть не может. Однако были проверены исследования и отчеты о них только по одному лекарству. Можно ли назвать все произошедшее странной случайностью?
Нет. В 2004 году несколько исследователей опубликовали работу, в которой были изучены все области медицины. Были отобраны все исследования, одобренные комитетами по этике двух городов в течение двух лет, после чего опубликованные работы были проанализировали.25 Почти половина всех конечных точек клинической эффективности в отчетах была указана неправильно. Почти в двух третях опубликованных работ была изменена по крайней мере одна конечная точка клинической эффективности, и это было сделано совсем не случайно: как и можно было догадаться, о положительных результатах сообщали должным образом в два раза чаще, а искажений в них не наблюдалось. Другие исследования, авторы которых изучали изменение конечных точек клинической эффективности в отчетах, имели сходные результаты.
Чтобы прояснить ситуацию до конца, следует сказать о следующем. Если вы меняете изначально установленную конечную точку клинической эффективности без предоставления вразумительного объяснения, зачем вы это сделали, тогда вы просто нарушаете правила проведения исследований. Ваше исследование пристрастно, хаотично и представляет собой настоящую профанацию. Для всех исследований нужно установить одно универсальное правило: в отчете всех исследований изначально указанная конечная точка клинической эффективности должна оставаться неизменной и в конце исследования. За этим должны следить редакторы журналов, и так нужно было сделать еще на заре проведения клинических исследований. Сложного здесь ничего нет, однако все мы почему-то не соблюдаем такое простое, очевидное и самое главное требование. И так дела обстоят во всем мире.
Последним случаем, показывающим, к чему приводит на практике такое отношение к конечным точкам клинической эффективности, является история с пароксетином и исследованием, проведенным с участием детей. Хочу вам напомнить, что, когда над какой-нибудь компанией нависает потенциальная угроза проведения некоего судебного разбирательства, часто в руки исследователей попадают документы, которые в другой ситуации никогда не были бы показаны им. В результате у них появляется возможность выявить проблемы и несоответствия, что в обычной ситуации было бы невозможно. Такие документы в большинстве своем должны быть достоянием общественности, но их почему-то скрывают от глаз широкой публики. В этом отношении пароксетину повезло ничуть не больше, чем остальным лекарствам (как мы увидели из описанного выше исследования, перемена конечных точек клинической эффективности происходит везде и всюду). Я лишь просто описываю случай, по которому у нас есть больше всего информации.
В 2008 году группа исследователей решила изучить документы, доступ к которым был открыт после судебного процесса по одному из случаев рассмотрения пароксетина, и проверить, в какой форме были представлены опубликованные результаты клинического исследования («исследование 239»).26 В конце 2007 года систематические обзоры, посвященные этой работе, отзывались о ней так, будто это исследование принесло положительные результаты. Во всяком случае, во всех публикациях они назывались успешными. Но в действительности это было неправдой: в оригинальных протоколах были указаны две конечные точки клинической эффективности и шесть вторичных точек. В конце исследования разницы между пароксетином и плацебо при сравнении результатов этих точек отмечено не было. Помимо этого были измерены дополнительно еще 19 точек клинической эффективности, таким образом, их общее количество составило 27. Из них положительные результаты наблюдались только по четырем. Они и вошли в отчет, где информация преподносилась так, как будто бы они и были основными точками клинической эффективности.
Хотелось бы думать, что искажение данных в отчетности «исследования 239» всего лишь частный случай, исключение из правил и досадное недоразумение, которое не имеет ничего общего с остальными исследованиями. Грустно признавать, но исследователи очень часто поступают подобным образом, как в случае, описанном выше.
Эта практика так широко распространена, что работы здесь – непочатый край, если, конечно, найдутся достаточно смелые ученые для того, чтобы заняться реализацией такого грандиозного проекта. Кто-то ведь должен найти все исследования с измененными основными конечными точками клинической эффективности. Кто-то же должен потребовать предоставить доступ к изначальным, необработанным данным и в далекой перспективе провести их правильный анализ, специально для горе-исследователей, подделывающих результаты. Если вы решитесь на это и опубликуете ваши работы, они немедленно превратятся в справочник по этим исследованиям, потому что в них будут грамотно указаны предварительно установленные конечные точки клинической эффективности. Публикации оригинальных исследователей станут всего лишь сборниками ненужных и не имеющих отношения к науке цифр.
Я уверен, что они будут только рады, если вы окажете им посильную помощь.
Хитрый анализ подгрупп
Если лекарство не проявило себя с положительной стороны на протяжении всего исследования, можно сгруппировать данные по какому-либо признаку различными способами, чтобы посмотреть, оказалось ли оно эффективным в какой-либо подгруппе. Возможно, препарат идеально работает при приеме пациентами мужского пола китайского происхождения, которые принадлежат к возрастной группе между 56 и 71 годами. Это так же глупо, как играть в «орел – решка» по правилу «два из трех и три из пяти». Однако такие способы применяются исследователями повсюду.
Снова и снова нам приходится возвращаться к одному и тому же принципу этой главы: если вы увеличиваете свои шансы нахождения положительного результата, но используете статистические тесты, которые предполагают получение лишь одного параметра, тогда вы сильно повышаете вероятность нахождения нужных вам данных. Ведь если бросать монетку достаточно долго, то можно в конечном счете выбросить орел или решку четыре раза подряд.
Новый способ увеличить вероятность получения нужного результата – провести анализ подгрупп данных. Уловка заключается в следующем: вы закончили ваше исследование и получили отрицательный результат. Разницы между двумя группами не было никакой: пациенты, принимавшие плацебо, чувствовали себя точно так же, как и те, кто принимал ваш препарат. Ваше лекарство не работает. Это плохая новость. Но затем вы копнули поглубже, провели ряд анализов и обнаружили, что лекарство отлично сработало на группе некурящих мужчин испанского происхождения возрастом от 55 до 70 лет. Если вам непонятно, почему нельзя использовать такой способ при анализе, нужно вернуться к уже прочитанному и подумать о случайной вариации данных, имеющихся в любом исследовании. Предположим, ваше лекарство должно предотвращать летальные исходы у всех участников на протяжении всего исследования. Мы знаем, что смерть может наступить по ряду причин и часто довольно неожиданно, и ее, к сожалению, можно предсказать лишь частично на основе имеющейся в наличии информации о здоровье человека. Вы надеетесь, что после проведения исследования ваше лекарство будет способно предотвратить некоторые из этих случайных, непредвиденных смертей (хотя, конечно, не все, потому что ни одно лекарство не может уберечь от смерти по всем причинам!) и что вы сможете заметить это изменение в частоте смертей, если в исследовании принимает участие достаточно большое количество людей.
Но если посмотреть на результаты после завершения исследования и составить группу из умерших пациентов или из тех, кто выжил, вы не сможете сделать вид, что и та и другая не были сформированы произвольно.
Если вы до сих пор не поняли, почему этот способ нечестный, представьте себе рождественский пудинг с монетами, распределенными в его толще в произвольном порядке. Если вы хотите узнать, сколько в нем всего монет, то отрезаете наугад любой кусочек (одну десятую пудинга), считаете монеты, умножаете на десять и получаете общее число монет. Это исследование, в котором вы выбрали образец, не зная точно, где и сколько монет находилось. Если бы вы просветили пудинг рентгеновскими лучами, то увидели бы, что в нем есть такие места, где монет больше просто из-за их случайного скопления. И при умении хорошо управляться ножом можно было бы вырезать нужный кусок пудинга с наибольшим количеством монет, чем было в первоначальном образце. Если вы помножите количество монет в этом куске на десять, то получится, будто бы в пудинге намного больше монет, чем на самом деле. Однако это типичное мошенничество. Монеты все равно распределены в пудинге по случайному принципу. Кусок с наибольшим количеством монет, который вы вырезали после просвечивания пудинга рентгеном, не является репрезентативным и не дает достоверной информации о том, что на самом деле находится внутри него.
И несмотря на это такой способ оптимистичного анализа кочует из одной бизнес-презентации в другую, из одной компании в другую, и так день ото дня, год от года.
«Вы видите, что в целом не наблюдается положительной динамики, – может сказать некий исследователь. – Но интересно, что благодаря нашей рекламной компании объемы продаж дешевых ноутбуков в регионе Богнора значительно возросли».
Если раньше нельзя было сказать, что центр продаж в Богноре как-то отличается от других магазинов компании и нет причины полагать, что и компьютеры там отличаются от остальных ваших продуктов, тогда это самый сомнительный и неверный аргумент, выбранный из всех.
В более общих терминах можно было бы сказать: если вы уже видели ваши результаты, вы не можете искать в них вашу гипотезу. Гипотеза должна появляться до того , как вы увидели результаты, которые ее проверяют. Так что анализ данных по подгруппам – довольно толковый метод, но при условии, если его проведение было предусмотрено до начала исследования (или при условии, что вы учли в вашем анализе количество выполненных подгрупповых анализов). Иначе это просто еще один способ увеличить ваши шансы на нахождение спорных, ложнопозитивных результатов. Однако такие увертки очень популярны у исследователей, и редко кто из них устоит перед соблазном прибегнуть к подгрупповому анализу, так как результаты получаются исключительно привлекательными.
Корни этой проблемы находятся так глубоко, что она стала предметом целого ряда нарочито издевательских работ, проведенных исследователями-методологами, стремящимися ткнуть носом слишком оптимистичных исследователей, которые не видят изъянов в том, что они делают, в их собственные ошибки. Тридцать лет назад, Ли и его коллеги опубликовали классическую поучительную работу на эту тему в журнале «Circulation».27 Они набрали 1 073 пациента с коронарной болезнью сердца и назначили им в произвольном порядке препарат 1 и препарат 2. Оба лекарства были фикцией, так как ученые не проводили настоящее исследование, а всего лишь делали вид. Однако исследователи собирали действительные данные по этим пациентам, чтобы посмотреть, что можно обнаружить в случайном, беспорядочном наборе параметров.
Они не были разочарованы. В целом, как и можно было ожидать, не было никакой разницы в динамике сердечно-сосудистых болезней у пациентов обеих групп, так как всем им давали одинаковые таблетки. Однако в выделенной подгруппе, состоящей из 397 пациентов (для них было характерно трехсосудистое поражение или ненормальное сокращение левого желудочка), показатель выживаемость среди тех, кого «лечили» препаратом 1, значительно отличался от того же показателя тех, кто принимал препарат 2, просто по случайному совпадению. Так что, оказывается, можно продемонстрировать эффективность препарата при помощи подгруппного анализа данных даже при ненастоящем лечении, так как и для первой, и для второй группы пациентов не делалось абсолютно ничего.
Можно найти ложные эффекты от лекарства в подгруппах в настоящих исследованиях, если сделать достаточно большое число хитрых анализов.28 Исследователи, занимавшиеся оценкой эффективности хирургической процедуры под названием эндартерэктомия, решили шутки ради проверить, до каких пределов можно дойти, разделяя пациентов по разным возможным подгруппам и анализируя результаты в пределах каждой из них. Сначала они обнаружили, что успешное проведение хирургического вмешательства зависело от того, в какой день недели родился пациент (см. таблицу ниже).29 Разумеется, если врач при принятии клинических решений основывается на этой информации, то его можно смело назвать дураком. Была заметна также прекрасная, почти линейная зависимость между месяцем рождения пациента и клиническим результатом: у пациентов, родившихся в мае и июне, наблюдался огромный положительный эффект, а затем, по мере смены месяцев, положительное воздействие все больше снижалось до марта, после чего операция становилась просто опасной. Если бы данные относились к такой биологически правдоподобной переменной, как возраст, этот результат в данной подгруппе было бы очень трудно игнорировать.
Наконец, при проведении исследования ISIS-2 сравнивался полезный эффект, оказываемый аспирином или плацебо на пациентов, которые предположительно недавно пережили сердечный приступ. Обнаружилось, что аспирин улучшал ряд показателей, однако исследователи смеха ради решили сделать подгруппный анализ. В ходе его выяснилось, что, хоть в целом аспирин и был эффективным, он не оказывал влияния на пациентов, родившихся под знаками Весов и Девы. Еще раз повторимся: если группировать данные различными способами, можно просто произвольно формировать какие угодно подгруппы с любыми, даже самыми нелепыми показателями.
Так значит ли это, что родившимся под знаками Весов и Девы пациентам не нужно давать лекарств? Вы конечно скажете «нет» и будете правы. Вы окажетесь гораздо мудрее всех тех медиков, кто прибегал к подгруппному анализу. Исследование CCGS обнаружило, что аспирин был эффективен при предотвращении инсультов и смертельных случаев у мужчин, но не у женщин,30 в результате женщин в течение почти 10 лет лишали необходимого лечения, пока дальнейшие исследования и обзоры не показали, что аспирин положительно действует и на их организм.
Эффект от каротидной эндартерэктомии у пациентов с ≤70 % симптоматическим стенозом при европейском исследовании операции 126 в зависимости от дня недели, в который родился пациент.
Это один из множества подгруппных анализов. По их вине в медицинскую литературу попадают неверные данные и часто некорректно выявляются подгруппы людей, которым не становится лучше от лечения, считающегося эффективным. Так, например, мы думали, что тамоксифен, лекарство для блокирования гормонов, не подходил для лечения рака груди у женщин, если они были моложе 50 лет (мы были не правы). Мы думали, что тромболитики были неэффективными и даже вредными при лечении сердечных приступов у людей, которые уже имели его в анамнезе (мы ошибались). Мы думали, что лекарство под названием АКФ-ингибиторы прекращало понижать количество смертельных случаев у пациентов с сердечной недостаточностью, если они также принимали аспирин (мы заблуждались). Интересно и необычно то, что ни один из этих результатов не был получен в результате жадности до денег исследователей. Людьми двигали амбиции, возможно, стремление получить новые результаты. Сыграло свою роль и незнание рисков при проведении подгруппного анализа, и игнорирование фактора случайности.
Пристрастно выбранные подгруппы исследований, а не подгруппы пациентов
Другой способ фальсификации данных: взять какую-либо группу исследований, выбрать подходящие фрагменты с описанием действия препарата и заставить его выглядеть более эффективным, чем он есть на самом деле. Если сделать это с одним исследованием одного лекарства, то уловка тут же будет раскрыта. Однако такую операцию можно совершить в рамках целой программы клинических исследований и создать путаницу, в которой никто не сможет разобраться.
Мы уже видели, что положительные результаты исследований публикуются чаще и распространяются интенсивнее, чем отрицательные, и это может сбивать с толку. По сути проблема состоит в следующем: когда мы делаем систематический обзор только по исследованиям, по которым опубликовали результаты, мы видим только ту выборку, которая содержит больше положительных результатов. В нашу папку для отбора работ, по которым будет сделан обзор, попадают только лучшие из них. Однако глупо думать, что все проводимые исследования приносят только положительные результаты.
Эта же самая проблема – каким образом отбираются образцы исследований – может быть представлена другим, более интересным способом, который лучше всего показать на примере.
Бевацизумаб – дорогое противораковое средство. Выручка от его продажи в 2010 году составила 2,7 млрд долларов, однако препарат не такой уж и действенный. Если зайти на сайт ClinicalTrials.gov, в журнале регистрации исследований (где также не все в порядке) можно найти около 1 000 исследований этого лекарства, использовавшегося против множества типов рака: от рака почки и легкого до рака груди и толстой кишки. Его пробовали применять против всего.
Грустно признавать, но много результатов этих исследований пропало без вести. В 2010 году два исследователя из Греции решили отследить судьбу всех исследований, которые им только удалось обнаружить.31 Они искали только большие исследования «Этапа 3», в которых бевацизумаб сравнивался с плацебо, и нашли 26 законченных работ. Из них девять были опубликованы (с данными, стоившими внимания, по 7 234 пациентам), и по трем имелись результаты, о которых сообщали на конференции (данные, стоившие внимания, по 4 669 пациентам). Однако данные по еще 14 исследованиям, где участвовали в общей сложности 10 724 пациента, остались неопубликованными.
Специалисты, не обнародовавшие результаты своих работ, заслуживают порицания, однако самое интересное состоит не в этом.
Они свели все результаты вместе, и в целом все выглядело так, будто бы независимо от вида рака препарат оказывает крайне ограниченное действие, незначительно влияет на выживаемость раковых больных и в общем действует одинаково на любую опухоль (хотя нужно добавить, что все сказанное справедливо до того, как вы примете в расчет побочные эффекты и другие весомые факторы). Это тоже не очень интересно. Помните, мы пытаемся уйти от мысли, что отдельные данные по лекарству заслуживают внимания и публикации, и сконцентрироваться на решении комплексных вопросов, поскольку это может повлиять на каждое лекарство и каждую болезнь.
Вот это и есть самый интересный аспект. С июня 2009 года по март 2010 года было опубликовано шесть различных систематических обзоров и мета-анализов по бевацизумабу, каждый по разному типу рака, в каждом по несколько исследований, посвященных изучению данного конкретного типа поражения.
Теперь ответим на следующий вопрос: если в одном из мета-анализов сообщается о положительном действии лекарства на одну из форм рака, можно ли назвать это действительным эффектом? Или же имел место подгруппный анализ, при котором у исследователя появляются дополнительные возможности получить положительный результат, независимо от истинного эффекта лекарства, благодаря случайности, как если бы мы бросали кубики снова и снова, пока не выпадут две шестерки? Есть подозрение, что именно так и обстоит дело. Я думаю, что речь идет именно о подгруппном анализе. Точно так же думают и Джон Иоаннидис и Фотини Карасса, те два исследователя, которые сводили данные вместе. Ни в одном из отдельных мета-анализов не был принят в расчет тот факт, что исследования являлись частью более обширной программы, во время которой проверки проводились одна за другой буквально с пулеметной скоростью. В определенный момент нескольким исследованиям было суждено принести похожие результаты. Иоаннидис и Карасса утверждали, что нам нужно анализировать все программы клинических исследований целиком, а не отдельные исследования или их группу, а также учитывать количество исследований, проведенных с лекарством по каждой болезни. Я думаю, они, вероятно, правы, однако это сложный случай. Как вы понимаете, ловушки расставлены повсюду.
Исследования с целью продвижения лекарства
Иногда клинические исследования вовсе не являются таковыми по сути. Они могут организовываться в качестве интенсивного маркетингового проекта, призванного заставить как можно больше врачей прописывать какой-либо препарат как можно чаще. В таких «исследованиях» принимают участие небольшое количество пациентов из множества разных клиник.
Предположим, вы хотите узнать, работает ли ваш новый обезболивающий препарат, который уже подтвердил свою эффективность при проверке на идеальных пациентах в процессе строгих исследований и при обычном клиническом использовании. Боль – довольно распространенный симптом, поэтому наиболее очевидный и практический подход – использовать в качестве исследовательских центров несколько местных клиник и набрать побольше пациентов из каждой. При проведении исследования такой подход принесет ряд преимуществ: можно быстро и дешево обучить тех немногих врачей, что участвуют в мероприятии; административные расходы будут ниже; к тому же вы можете контролировать стандарты данных должным образом, то есть у вас будет больше шансов получить качественные данные и надежные ответы.
Исследования ADVANTAGE на препарате «Виокс» проводились совсем по-другому. Было набрано более 5 000 пациентов, однако план и программа мероприятия подразумевали, что каждый врач должен лечить только одну определенную группу больных. Это означало, что для проведения исследований требовалось много врачей, и к окончанию тестирования их количество достигло 600. Однако компания Mersk не имела ничего против, так как целью исследования было не узнать, насколько хорош препарат, а прорекламировать его как можно большему числу врачей, ознакомить медиков с процедурой назначения лекарства и заставить их рассказать о «Виоксе» своим друзьям и коллегам.
Подноготная исследований с целью продвижения лекарств обсуждается в медицинской литературе на протяжении многих лет, однако делается это очень осторожно, с ощущением нависшего над автором дамоклова меча в виде обвинения в клевете. А все потому, что, даже если число мест проведения исследования слишком велико, по мнению стороннего наблюдателя, нельзя быть абсолютно уверенным в том, что какое-то исследование организовано специально для продвижения препарата, если только вы не застали представителей компании за обсуждением этого факта.
В 2008 году были выпущены новые документы во время другого судебного разбирательства по «Виоксу», в ходе которого было доказано именно это.32 Хотя исследование ADVANTAGE преподносилось пациентам и врачам как изыскательное, в действительности же при ознакомлении с внутренними документами компании становилось ясно, что с самого начала его замышляли как маркетинговое мероприятие. Например, в одной служебной записке, озаглавленной «Описание и обоснование», которая была выпущена для внутреннего использования, говорится, что исследование было «разработано и проведено в духе маркетинговых принципов Merck». А таковыми являлись в порядке очередности: воздействие на выборочную группу критичных клиентов (врачей), демонстрация полезных свойств лекарства врачам, объединение исследовательской и маркетинговой команд, отслеживание количества выписываемых рецептов на «Виокс» докторами после окончания исследования. Данные полностью обрабатывались сотрудниками отдела маркетинга компании Merck. Главный автор научной статьи, где рассказывалось о результатах исследования, позднее сообщил изданию New York Times , что он не принимал участия ни в сборе, ни в анализе данных.
Исследования для продвижения препаратов поднимают несколько серьезных вопросов. Начать хотя бы с того, что цель каждого исследования скрыта от участвующих в нем пациентов и врачей, а также от комитетов по этике, дающих разрешение на участие пациентов в проверке лекарства. Передовая статья в журнале, напечатанная вместе с работой, в которой изобличались цели исследования, была такой осуждающей, насколько это позволительно быть статье в научном печатном издании.
[Эти документы] <…> говорят нам, что обман – ключевой элемент удачно проведенного исследования для продвижения препарата… Институтские наблюдательные советы по этике, чья цель – защищать людей, участвующих в исследованиях, вряд ли допустили бы пациентов до участия в таком мероприятии, во время которого их здоровье подвергается существенному риску и которое организовано только для того, чтобы заставить врачей как можно чаще прописывать лекарство. Если бы о целях исследования было известно заранее, мало кто из клинических исследователей стал бы принимать участие в нем. Мало кто из врачей осознанно решился бы провести набор пациентов для участия в опасном для их здоровья эксперименте только для того, чтобы обеспечить компании преимущество на рынке, и мало кто из больных согласился бы на такое. Исследования с целью продвижения лекарств могут проводиться, только если компания не раскрывает своих истинных намерений тем, кто может помешать выполнению задуманного.33
Таким образом, подобного рода исследования сбивают пациентов с толку. Мне как медику стыдно за таких недалеких, заносчивых, недальновидных врачей, когда представляешь их за кружкой пива в пабе, как они сидят и хвастаются своим коллегам: «У нас хорошие результаты по „Виоксу“. Я говорил тебе, что участвую в этом исследовании? Мы там грандиозной работой занимаемся».
Однако есть гораздо более конкретные опасения, касающиеся проведения этих исследований. Ведь в результате на свет появляется много данных плохого качества, так как цель таких исследований – продвижение лекарства на рынке, а не поиск ответов на значимые клинические вопросы. Сбор данных с малых групп пациентов, находящихся в разных клиниках, приводит к риску возникновения разного рода ненужных проблем: низкий контроль качества за информацией или менее качественное обучение исследовательского персонала, повышенный риск совершения нарушений или ошибок ввиду некомпетентности и т. д.
Такое заключение было сделано после проведения другого исследования для продвижения под названием STEPS. Во время него эпилептикам в местных неврологических клиниках давали лекарство под названием «Нейронтин». Истинная цель исследования была выявлена, когда во время судебного процесса обнародовали внутренние документы компании (еще раз повторю, что именно поэтому фармацевтические компании готовы пойти на любые трудности, лишь бы уладить дело конфиденциально и обойтись без суда).34 Как можно было ожидать, в этих документах исследование называется маркетинговым предприятием. В одной служебной записке говорится:
«STEPS – это наилучший инструмент, который у нас есть в отношении „Нейронтина“, и мы должны использовать его всюду, где только возможно».
Чтобы быть до конца ясным, поясним, что автор приведенной выше цитаты не подразумевает использование результатов исследования для продвижения лекарства на рынке. Ведь эта служебная записка была выпущена в то время, когда исследование еще только проводилось.
В связи с этим снова встают те же самые вопросы этики при проведении подобного рода исследований, так как докторов и пациентов опять обманули. Однако также вызывает сомнение и качество данных. Врачи, участвовавшие в процессе в качестве исследователей, были плохо подготовлены, имели мало опыта в проведении исследований или вообще его не имели, а перед началом исследования экзаменов на допуск сотрудников к работе не проводилось. Каждый врач в среднем смог уговорить около четырех пациентов участвовать в проверке. Медиков тщательно контролировали, но не ученые, а торговые представители, которые напрямую участвовали в сборе данных, заполнении исследовательских форм и которые даже вручали подарки в качестве награды за хорошую промоутерскую деятельность во время сбора данных.
Это особенно тревожит, если вспомнить о том, что «Нейронтин» совсем не безупречный препарат. Из 2 759 пациентов у 73 наблюдались тяжелые неблагоприятные реакции, 997 пациентов испытывали побочные эффекты, а 11 умерли (хотя, как вы узнаете, мы не можем быть уверенными, что эти смерти были связаны с приемом препарата). Для «Виокса», препарата из исследования ADVANTAGE, организованного для продвижения лекарства, ситуация сложилась еще хуже. Он был в конечном счете убран с рынка, так как повышал риск возникновения сердечного приступа у принимавших его людей. Мы провели качественное изучение, чтобы определить присутствие эффекта от лекарства или наличие серьезных проблем. Нужно сказать, что, если бы во время исследования медики уделяли больше внимания фактическим результатам действия лекарства, это помогло бы выявить риски гораздо раньше и сократить вред, причиняемый здоровью пациентов.
Выявление исследований, направленных только на продвижение препарата, даже сегодня представляет собой тяжкий труд, и это в некотором роде опасное занятие. Подозрения особенно велики, когда публикуют результаты нового исследования по недавно появившемуся на рынке лекарству, в которых указывается, что количество мест, где набирали пациентов, очень велико и только небольшое число больных набрали из одного места. Это очень необычно.
Но при отсутствии каких-либо документальных доказательств, что эти исследования были спроектированы с целью проведения интенсивного маркетинга, мало кто из ученых осмелится заявить об этом открыто.
Делайте вид, что результаты положительные, независимо ни от чего
В конце вашего исследования, если его результаты не очень впечатляющи, вы можете улучшить их, изменив способ представления данных. Если же у вас вообще нет положительных результатов, вы можете просто их придумать.
Временами делать это очень сложно. Но есть один легкий способ, как улучшить неудовлетворительные данные исследования: преподносить их в форме относительного снижения риска. Хороший пример – история со статинами. На основе свидетельств и фактов, имеющихся в наличии на сегодняшний момент, все выглядит так, будто статины, по грубым прикидкам, снижают вероятность сердечного приступа вдвое на данный период, независимо от того, насколько высок был риск в прошлом. Если у пациента высокий риск наступления сердечного приступа – у него высокий уровень холестерина, избыточный вес, он курит и т. д., – тогда статин понижает ежегодный высокий риск наступления сердечного приступа вдвое. Однако если риск инфаркта невелик, статин также снижает его вдвое, что означает незначительное снижение при незначительном риске. Если вам будет проще понять все на конкретном примере, то я могу его привести. Представьте, что ваши шансы умереть от падения метеорита на голову значительно уменьшаются, если вы носите мотоциклетный шлем каждый день, однако метеориты не так часто падают людям на голову.
Стоит заметить, что есть несколько различных способов выразить в цифрах уменьшение риска и каждый будет влиять на наше восприятие по-своему, даже если оба способа точно описывают одно и то же явление. Например, ваши шансы получить инфаркт в следующем году высоки: 40 человек из 1000 таких же, как вы, станут жертвами сердечного приступа. Или, если вам так больше нравится, 4 % из них. Предположим, этих людей лечат статинами, и риск инфаркта у них понижается, так что сердечный приступ будет только у 20 человек из них, то есть у 2 %. Мы можем сказать, что наблюдается снижение риска инфаркта на 50 %, потому что он сократился с 4 % до 2 %. Такой способ представления информации о рисках называется «относительным снижением риска». Звучит красиво, тем более что за словами стоят большие цифры. Но мы также можем выразить то же самое изменение как абсолютное снижение риска, в котором отражено снижение с 4 % до 2 %. Разница в 2 % означает «2 %-е снижение риска возникновения сердечного приступа». Звучит менее впечатляюще, но все сказано правильно.
Теперь скажем, что ваши шансы пережить инфаркт в следующем году невелики (вероятно, вы уже поняли, к чему я клоню, но я все же закончу начатую мысль). Давайте скажем, что 4 человека из 1000 таких, как вы, станут жертвами сердечного приступа в следующем году, но если все они принимают статины, тогда это трагическое событие случится в жизни только двух из них. Относительное снижение риска все равно составит 50 %. А если выразить то же самое через абсолютное снижение риска, то получится снижение на 0,2 %, что звучит более скромно.
В медицине есть много специалистов, которые занимают решением вопросов, в какой форме лучше представлять такие риски и результаты. Много их работает в сфере, которая называется «совместным принятием решений».35 Они разработали множество различных методов измерения эффективности лечения, чтобы помочь врачам и пациентам точно понять, какой будет результат при приеме разных типов препаратов, когда, например, предстоит выбрать тип химиотерапии после удаления опухоли молочной железы. Преимущество этих методов состоит в том, что они приближают врача к той роли, которую ему предстоит играть в будущем: роли личного консультанта, человека, который знает, как найти подтверждающие действенность лечения факты, и может толково рассказать обо всех рисках, но который также понимает интересы и приоритеты пациентов. Намерены ли они выжить любой ценой или же предпочитают не страдать от побочных эффектов?
Исследования показали, что, если вы представляете положительный эффект от приема лекарства как относительное снижение риска, люди чаще всего принимают положительное решение о медицинском вмешательстве. В одном исследовании были изучены 470 пациентов, которым в приемной врача предоставили описание некой болезни, а затем рассказали о действии на нее двух различных препаратов.36 В действительности оба лекарства были одним и тем же средством с одинаковым эффектом, однако риски выражались двумя разными способами. Более половины пациентов выбрали препарат, преимущества от которого были выражены в форме относительного снижения рисков, и только один из шести выбрал тот препарат, свойства которого описывались в форме абсолютного снижения рисков. Остальные пациенты отказались сделать выбор.
Было бы ошибкой думать, что для каждого пациента выдумывается свой уникальный подход для манипулирования при помощи цифр, отражающих риски и полезные свойства лекарства. Такие же результаты получали снова и снова в экспериментах по изучению логики принятия решений врачами при выписывании лекарств,37 и даже органами здравоохранения при закупке медикаментов,38 хотя уж там точно должны были работать искушенные в математике врачи и менеджеры, способные грамотно соизмерить опасность рисков и полезный эффект от лекарств.
В связи с этим тревожно видеть, как при сообщении о скромных положительных свойствах новых лекарств компании представляют данные в виде относительного снижения риска. Так делают и в популярных СМИ, и в изданиях для специалистов. Снова хочется рассказать об еще одном случае со статинами, о том, как освещалось исследование «Юпитер».
Во время этого исследования изучались полезные свойства существующего лекарства, розувастатина, предназначенного для людей, у которых наблюдался низкий риск возникновения сердечного приступа. В Великобритании большинство называло его «чудо-лекарством» (газета «Daily Express», да благословит ее Господь, решила, что речь идет о совершенно новом препарате,39 в то время как на самом деле речь шла о применении старого лекарства, которое назначалось в течение многих лет больным с умеренным и высоким риском возникновения инфаркта, но теперь его стали прописывать и тем, у кого такой риск был низким). Все газеты сообщали об эффективности препарата в форме относительного снижения риска:
«Количество сердечных приступов уменьшилось на 54 %, количество инсультов – на 48 %, а необходимость проведения ангиопластики или шунтирования – на 46 % у пациентов, принимавших „Крестор“, по сравнению с группами, где пациенты принимали плацебо или неактивные лекарства», – сообщала «Daily Mail».
В «Guardian» писали:
«Исследователи обнаружили, что в группе, принимавшей препарат, риск возникновения сердечного приступа был ниже на 54 %, а инсульта – на 48 %».40
Все цифры были абсолютно точными, но как вы уже знаете, при их представлении в форме относительного снижения риска завышается эффективность лекарства. Если представить те же самые результаты того же самого исследования в форме абсолютного снижения риска, они будут выглядеть менее впечатляющими. При приеме плацебо риск сердечного приступа составлял 0,37 событий на 100 человек в год. Если пациенты принимали розувастатин, риск снижался до 0,17 событий на 100 человек в год. При этом препарат нужно принимать по одной таблетке каждый день, а он может вызывать побочные эффекты.
Многие исследователи думают, что лучший способ сообщить о рисках – указать «число больных, которых необходимо лечить». Это очень конкретный метод, при котором рассчитывается, скольким людям нужно принять лекарство, чтобы эффект проявился у одного из них. В газете, где сообщали о результатах исследования, данные «Юпитера» не представлялись как «количество людей, которых нужно лечить», но в этой группе с низким риском, я полагаю, таблетку должны были принять несколько сот людей, чтобы был предотвращен один сердечный приступ. Если вы хотите принимать розувастатин каждый день, зная, что существует всего лишь потенциальная возможность получения положительного эффекта от лекарства, тогда это целиком и полностью ваше дело. Я не знаю, какое решение принял бы я, ведь каждый человек по-своему неповторим и уникален, как можно заключить из того факта, что одни люди, у которых риск наступления сердечного приступа был низким, решали принимать статин, а другие отказывались от него. Меня беспокоит лишь то, чтобы в газетах, в пресс-релизах и в оригинальных статьях в научных журналах о результатах сообщалось в ясной, доступной форме.
Давайте рассмотрим еще один, последний пример. Если результаты вашего исследования неудовлетворительны, у вас есть еще один шанс. Вы можете представить их таким образом, как будто они положительные, независимо от того, что было найдено на самом деле.
Группа исследователей из Оксфорда и Парижа решила систематически изучить этот вопрос в 2009 году.41 Они взяли каждое опубликованное в течение одного месяца исследование с негативными результатами в прямом смысле этого слова, то есть такое исследование, в плане которого стояло выявить эффективность лекарства по какой-то конечной точке клинической эффективности, но воздействия зафиксировано не было. Затем ученые просмотрели отчеты в научных журналах по 72 исследованиям, ища факты искажения данных: попытки представить негативные результаты в позитивном свете или отвлечь читателя от того факта, что основные результаты исследования были негативными.
Сначала они изучали лидер-абзацы, в которых излагается краткое резюме научной статьи. Лидер-абзацы размещаются на первой странице перед самой статьей, и их просматривают чаще всего либо потому, что люди слишком заняты, чтобы читать всю работу, либо потому, что у них нет доступа к ней без оплаченной подписки (само по себе уже возмутительно). Обычно, пробежавшись глазами по абзацу, вы ожидаете встретить фразы типа «эффективность препарата» – «сокращение количества сердечных приступов в 0,85 раз у пациентов, принимающих наше супер-лекарство от сердца», а также статистическую значимость результата. Однако из 72 исследований, в которых были получены отрицательные результаты по основным точкам клинической эффективности, только в 9 работах такие цифры приводились в лидер-абзаце правильно, а по 28 работам в лидер-абзацах вообще не приводилось никаких цифр по основным точкам клинической эффективности. Отрицательные результаты были просто спрятаны подальше от людских глаз.
Дальше было еще хуже: только по 16 исследованиям об отрицательных результатах сообщалось должным образом хотя бы в самой статье.
Так что же произошло с отчетами об исследованиях? Данные просто извратили. Иногда исследователи находят другие положительные результаты в таблицах и делают вид, что именно их они и намеревались получить (с этой уловкой мы уже знакомы: «перемена конечных точек клинической эффективности»). Иногда они проводят искаженный подгрупповой анализ, с которым мы также уже знакомы. Иногда они утверждают, будто выяснили, что их препарат оказался ничуть не хуже другого лекарства, в то время как в действительности такая проверка требует большей выборки людей, потому что можно случайно упустить истинное различие. Иногда такие исследователи нагло и беспардонно талдычат о том, как хорошо прошла проверка препарата, несмотря на факты.
Эта работа не единственная. В 2009 году другая группа изучила работы, в которых сообщалось о проведении исследований с целью проверки эффективности глазных капель с простагландином для лечения глаукомы42 (как всегда, специфическое состояние и лекарство не имеют друг к другу отношения; это важный принцип). Они нашли в общей сложности 39 исследований, из которых подавляющее большинство – 29 – спонсировалось фармацевтическими компаниями. Выводы были ужасающими: в 18 из 29 профинансированных производителями лекарств исследований в лидер-абзаце приводился вывод, который шел вразрез с основными результатами. Все исследования, не финансировавшиеся производителями лекарств, таким недостатком не страдали.
Все это возмутительно. Однако это стало возможным благодаря изъянам в системе информирования в научной медицине. Если не заставлять исследователей сообщать о конечных точках клинической эффективности в своих работах, если допускать, чтобы они каждый раз меняли точки, хорошо зная, что это искажает статистику, то это неизменно будет приводить к грубому извращению результатов исследования. Если планы проведения исследований ясно и четко не соотносятся с информацией, представленной в статьях, что позволяет проверять и сопоставлять одно с другим с целью выявления подмены одних точек клинической эффективности другими, это приводит к искажению результатов. Если редакторы и эксперты не требуют предоставления предварительных планов проведения исследований вместе с научными работами и не сравнивают их друг с другом, они допускают искажение результатов. Если они не контролируют содержание лидер-абзацев, они сотрудничают с фальсификаторами фактов, вносят разлад в работу врачей. В результате таких подлогов доктора принимают решения о лечении больных, основываясь на догадках и допущениях, а не на проверенных фактах, и поэтому тоже вредят здоровью пациентов.
Многие из тех, кто читает медицинскую литературу, неосознанно предполагают, что такие предосторожности предпринимаются всеми редакторами журналов, и такое заблуждение, пожалуй, представляет самую большую проблему. Однако такие люди ошибаются. Закон не требует от редакторов выполнять все то, о чем мы говорили. Каждый может игнорировать факты и не делать очевидных вещей. Поэтому так часто нелицеприятные факты беззаботно и легко перевираются журналистами, политиками, различными шарлатанами.
Наконец, и это беспокоит больше всего, факты искажения были замечены и в систематических обзорах и мета-анализах, которые справедливо считаются наиболее надежными способами доказательств. В одном исследовании сравнили обзоры, выполненные при финансировании фармацевтических компаний, с независимыми обзорами Cochrane Collaboration.43 В письменных заключениях обзоров, спонсированных производителями лекарств, рекомендовалось использовать исследуемый препарат без всяких оговорок, в то время как ни в одном мета-анализе Cochrane Collaboration призывов к применению лекарства не делалось. Несоответствие просто громадное, так как разница наблюдалась не в числовых результатах по эффектам лекарства, а только в описательной части.
Отсутствие скептического настроя при выполнении обзоров, спонсированных фармацевтическими компаниями, также подтверждалось и отношением к методическим недочетам, которые имели место при проведении исследований, охваченных обзором. В большинстве своем о недостатках методологии просто не сообщалось. Составители обзоров Cochrane гораздо чаще уделяли внимание проверке объективности авторов к выполняемой работе. Во время исследований, проведенных при финансировании фармацевтических компаний, все недостатки методологии скрывались. Данный факт также можно назвать лишним напоминанием о том, что результаты научной работы более важны, чем пустые разглагольствования в разделе обсуждений. Также хочется напомнить о том, что результаты необъективных исследований, проведенных при финансировании производителей лекарств, проникают глубоко в мир науки.
Продолжение следует