はじめに
サプリメントや健康食品を摂取している患者さんはたくさんいらっしゃいます。サプリメントや健康食品は肝障害などの副作用がまれながら生じることもある上に、多くは効果があるかどうかわかっていませんので、臨床医としてはあまりお勧めできません。一方で、安心感が得られるといったメリットもありますので、臨床の現場ではあまりに高価でないものは消極的に容認されているといったところです。
サプリメント・健康食品は医薬品ではありませんので、効果効能を謳って販売することは法律に触れます。しかし、あからさまに効果効能を謳うことなく、しかしあたかも効果効能があるかのように消費者に誤認させる宣伝方法がしばしば使われています。そうした宣伝に対して、専門家が「科学的に効能が実証されたとは言えない」とメディアで注意を促すことは有用だと私は考えます。
ところが、ある企業が販売している飲料水(仮に「A飲料水」としましょう)に批判的な専門家の意見を掲載したメディアが名誉棄損で訴えられました。第一審ではメディア側が勝訴したのですが、企業側は判決を不服として控訴し、「科学的根拠がある」証拠として「論文」を提出してきました。私は、その論文についてメディア側の弁護士さんから科学的・医学的な意見を求められました。「真実相当性をめぐる立証」というのだそうです。私の理解では「A飲料水の効果は実証されていない」とメディアで述べた専門家が、そう信じるに足るだけの十分な理由があったことを裁判で示すお手伝いをしたわけです。
自社の製品がメディアに批判された企業側には民事訴訟を起こす権利はあります。ただ、企業側が科学的根拠があるとして提出してきた「論文」には大きな問題がありました。私のみたところでは、とうてい科学的根拠があるとは言えず、むしろ、A飲料水には効果が期待できないことを積極的に示唆する傍証とすら考えられました。このような論文があったところで、やっぱり「A飲料水の効果は実証されていない」と私も考えます。
裁判では「私も考えます」では不十分で、なぜその論文ではA飲料水の効果が実証されたと言えないのか、示さなければなりません。この記事では、論文を批判的に吟味し、効果が実証されたとなぜ言えないのかを解説します。専門的な知識がなくてもご理解できるよう順序立てて説明を試みました。世の中には健康情報があふれています。A飲料水だけではなく、他の多くの健康情報を検証するためにも役に立つのではないかと考えます。
試験管内や細胞での研究は証拠にならない
A飲料水を販売する企業が提出した論文は複数ありましたが、そのうちの一つは、飲料水の成分に対する培養細胞の反応をみた研究でした。いわゆる試験管内(in vitro)の研究で、基礎的な知見を得るのには重要ではありますが、A飲料水の効果を証明したことにはなりません。試験管内の細胞と生きている動物の体はさまざまな条件が異なるからです。
試験管内の研究で有望なら、その次には動物実験が行われます。しかし、マウスなどの実験動物と人間ではやっぱり条件が異なります。人間が飲んで効果があるかどうかを検証するには、実際に人を対象とした研究、つまり臨床試験を行わなければなりません。試験管内の研究や動物実験では有望と思われた候補薬が、臨床試験では効果や安全性が確認されないことはよくあります。よくあるというか、臨床試験で実用化されるのはほんの一部だけで、多くの候補薬は臨床試験でふるい落とされます。たとえば、がん治療に関連する分子では、有望とされ前臨床試験が行われた約250種類の分子のうち、最終的に承認されるのは1つだけだとする報告があります*1。約250分の1、約0.4%の狭き門です。
そういうわけで、エビデンスレベル(図)では試験管内の研究や動物実験はもっとも低いレベルにあたります。マスコミで報道される有望な候補薬の中には、動物実験の段階のレベルのものがよくあります。読者が誤解しないように十分な説明が必要だと私は思うのですが、過剰に期待させるような不適切な記事が多いようです。
研究デザインは「ランダム化比較試験」で盲検化されているけれど…
さて、A飲料水を販売する企業が提出した論文の中にランダム化比較試験もありました。被験者をランダムに、A飲料水を摂取する群と、A飲料水と外見では区別はできないけれども活性のないプラセボ飲料を摂取する群の二群にわけて検証したところ、プラセボ群と比較してA飲料水群で「免疫力」の指標が改善したとしています*2。
ランダム化比較試験は、エビデンスレベルで言えば、系統的レビュー/メタアナリシスほどではないにせよ、その次に高いレベルです。しかも、二重盲検法といって、被験者および評価者が摂取しているのが実薬(A飲料水)なのかプラセボなのかわからないようにしています。試験デザインだけをみるとなかなか質の高い研究です。
二重盲検ランダム化比較試験でA飲料水の有用性は科学的に示されており、よって「科学的に効能が実証されたとは言えない」という評価は誤りで名誉棄損にあたる、と企業側は主張したわけです。しかし、論文を批判的に吟味してみると、この研究には大きな問題点が複数ありました。
企業側が出してきた論文には典型的な粉飾(Spin)があった
論文によると、実薬群21名がA飲料水を、対照群17名がプラセボ飲料を12週間摂取し、「免疫力」および「抗炎症力」を主要アウトカムとして評価したところ、「Tリンパ球年齢およびCD8+CD28+T細胞数」が有意に改善したとしています。
リンパ球年齢や免疫細胞数が「有意に改善」したのだから、A飲料水の効能は科学的に実証されたと企業側は主張したいのでしょう。しかし、この研究はA飲料水の効能を示すことができなかった否定的試験(negative trial)です。というのも、試験前に期待されていた主要アウトカムである「免疫力」および「抗炎症力」の改善を示すことができなかったからです。この研究では「免疫力」および「抗炎症力」はそれぞれSIV(Scoring of immunological vigor)、SEIV(self-examination of immunological vigor)という指標で測定されていますが、どちらも有意差はついていません。
有意差がつかなかったからといってこの研究が失敗であったわけではありません。SIVおよびSEIVで測定された「免疫力」「抗炎症力」について、A飲料水の効能はないか、少なくともこれぐらいの人数で有意な差がつくほどは大きくない、ということが新しくわかったのですから、これはこれで一つの知見です。
その知見を正直に発表したのであれば問題なかったのですが、残念なことに、この論文では「粉飾(Spin)」が行われました。粉飾とは「否定的試験による研究成果の解釈を歪め、読者を欺く執筆術」のことです*3。本来であれば主要アウトカムに有意差がつかなかったことが明確に記載されるべきなのに、実際には記載されていません。典型的な粉飾です。
なぜ主要アウトカムが重要なのか
現在、まともな臨床試験では主要アウトカムは研究を行う前に公的な機関に登録され、情報が公開されています。そうしないと試験結果の解釈がゆがみインチキがまかりとおるからです。こうした制度が作られる前は、たくさん行われた臨床試験のうち、有意な差が出た研究が公表される傾向がありました。「出版バイアス」といって、そうした傾向があるだけでも問題です。
あなたがインチキ健康食品を販売する企業の責任者だったとしましょう。有意な差を示した論文を発表できればインチキ健康食品の宣伝に役立ちます。インチキ健康食品そのものに全く何の効果がなくても、臨床試験を20回行えば、1回ぐらいは偶然に有意な差が出ることが期待できます。「第一種の過誤(タイプ1エラー)」と呼びます。19回の否定的試験は発表せず、有意差がついた研究のみ発表すれば消費者はその商品には効果があると誤認してくれるでしょう。
20回も臨床試験を行うのはコストがかかりますが、1回の臨床試験でもいちどに多くの検査を行えば検定試行回数は増え、第一種の過誤が起きやすくなります。たとえば、血圧、体重、血糖値、コレステロール値、骨密度、腎機能、肝機能、血清アルブミン値、そのほか諸々。多くの指標を測れば、一つぐらいは偶然でも有意な差がつくでしょう。「下手な鉄砲も数撃てば当たる」です。偶然でもいいから改善した測定値だけを論文に書いて、その他の測定値は初めから測定しなかった態を装えば論文の出来上がりです。
こうしたインチキは、ランダム化でも二重盲検化でも防ぐことができません。エビデンスレベルだけに頼って「二重盲検ランダム化比較試験だから信頼できる」と判断すると間違います。「下手な鉄砲も数撃てば当たる」式のインチキを防ぐ方法が、主要アウトカムの事前登録です。「血圧が主要アウトカムです」と事前登録したのに論文で「血糖値が改善しました」としか書いていなければおかしいとわかります。
A飲料水の研究の主要アウトカムは何だったか
A飲料水の論文も事前登録されていました*4。
主要アウトカム評価項目として、抗酸化力、抗炎症力、免疫力の3項目が挙げられています。主要アウトカムなのに3項目も挙げるのはあまり良くありません。「数撃てば当たる」ことを防ぐためには主要アウトカムは一つだけが望ましく、他の項目は副次アウトカム評価項目に記載すべきです。
また、単に「免疫力」「抗炎症力」ではなく、SIVなりSEIVなり実際に測定する検査項目の名称を具体的に記載すべきです。そうでないと、複数の方法で「免疫力」を測定しておいて、都合のよい数字だけを論文に記載するといったインチキが可能になってしまいます。ついでに言えば「免疫力」という言葉は正式な医学用語ではなく、ニセ科学に関連する分野でよく使われています。わかりやすく説明するために方便で使うならともかく、臨床試験登録という公的なシステムで「免疫力」という言葉が使われていたことに私は驚きました。臨床試験登録の段階で、すでにこの研究には問題があったのです。
論文では「Tリンパ球年齢およびCD8+CD28+T細胞数」が有意に改善したとあり、企業もA飲料水に効能がある証拠だと言いたいのでしょうが、Tリンパ球年齢およびCD8+CD28+T細胞数は主要アウトカム評価項目どころか副次アウトカム評価項目にすら記載されていません。CD8+CD28+T細胞数は、免疫力を測る指標であるSIVのパラメータの一つに過ぎません。SIVはCD8+CD28+T細胞数のほか、B細胞、T細胞、NK細胞などの7つのパラメータを総合したスコアリングシステムです。パラメータをたくさん測定すればするほど、A飲料水にまったく効能がなくても偶然に一つ以上のパラメータで有意差がつく可能性は高くなります。
「免疫力」以外の主要アウトカムも有意差なし
事前登録されていた主要アウトカム3項目の一つ、「抗炎症力」の指標であるSEIVは有意差を認めませんでした。論文では詳細なデータは示されていません。主要アウトカムであるのに詳細なデータが示されていないのは不可解です。さらに、事前登録されていた主要アウトカム3項目の一つ、「抗酸化力」については、驚くべきことに論文では何の説明もなく副次アウトカムとされていました。やはり有意差なしで詳細なデータの提示はありません。
まとめると、事前に登録していた3つの主要アウトカム、抗酸化力、抗炎症力、免疫力のいずれも有意差はつかず、A飲料水に効能があるとは言えません。本来なら1発だけ撃つ鉄砲を、3発も撃っても当たらなかったのです。正直にそのように論文に記載すればよかったのですが、なんとか有意差が付かないか、いろいろ探して有意差があったのがCD8+CD28+T細胞数なのでしょう。Tリンパ球年齢はCD8+CD28+T細胞数から算定されますので、実質的にTリンパ球年齢とCD8+CD28+T細胞数は同じパラメータです。抗酸化力と抗炎症力についても複数のパラメータを測定していますが、その多くのパラメータのうちたった一つのパラメータだけ偶然に差が出たに過ぎないことを強く示唆しています。
この研究は「A飲料水の効果は実証されていない」という主張に対する反論にはなりません。むしろ、抗酸化力、抗炎症力、免疫力を改善させるという効果を期待して臨床試験が行われたのに、そうした効果を示すことができなかったのですから、事前に想定されたほどにはA飲料水の効果はなかったと示されたとすら言えます。
ランダム化にも疑問がある
企業側が提出した論文は、粉飾(Spin)が行われたこと以外にもいくつも不備があります。まず、ランダム化比較試験を報告するときの国際的なルールでは登録番号と試験登録名が論文に記載されるべきとされていますが、A飲料水の論文には記載されていません。
また、除外や追跡不能が多く、詳細な情報が記載されていません。事前に登録された目標参加者数は50名ですが、実際には47人が参加し、うち5名が除外され、4名が追跡不能で最終的な解析対象は38名です。ルールでは各群について追跡不能の数とその理由が記載されるのが望ましいとされていますが、A飲料水の論文には追跡不能4名が、飲料水群から何人でプラセボ群から何人なのか記載されていません。ただ、最終的な解析対象38名のうち、A飲料水群が21名、プラセボ群が17名ですので、プラセボ群にのみ偏って追跡不能が生じたように見えます。
また、ランダム化がうまくいっていない可能性があります。群間比較で唯一有意差が出たCD8+CD28+T細胞数ですが、0週時点でA飲料水群175.4/μL、プラセボ群237.1/μLだったのが12週時点で両者ほぼ同じ値(それぞれ191.6/μL、193.4/μL)になっています。ランダム化が適正であれば0週時点でほぼ同じ値であるはずですが、そうはなっていません。群間比較で差がついたのは、CD8+CD28+T細胞数がA飲料水群で増えたことよりも、プラセボ群で減ったことが寄与しています。いったいなぜプラセボ群でCD8+CD28+T細胞数が減ったのでしょう。プラセボに有害な物質でも入っていない限りプラセボ群では大きな変化はないはずです。ランダム化された時点で偏っていたのが平均への回帰で同じような値に落ち着いたと考えるのが自然です。
測定されたのは「真のアウトカム」ではなく代理指標
そもそもの話をすると、よしんばA飲料水を飲むことでCD8+CD28+T細胞数や主要アウトカムであるSIVが改善するとしても、A飲料水が有用だとは必ずしも言えません。CD8+CD28+T細胞数もSIVも代理指標に過ぎず、「真のアウトカム」ではないからです。
真のアウトカムとは、検査値や画像所見ではなく、患者さん自身にとって重要な結果のことを指します。CD8+CD28+T細胞はがん細胞を攻撃するキラーT細胞に分化しますので、CD8+CD28+T細胞数は多い方がいいと仮定されています。しかしあくまで仮定であってA飲料水でCD8+CD28+T細胞数が増えたとしてもがんの予防や治療に役立つかは不明です。がんの予防や治療についての真のアウトカムである、がんの発生率や生存率を測定しなければわかりません。
しかも、A飲料水で測定されたパラメータは、代理指標の中でもあまり質が高いものではありません。血糖値や血圧も真のアウトカムではなく代理指標ですが、血糖値や血圧の改善が糖尿病合併症や心血管疾患といった真のアウトカムの改善につながることが複数の研究で確認されています。一方で、SIVやCD8+CD28+T細胞数は血糖値や血圧のように真のアウトカムとの関係が十分に評価されたとは言えません。
というか、私はSIVという指標をこれまで存じませんでした。教科書にはもちろん載っていません。医学論文を検索してみましたが、開発者以外の論文にはほとんど引用もされていません。実地臨床でも、ごく少数の自費診療クリニックで使われているに過ぎません。真のアウトカムを評価するのはコストも時間もかかりますので代理指標で評価するのはやむを得ない面はありますが、それにしても、いったいなぜSIVといったきわめてマイナーな指標を用いたのか、不思議です。
おわりに
ここまで論じてきた詐欺的手法は医学界で以前から知られていました。だから粉飾(Spin)という名前がつき、注意が促されているのです。A飲料水研究ほどあからさまで雑なものは私も初めて見ましたが、より巧妙な粉飾は査読のある医学雑誌に掲載された論文にもあります。論文を読むときには批判的吟味が必要ですが、一般の方々がみな専門的知識を持っているわけではありません。
ですので、専門家がメディアを通じて注意を促すことは重要です。今回、メディアで行われたA飲料水に対する批判に対して、企業側が言論で反論するのではなく、訴訟という手段が使われたことは残念でなりません。ただ、第一審と同様に控訴審でもメディア側が勝利しました。判決文には、
●SIVによる総合評価自体の点数やSEIVによる評価での群間比較においては有意な差は確認されていない。
●そもそもSIVが免疫機能の評価方法として適切なものといえるかは議論があり得る。
●CD8+CD28+T細胞数やこれを基準として算出されたTリンパ球年齢のみが統計的に有意に改善されたことをもって免疫機能が高まっていることを根拠付けることはできない。
●CD8+CD28+T細胞数の平均値について、試験開始の時点で本件飲料水の摂取群と偽薬の摂取群に相当な差が生じていることなどからすれば、試験結果の適正さを左右する治験者のランダム化が十分であったのかについても疑問が残る。
とあり、メディア側の主張が裁判官の方々にも十分に伝わり、理解してくださったものと思います。泣き寝入りせずに戦ってくださったメディア、法曹界のみなさま、そして一緒に論文を吟味しグラフを作成してくださった片瀬久美子さんに感謝いたします。私の心情としては、医学界での「やらかし」を他の分野の方々に後始末をさせてしまったかのような心持ちです。医学的に正確ではない過剰な宣伝が行われている事例はまだまだ他にもたくさんありますが、まっとうな批判を行えばたとえ裁判になっても負けることはないという先例は心強いものがあります。この判決によって、専門家による健全な批判が委縮することなく、消費者を誤認させる科学的に不正確な宣伝が少しでも減ることを望みます。
本記事は片瀬久美子さんのご協力を得て名取宏が執筆しました。
関連記事
*1:https://pubmed.ncbi.nlm.nih.gov/27920881/
*2: ※NAJIMA et al., 診療と新薬・第 52 巻 第 10 号(2015 年 10 月), IMPROVEMENT OF IMMUNE FUNCTION BY EM・X GOLD, A HEALTH DRINK CONTAINING EXTRACT FROM CULTURE OF EFFECTIVE MICROORGANISMS(ECEM)
*3:粉飾された臨床試験の判別法:臨床試験のすべての関係者へ http://cont.o.oo7.jp/45_1/p25-34.pdf
*4:※UMIN試験ID UMIN000016222 https://upload.umin.ac.jp/cgi-open-bin/ctr/ctr_view.cgi?recptno=R000018826