אם מחפשים מוצאים: רצפים גנטיים זהים מגיעים ממקורות שונים
9.3.2022
לאחרונה הופצו כמה פוסטים וידיעות על מחקר שלכאורה מראה שמדעני חברת מודרנא ידעו על הנגיף הגורם למגפת הקורונה שנים לפני המגפה. אך מדובר במחקר גרוע, שפורסם בכתב עת בעייתי, והפרשנויות שלו מופצות על ידי אנשים שאינם יודעים כיצד לקרוא את המאמר בצורה ביקורתית ראויה.
המחקר פורסם בכתב העת Frontiers in Virology, שבו פורסם לפני כמה שנים מחקר המכחיש את הקשר בין נגיף ה-HIV לבין מחלת האיידס. מחקר זה נמשך מפרסום רק לאחר חמש שנים ובעקבות סערה שעורר בקהילה המדעית. כמו המחקר לגבי ה-HIV, שמתכתב עם כמה קונספירציות ותיקות שמדי פעם מרימות את ראשן המכוער, גם מאמר זה מתכתב עם קונספירציות לגבי מקורו של נגיף הקורונה ולגבי חברות התרופות.
במאמר החוקרים התמקדו ברצף קצרצר באורך של כ-19 אותיות (CTCCTCGGCGGGCACGTAG), שנלקח מתוך הרצף הארוך יותר בגן שעל פיו מיוצר חלבון הספייק. לפי החוקרים, הרצף קשור לאזור בחלבון הספייק שנקרא "אתר ביקוע פורין" ושבנגיף הוא בעל חשיבות רבה ליכולתו להדביק, ולכאורה מאפיין את הנגיף SARS-CoV-2, הגורם לקורונה. חיסוני ה-mRNA גם כן גורמים לייצור חלבון הספייק כדי שתופעל נגדו תגובה חיסונית, ועל כן הרצף הזה קיים גם בחיסונים אלו.
החוקרים השתמשו במאגרי מידע אינטרנטיים כדי לחפש מקומות שונים בהם מופיע הרצף הקצר הזה, ומצאו אותו גם בפטנט ישן של מודרנא משנת 2016, שלוש שנים לפני תחילת המגפה. הפטנט עצמו הוא לטיפול שפותח נגד מחלת הסרטן, ואין קשר בינו לבין החיסון לנגיף, אך זהו לכאורה "אקדח מעשן".
הבעיה היא שבנגיפי הקורונה, בדיוק כמו בכל אורגניזם או נגיף אחר, יש לא מעט קטעים גנטיים קצרים שאפשר למצוא באורגניזמים ובנגיפים אחרים. בדיוק כפי שאפשר למצוא בספר כלשהו מסדרת ספרי "ג'ינג'י" את רצף האותיות הקצר "אבא", וגם בספר אחר, נגיד "מלחמה ושלום", אפשר למצוא את המילה "אבא", אף שאין כל עדות לכך שלב טולסטוי העתיק את המילה "אבא" מגלילה רון פדר עמית.
מציאת רצפים דומים וקצרים בשני מקורות לאו דווקא מעידה על קשר בין המקורות, או על כך שהרצפים הוכנסו לשם במכוון. אולם על פי החוקרים הסיכוי שרצף זהה של 19 נוקלאוטידים (אותיות גנטיות) יופיע גם בנגיף הקורונה וגם בפטנט הספציפי של מודרנא הוא 1 ל-300 מיליארד, וזה אכן נשמע כמו משהו לא סביר. עם זאת, נראה שמדובר בחוסר הבנה של החוקרים, או אולי אפילו בהטעיה מכוונת.
אם עושים את מה שעשו החוקרים, ומשתמשים בכלי להשוואה בין רצפים, כדי לחפש את הרצף מול מאגר הרצפים הגנטיים המופיעים בפטנטים, אכן מוצאים את הרצף הקצרצר בפטנט של מודרנא. אך הוא מופיע גם בפטנטים אחרים, למשל פטנט שהגישה חברת Curevac AG ב-2017, ושקשור לשימוש ב-RNA לייצור חלבונים לטיפולים שונים. ומה הסיכוי למצוא את הרצף מהנגיף גם בפטנט של Curevac AG? דומה לסיכוי למצוא אותו בפטנט של מודרנא.
ואם מחליטים שלא להגביל את החיפוש רק לפטנטים, מוצאים את הרצף הזה, במלואו ובמדויק, בעשרות יצורים שונים. המשמעות של זה היא שהטענה בלב המאמר, שהרצף הזה הוא ייחודי לפטנט, היא פשוט לא נכונה.
יותר מכך, אם נחפש רצף אחר מתוך הגנום של נגיף הקורונה, כגון הרצף CTTCTGCTAATCTTGCTGC, ונגביל, כמו כותבי המאמר, את החיפוש רק למאגר הפטנטים, נמצא רצף זהה בפטנטים רבים, למשל פטנט מ-2015 למולקולה שיכולה להרוג חיידקים מסוימים.
כלומר, באופן לא מפתיע, אם לוקחים רצף קצר מאוד של אותיות ומחפשים אותו במאגר נתונים גדול של רצפים אחרים, מוצאים אותו בהסתברות גבוהה גם בהם. בדיוק כמו בדוגמה עם המילה "אבא". הממצא במחקר הוא סתם רעש חסר משמעות סטטיסטית. אם עושים חיפושים כאלו תמיד מוצאים התאמה.
יש לומר – החוקרים צודקים בטענתם שהסיכוי למצוא שני רצפים זהים באורך 19 אותיות, שמופיעים גם בפטנט וגם בנגיף, הוא אפסי, ולמרות זאת, כפי שהדגמנו, כלל לא מפתיע שמצאו שני רצפים כאלו, אחרי הכול הם חיפשו אותם במאגר ענק שכולל טריליוני רצפים.
הדבר דומה קצת ל"פרדוקס יום ההולדת", לפיו בחדר שבו יש שני אנשים, הסיכוי שהם חולקים אותו יום הולדת הוא קטן, 1 ל-365. אבל אם יש בחדר 23 אנשים, הסיכוי ששני אנשים יחלקו יום הולדת קופץ ל-50%. עובדה זו, שמרגישה לא אינטואיטיבית, נובעת מהמתמטיקה של פונקציות הסתברותיות, והיא אכן לא תמיד אינטואיטיבית.
באופן דומה, הסיכוי שהחוקרים דיווחו עליו מתעלם מכל האנשים האחרים שבחדר, כלומר מהרצפים במסד הנתונים שעליו נעשה החיפוש, ומתייחס רק למצב שבו משווים רצף של 19 נוקלאוטידים לרצף אחר אחד שנבחר באקראי. במצב כזה אכן יהיה מפתיע מאוד לגלות שיש התאמה בין הרצפים. אך במציאות הם השוו רצף של 19 נוקלאוטידים למסד נתונים ענק של רצפים, לחדר מלא אנשים, אין זה מפתיע בכלל, וההסתברות שיימצא רצף זהה בהחלט יכולה להיות גבוהה.
למעשה, ובדיוק משום שכה קל לטעות בכך, הכלי בו השתמשו החוקרים האלו, ומשמש חוקרים רבים בתחום, מצמיד לכל תוצאה ערך שאומר "כמה מופתעים צריך להיות". כלומר, מה מספר ההתאמות שצפוי למצוא באקראי, כשמחפשים רצף במסד נתונים בגודל מסוים (ערך זה מכונה E value). ככל שהערך הזה קרוב יותר לאפס התוצאה "מפתיעה יותר", ומקובל לקבוע שאם הערך עבור תוצאת חיפוש נמוך מ-0.05 או אפילו מ-0.0001, התוצאה "מעניינת" ומובהקת סטטיסטית.
החוקרים, באופן מעניין, לא דיווחו במאמר על הערך שקיבלו עבור התוצאה שמצאו, אלא עשו ללא הצדקה חישוב משלהם. למרות זאת, בנספחים למאמר אפשר למצוא טבלאות עם תוצאות חלקיות של השוואות הרצפים שעשו החוקרים, ובהן אפשר לראות שערכי ה-E-value אינם מובהקים סטטיסטית, ולכן אין משמעות לממצאים האלו.
אך זו לא ההטעיה היחידה במאמר. החוקרים כתבו במאמר שהרצף הקצר לא נמצא בנגיפים אחרים או ביצורים אאוקריוטים (יצורים המורכבים מתאים שיש להם גרעין), אף שהוא כנראה דווקא כן קיים בהם. לכן נשאלת השאלה מדוע הם הגבילו את החיפוש רק לנגיפים ויצורים אאוקריוטים, ועל הדרך פסחו על ממלכות ענקיות של יצורים אחרים כמו חיידקים? אולי משום שזה רצף די קצר ולכן די נפוץ ולכן אפשר למצוא אותו בכל מיני חיידקים ובחלבונים שאין להם כל קשר לחלבון הספייק או לאתרי ביקוע של פורין.
ולבסוף, החוקרים לא מבחינים בין רצף גנטי והחלבון המיוצר על פיו. כלומר, החוקרים טוענים שהרצף בפטנט קשור לאתר ביקוע הפורין, המופיע בנגיף, אך אין זה מחויב המציאות שהרצף הגנטי מקדד דווקא לחלבון זה.
ופה יש להבין שאין רווח בין מילים ברצף הגנטי. ולכן, אם נמשיך את האנלוגיה הקודמת, כאשר נחפש את המלה "אבא" נמצא אותה בטולסטוי וג'ינג'י, אבל גם כחלק מהשם "ברבאבא" או כמה פעמים כחלק מכמה מילים שונות, במשפט "אב[א בא], סב[א בא], אריה מכפר סב[א בא]".
באופן דומה, הרצף בפטנט של מודרנא בכלל לא קשור לייצור אתר ביקוע הפורין. כשמתרגמים אותו בקונטקסט הנכון הוא מוביל לייצור לרצף חלבוני אחר לגמרי. כלומר, החוקרים מצאו את המילה "אבא" אך כשקוראים את המשפט שהם מצאו במלואו, כפי שכותבי הפטנט התכוונו, רואים שמדובר בחלק ממילה אחרת לגמרי. מכאן עולה שאין שום קשר אמיתי בין הרצף הגנטי שנמצא בפטנט לבין נגיף הקורונה.
לסיכום, מדובר במחקר גרוע למדי, שאינו עומד בסטנדרטים בסיסיים בתחום זה. אין מדובר ב"פצצת אטום" או סופרלטיבים אחרים המשמשים את האנשים המפיצים את המידע השגוי שהוא מכיל. יש לקוות שכתב העת שבו התפרסם המחקר לא יתמהמה פעם נוספת במשיכת מאמר בעל פוטנציאל נזק שכזה.
מקורות
1. Retraction: Questioning the HIV-AIDS hypothesis: 30 years of dissent
2. MSH3 Homology and Potential Recombination Link to SARS-CoV-2 Furin Cleavage Site
3. מדען זוכה פרס נובל טוען שנגיף הקורונה מהונדס, טענה שהופרכה לחלוטין
5. כיצד להשתמש בכלי BLAST של NCBI
7. הרצף הגנטי של נגיף SARS-CoV-2 שבודד בווהאן
9. כיצד פרדוקס יום ההולדת מוליד חוב בבנק
10. Q: What is the Expect (E) value?
11. The Statistics of Sequence Similarity Scores