גניבת תוכן עם סקרייפינג

כתיבת וניהול תוכן ב: 9 באוגוסט 2010 2 תגובות

לאחרונה נתקלתי בארץ בתופעה וותיקה מאוד בעולם, שבהתאם לפיגור הטכנולוגי שלנו, עושה עלייה שנים ארוכות אחרי שהוצגה בעולם. התופעה נקראית "גירוד תוכן" או Content Scraping ומשמעה העתקת תוכן מאתרים אחרים בעיקר באמצעות העתקת פיד ה-RSS שלהם במלואו או בחלקו, או סתם העתקה ושכתוב של התוכן.ר

החוקיות של העתקת התוכן בשיטה אוטומטית כזו מוטל בספק רב, בוודאי אם התוכן מועתק במלואו. עד היום היו לאתרים ישראליים סיבות מועטות לגרד תוכן מאתרים אחרים: האינטרנט הישראלי קטן וצפוף, קל מאוד לגלות את בעלי האתר שמעתיק תכנים והחוק הישראלי חד משמעי בתחום הזה. בגלל הסיבות האלה, גירוד תוכן (יחד עם שפע שיטות אחרות של קידום אתרים בכובע שחור) מעולם לא עברו גיור ולא הגיעו לישראל. אבל למרות האמור, בשבועות האחרונים נתקלתי בתופעה הזו באחד האתרים שנמצאים בבעלותי. אתר מסויים (שאין לי שום רצון לקדם אותו) החל להעתיק תכנים מלאים מהאתר שלי (תוך מתן הפנייה למקור, יש לציין).

למה כדאי לגרד תוכן מאתרים אחרים

גירוד תוכן - העתקת תכנים אוטומטית ללא רשות

גירוד תוכן - העתקת תכנים אוטומטית ללא רשות

לא קל לייצר תוכן מקורי. דרושים יכולת ניסוח, רעיונות מקוריים, נושאים מושכים וכמובן זמן פנוי לכתיבת תוכן איכותי. לכאורה, אלה אמורים לקדם אותך בתוצאות החיפוש של גוגל. אם כך, מה יותר קל מאשר פשוט להעתיק את התוכן הזה מאתרים אחרים, אפילו תוך מתן קרדיט, כדי להרוויח מיקומים בתוצאות החיפוש וכמובן כסף כתוצאה מהצגת מודעות אדנס. העתקת התוכן היא אוטומטית לחלוטין ונעשית באמצעות תוספים ייעודיים של וורדפרס (שמטרתם המקורית הייתה הצגת טיקרים של חדשות, שערי מניות וכו') או תוכנות ייעודיות שיודעות לסרוק את האינטרנט, לחפש תכנים רלבנטיים ולהזין את הבלוג שלך בפוסטים שנכתבים באופן אוטומטי בלי שום מאמץ מצדך למעט ההקמה הראשונית (autoblogging) התוכנות המתוחכמות יותר, יודעות לשכתב את התוכן ולהשתמש במילים נרדפות כדי להקשות על בעלי האתר לזהות מקרי גניבת תוכן.

לשמחתי, השוק הישראלי פשוט לא גדול או רווחי מספיק לשימוש בתוכנות מתוחכמות יחסית, ולכן גניבת התוכן נשמרת בממדים מינוריים.

איך להגן על התוכן שלך

יש לא מעט להגן על תוכן הבלוג או האתר שלך מפני העתקה. יש תוספי וורדפרס למי שמשתמש במערכת הזו, יש אפשרות להוסיף פקודות לקובץ robots.txt וגם אפשרות חסימה ברמת IP לתוכנה שמנסה להעתיק את התכנים שלך. בעלי אתרים באירוח לינוקס יכולים להכניס מגבלות לקובץ htaccess כפי שמתואר בפוסט הזה.

חשוב לציין: לצד המפלות הרבות של גוגל במלחמה שלו במקדמי אתרים, דווקא בתחום של גירוד תוכן גוגל עשה את שיעורי הבית שלו, ויודע לזהות בלוגים אוטומטיים בקלות יחסית, והם לרוב מוסרים במהירות מתוצאות החיפוש תוך פגיעה מינימלית באתר שפרסם את התוכן המקורי. זה די מתבקש, מאחר והתחום של העתקת תוכן ובלוגים אוטומטיים ידועים באינטרנט דובר האנגלית כבר משנת 2004, שש שנים ומעלה לפני שעברו גיור ועשו עליה בלתי רצויה לאינטרנט הישראלי דובר העברית.

אין פוסטים קשורים.

תגיות: ,



2 תגובות ל: “גניבת תוכן עם סקרייפינג”

  1. מאת יוסי:

    אני סבור שמלבד בעיה של זכויות יוצרים ישנה כאן אפשרות שגוגל יחשוב שמדובר בכפילות תכנים וכתוצאה מזה ייפגע דירוג הדף של אתר המקור, מה שיגרום לירידה במיקום של אותו אתר / דף בתוצאות החיפוש בגוגל.

    מה דעתך בנושא?

  2. מאת admin:

    כמו שכתבתי בגוף המאמר, סקרייפינג היא שיטה מיושנת שגוגל יודע לזהות בקלות. לפיכך, הסיכויים לפגיעה באתר המקורי עקב תוכן כפול הם נמוכים, אבל קיימים. למעשה זו אחת השיטות הנפוצות לפגיעה באתרים מתחרים – אבל יש גם שיטות אחרות…

השארת תגובה