الكشف عن الرسائل غير المرغوب فيها على منصة المدونة: نهج التعلم الآلي
وقد سمحت الإنترنت للناس للتعبير عن أنفسهم بحرية وسهولة ، وخاصة من خلال وسائل الاعلام الاجتماعية أو منصات التدوين مثل Overblog (Webedia المجموعة) ، وهو موقع على شبكة الانترنت التي تسمح للمستخدمين لإنشاء وتبادل بلوق لمجتمعاتهم. في ذروتها ، كانت Overblog تجمع أكثر من عشرة ملايين زائر فريد شهريا ، ولكن ضحية لنجاحها ، جذبت شعبيتها العديد من المستخدمين الضارين الذين رأوا فرصة لامتصاص حركة المرور من خلال محاولة إعادة التوجيه إلى مواقع الويب الضارة ، مما لوث المنصة على طول الطريق.
نحن نحدد عن طريق البريد المزعج كل بلوق أو بلوق وظيفة غير مرغوب فيه للموقع، وغالبا ما تكون خبيثة تلقائيا ومحتوى على نطاق واسع (على سبيل المثال ، بلوق وظائف إعادة توجيه لتحميل البرامج المشبوهة أو مواقع البث غير المشروع). في الطرف الآخر بلوق شرعي أو بلوق وظيفة هي المحتويات التي ليست غير المرغوبة، التي تجلب في الواقع قيمة للمنصة وغيرها من المستخدمين.
تواجه موجات هائلة من مرسلي الرسائل غير المرغوب فيها ، وقد حاولت Ovrblog تنفيذ بعض الأدوات للحد من تأثيرها ، وهي البريد الإلكتروني / التحقق من الهاتف ، CAPTCHAs ، وتقييد الوصول إلى بعض المناطق ، وأكثر من ذلك. ومع ذلك ، أصبحت هذه الأساليب غير فعالة إلى حد كبير حيث تمكن مرسلو الرسائل غير المرغوب فيها من التكيف بسرعة وإيجاد طرق جديدة لنشر محتوى غير مرغوب فيه على نطاق واسع.
وأسفر ذلك عن كمية كبيرة من بلوق البريد المزعج / المواد في قاعدة بيانات Overblog ، والتي لها تأثير سلبي كبير على تجربة المستخدم ، ونوعية النظام الأساسي العام ، وحركة المرور.
في هذه المقالة سوف تكتشف كيف Webedia وضعت ونفذت خوارزمية التعلم الآلي الذي يكشف تلقائيا بلوق البريد المزعج ، مما يسمح لنا لتنظيف قاعدة البيانات بأكملها وتصفية تيار واردة من الوظائف الجديدة.
جمع البيانات التي تحمل علامات
أولا، من أجل أن تكون قادرة على تعليم خوارزمية كيفية التفريق بين البريد المزعج ومنشورات بلوق الشرعية، ونحن بحاجة إلى بيانات التدريب. في حالتنا مجموعة بيانات التدريب يتكون في مجموعة من الوظائف وصفت أن تغذي خوارزمية التعلم الآلي التي سوف تتعلم عن البيانات وتكون قادرة على تصنيف مقالات بلوق بالنسبة لنا.
ومع ذلك، لم يكن هناك في ذلك الوقت أي شيء لتتبع المشاركات التي تم تحديدها يدويا على أنها غير مرغوب فيها أو شرعية: تم حذف الرسائل غير المرغوب فيها مباشرة من قاعدة البيانات، وتركت المشاركات الشرعية كما هي. لذلك ، لم نتمكن من استخراج مجموعة بيانات مقسمة إلى فئتين غير مرغوب فيها و شرعي ...
وكان نهجنا هو تخصيص بعض الوقت لتصنيف بعض الوظائف يدويا من أجل الحصول على مجموعة بيانات لاستخدامها كنقطة انطلاق لتدريب النموذج، فضلا عن إنشاء آلية التغذية المرتدة ونظام التتبع التي من شأنها أن تسمح لنا بالاستمرار في جمع البيانات الموسومة التي يتم تحديدها يدويا. هذه هي الطريقة التي انتهى بنا الأمر مع مجموعة بيانات نظيفة من الوظائف المسماة لبدء العمل معها.
وكانت الخطوة التالية لاستخراج مجموعة من الميزات التي من شأنها أن تساعد النموذج على تحقيق أداء جيد. على سبيل المثال ، مع ميزة تمثل عدد الروابط ، فإننا نلتقط الحدس بأنه نظرا لأن الهدف الرئيسي لمرسلي الرسائل غير المرغوب فيها هو امتصاص حركة الروابط وإعادة توجيه الأشخاص إلى مواقع الويب الأخرى، تميل مشاركات المدونات غير المرغوب فيها إلى أن يكون لديها روابط صادرة أكثر بكثير من الروابط المشروعة. في الوقت نفسه ، إذا كان رابط واحد على الأقل يشير إلى نطاق من القائمة السوداء (قائمة تم الاحتفاظ بها يدويا لأسماء النطاقات الضارة التي لاحظنا أنها تستخدم بشكل متكرر من قبل مرسلي الرسائل غير المرغوب فيها) ، لدينا ميزة أخرى ستوجه النموذج نحو البريد المزعج. كما استخدمنا تقنية البرمجة اللغوية العصبية التقليدية (معالجة اللغة الطبيعية) لاستخراج معلومات عالية المستوى من المحتوى النصي للنشر وتحويله إلى ميزات مفهومة للآلة.
بناء المصنف
واستند اختيار النموذج والتحسين على الأداء، ووقت الحوسبة، وقابلية التفسير.
فيما يتعلق بالأداء، لهذه الحالة استخدام أهم هو تقليل الإيجابيات كاذبة. وبعبارة أخرى ، نحن حقا بحاجة إلى تجنب الكشف عن البريد المزعج وحذف الوظائف الشرعية، لأنه إذا فعلنا ذلك يعني الحاجة إلى استعادتها، والتعامل مع شكاوى المستخدم ، الخ. في الوقت نفسه ، من المقبول أكثر أن يكون لديك بعض السلبيات الكاذبة ، أي مقالات البريد المزعج التي نفتقدها. من الناحية التقنية أكثر، ونحن نهدف إلى تحقيق أقصى قدر من الدقة للفئة البريد المزعج واستدعاء لفئة شرعي.
كما حرصنا على تقليل التعقيد الحسابي حيث كان لا بد من معالجة كميات كبيرة في إطار زمني قصير، على الرغم من أن معظم وقت الحساب يأتي من المعالجة وليس من حسابات النموذج.
وأخيرا، فإن وجود نموذج مع إمكانية شرح جيدة يجعل من السهل على فرق الأعمال فهم كيفية عمل النظام مما يسهل اعتماده والثقة به.
مع وضع هذه المعايير في الاعتبار، اخترنا استخدام نموذج Random Forest ، وهو خوارزمية بسيطة تتكون من أشجار قرارات متعددة تعمل معا لتوفير تنبؤات أكثر دقة. بعد بعض الأمثلة المعلمة، على البيانات الجديدة (أي البيانات التي لا تستخدم لتدريب أو صقل النموذج) الخوارزمية كانت صحيحة عند تصنيف الوظائف والبريد المزعج أكثر من 98 ٪ من الوقت ، ودقة إجمالية قدرها 97 ٪.
النشر في الإنتاج والتحجيم
تم تطوير النموذج المدرب في الإنتاج كواجهة برمجة تطبيقات REST تسمح بشكل أساسي لفريق Overblog بإرسال مشاركة أو دفعة من المشاركات للحصول على التنبؤات للوظائف المطلوبة.
قررت الشركة أن نعود الى احتمالات أن تكون غير المرغوبة بدلا من تصنيف مباشرة لترك المزيد من المرونة لفريق Overblog. في الواقع، يمكنهم ضبط أنفسهم لاحتمال اعتبار المنشور غير مرغوب فيه اعتمادا على النتائج ومدى رغبتهم في تجنب الإيجابيات الزائفة. على سبيل المثال ، يمكنهم تعيينهاى إلى 90 ٪ ، مما يعني أنهم يعتبرون المشاركات فقط كرسائل غير مرغوب فيها عندما يكون النموذج واثقا جدا من أنه غير مرغوب فيه. في الممارسة العملية ، وتحديد هذا إلى 80 ٪ هو حل وسط جيد بين النتائج الجيدة (عدد قليل من الإيجابيات كاذبة) في حين لا يزال الكشف عن معظم الرسائل غير المرغوب فيها. وهناك طريقة أخرى للتخفيف من خطر حذف المحتوى المشروع، بدلا من حذف المقالات التي تم اكتشافها كرسائل غير مرغوب فيها مباشرة، لحذف مدونات كاملة عندما تكون نسبة مقالات الرسائل غير المرغوب فيها المكتشفة أكبر من عتبة أخرى قابلة للتعديل: على سبيل المثال إذا تم الكشف عن أكثر من 80٪ من مقالات المدونة كرسائل غير مرغوب فيها، يتم حذف المدونة.
تم نشر واجهة برمجة التطبيقات على منصة Google Cloud (AppEngine) وتدرج تلقائيا: عدد الخوادم التي تقوم بتشغيل التطبيق يتكيف مع الحمل الذي يحتاج إلى التعامل معه! وهذا يعطي إمكانية لمعالجة كميات كبيرة من الوظائف في نفس الوقت عند الحاجة مع خفض التكاليف عندما يكون أقل حركة المرور التطبيق. هذه هي الطريقة التي عالجنا بها مخزون مئات الملايين من المشاركات في أسرع وقت ممكن أثناء التعامل مع التدفق المتقلب للمشاركات الجديدة على المنصة.
التكيف مع مرسلي الرسائل غير المرغوب فيها الجدد
أحد التحديات الرئيسية هو أن مرسلي الرسائل غير المرغوب فيها يجدون بسرعة طرقا لتجاوز الأنظمة التقليدية لمكافحة الرسائل غير المرغوب فيها. هذا هو السبب في أنه تم بيناء أداة تتكيف باستمرار وتتعلم من مرسلي الرسائل غير المرغوب فيها. تتضمن واجهة برمجة التطبيقات آلية تغذية مرتدة بحيث يتم زيادة مجموعة البيانات الخاصة بنا باستمرار من خلال المشاركات التي نضع علامة عليها يدويا. ولتيسير هذه العملية، تم تطوير أداة خاصة، "تنقية البريد المزعج" كما نود أن نسميها. فإنه يسمح للمستخدمين لتسمية بسرعة وظيفة عن طريق انتقاد بسيط الحق (إذا شرعي) أو اليسار (إذا البريد المزعج). ثم ترسل هذه الوظائف إلى نظام التغذية المرتدة للمعهد لتجهيزها وتخزينها في مستودع البيانات إلى جانب مجموعة البيانات الأولية للوظائف التي تحمل علامات. ثم يتم إعادة تدريب نموذج التعلم الآلي بانتظام ليأخذ في الاعتبار تلك الوظائف الجديدة. في كل مرة نأتي عبر نوع جديد من البريد المزعج التي لم يتم الكشف عنها بشكل جيد من قبل النموذج، و قفزة على واجهة وضع العلامات، تسمية بعض الوظائف من هذا النوع الجديد من البريد المزعج، وسوف يتم الكشف عنها بعد ذلك أفضل بكثير وحذفها تلقائيا.
باختصار
وقد ساعدنا هذا النهج لتنظيف قاعدة البيانات بعمق عن طريق حذف الملايين من المواد المزعجة الملوثة والحد بشكل كبير من كمية الرسائل غير المرغوب فيها الجديدة المنشورة على المنصة ، وحتى يومنا هذا ، لم نتلق أي شكاوى المستخدم تشير إلى أنه قد حذف بلوق المستخدمين المشروعة. من بين أمور أخرى ، شاركت في تحسين حركة الروابط على المنصة في الأشهر القليلة الماضية.
واحدة من الفوائد العظيمة لهذا النظام القائم على التعلم الآلي هو أننا يمكن أن تتكيف بسرعة وسهولة مع أنواع جديدة محتملة من مرسلي الرسائل غير المرغوب فيها دون تطوير حل جديد. وبهذا المعنى، نشعر الآن بمزيد من الثقة في مكافحة مرسلي الرسائل غير المرغوب فيها.
ليست هناك تعليقات:
إرسال تعليق