قواعد البيانات العملاقة

كلنا طبعا عارفين قواعد البيانات , عباراة عن بيانات منظمة متسجلة فى عدد من الجداول بطريقة منظمة وبين الجداول وبعضها مجموعة علاقات بقدر من خلالها اطلع معلومات وتقارير واضحة .. أمثلة برامج قواعد البيانات لشركات المحمول بتقدر من خلالها تسجل كل بيانات العملاء بالتفصيل , بتسجل الرقم الفلانى كلم الرقم الفلانى مده كذا ويضربها فى التعريفه للدقيقه ويخصم من الرصيد وهكذا .

- طب ايه البيانات الضخمة دى , باختصار شديد هى عباراة عن مجموعة كبيرة من البيانات الضخمة والمعقدة واللى صعب اخزنها أو اعالجها باستخدام قواعد البيانات DBMS نظرا لحجمها الكبير جدا وتعدد مصادرها وتنوعها بحجم يصل إلى المئات من التيرابايت أو حتى البيتابايت .

- طيب البيانات الضخمة موجودة فين ؟
1- سمعت عن الصندوق الاسود اللى موجود ف الطيارات , كده بيانات ضخمة بيلقط اصوات طاقم الطيارة وبيسجل من الميكروفونات والسماعات ومعلومات عن اداء الطيارة بشكل عام .
2- وسائل التواصل الاجتماعى : زى فيس بوك بيقدر انه يفصل البوستات عن الصور عن الفيديوهات عن الشير عن اللينكات إلخ , وكذلك تويتر بيعمل ارشفة للتويتات , شوف الواتس اب والرسايل اللى بتتبعت والصور وغيره , واليوتيوب .
3- البورصة وتداول العملة وعمليات البيع والشراء .
4- محركات البحث : بيقدر يشوفك بتعمل ايه عالانترنت من الاخر , بتبحث عن ايه , بتفتح مواقع ايه إلخ .
5- كمان موجود فى الصحة والتعليم والاعلام والطقس ودرجات الحرارة والطاقة وشبكات الكهرباء وغيره وغيره .

- طيب هيا كده مازالت بيانات فى صورة خام مش قادر استفيد منها ولا اخد قرارت فعشان استفاد منها لازم ابدأ اعمل تحليل للبيانات دى وطبعا هحتاج أدوات وبرامج غير تقليدية , يعنى مثلا نفترض انه قدامك أرشيف لعمليات بحث المصريين على الانترنت , لو قدرت احلل ايه الحاجات اللى بحثو عنها كشخصيات عامة أو عمليات الشراء من المواقع من التسوق الاونلاين , ده هيفيد الشركات فى عمليات الترويج لنفسها والعروض اللى هتقدمها , جربت فى مره تبحث عن حاجة ع جوجل وتلاقيها قدامك فى اعلانات الفيس بوك ؟
 

- انواع البيانات 


1- بيانات مهيكلة :- يعنى اللى هيا قواعد بيانات , جداول بينهم علاقات اقدر احصل على معلومات دقيقة .
2- بيانات نصف مهيكلة :- يعنى هيا بيانات جزء منه مهيكل وجزء تانى غير مهيكل .
3- بيانات غير مهيكلة :- اللى هيا مش قادر اتعلم معاها بقواعد البيانات العادية وبالتالى هيا بقت ضمن البيانات الضخمة (البيانات الغير مهيكلة تمثل 80 % من البيانات في العالم) .

** شوية ارقام كده بالصلاة على النبى
- شركة IBM بتقولك احنا بننتج يوميا حوالى 2.5 "كونتيليون" بايت = 2.5 تريليون بايت من البيانات , الرقم ده بيدل على أن 90% من حجم البيانات حول العالم قد تم إنتاجها في العامين الآخيرين .
- شركة Intel بتقولك أن حجم البيانات التي انتجها البشر منذ أن بدأ يعرف الكتابة حتى عام 2003 تقدر بنحو 5 اكسابايت يعنى 5 ملايين تيرابايت , الرقم اللى فوق ده تضاعف 500 مرة حتى عام 2012 ليصل إلى 2.7 زيتابايت والزيتا بايت بتساوى 1000 اكسابايت .
- شركة سيسكو بتقدر أنه وبحلول عام 2015 فإن حركة الزيارات على الإنترنت بالشكل الإجمالي ستتجاوز 4.8 زيتابايت يعنى 4.8 مليار تيرا بايت سنوياً.

 

- خصائص البيانات الضخمة 


1- الحجم: عدد التيراباتيت من البيانات اللى بتحصل عليها بشكل يومى .
2- التنوع: تنوع البيانات ما بين مهيكلة وغير مهيكلة ونصف مهيكلة وتنوع المصادر من المواقع المختلفه واختلاف البيانات سواء صور او فيديوهات او ايميلات وغيره .
3- السرعة : سرعة الوصول إلى البيانات وتحليلها بما يناسب متطلبات العمل.
شركة IBM ضافت خاصية جديدة وهيا 
4- الصحة والدقة : مدى موثوقية البيانات بعد تحليلها لأصحاب القرار .

-امثلة عملية للبيانات الضخمة 


- موقع Amazon.com يعالج ملايين العمليات الخلفية كل يوم، فضلاً عن استفسارات من أكثر من نصف مليون بائع طرف ثالث . وتعتمد أمازون علي نظام اللينوكس بشكل أساسي ليتمكن من التعامل مع هذا الكم الهائل من البيانات، و تملك أمازون أكبر 3 قواعد بيانات لينوكس في العالم والتي تصل سعتها إلي 7.8، 18.5 و 24.7 تيرابايت.
- سلسلة المتاجر Walmart تعالج أكثر من مليون معاملة تجارية كل ساعة، والتي يتم استيرادها إلي قواعد بيانات يُقدر أنها تحتوي علي أكثر من 2.5 بيتابايت (2560 تيرابايت) من البيانات – وهو ما يوازي 167 ضعف البيانات الواردة في جميع الكتب الموجودة في مكتبة الكونغرس في الولايات المتحدة.
- يعالج فيس بوك 50 مليار صورة من قاعدة مستخدميه. ويقوم نظام حماية بطاقات الائتمان من الاحتيال ” FICO Falcon Credit Card Fraud Detection System” بحماية 2.1 مليار حساب نشط في جميع أنحاء العالم.
- البشرية ارسلت اكثر من 144.8 مليار رسالة بريد الكتروني.
- تُقدر عمليات البحث علي جوجِل في الدقيقه بـ 2 مليون عمليه.
- تكتب علي Twitter في اليوم 340 مليون تغريده.
- تُقدر عمليات تحميل التطبيقات من Apple بـ47000 عمليه في الدقيقه.
- يُرشد الـGPS أكثر من 100 مليون سائِق يومياً ويسجل تحركاتهم.
- تحويل 12 تيرابايت من التغريدات يوميا إلى تحليل لمشاعر الناس حول منتج ما.
- تحليل تفاصيل سجلات 500 مليون مكالمة يومية في الوقت الحقيقي للتنبؤ بتوجه العملاء بشكل أسرع.

-الادوات اللى بقدر احلل من خلالها البيانات


- فيه ادوات كتيير ممكن نحلل بيها منها Hadoop , MapReduce , GridGain , HPCC , Storm , Cassandra . 
- اشهر الاداوت دى هو Hadoop والهدوب باختصار اطار عمل برمجى مفتوح المصدر , يدعم التطبيقات الموزعة للبيانات الكثيفة , تصميم الهدوب دعم عملية توسيع نطاق البيانات من خادم واحد ليشمل 5 الاف جهاز .

اشهر الشركات اللى بتستخدم Hadoop 
- Amazon, Apple, eBay,Facebook, Google
IBM, LinkedIn, Microsoft, The New York Times, Twitter, Yahoo

 

ماذا يقول الاخرين عن قواعد البيانات العملاقة