داده های بزرگ چیست: ویژگی ها، طبقه بندی، مثال ها. دایره المعارف بازاریابی

کلان داده یا کلان داده مفهومی است که در فناوری اطلاعات و بازاریابی استفاده می شود. اصطلاح "داده های بزرگ" برای تعریف تجزیه و تحلیل و مدیریت حجم های بزرگ استفاده می شود. بنابراین، داده های بزرگ اطلاعاتی هستند که به دلیل حجم زیاد، قابل پردازش نیستند روش های سنتی.

زندگی مدرن بدون فناوری های دیجیتال قابل تصور نیست. انبارهای داده جهان به طور مداوم در حال تکمیل شدن هستند و بنابراین لازم است که هم شرایط ذخیره سازی اطلاعات را به طور مداوم تغییر دهیم و هم به دنبال راه های جدیدی برای افزایش حجم رسانه های آن باشیم. بر اساس نظر کارشناسان افزایش اطلاعات بزرگو افزایش نرخ رشد واقعیت های فعلی هستند. همانطور که قبلا ذکر شد، اطلاعات بدون توقف ظاهر می شوند. حجم عظیمی از آن توسط سایت های اطلاعاتی، سرویس های مختلف اشتراک فایل و شبکه های اجتماعی تولید می شود، اما این تنها بخش کوچکی از کل حجم تولید شده است.

IDC Digital Universe پس از انجام مطالعه ای اعلام کرد که ظرف 5 سال حجم داده های کل زمین به چهل زتابایت خواهد رسید. این بدان معناست که برای هر فرد روی کره زمین 5200 گیگابایت اطلاعات وجود دارد.

بهترین مقاله ماه

نیمه اول سال 2018 به پایان می رسد - زمان آن است که نتایج موقت را جمع بندی کنیم. حتی اگر عملکرد تجاری شرکت نسبت به دوره قبل افزایش یافته باشد، اطمینان حاصل کنید که هیچ مشکل پنهانی در کار شرکت وجود ندارد که باعث ایجاد مشکل شود.

برای تشخیص مشکلات، چک لیست های مقاله ما را پر کنید و دریابید که به کدام سمت کسب و کار توجه کنید.

این امر رایج است که مردم تولیدکنندگان اصلی اطلاعات نیستند. منبع اصلی که داده های اطلاعاتی را به ارمغان می آورد ربات هایی هستند که به طور مداوم در تعامل هستند. اینها شامل سیستم عامل رایانه، تبلت و تلفن همراه، سیستم های هوشمند، ابزارهای نظارت، سیستم های نظارت و غیره می شود. آنها با هم نرخ سریع افزایش حجم داده را تعیین می کنند، به این معنی که نیاز به ایجاد سرورهای واقعی و مجازی در حال افزایش است. روی هم رفته، این منجر به گسترش و اجرای مراکز داده جدید می شود.

اغلب، داده های بزرگ به عنوان اطلاعاتی تعریف می شوند که از حجم هارد دیسک رایانه شخصی بیشتر است و با روش های سنتی که برای پردازش و تجزیه و تحلیل اطلاعات با حجم کمتر استفاده می شود، قابل پردازش نیستند.

به طور خلاصه، فناوری پردازش داده های بزرگ در نهایت به 3 حوزه اصلی کاهش می یابد که به نوبه خود 3 نوع مشکل را حل می کند:

ذخیره و مدیریت حجم عظیمی از داده ها - تا صدها ترابایت و پتابایت - که پایگاه های داده رابطه ای نمی توانند به طور موثر از آنها استفاده کنند.
سازماندهی اطلاعات بدون ساختار - متون، تصاویر، فیلم ها و انواع دیگر داده ها.
تجزیه و تحلیل کلان داده (تجزیه و تحلیل داده های بزرگ) - روش های کار با اطلاعات بدون ساختار، ایجاد گزارش های داده های تحلیلی و معرفی مدل های پیش بینی را پوشش می دهد.

بازار پروژه هابزرگداده هاارتباط نزدیکی با بازار VA - تجزیه و تحلیل تجاری دارد که حجم آن در سال 2012 به حدود 100 میلیارد دلار رسید و شامل فناوری های شبکه، نرم افزار، خدمات فنی و سرورها می شود.

اتوماسیون فعالیت های شرکت، به ویژه راه حل های تضمین درآمد (RA) نیز به طور جدایی ناپذیری با استفاده از فناوری های کلان داده مرتبط است. امروزه سیستم‌های این حوزه حاوی ابزارهایی هستند که برای تشخیص ناهماهنگی‌ها و تجزیه و تحلیل عمیق داده‌ها استفاده می‌شوند و همچنین به شناسایی تلفات احتمالی یا عدم دقت در اطلاعات کمک می‌کنند که می‌تواند منجر به کاهش نتایج بخش شود.

شرکت های روسی تأیید می کنند که تقاضا برای فناوری های کلان داده وجود دارد؛ آنها به طور جداگانه خاطرنشان می کنند که عوامل اصلی مؤثر بر توسعه داده های بزرگ در روسیه افزایش حجم داده ها، اتخاذ سریع تصمیمات مدیریتی و افزایش کیفیت آنها است.

داده های بزرگ چه نقشی در بازاریابی دارند؟

بر کسی پوشیده نیست که اطلاعات یکی از اجزای اصلی پیش بینی موفقیت آمیز و توسعه استراتژی بازاریابی است، اگر بدانید چگونه از آن استفاده کنید.

تجزیه و تحلیل کلان داده در تعیین مخاطب هدف، علایق و فعالیت آن ضروری است. به عبارت دیگر، استفاده ماهرانه از کلان داده به شما امکان می دهد تا توسعه یک شرکت را به طور دقیق پیش بینی کنید.

به عنوان مثال، با استفاده از مدل معروف حراج RTB، با کمک تجزیه و تحلیل داده های بزرگ می توان اطمینان حاصل کرد که تبلیغات فقط برای خریداران بالقوه ای که علاقه مند به خرید یک خدمات یا محصول هستند نمایش داده می شود.

کاربردکلان داده در بازاریابی:

به شما امکان می دهد خریداران بالقوه را بشناسید و مخاطبان مناسب را در اینترنت جذب کنید.
به ارزیابی رضایت کمک می کند.
به مطابقت خدمات ارائه شده با نیازهای خریدار کمک می کند.
جستجو و اجرای روش های جدید برای افزایش وفاداری مشتری را تسهیل می کند.
ایجاد پروژه هایی را که متعاقباً مورد تقاضا خواهند بود، ساده می کند.

یک مثال خاص سرویس Google.trends است. با کمک آن، یک بازاریاب می‌تواند پیش‌بینی فصل مربوط به یک محصول خاص، جغرافیای کلیک‌ها و نوسانات را شناسایی کند. بنابراین، با مقایسه اطلاعات دریافتی با آمار وب سایت خود، تهیه بودجه تبلیغاتی که منطقه و ماه را نشان می دهد بسیار آسان است.

توزیع بودجه تبلیغات: آنچه ارزش هزینه کردن را دارد

چگونه و کجا کل داده های بزرگ را ذخیره کنیم

سیستم فایل- این جایی است که داده های بزرگ سازماندهی و ذخیره می شوند. تمام اطلاعات روی تعداد زیادی هارد دیسک در رایانه شخصی قرار دارد.

"نقشه"- نقشه - جایی که هر بخش از اطلاعات به طور مستقیم ذخیره می شود را ردیابی می کند.

به منظور بیمه در برابر شرایط پیش بینی نشده، مرسوم است که هر قسمت از اطلاعات را چندین بار ذخیره کنید - توصیه می شود این کار را انجام دهید. سه بار.

به عنوان مثال، پس از جمع‌آوری تراکنش‌های فردی در یک زنجیره خرده‌فروشی، تمام اطلاعات مربوط به هر تراکنش فردی در چندین سرور و هارد دیسک ذخیره می‌شود و یک «نقشه» مکان فایل را برای هر تراکنش خاص فهرست می‌کند.

به منظور سازماندهی ذخیره سازی داده ها در حجم زیاد، می توانید از تجهیزات فنی استاندارد و نرم افزارهای در دسترس عموم (مثلا Hadoop) استفاده کنید.

کلان داده و تجزیه و تحلیل تجاری: تفاوت بین مفاهیم

امروزه تجزیه و تحلیل کسب و کار یک فرآیند توصیفی از نتایجی است که در یک دوره زمانی خاص به دست آمده است. سرعت فعلی پردازش کلان داده ها، تحلیل را پیش بینی می کند. در آینده می توانید به توصیه های او اعتماد کنید. فن آوری های کلان داده، تجزیه و تحلیل تعداد بیشتری از انواع داده ها را در مقایسه با ابزارها و ابزارهای مورد استفاده در تجزیه و تحلیل کسب و کار ممکن می سازد. این به شما این امکان را می دهد که نه تنها بر روی انبارهایی که داده ها در آنها ساختار یافته اند تمرکز کنید، بلکه از منابع بسیار گسترده تری نیز استفاده کنید.

تجزیه و تحلیل کسب و کار و داده های بزرگ از بسیاری جهات مشابه هستند، اما تفاوت های زیر وجود دارد:

کلان داده برای پردازش حجمی از اطلاعات استفاده می شود که به طور قابل توجهی بزرگتر از تجزیه و تحلیل تجاری است که مفهوم کلان داده را تعریف می کند.
با کمک داده های بزرگ می توانید داده های دریافتی و تغییر سریع را پردازش کنید که منجر به تعامل می شود، یعنی در بیشتر موارد سرعت بارگذاری یک صفحه وب کمتر از سرعت تولید نتایج است.
داده های بزرگ را می توان هنگام پردازش داده هایی استفاده کرد که ساختاری ندارند، کار با آن باید تنها پس از اطمینان از ذخیره سازی و جمع آوری آن آغاز شود. علاوه بر این، لازم است الگوریتم هایی اعمال شود که بتوانند الگوهای اصلی را در آرایه های ایجاد شده شناسایی کنند.

فرآیند تجزیه و تحلیل کسب و کار چندان شبیه به کار داده های بزرگ نیست. به عنوان یک قاعده، تجزیه و تحلیل کسب و کار تمایل به به دست آوردن نتایج با افزودن مقادیر خاص دارد: یک مثال حجم فروش سالانه است که به عنوان مجموع تمام فاکتورهای پرداخت شده محاسبه می شود. در فرآیند کار با داده های بزرگ، محاسبات با ساخت یک مدل گام به گام انجام می شود:

ارائه یک فرضیه؛
ساخت یک مدل ایستا، بصری و معنایی؛
آزمون اعتبار فرضیه بر اساس مدل های مشخص شده؛
با طرح فرضیه زیر

برای تکمیل چرخه تحقیق، تفسیر معانی بصری (پرسش های دانش محور تعاملی) ضروری است. یک الگوریتم یادگیری ماشین تطبیقی نیز می تواند توسعه یابد.

نظر متخصص

شما نمی توانید کورکورانه تنها به نظرات تحلیلگران تکیه کنید

ویاچسلاو نظروف،

مدیر کل دفتر نمایندگی روسیه آرکوس، مسکو

حدود یک سال پیش بر اساس نظر کارشناسان یک تبلت کاملا جدید را روانه بازار کردیم. کنسول بازی. فشردگی و قدرت فنی کافی در میان طرفداران بازی های رایانه ای شناخته شده است. لازم به ذکر است که این گروه علیرغم «کم بودن» از قدرت خرید نسبتاً بالایی برخوردار بودند. در ابتدا، محصول جدید نظرات مثبت زیادی را در رسانه ها جمع آوری کرد و مورد تایید همکاران ما قرار گرفت. با این حال، به زودی مشخص شد که فروش تبلت بسیار کم بوده است. راه حل هرگز محبوبیت انبوه خود را پیدا نکرد.

خطا. عیب ما این بود که علایق مخاطبان به طور کامل بررسی نشده بود. کاربرانی که ترجیح می‌دهند در تبلت بازی کنند، نیازی به گرافیک فوق‌العاده ندارند، زیرا بیشتر روی آن بازی می‌کنند بازی های ساده. گیمرهای جدی قبلاً به بازی روی رایانه روی پلتفرم های پیشرفته تر عادت کرده اند. تبلیغات گسترده ای از محصول ما انجام نشد، کمپین بازاریابی نیز ضعیف بود و در نهایت تبلت در هیچ یک از گروه های مشخص شده خریدار خود را پیدا نکرد.

عواقب. تولید محصول باید تقریباً 40 درصد در مقایسه با حجم برنامه ریزی شده اولیه کاهش می یابد. البته نه زیان بزرگی داشت و نه سود برنامه ریزی شده بود. با این حال، این ما را مجبور به تعدیل برخی از اهداف استراتژیک کرد. با ارزش ترین چیزی که ما به طور جبران ناپذیر از دست داده ایم زمان است.

مشاوره. شما باید به آینده فکر کنید. خطوط تولید باید دو یا سه قدم جلوتر در نظر گرفته شوند. چه مفهومی داره؟ هنگام راه اندازی یک محدوده مدل خاص امروز، مطلوب است که سرنوشت فردای آن را درک کنید و حداقل تصویری تقریبی از آنچه در یک سال و نیم آینده برای آن اتفاق می افتد داشته باشید. البته جزئیات کامل بعید است، اما طرح اساسیهنوز باید تدوین شود

و شما نباید به طور کامل به تحلیلگران اعتماد کنید. ارزیابی های کارشناسان باید با داده های آماری خود و همچنین با وضعیت عملیاتی در بازار مقایسه شود. اگر محصول شما به طور کامل توسعه نیافته است، نباید آن را به بازار عرضه کنید، زیرا برای خریدار اولین برداشت مهم است و سپس متقاعد کردن او کار آسانی نخواهد بود.

خیلی توصیه مهمدر صورت شکست - سرعت تصمیم گیری. شما مطلقا نمی توانید فقط تماشا کنید و منتظر بمانید. حل یک مشکل بدون تاخیر همیشه بسیار ساده تر و ارزان تر از رفع مشکل نادیده گرفته شده است.

سیستم کلان داده چه مشکلاتی ایجاد می کند؟

سه گروه اصلی از مشکلات سیستم های کلان داده وجود دارد که در ادبیات خارجی به 3 ولت ترکیب می شوند - حجم، سرعت و تنوع، یعنی:

جلد.
سرعت پردازش.
فقدان ساختار.

موضوع ذخیره سازی حجم زیادی از اطلاعات با نیاز به سازماندهی شرایط خاص یعنی ایجاد فضا و فرصت همراه است. در مورد سرعت، نه چندان با کاهش سرعت و ترمز در هنگام استفاده از روش‌های پردازش منسوخ، بلکه با تعامل: هرچه فرآیند پردازش اطلاعات سریع‌تر باشد، نتیجه کارآمدتر است.

مشکل ساختار ناپذیری ناشی از جدا بودن منابع، قالب و کیفیت آنهاست. یکپارچه سازی و پردازش موفقیت آمیز کلان داده ها هم نیازمند کار بر روی آماده سازی آن و هم به ابزارها یا سیستم های تحلیلی است.
محدودیت در "میزان" داده ها نیز تأثیر زیادی دارد. تعیین ارزش بسیار دشوار است و بر این اساس محاسبه اینکه چه سرمایه گذاری های مالی مورد نیاز است و چه فناوری هایی مورد نیاز خواهد بود مشکل ساز است. با این حال، برای مقادیر خاص، به عنوان مثال، ترابایت، روش های پردازش جدید امروزه با موفقیت استفاده می شود که به طور مداوم در حال بهبود هستند.
فقدان اصول پذیرفته شده عمومی برای کار با داده های بزرگ مشکل دیگری است که به دلیل ناهمگونی جریانات فوق پیچیده می شود. برای حل این مشکل، روش های جدیدی از تجزیه و تحلیل کلان داده ها ایجاد می شود. بر اساس اظهارات نمایندگان دانشگاه های نیویورک، واشنگتن و کالیفرنیا، ایجاد رشته جداگانه و حتی علم داده های بزرگ دور از دسترس نیست. این دلیل اصلی است که شرکت ها برای معرفی پروژه های مرتبط با کلان داده عجله ندارند. عامل دیگر هزینه بالا است.
همچنین مشکلاتی در انتخاب داده ها برای تجزیه و تحلیل و الگوریتم اقدامات ایجاد می شود. تا به امروز، هیچ درک درستی از اینکه چه داده‌هایی حاوی اطلاعات ارزشمند هستند و به تجزیه و تحلیل داده‌های بزرگ نیاز دارند و چه داده‌هایی را می‌توان نادیده گرفت، وجود ندارد. در این وضعیت، یک چیز دیگر مشخص می شود - متخصصان صنعت کافی در بازار وجود ندارند که بتوانند با تجزیه و تحلیل عمیق کنار بیایند، گزارشی در مورد حل مشکل تهیه کنند و بر این اساس، سود حاصل کنند.
یک جنبه اخلاقی نیز برای این سوال وجود دارد: آیا جمع آوری داده ها بدون اطلاع کاربر با تجاوز فاحش به حریم خصوصی متفاوت است؟ شایان ذکر است که جمع آوری داده ها کیفیت زندگی را بهبود می بخشد: به عنوان مثال، جمع آوری مداوم داده ها در سیستم های Google و Yandex به شرکت ها کمک می کند تا خدمات خود را بسته به نیاز مصرف کننده بهبود بخشند. سیستم های این سرویس ها هر کلیک کاربر، موقعیت مکانی و سایت های بازدید شده او، همه پیام ها و خریدها را یادداشت می کنند - و همه اینها امکان نمایش تبلیغات بر اساس رفتار کاربر را فراهم می کند. کاربر با جمع آوری داده ها موافقت نکرد: چنین انتخابی ارائه نشده است. این منجر به مشکل بعدی می شود: اطلاعات ذخیره شده چقدر امن است؟ به عنوان مثال، اطلاعات در مورد خریداران بالقوه، تاریخچه خرید و انتقال آنها به سایت های مختلف می تواند به حل بسیاری از مشکلات تجاری کمک کند، اما اینکه آیا پلتفرمی که خریداران استفاده می کنند ایمن است یا خیر بسیار مهم است. مسئله ی جنجالی. بسیاری از مردم به این واقعیت متوسل می شوند که امروزه هیچ یک از امکانات ذخیره سازی داده ها - حتی سرورهای خدمات نظامی - به اندازه کافی در برابر حملات هکرها محافظت نمی شود.

اسرار تجاری: حفاظت و مجازات برای افشای

استفاده گام به گام از داده های بزرگ

مرحله ی 1. پیاده سازی فن آوری شرکت در یک پروژه استراتژیک.

وظایف متخصصان فنی شامل شرح مقدماتی مفهوم توسعه است: تجزیه و تحلیل مسیرهای توسعه در مناطقی که بیشتر به آن نیاز دارند.

برای تعیین ترکیب و وظایف، گفتگو با مشتریان انجام می شود که در نتیجه منابع مورد نیاز تجزیه و تحلیل می شود. در همان زمان، سازمان تصمیم می گیرد تمام وظایف را به طور کامل برون سپاری کند یا یک تیم ترکیبی متشکل از متخصصان این سازمان و هر سازمان دیگری ایجاد کند.

طبق آمار، تعداد زیادی از شرکت ها دقیقاً از این طرح استفاده می کنند: داشتن تیمی از متخصصان در داخل، نظارت بر کیفیت کار و تشکیل یک جنبش، و در خارج، آزمایش مستقیم فرضیه ها در مورد توسعه هر جهت.

مرحله 2: پیدا کردن یک دانشمند داده

مدیر کارکنان کارگران را به صورت جمعی جمع آوری می کند. او همچنین مسئولیت توسعه پروژه را بر عهده دارد. کارکنان منابع انسانی نقش مستقیمی در ایجاد تیم داخلی دارند.

اول از همه، چنین تیمی به یک مهندس تحلیلگر داده نیاز دارد که به آن نیز معروف است دانشمند داده، که به وظیفه تشکیل فرضیه ها و تجزیه و تحلیل مجموعه ای از اطلاعات می پردازد. همبستگی هایی که او شناسایی می کند در آینده برای ایجاد محصولات و خدمات جدید استفاده خواهد شد.

به خصوص در مراحل اولیه مهم است وظیفه بخش منابع انسانی. کارمندان آن تصمیم می گیرند که دقیقاً چه کسی کار را با هدف توسعه پروژه انجام دهد، از کجا آن را دریافت کند و چگونه به آن انگیزه دهد. پیدا کردن یک مهندس تحلیلگر داده چندان آسان نیست، بنابراین این یک "محصول قطعه" است.

هر شرکت جدی باید متخصصی با این مشخصات داشته باشد وگرنه تمرکز پروژه از بین می رود. مهندس تحلیلی ترکیبی: توسعه دهنده، تحلیلگر و تحلیلگر تجاری. علاوه بر این، او باید دارای مهارت های ارتباطی برای نشان دادن نتایج فعالیت های خود و انبوهی از دانش و مهارت برای توضیح جزئیات افکار خود باشد.

24 فکری که شروع کننده تغییرات بزرگ در زندگی است

نمونه ها را جستجو کنید

1. یک شرکت تاکسیرانی "Big Data" در مسکو سازماندهی شد. در طول مسیر، مسافران به وظایفی در زمینه تجزیه و تحلیل حرفه ای پاسخ دادند. اگر مسافر به بیشتر سؤالات پاسخ صحیح می داد، شرکت به او پیشنهاد کار می داد. عیب اصلی این نوع تکنیک انتخاب پرسنل عدم تمایل اکثریت به شرکت در این نوع پروژه است. فقط چند نفر با مصاحبه موافقت کردند.

2. برگزاری مسابقه ویژه در تحلیل کسب و کار با نوعی جایزه. یک بانک بزرگ روسی از این روش استفاده کرد. در نتیجه بیش از 1000 نفر در مسابقه هکاتون شرکت کردند. به کسانی که بالاترین موفقیت را در این رقابت کسب کردند، شغلی پیشنهاد شد. متأسفانه اکثر برندگان تمایلی برای دریافت این مقام نداشتند، زیرا انگیزه آنها فقط جایزه بود. اما باز هم چند نفر موافقت کردند که در تیم کار کنند.

3. در میان متخصصان داده جستجو کنید که تجزیه و تحلیل تجاری را درک می کنند و قادر به بازگرداندن نظم با ایجاد الگوریتم صحیح اقدامات هستند. مهارت های لازم یک تحلیلگر متخصص شامل: برنامه نویسی، دانش پایتون، R، Statistica، Rapidminer و سایر دانش هایی است که برای یک تحلیلگر کسب و کار اهمیت کمتری ندارد.

مرحله 3. ایجاد یک تیم برای توسعه.

یک تیم کاملاً هماهنگ مورد نیاز است. هنگام در نظر گرفتن تجزیه و تحلیل های پیشرفته، مانند نوآوری شرکت، یک مدیر ملزم به ایجاد و توسعه هوش تجاری است.

مهندس محققدرگیر ساخت و آزمایش فرضیه هایی برای توسعه موفقیت آمیز بردار انتخاب شده است.

به سرسازماندهی توسعه خط انتخاب شده کسب و کار، ایجاد محصولات جدید و هماهنگی آنها با مشتریان ضروری است. مسئولیت های او علاوه بر این، شامل محاسبه پرونده های تجاری است.

یک مدیر توسعهباید از نزدیک با همه کار کند. مهندس تحلیلی و مدیر توسعه کسب و کار، نیازها و فرصت‌ها را برای تجزیه و تحلیل کلان داده‌ها از طریق جلساتی با کارکنان مسئول حوزه‌های مختلف پروژه شناسایی می‌کنند. پس از تجزیه و تحلیل وضعیت، مدیر مواردی را ایجاد می کند که به لطف آنها شرکت تصمیماتی را در مورد توسعه بیشتر یک جهت، خدمات یا محصول اتخاذ می کند.

مدیر توسعه: الزامات و شرح شغل

3 اصل کار با بigدآتا

ما می توانیم روش های اصلی کار با داده های بزرگ را برجسته کنیم:

مقیاس پذیری افقیبا توجه به اینکه باید حجم عظیمی از داده ها وجود داشته باشد، هر سیستمی که حجم زیادی از اطلاعات را پردازش کند، قابل گسترش خواهد بود. به عنوان مثال، اگر حجم داده ها چندین برابر شده باشد، حجم سخت افزار در خوشه نیز به همان میزان افزایش یافته است.
تحمل خطا.بر اساس اصل مقیاس پذیری افقی، می توان نتیجه گرفت که تعداد زیادی ماشین در خوشه وجود دارد. به عنوان مثال، خوشه Hadoop از یاهو بیش از 42000 مورد از آنها دارد. همه روش های کار با داده های بزرگ باید در نظر گرفته شوند. نقص های احتمالیو به دنبال راه هایی برای کنار آمدن با مشکلات بدون عواقب باشید.
محل داده هاداده های ذخیره شده در سیستم های بزرگ در تعداد نسبتا زیادی از ماشین ها توزیع می شود. بنابراین، در شرایطی که داده ها در سرور شماره 1 ذخیره می شوند و در سرور شماره 2 پردازش می شوند، نمی توان این احتمال را که هزینه انتقال آنها بیش از پردازش باشد را منتفی دانست. به همین دلیل است که در طول طراحی، توجه زیادی به اطمینان از ذخیره و پردازش داده ها در یک رایانه می شود.

همه روش های کار با داده های بزرگ، به هر طریقی، به این سه اصل پایبند هستند.

نحوه استفاده از سیستم کلان داده

راه‌حل‌های کلان داده مؤثر برای طیف گسترده‌ای از حوزه‌های تجاری از طریق ترکیب‌های بسیاری از نرم‌افزار و سخت‌افزاری که در حال حاضر وجود دارد به دست می‌آیند.

کرامت مهمبزرگداده ها- امکان استفاده از ابزارهای جدید با ابزارهایی که قبلاً در این زمینه استفاده شده است. این نقش به ویژه در موقعیت هایی با پروژه های بین رشته ای ایفا می کند. یک مثال فروش چند کاناله و پشتیبانی مشتری است.

برای کار با داده های بزرگ، دنباله خاصی مهم است:

ابتدا داده ها جمع آوری می شود.
سپس اطلاعات ساختار یافته است. برای این منظور از داشبوردهای ( داشبوردها -ابزارهای ساختاری؛
در مرحله بعد بینش ها و زمینه هایی ایجاد می شود که بر اساس آن توصیه هایی برای تصمیم گیری شکل می گیرد. با توجه به هزینه های بالای جمع آوری داده ها، وظیفه اصلی تعیین هدف استفاده از اطلاعات به دست آمده است.

مثال.آژانس های تبلیغاتی ممکن است از اطلاعات مکان جمع آوری شده از شرکت های مخابراتی استفاده کنند. این رویکرد تبلیغات هدفمند را ارائه می دهد. همین اطلاعات در سایر زمینه های مرتبط با ارائه و فروش خدمات و کالاها نیز قابل اجرا است.

اطلاعات به دست آمده از این طریق ممکن است در تصمیم گیری برای باز کردن فروشگاه در یک منطقه خاص کلیدی باشد.

اگر مورد استفاده از بیلبوردهای فضای باز در لندن را در نظر بگیریم، بدون شک امروزه چنین تجربه ای تنها در صورتی امکان پذیر است که در نزدیکی هر بیلبورد یک دستگاه اندازه گیری مخصوص قرار گیرد. در عین حال، اپراتورهای تلفن همراه همیشه اطلاعات اولیه مشترکین خود را می دانند: موقعیت مکانی، وضعیت تأهل و غیره.

یکی دیگر از حوزه‌های بالقوه کاربرد کلان داده، جمع‌آوری اطلاعات درباره تعداد بازدیدکنندگان رویدادهای مختلف است.

مثال.برگزارکنندگان مسابقات فوتبال قادر به اطلاع دقیق از تعداد افرادی که از قبل به مسابقه آمده اند نیستند. اما اگر از اطلاعات اپراتورها استفاده می کردند، چنین اطلاعاتی را دریافت می کردند ارتباطات سیار: جایی که بازدیدکنندگان بالقوه برای یک دوره زمانی معین - یک ماه، یک هفته، یک روز - قبل از مسابقه قرار دارند. به نظر می رسد که سازمان دهندگان این فرصت را خواهند داشت که مکان رویداد را بسته به ترجیحات مخاطب هدف برنامه ریزی کنند.

کلان داده همچنین مزایای غیرقابل مقایسه ای برای بخش بانکی فراهم می کند که می تواند از داده های پردازش شده برای شناسایی دارندگان کارت های بی پروا استفاده کند.

مثال.هنگامی که دارنده کارت مفقود شدن یا سرقت خود را گزارش می دهد، بانک این فرصت را دارد که مکان کارت مورد استفاده برای پرداخت و تلفن همراه دارنده را برای تأیید صحت اطلاعات ردیابی کند. بنابراین، نماینده بانک این فرصت را دارد که آن را ببیند کارت پرداختو تلفن همراه دارنده در همان منطقه هستند. این بدان معناست که مالک از کارت استفاده می کند.

به لطف مزایای این نوع اطلاعات، استفاده از اطلاعات به شرکت ها فرصت های جدید بسیاری می دهد و بازار کلان داده همچنان به توسعه خود ادامه می دهد.

مشکل اصلی در پیاده سازی کلان داده، پیچیدگی محاسبه مورد است. این روند با حضور پیچیده است مقدار زیادناشناخته.

انجام هر گونه پیش بینی برای آینده بسیار دشوار است، در حالی که داده های مربوط به گذشته همیشه در دسترس نیستند. در این شرایط، مهمترین چیز این است اقدامات اولیه خود را برنامه ریزی کنید:

تعریف یک موضوع خاص در حل اینکه کدام فناوری پردازش داده های بزرگ به کار گرفته می شود به تعیین مفهوم و تنظیم بردار کمک می کند. اقدامات بعدی. با تمرکز بر جمع آوری اطلاعات به طور خاص در مورد این موضوع، همچنین ارزش استفاده از همه موارد را دارد ابزارهای موجودو روش هایی برای به دست آوردن تصویر واضح تر علاوه بر این، این رویکرد تا حد زیادی فرآیند تصمیم گیری را در آینده تسهیل می کند.
احتمال اینکه یک پروژه کلان داده توسط تیمی بدون مهارت و تجربه خاص اجرا شود بسیار کم است. دانشی که باید در چنین تحقیقات پیچیده ای استفاده شود، معمولاً از طریق کار طولانی به دست می آید، به همین دلیل است که تجربه قبلی در این زمینه بسیار مهم است. به سختی می توان تأثیر فرهنگ استفاده از اطلاعات به دست آمده از چنین تحقیقاتی را دست بالا ارزیابی کرد. آنها فرصت های مختلفی از جمله سوء استفاده از مطالب دریافتی را فراهم می کنند. برای استفاده خوب از اطلاعات، باید قوانین اساسی پردازش صحیح داده ها را رعایت کنید.
بینش ها ارزش اصلی فناوری هستند. بازار همچنان با کمبود شدید متخصصان قوی مواجه است که از قوانین انجام تجارت، اهمیت اطلاعات و دامنه کاربرد آن آگاهی داشته باشند. نمی توان این واقعیت را نادیده گرفت که تجزیه و تحلیل داده ها یک راه کلیدی برای دستیابی به اهداف تعیین شده و توسعه کسب و کار است؛ باید برای توسعه تلاش کرد. مدل خاصرفتار و ادراک در این صورت کلان داده ها سودمند خواهند بود و نقش مثبتی در حل مسائل مدیریت کسب و کار خواهند داشت.

موارد موفق اجرای کلان داده

برخی از موارد ذکر شده در زیر در جمع آوری داده ها موفق تر بودند، برخی دیگر - در تجزیه و تحلیل کلان داده ها و روش های اعمال داده های به دست آمده در طول مطالعه.

« سیستم های اعتباری Tinkoff» از پلت فرم EMC2 Greenplum برای عظیم استفاده کرد محاسبات موازی. با توجه به افزایش مستمر تردد کاربران کارت در بانک، نیاز به سرعت بخشیدن به پردازش داده ها احساس شد. تصمیم گرفته شد از داده های بزرگ استفاده شود و با اطلاعات بدون ساختار و همچنین اطلاعات شرکتی که از منابع متفاوت به دست آمده بود کار شود. از توجه متخصصان آنها دور نمانده است که لایه تحلیلی انبار داده فدرال در وب سایت خدمات مالیاتی فدرال روسیه معرفی می شود. متعاقباً، بر اساس آن، برنامه ریزی شده است که فضایی را سازماندهی کند که دسترسی به داده های سیستم مالیاتی را برای پردازش بعدی و به دست آوردن داده های آماری فراهم کند.
استارتاپ روسی ارزش بررسی جداگانه دارد سنقرا،به تجزیه و تحلیل آنلاین داده های بزرگ پرداخت و پلتفرم Simplate را توسعه داد. نکته اصلی این است که حجم زیادی از داده ها پردازش می شود، داده های مربوط به مصرف کنندگان، خریدهای آنها، سن، خلق و خو و وضعیت ذهنی آنها تجزیه و تحلیل می شود. زنجیره‌ای از فروشگاه‌های لوازم آرایشی حسگرهایی را در صندوق‌ها نصب کرده‌اند که می‌تواند احساسات مشتری را تشخیص دهد. پس از تعیین روحیه، اطلاعات مربوط به خریدار و زمان خرید مورد تجزیه و تحلیل قرار می گیرد. پس از این، خریدار اطلاعات هدفمندی در مورد تخفیف ها و تبلیغات دریافت می کند. این راه حل باعث افزایش وفاداری مصرف کننده شد و توانست درآمد فروشنده را افزایش دهد.
ما همچنین باید در مورد یک مطالعه موردی در مورد استفاده از فناوری های کلان داده در یک شرکت صحبت کنیم دونات دانکین،که مانند مثال قبلی از تحلیل آنلاین برای افزایش سود استفاده می کرد. بنابراین، در فروشگاه‌های خرده‌فروشی، نمایشگرها پیشنهادات ویژه‌ای را نمایش می‌دادند که محتوای آن‌ها هر دقیقه تغییر می‌کرد. مبنای جایگزینی در متن هم زمان روز و هم محصول موجود بود. از دریافت های نقدی، شرکت اطلاعاتی در مورد اینکه کدام اقلام بیشترین تقاضا را دارند دریافت کرد. این روش به ما اجازه داد تا درآمد و گردش موجودی را افزایش دهیم.

بنابراین پردازش کلان داده تاثیر مثبتی بر حل مشکلات کسب و کار دارد. یک عامل مهم البته انتخاب استراتژی و استفاده از آخرین پیشرفت ها در حوزه داده های بزرگ است.

اطلاعات در مورد شرکت

آرکوس.زمینه فعالیت: تولید و فروش تجهیزات الکترونیکی. قلمرو: دفاتر فروش در 9 کشور (اسپانیا، چین، روسیه، ایالات متحده آمریکا، فرانسه و غیره) باز هستند. تعداد کارکنان شعبه: 5 نفر (در دفتر نمایندگی روسیه).

"اطلاعات بزرگ"موضوعی است که به طور فعال توسط شرکت های فناوری مورد بحث قرار می گیرد. برخی از آنها از کلان داده ها ناامید شده اند، در حالی که برخی دیگر، برعکس، بیشترین استفاده را از آن برای تجارت می کنند... بررسی تحلیلی تازه از بازار داخلی و جهانی Big Data، تهیه شده توسط بورس مسکو به همراه تحلیلگران IPOboard ، نشان می دهد که در حال حاضر کدام روندها در بازار بیشتر مرتبط هستند. امیدواریم اطلاعات جالب و مفید باشد.

BIG DATA چیست؟

ویژگی های کلیدی

کلان داده در حال حاضر یکی از محرک های کلیدی توسعه فناوری اطلاعات است. این جهت که برای تجارت روسیه نسبتاً جدید است، در کشورهای غربی گسترده شده است. این امر به این دلیل است که در عصر فناوری اطلاعات، به ویژه پس از رونق شبکه های اجتماعی، حجم قابل توجهی از اطلاعات برای هر کاربر اینترنتی شروع به انباشته شدن کرد که در نهایت باعث توسعه Big Data شد.

عبارت Big Data جنجال‌های زیادی ایجاد می‌کند؛ بسیاری معتقدند که این فقط به معنای مقدار اطلاعات انباشته‌شده است، اما نباید جنبه فنی را فراموش کرد؛ این حوزه شامل فناوری‌های ذخیره‌سازی، محاسبات و خدمات می‌شود.

لازم به ذکر است که این حوزه شامل پردازش حجم زیادی از اطلاعات است که پردازش آن با روش های سنتی مشکل است*.

در زیر جدول مقایسه ای بین پایگاه داده های سنتی و Big Data آورده شده است.

حوزه Big Data با ویژگی های زیر مشخص می شود:
جلد – حجم، پایگاه داده انباشته شده حجم زیادی از اطلاعات را نشان می دهد که پردازش و ذخیره آن به روش های سنتی کار فشرده است؛ آنها به یک رویکرد جدید و ابزارهای بهبود یافته نیاز دارند.
سرعت - سرعت، این ویژگی هم سرعت فزاینده انباشت داده ها را نشان می دهد (90٪ اطلاعات در 2 سال گذشته جمع آوری شده است) و هم سرعت پردازش داده ها؛ فناوری های پردازش داده های بلادرنگ اخیراً تقاضای بیشتری پیدا کرده اند.
تنوع - تنوع، یعنی توانایی پردازش همزمان اطلاعات ساختاریافته و بدون ساختار با فرمت های مختلف. تفاوت اصلی بین اطلاعات ساختاریافته این است که می توان آنها را طبقه بندی کرد. نمونه ای از این اطلاعات می تواند اطلاعات مربوط به معاملات مشتری باشد.
اطلاعات بدون ساختار شامل ویدئو، فایل های صوتی، متن رایگان، اطلاعاتی است که از شبکه های اجتماعی می آید. امروزه 80 درصد اطلاعات بدون ساختار هستند. این اطلاعات به تجزیه و تحلیل پیچیده نیاز دارد تا برای پردازش بیشتر مفید باشد.
صحت - قابلیت اطمینان داده ها، کاربران شروع به اهمیت فزاینده ای به قابلیت اطمینان داده های موجود کردند. بنابراین، شرکت های اینترنتی در تفکیک اقدامات انجام شده توسط یک ربات و یک شخص در وب سایت شرکت مشکل دارند که در نهایت منجر به مشکلاتی در تجزیه و تحلیل داده ها می شود.
ارزش - ارزش اطلاعات انباشته شده Big Data باید برای شرکت مفید باشد و ارزشی برای آن به ارمغان بیاورد. به عنوان مثال، کمک به بهبود فرآیندهای تجاری، گزارش یا بهینه سازی هزینه ها.

در صورت رعایت 5 شرط بالا، حجم انباشته داده ها را می توان به عنوان بزرگ طبقه بندی کرد.

حوزه های کاربرد داده های بزرگ

دامنه استفاده از فناوری های داده های بزرگ گسترده است. بنابراین، با کمک داده های بزرگ، می توانید در مورد ترجیحات مشتری، اثربخشی کمپین های بازاریابی یا تجزیه و تحلیل ریسک اطلاعات کسب کنید. در زیر نتایج نظرسنجی موسسه IBM در زمینه استفاده از داده های بزرگ در شرکت ها را مشاهده می کنید.

همانطور که از نمودار مشخص است، اکثر شرکت ها از داده های بزرگ در زمینه خدمات به مشتریان استفاده می کنند، دومین حوزه پرطرفدار، بهره وری عملیاتی است؛ در زمینه مدیریت ریسک، داده های بزرگ در حال حاضر کمتر رایج است.

همچنین لازم به ذکر است که Big Data یکی از سریع ترین حوزه های فناوری اطلاعات در حال رشد است؛ طبق آمار، کل داده های دریافتی و ذخیره شده هر 1.2 سال دو برابر می شود.
بین سال‌های 2012 تا 2014، میزان انتقال داده‌های ماهانه توسط شبکه‌های تلفن همراه 81 درصد افزایش یافته است. بر اساس برآوردهای سیسکو، در سال 2014 حجم ترافیک موبایل 2.5 اگزابایت (واحد اندازه گیری مقدار اطلاعات برابر با 10^18 بایت استاندارد) در ماه بوده و در سال 2019 معادل 24.3 اگزابایت خواهد بود.
بنابراین، Big Data یک حوزه فناوری از قبل تاسیس شده است، حتی با وجود سن نسبتاً جوان آن، که در بسیاری از زمینه های کسب و کار گسترده شده است و نقش مهمی در توسعه شرکت ها ایفا می کند.

فناوری های کلان داده

فن آوری های مورد استفاده برای جمع آوری و پردازش داده های بزرگ را می توان به 3 گروه تقسیم کرد:

نرم افزار؛
تجهیزات؛
خدمات.

رایج ترین روش های پردازش داده (DP) عبارتند از:
SQL - یک زبان پرس و جو ساختار یافته که به شما امکان می دهد با پایگاه های داده کار کنید. با با استفاده از SQLداده ها را می توان ایجاد و اصلاح کرد و آرایه داده توسط یک سیستم مدیریت پایگاه داده مناسب مدیریت می شود.
NoSQL – این اصطلاح مخفف Not Only SQL (نه فقط SQL) است. این شامل تعدادی رویکرد با هدف اجرای یک پایگاه داده است که با مدل های مورد استفاده در DBMS های رابطه ای سنتی متفاوت است. زمانی که ساختار داده مدام در حال تغییر است، استفاده از آنها راحت است. به عنوان مثال برای جمع آوری و ذخیره اطلاعات در شبکه های اجتماعی.
MapReduce - مدل توزیع محاسباتی برای محاسبات موازی در مجموعه داده های بسیار بزرگ (پتابایت* یا بیشتر) استفاده می شود. که در رابط نرم افزاریاین داده ها نیست که برای پردازش به برنامه منتقل می شود، بلکه برنامه به داده ها منتقل می شود. بنابراین، درخواست یک برنامه جداگانه است. اصل عملیات است پردازش متوالیداده ها با استفاده از دو روش Map و Reduce. نقشه داده های اولیه را انتخاب می کند، کاهش آن را جمع می کند.
هادوپ – برای پیاده‌سازی مکانیسم‌های جستجو و زمینه‌ای برای سایت‌های پر بار - فیس‌بوک، eBay، آمازون و غیره استفاده می‌شود. یک ویژگی متمایز این است که سیستم از شکست هر یک از گره‌های خوشه محافظت می‌شود، زیرا هر بلوک حداقل یک کپی از داده های روی گره دیگر
SAP HANA – پلت فرم NewSQL با کارایی بالا برای ذخیره سازی و پردازش داده ها. سرعت بالایی در پردازش درخواست ارائه می دهد. یکی دیگر از ویژگی های متمایز این است که SAP HANA چشم انداز سیستم را ساده می کند و هزینه پشتیبانی از سیستم های تحلیلی را کاهش می دهد.

به تجهیزات تکنولوژیکیعبارتند از:

سرورها؛
تجهیزات زیرساختی

سرورها شامل ذخیره سازی داده می شوند.
تجهیزات زیرساخت شامل ابزارهای شتاب دهنده پلت فرم، منابع تغذیه بدون وقفه، مجموعه های کنسول سرور و غیره است.

خدمات.
خدمات شامل خدمات ساخت معماری سیستم پایگاه داده، تنظیم و بهینه سازی زیرساخت و تضمین امنیت ذخیره سازی داده ها می باشد.

نرم افزار، سخت افزار و خدمات با هم بسترهای جامعی را برای ذخیره سازی و تجزیه و تحلیل داده ها تشکیل می دهند. شرکت هایی مانند مایکروسافت، اچ پی، EMC خدماتی را برای توسعه، استقرار و مدیریت راه حل های Big Data ارائه می دهند.

کاربرد در صنایع

داده های بزرگ در بسیاری از بخش های تجاری گسترش یافته است. آنها در مراقبت های بهداشتی، مخابرات، تجارت، تدارکات، شرکت های مالی و همچنین در مدیریت دولتی استفاده می شوند.
در زیر چند نمونه از کاربردهای کلان داده در برخی از صنایع آورده شده است.

خرده فروشی
پایگاه‌های اطلاعاتی فروشگاه‌های خرده‌فروشی می‌توانند اطلاعات زیادی در مورد مشتریان، سیستم‌های مدیریت موجودی، و عرضه‌های محصولات تجاری جمع‌آوری کنند. این اطلاعات می تواند در تمام زمینه های فعالیت فروشگاه مفید باشد.

بدین ترتیب با کمک اطلاعات انباشته شده می توانید عرضه کالاها، نگهداری و فروش آنها را مدیریت کنید. بر اساس اطلاعات انباشته شده می توان تقاضا و عرضه کالا را پیش بینی کرد. همچنین، یک سیستم پردازش و تجزیه و تحلیل داده ها می تواند مشکلات دیگر یک خرده فروش را حل کند، به عنوان مثال، بهینه سازی هزینه ها یا تهیه گزارش.

خدمات مالی
Big Data تجزیه و تحلیل اعتبار وام گیرنده را ممکن می کند و همچنین برای امتیازدهی اعتبار* و پذیره نویسی** مفید است. معرفی فناوری های Big Data زمان بررسی درخواست های وام را کاهش می دهد. با کمک بیگ دیتا می توان تراکنش های یک مشتری خاص را تحلیل کرد و خدمات بانکی مناسب او را ارائه داد.

مخابرات
در صنعت ارتباطات از راه دور، داده های بزرگ در میان اپراتورهای تلفن همراه گسترده شده است.
اپراتورها ارتباط سلولیهمراه با سازمان های مالی، آنها یکی از حجیم ترین پایگاه های داده را دارند که به آنها امکان می دهد عمیق ترین تجزیه و تحلیل اطلاعات انباشته شده را انجام دهند.
هدف اصلی تجزیه و تحلیل داده ها حفظ مشتریان فعلی و جذب مشتریان جدید است. برای انجام این کار، شرکت ها مشتریان را تقسیم بندی می کنند، ترافیک آنها را تجزیه و تحلیل می کنند و وابستگی اجتماعی مشترک را تعیین می کنند.

علاوه بر استفاده از داده های بزرگ برای اهداف بازاریابی، از فناوری ها برای جلوگیری از تراکنش های مالی تقلبی استفاده می شود.

معدن و صنایع نفت
داده های بزرگ هم در استخراج مواد معدنی و هم در پردازش و بازاریابی آنها استفاده می شود. بر اساس اطلاعات دریافتی، شرکت ها می توانند در مورد کارایی توسعه میدان نتیجه گیری کنند، برنامه زمان بندی تعمیرات اساسی و وضعیت تجهیزات را نظارت کنند و تقاضا برای محصولات و قیمت ها را پیش بینی کنند.

بر اساس یک نظرسنجی توسط Tech Pro Research، داده های بزرگ در صنعت ارتباطات راه دور و همچنین در شرکت های مهندسی، فناوری اطلاعات، مالی و دولتی گسترده ترین است. بر اساس نتایج این نظرسنجی، داده های بزرگ در آموزش و مراقبت های بهداشتی از محبوبیت کمتری برخوردار است. نتایج نظرسنجی در زیر ارائه شده است:

نمونه هایی از استفاده از داده های بزرگ در شرکت ها

امروزه Big Data به طور فعال در شرکت های خارجی پیاده سازی می شود. شرکت هایی مانند نزدک، فیس بوک، گوگل، آی بی ام، ویزا، مستر کارت، بانک آمریکا، HSBC، AT&T، کوکاکولا، Starbucks و Netflix در حال حاضر از منابع Big Data استفاده می کنند.

کاربردهای اطلاعات پردازش شده متفاوت است و بسته به صنعت و وظایفی که باید انجام شود متفاوت است.
در ادامه، نمونه هایی از کاربرد فناوری های کلان داده در عمل ارائه خواهد شد.

HSBC از فناوری های Big Data برای مبارزه با تراکنش های جعلی با کارت های پلاستیکی استفاده می کند. این شرکت با کمک بیگ دیتا، کارایی سرویس امنیتی را 3 برابر و تشخیص حوادث کلاهبرداری را 10 برابر افزایش داد. اثر اقتصادی معرفی این فناوری ها از 10 میلیون دلار فراتر رفت.

ضد تقلب* ویزا به شما امکان می دهد تا به طور خودکار تراکنش های جعلی را شناسایی کنید؛ این سیستم در حال حاضر به جلوگیری از پرداخت های تقلبی به مبلغ 2 میلیارد دلار در سال کمک می کند.

ابر کامپیوتر واتسون IBM جریان داده ها در مورد تراکنش های پولی را در زمان واقعی تجزیه و تحلیل می کند. به گفته IBM، واتسون تعداد تراکنش‌های جعلی کشف‌شده را 15 درصد افزایش داد، موارد مثبت کاذب را تا 50 درصد کاهش داد و مقدار پول محافظت شده از این نوع تراکنش‌ها را 60 درصد افزایش داد.

پراکتر اند گمبل استفاده از داده های بزرگ برای طراحی محصولات جدید و ایجاد کمپین های بازاریابی جهانی. P&G دفاتر اختصاصی Business Spheres را ایجاد کرده است که در آن اطلاعات را می توان در زمان واقعی مشاهده کرد.
بنابراین، مدیریت شرکت این فرصت را داشت که فوراً فرضیه ها را آزمایش کند و آزمایش هایی را انجام دهد. P&G معتقد است که داده های بزرگ به پیش بینی عملکرد شرکت کمک می کند.

خرده فروش لوازم اداری OfficeMax آنها با استفاده از فناوری های کلان داده، رفتار مشتری را تجزیه و تحلیل می کنند. تجزیه و تحلیل داده های بزرگ امکان افزایش درآمد B2B را تا 13% و کاهش هزینه ها تا 400000 دلار در سال فراهم کرد.

مطابق با کرم ابریشم ، توزیع کنندگان آن سالانه 9 تا 18 میلیارد دلار سود را صرفاً به این دلیل که فناوری های پردازش کلان داده را پیاده سازی نمی کنند، از دست می دهند. Big Data به مشتریان این امکان را می دهد تا با تجزیه و تحلیل اطلاعات دریافتی از حسگرهای نصب شده روی ماشین ها، ناوگان خود را به طور موثرتری مدیریت کنند.

امروزه امکان تحلیل وضعیت اجزای کلیدی، درجه سایش و مدیریت هزینه های سوخت و نگهداری وجود دارد.

گروه لوکسوتیکا تولید کننده عینک های ورزشی از جمله برندهای Ray-Ban، Persol و Oakley است. این شرکت از فناوری های Big Data برای تجزیه و تحلیل رفتار مشتریان بالقوه و بازاریابی پیامکی "هوشمند" استفاده می کند. در نتیجه Big Data، گروه Luxottica بیش از 100 میلیون مشتری ارزشمند خود را شناسایی کرد و اثربخشی کمپین بازاریابی خود را 10٪ افزایش داد.

با کمک Yandex Data Factory، توسعه دهندگان بازی دنیای تانک ها تحلیل رفتار بازیکنان فناوری های Big Data امکان تجزیه و تحلیل رفتار 100 هزار بازیکن World of Tanks را با استفاده از بیش از 100 پارامتر (اطلاعات در مورد خرید، بازی، تجربه و غیره) فراهم می کند. در نتیجه تجزیه و تحلیل، پیش بینی خروج کاربر به دست آمد. این اطلاعات به شما امکان می دهد خروج کاربر را کاهش دهید و با شرکت کنندگان در بازی به صورت هدفمند کار کنید. مدل توسعه‌یافته ۲۰ تا ۳۰ درصد مؤثرتر از ابزارهای استاندارد آنالیز صنعت بازی است.

وزارت کار آلمان از داده های بزرگ در کارهای مربوط به تجزیه و تحلیل درخواست های دریافتی برای مزایای بیکاری استفاده می کند. بنابراین، پس از تجزیه و تحلیل اطلاعات، مشخص شد که 20 درصد از مزایای بدون استحقاق پرداخت شده است. وزارت کار با کمک بیگ دیتا هزینه ها را 10 میلیارد یورو کاهش داد.

بیمارستان کودکان تورنتو پروژه پروژه آرتمیس را اجرا کرد. این یک سیستم اطلاعاتی است که داده های مربوط به نوزادان را در زمان واقعی جمع آوری و تجزیه و تحلیل می کند. این سیستم در هر ثانیه 1260 نشانگر وضعیت هر کودک را بررسی می کند. پروژه آرتمیس امکان پیش بینی وضعیت ناپایدار کودک و شروع پیشگیری از بیماری ها در کودکان را فراهم می کند.

مروری بر بازار جهانی داده های بزرگ

وضعیت فعلی بازار جهانی

در سال 2014، Big Data، طبق داده‌های Collective، به یکی از حوزه‌های سرمایه‌گذاری اولویت‌دار در صنعت سرمایه‌گذاری تبدیل شد. به گزارش پرتال اطلاعاتی Computerra، این امر به این دلیل است که تحولات در این زمینه شروع به نتایج قابل توجهی برای کاربران خود کرده است. طی سال گذشته تعداد شرکت‌های دارای پروژه‌های اجرا شده در حوزه مدیریت کلان داده‌ها 125 درصد افزایش یافته و حجم بازار نسبت به سال 2013 رشد 45 درصدی داشته است.

طبق Wikibon، اکثر درآمدهای بازار کلان داده در سال 2014 از خدمات تشکیل شده بود که سهم آنها معادل 40٪ از کل درآمد بود (نمودار زیر را ببینید):

اگر کلان داده را برای سال 2014 بر اساس نوع فرعی در نظر بگیریم، بازار به شکل زیر خواهد بود:

طبق Wikibon، اپلیکیشن ها و تجزیه و تحلیل ها 36 درصد از درآمد کلان داده را در سال 2014 از برنامه های کاربردی و تجزیه و تحلیل داده های بزرگ، 17 درصد از تجهیزات محاسباتی و 15 درصد از فناوری های ذخیره سازی داده را به خود اختصاص دادند. کمترین میزان درآمد حاصل از فناوری NoSQL، تجهیزات زیرساختی و تامین شبکه برای شرکت ها (شبکه های شرکتی) بوده است.

محبوب ترین فناوری های Big Data پلتفرم های درون حافظه SAP، HANA، Oracle و غیره هستند. نتایج نظرسنجی T-Systems نشان داد که 30 درصد از شرکت های مورد بررسی آن ها را انتخاب کرده اند. دومین محبوب ترین پلتفرم های NoSQL (18٪ از کاربران) بودند، شرکت ها همچنین از پلتفرم های تحلیلی Splunk و Dell استفاده کردند، آنها توسط 15٪ از شرکت ها انتخاب شدند. طبق نتایج نظرسنجی، محصولات Hadoop/MapReduce کمترین کاربرد را برای حل مشکلات Big Data دارند.

بر اساس نظرسنجی Accenture، در بیش از 50 درصد از شرکت‌هایی که از فناوری‌های Big Data استفاده می‌کنند، هزینه‌های Big Data بین 21 تا 30 درصد متغیر است.
بر اساس تحلیل Accenture زیر، 76 درصد از شرکت ها معتقدند که این هزینه ها در سال 2015 افزایش می یابد و 24 درصد از شرکت ها بودجه خود را برای فناوری های Big Data تغییر نمی دهند. این نشان می‌دهد که در این شرکت‌ها Big Data به یک حوزه تثبیت شده از فناوری اطلاعات تبدیل شده است که به بخشی جدایی ناپذیر از توسعه شرکت تبدیل شده است.

نتایج نظرسنجی واحد اطلاعات اکونومیست تأثیر مثبت اجرای کلان داده را تایید می کند. 46 درصد از شرکت‌ها می‌گویند که با استفاده از فناوری‌های کلان داده، خدمات مشتریان را بیش از 10 درصد بهبود بخشیده‌اند، 33 درصد از شرکت‌ها موجودی کالا را بهینه کرده‌اند و بهره‌وری دارایی‌های ثابت را بهبود بخشیده‌اند، و 32 درصد از شرکت‌ها فرآیندهای برنامه‌ریزی را بهبود بخشیده‌اند.

کلان داده در کشورهای مختلف جهان

امروزه، فناوری‌های کلان داده اغلب در شرکت‌های آمریکایی پیاده‌سازی می‌شوند، اما کشورهای دیگر در سراسر جهان قبلاً علاقه‌مندی خود را نشان داده‌اند. بر اساس گزارش IDC، در سال 2014، کشورهای اروپا، خاورمیانه، آسیا (به استثنای ژاپن) و آفریقا 45 درصد از بازار نرم افزار، خدمات و تجهیزات در حوزه داده های بزرگ را به خود اختصاص دادند.

همچنین، طبق نظرسنجی CIO، شرکت‌های منطقه آسیا و اقیانوسیه به سرعت راه‌حل‌های جدیدی را در زمینه تجزیه و تحلیل داده‌های بزرگ، ذخیره‌سازی امن و فناوری‌های ابری اتخاذ می‌کنند. آمریکای لاتین از نظر تعداد سرمایه گذاری در توسعه فناوری داده های بزرگ، بالاتر از کشورهای اروپایی و ایالات متحده آمریکا در جایگاه دوم قرار دارد.
در ادامه، توضیحات و پیش‌بینی‌هایی برای توسعه بازار کلان داده در چندین کشور ارائه خواهد شد.

چین
حجم اطلاعات در چین 909 اگزابایت است که معادل 10 درصد از حجم کل اطلاعات در جهان است، تا سال 2020 حجم اطلاعات به 8060 اگزابایت خواهد رسید، سهم اطلاعات در آمارهای جهانی نیز افزایش می یابد، در 5 سال برابر با 18 درصد خواهد بود. رشد بالقوه داده های بزرگ چین یکی از سریع ترین پویایی های در حال رشد را دارد.

برزیل
در پایان سال 2014، برزیل اطلاعاتی به ارزش 212 اگزابایت جمع آوری کرد که 3 درصد از حجم جهانی را تشکیل می دهد. تا سال 2020 حجم اطلاعات به 1600 اگزابایت خواهد رسید که 4 درصد از اطلاعات جهان را تشکیل می دهد.

هند
بر اساس گزارش EMC، حجم داده های انباشته شده در هند در پایان سال 2014، 326 اگزابایت است که 5 درصد از حجم کل اطلاعات را تشکیل می دهد. تا سال 2020 حجم اطلاعات به 2800 اگزابایت خواهد رسید که 6 درصد از اطلاعات جهان را تشکیل می دهد.

ژاپن
حجم داده های انباشته شده در ژاپن در پایان سال 2014، 495 اگزابایت است که 8 درصد از کل حجم اطلاعات را تشکیل می دهد. تا سال 2020، حجم اطلاعات به 2200 اگزابایت افزایش می یابد، اما سهم بازار ژاپن کاهش می یابد و به 5 درصد از کل حجم اطلاعات در کل جهان می رسد.
بنابراین، اندازه بازار ژاپن بیش از 30 درصد کاهش خواهد یافت.

آلمان
بر اساس گزارش EMC، حجم داده های انباشته شده در آلمان در پایان سال 2014، 230 اگزابایت است که 4 درصد از کل حجم اطلاعات در جهان است. تا سال 2020، حجم اطلاعات به 1100 اگزابایت و به 2 درصد خواهد رسید.
در بازار آلمان، طبق پیش‌بینی‌های گروه اکسپرتون، سهم زیادی از درآمد توسط بخش خدمات ایجاد خواهد شد که سهم آن در سال 2015 54 درصد و در سال 2019 به 59 درصد افزایش خواهد یافت؛ سهام نرم‌افزار و برعکس، سخت افزار کاهش خواهد یافت.

به طور کلی، اندازه بازار از 1.345 میلیارد یورو در سال 2015 به 3.198 میلیارد یورو در سال 2019 خواهد رسید که میانگین نرخ رشد 24 درصدی است.
بنابراین، بر اساس تحلیل‌های CIO و EMC می‌توان نتیجه گرفت که کشورهای در حال توسعه جهان در سال‌های آینده به بازارهایی برای توسعه فعال فناوری‌های Big Data تبدیل خواهند شد.

روندهای اصلی بازار

بر اساس گزارش IDG Enterprise، در سال 2015، هزینه شرکت ها برای Big Data به طور متوسط 7.4 میلیون دلار برای هر شرکت خواهد بود. شرکت های بزرگقصد دارد تقریباً 13.8 میلیون دلار آمریکا، کوچک و متوسط - 1.6 میلیون دلار آمریکا هزینه کند.
بیشتر سرمایه گذاری در زمینه هایی مانند تجزیه و تحلیل داده ها، تجسم و جمع آوری داده ها خواهد بود.
بر اساس روندهای فعلی و تقاضای بازار، سرمایه گذاری در سال 2015 برای بهبود کیفیت داده ها، بهبود برنامه ریزی و پیش بینی و افزایش سرعت پردازش داده ها استفاده خواهد شد.
طبق تحلیل بینش شرکت Bain، شرکت‌های بخش مالی سرمایه‌گذاری قابل توجهی انجام خواهند داد، بنابراین در سال 2015 قصد دارند 6.4 میلیارد دلار برای فناوری‌های Big Data هزینه کنند، متوسط نرخ رشد سرمایه‌گذاری‌ها تا سال 2020 22 درصد خواهد بود. شرکت های اینترنتی قصد دارند 2.8 میلیارد دلار با نرخ رشد متوسط 26 درصد برای مخارج کلان داده هزینه کنند.
هنگام انجام نظرسنجی واحد اطلاعات اکونومیست، حوزه های اولویت دار برای توسعه کلان داده در سال 2014 و در 3 سال آینده مشخص شد، توزیع پاسخ ها به شرح زیر است:

بر اساس پیش بینی IDC، روند توسعه بازار به شرح زیر است:

در 5 سال آینده، هزینه‌های راه‌حل‌های ابری در زمینه فناوری‌های Big Data، 3 برابر سریع‌تر از هزینه‌های راه‌حل‌های محلی رشد خواهد کرد. پلتفرم های ترکیبی برای ذخیره سازی داده ها مورد تقاضا خواهند بود.
رشد برنامه‌های کاربردی با استفاده از تحلیل‌های پیچیده و پیش‌بینی‌کننده، از جمله یادگیری ماشین، در سال 2015 شتاب می‌گیرد و بازار چنین برنامه‌هایی 65 درصد سریع‌تر از برنامه‌هایی که از تجزیه و تحلیل پیش‌بینی‌کننده استفاده نمی‌کنند، رشد می‌کند.
تجزیه و تحلیل رسانه ها در سال 2015 سه برابر خواهد شد و به محرک اصلی رشد در بازار فناوری داده های بزرگ تبدیل خواهد شد.
روند معرفی راهکارهایی برای تجزیه و تحلیل جریان ثابت اطلاعاتی که در اینترنت اشیا قابل استفاده است، شتاب بیشتری خواهد گرفت.
تا سال 2018، 50 درصد از کاربران با خدمات مبتنی بر محاسبات شناختی تعامل خواهند داشت.

محرک ها و محدود کننده های بازار

کارشناسان IDC 3 محرک بازار کلان داده را در سال 2015 شناسایی کردند:

بر اساس یک نظرسنجی Accenture، مسائل امنیتی داده‌ها در حال حاضر مانع اصلی برای پیاده‌سازی فناوری‌های Big Data هستند، به طوری که بیش از 51 درصد از پاسخ‌دهندگان تأیید کرده‌اند که نگران تضمین حفاظت از داده‌ها و محرمانگی هستند. 47% از شرکت ها عدم امکان پیاده سازی Big Data را به دلیل بودجه محدود گزارش کردند، 41% از شرکت ها کمبود پرسنل واجد شرایط را یک مشکل اعلام کردند.

ویکی‌بون پیش‌بینی می‌کند که بازار کلان داده در سال 2015 به 38.4 میلیارد دلار افزایش می‌یابد که 36 درصد نسبت به سال گذشته افزایش می‌یابد. در سال های آینده، کاهش نرخ رشد به 10 درصد در سال 2017 وجود خواهد داشت. با در نظر گرفتن این پیش بینی ها، اندازه بازار در سال 2020 برابر با 68.7 میلیارد دلار آمریکا خواهد بود.

توزیع بازار جهانی داده های بزرگ بر اساس دسته بندی کسب و کار به این صورت خواهد بود:

همانطور که از نمودار مشاهده می شود، اکثریت بازار در اختیار فناوری هایی در زمینه بهبود خدمات مشتریان خواهد بود. بازاریابی هدفمند تا سال 2019 اولویت دوم شرکت ها خواهد بود؛ در سال 2020، به گفته Heavy Reading، راه حل هایی برای بهبود کارایی عملیاتی خواهد داد.
بخش «بهبود خدمات به مشتریان» نیز با 49 درصد افزایش سالانه بالاترین نرخ رشد را خواهد داشت.
پیش‌بینی بازار برای زیرشاخه‌های Big Data به این صورت خواهد بود:

همانطور که از نمودار مشخص است، سهم بازار غالب در اختیار خدمات حرفه ای است، بیشترین نرخ رشد در برنامه های کاربردی با تجزیه و تحلیل خواهد بود، سهم آنها از 12٪ فعلی به 18٪ در سال 2020 و حجم این بخش افزایش می یابد. معادل 12.3 میلیارد دلار آمریکا خواهد بود، برعکس، سهم تجهیزات محاسباتی از 20 درصد به 14 درصد کاهش می یابد و در سال 2020 به حدود 9.3 میلیارد دلار می رسد، بازار فناوری های ابری به تدریج افزایش می یابد و در سال 2020 با رسیدن به 6.3 میلیارد دلار، سهم بازار راه حل های ذخیره سازی داده ها از 15 درصد در سال 2014 به 13 درصد در سال 2020 کاهش می یابد و از نظر پولی معادل 8.9 میلیارد دلار آمریکا خواهد بود.
بر اساس پیش بینی تحلیل بینش Bain & Company، توزیع بازار کلان داده بر اساس صنعت در سال 2020 به شرح زیر خواهد بود:

صنعت مالی 6.4 میلیارد دلار برای کلان داده با میانگین نرخ رشد 22 درصد در سال هزینه خواهد کرد.
شرکت های اینترنتی 2.8 میلیارد دلار هزینه خواهند کرد و میانگین نرخ رشد هزینه در 5 سال آینده 26 درصد خواهد بود.
هزینه های بخش دولتی متناسب با هزینه های شرکت های اینترنتی خواهد بود، اما نرخ رشد کمتر خواهد بود - 22٪.
بخش ارتباطات از راه دور با CAGR 40 درصد رشد خواهد کرد تا به 1.2 میلیارد دلار در سال 2020 برسد.

شرکت های انرژی مقدار نسبتا کمی را در این فناوری ها سرمایه گذاری خواهند کرد - 800 میلیون دلار، اما نرخ رشد یکی از بالاترین ها - 54٪ در سال خواهد بود.
بنابراین، بیشترین سهم از بازار کلان داده در سال 2020 در اختیار شرکت‌های صنعت مالی قرار خواهد گرفت و سریع‌ترین بخش در حال رشد، انرژی خواهد بود.
بر اساس پیش بینی های تحلیلگران، حجم کل بازار در سال های آینده افزایش خواهد یافت. رشد بازار از طریق پیاده‌سازی فناوری‌های کلان داده در کشورهای در حال توسعه جهان حاصل می‌شود، همانطور که در نمودار زیر مشاهده می‌شود.

اندازه بازار پیش‌بینی‌شده به این بستگی دارد که کشورهای در حال توسعه چگونه فناوری‌های کلان داده را درک می‌کنند و اینکه آیا آنها به اندازه کشورهای توسعه‌یافته محبوب خواهند بود یا خیر. در سال 2014، کشورهای در حال توسعه جهان 40 درصد از حجم اطلاعات انباشته شده را به خود اختصاص داده اند. بر اساس پیش‌بینی EMC، ساختار فعلی بازار، با غلبه کشورهای توسعه‌یافته، در سال ۲۰۱۷ تغییر خواهد کرد. بر اساس تحلیل EMC، در سال 2020 سهم کشورهای در حال توسعه بیش از 60 درصد خواهد بود.
طبق گفته سیسکو و EMC، کشورهای در حال توسعه در سراسر جهان به طور کاملاً فعال با Big Data کار خواهند کرد که عمدتاً به دلیل در دسترس بودن فناوری و انباشت مقدار کافی اطلاعات در سطح Big Data است. در نقشه جهان نشان داده شده در صفحه بعد، پیش بینی افزایش حجم و نرخ رشد Big Data به تفکیک منطقه نشان داده خواهد شد.

تجزیه و تحلیل بازار روسیه

وضعیت فعلی بازار روسیه

بر اساس نتایج مطالعه CNews Analytics و Oracle، سطح بلوغ بازار کلان داده روسیه در سال گذشته افزایش یافته است. پاسخ دهندگان به نمایندگی از 108 شرکت بزرگ از صنایع مختلف، میزان آگاهی بالاتری از این فناوری ها و همچنین درک ثابتی از پتانسیل چنین راه حل هایی برای تجارت خود نشان دادند.
از سال 2014، طبق IDC، روسیه 155 اگزابایت اطلاعات جمع آوری کرده است که تنها 1.8 درصد از داده های جهان است. حجم اطلاعات تا سال 2020 به 980 اگزابایت می رسد و 2.2 درصد را اشغال می کند. بنابراین میانگین نرخ رشد حجم اطلاعات 36 درصد در سال خواهد بود.
IDC بازار روسیه را 340 میلیون دلار تخمین می زند که 100 میلیون دلار آن راه حل های SAP است، تقریباً 240 میلیون دلار راه حل های مشابه اوراکل، IBM، SAS، مایکروسافت و غیره است.
نرخ رشد بازار داده های بزرگ روسیه کمتر از 50٪ در سال نیست.
پیش‌بینی می‌شود که پویایی مثبت در این بخش از بازار فناوری اطلاعات روسیه، حتی در شرایط رکود اقتصادی عمومی، ادامه یابد. این به دلیل این واقعیت است که مشاغل همچنان به دنبال راه حل هایی هستند که کارایی عملیاتی را بهبود می بخشد، همچنین هزینه ها را بهینه می کند، دقت پیش بینی را بهبود می بخشد و به حداقل می رساند. خطرات احتمالیشرکت ها
ارائه دهندگان خدمات اصلی در زمینه داده های بزرگ در بازار روسیه عبارتند از:

اوراکل
مایکروسافت
کلودرا
هورتون ورکز
Teradata.

مروری بر بازار بر اساس صنعت و تجربه در استفاده از داده های بزرگ در شرکت ها

به گزارش CNews، در روسیه تنها 10 درصد از شرکت ها استفاده از فناوری های Big Data را آغاز کرده اند، در حالی که در جهان سهم چنین شرکت هایی حدود 30 درصد است. بر اساس گزارش CNews Analytics و Oracle، آمادگی برای پروژه های Big Data در بسیاری از بخش های اقتصاد روسیه در حال رشد است. بیش از یک سوم شرکت های مورد بررسی (37٪) کار با فناوری های Big Data را آغاز کرده اند، که 20٪ از آنها در حال حاضر از چنین راه حل هایی استفاده می کنند و 17٪ شروع به آزمایش با آنها کرده اند. یک سوم دوم پاسخ دهندگان در در حال حاضردر حال بررسی این امکان هستند.

در روسیه، فناوری‌های Big Data در بخش‌های بانکی و مخابراتی محبوب‌ترین هستند، اما در صنعت معدن، انرژی، خرده‌فروشی، شرکت‌های لجستیک و بخش عمومی نیز مورد تقاضا هستند.
در مرحله بعد، نمونه هایی از استفاده از داده های بزرگ در واقعیت های روسیه در نظر گرفته می شود.

مخابرات
اپراتورهای مخابراتی برخی از حجیم ترین پایگاه های داده را دارند که به آنها امکان می دهد عمیق ترین تجزیه و تحلیل اطلاعات انباشته شده را انجام دهند.
یکی از حوزه های کاربرد فناوری Big Data، مدیریت وفاداری مشترکین است.
هدف اصلی تجزیه و تحلیل داده ها حفظ مشتریان فعلی و جذب مشتریان جدید است. برای انجام این کار، شرکت ها مشتریان را تقسیم بندی می کنند، ترافیک آنها را تجزیه و تحلیل می کنند و وابستگی اجتماعی مشترک را تعیین می کنند. علاوه بر استفاده از اطلاعات برای اهداف بازاریابی، از فناوری های مخابراتی برای جلوگیری از تراکنش های مالی تقلبی استفاده می شود.
یکی از نمونه های بارز این صنعت VimpelCom است. این شرکت از داده های بزرگ برای بهبود کیفیت خدمات در سطح هر مشترک، جمع آوری گزارش ها، تجزیه و تحلیل داده ها برای توسعه شبکه، مبارزه با هرزنامه ها و شخصی سازی خدمات استفاده می کند.

بانک ها
بخش قابل توجهی از کاربران کلان داده متخصصان صنعت مالی هستند. یکی از آزمایش های موفق در بانک بازسازی و توسعه اورال انجام شد، جایی که پایگاه اطلاعاتی برای تجزیه و تحلیل مشتریان شروع به استفاده کرد، این بانک شروع به ارائه پیشنهادات وام، سپرده ها و سایر خدمات تخصصی کرد. ظرف یک سال پس از استفاده از این فناوری ها، سبد وام های خرده فروشی شرکت 55 درصد رشد کرد.
آلفا بانک اطلاعات شبکه های اجتماعی را تجزیه و تحلیل می کند، درخواست های وام را پردازش می کند و رفتار کاربران وب سایت شرکت را تجزیه و تحلیل می کند.
Sberbank همچنین پردازش حجم عظیمی از داده‌ها را برای تقسیم‌بندی مشتریان، جلوگیری از فعالیت‌های تقلبی، فروش متقابل و مدیریت ریسک‌ها آغاز کرد. در آینده، برای بهبود خدمات و تجزیه و تحلیل اقدامات مشتری در زمان واقعی برنامه ریزی شده است.
بانک توسعه منطقه ای همه روسیه رفتار دارندگان کارت های پلاستیکی را تجزیه و تحلیل می کند. این امر امکان شناسایی تراکنش‌هایی را که برای یک مشتری خاص غیرمعمول هستند، می‌سازد و در نتیجه احتمال کشف سرقت وجوه از کارت‌های پلاستیکی را افزایش می‌دهد.

خرده فروشی
در روسیه، فناوری‌های Big Data توسط شرکت‌های تجاری آنلاین و آفلاین پیاده‌سازی شده‌اند. امروزه، طبق گزارش CNews Analytics، 20 درصد از خرده فروشان از داده های بزرگ استفاده می کنند. 75 درصد از متخصصان خرده‌فروشی، داده‌های بزرگ را برای توسعه استراتژی ارتقای شرکت رقابتی ضروری می‌دانند. طبق آمار هادوپ، پس از اجرای فناوری Big Data، سود در سازمان های تجاری بین 7 تا 10 درصد افزایش می یابد.
متخصصان M.Video از بهبود برنامه ریزی لجستیک پس از اجرای SAP HANA صحبت می کنند؛ همچنین در نتیجه اجرای آن، تهیه گزارش های سالانه از 10 روز به 3، سرعت بارگذاری روزانه داده ها از 3 ساعت به کاهش یافت. 30 دقیقه.
ویکی‌مارت از این فناوری‌ها برای ایجاد توصیه‌هایی برای بازدیدکنندگان سایت استفاده می‌کند.
یکی از اولین فروشگاه های آفلاین که تجزیه و تحلیل داده های بزرگ را در روسیه معرفی کرد Lenta بود. با کمک بیگ دیتا، خرده فروشی شروع به مطالعه اطلاعات مشتریان از رسیدهای صندوق نقدی کرد. خرده فروش اطلاعاتی را برای ایجاد مدل های رفتاری جمع آوری می کند که این امر امکان تصمیم گیری آگاهانه تری را در سطح عملیاتی و تجاری فراهم می کند.

صنعت نفت و گاز
در این صنعت، دامنه داده های بزرگ بسیار گسترده است. فناوری های داده های بزرگ را می توان در استخراج مواد معدنی از زیر خاک استفاده کرد. با کمک آنها می توانید خود فرآیند استخراج و موثرترین روش های استخراج آن را تجزیه و تحلیل کنید، بر فرآیند حفاری نظارت کنید، کیفیت مواد اولیه و همچنین فرآوری و بازاریابی محصول نهایی را تجزیه و تحلیل کنید. در روسیه، ترانس‌نفت و روس‌نفت استفاده از این فناوری‌ها را آغاز کرده‌اند.

ارگان های دولتی
در کشورهایی مانند آلمان، استرالیا، اسپانیا، ژاپن، برزیل و پاکستان از فناوری‌های Big Data برای حل مسائل ملی استفاده می‌شود. این فناوری‌ها به مقامات دولتی کمک می‌کنند تا خدمات مؤثرتری به مردم ارائه دهند و حمایت اجتماعی هدفمند را ارائه دهند.
در روسیه، این فناوری ها توسط سازمان های دولتی مانند صندوق بازنشستگی، خدمات مالیاتی فدرال و صندوق بیمه سلامت اجباری. پتانسیل اجرای پروژه‌ها با استفاده از داده‌های بزرگ بسیار زیاد است؛ این فناوری‌ها می‌توانند به بهبود کیفیت خدمات، و در نتیجه، استاندارد زندگی مردم کمک کنند.

لجستیک و حمل و نقل
Big Data می تواند توسط شرکت های حمل و نقل نیز استفاده شود. با استفاده از فناوری‌های Big Data، می‌توانید ناوگان خودروی خود را ردیابی کنید، هزینه‌های سوخت را در نظر بگیرید و درخواست‌های مشتریان را نظارت کنید.
راه آهن روسیه فناوری های Big Data را همراه با SAP پیاده سازی کرد. این فناوری ها به کاهش 43.5 برابری زمان تهیه گزارش (از 14.5 ساعت به 20 دقیقه) و افزایش دقت توزیع هزینه تا 40 برابر کمک کردند. کلان داده نیز به فرآیندهای برنامه ریزی و تنظیم تعرفه وارد شد. در مجموع، شرکت ها از بیش از 300 سیستم مبتنی بر راه حل های SAP استفاده می کنند، 4 مرکز داده درگیر هستند و تعداد کاربران 220000 نفر است.

محرک ها و محدود کننده های اصلی بازار

محرک های توسعه فناوری های داده های بزرگ در بازار روسیه عبارتند از:

افزایش علاقه کاربران به قابلیت های داده های بزرگ به عنوان راهی برای افزایش رقابت پذیری یک شرکت؛
توسعه روش هایی برای پردازش فایل های رسانه ای در سطح جهانی؛
انتقال سرورهایی که اطلاعات شخصی را پردازش می کنند به قلمرو روسیه مطابق با قانون تصویب شده در مورد ذخیره و پردازش داده های شخصی.
اجرای طرح صنعت جایگزینی واردات نرم افزار. این طرح شامل حمایت دولت از تولیدکنندگان نرم‌افزار داخلی و همچنین ارائه اولویت‌ها برای محصولات داخلی فناوری اطلاعات هنگام خرید با هزینه عمومی است.
در شرایط جدید اقتصادی، زمانی که نرخ دلار تقریباً دو برابر شده است، تمایلی به افزایش استفاده از خدمات ارائه دهندگان خدمات ابری روسی به جای خدمات خارجی وجود خواهد داشت.
ایجاد پارک های فناوری که به توسعه بازار فناوری اطلاعات کمک می کند، از جمله بازار داده های بزرگ.
برنامه دولتی برای پیاده سازی سیستم های شبکه مبتنی بر فناوری های داده های بزرگ.

موانع اصلی توسعه داده های بزرگ در بازار روسیه عبارتند از:

تضمین امنیت و محرمانه بودن داده ها؛
کمبود پرسنل واجد شرایط؛
انباشته ناکافی منابع اطلاعاتبه سطح کلان داده در اکثر شرکت های روسی؛
مشکلات در معرفی فن آوری های جدید در سیستم های اطلاعاتی مستقر شرکت ها؛
هزینه بالای فناوری های کلان داده، که منجر به تعداد محدودی از شرکت ها می شود که فرصت اجرای این فناوری ها را دارند.
عدم اطمینان سیاسی و اقتصادی که منجر به خروج سرمایه و انجماد پروژه های سرمایه گذاری در روسیه شد.
به گفته IDC، افزایش قیمت محصولات وارداتی و افزایش تورم، توسعه کل بازار فناوری اطلاعات را کند می کند.

پیش بینی بازار روسیه

از امروز، بازار کلان داده روسیه به اندازه کشورهای توسعه یافته محبوب نیست. اکثر شرکت های روسی به آن علاقه نشان می دهند، اما جرات استفاده از فرصت های خود را ندارند.
نمونه‌هایی از شرکت‌های بزرگی که قبلاً از استفاده از فناوری‌های Big Data بهره‌مند شده‌اند، افزایش آگاهی از قابلیت‌های این فناوری‌ها هستند.
تحلیلگران همچنین پیش بینی های کاملاً خوش بینانه ای در مورد بازار روسیه دارند. IDC معتقد است که بر خلاف بازارهای آلمان و ژاپن، سهم بازار روسیه طی 5 سال آینده افزایش خواهد یافت.
تا سال 2020، حجم داده های بزرگ در روسیه از 1.8 درصد فعلی به 2.2 درصد از حجم داده های جهانی افزایش خواهد یافت. به گفته EMC، میزان اطلاعات از 155 اگزابایت فعلی به 980 اگزابایت در سال 2020 افزایش خواهد یافت.
در حال حاضر، روسیه به جمع آوری حجم اطلاعات تا سطح داده های بزرگ ادامه می دهد.
بر اساس یک نظرسنجی CNews Analytics، 44٪ از شرکت های مورد بررسی با داده های بیش از 100 ترابایت* کار می کنند و تنها 13٪ با حجم های بالاتر از 500 ترابایت کار می کنند.

با این وجود، بازار روسیه با پیروی از روندهای جهانی افزایش خواهد یافت. از سال 2014، IDC اندازه بازار را 340 میلیون دلار تخمین زده است.
نرخ رشد بازار در سال‌های گذشته 50 درصد در سال بود که اگر در همین حد باقی بماند، در سال 2018 حجم بازار به 1.7 میلیارد دلار خواهد رسید. سهم بازار روسیه در بازار جهانی حدود 3 درصد خواهد بود که از 1.2 درصد فعلی افزایش یافته است.

پذیراترین صنایع برای استفاده از داده های بزرگ در روسیه عبارتند از:

خرده‌فروشی و بانک‌ها، برای آنها، تجزیه و تحلیل پایگاه مشتری و ارزیابی تأثیر کمپین‌های بازاریابی در درجه اول مهم است.
مخابرات - تقسیم‌بندی پایگاه مشتری و درآمدزایی از ترافیک؛
بخش عمومی - گزارش، تجزیه و تحلیل برنامه های کاربردی از مردم، و غیره؛
شرکت های نفتی – نظارت بر کار و برنامه ریزی تولید و فروش.
شرکت های انرژی – ایجاد سیستم های برق هوشمند، نظارت و پیش بینی عملیاتی.

در کشورهای توسعه‌یافته، داده‌های بزرگ در حوزه‌های بهداشت، بیمه، متالورژی، شرکت‌های اینترنتی و شرکت‌های تولیدی رواج یافته است؛ به احتمال زیاد در آینده‌ای نزدیک، شرکت‌های روسی از این حوزه‌ها نیز از تاثیر معرفی Big Data استقبال خواهند کرد. این فناوری ها در صنایع خود
در روسیه، و همچنین در جهان، در آینده نزدیک روندی به سمت تجسم داده ها، تجزیه و تحلیل فایل های رسانه ای و توسعه اینترنت اشیا وجود خواهد داشت.
علیرغم رکود عمومی اقتصاد، در سال‌های آینده، تحلیلگران رشد بیشتر بازار کلان داده را پیش‌بینی می‌کنند، در درجه اول به این دلیل که استفاده از فناوری‌های کلان داده به کاربران آن مزیت رقابتی از نظر افزایش کارایی عملیاتی می‌دهد. کسب و کار، جذب جریان اضافی مشتریان، به حداقل رساندن خطرات و اجرای فناوری های پیش بینی داده ها.
بنابراین، می‌توان نتیجه گرفت که بخش کلان داده در روسیه در مرحله شکل‌گیری است، اما تقاضا برای این فناوری‌ها هر سال در حال افزایش است.

نتایج اصلی تحلیل بازار

بازار جهانی

در پایان سال 2014، بازار کلان داده با پارامترهای زیر مشخص می شود:

حجم بازار به 28.5 میلیارد دلار آمریکا رسید که نسبت به سال قبل 45 درصد افزایش داشت.
اکثر درآمدهای بازار کلان داده از خدمات حاصل شده است، سهم آنها برابر با 40٪ از کل درآمد است.
36 درصد از درآمد از برنامه های کاربردی و تجزیه و تحلیل داده های بزرگ، 17 درصد از تجهیزات محاسباتی و 15 درصد از فناوری های ذخیره سازی داده به دست آمده است.
محبوب ترین ها برای حل مشکلات Big Data پلتفرم های درون حافظه شرکت هایی مانند SAP، HANA و Oracle هستند.
تعداد شرکت‌هایی که پروژه‌های اجرا شده در زمینه مدیریت کلان داده را 125 درصد افزایش دادند.

پیش‌بینی بازار برای سال‌های آینده به شرح زیر است:

در سال 2015 حجم بازار به 38.4 میلیارد دلار آمریکا خواهد رسید، در سال 2020 - 68.7 میلیارد دلار آمریکا.
متوسط نرخ رشد سالانه 16% خواهد بود.
میانگین هزینه های شرکت برای فناوری های Big Data 13.8 میلیون دلار برای شرکت های بزرگ و 1.6 میلیون دلار برای مشاغل کوچک و متوسط خواهد بود.
فناوری‌ها در حوزه خدمات مشتری و بازاریابی هدفمند گسترده‌تر خواهند بود.
در سال 2017، ساختار بازار جهانی به سمت برتری شرکت های کاربر از کشورهای در حال توسعه تغییر خواهد کرد.

بازار روسیه

بازار کلان داده روسیه در مرحله شکل گیری است، نتایج سال 2014 به شرح زیر است:

حجم بازار به 340 میلیون دلار رسید.
متوسط نرخ رشد بازار در سال های گذشته 50 درصد سالانه بود.
حجم کل اطلاعات انباشته شده 155 اگزابایت بود.
10٪ از شرکت های روسی شروع به استفاده از فناوری های داده های بزرگ کردند.
فناوری‌های کلان داده در بخش بانکداری، مخابرات، شرکت‌های اینترنتی و خرده‌فروشی محبوب‌تر بودند.

پیش‌بینی بازار روسیه برای سال‌های آینده به شرح زیر است:

حجم بازار روسیه در سال 2015 به 500 میلیون دلار و در سال 2018 به 1.7 میلیارد دلار خواهد رسید.
سهم بازار روسیه در بازار جهانی در سال 2018 حدود 3٪ خواهد بود.
مقدار داده های انباشته شده در سال 2020 980 اگزابایت خواهد بود.
حجم داده ها در سال 2020 به 2.2 درصد از حجم داده های جهانی افزایش خواهد یافت.
فن آوری های تجسم داده ها، تجزیه و تحلیل فایل های رسانه ای و اینترنت اشیا محبوب ترین خواهند شد.

بر اساس نتایج تحلیل‌ها، می‌توان نتیجه گرفت که بازار داده‌های بزرگ هنوز در مراحل اولیه توسعه است و در آینده نزدیک شاهد رشد آن و گسترش قابلیت‌های این فناوری‌ها خواهیم بود.

از اینکه برای خواندن این اثر حجیم وقت گذاشتید متشکریم، در وبلاگ ما مشترک شوید - ما قول بسیاری از انتشارات جالب جدید را می دهیم!

ستون توسط معلمان HSE در مورد افسانه ها و موارد کار با داده های بزرگ

به نشانک ها

معلمان دانشکده رسانه های جدید در دانشکده عالی اقتصاد دانشگاه تحقیقات ملی، کنستانتین رومانوف و الکساندر پیاتیگورسکی، که همچنین مدیر تحول دیجیتال در Beeline است، ستونی برای سایت در مورد تصورات غلط اصلی درباره کلان داده نوشتند - نمونه هایی از استفاده تکنولوژی و ابزار نویسندگان پیشنهاد می کنند که این نشریه به مدیران شرکت کمک می کند تا این مفهوم را درک کنند.

افسانه ها و باورهای غلط در مورد داده های بزرگ

کلان داده بازاریابی نیست

اصطلاح Big Data بسیار مد شده است - در میلیون ها موقعیت و با صدها تفسیر مختلف استفاده می شود که اغلب به آنچه که هست مربوط نمی شود. مفاهیم اغلب در ذهن افراد جایگزین می شوند و کلان داده با یک محصول بازاریابی اشتباه گرفته می شود. علاوه بر این، در برخی از شرکت ها، داده های بزرگ بخشی از بخش بازاریابی است. نتیجه تجزیه و تحلیل کلان داده در واقع می تواند منبعی برای فعالیت بازاریابی باشد، اما نه چیزی بیشتر. بیایید ببینیم چگونه کار می کند.

اگر ما لیستی از کسانی که دو ماه پیش در فروشگاه ما کالاهایی به ارزش بیش از سه هزار روبل خریدند شناسایی کردیم و سپس نوعی پیشنهاد برای این کاربران ارسال کردیم، این یک بازاریابی معمولی است. ما یک الگوی واضح از داده های ساختاری استخراج می کنیم و از آن برای افزایش فروش استفاده می کنیم.

با این حال، اگر داده‌های CRM را با جریان اطلاعات از مثلاً اینستاگرام ترکیب کنیم و آن‌ها را تجزیه و تحلیل کنیم، الگویی پیدا می‌کنیم: شخصی که عصر چهارشنبه فعالیت خود را کاهش داده است و در آخرین عکسبچه گربه ها به تصویر کشیده می شوند، باید پیشنهاد خاصی ارائه شود. این قبلاً Big Data خواهد بود. ما یک محرک پیدا کردیم، آن را به بازاریابان دادیم و آنها از آن برای اهداف خود استفاده کردند.

از این نتیجه می‌شود که فناوری معمولاً با داده‌های بدون ساختار کار می‌کند، و حتی اگر داده‌ها ساختاریافته باشند، سیستم همچنان به دنبال الگوهای پنهان در آن می‌گردد، کاری که بازاریابی انجام نمی‌دهد.

کلان داده IT نیست

مرحله دوم این داستان: کلان داده اغلب با فناوری اطلاعات اشتباه گرفته می شود. این به این دلیل است که در شرکت های روسی، به عنوان یک قاعده، متخصصان فناوری اطلاعات محرک همه فناوری ها، از جمله داده های بزرگ هستند. بنابراین، اگر همه چیز در این بخش اتفاق بیفتد، شرکت به طور کلی این تصور را ایجاد می کند که این نوعی فعالیت فناوری اطلاعات است.

در واقع، یک تفاوت اساسی در اینجا وجود دارد: Big Data فعالیتی است با هدف به دست آوردن یک محصول خاص که اصلاً به فناوری اطلاعات مربوط نیست، اگرچه فناوری بدون آن نمی تواند وجود داشته باشد.

کلان داده همیشه جمع آوری و تجزیه و تحلیل اطلاعات نیست

تصور نادرست دیگری درباره کلان داده وجود دارد. همه می دانند که این فناوری شامل مقادیر زیادی داده است، اما اینکه منظور از چه نوع داده ای است، همیشه روشن نیست. هرکسی می‌تواند اطلاعات را جمع‌آوری و استفاده کند؛ اکنون این نه تنها در فیلم‌های مربوط به آن، بلکه در هر شرکت، حتی در یک شرکت بسیار کوچک، امکان‌پذیر است. تنها سوال این است که دقیقاً چه چیزی را جمع آوری کنید و چگونه از آن به نفع خود استفاده کنید.

اما باید درک کرد که فناوری Big Data جمع آوری و تجزیه و تحلیل مطلقاً هیچ اطلاعاتی نخواهد بود. به عنوان مثال، اگر داده‌های مربوط به یک فرد خاص را در شبکه‌های اجتماعی جمع‌آوری کنید، داده‌های بزرگ نخواهد بود.

Big Data واقعا چیست؟

کلان داده از سه عنصر تشکیل شده است:

داده ها؛
تجزیه و تحلیل؛
فن آوری ها

Big Data تنها یکی از این اجزا نیست، بلکه ترکیبی از هر سه عنصر است. مردم اغلب مفاهیم را جایگزین می کنند: برخی معتقدند که داده های بزرگ فقط داده است، برخی دیگر معتقدند که این فناوری است. اما در واقع، مهم نیست چقدر داده جمع آوری می کنید، بدون آن نمی توانید کاری انجام دهید فن آوری های لازمو تحلیلگران اگر تجزیه و تحلیل خوبی وجود داشته باشد، اما داده ای وجود نداشته باشد، حتی بدتر است.

اگر در مورد داده ها صحبت کنیم، این فقط متن نیست، بلکه تمام عکس های ارسال شده در اینستاگرام و به طور کلی همه چیزهایی است که می توان آن ها را تجزیه و تحلیل کرد و برای اهداف و وظایف مختلف استفاده کرد. به عبارت دیگر داده به حجم عظیمی از داده های داخلی و خارجی ساختارهای مختلف اطلاق می شود.

تجزیه و تحلیل نیز مورد نیاز است، زیرا وظیفه Big Data ایجاد برخی الگوها است. یعنی تجزیه و تحلیل شناسایی وابستگی های پنهان و جستجوی پرسش ها و پاسخ های جدید بر اساس تجزیه و تحلیل کل حجم داده های ناهمگن است. علاوه بر این، داده های بزرگ سوالاتی را مطرح می کند که نمی توان مستقیماً از این داده ها استخراج کرد.

وقتی صحبت از تصاویر می شود، این واقعیت که شما عکسی از خود با پوشیدن یک تی شرت آبی ارسال می کنید، معنایی ندارد. اما اگر از عکاسی برای مدل سازی Big Data استفاده می کنید، ممکن است معلوم شود که در حال حاضر باید وام ارائه دهید، زیرا در گروه اجتماعی شما چنین رفتاری نشان دهنده یک پدیده خاص در عمل است. بنابراین، داده های "لخت" بدون تجزیه و تحلیل، بدون شناسایی وابستگی های پنهان و غیر آشکار، داده های بزرگ نیستند.

بنابراین ما داده های بزرگ داریم. آرایه آنها بسیار زیاد است. یک تحلیلگر هم داریم. اما چگونه می توانیم مطمئن شویم که از این داده های خام به یک راه حل خاص می رسیم؟ برای انجام این کار، ما به فناوری هایی نیاز داریم که به ما امکان می دهد نه تنها آنها را ذخیره کنیم (و این قبلا غیرممکن بود)، بلکه آنها را تجزیه و تحلیل کنیم.

به زبان ساده، اگر داده های زیادی دارید، به فناوری هایی مانند Hadoop نیاز خواهید داشت که امکان ذخیره تمام اطلاعات به شکل اصلی خود را برای تجزیه و تحلیل بعدی فراهم می کند. این نوع فناوری در غول های اینترنتی به وجود آمد، زیرا آنها اولین کسانی بودند که با مشکل ذخیره حجم زیادی از داده ها و تجزیه و تحلیل آن برای کسب درآمد بعدی مواجه شدند.

علاوه بر ابزارهایی برای ذخیره سازی داده ها بهینه و ارزان، به ابزارهای تحلیلی و همچنین افزونه هایی برای پلتفرم مورد استفاده نیاز دارید. به عنوان مثال، یک اکوسیستم کامل از پروژه‌ها و فناوری‌های مرتبط در اطراف Hadoop شکل گرفته است. در اینجا به برخی از آنها اشاره می کنیم:

Pig یک زبان تجزیه و تحلیل داده های اعلامی است.
Hive - تجزیه و تحلیل داده ها با استفاده از زبانی مشابه SQL.
Oozie - گردش کار Hadoop.
Hbase یک پایگاه داده (غیر رابطه ای) مشابه Google Big Table است.
ماهوت - یادگیری ماشینی.
Sqoop - انتقال داده از RSDB به Hadoop و بالعکس.
فلوم - انتقال لاگ به HDFS.
Zookeeper، MRUnit، Avro، Giraph، Ambari، Cassandra، HCatalog، Fuse-DFS و غیره.

همه این ابزارها به صورت رایگان در دسترس همه هستند، اما تعدادی افزونه پولی نیز وجود دارد.

علاوه بر این، متخصصان مورد نیاز هستند: یک توسعه دهنده و یک تحلیلگر (به اصطلاح دانشمند داده). همچنین به مدیری نیاز است که بتواند نحوه استفاده از این تجزیه و تحلیل را برای حل یک مشکل خاص درک کند، زیرا به خودی خود اگر در فرآیندهای تجاری ادغام نشود، کاملاً بی معنی است.

هر سه کارمند باید به صورت تیمی کار کنند. مدیری که متخصص می دهد علم دادهبرای یافتن یک الگوی خاص، او باید درک کند که همیشه دقیقاً آنچه را که نیاز دارد پیدا نمی کند. در این مورد، مدیر باید با دقت به آنچه دانشمند داده یافته است گوش دهد، زیرا اغلب یافته های او برای کسب و کار جالب تر و مفیدتر است. وظیفه شما این است که این را در یک تجارت اعمال کنید و از آن محصول بسازید.

با وجود این واقعیت که در حال حاضر انواع مختلفی از ماشین‌ها و فناوری‌ها وجود دارد، تصمیم نهایی همیشه با خود شخص است. برای انجام این کار، اطلاعات باید به نحوی تجسم شوند. ابزارهای بسیار زیادی برای این کار وجود دارد.

بارزترین مثال، گزارش های زمین تحلیلی است. شرکت Beeline با دولت های شهرها و مناطق مختلف بسیار کار می کند. اغلب، این سازمان‌ها گزارش‌هایی مانند «ازدحام ترافیک در یک مکان خاص» را سفارش می‌دهند.

واضح است که چنین گزارشی باید به شکلی ساده و قابل فهم به دست سازمان های دولتی برسد. اگر جدول عظیم و کاملاً نامفهومی را در اختیار آنها قرار دهیم (یعنی اطلاعاتی به شکلی که آن را دریافت می کنیم)، بعید است که چنین گزارشی را بخرند - کاملاً بی فایده خواهد بود، آنها از آن آگاهی نخواهند گرفت که می خواستند دریافت کنند.

بنابراین، مهم نیست که دانشمندان داده چقدر خوب هستند و مهم نیست که چه الگوهایی پیدا می کنند، بدون ابزارهای تجسم خوب نمی توانید با این داده ها کار کنید.

منابع اطلاعات

آرایه داده های به دست آمده بسیار بزرگ است، بنابراین می توان آنها را به چند گروه تقسیم کرد.

داده های داخلی شرکت

اگرچه 80 درصد از داده های جمع آوری شده متعلق به این گروه است، اما همیشه از این منبع استفاده نمی شود. اغلب این داده هایی است که ظاهراً هیچ کس اصلاً به آنها نیاز ندارد، مثلاً لاگ. اما اگر از زاویه دیگری به آنها نگاه کنید، گاهی اوقات می توانید الگوهای غیرمنتظره ای را در آنها پیدا کنید.

منابع اشتراک‌افزار

این شامل داده های شبکه های اجتماعی، اینترنت و همه چیزهایی است که می توان به صورت رایگان به آنها دسترسی داشت. چرا اشتراک‌افزار رایگان است؟ از یک طرف، این داده ها در دسترس همه است، اما اگر یک شرکت بزرگ هستید، پس به دست آوردن آن در اندازه یک پایگاه مشترک ده ها هزار، صدها یا میلیون ها مشتری دیگر کار آسانی نیست. بنابراین، وجود دارد خدمات پولیبرای ارائه این داده ها

منابع پولی

این شامل شرکت هایی می شود که داده ها را برای پول می فروشند. اینها ممکن است مخابرات، DMP ها، شرکت های اینترنتی، دفاتر اعتباری و تجمیع کننده ها باشند. در روسیه، مخابرات داده نمی فروشد. اولاً از نظر اقتصادی زیان آور است و ثانیاً قانوناً ممنوع است. بنابراین، آنها نتایج پردازش خود را می فروشند، به عنوان مثال، گزارش های geoanalytical.

باز کردن داده ها

دولت با مشاغل سازگار است و به آنها فرصت می دهد تا از داده هایی که جمع آوری می کنند استفاده کنند. این امر در غرب به میزان بیشتری توسعه یافته است، اما روسیه از این نظر نیز با زمانه پیش می رود. به عنوان مثال، یک پورتال اطلاعات باز دولت مسکو وجود دارد که در آن اطلاعات مربوط به تأسیسات مختلف زیرساخت شهری منتشر می شود.

برای ساکنان و مهمانان مسکو، داده ها به صورت جدولی و نقشه برداری و برای توسعه دهندگان - در قالب های ویژه قابل خواندن توسط ماشین ارائه می شود. در حالی که پروژه در حالت محدود کار می کند، در حال توسعه است، به این معنی که منبع داده ای است که می توانید برای کارهای تجاری خود از آن استفاده کنید.

پژوهش

همانطور که قبلا ذکر شد، وظیفه Big Data پیدا کردن یک الگو است. اغلب، تحقیقاتی که در سراسر جهان انجام می شود می تواند به نقطه اتکای برای یافتن یک الگوی خاص تبدیل شود - می توانید یک نتیجه خاص بگیرید و سعی کنید منطق مشابهی را برای اهداف خود اعمال کنید.

کلان داده حوزه ای است که همه قوانین ریاضی در آن اعمال نمی شود. به عنوان مثال، "1" + "1" "2" نیست، بلکه بسیار بیشتر است، زیرا با مخلوط کردن منابع داده می توان اثر را به طور قابل توجهی افزایش داد.

نمونه های محصول

بسیاری از افراد با سرویس انتخاب موسیقی Spotify آشنا هستند. این عالی است زیرا از کاربران نمی پرسد حال و هوای امروز آنها چیست، بلکه آن را بر اساس منابع موجود محاسبه می کند. او همیشه می داند که اکنون به چه چیزی نیاز دارید - جاز یا هارد راک. این تفاوت کلیدی است که آن را در اختیار طرفداران قرار می دهد و آن را از سایر خدمات متمایز می کند.

چنین محصولاتی معمولاً محصولات حسی نامیده می شوند - آنهایی که مشتریان خود را احساس می کنند.

فناوری Big Data در صنعت خودروسازی نیز مورد استفاده قرار می گیرد. به عنوان مثال، تسلا این کار را انجام می دهد - آخرین مدل آنها دارای خلبان خودکار است. این شرکت در تلاش است تا خودرویی بسازد که خود مسافر را به جایی که نیاز دارد ببرد. بدون Big Data، این غیرممکن است، زیرا اگر ما فقط از داده‌هایی استفاده کنیم که مستقیماً دریافت می‌کنیم، همانطور که یک شخص انجام می‌دهد، خودرو نمی‌تواند پیشرفت کند.

وقتی خودمان ماشین می‌رانیم، از نورون‌هایمان برای تصمیم‌گیری بر اساس عوامل زیادی استفاده می‌کنیم که حتی متوجه آن‌ها هم نمی‌شویم. به عنوان مثال، ممکن است متوجه نشویم که چرا تصمیم گرفتیم بلافاصله با چراغ سبز شتاب ندهیم، اما بعد معلوم شد که این تصمیم درست بوده است - ماشینی با سرعت سرسام آور از کنار شما رد شد و شما از تصادف جلوگیری کردید.

همچنین می توانید مثالی از استفاده از داده های بزرگ در ورزش ارائه دهید. در سال 2002، مدیر کل تیم بیسبال اوکلند دو و میدانی، بیلی بین، تصمیم گرفت پارادایم نحوه جذب ورزشکاران را بشکند - او بازیکنان را "بر اساس اعداد" انتخاب و آموزش داد.

معمولاً مدیران به موفقیت بازیکنان نگاه می کنند ، اما در این مورد همه چیز متفاوت بود - برای به دست آوردن نتیجه ، مدیر با توجه به ویژگی های فردی به ترکیبی از ورزشکاران مورد نیاز خود پرداخت. علاوه بر این ، او ورزشکارانی را انتخاب کرد که به خودی خود پتانسیل زیادی نداشتند ، اما تیم در کل آنقدر موفق شد که بیست مسابقه متوالی را برد.

کارگردان بنت میلر متعاقباً فیلمی را به این داستان اختصاص داد - "مردی که همه چیز را تغییر داد" با بازی برد پیت.

فناوری Big Data در بخش مالی نیز مفید است. حتی یک نفر در جهان نمی تواند به طور مستقل و دقیق تعیین کند که آیا ارزش وام دادن به کسی را دارد یا خیر. برای تصمیم گیری، نمره گذاری انجام می شود، یعنی یک مدل احتمالی ساخته می شود که از روی آن می توان فهمید که آیا این شخص پول را پس می دهد یا خیر. علاوه بر این، امتیازدهی در تمام مراحل اعمال می شود: به عنوان مثال، می توانید محاسبه کنید که در یک لحظه مشخص، شخص پرداخت را متوقف می کند.

کلان داده به شما امکان می دهد نه تنها پول در بیاورید، بلکه آن را نیز ذخیره کنید. به طور خاص، این فناوری به وزارت کار آلمان کمک کرد تا هزینه مزایای بیکاری را 10 میلیارد یورو کاهش دهد، زیرا پس از تجزیه و تحلیل اطلاعات مشخص شد که 20٪ از مزایا به طور غیرمستقیم پرداخت شده است.

فن آوری ها همچنین در پزشکی استفاده می شود (این امر به ویژه برای اسرائیل معمول است). با کمک بیگ دیتا می توانید تحلیل بسیار دقیق تری نسبت به یک پزشک با سی سال تجربه انجام دهید.

هر پزشک هنگام تشخیص، فقط به خود متکی است تجربه خود. وقتی دستگاه این کار را انجام می دهد، از تجربه هزاران پزشک از این قبیل و تمام سوابق پرونده موجود می آید. این در نظر می گیرد که خانه بیمار از چه موادی ساخته شده است، قربانی در چه منطقه ای زندگی می کند، چه نوع دودی وجود دارد و غیره. یعنی فاکتورهای زیادی را در نظر می گیرد که پزشکان در نظر نمی گیرند.

نمونه ای از استفاده از داده های بزرگ در مراقبت های بهداشتی، پروژه پروژه آرتمیس است که توسط بیمارستان کودکان تورنتو اجرا شد. این یک سیستم اطلاعاتی است که داده های مربوط به نوزادان را در زمان واقعی جمع آوری و تجزیه و تحلیل می کند. این دستگاه به شما امکان می دهد در هر ثانیه 1260 شاخص سلامتی هر کودک را تجزیه و تحلیل کنید. این پروژه با هدف پیش بینی وضعیت ناپایدار کودک و پیشگیری از بیماری در کودکان انجام می شود.

استفاده از داده های بزرگ در روسیه نیز آغاز شده است: به عنوان مثال، Yandex دارای یک بخش کلان داده است. این شرکت به همراه AstraZeneca و انجمن روسی انکولوژی بالینی RUSSCO، پلتفرم RAY را راه‌اندازی کرد که برای متخصصان ژنتیک و زیست‌شناسان مولکولی در نظر گرفته شده است. این پروژه به ما امکان می دهد تا روش های تشخیص سرطان و شناسایی استعداد ابتلا به سرطان را بهبود بخشیم. این پلتفرم در دسامبر 2016 راه اندازی می شود.

شتاب مداوم رشد داده ها عنصر جدایی ناپذیر واقعیت های مدرن است. شبکه های اجتماعی، دستگاه های تلفن همراه، داده ها از دستگاه های اندازه گیری، اطلاعات کسب و کار تنها چند نوع منبع است که می تواند حجم عظیمی از داده را تولید کند.

در حال حاضر اصطلاح Big Data کاملا رایج شده است. هنوز همه نمی دانند که فناوری های پردازش حجم زیادی از داده ها چقدر سریع و عمیق در متنوع ترین جنبه های جامعه تغییر می دهند. تغییراتی در حوزه‌های مختلف رخ می‌دهد و مشکلات و چالش‌های جدیدی را به وجود می‌آورد، از جمله در حوزه امنیت اطلاعات، جایی که مهم‌ترین جنبه‌های آن مانند محرمانگی، یکپارچگی، در دسترس بودن و غیره باید در پیش‌زمینه باشد.

متاسفانه خیلی ها شرکت های مدرنبدون ایجاد زیرساخت مناسب برای ذخیره ایمن حجم عظیمی از داده هایی که جمع آوری و ذخیره می کنند، به فناوری Big Data متوسل می شوند. از سوی دیگر، فناوری بلاک چین در حال حاضر به سرعت در حال توسعه است که برای حل این مشکل و بسیاری از مشکلات دیگر طراحی شده است.

کلان داده چیست؟

در واقع، تعریف این اصطلاح ساده است: "داده های بزرگ" به معنای مدیریت حجم بسیار زیادی از داده ها و همچنین تجزیه و تحلیل آنها است. اگر به طور گسترده‌تر نگاه کنیم، این اطلاعاتی است که به دلیل حجم زیاد، با روش‌های کلاسیک قابل پردازش نیست.

خود اصطلاح Big Data نسبتاً اخیراً ظاهر شده است. با توجه به Google Trends، رشد فعال در محبوبیت این اصطلاح در پایان سال 2011 رخ داد:

در سال 2010، اولین محصولات و راه حل های مرتبط با پردازش کلان داده ها شروع به ظهور کردند. تا سال 2011، بسیاری از بزرگترین شرکت های فناوری اطلاعات، از جمله IBM، Oracle، Microsoft و Hewlett-Packard، به طور فعال از واژه Big Data در استراتژی های تجاری خود استفاده می کنند. به تدریج، تحلیلگران بازار فناوری اطلاعات در حال شروع تحقیقات فعال در مورد این مفهوم هستند.

در حال حاضر، این اصطلاح محبوبیت قابل توجهی به دست آورده است و به طور فعال در زمینه های مختلف استفاده می شود. با این حال، نمی توان با قطعیت گفت که داده های بزرگ نوعی پدیده اساساً جدید است - برعکس، منابع کلان داده سالهاست که وجود داشته اند. در بازاریابی، اینها شامل پایگاه های داده خرید مشتری، تاریخچه اعتباری، سبک زندگی و غیره می شود. در طول سال ها، تحلیلگران از این داده ها برای کمک به شرکت ها در پیش بینی نیازهای آینده مشتریان، ارزیابی ریسک ها، شکل دادن به ترجیحات مصرف کننده و موارد دیگر استفاده کرده اند.

در حال حاضر وضعیت از دو جنبه تغییر کرده است:

- ابزارها و روش های پیچیده تری برای تجزیه و تحلیل و مقایسه ظاهر شده اند مجموعه های مختلفداده ها؛
- به دلیل انتقال گسترده به فناوری های دیجیتال و همچنین روش های جدید جمع آوری و اندازه گیری داده ها، ابزارهای تجزیه و تحلیل با بسیاری از منابع داده جدید تکمیل شده اند.

محققان پیش‌بینی می‌کنند که فناوری‌های کلان داده به طور فعال در تولید، مراقبت‌های بهداشتی، تجارت، مدیریت دولتی و در سایر حوزه‌ها و صنایع مختلف مورد استفاده قرار خواهند گرفت.

کلان داده فقط هر کدام نیست آرایه خاصداده ها، اما مجموعه ای از روش ها برای پردازش آنها. مشخصه تعیین کننده داده های بزرگ نه تنها حجم آن، بلکه دسته بندی های دیگری است که فرآیندهای پردازش و تجزیه و تحلیل داده ها را مشخص می کند.

داده های اولیه برای پردازش می تواند به عنوان مثال:

- سیاهههای مربوط به رفتار کاربران اینترنت؛
- اینترنت اشیا؛
- رسانه های اجتماعی؛
- داده های هواشناسی؛
- کتاب های دیجیتالی از کتابخانه های بزرگ؛
- سیگنال های GPS از وسایل نقلیه؛
- اطلاعات در مورد معاملات مشتریان بانک؛
- داده های مربوط به موقعیت مکانی مشترکین شبکه تلفن همراه؛
- اطلاعات در مورد خرید در زنجیره های خرده فروشی بزرگ و غیره.

با گذشت زمان، حجم داده ها و تعداد منابع آن به طور مداوم در حال افزایش است و در این زمینه، روش های جدید پردازش اطلاعات در حال ظهور و بهبود روش های موجود است.

اصول اولیه داده های بزرگ:

— مقیاس پذیری افقی – آرایه های داده می توانند بسیار زیاد باشند و این بدان معناست که سیستم پردازش داده های بزرگ باید به صورت پویا با افزایش حجم آنها گسترش یابد.
- تحمل خطا - حتی اگر برخی از عناصر تجهیزات خراب شوند، کل سیستم باید فعال بماند.
- محل داده ها در سیستم های توزیع شده بزرگ، داده ها معمولاً در تعداد قابل توجهی از ماشین ها توزیع می شوند. با این حال، در صورت امکان و برای صرفه جویی در منابع، داده ها اغلب در همان سروری که در آن ذخیره می شوند، پردازش می شوند.

برای عملکرد پایدار هر سه اصل و بر این اساس، راندمان بالای ذخیره سازی و پردازش کلان داده ها، به فناوری های پیشرفت جدیدی مانند بلاک چین نیاز است.

چرا به داده های بزرگ نیاز داریم؟

دامنه کلان داده به طور مداوم در حال گسترش است:

- داده های بزرگ را می توان در پزشکی استفاده کرد. بنابراین، تشخیص را می توان برای بیمار نه تنها بر اساس داده های تجزیه و تحلیل تاریخچه پزشکی بیمار، بلکه با در نظر گرفتن تجربه سایر پزشکان، اطلاعات در مورد وضعیت محیطی منطقه محل سکونت بیمار، و بسیاری از عوامل دیگر
- فناوری های داده های بزرگ را می توان برای سازماندهی حرکت وسایل نقلیه بدون سرنشین استفاده کرد.
- با پردازش حجم زیادی از داده ها، می توانید چهره ها را در عکس ها و فیلم ها تشخیص دهید.
- فن آوری های داده های بزرگ را می توان توسط خرده فروشان استفاده کرد - شرکت های تجاری می توانند به طور فعال از آرایه های داده از شبکه های اجتماعی برای پیکربندی موثر خود استفاده کنند. کمپین های تبلیغاتی، که می تواند حداکثر برای یک بخش مصرف کننده خاص هدف قرار گیرد.
- این فناوری به طور فعال در سازماندهی مبارزات انتخاباتی، از جمله برای تجزیه و تحلیل ترجیحات سیاسی در جامعه استفاده می شود.
- استفاده از فناوری‌های کلان داده برای راه‌حل‌های طبقه تضمین درآمد (RA) مرتبط است، که شامل ابزارهایی برای تشخیص ناسازگاری‌ها و تجزیه و تحلیل عمیق داده‌ها است که امکان شناسایی به موقع زیان‌های احتمالی یا تحریف اطلاعات را فراهم می‌کند که می‌تواند منجر به کاهش اطلاعات شود. نتایج مالی.
- ارائه دهندگان ارتباطات از راه دور می توانند داده های بزرگ، از جمله موقعیت جغرافیایی را جمع آوری کنند. به نوبه خود، این اطلاعات ممکن است برای آژانس های تبلیغاتی مورد توجه تجاری قرار گیرد، که می توانند از آن برای نمایش تبلیغات هدفمند و محلی و همچنین خرده فروشان و بانک ها استفاده کنند.
- داده‌های بزرگ می‌توانند نقش مهمی در تصمیم‌گیری برای افتتاح یک فروشگاه خرده‌فروشی در یک مکان خاص بر اساس داده‌های مربوط به حضور یک جریان هدفمند قدرتمند از افراد ایفا کنند.

بنابراین، آشکارترین کاربرد عملی فناوری کلان داده در حوزه بازاریابی نهفته است. به لطف توسعه اینترنت و تکثیر انواع وسایل ارتباطی، داده‌های رفتاری (مانند تعداد تماس‌ها، عادت‌های خرید و خرید) در زمان واقعی در دسترس هستند.

فناوری های کلان داده همچنین می توانند به طور موثر در امور مالی، برای تحقیقات جامعه شناختی و در بسیاری از زمینه های دیگر مورد استفاده قرار گیرند. کارشناسان می گویند که همه این فرصت های کلان داده فقط هستند قسمت قابل مشاهدهکوه یخ، زیرا این فناوری ها در حجم بسیار بیشتری در اطلاعات و ضد جاسوسی، در امور نظامی و همچنین در هر چیزی که معمولاً جنگ اطلاعاتی نامیده می شود استفاده می شود.

به طور کلی، توالی کار با داده های بزرگ شامل جمع آوری داده ها، ساختاردهی اطلاعات دریافتی با استفاده از گزارش ها و داشبوردها و سپس تدوین توصیه هایی برای اقدام است.

بیایید به طور خلاصه امکانات استفاده از فناوری های داده های بزرگ در بازاریابی را بررسی کنیم. همانطور که می دانید برای یک بازاریاب اطلاعات ابزار اصلی پیش بینی و توسعه استراتژی است. تجزیه و تحلیل کلان داده ها برای مدت طولانی با موفقیت برای تعیین مخاطبان هدف، علایق، تقاضا و فعالیت مصرف کنندگان مورد استفاده قرار گرفته است. تجزیه و تحلیل کلان داده، به ویژه، نمایش تبلیغات (بر اساس مدل حراج RTB - مناقصه زمان واقعی) را فقط برای آن دسته از مصرف کنندگانی که به یک محصول یا خدمات علاقه مند هستند، ممکن می سازد.

استفاده از داده های بزرگ در بازاریابی به تجار اجازه می دهد:

- مشتریان خود را بهتر بشناسید، مخاطبان مشابهی را در اینترنت جذب کنید.
- ارزیابی میزان رضایت مشتری؛
- درک کنید که آیا سرویس پیشنهادی انتظارات و نیازها را برآورده می کند یا خیر.
- یافتن و پیاده سازی راه های جدید برای افزایش اعتماد مشتری؛
- ایجاد پروژه های مورد تقاضا و غیره

به عنوان مثال، سرویس Google.trends می‌تواند پیش‌بینی فعالیت تقاضای فصلی برای یک محصول خاص، نوسانات و جغرافیای کلیک‌ها را به یک بازاریاب نشان دهد. اگر این اطلاعات را با داده های آماری جمع آوری شده توسط افزونه مربوطه در وب سایت خود مقایسه کنید، می توانید برنامه ای برای توزیع بودجه تبلیغاتی با ذکر ماه، منطقه و سایر پارامترها تهیه کنید.

به گفته بسیاری از محققان، موفقیت کمپین انتخاباتی ترامپ در تقسیم بندی و استفاده از داده های بزرگ نهفته است. تیم رئیس جمهور آینده ایالات متحده توانست بینندگان را به درستی تقسیم کند، خواسته های آن را درک کند و دقیقاً پیامی را نشان دهد که رای دهندگان می خواهند ببینند و بشنوند. بنابراین، به گفته ایرینا بلیشوا از ائتلاف داده محور، پیروزی ترامپ تا حد زیادی به لطف یک رویکرد غیر استاندارد در بازاریابی اینترنتی، که بر اساس داده‌های بزرگ، تحلیل روان‌شناختی و رفتاری و تبلیغات شخصی‌سازی شده بود، امکان‌پذیر شد.

استراتژیست های سیاسی و بازاریابان ترامپ از یک مدل ریاضی ویژه توسعه یافته استفاده کردند که امکان تجزیه و تحلیل عمیق داده های همه رای دهندگان ایالات متحده و سیستماتیک کردن آنها را فراهم کرد و هدف گیری فوق العاده دقیق را نه تنها بر اساس ویژگی های جغرافیایی، بلکه همچنین با اهداف، منافع رأی دهندگان انجام داد. پس از آن، بازاریابان برای دستیابی به این هدف، ارتباطات شخصی با هر گروه از شهروندان را بر اساس نیازها، خلق و خوی، دیدگاه های سیاسی، ویژگی های روانی و حتی رنگ پوست سازماندهی کردند و تقریباً برای هر رأی دهنده ای از پیام خود استفاده کردند.

در مورد هیلاری کلینتون، او در مبارزات انتخاباتی خود از روش‌های «آزمایش‌شده زمان» مبتنی بر داده‌های جامعه‌شناختی و بازاریابی استاندارد استفاده کرد و رأی‌دهندگان را فقط به گروه‌های رسمی همگن (مردان، زنان، آمریکایی‌های آفریقایی‌تبار، آمریکایی‌های لاتین، فقیر، ثروتمند و غیره) تقسیم کرد. .

در نتیجه، برنده کسی بود که از پتانسیل فن آوری های جدید و روش های تجزیه و تحلیل قدردانی کرد. قابل ذکر است که هزینه های انتخاباتی هیلاری کلینتون دو برابر هزینه های رقیب وی بوده است.

داده ها: Pew Research

مشکلات اصلی استفاده از داده های بزرگ

علاوه بر هزینه بالا، یکی از عوامل اصلی مانع اجرای Big Data در حوزه های مختلف، مشکل انتخاب داده های مورد پردازش است: یعنی تعیین اینکه کدام داده ها نیاز به بازیابی، ذخیره و تجزیه و تحلیل دارند و کدام داده ها باید پردازش شوند. در نظر گرفته نشود.

یکی دیگر از مشکلات Big Data، اخلاقی است. به عبارت دیگر، یک سوال منطقی مطرح می شود: آیا چنین جمع آوری داده ها (به ویژه بدون اطلاع کاربر) می تواند نقض حریم خصوصی تلقی شود؟

بر کسی پوشیده نیست که اطلاعات ذخیره شده در موتورهای جستجوی Google و Yandex به غول های فناوری اطلاعات اجازه می دهد تا به طور مداوم خدمات خود را بهبود بخشند، آنها را کاربر پسند کنند و خدمات جدیدی ایجاد کنند. برنامه های کاربردی تعاملی. برای انجام این کار، موتورهای جستجو داده‌های کاربر را در مورد فعالیت کاربر در اینترنت، آدرس‌های IP، داده‌های موقعیت جغرافیایی، علایق و خریدهای آنلاین، داده‌های شخصی، پیام‌های ایمیل و غیره جمع‌آوری می‌کنند. همه اینها به آنها اجازه می‌دهد تبلیغات متنی را مطابق با رفتار کاربر در سایت نمایش دهند. اینترنت. در این حالت معمولاً رضایت کاربران برای این مورد درخواست نمی شود و فرصت انتخاب اطلاعاتی در مورد خود برای ارائه داده نمی شود. یعنی به‌طور پیش‌فرض، همه چیز در Big Data جمع‌آوری می‌شود و سپس در سرورهای داده سایت‌ها ذخیره می‌شود.

این منجر به مشکل مهم بعدی در مورد امنیت ذخیره سازی و استفاده از داده ها می شود. به عنوان مثال، آیا یک پلت فرم تحلیلی خاص که مصرف کنندگان به طور خودکار داده های خود را به آن منتقل می کنند، ایمن است؟ علاوه بر این، بسیاری از نمایندگان کسب‌وکار به کمبود تحلیل‌گران و بازاریاب‌های ماهر اشاره می‌کنند که می‌توانند به طور موثر حجم زیادی از داده‌ها را مدیریت کنند و مشکلات خاص تجاری را با کمک آنها حل کنند.

علیرغم تمام مشکلاتی که در پیاده سازی Big Data وجود دارد، این کسب و کار قصد دارد سرمایه گذاری در این زمینه را افزایش دهد. طبق تحقیقات گارتنر، شرکت‌های رسانه‌ای، خرده‌فروشی، مخابرات، بانکداری و خدمات پیشرو در صنایع سرمایه‌گذاری روی داده‌های بزرگ هستند.

چشم انداز تعامل بین فناوری های بلاک چین و داده های بزرگ

ادغام با داده های بزرگ اثر هم افزایی دارد و طیف گسترده ای از فرصت های جدید را برای تجارت باز می کند، از جمله اجازه می دهد:

- به اطلاعات دقیق در مورد ترجیحات مصرف کننده دسترسی پیدا کنید، که بر اساس آن می توانید پروفایل های تحلیلی دقیق برای تامین کنندگان، محصولات و اجزای محصول خاص بسازید.
- ادغام داده های دقیق در مورد معاملات و آمار مصرف گروه های خاصی از کالاها توسط دسته های مختلف کاربران.
- دریافت داده های تحلیلی دقیق در مورد زنجیره های تامین و مصرف، کنترل تلفات محصول در طول حمل و نقل (به عنوان مثال، کاهش وزن به دلیل خشک شدن و تبخیر انواع خاصی از کالاها).
- مقابله با جعل محصولات، افزایش اثربخشی مبارزه با پولشویی و تقلب و غیره.

دسترسی به داده‌های دقیق در مورد استفاده و مصرف کالاها، پتانسیل فناوری Big Data را برای بهینه‌سازی فرآیندهای تجاری کلیدی، کاهش ریسک‌های نظارتی، آشکار کردن فرصت‌های جدید برای کسب درآمد و ایجاد محصولاتی که به بهترین وجه ترجیحات مصرف‌کننده را برآورده می‌کنند، آشکار خواهد کرد.

همانطور که مشخص است، نمایندگان بزرگترین مؤسسات مالی در حال حاضر علاقه زیادی به فناوری بلاک چین از جمله و غیره نشان می دهند. به گفته اولیور باسمن، مدیر فناوری اطلاعات هلدینگ مالی سوئیس UBS، فناوری بلاک چین می تواند زمان پردازش تراکنش را از چند روز به چند روز کاهش دهد. دقیقه».

پتانسیل تجزیه و تحلیل از بلاک چین با استفاده از فناوری Big Data بسیار زیاد است. فناوری دفتر کل توزیع شده یکپارچگی اطلاعات و همچنین ذخیره سازی قابل اعتماد و شفاف کل تاریخچه تراکنش را تضمین می کند. داده های بزرگ به نوبه خود ابزارهای جدیدی را برای تجزیه و تحلیل موثر، پیش بینی، مدل سازی اقتصادی فراهم می کند و بر این اساس، فرصت های جدیدی را برای تصمیم گیری های مدیریتی آگاهانه تر باز می کند.

پشت سر هم بلاک چین و کلان داده را می توان با موفقیت در مراقبت های بهداشتی مورد استفاده قرار داد. همانطور که مشخص است، داده های ناقص و ناقص در مورد سلامت بیمار، خطر تشخیص نادرست و درمان نادرست تجویز شده را به شدت افزایش می دهد. داده های حیاتی در مورد سلامت مشتریان موسسات پزشکی باید حداکثر محافظت شود، دارای ویژگی های تغییر ناپذیری باشد، قابل تایید باشد و نباید در معرض هیچ گونه دستکاری قرار گیرد.

اطلاعات موجود در بلاک چین تمام الزامات فوق را برآورده می کند و می تواند به عنوان داده منبع با کیفیت بالا و قابل اعتماد برای تجزیه و تحلیل عمیق با استفاده از فناوری های جدید Big Data عمل کند. علاوه بر این، با کمک بلاک چین، موسسات پزشکی می توانند داده های قابل اعتماد را با شرکت های بیمه، مقامات قضایی، کارفرمایان، موسسات علمی و سایر سازمان هایی که به اطلاعات پزشکی نیاز دارند مبادله کنند.

کلان داده و امنیت اطلاعات

در یک مفهوم گسترده، امنیت اطلاعات حفاظت از اطلاعات و زیرساخت های پشتیبانی از اثرات منفی تصادفی یا عمدی طبیعی یا مصنوعی است.

در حوزه امنیت اطلاعات، داده های بزرگ با چالش های زیر مواجه است:

- مشکلات حفاظت از داده ها و تضمین یکپارچگی آنها؛
- خطر دخالت خارجی و نشت اطلاعات محرمانه؛
- ذخیره سازی نامناسب اطلاعات محرمانه؛
- خطر از دست دادن اطلاعات، به عنوان مثال، به دلیل اقدامات مخرب شخصی؛
- خطر سوء استفاده از داده های شخصی توسط اشخاص ثالث و غیره

یکی از اصلی ترین مشکلات کلان داده که بلاک چین برای حل آن طراحی شده است، در حوزه امنیت اطلاعات نهفته است. فناوری رجیستری توزیع شده با اطمینان از انطباق با تمام اصول اولیه خود می تواند یکپارچگی و قابلیت اطمینان داده ها را تضمین کند و به دلیل عدم وجود یک نقطه شکست، بلاک چین عملکرد سیستم های اطلاعاتی را پایدار می کند. فناوری دفتر کل توزیع شده می‌تواند به حل مشکل اعتماد به داده‌ها و همچنین امکان اشتراک‌گذاری جهانی داده کمک کند.

اطلاعات یک دارایی ارزشمند است، به این معنی که اطمینان از جنبه های اساسی امنیت اطلاعات باید در خط مقدم باشد. برای بقای رقابت، شرکت‌ها باید همگام با زمان باشند، به این معنی که نمی‌توانند فرصت‌ها و مزایای بالقوه فناوری بلاک چین و ابزارهای کلان داده را نادیده بگیرند.

اطلاعات بزرگ- این فقط خود داده نیست، بلکه فن آوری های پردازش و استفاده از آن، روش هایی برای جستجوی اطلاعات لازم در آرایه های بزرگ است. مشکل کلان داده هنوز برای هر سیستمی که چندین دهه است اطلاعات گسترده ای را جمع آوری کرده است باز و حیاتی است.

این اصطلاح با عبارت همراه است "حجم، سرعت، تنوع"- اصولی که کار با داده های بزرگ بر اساس آنها استوار است. مستقیم است مقدار اطلاعات, سرعت پردازش آنو انواع اطلاعات، در یک آرایه ذخیره می شود. اخیراً حدود سه اصول اساسیشروع به اضافه کردن یک مورد دیگر کرد - ارزش، که به معنی ارزش اطلاعات. یعنی باید از نظر نظری یا عملی مفید و ضروری باشد که هزینه های نگهداری و پردازش آن را توجیه کند.

نمونه ای از یک منبع معمولی داده های بزرگ شبکه های اجتماعی هستند - هر پروفایل یا صفحه عمومینشان دهنده یک قطره کوچک در اقیانوسی از اطلاعات بدون ساختار است. علاوه بر این، صرف نظر از مقدار اطلاعات ذخیره شده در یک نمایه خاص، تعامل با هر کاربر باید تا حد امکان سریع باشد.

کلان داده تقریباً در هر حوزه ای از زندگی انسان به طور مداوم در حال انباشته شدن است. این شامل هر صنعتی است که شامل تعامل انسانی یا محاسبات می شود. اینها شامل رسانه های اجتماعی، پزشکی، بانکداری و همچنین سیستم های دستگاهی است که نتایج متعددی را از محاسبات روزانه دریافت می کنند. به عنوان مثال، مشاهدات نجومی، اطلاعات هواشناسی و اطلاعات از دستگاه های سنجش زمین.

اطلاعات انواع سیستم های ردیابی در زمان واقعی نیز به سرورهای یک شرکت خاص می رود. پخش تلویزیون و رادیو، پایگاه داده تماس اپراتورهای تلفن همراه - تعامل هر فرد با آنها حداقل است، اما در مجموع همه این اطلاعات به داده های بزرگ تبدیل می شوند.

فناوری‌های کلان داده جزء لاینفک تحقیق و تجارت شده‌اند. علاوه بر این، آنها شروع به تسلط بر حوزه مدیریت عمومی کرده‌اند - و در همه جا به معرفی سیستم‌های مؤثرتر برای ذخیره‌سازی و دستکاری اطلاعات نیاز است.

اصطلاح "داده های بزرگ" برای اولین بار در سال 2008 در مطبوعات ظاهر شد، زمانی که کلیفورد لینچ، سردبیر Nature مقاله ای را در مورد توسعه آینده علم با استفاده از فناوری ها برای کار با مقادیر زیاد داده منتشر کرد. تا سال 2009، این اصطلاح تنها از نظر تحلیل علمی مورد توجه قرار می گرفت، اما پس از انتشار چندین مقاله دیگر، مطبوعات شروع به استفاده گسترده از مفهوم داده های بزرگ کردند - و امروزه نیز از آن استفاده می کنند.

در سال 2010، اولین تلاش ها برای حل مشکل رو به رشد داده های بزرگ ظاهر شد. محصولات نرم افزاری منتشر شد که هدف آن به حداقل رساندن خطرات هنگام استفاده از حجم عظیمی از اطلاعات بود.

تا سال 2011، شرکت‌های بزرگی مانند مایکروسافت، اوراکل، EMC و IBM به داده‌های بزرگ علاقه‌مند شدند - آنها اولین کسانی بودند که از توسعه داده‌های بزرگ در استراتژی‌های توسعه خود استفاده کردند و کاملاً موفقیت آمیز بودند.

دانشگاه ها در سال 2013 مطالعه کلان داده ها را به عنوان یک موضوع جداگانه آغاز کردند - اکنون نه تنها علم داده، بلکه مهندسی، همراه با موضوعات محاسباتی، با مشکلاتی در این زمینه سروکار دارد.

روش های اصلی تجزیه و تحلیل و پردازش داده ها شامل موارد زیر است:

روش های کلاس یا تحلیل عمیق (داده کاوی).

این روش‌ها بسیار زیاد هستند، اما یک چیز مشترک دارند: ابزارهای ریاضی که در ارتباط با دستاوردهای حوزه فناوری اطلاعات استفاده می‌شوند.

جمع سپاری.

این تکنیک به شما امکان می دهد داده ها را به طور همزمان از چندین منبع بدست آورید و تعداد آنها عملاً نامحدود است.

تست A/B

از کل حجم داده ها، یک مجموعه کنترلی از عناصر انتخاب می شود که به طور متناوب با سایر مجموعه های مشابه که یکی از عناصر تغییر کرده است، مقایسه می شود. انجام چنین آزمایشاتی به تعیین اینکه کدام نوسانات پارامتر بیشترین تأثیر را بر جمعیت کنترل دارد کمک می کند. به لطف حجم داده های بزرگ، می توان تعداد زیادی تکرار را انجام داد و هر یک از آنها به مطمئن ترین نتیجه نزدیک می شوند.

تجزیه و تحلیل پیش بینی کننده

متخصصان در این زمینه سعی می کنند از قبل پیش بینی و برنامه ریزی کنند که شیء کنترل شده چگونه رفتار خواهد کرد تا سودآورترین تصمیم را در این شرایط اتخاذ کنند.

یادگیری ماشینی (هوش مصنوعی).

این بر اساس تجزیه و تحلیل تجربی اطلاعات و ساخت متعاقب آن الگوریتم های خودآموز برای سیستم ها است.

تجزیه و تحلیل شبکه

متداول ترین روش برای مطالعه شبکه های اجتماعی این است که پس از به دست آوردن داده های آماری، گره های ایجاد شده در شبکه مورد تجزیه و تحلیل قرار می گیرند، یعنی تعاملات بین توسط کاربران فردیو جوامع آنها

در سال 2017، زمانی که کلان داده دیگر چیز جدیدی و ناشناخته نبود، اهمیت آن نه تنها کاهش پیدا نکرد، بلکه حتی بیشتر شد. کارشناسان اکنون شرط بندی می کنند که تجزیه و تحلیل داده های بزرگ نه تنها برای سازمان های غول پیکر، بلکه برای مشاغل کوچک و متوسط نیز در دسترس خواهد بود. این رویکرد با استفاده از مؤلفه های زیر برنامه ریزی شده است:

فضای ذخیره ابری.

ذخیره سازی و پردازش داده ها سریعتر و مقرون به صرفه تر می شود - در مقایسه با هزینه های نگهداری از مرکز داده خود و افزایش احتمالی کارکنان، به نظر می رسد اجاره ابر جایگزین بسیار ارزان تری باشد.

استفاده از داده های تاریک

به اصطلاح "داده های تاریک" همه اطلاعات غیر دیجیتالی درباره شرکت است که نقش کلیدی در استفاده مستقیم از آن ایفا نمی کند، اما می تواند دلیلی برای تغییر فرمت جدید برای ذخیره سازی اطلاعات باشد.

هوش مصنوعی و یادگیری عمیق.

فناوری یادگیری هوش ماشینی، که ساختار و عملکرد مغز انسان را تقلید می کند، برای پردازش مقادیر زیادی از اطلاعات دائماً در حال تغییر مناسب است. در این حالت، دستگاه هر کاری را که شخص انجام می دهد انجام می دهد، اما احتمال خطا به میزان قابل توجهی کاهش می یابد.

بلاک چین

این فناوری سرعت و ساده سازی بسیاری از تراکنش های آنلاین از جمله تراکنش های بین المللی را ممکن می سازد. یکی دیگر از مزایای بلاک چین کاهش هزینه های تراکنش است.

سلف سرویس و کاهش قیمت.

در سال 2017، برنامه ریزی شده است که "پلتفرم های سلف سرویس" معرفی شود - این پلتفرم های رایگان هستند که در آن نمایندگان مشاغل کوچک و متوسط می توانند به طور مستقل داده هایی را که ذخیره می کنند ارزیابی کرده و آنها را سیستماتیک کنند.

همه استراتژی های بازاریابی به نوعی مبتنی بر دستکاری اطلاعات و تجزیه و تحلیل داده های موجود است. به همین دلیل است که استفاده از داده های بزرگ می تواند پیش بینی کند و امکان تنظیم توسعه بیشتر شرکت را فراهم کند.

به عنوان مثال، یک حراج RTB ایجاد شده بر اساس داده های بزرگ به شما امکان می دهد از تبلیغات به طور مؤثرتری استفاده کنید - یک محصول خاص فقط به گروهی از کاربرانی که علاقه مند به خرید آن هستند نشان داده می شود.

مزایای استفاده از فناوری های کلان داده در بازاریابی و تجارت چیست؟

با کمک آنها، می توانید پروژه های جدید را بسیار سریعتر ایجاد کنید، که احتمالاً در بین خریداران تقاضا می شود.
آنها به ارتباط نیازهای مشتری با خدمات موجود یا طراحی شده کمک می کنند و بنابراین آنها را تنظیم می کنند.
روش‌های کلان داده ارزیابی میزان رضایت فعلی همه کاربران و هر کاربر را ممکن می‌سازد.
افزایش وفاداری مشتری از طریق روش های پردازش کلان داده به دست می آید.
به لطف توانایی کنترل حجم عظیمی از داده ها، جذب مخاطبان هدف به صورت آنلاین آسان تر می شود.

به عنوان مثال، یکی از محبوب ترین سرویس ها برای پیش بینی محبوبیت احتمالی یک محصول، Google.trends است. این به طور گسترده توسط بازاریابان و تحلیلگران استفاده می شود و به آنها امکان می دهد آماری در مورد استفاده قبلی از یک محصول معین و پیش بینی برای فصل بعد به دست آورند. این به مدیران شرکت اجازه می دهد تا بودجه تبلیغاتی را به طور مؤثرتری توزیع کنند و تعیین کنند که در کدام حوزه سرمایه گذاری بهتر است.

نمونه هایی از استفاده از داده های بزرگ

معرفی فعال فناوری‌های کلان داده به بازار و زندگی مدرن درست پس از آن آغاز شد که شرکت‌های مشهور جهانی با مشتریان تقریباً در هر بخش از جهان شروع به استفاده از آنها کردند.

اینها غول های اجتماعی مانند فیس بوک و گوگل، آی بی ام و همچنین موسسات مالی مانند مستر کارت، ویزا و بانک آمریکا هستند.

برای مثال، آی‌بی‌ام از تکنیک‌های کلان داده برای تراکنش‌های پولی جاری استفاده می‌کند. با کمک آنها، 15٪ تراکنش های کلاهبرداری بیشتر شناسایی شد که امکان افزایش 60٪ میزان وجوه محافظت شده را فراهم کرد. مشکلات مربوط به هشدارهای اشتباه سیستم نیز حل شد - تعداد آنها بیش از نصف کاهش یافت.

شرکت VISA به طور مشابه از Big Data برای ردیابی تلاش های جعلی برای انجام یک عملیات خاص استفاده کرد. به لطف این، آنها سالانه بیش از 2 میلیارد دلار از نشت صرفه جویی می کنند.

وزارت کار آلمان با وارد کردن یک سیستم کلان داده در کار خود در زمینه صدور مزایای بیکاری، توانست هزینه ها را 10 میلیارد یورو کاهش دهد. در همان زمان مشخص شد که یک پنجم شهروندان این مزایا را بدون دلیل دریافت می کنند.

بیگ دیتا به صنعت بازی هم رحم نکرده است. بنابراین، توسعه دهندگان World of Tanks مطالعه ای از اطلاعات مربوط به همه بازیکنان انجام دادند و شاخص های موجود فعالیت آنها را مقایسه کردند. این به پیش بینی خروج احتمالی بازیکنان در آینده کمک کرد - بر اساس فرضیات ساخته شده، نمایندگان سازمان قادر به تعامل موثرتری با کاربران بودند.

سازمان‌های برجسته‌ای که از داده‌های بزرگ استفاده می‌کنند نیز شامل HSBC، نزدک، کوکاکولا، استارباکس و AT&T هستند.

بزرگترین مشکل کلان داده هزینه پردازش آن است. این می تواند شامل تجهیزات گران قیمت و هزینه دستمزد برای متخصصان واجد شرایطی باشد که قادر به ارائه اطلاعات زیادی هستند. بدیهی است که تجهیزات باید به طور مرتب به روز شوند تا با افزایش حجم داده ها حداقل عملکرد را از دست ندهند.

مشکل دوم باز هم مربوط به حجم زیاد اطلاعاتی است که باید پردازش شوند. به عنوان مثال، اگر یک مطالعه نه 2-3، بلکه تعداد زیادی نتیجه را تولید کند، بسیار دشوار است که عینی باقی بماند و از جریان کلی داده ها فقط آنهایی را انتخاب کنید که تأثیر واقعی بر وضعیت هر پدیده ای داشته باشند.

مشکل حفظ حریم خصوصی داده های بزرگ با توجه به اینکه اکثر خدمات مشتری به سمت استفاده از داده های آنلاین حرکت می کنند، تبدیل شدن به هدف بعدی برای مجرمان سایبری بسیار آسان است. حتی صرفاً ذخیره اطلاعات شخصی بدون انجام هرگونه تراکنش آنلاین می تواند با عواقب نامطلوبی برای مشتریان ذخیره سازی ابری همراه باشد.

مشکل از دست دادن اطلاعات اقدامات پیشگیرانه مستلزم این است که به یک نسخه پشتیبان ساده یکباره از داده ها محدود نشوید، بلکه حداقل 2-3 مورد را انجام دهید. پشتیبان گیریتجهیزات ذخیره سازی. با این حال، با افزایش حجم، مشکلات مربوط به افزونگی افزایش می‌یابد - و متخصصان فناوری اطلاعات در تلاش هستند تا راه‌حل بهینه را برای این مشکل بیابند.

بازار فناوری داده های بزرگ در روسیه و جهان

از سال 2014، 40 درصد از حجم بازار کلان داده را خدمات تشکیل می دهد. درآمد حاصل از استفاده از داده های بزرگ در تجهیزات کامپیوتری کمی کمتر از این شاخص است (38%). 22 درصد باقی مانده از نرم افزار تامین می شود.

طبق آمار، مفیدترین محصولات در بخش جهانی برای حل مشکلات Big Data پلتفرم های تحلیلی In-memory و NoSQL هستند. 15 و 12 درصد از بازار به ترتیب در اختیار نرم افزارهای تحلیلی Log-file و پلتفرم های Columnar است. اما Hadoop/MapReduce در عمل با مشکلات کلان داده ها به طور موثری کنار نمی آید.

نتایج پیاده‌سازی فناوری‌های کلان داده:

افزایش کیفیت خدمات به مشتریان؛
بهینه سازی یکپارچه سازی زنجیره تامین؛
بهینه سازی برنامه ریزی سازمان؛
تسریع در تعامل با مشتریان؛
افزایش کارایی پردازش درخواست های مشتری؛
کاهش هزینه های خدمات؛
بهینه سازی پردازش درخواست های مشتری

بهترین کتاب ها در مورد داده های بزرگ

مناسب برای مطالعه اولیه فناوری های پردازش کلان داده - به راحتی و به وضوح شما را معرفی می کند. روشن می کند که چگونه فراوانی اطلاعات بر زندگی روزمره و همه حوزه های آن تأثیر گذاشته است: علم، تجارت، پزشکی و غیره. حاوی تصاویر متعددی است، بنابراین بدون تلاش زیاد درک می شود.

"مقدمه ای بر داده کاوی" نوشته پانگ نینگ تان، مایکل اشتاین باخ و ویپین کومار

همچنین برای مبتدیان کتابی در مورد داده های بزرگ است که کار با داده های بزرگ را طبق اصل "از ساده به پیچیده" توضیح می دهد. موارد بسیار مهم را برجسته می کند مرحله اولیهنکات: آماده سازی برای پردازش، تجسم، OLAP، و همچنین برخی از روش های تجزیه و تحلیل داده ها و طبقه بندی.

راهنمای عملی استفاده و کار با داده های بزرگ با استفاده از زبان برنامه نویسی پایتون. هم برای دانشجویان مهندسی و هم برای متخصصانی که می خواهند دانش خود را عمیق تر کنند مناسب است.

"Hadoop for Dummies"، دیرک دروس، پل اس. زیکوپولس، رومن بی. ملنیک

Hadoop پروژه ای است که به طور خاص برای کار با برنامه های توزیع شده ایجاد شده است که اجرای اقدامات را روی هزاران گره به طور همزمان سازماندهی می کند. آشنایی با آن به شما کمک می کند تا کاربرد عملی داده های بزرگ را با جزئیات بیشتری درک کنید.