کتاب علم داده
درباره علم داده:
علم داده با دهدف بهبود تصمیمگیری بر مبنای تصمیمات و بینشهایی که از مجموعه دادههای بزرگ استخراج می شوند، ایجاد شد. علم داده بهعنوان یک زمینه کاری، مجموعهای از اصول، تعاریف مسئله، الگوریتمها و فرآیندهای مربوط به استخراج الگوهای غیرقابل مشاهده و سودمند از مجموعه دادههای بزرگ را در خود جای داده است. علم داده با رشتههایی همچون دادهکاوی و یادگیری ماشین در ارتباط است اما حوزه کاربردی گسترده تری نسبت به آنها دارد. امروزه این علم، تقریباً همه بخشهای جوامع پیشرفته را تحت تاثیر خود قرار داده و در تصمیم گیری ها از آن استفاده می شود. علم داده با روشهای متعددی توانایی تاثیر روی زندگی روزمره انسان ها را دارد. این روشها عبارتند از: تعیین تبلیغات و آگهیهایی که به صورت آنلاین برای شما ارسال میشوند، نوع فیلمها، کتابها و روابط دوستانهای که به شما پیشنهاد میشوند، کدام ایمیلها در پوشه اسپم قرار میگیرند، پیشنهاداتی که هنگام تمدید خدمات تلفن همراه دریافت میکنید، هزینه بیمه درمانی، ترتیبدهی و زمانبندی چراغهای راهنمایی منطقه سکونت شما، نحوه طراحی داروهای مورد نیازتان و اینکه پلیس کدام موقعیتهای شهر را هدفگیری کرده است. رشد روزافزون استفاده از علم داده در جوامع کنونی ناشی از علل مختلفی همچون ظهور کلاندادهها و رسانههای اجتماعی، تسریع در انجام محاسبات، کاهش شدید در ارزش حافظه رایانه و توسعه روشهای کارآمدتر برای تجزیه و تحلیل و مدلسازی مانند یادگیری عمیق می باشد. این عوامل نشان می دهد که جمعآوری، ذخیرهسازی و پردازش دادهها هرگز برای سازمانها آسان نبوده و نخواهد بود.
کتاب حاضر کوشیده است با ارائه مقدمهای در مورد علم داده که عناصر ضروری این رشته را بهطور دقیق و کامل پوشش میدهد به خواننده در درک اصولی این رشته کمک کند.
درباره کتاب و فصل های آن:
فصل ۱ کتاب رشته علم داده را معرفی کرده و تاریخچه کوتاهی از نحوه ایجاد و تکامل آن ارائه میدهد. همچنین در این فصل بررسی میشود که چرا امروزه علم داده مهم است و عوامل متعددی را بررسی میکند که موجب انتخاب آن میشود. این فصل با بررسی و شفافسازی برخی از باورهای غلط و غیرعلمی به پایان میرسد. در فصل ۲ مفاهیم اساسی و پایهای مربوط به دادهها مشخص میشوند. همچنین، در این فصل مراحل متعارف یک پروژه علم داده توصیف میشوند که عبارتند از: فهم تجاری، درک و شناخت دادهها، تهیه و آمادهسازی دادهها، مدلسازی، ارزیابی و توسعه. در فصل ۳ بر زیرساختهای داده و چالشهای ناشی از کلانداده و ادغام دادههای موجود در منابع مختلف تمرکز شده است. یکی از جنبههای زیرساخت معمول داده که چالشبرانگیز بوده، این است که دادههای موجود در پایگاههای داده و انبارهای داده در سرورهایی ذخیره میشوند که از سرورهایی که برای تجزیه و تحلیل دادهها استفاده میشوند متفاوت هستند. بنابراین، هنگامی که روی مجموعههای کلانداده کار میشود زمان زیادی صرف میگردد تا دادههایی که در سرورهای پایگاه داده یا انبار داده وجود دارند به سرورهایی منتقل شوند که برای تجزیه و تحلیل دادهها و یادگیری ماشین استفاده میشوند. فصل ۳ با توصیف زیرساختهای معمول علم داده مربوط به سازمان و برخی راهحلهای جدید برای چالشانتقال مجموعههای کلانداده در زیرساخت داده آغاز میشود که عبارتند از: استفاده از یادگیری ماشین موجود در پایگاه داده، استفاده از Hadoop برای ذخیرهسازی و پردازش دادهها و توسعه سیستمهای پایگاه داده ترکیبی که بهطور یکنواخت از پایگاه داده متعارف و راهحلهای Hadoop-مانند استفاده میکنند. در پایان این فصل چالشهایی برجسته میشوند که در فرآیند ادغام دادههای سراسر سازمان در یک بازنمایی واحد وجود دارند که برای یادگیری ماشین مناسب است. فصل ۴ به معرفی رشته یادگیری ماشین میپردازد و برخی از محبوبترین الگوریتمها و مدلهای یادگیری ماشین از جمله شبکههای عصبی، یادگیری عمیق و مدلهای درخت تصمیم را توضیح میدهد. فصل ۵ بر ارتباط تخصص یادگیری ماشین با مسائل دنیای واقعی متمرکز است و طیفی از مسائل متعارف کسب و کار را بررسی کرده و نحوه حل این مسائل با استفاده از راهحلهای یادگیری ماشین را شرح میدهد. فصل ۶ به پیامدهای اخلاقی علم داده، تحولات اخیر در تنظیم دادهها و برخی از روشهای محاسباتی جدید برای حفظ حریم خصوصی افراد در فرآیند علم داده میپردازد. در نهایت فصل ۷ مباحثی را توصیف میکند که علم داده در آیندهای نزدیک تاثیر قابل توجهی بر آنها خواهد داشت و اصولی را تعیین میکند که در موفقیت پروژه علم داده مهم هستند.
نقد و بررسیها
هنوز بررسیای ثبت نشده است.