مراکز علم داده و تحلیل کلان داده ها در کشور انگلستان :
🔵Imperial College London Data Science Institute
🔵Imperial Business Analytics
🔵Cambridge Big Data
🔵The University of Manchester Data Science Institute
🔵Lancaster University - Data Science Institute
🔵Warwick Data Science Institute
🔵University of Essex - Institute for Analytics and Data Science
🔵The Alan Turing Institute
🔵University College London Big Data Institute
🔵Oxford Big Data Institute
🔵Imperial College London Data Science Institute
🔵Imperial Business Analytics
🔵Cambridge Big Data
🔵The University of Manchester Data Science Institute
🔵Lancaster University - Data Science Institute
🔵Warwick Data Science Institute
🔵University of Essex - Institute for Analytics and Data Science
🔵The Alan Turing Institute
🔵University College London Big Data Institute
🔵Oxford Big Data Institute
3rd International Winter School on Big Data
Bari, Italy, February 13-17, 2017
Organized by
University of Bari "Aldo Moro"
Rovira i Virgili University
https://grammars.grlmc.com/BigDat2017/
Bari, Italy, February 13-17, 2017
Organized by
University of Bari "Aldo Moro"
Rovira i Virgili University
https://grammars.grlmc.com/BigDat2017/
💊کلان داده ها در صنعت بهداشت و درمان
@BigDataTechnology
🌐شبکه های اجتماعی سلامت:
🌏وب سایت
https://www.patientslikeme.com/
با ۵۰۰ گروه مختلف از بیماران
🌏وب سایت
https://acor.org/
با ۱۲۷ گروه پشتیبانی سرطان
🌏وب سایت
https://www.23andme.com/en-gb/
دیتابیس ژنتیکی
🌏وب سایت
https://sugarstats.com/
بیماران دیابتی
📎منبع: کتاب مدیریت کلان داده ها
تالیف دکتر بابک سهرابی
@BigDataTechnology
@BigDataTechnology
🌐شبکه های اجتماعی سلامت:
🌏وب سایت
https://www.patientslikeme.com/
با ۵۰۰ گروه مختلف از بیماران
🌏وب سایت
https://acor.org/
با ۱۲۷ گروه پشتیبانی سرطان
🌏وب سایت
https://www.23andme.com/en-gb/
دیتابیس ژنتیکی
🌏وب سایت
https://sugarstats.com/
بیماران دیابتی
📎منبع: کتاب مدیریت کلان داده ها
تالیف دکتر بابک سهرابی
@BigDataTechnology
Forwarded from DataScience.Media
معماری نرم افزار کد آزاد LinkedIn و پورتال داده کاوی WhereHows
https://www.zdnet.com/article/linkedin-open-sources-its-wherehows-data-mining-software/
@SQL_DataMining
https://www.zdnet.com/article/linkedin-open-sources-its-wherehows-data-mining-software/
@SQL_DataMining
SAS®
Data Loader for Hadoop
Manage big data on your own terms with self-service data integration and data quality.
https://www.sas.com/en_us/software/data-management/data-loader-hadoop.html#trial
Data Loader for Hadoop
Manage big data on your own terms with self-service data integration and data quality.
https://www.sas.com/en_us/software/data-management/data-loader-hadoop.html#trial
Sas
SAS Data Loader for Hadoop
Manage big data on your own terms with self-service data integration and data quality that requires no specialized training and no outsourcing.
Forwarded from Hadoop.ir
موردکاوی: پردازش تصویر در هدوپ
از اینجا بخوانید: https://hadoop.ir/?p=751
مرجع هدوپ ایران
www.hadoop.ir
@hadoop
از اینجا بخوانید: https://hadoop.ir/?p=751
مرجع هدوپ ایران
www.hadoop.ir
@hadoop
Forwarded from Data Science
با سلام
یکی از نیازمندی های ورود به حوزه های کاری علم داده، Big Data و... تسلط به یکی از زبان های برنامه نویسی جهت پیاده سازی پروژه های عملیاتی هست.
در انتخاب زبان بعضا دغدغه هایی مطرح گردیده است که در ادامه به اختصار برخی نکات کلیدی بیان می شود:
1- در حوزه Big Data زبان های پایتون، جاوا، اسکالا توصیه می شود. در صورتی که در حوزه Big Data Developer می خواهید فعالیت انجام بدهید زبان جاوا در پلتفرم هدوپ و زبان اسکالا در موتور پردازشی اسپارک بیشترین کارایی را خواهند داشت.
در بخش Big Data Analytics هم زبان پایتون با توجه به وجود کتابخانه های غنی در حوزه یادگیری ماشین بهترین انتخاب خواهد بود.
2- در حوزه داده کاوی و علم داده زبان های پایتون، R و جاوا دارای بیشترین میزان توجهات بوده اند. یادگیری زبان زبان جاوا به نسبت زبان های پایتون و R بسیار پیچیده تر خواهد بود ولی در پروژه های Enterprise زبان جاوا بیشترین کارایی را خواهد داشت. زبان R نیز در حال حاضر رتبه اول حوزه علم داده را در اختیار دارد.
برای یادگیری زبان های فوق همانند حوزه Big Data شرکت در دوره های آنلاین و کمی تلاش توصیه می شود.
ارادتمند
محمدرضا محتاط
یکی از نیازمندی های ورود به حوزه های کاری علم داده، Big Data و... تسلط به یکی از زبان های برنامه نویسی جهت پیاده سازی پروژه های عملیاتی هست.
در انتخاب زبان بعضا دغدغه هایی مطرح گردیده است که در ادامه به اختصار برخی نکات کلیدی بیان می شود:
1- در حوزه Big Data زبان های پایتون، جاوا، اسکالا توصیه می شود. در صورتی که در حوزه Big Data Developer می خواهید فعالیت انجام بدهید زبان جاوا در پلتفرم هدوپ و زبان اسکالا در موتور پردازشی اسپارک بیشترین کارایی را خواهند داشت.
در بخش Big Data Analytics هم زبان پایتون با توجه به وجود کتابخانه های غنی در حوزه یادگیری ماشین بهترین انتخاب خواهد بود.
2- در حوزه داده کاوی و علم داده زبان های پایتون، R و جاوا دارای بیشترین میزان توجهات بوده اند. یادگیری زبان زبان جاوا به نسبت زبان های پایتون و R بسیار پیچیده تر خواهد بود ولی در پروژه های Enterprise زبان جاوا بیشترین کارایی را خواهد داشت. زبان R نیز در حال حاضر رتبه اول حوزه علم داده را در اختیار دارد.
برای یادگیری زبان های فوق همانند حوزه Big Data شرکت در دوره های آنلاین و کمی تلاش توصیه می شود.
ارادتمند
محمدرضا محتاط
Forwarded from Data Science
مقایسه میان معماری های پردازشی Spark و Flink
آپاچی Flink نسل چهارم معماری های پردازشی Big Data می باشد
@dataanalysis
آپاچی Flink نسل چهارم معماری های پردازشی Big Data می باشد
@dataanalysis
کلان داده ها در علوم اجتماعی
علومی که رفتار انسانی را مطالعه میکنند یعنی علوم اجتماعی عمدتاً بررسیهایی برپایه نظرسنجیها و مطالعات آزمایشگاهی انجام میدهند. با این که این روشها ارزشمند هستند، نارساییهایی نیز دارند. برای مثال نظرسنجیها را در نظر بگیرید. آنها دسترسی محققان به دنیای ذهنی درونی انسانها را ممکن میکنند. مشکل استفاده از آنها این است که افراد همیشه تمایل ندارند راست بگویند و خود فریبی همیشه وجود دارد. همینطور دشواری شناخت دنیای درونیمان برای خودمان. شواهدی وجود دارد که نشان میدهد همه ما حداقل در مواقعی خودمان را فریب میدهیم. توضیح دقیقی هم برای این مورد تاکنون ارائه نشده است. بنابراین نظرسنجیها مشکل ذهنی بودن را همیشه دارند. همین طور نمیتوانند تفاوتهای ظریف و جزئی بین انسانها را توضیح دهند. در نتیجه نمیتوانند نتایج ایدهآلی بهدست محققان دهند.
ازطرف دیگر مشکل مطالعات آزمایشگاهی این است که در محیط خاص آزمایشگاه اجرا میشوند و نمیتوانند پیچیدگیهای دنیای واقعی را شبیهسازی کنند. بیشتر مطالعات فعلی علوم اجتماعی توصیفی از میانگینها (در نظرسنجیها) و رفتارهای کلیشهای (در مطالعات آزمایشگاهی) است. این روشهای سنتی از این نکته غافلند که پدیدههای اجتماعی از میلیاردها تراکنش بین افراد تشکیل شدهاند. مردم نه تنها پول و کالاها را مبادله میکنند، بلکه ایدهها، اطلاعات یا حتی شایعات را با هم به اشتراک میگذارند. الگوهای موجود در این تراکنشهای فردی است که پدیدههایی اجتماعی مثل بحرانهای مالی یا بهار عربی را بهوجود میآورد. ما نیاز داریم که این الگوها را با استفاده از روشهای جدید عمیق درک کنیم چون با روشهای کلاسیک مطالعه جامعه و میانگینگیری بهدست نمیآیند.
بهتازگی فناوریهای دیجیتالی جدید امکان استفاده از روشهای نوینی را برای مطالعه رفتار انسانی به محققان میدهند. انواع گوشیهای تلفن همراه و سنسورها قادرند حجم عظیمی از فعالیتهای انسانی را در خود ذخیره کنند. این که کجا میرویم، چه میخریم، با چه کسانی در ارتباط هستیم، برای چه مدتی با آنها در ارتباط هستیم تا زبان بدن و حالتهای احساسی که در طول روز تجربه میکنیم. این منابع جدید اطلاعاتی برای محققین علوم اجتماعی بسیار ارزشمندند و به نظرسنجیها یا مطالعات آزمایشگاهی ترجیح داده میشوند. چون به محققان این امکان را میدهند که انسان را در محیطهای طبیعی (جهان واقعی) مطالعه کنند. همینطور به محققان اجازه میدهند که آنچه را که انجام میدهیم مطالعه کنند نه آنچه را که میگوییم (که معمولاً متفاوت است). این روش بررسی رفتار انسانی در محیطهای طبیعی بر پایه فناوریهای دیجیتالی واقعیتکاوی نامیده میشود و علوم اجتماعی را متحول کرده است.
مطالعات جدید اهمیت تعاملات اجتماعی را در شکلدهی رفتار ما بیش از پیش نشان میدهد. رفتار ما انسانها تا حدی تحت تأثیر نزدیکانمان و گروههایی است که در آنها عضو هستیم. از رژیم غذایی و وزن بدن ما تا نظرات ما راجع به مسائل سیاسی. اهمیت دنیای اجتماعی پیرامون ما آن قدر زیاد است که بهتر است خودمان را گروه محور بنامیم نه فرد محور. تاکنون جوامع غربی دیدی خلاف جهت این ایده داشتهاند. به همین جهت مطالعات علوم اجتماعی نتوانستند این قسمت از هویت واقعی ما را خوب توصیف کنند و به نتایج مطلوب نرسیدهاند.
منبع:
کتاب مدیریت کلان داده ها در بخش های خصوصی و عمومی، تالیف دکتر بابک سهرابی و حمیده ایرج.
علومی که رفتار انسانی را مطالعه میکنند یعنی علوم اجتماعی عمدتاً بررسیهایی برپایه نظرسنجیها و مطالعات آزمایشگاهی انجام میدهند. با این که این روشها ارزشمند هستند، نارساییهایی نیز دارند. برای مثال نظرسنجیها را در نظر بگیرید. آنها دسترسی محققان به دنیای ذهنی درونی انسانها را ممکن میکنند. مشکل استفاده از آنها این است که افراد همیشه تمایل ندارند راست بگویند و خود فریبی همیشه وجود دارد. همینطور دشواری شناخت دنیای درونیمان برای خودمان. شواهدی وجود دارد که نشان میدهد همه ما حداقل در مواقعی خودمان را فریب میدهیم. توضیح دقیقی هم برای این مورد تاکنون ارائه نشده است. بنابراین نظرسنجیها مشکل ذهنی بودن را همیشه دارند. همین طور نمیتوانند تفاوتهای ظریف و جزئی بین انسانها را توضیح دهند. در نتیجه نمیتوانند نتایج ایدهآلی بهدست محققان دهند.
ازطرف دیگر مشکل مطالعات آزمایشگاهی این است که در محیط خاص آزمایشگاه اجرا میشوند و نمیتوانند پیچیدگیهای دنیای واقعی را شبیهسازی کنند. بیشتر مطالعات فعلی علوم اجتماعی توصیفی از میانگینها (در نظرسنجیها) و رفتارهای کلیشهای (در مطالعات آزمایشگاهی) است. این روشهای سنتی از این نکته غافلند که پدیدههای اجتماعی از میلیاردها تراکنش بین افراد تشکیل شدهاند. مردم نه تنها پول و کالاها را مبادله میکنند، بلکه ایدهها، اطلاعات یا حتی شایعات را با هم به اشتراک میگذارند. الگوهای موجود در این تراکنشهای فردی است که پدیدههایی اجتماعی مثل بحرانهای مالی یا بهار عربی را بهوجود میآورد. ما نیاز داریم که این الگوها را با استفاده از روشهای جدید عمیق درک کنیم چون با روشهای کلاسیک مطالعه جامعه و میانگینگیری بهدست نمیآیند.
بهتازگی فناوریهای دیجیتالی جدید امکان استفاده از روشهای نوینی را برای مطالعه رفتار انسانی به محققان میدهند. انواع گوشیهای تلفن همراه و سنسورها قادرند حجم عظیمی از فعالیتهای انسانی را در خود ذخیره کنند. این که کجا میرویم، چه میخریم، با چه کسانی در ارتباط هستیم، برای چه مدتی با آنها در ارتباط هستیم تا زبان بدن و حالتهای احساسی که در طول روز تجربه میکنیم. این منابع جدید اطلاعاتی برای محققین علوم اجتماعی بسیار ارزشمندند و به نظرسنجیها یا مطالعات آزمایشگاهی ترجیح داده میشوند. چون به محققان این امکان را میدهند که انسان را در محیطهای طبیعی (جهان واقعی) مطالعه کنند. همینطور به محققان اجازه میدهند که آنچه را که انجام میدهیم مطالعه کنند نه آنچه را که میگوییم (که معمولاً متفاوت است). این روش بررسی رفتار انسانی در محیطهای طبیعی بر پایه فناوریهای دیجیتالی واقعیتکاوی نامیده میشود و علوم اجتماعی را متحول کرده است.
مطالعات جدید اهمیت تعاملات اجتماعی را در شکلدهی رفتار ما بیش از پیش نشان میدهد. رفتار ما انسانها تا حدی تحت تأثیر نزدیکانمان و گروههایی است که در آنها عضو هستیم. از رژیم غذایی و وزن بدن ما تا نظرات ما راجع به مسائل سیاسی. اهمیت دنیای اجتماعی پیرامون ما آن قدر زیاد است که بهتر است خودمان را گروه محور بنامیم نه فرد محور. تاکنون جوامع غربی دیدی خلاف جهت این ایده داشتهاند. به همین جهت مطالعات علوم اجتماعی نتوانستند این قسمت از هویت واقعی ما را خوب توصیف کنند و به نتایج مطلوب نرسیدهاند.
منبع:
کتاب مدیریت کلان داده ها در بخش های خصوصی و عمومی، تالیف دکتر بابک سهرابی و حمیده ایرج.
Forwarded from مدیریت و مهندسی نظام سلامت
استفاده از Big Data می تواند هزینه تحقیقات دارویی را تا 70 میلیارد دلار کاهش دهد
استفاده گسترده از Big Data منجر به کاهش 300 تا 450 میلیارد دلاری هزینه ها در نظام سلامت می شود
@healthcaremanagement
استفاده گسترده از Big Data منجر به کاهش 300 تا 450 میلیارد دلاری هزینه ها در نظام سلامت می شود
@healthcaremanagement
This media is not supported in your browser
VIEW IN TELEGRAM
انرژی، Big Data و اینترنت اشیا
دیتاست متن ۳۰ هزار مقاله پزشکی
#dataset
#bigdata
مقدار زیادی مقاله پژوهشی در حوزهی زیست پزشکی هر روزه در سراسر جهان منتشر میشود که جمع آوری اطلاعات غنی، مانند تنوع ژنتیکی، ژنها، فنوتیپ، بیماری و درمان با استفاده از دادهکاوی میتواند سریعتر و موثرتر صورت گیرد. یکی از حوزههای دادهکاوی که در سالهای اخیر به سبب پیشرفتهای زیاد در فناوریهای سختافزاری و نرمافزاری رشد و توسعه پیدا کرده، متنکاوی است. در حوزهی زیست پزشکی، با استفاده از متن کاوی در مقالات میتوان به درک بهتری نسبت به بیماریها دست یافت که این موضوع سبب بهبود کیفیت در تشخیص بیماریها، پیشگیری و درمان آنها میشود. با توجه به درخواست کاربران مبنی قرار دادن مجموعه دادهای در حوزهی Big Data، این مجموعه داده عظیم برای علاقهمندان این حوزه تدارک دیده شده که امیدواریم موردتوجه واقع گردد.
این مجموعه داده شامل متن کامل مقالات مرتبط با بیماریهای سرطان سینه، پروستات و ریه است که از پاپ مد سنترال (Pubmed Central) استخراج شده است.
نمونههایی از قابلیتهای استفادهی دیتاست:
طبقهبندی متون بر اساس محتوا
ارزیابی دقت پیشبینی سرطانهای مطرح شده با استفاده از محتوای متون
https://www.datapool.ir/beta/2016/09/05/articles/
#dataset
#bigdata
مقدار زیادی مقاله پژوهشی در حوزهی زیست پزشکی هر روزه در سراسر جهان منتشر میشود که جمع آوری اطلاعات غنی، مانند تنوع ژنتیکی، ژنها، فنوتیپ، بیماری و درمان با استفاده از دادهکاوی میتواند سریعتر و موثرتر صورت گیرد. یکی از حوزههای دادهکاوی که در سالهای اخیر به سبب پیشرفتهای زیاد در فناوریهای سختافزاری و نرمافزاری رشد و توسعه پیدا کرده، متنکاوی است. در حوزهی زیست پزشکی، با استفاده از متن کاوی در مقالات میتوان به درک بهتری نسبت به بیماریها دست یافت که این موضوع سبب بهبود کیفیت در تشخیص بیماریها، پیشگیری و درمان آنها میشود. با توجه به درخواست کاربران مبنی قرار دادن مجموعه دادهای در حوزهی Big Data، این مجموعه داده عظیم برای علاقهمندان این حوزه تدارک دیده شده که امیدواریم موردتوجه واقع گردد.
این مجموعه داده شامل متن کامل مقالات مرتبط با بیماریهای سرطان سینه، پروستات و ریه است که از پاپ مد سنترال (Pubmed Central) استخراج شده است.
نمونههایی از قابلیتهای استفادهی دیتاست:
طبقهبندی متون بر اساس محتوا
ارزیابی دقت پیشبینی سرطانهای مطرح شده با استفاده از محتوای متون
https://www.datapool.ir/beta/2016/09/05/articles/
دیتاست احساسات کاوی
#dataset
افکار و عقاید بیان شده در شبکههای اجتماعی نقش مهمی در تاثیرگذاری بر رفتار افکار عمومی در زمینههای متنوعی چون خرید محصول، گرفتن نبض بازارهای سهام و گرفتن رأی برای ریاست جمهوری ایفا می کنند. عقاید و افکار تولید شده به وسیلهی وب در وبلاگها و شبکههای اجتماعی به تازگی به منبع ارزشمندی برای کاوش احساسات کاربر برای مقاصدی چون مدیریت ارتباط با مشتری، پیگیری افکارعمومی و فیلترینگ متن تبدیل شده است. این اساسا یک برنامهی نرم افزاری پردازش طبیعی زبان (NLP) است که از زبان شناسی محاسباتی و متن کاوی برای شناسایی احساس متن ، معمولا مثبت، خنثی یا منفی بهره می برد. از این رو، SA را میتوان به عنوان تکنیک کشف خودکار دانش در نظر گرفت که هدفش یافتن الگوهای پنهان در تعداد زیادی از نظرات، وبلاگ ها یا توئیت ها است. به همین منظور دیتاستی در این رابطه برای عزیزان تدارک دیده شده است که امیدواریم مورد توجه واقع گردد.
این دیتاست شامل پستهای مرتبط با اعتصاب معلمان و بسته شدن مدارس شیکاگو در تمامی رسانههای اجتماعی نظیر: وبلاگ، فیسبوک، توییتر،فروم و کامنت ها است که از ۸ تا ۱۲ دسامبر سال ۲۰۱۲ ( دو روز قبل و دو روز بعد از حادثه) جمعآوری شده است.
نمونههایی از قابلیتهای استفادهی این دیتاست:
تحلیل افکار عمومی در فضای مجازی درباره اعتصاب رخ داده در شیکاگو
متن کاوی، عقیده کاوی، نظرکاوی
https://www.datapool.ir/beta/2016/06/26/sentiment/
#dataset
افکار و عقاید بیان شده در شبکههای اجتماعی نقش مهمی در تاثیرگذاری بر رفتار افکار عمومی در زمینههای متنوعی چون خرید محصول، گرفتن نبض بازارهای سهام و گرفتن رأی برای ریاست جمهوری ایفا می کنند. عقاید و افکار تولید شده به وسیلهی وب در وبلاگها و شبکههای اجتماعی به تازگی به منبع ارزشمندی برای کاوش احساسات کاربر برای مقاصدی چون مدیریت ارتباط با مشتری، پیگیری افکارعمومی و فیلترینگ متن تبدیل شده است. این اساسا یک برنامهی نرم افزاری پردازش طبیعی زبان (NLP) است که از زبان شناسی محاسباتی و متن کاوی برای شناسایی احساس متن ، معمولا مثبت، خنثی یا منفی بهره می برد. از این رو، SA را میتوان به عنوان تکنیک کشف خودکار دانش در نظر گرفت که هدفش یافتن الگوهای پنهان در تعداد زیادی از نظرات، وبلاگ ها یا توئیت ها است. به همین منظور دیتاستی در این رابطه برای عزیزان تدارک دیده شده است که امیدواریم مورد توجه واقع گردد.
این دیتاست شامل پستهای مرتبط با اعتصاب معلمان و بسته شدن مدارس شیکاگو در تمامی رسانههای اجتماعی نظیر: وبلاگ، فیسبوک، توییتر،فروم و کامنت ها است که از ۸ تا ۱۲ دسامبر سال ۲۰۱۲ ( دو روز قبل و دو روز بعد از حادثه) جمعآوری شده است.
نمونههایی از قابلیتهای استفادهی این دیتاست:
تحلیل افکار عمومی در فضای مجازی درباره اعتصاب رخ داده در شیکاگو
متن کاوی، عقیده کاوی، نظرکاوی
https://www.datapool.ir/beta/2016/06/26/sentiment/
کاربرد کلان داده ها در صنعت تولید
#BigData
🔵مدیریت دوره عمر محصول
🔵طراحی ارزشمندترین کالا
🔵نوآوری آزاد
🔵پیش تقاضا و برنامه ریزی تولید
🔵کارخانه دیجیتال
🔵هدایت فعالیت ها با سنسور
🔵خدمات پس از فروش از طریق سنسورها
در ادامه هر یک شرح داده می شود...
منبع:
کتاب مدیریت کلان داده ها در بخش های خصوصی و عمومی ،تالیف دکتر بابک سهرابی و حمیده ایرج
#BigData
🔵مدیریت دوره عمر محصول
🔵طراحی ارزشمندترین کالا
🔵نوآوری آزاد
🔵پیش تقاضا و برنامه ریزی تولید
🔵کارخانه دیجیتال
🔵هدایت فعالیت ها با سنسور
🔵خدمات پس از فروش از طریق سنسورها
در ادامه هر یک شرح داده می شود...
منبع:
کتاب مدیریت کلان داده ها در بخش های خصوصی و عمومی ،تالیف دکتر بابک سهرابی و حمیده ایرج