
به گزارش پایگاه خبری ارز دیجیتال موبو ارز،
پنج منبع قابل اعتماد را برای دسترسی رایگان به مجموعه داده های متنوع و با کیفیت بالا کشف کنید تا پروژه مبتنی بر داده بعدی خود را تقویت کنید.
یافتن مجموعه داده های قابل اعتماد و با کیفیت در هنگام کار بر روی پروژه های داده محور ضروری است. خوشبختانه، چندین منبع رایگان وجود دارد که دسترسی به طیف گسترده ای از مجموعه داده ها را در دامنه های مختلف فراهم می کند.
با این حال، از کیفیت داده، اسناد و محدودیتهای مجوز مرتبط با هر مجموعه داده آگاه باشید. این مقاله پنج منبع مجموعه داده رایگان را شرح می دهد که می توانید برای پروژه بعدی خود از آنها استفاده کنید.
کاگل
Kaggle یک پلت فرم محبوب برای دانشمندان داده و علاقه مندان به یادگیری ماشین است. ما علاوه بر میزبانی مسابقات یادگیری ماشینی، مجموعه گسترده ای از مجموعه داده های دسترسی آزاد را ارائه می دهیم. پایگاه های داده طیف گسترده ای از موضوعات مانند علوم اجتماعی، پزشکی و مالی را پوشش می دهند. متدولوژی جامعه محور که Kaggle استفاده می کند تضمین می کند که مجموعه داده به طور منظم به روز شده و نگهداری می شود.
هودی های جدید Kaggle به موقع! @kaggle (بزرگ) ما یک مسابقه مدل های زبان بزرگ بسیار جالب را راه اندازی کرده ایم که هدف آن پاسخگویی به MCQهای علمی با استفاده از (Large) LM است.
استراحت Kaggle اینجا به پایان می رسد
یک مشکل بزرگ برای تسهیل یادگیری برای همه. pic.twitter.com/eMKeOnUBZ8
— سانیام بوتانی (@bhutanisanyam1) 16 جولای 2023
مخزن یادگیری ماشین UCI
مخزن یادگیری ماشین UCI در دانشگاه کالیفرنیا، ایروین مجموعه ای جامع از مجموعه داده های رایج در جامعه یادگیری ماشینی است. این مجموعه داده ها را برای انواع مختلف وظایف مانند طبقه بندی، رگرسیون و خوشه بندی فراهم می کند. هر مجموعه داده در مخزن شامل توضیحات کامل، لیستی از ویژگی ها و مراحل پیش پردازش داده ها است.
مربوط: 9 ایده پروژه علم داده برای مبتدیان
جستجوی مجموعه داده های گوگل
یک موتور جستجو به نام Google Dataset Search در کمک به کاربران برای کشف مجموعه دادههای قابل دسترس عموم تخصص دارد. مجموعه دادههای عظیم را از منابع مختلف، از جمله وبسایتهای دولتی، نهادهای دانشگاهی و مخازن دادهها فهرستبندی کنید. جستجوهای کلیدواژه، نوع فایل و فیلترهای مجوز، ابرداده مرتبط، و پیوندهای دانلود همگی هنگام جستجوی مجموعه داده در دسترس هستند.
این تیم در حال توسعه یک سیستم تشخیص سرطان با استفاده از تنسورفلو بود. # مگا هک هکاتون در مورد مجموعه دادهها گیج شدهام، استفاده از جستجوی مجموعه داده Google را پیشنهاد میکنیم. #TensorFlow@جف دین @alimustufa @ericsk @ksoonson @DynamicWebPaige pic.twitter.com/EKmeQshcc2
– شوبهم (@ishubhamsah) 29 ژانویه 2020
Data.gov
Data.gov پورتال رسمی اطلاعات باز دولت ایالات متحده است. این امکان دسترسی به پایگاه داده عظیمی از مجموعه داده های آژانس فدرال در موضوعات مختلف از جمله بهداشت، محیط زیست، آموزش و حمل و نقل را فراهم می کند. مجموعه داده هایی که توسط Data.gov در دسترس قرار می گیرد اغلب برای تجزیه و تحلیل، تحقیق و ایجاد برنامه های کاربردی داده محور استفاده می شود. این پلتفرم استفاده از داده های عمومی را به نفع خود ترویج می کند و از شفافیت حمایت می کند.
مربوط: 15 اصطلاح مهم داده که باید بدانید
OpenML
OpenML پلتفرمی است که همکاری را تقویت می کند و مجموعه داده های متنوع و چالش های یادگیری ماشینی را ارائه می دهد. کاربران میتوانند آزمایشهای یادگیری ماشین را مقایسه و تکرار کنند، و همچنین مجموعههای داده را کاوش، دانلود و اهدا کنند. OpenML به اشتراک گذاری مجموعه داده ها، کدها و نتایج را تسهیل می کند و در عین حال بر اهمیت تکرارپذیری در تحقیقات یادگیری ماشین تأکید می کند.
نویسنده: Alice Ivey