اخبار ارز دیجیتال

۵ منبع داده رایگان برای پروژه های علم داده شما


به گزارش پایگاه خبری ارز دیجیتال موبو ارز،

پنج منبع قابل اعتماد را برای دسترسی رایگان به مجموعه داده های متنوع و با کیفیت بالا کشف کنید تا پروژه مبتنی بر داده بعدی خود را تقویت کنید.

یافتن مجموعه داده های قابل اعتماد و با کیفیت در هنگام کار بر روی پروژه های داده محور ضروری است. خوشبختانه، چندین منبع رایگان وجود دارد که دسترسی به طیف گسترده ای از مجموعه داده ها را در دامنه های مختلف فراهم می کند.

با این حال، از کیفیت داده، اسناد و محدودیت‌های مجوز مرتبط با هر مجموعه داده آگاه باشید. این مقاله پنج منبع مجموعه داده رایگان را شرح می دهد که می توانید برای پروژه بعدی خود از آنها استفاده کنید.

کاگل

Kaggle یک پلت فرم محبوب برای دانشمندان داده و علاقه مندان به یادگیری ماشین است. ما علاوه بر میزبانی مسابقات یادگیری ماشینی، مجموعه گسترده ای از مجموعه داده های دسترسی آزاد را ارائه می دهیم. پایگاه های داده طیف گسترده ای از موضوعات مانند علوم اجتماعی، پزشکی و مالی را پوشش می دهند. متدولوژی جامعه محور که Kaggle استفاده می کند تضمین می کند که مجموعه داده به طور منظم به روز شده و نگهداری می شود.

مخزن یادگیری ماشین UCI

مخزن یادگیری ماشین UCI در دانشگاه کالیفرنیا، ایروین مجموعه ای جامع از مجموعه داده های رایج در جامعه یادگیری ماشینی است. این مجموعه داده ها را برای انواع مختلف وظایف مانند طبقه بندی، رگرسیون و خوشه بندی فراهم می کند. هر مجموعه داده در مخزن شامل توضیحات کامل، لیستی از ویژگی ها و مراحل پیش پردازش داده ها است.

مربوط: ۹ ایده پروژه علم داده برای مبتدیان

جستجوی مجموعه داده های گوگل

یک موتور جستجو به نام Google Dataset Search در کمک به کاربران برای کشف مجموعه داده‌های قابل دسترس عموم تخصص دارد. مجموعه داده‌های عظیم را از منابع مختلف، از جمله وب‌سایت‌های دولتی، نهادهای دانشگاهی و مخازن داده‌ها فهرست‌بندی کنید. جستجوهای کلیدواژه، نوع فایل و فیلترهای مجوز، ابرداده مرتبط، و پیوندهای دانلود همگی هنگام جستجوی مجموعه داده در دسترس هستند.

Data.gov

Data.gov پورتال رسمی اطلاعات باز دولت ایالات متحده است. این امکان دسترسی به پایگاه داده عظیمی از مجموعه داده های آژانس فدرال در موضوعات مختلف از جمله بهداشت، محیط زیست، آموزش و حمل و نقل را فراهم می کند. مجموعه داده هایی که توسط Data.gov در دسترس قرار می گیرد اغلب برای تجزیه و تحلیل، تحقیق و ایجاد برنامه های کاربردی داده محور استفاده می شود. این پلتفرم استفاده از داده های عمومی را به نفع خود ترویج می کند و از شفافیت حمایت می کند.

مربوط: ۱۵ اصطلاح مهم داده که باید بدانید

OpenML

OpenML پلتفرمی است که همکاری را تقویت می کند و مجموعه داده های متنوع و چالش های یادگیری ماشینی را ارائه می دهد. کاربران می‌توانند آزمایش‌های یادگیری ماشین را مقایسه و تکرار کنند، و همچنین مجموعه‌های داده را کاوش، دانلود و اهدا کنند. OpenML به اشتراک گذاری مجموعه داده ها، کدها و نتایج را تسهیل می کند و در عین حال بر اهمیت تکرارپذیری در تحقیقات یادگیری ماشین تأکید می کند.



نویسنده: Alice Ivey

به این مطلب چه امتیازی می‌دهید؟

میانگین امتیارها ۰ / ۵. مجموع آرا: ۰

دیدگاهتان را بنویسید

دکمه بازگشت به بالا