常见数据集下载(考研中…)

常见数据集下载(考研中…)

1.turnstile_data_master_with_weather.csv

关于turnstile_data_master_with_weather.csv的一份数据集,关于地铁的数据集,本数据集仅供学习参考使用。

2.https://www.yuanpy.top/user_orders_hourofday/

user_orders_hourofday.csv数据集,用户购物数据的应用。

3.一些常见数据集下载

数据集名称下载地址数据集介绍
天池二手车价格预测链接:https://pan.baidu.com/s/1n3qRxNhmmUMugkYiFSTKQQ 提取码:66ri
用户对品类下店铺的购买预测链接:https://pan.baidu.com/s/1i0rueEFNFRPWOJU84qFa-g 提取码:f5s52019JDATA用户对品类下店铺的购买预测
鸢尾花数据集链接:https://pan.baidu.com/s/1ifmOH-yv_OKrMVqZnkpUWA 提取码:hdxn
波士顿房价数据集链接:https://pan.baidu.com/s/137GqU1s4ba03Rl-BLboXMg 提取码:mp16
泰坦尼克生存数据集链接:https://pan.baidu.com/s/1F5eNI5c9YpJ7mkdq8r5v_w 提取码:bf3u
Amazon Employee Access 数据链接:https://pan.baidu.com/s/1I3P3bx3ZFxN-MI7ZnYqD_A 提取码:12a6利用Amazon的员工编号相关信息,来分析和预测当员工申请访问某个编号的资源时,是否被允许访问。
credit_card数据集链接:https://pan.baidu.com/s/1SjJJkXwaytQzgMNIgFnWbg 提取码:u20n银行卡信用问题,根据已有的30个的特征及class进行分类,判断为正常或异常情况
电影评论情感分析链接:https://pan.baidu.com/s/1N0EQaF2LXI8KOs4uLZNxeQ 提取码:29kq
研究生录取数据集链接:https://pan.baidu.com/s/1dGSC2ARrNB0HELx4z6iGNw 提取码:r8zy在申请的研究生的时候,什么样的学生更容易被录
汽车数据集https://www.yuanpy.top/cars93/关于汽车的数据集

部分数据转载于博客园https://www.cnblogs.com/duoba/p/12404774.html。

Comments ( 6 )

  1. Reply楠木
    🌚🌚🐂🍺
  2. Reply武艺
    深度学习在小数据集的表现 深度学习在小数据集情况下获得好效果,可以从两个角度去解决: 1、降低偏差,图像平移等操作 2、降低方差,dropout、随机梯度下降
  3. Reply执着追求着
    🌝🌝对于识别模型优化: 可以利用迁移学习进行模型优化。比如你有个微型的“猫片”数据集,可以去全球最大同性交友网站——github上查找下载别人已经利用大数据集训练好的用于识别狗的网络,来fine-tuning,进行迁移学习。在同类型任务,小样本数据的情况下,利用迁移学习的方法往往能够在较少的训练样本数据集上获得较高的识别分类效果。利用训练好的模型,能够将其学到的特征空间层次结构和底层特征作为通用基础,使得模型具有初始的判断能力,在此基础上可以进一步做集中突破训练来学会判断特殊的物体,这时候需要的样本量就不需要那么多了,比重新从头训练效果要好的多。在实际操作中,我们需要保留网络除了分类器部分的前置层(卷积层)及其权重不变,只训练我们新的分类器,提高了训练效率和识别精度。
  4. Reply执着追求着
    这个问题很直观的可以想到通过两种方法来进行处理:【1】图像样本数据的增强 和【2】识别模型的优化。 对于图像样本数据的增强: 顾名思义,就是通过现有图像生成更多的样本数据。样本增强可以采用生成式模型与图像预处理相结合的方法,首先可以使用全连接生成式模型进行样本增强。如果觉得全连接神经网络中的参数过多,产生过拟合等等问题,可以将其中的部分全连接网络用卷积神经网络进行代替。此外建议使用条件生成网络模型,这样生成的模型带有label,可以在之后的有监督的分类学习中得到很好的效果。如果生成的样本出现模糊问题,可以采用小波变换和图像边缘检测进行处理;如果存在噪声,可以利用空间域滤波、变换域滤波、偏微分方程、变分法、形态学噪声滤除器等进行处理。 当然还可以利用随机变换进行图像处理,产生新图像的随机变换方法大致包括: 随机旋转一些角度 水平横移一定距离 竖直横移一定距离 随机缩放一定范围 进行水平翻转 进行竖直翻转 等等
  5. Reply执着追求着
    我也觉得是第一个,可是王道视频里是是第二个
  6. ReplyL
    二分类大致上用transfer learning+data augmentation, 后者为了增大数据集,前者给你的MODEL一个很好的开始

Leave a reply

Your email address will not be published.

You may use these HTML tags and attributes:

<a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>