0%

conda 环境下更新 pip 失败,出现以下问题:
1. Script file ‘D:\Anaconda\Anaconda3\Scripts\pip-script.py’ is not present.

在使用网上的正常方法如:easy_install pip 等方法后依旧出现以下问题:

1. The easy_install command is deprecated and will be removed in a future version.
2. D:\Anaconda\Anaconda3\python.exe: No module named pip.main; ‘pip’ is a package and cannot be directly executed

在 conda 环境下输入以下命令即可解决:

1. curl https://bootstrap.pypa.io/get-pip.py -o get-pip.py
2. python get-pip.py —force-reinstall

阅读全文 »

前言

  我们知道,现在会很多框架中都有集成数据集的库,我们可以通过几行简单的代码进行下载,如我们前几篇博客中的 MNIST 手写数字集和 Fashion MNIST数据集均可以通过PyTorch中的torchvision库下载。但库中收集到的数据集始终有限,我们则需要利用爬虫等技术进行收集新数据集,如果要用于模型训练,则需要我们自定义数据集。

1 猫狗数据集

  猫狗数据集可以从kaggle官网下载,该数据集包含test1文件夹和train文件夹,train文件夹中包含12500张猫的图片和12500张狗的图片,图片的文件名中带序号:
在这里插入图片描述

2 自定义数据加载

阅读全文 »

前言

  Python有了NumPy的Pandas,用Python处理数据就像使用Exel或SQL一样简单方便。Pandas是基于NumPy的Python 库,它被广泛用于快速分析数据,以及数据清洗和准备等工作。可以把 Pandas 看作是 Python版的Excel或Table。Pandas 有两种数据结构:Series和DataFrame,Pandas经过几个版本的更新,目前已经成为数据清洗、处理和分析的不二选择。

1 Pandas数据结构

  Pandas主要采用Series和DataFrame两种数据结构。Series是一种类似一维数据的数据结构,由数据(values)及索引(indexs)组成,而DataFrame是一个表格型的数据结构,它有一组序列,每列的数据可以为不同类型(NumPy数据组中数据要求为相同类型),它既有行索引,也有列索引。

1
2
3
4
5
6
7
8
9
10
# 导入相关模块
import numpy as np
import pandas as pd

a = np.array([1, 2, 3, 4])
b = np.array([5, 6, 7, 8])
c = np.array(['a', 'b', 'c', 'd'])
# 转成 DataFrame 结构
df = pd.DataFrame({'a' : a, 'b' : b, 'c' : c, 'c' : c})
df
阅读全文 »

1 Numpy概述

1.1 概念

  Python本身含有列表和数组,但对于大数据来说,这些结构是有很多不足的。由于列表的元素可以是任何对象,因此列表中所保存的是对象的指针。对于数值运算来说这种 结构比较浪费内存和CPU资源。至于数组对象,它可以直接保存 数值,和C语言的一维数组比较类似。但是由于它不支持多维,在上面的函数也不多,因此也不适合做数值运算。Numpy提供了两种基本的对象:ndarray(N-dimensional Array Object)和 ufunc(Universal Function Object)。ndarray是存储单一数据类型的多维数组,而ufunc则是能够对数组进行处理的函数。

1.2 功能

  • 创建n维数组(矩阵)
  • 对数组进行函数运算,使用函数计算十分快速,节省了大量的时间,且不需要编写循环,十分方便
  • 数值积分、线性代数运算、傅里叶变换
  • ndarray快速节省空间的多维数组,提供数组化的算术运算和高级的 广播功能。
阅读全文 »

问题描述

如下图所示为某种用于试剂检验的产品,需要利用机器视觉的方法检测产品的缺陷。 本设计的目的是综合运用图像处理的知识,检测产品是否有严重缺陷。 在检测算法之前, 作为图像的预处理, 检测和定位产品的外轮廓,矫正产品的姿态,对于后续的算法处理有着重要的意义。
在这里插入图片描述
数据为真实的工业产品成像,分为放在OK,NG目录下。数据提取地址链接 提取码:s3jl,OK目录下的图像没有缺陷,NG目录是有缺陷的产品,包括如下两种缺陷:
在这里插入图片描述

解决方法

1 介绍

  随着机器学习的发展,对于工业产品的缺陷检测,深度网络模型检测缺陷的准确率远远高于传统图像处理算法。但是由于成本过高和深度学习的不可解释性,使用传统图像处理方法检测产品缺陷检测在工业上仍占着很大一部分比例。本次课程设计主要是针对磁盘的两种缺陷:胶带和大气泡进行检测。

阅读全文 »

前言

   最近写了一个python的图片分类任务的作业,本篇博客是将我所做的流程所进行的整理。数据链接:百度网盘 提取码:rkhw,HoG特征理论知识可参考这里,PCA降维可参考这里

1 介绍

   特征提取是图像处理中的一大领域,著名的提取算法有HoG(Histogram of Oriented Gradient)[1]、LBP(Local Binary Pattern)[2]和Haar-like[3]等等。近些年来,随着GPU算力的急速发展,深度学习也得到了迅速发展,使得图像特征提取的效率大大提升,各种分类任务的正确率不断的刷新提升。而深度学习存在着较差的可解释性和海量数据需求的问题,这是对机器视觉任务来说是伪命题,与之相反的是,传统特征提取方法可视性非常强,且现有的卷积神经网络可能与这些特征提取方法有一定类似性,因为每个滤波权重实际上是一个线性的识别模式,与这些特征提取过程的边界与梯度检测类似。因此对我们的学习来说,传统特征提取方法的学习是不可少的,本次实验是基于HoG 的图像特征提取及其分类研究。
  HOG特征是一种在计算机视觉和图像处理中用来进行物体检测的特征描述子。它通过计算和统计图像局部区域的梯度方向直方图来构成特征。最早出现在2005年CVPR上,法国的研究人员Navneet Dalal 和Bill Triggs利用HOG特征+SVM进行行人检测,在当时得到了较好的检测效果。主要流程如下:
在这里插入图片描述
  本次的实验也是基于上述流程进行一步一步实现,最终实现分类。

2 方法

阅读全文 »

一、数据集

数据集介绍

Adult数据集是一个经典的数据挖掘项目的的数据集,该数据从美国1994年人口普查数据库中抽取而来,因此也称作“人口普查收入”数据集,共包含48842条记录,年收入大于 50k 的占比23.93%年收入小于 50k 的占比76.07%,数据集已经划分为训练数据32561条和测试数据16281条。该数据集类变量为年收入是否超过 50k ,属性变量包括年龄、工种、学历、职业等14类重要信息,其中有8类属于类别离散型变量,另外6类属于数值连续型变量。该数据集是一个分类数据集,用来预测年收入是否超过50k。下载地址点这里
在这里插入图片描述
在这里插入图片描述

数据集预处理及分析

因为是csv数据,所以主要采用pandas和numpy库来进行预处理,首先数据读取以及查看是否有缺失:

阅读全文 »

tushare是一个开源的金融数据源,目前维护的数据非常丰富,质量也很高,对于一般的分析已经足够,可以省去自己到处去爬数据。我这里下载沪深300指数数据进行预测每日的最高价

首先使用pip install tushare安装tushare工具包 ,github地址为:
https://github.com/aishangcengloua/MLData/blob/master/PyTorch/NLP/Forecast_stock/LSTM.ipynb

1
2
3
4
5
6
import tushare as ts
cons = ts.get_apis()#建立连接
df = ts.bar('000300', conn = cons, asset = 'INDEX', start_date = '2010-01-01', end_date = '')
df.info()#查看没有缺失值之后保存
df.columns#可知沪深300指数(000300)的信息包括交易日期,开盘价,收盘价,最高价,最低价,交易量,成交金额,涨跌幅。
# df.to_csv('sh300.csv')

在这里插入图片描述

导入所需的包

阅读全文 »

一、什么是Tensorboard

Tensorboard原本是Google TensorFlow的可视化工具,可以用于记录训练数据、评估数据、网络结构、图像等,并且可以在web上展示,对于观察神经网络的过程非常有帮助。PyTorch也推出了自己的可视化工具,一个是tensorboardX包,一个是torch.utils.tensorboard,二者的使用相差不大,这里介绍后者

二、配置Tensorboard

环境要求

  • 操作系统:Windows
  • Python3
  • PyTorch >= 1.0.0 && torchvision >= 0.2.1 && tensorboard >= 1.12.0 1
阅读全文 »

昨天在使用 tensorboard 时, 输入命令之后,一直出现下面的错误

tensorboard: error: invalid choice: ‘Recognizer\\logs’ (choose from ‘serve’, ‘dev’)

开始还以为是代码问题,但发现不是,又去找官网和别人的经过,但是最多找到的是路径是否正确的问题,但是我确定我不是。然后突然发现路径中有空格,就怀疑可能是空格的问题,经手一改,然后就可以了(学艺不精)

注意检查 tensorboard —logdir=”路径”(注意要是双引号) 中的路径是否空格以及logs所在路径是否填写正确。