学文の博客🥝

发表于 2024-01-04 | 更新于 2024-01-04 | 深度学习 | 深度学习

Agent-Attention 论文地址: https://arxiv.org/pdf/2312.08874.pdf 代码地址: https://github.com/LeapLabTHU/Agent-Attention 公众号: 公众号-> 小橘人工智能实验室视频讲解: B站-> 小橘人工智能

9 卷积神经网络

发表于 2023-12-26 | 更新于 2023-12-26 | 深度学习 | 深度学习

以前的图像识别技术早期图片识别技术根据距离思想特征提取索引技术相关反馈显式反馈：通过正例负例来判断隐式反馈：通过用户行为习惯来判断重排序全局特征提取：全局特征丢失图片细节，例如整张图片都是红色，他就会搜索所有红色图片，不论图中显示的对象类别中期图片识别技术根据视觉词袋思想特征提取向量化局部特征转变为视觉关键字，查找视觉词典里最近的关键字，把局部特征向量转变为视觉字典的一个序号索引技术后处理局部特征提取：利用词袋库强调细节信息经典CNN 卷积神经网络具有卷积计算，前向反馈，局部感知，权值共享早期尝试 LeNet：5层，使用MNIST数据集，最早用于手写数字的CNN 历史突破 AlexNet 发展和演化网络层数加深：VGGNet 增强卷积模块功能：NIN，GoogleNet，Inception V3，V4 增加新的功能单元：Inception V2，BN 融合：ResNet AlexNet 网络：在两个GPU上运行，分成两组，8层卷积层1：卷积核大小11×11，数量48个，步长4 激 ...

7 多层感知机

发表于 2023-12-25 | 更新于 2023-12-25 | 深度学习 | 深度学习

感知机给定输入x，权重w，偏移b，感知机输出： $$ y=l(<w,b>+b)\quad\quad\quad l(x)=\begin{cases} 1, \quad x > 0\ -1, \quad other \end{cases} $$ 二分类：-1或1 回归输出实数 Softmax回归输出概率感知机时一个二分类的模型它不能拟合XOR函数，只能产生线性分割面，即一条线不能分开红绿球，随后产生多层感知机。激活函数 Sigmoid激活函数 $$ sigmoid (x)= \frac {1}{1+e^{-x}} $$ 投影到(0,1)区间，相当于二分法的改进，二分法在x=0处不可导，故选择平滑的Sigmoid激活函数 $$ \sigma = \begin{cases} 1\quad if \quad x>0 \ 0\quad otherwise \end{cases} $$ Tanh激活函数投影到(-1 , 1)上，选择$e^{-2x}$时将图像纵坐标方向拉长 $$ tanh(x) = \frac {1-e^{-2 ...

8 过拟合和欠拟合

发表于 2023-12-25 | 更新于 2023-12-25 | 深度学习 | 深度学习

过拟合和欠拟合数据简单数据复杂模型容量低正常欠拟合模型容量高过拟合正常

UNetFormer实验笔记

发表于 2023-12-25 | 更新于 2023-12-25 | 实验笔记 | 实验笔记

实验复现过程下载数据集自行百度搜索网盘下载；或官网下载 ISPRS Vaihingen and Potsdam UAVid LoveDA 注意：loveDA测试集没有标签支持的网络 Vision Transformer UNetFormer DC-Swin BANet CNN MANet ABCNet A2FPN 文件夹结构 123456789101112131415161718192021222324252627282930313233343536373839airs├── GeoSeg (code)├── pretrain_weights (预训练骨干的权重，如 vit、swin 等)├── model_weights (保存在 ISPRS vaihingen、LoveDA 等上训练的模型权重)├── fig_results (保存模型预测的掩码)├── lightning_logs (CSV 格式的训练日志)├── data│ ├── LoveDA│ │ ├── Train│ │ │ ├── Urban│ │ │ ...

遥感公开数据集

发表于 2023-12-25 | 更新于 2023-12-25 | 实验笔记 | 实验笔记

LoveDA（武汉大学，2021 年 10 月）原始数据集详情 Key Value 卫星类型未知覆盖区域南京、常州、武汉场景城市、农村分辨率 0.3m 数量 5987张单张尺寸 1024*1024 原始影像位深 24位标签图片位深 8位原始影像通道数三通道标签图片通道数单通道数据集下载地址百度网盘 : 27vc 标签类别序号类别名（英文）类别名（中文） 1 background 背景 2 building 建筑 3 road 道路 4 water 水体 5 barren 裸土 6 forest 林地 7 agriculture 耕地 0 no-data 无效值（使用时应被忽略）图像 Vaihingen Key Value 卫星类型未知覆盖区域德国的一个不知名的，相对较小的村庄，有许多独立的建筑和小的多层建筑场景城市分辨率 5cm 数量 38张单张尺寸 6000*6000 原始影像位深 8位 ...

Handle_UNet实验笔记

发表于 2023-11-29 | 更新于 2023-11-29 | 实验笔记 | 实验笔记

数据集准备运行rename.py重命名数据预处理运行labelme.exe打标签，将打完后的json和原始图片一起放到dataset/before。执行make_mask.py将数据放入dataset/segmentationclass/make_mask中。构建网络框架 net.py 训练 train.py 测试 test.py 测试 watch_result.py 可视化显示对比图片评估模型 headle-evaluat.py 输出miou，recall，precision 实际：1 实际：0 预测：1 TP FP 预测：0 FN TN P：标签为正样本。 N：标签为负样本。 T：预测对了。 F：预测错了 TP：True Positive。预测为1，实际为1，预测正确。 FP：False Positive。预测为1，实际为0，预测错误。 FN：False Negative。预测为0，实际为1，预测错误。 TN：True Negative。预测为0，实际为0，预测正确准确率（Accuracy）： ...

1 深度学习介绍

发表于 2023-11-18 | 更新于 2023-11-18 | 深度学习 | 深度学习

深度学习机器学习、深度学习和计算机视觉是互相关联的概念，它们在人工智能领域具有重要地位。首先，机器学习是一种人工智能领域的技术，它致力于设计和开发能够自动学习的算法和模型。通过从大量数据中学习和找出规律，机器学习使得计算机能够识别模式、预测结果和做出决策。深度学习是机器学习的一个分支，它模仿人脑神经网络的结构和工作原理，通过构建深层次的神经网络来提取高级抽象特征并进行学习。深度学习的关键是深度神经网络，这种网络结构能够通过多层非线性变换来学习和表示复杂的数据特征。计算机视觉是利用计算机和机器学习的方法来实现对图像和视频的理解和分析。计算机视觉旨在使计算机能够“看”和“理解”图像或视频内容。深度学习在计算机视觉领域具有广泛应用，通过深度神经网络进行图像识别、目标检测、图像分割等任务，大大提高了计算机视觉的准确度和效果。因此，机器学习是一个广泛的概念，深度学习是机器学习的一种方法，而计算机视觉则是应用了机器学习和深度学习技术的一个具体领域。它们相互关联，在人工智能的发展中扮演着重要的角色。深度学习应用领域图片分类物体检测和分割样式迁移人脸合成文字生成图片文字生成 ...

2 数学基础

发表于 2023-11-18 | 更新于 2023-11-18 | 深度学习 | 深度学习

自动求导梯度梯度是一个向量，表示函数在某一点的变化率最快的方向和大小。在梯度下降法中，梯度指的是目标函数在某一点的梯度向量。梯度下降法通过迭代的方式沿着梯度的反方向逐步更新参数，以最小化目标函数。梯度下降法的基本思想是，沿着梯度的反方向移动一小步，直到找到函数的最小值。对函数y=2x^T*x,关于列向量求导。 1234567891011121314151617181920212223242526272829303132333435363738394041424344454647484950515253545556575859606162636465import torch# 假设我们想对函数y=2x^T*x,关于列向量求导x = torch.arange(4.0) # 范围为4。0.0~3.0print(x)# 存储梯度x.requires_grad_(True) # 等价于‘x = torch.arange(4.0, requires_grad=True)’ 只有float类型的张量才能用此函数x.grad # 默认值为None，用于访问梯度，函数放置于此,x的梯 ...

3 线性回归

发表于 2023-11-18 | 更新于 2023-11-18 | 深度学习 | 深度学习

线性回归应用案例：美国买房房价预测：系统估价，买入价成交价是关键因素的加权和： $$ y=w_1x_1+w_2x_2+w_3x_3+b $$ w1,w2,w3是权重，b是偏差，权重和偏差的实际值在后面决定给定n维输入 $$ x=[x_1,x_2,…,x_n]^{T} $$ 线性模型有一个n维权重和一个标量偏差 $$ w=[w_1,w_2,…,w_n]^T,b $$ 输入是输出的加权和 $$ y=w_1x_1+w_2x_2+…+w_nx_n+b $$ 向量版本：$y=< w,x >+b$ 线性模型可以看作是单层神经网络比较真实值和预估值，例如房屋的售价和估价假设y是真实值，$/hat(y)$是估计值，我们可以比较 $$ \ell(y,\hat{y})=\frac{1}{2}(y-\hat{y})^2 $$ 这个叫做平方损失训练数据收集一些数据点来决定参数值（权重和偏差），这些数据被称为训练数据，通常越多越好假如我们有n个样本，记 $$ X=[x_1,x_2,…,x_n]^T \quad Y=[y_1,y_2,…,y_n]^T $$ 参数学习训 ...

4 基础优化算法

发表于 2023-11-18 | 更新于 2023-11-18 | 深度学习 | 深度学习

梯度下降梯度下降是求一个损失函数的最小值，在梯度下降最快的方向迭代，获得相关参数。举个例子：在$x_0$处，梯度为$\partial f(x^0)= \frac{\partial{f(x_0)}}{\partial{x_0}}$，$x_0$与$-\partial f(x^0)$相加，可以得到向左移动一段距离的新向量$x_1$，随后不断迭代，可以找到最低点，此时为最小值。 $$ x_1=x_0-n\frac{\partial{f(x)}}{\partial{x_0}} $$ n为步长，可以控制移动距离。挑选一个合适的初始值$w_0$ 重复迭代参数t=1,2,3,… $$ w_t=w_{t-1}-\eta \frac{\partial{\ell}}{\partial{\ell{w_{t-1}}}} $$ 沿梯度方向将增加损失函数值学习率：步长的超参数 $\eta$不能太大，也不能太小小批量随机梯度下降我们可以随机采样n个样本$i_1,i_2,…,i_b$来近似损失 $$ \frac{1}{b}\sum_{i\in I_b}\ell(x_i, ...

5 线性回归的从零开始实现

发表于 2023-11-18 | 更新于 2023-11-18 | 深度学习 | 深度学习

线性回归的从零开始实现我们将从零开始整个方法，包括数据流水线、模型、损失函数和小批量随机梯度下降优化器 1234567import randomimport torchfrom d2l import torch as d2l# 根据带有噪声的线性模型构造一个人造数据集。我们使用的模型参数有# 权重w=[2,-3.4]T 、偏差b=4.2 和噪声项c生成的数据集及其标签# y=wX+b+c X是随机数，是标准正态分布数据流水线，数据集权重：输入值的重要性，输入值和权重相乘送到下一层神经网络，权重的调节可以使用反向传播算法实现。偏差：输出的偏移量，它是不变的，通常为常数。噪声：是指随机的、不可预测的数据误差。 123456789101112131415161718192021222324# 制作含有噪声的数据集def synthetic_data(w, b, num_examples): """生成 y = wX + b + 噪声。""" X = torch.normal(0, 1, (num ...