学文の博客🥝
文献
Agent-Attention 论文地址: https://arxiv.org/pdf/2312.08874.pdf 代码地址: https://github.com/LeapLabTHU/Agent-Attention 公众号: 公众号-> 小橘人工智能实验室 视频讲解: B站-> 小橘人工智能
9 卷积神经网络
以前的图像识别技术 早期图片识别技术 根据距离思想 特征提取 索引技术 相关反馈 显式反馈:通过正例负例来判断 隐式反馈:通过用户行为习惯来判断 重排序 全局特征提取:全局特征丢失图片细节,例如整张图片都是红色,他就会搜索所有红色图片,不论图中显示的对象类别 中期图片识别技术 根据视觉词袋思想 特征提取 向量化 局部特征转变为视觉关键字,查找视觉词典里最近的关键字,把局部特征向量转变为视觉字典的一个序号 索引技术 后处理 局部特征提取:利用词袋库强调细节信息 经典CNN 卷积神经网络具有卷积计算,前向反馈,局部感知,权值共享 早期尝试 LeNet:5层,使用MNIST数据集,最早用于手写数字的CNN 历史突破 AlexNet 发展和演化 网络层数加深:VGGNet 增强卷积模块功能:NIN,GoogleNet,Inception V3,V4 增加新的功能单元:Inception V2,BN 融合:ResNet AlexNet 网络: 在两个GPU上运行,分成两组,8层 卷积层1: 卷积核大小11×11,数量48个,步长4 激 ...
7 多层感知机
感知机 给定输入x,权重w,偏移b,感知机输出: $$ y=l(<w,b>+b)\quad\quad\quad l(x)=\begin{cases} 1, \quad x > 0\ -1, \quad other \end{cases} $$ 二分类:-1或1 回归输出实数 Softmax回归输出概率 感知机时一个二分类的模型 它不能拟合XOR函数,只能产生线性分割面,即一条线不能分开红绿球,随后产生多层感知机。 激活函数 Sigmoid激活函数 $$ sigmoid (x)= \frac {1}{1+e^{-x}} $$ 投影到(0,1)区间,相当于二分法的改进,二分法在x=0处不可导,故选择平滑的Sigmoid激活函数 $$ \sigma = \begin{cases} 1\quad if \quad x>0 \ 0\quad otherwise \end{cases} $$ Tanh激活函数 投影到(-1 , 1)上,选择$e^{-2x}$时将图像纵坐标方向拉长 $$ tanh(x) = \frac {1-e^{-2 ...
8 过拟合和欠拟合
过拟合和欠拟合 数据简单 数据复杂 模型容量低 正常 欠拟合 模型容量高 过拟合 正常
UNetFormer实验笔记
实验复现过程 下载数据集 自行百度搜索网盘下载; 或官网下载 ISPRS Vaihingen and Potsdam UAVid LoveDA 注意:loveDA测试集没有标签 支持的网络 Vision Transformer UNetFormer DC-Swin BANet CNN MANet ABCNet A2FPN 文件夹结构 123456789101112131415161718192021222324252627282930313233343536373839airs├── GeoSeg (code)├── pretrain_weights (预训练骨干的权重,如 vit、swin 等)├── model_weights (保存在 ISPRS vaihingen、LoveDA 等上训练的模型权重)├── fig_results (保存模型预测的掩码)├── lightning_logs (CSV 格式的训练日志)├── data│ ├── LoveDA│ │ ├── Train│ │ │ ├── Urban│ │ │ ...
遥感公开数据集
LoveDA(武汉大学,2021 年 10 月) 原始数据集详情 Key Value 卫星类型 未知 覆盖区域 南京、常州、武汉 场景 城市、农村 分辨率 0.3m 数量 5987张 单张尺寸 1024*1024 原始影像位深 24位 标签图片位深 8位 原始影像通道数 三通道 标签图片通道数 单通道 数据集下载地址 百度网盘 : 27vc 标签类别 序号 类别名(英文) 类别名(中文) 1 background 背景 2 building 建筑 3 road 道路 4 water 水体 5 barren 裸土 6 forest 林地 7 agriculture 耕地 0 no-data 无效值(使用时应被忽略) 图像 Vaihingen Key Value 卫星类型 未知 覆盖区域 德国的一个不知名的,相对较小的村庄,有许多独立的建筑和小的多层建筑 场景 城市 分辨率 5cm 数量 38张 单张尺寸 6000*6000 原始影像位深 8位 ...
Handle_UNet实验笔记
数据集准备 ​ 运行rename.py重命名 数据预处理 ​ 运行labelme.exe打标签,将打完后的json和原始图片一起放到dataset/before。 ​ 执行make_mask.py将数据放入dataset/segmentationclass/make_mask中。 构建网络框架 net.py 训练 ​ train.py 测试 test.py 测试 watch_result.py 可视化显示对比图片 评估模型 headle-evaluat.py 输出miou,recall,precision 实际:1 实际:0 预测:1 TP FP 预测:0 FN TN P:标签为正样本。 N:标签为负样本。 T:预测对了。 F:预测错了 TP:True Positive。预测为1,实际为1,预测正确。 FP:False Positive。预测为1,实际为0,预测错误。 FN:False Negative。预测为0,实际为1,预测错误。 TN:True Negative。预测为0,实际为0,预测正确 准确率(Accuracy): ...
1 深度学习介绍
深度学习 机器学习、深度学习和计算机视觉是互相关联的概念,它们在人工智能领域具有重要地位。 首先,机器学习是一种人工智能领域的技术,它致力于设计和开发能够自动学习的算法和模型。通过从大量数据中学习和找出规律,机器学习使得计算机能够识别模式、预测结果和做出决策。 深度学习是机器学习的一个分支,它模仿人脑神经网络的结构和工作原理,通过构建深层次的神经网络来提取高级抽象特征并进行学习。深度学习的关键是深度神经网络,这种网络结构能够通过多层非线性变换来学习和表示复杂的数据特征。 计算机视觉是利用计算机和机器学习的方法来实现对图像和视频的理解和分析。计算机视觉旨在使计算机能够“看”和“理解”图像或视频内容。深度学习在计算机视觉领域具有广泛应用,通过深度神经网络进行图像识别、目标检测、图像分割等任务,大大提高了计算机视觉的准确度和效果。 因此,机器学习是一个广泛的概念,深度学习是机器学习的一种方法,而计算机视觉则是应用了机器学习和深度学习技术的一个具体领域。它们相互关联,在人工智能的发展中扮演着重要的角色。 深度学习应用领域 图片分类 物体检测和分割 样式迁移 人脸合成 文字生成图片 文字生成 ...
2 数学基础
自动求导 梯度 梯度是一个向量,表示函数在某一点的变化率最快的方向和大小。在梯度下降法中,梯度指的是目标函数在某一点的梯度向量。梯度下降法通过迭代的方式沿着梯度的反方向逐步更新参数,以最小化目标函数。梯度下降法的基本思想是,沿着梯度的反方向移动一小步,直到找到函数的最小值。 对函数y=2x^T*x,关于列向量求导。 1234567891011121314151617181920212223242526272829303132333435363738394041424344454647484950515253545556575859606162636465import torch# 假设我们想对函数y=2x^T*x,关于列向量求导x = torch.arange(4.0) # 范围为4。0.0~3.0print(x)# 存储梯度x.requires_grad_(True) # 等价于‘x = torch.arange(4.0, requires_grad=True)’ 只有float类型的张量才能用此函数x.grad # 默认值为None,用于访问梯度,函数放置于此,x的梯 ...
3 线性回归
线性回归 应用案例:美国买房 房价预测:系统估价,买入价 成交价是关键因素的加权和: $$ y=w_1x_1+w_2x_2+w_3x_3+b $$ w1,w2,w3是权重,b是偏差,权重和偏差的实际值在后面决定 给定n维输入 $$ x=[x_1,x_2,…,x_n]^{T} $$ 线性模型有一个n维权重和一个标量偏差 $$ w=[w_1,w_2,…,w_n]^T,b $$ 输入是输出的加权和 $$ y=w_1x_1+w_2x_2+…+w_nx_n+b $$ 向量版本:$y=< w,x >+b$ 线性模型可以看作是单层神经网络 比较真实值和预估值,例如房屋的售价和估价 假设y是真实值,$/hat(y)$是估计值,我们可以比较 $$ \ell(y,\hat{y})=\frac{1}{2}(y-\hat{y})^2 $$ 这个叫做平方损失 训练数据 收集一些数据点来决定参数值(权重和偏差),这些数据被称为训练数据,通常越多越好 假如我们有n个样本,记 $$ X=[x_1,x_2,…,x_n]^T \quad Y=[y_1,y_2,…,y_n]^T $$ 参数学习 训 ...
4 基础优化算法
梯度下降 梯度下降是求一个损失函数的最小值,在梯度下降最快的方向迭代,获得相关参数。 举个例子:在$x_0$处,梯度为$\partial f(x^0)= \frac{\partial{f(x_0)}}{\partial{x_0}}$,$x_0$与$-\partial f(x^0)$相加,可以得到向左移动一段距离的新向量$x_1$,随后不断迭代,可以找到最低点,此时为最小值。 $$ x_1=x_0-n\frac{\partial{f(x)}}{\partial{x_0}} $$ n为步长,可以控制移动距离。 挑选一个合适的初始值$w_0$ 重复迭代参数t=1,2,3,… $$ w_t=w_{t-1}-\eta \frac{\partial{\ell}}{\partial{\ell{w_{t-1}}}} $$ 沿梯度方向将增加损失函数值 学习率:步长的超参数 $\eta$不能太大,也不能太小 小批量随机梯度下降 我们可以随机采样n个样本$i_1,i_2,…,i_b$来近似损失 $$ \frac{1}{b}\sum_{i\in I_b}\ell(x_i, ...
5 线性回归的从零开始实现
线性回归的从零开始实现 我们将从零开始整个方法,包括数据流水线、模型、损失函数和小批量随机梯度下降优化器 1234567import randomimport torchfrom d2l import torch as d2l# 根据带有噪声的线性模型构造一个人造数据集。我们使用的模型参数有# 权重w=[2,-3.4]T 、 偏差b=4.2 和噪声项c生成的数据集及其标签# y=wX+b+c X是随机数,是标准正态分布 数据流水线,数据集 权重:输入值的重要性,输入值和权重相乘送到下一层神经网络,权重的调节可以使用反向传播算法实现。 偏差:输出的偏移量,它是不变的,通常为常数。 噪声:是指随机的、不可预测的数据误差。 123456789101112131415161718192021222324# 制作含有噪声的数据集def synthetic_data(w, b, num_examples): """生成 y = wX + b + 噪声。""" X = torch.normal(0, 1, (num ...
avatar
🐟认真摸鱼中
学文の博客🥝
Future is now 🍭🍭🍭
前往小窝
公告栏
wenblog.org.edu.kg | 
alan-pro.github.io
🍧欢迎访问🍧
小站资讯
文章数目 :
38
本站总字数 :
5.1w
本站访客数 :
本站总访问量 :
最后更新时间 :
空降评论复制本文地址
随便逛逛昼夜切换关于博客美化设置切换全屏打印页面