APP下载

人工智能基础-张量的常用描述及影象表征

消息来源:baojiabao.com 作者: 发布时间:2024-05-30

报价宝综合消息人工智能基础-张量的常用描述及影象表征

深度学习中的所有资料张量的第一个轴都是样本轴,也称之为样本维度。另外,深度学习模型不会同时处理整个资料集,而是将资料拆分成小批量,比如前面的案例就是每次取128个数据作为一个批量。

batch = train_images[:128]

# next

batch = train_images[128:256]

# nth

batch = train_images[128 * n: 128 * (n+1)]

在数字标号记住两个点:

从0开始

左闭右开

这是老外喜欢的调性。

在这个场景里,第一个轴称之为批量轴 batch axis或者也称之为批量维度 batch dimension。

这些术语对于构建整个理解知识体系很重要。

现实世界的资料张量描述

这里给出的几个例子,可以作为参考:

向量资料:2D张量,形状:(samples, features)

时间序列资料:3D张量,形状:(samples, timesteps, features)

影象:4D张量,形状为:(samples, height, width, channels)或者(samples, channels, height, width)

向量资料

每一条/行就是一个数据,第一个轴是样本轴,第二个轴是特征轴。一般的CSV资料都是这类。

时间序列或序列资料

这里给出的例子极好,以股票资料为例,每一分钟可以记录三个资料:

股票当前价格

前一分钟最高价

前一分钟最低价

所以每一分钟的资料可以编码为一个3D向量,注意这不是3D张量。一天下来,交易日有390分钟,可以得到一个2D张量,形状为(390,3)。一年250天则可以储存在一个形状为(250, 390,3)的3D张量中。一天的股票资料即为一个样本。

第一个轴是样本轴,第二个轴是时间轴,第三个轴是特征轴,这是约定的惯例。

影象资料

数字影象档案内容由两个部分组成:影象头资讯和资料。

影象头资讯定义了影象的基本资讯,主要包括起点位置(Origin),画素间隔(space)和维数(dimension)。通过这三个引数即可以决定影象空间位置和规模。影象可以看做是空间中的一个规则网格,网格中的每个最小单元称之为一个画素(二维)或者体素(三维),这样网格在每个方向上的画素或者体素个数即为影象在该方向的维数。画素索引表示每个画素在影象网格中的位置,是影象内部的网格座标。而在医学影象中,每个影象除了内部座标外,还存在一个世界座标。这个世界座标依赖于成像装置。在医学影象中起点位置(Origin),画素间隔(space)和影象维数决定了世界座标系。这样通过起点位置,画素间隔和画素索引即可计算每个画素的世界座标位置。

影象资料即为影象画素的画素值,一般采用一维阵列来表示和储存。已知画素索引和影象维数下,即可计算每个画素对应的画素值。通常影象的画素值为一个标量,例如一般灰度影象;影象画素值也可以是一个向量,例如彩色影象;另外影象画素值还可以是张量,如梯度场影象。医学影象处理中大部分的影象都是灰度影象。

这里需要注意灰度影象的灰度值的资料型别,在一般的灰度影象处理中不需要考虑,因为其范围预设为0-255,可以采用一个unsigned char型别来表示。但是在医学影象处理中,256灰度级远远不能满足要求,因此灰度范围往往大于256级。常见的医学影象的画素资料型别为unsigned short,灰度范围为0-65536。

2019-06-30 21:49:00

相关文章