26.3基本统计函数

Octave支持各种有用的统计函数。许多是准备数据集以进行进一步分析的初始步骤。另一些则提供了与基本描述性统计不同的衡量标准。

 
: y = center (x)
: y = center (x, dim)

通过减去平均值使数据居中。

如果x是一个向量,减去它的平均值。

如果x是一个矩阵,请对每列执行上述操作。

如果可选参数dim给定,沿此维度操作。

编程说明:center对统计数据的归一化有明显的应用。它也有助于提高一般数值计算的精度。每当一批数据有一个大的公共值时,可以减去平均值,进行计算,然后将平均值加return,以获得最终答案。

详见: zscore.

广告
 
: z = zscore (x)
: z = zscore (x, opt)
: z = zscore (x, opt, dim)
: [z, mu, sigma] = zscore (…)

计算的Z分数x.

如果x是一个向量,减去它的平均值,除以它的标准差。如果标准偏差为零,则除以1。

可选参数opt确定计算标准偏差时要使用的归一化,并且与的相应参数具有相同的定义std.

如果x是一个矩阵,沿着第一个非奇异维度计算。如果第三个可选参数dim是给定的,沿着这里的维度操作。

可选输出musigma包含平均值和标准偏差。

详见: mean, std, center.

广告
 
: z = normalize (x)
: z = normalize (x, dim)
: z = normalize (…, method)
: z = normalize (…, method, option)
: z = normalize (…, scale, scaleoption, center, centeroption)
: [z, c, s] = normalize (…)

返回中数据的规范化x使用几种可用的升级和居中方法之一。

normalize默认情况下将返回zscore属于x,定义为每个元素与平均值的标准偏差数x这相当于以数据的平均值为中心,并通过标准偏差进行缩放。

返回的值z将具有与相同的大小x.参数返回变量cs是归一化中使用的定中心因子和缩放因子,使得:

  z = (x - c) ./ s

如果x是向量,normalize将对中的数据进行操作x.

如果x是矩阵,normalize将独立操作中的每列x.

如果x是N维数组,normalize将依赖于中的第一个非奇异维度进行操作x.

如果可选的第二个参数dim是给定的,沿着这里的维度操作。

normalize忽略NaN值为x类似于中omitnan参数的行为std, meanmedian.

可选输入methodoption可以用于指定在上执行的规范化类型x。请注意,只有scalecenter可以使用下面定义的任何方法一起指定参数。有效的规范化方法有:

zscore

(默认设置)规范化中的元素x到距中心值的缩放距离。有效参数:

std

(默认)数据集中在mean (x)并按标准偏差进行缩放。

robust

数据集中在median (x)并通过中值绝对偏差进行缩放。

广告
norm

z是的一般向量范数x具有option是标准化因子p其根据以下内容确定向量范数类型:

  z = [sum (abs (x) .^ p)] ^ (1/p)

p可以是任何正标量,具体值为:

p = 1

x被规范化为sum (abs (x)).

p = 2

默认x通过元素的欧几里得范数或向量幅度进行归一化。

P = Inf

x被规范化为max (abs (x)).

广告
scale

x从以下因素决定option,可以是整数标量或以下其中一个:

std

默认x按其标准偏差进行缩放。

mad

x按其中值绝对偏差进行缩放。

first

x按其第一个元素缩放。

iqr

x按其四分位间距进行缩放。

广告
range

x按比例缩放以适应指定的范围option作为双元素标量行向量。默认范围为[0,1]。

广告
center

x偏移量从option,可以是整数标量或以下其中一个:

mean

默认x偏移了mean (x).

median

x偏移了median (x).

广告
medianiqr

x偏移了median (x)并按四分位间距进行缩放。

广告

已知MATLAB不兼容性:

  1. 参数DataVariables尚未为Table类实现x输入。

详见: zscore, iqr, norm, rescale, std, median, mean, mad.

广告
 
: n = histc (x, edges)
: n = histc (x, edges, dim)
: [n, idx] = histc (…)

计算直方图计数。

x是一个向量,该函数计算的元素数x落在从定义的直方图箱中edges这必须是定义直方图仓的边缘的单调递增值的向量。n(k)包含中的元素数x为此edges(k) <= x < edges(k+1)。的最后一个元素n包含的元素数x完全等于的最后一个元素edges.

x是一个N-维度数组,计算是沿着维度进行的dim.如果未指定dim默认为第一个非奇异维度。

当指定第二个输出参数时,还会返回索引矩阵。这里的idx矩阵的大小与x。的每个元素idx包含直方图仓的索引,其中的相应元素x已计数。

详见: hist.

广告

unique函数详见unique通常用于统计。

 
: c = nchoosek (n, k)
: c = nchoosek (set, k)

计算的二项式系数n或列出的所有可能组合set个项目。

如果n是标量,则计算二项式系数nk其定义为

 /   \
 | n |    n (n-1) (n-2) ... (n-k+1)       n!
 |   |  = ------------------------- =  ---------
 | k |               k!                k! (n-k)!
 \   /

这是的组合数n按大小分组拍摄的项目k.

如果第一个自变量是向量,set,然后生成的元素的所有组合set,已拍摄k每次,每个组合一行。结果ck列和nchoosek (length (set), k) 排。

例如

三个项目可以通过多种方式成对分组?

nchoosek (3, 2)
   ⇒ 3

可能的配对是什么?

nchoosek (1:3, 2)
   ⇒  1   2
       1   3
       2   3

编程注意事项:计算二项式系数时nchoosek仅适用于非负整数参数。使用bincoeff对于非整数和负标量自变量,或者对于使用向量输入同时计算多个二进制系数nk.

详见: bincoeff, perms.

广告
 
: P = perms (v)
: P = perms (v, "unique")

生成向量的所有排列v每个排列一行。

如果v处于上升顺序。如果v处于不同的排列中,则结果也以这种方式排列。因此,按降序输入会返回一个按正常词典顺序输入的结果。结果有大小factorial (n) * n这里的n是的长度v任何重复的元素都包括在输出中。

如果可选参数"unique"则只返回uniquepermutation,使用的内存比调用少,花费的时间也比调用少unique (perms (v), "rows").

示例1

perms ([1, 2, 3])
⇒
3   2   1
3   1   2
2   3   1
2   1   3
1   3   2
1   2   3

示例2

perms ([1, 1, 2, 2], "unique")
⇒
2   2   1   1
2   1   2   1
2   1   1   2
1   2   2   1
1   2   1   2
1   1   2   2

编程注意事项:如果"unique"参数未使用,的长度v应不超过10-12以限制内存消耗。即使有"unique",中的唯一元素不应超过10-12个v.

详见: permute, randperm, nchoosek.

广告
 
: y = ranks (x)
: y = ranks (x, dim)
: y = ranks (x, dim, rtype)

返回的排名(在顺序统计的意义上)x沿着为领带调整的第一个非奇异维度。

如果可选dim给定参数,沿此维度操作。

可选参数rtype决定如何处理关系。以下示例假设输入[ 1, 2, 2, 4 ].

0 or "fractional" (default) for fractional ranking (1, 2.5,

2.5, 4);

广告
1 or "competition" for competition ranking (1, 2, 2, 4);
2 or "modified" for modified competition ranking (1, 3, 3, 4);
3 or "ordinal" for ordinal ranking (1, 2, 3, 4);
4 or "dense" for dense ranking (1, 2, 2, 3).

详见: spearman, kendall.

广告
 
: cnt = run_count (x, n)
: cnt = run_count (x, n, dim)

计算沿的第一个非奇异维度上级运行次数x长度为1,2…,n-1且大于或等于n.

如果可选参数dim然后沿着这里的维度进行运算。

详见: runlength.

广告
 
: count = runlength (x)
: [count, value] = runlength (x)

找出所有公共值序列的长度。

count是具有每个重复值的长度的向量。

可选输出value包含在序列中重复的值。

runlength ([2, 2, 0, 4, 4, 4, 0, 1, 1, 1, 1])
⇒   2   1   3   1   4

详见: run_count.

广告

版权所有 © 2024-2025 Octave中文网

ICP备案/许可证号:黑ICP备2024030411号-2