基本统计函数(GNU Octave(版本10.1.0))

下一个相关与回归分析前一个数据滑窗统计上级统计数字[目录][索引]

26.3基本统计函数¶

Octave支持各种有用的统计函数。许多是准备数据集以进行进一步分析的初始步骤。另一些则提供了与基本描述性统计不同的衡量标准。

: y = center (x) ¶

: y = center (x, dim) ¶

通过减去平均值使数据居中。

如果x是一个向量,减去它的平均值。

如果x是一个矩阵,请对每列执行上述操作。

如果可选参数dim给定,沿此维度操作。

编程说明:center对统计数据的归一化有明显的应用。它也有助于提高一般数值计算的精度。每当一批数据有一个大的公共值时,可以减去平均值,进行计算,然后将平均值加return,以获得最终答案。

详见: zscore.

: z = zscore (x) ¶

: z = zscore (x, opt) ¶

: z = zscore (x, opt, dim) ¶

: [z, mu, sigma] = zscore (…) ¶

计算的Z分数x.

如果x是一个向量,减去它的平均值,除以它的标准差。如果标准偏差为零,则除以1。

可选参数opt确定计算标准偏差时要使用的归一化,并且与的相应参数具有相同的定义std.

如果x是一个矩阵,沿着第一个非奇异维度计算。如果第三个可选参数dim是给定的,沿着这里的维度操作。

可选输出mu和sigma包含平均值和标准偏差。

详见: mean, std, center.

: z = normalize (x) ¶

: z = normalize (x, dim) ¶

: z = normalize (…, method) ¶

: z = normalize (…, method, option) ¶

: z = normalize (…, scale, scaleoption, center, centeroption) ¶

: [z, c, s] = normalize (…) ¶

返回中数据的规范化x使用几种可用的升级和居中方法之一。

normalize默认情况下将返回zscore属于x,定义为每个元素与平均值的标准偏差数x这相当于以数据的平均值为中心,并通过标准偏差进行缩放。

返回的值z将具有与相同的大小x.参数返回变量c和s是归一化中使用的定中心因子和缩放因子,使得:

  z = (x - c) ./ s

如果x是向量,normalize将对中的数据进行操作x.

如果x是矩阵,normalize将独立操作中的每列x.

如果x是N维数组,normalize将依赖于中的第一个非奇异维度进行操作x.

如果可选的第二个参数dim是给定的,沿着这里的维度操作。

normalize忽略NaN值为x类似于中omitnan参数的行为std, mean和median.

可选输入method和option可以用于指定在上执行的规范化类型x。请注意,只有scale和center可以使用下面定义的任何方法一起指定参数。有效的规范化方法有:

zscore

(默认设置)规范化中的元素x到距中心值的缩放距离。有效参数:

std: (默认)数据集中在mean (x)并按标准偏差进行缩放。
robust: 数据集中在median (x)并通过中值绝对偏差进行缩放。

norm

z是的一般向量范数x具有option是标准化因子p其根据以下内容确定向量范数类型:

  z = [sum (abs (x) .^ p)] ^ (1/p)

p可以是任何正标量,具体值为:

p = 1: x被规范化为sum (abs (x)).
p = 2: 默认x通过元素的欧几里得范数或向量幅度进行归一化。
P = Inf: x被规范化为max (abs (x)).

scale

x从以下因素决定option,可以是整数标量或以下其中一个:

std: 默认x按其标准偏差进行缩放。
mad: x按其中值绝对偏差进行缩放。
first: x按其第一个元素缩放。
iqr: x按其四分位间距进行缩放。

range

x按比例缩放以适应指定的范围option作为双元素标量行向量。默认范围为[0,1]。

center

x偏移量从option,可以是整数标量或以下其中一个:

mean: 默认x偏移了mean (x).
median: x偏移了median (x).

medianiqr

x偏移了median (x)并按四分位间距进行缩放。

已知MATLAB不兼容性:

参数DataVariables尚未为Table类实现x输入。

详见: zscore, iqr, norm, rescale, std, median, mean, mad.

: n = histc (x, edges) ¶

: n = histc (x, edges, dim) ¶

: [n, idx] = histc (…) ¶

计算直方图计数。

当x是一个向量,该函数计算的元素数x落在从定义的直方图箱中edges这必须是定义直方图仓的边缘的单调递增值的向量。n(k)包含中的元素数x为此edges(k) <= x < edges(k+1)。的最后一个元素n包含的元素数x完全等于的最后一个元素edges.

当x是一个N-维度数组,计算是沿着维度进行的dim.如果未指定dim默认为第一个非奇异维度。

当指定第二个输出参数时,还会返回索引矩阵。这里的idx矩阵的大小与x。的每个元素idx包含直方图仓的索引,其中的相应元素x已计数。

详见: hist.

unique函数详见unique通常用于统计。

: c = nchoosek (n, k) ¶

: c = nchoosek (set, k) ¶

计算的二项式系数n或列出的所有可能组合set个项目。

如果n是标量,则计算二项式系数n和k其定义为

 /   \
 | n |    n (n-1) (n-2) ... (n-k+1)       n!
 |   |  = ------------------------- =  ---------
 | k |               k!                k! (n-k)!
 \   /

这是的组合数n按大小分组拍摄的项目k.

如果第一个自变量是向量,set,然后生成的元素的所有组合set,已拍摄k每次,每个组合一行。结果c有k列和nchoosek (length (set), k) 排。

例如

三个项目可以通过多种方式成对分组？

nchoosek (3, 2)
   ⇒ 3

可能的配对是什么？

nchoosek (1:3, 2)
   ⇒  1   2
       1   3
       2   3

编程注意事项:计算二项式系数时nchoosek仅适用于非负整数参数。使用bincoeff对于非整数和负标量自变量,或者对于使用向量输入同时计算多个二进制系数n或k.

详见: bincoeff, perms.

: P = perms (v) ¶

: P = perms (v, "unique") ¶

生成向量的所有排列v每个排列一行。

如果v处于上升顺序。如果v处于不同的排列中,则结果也以这种方式排列。因此,按降序输入会返回一个按正常词典顺序输入的结果。结果有大小factorial (n) * n这里的n是的长度v任何重复的元素都包括在输出中。

如果可选参数"unique"则只返回uniquepermutation,使用的内存比调用少,花费的时间也比调用少unique (perms (v), "rows").

示例1

perms ([1, 2, 3])
⇒
3   2   1
3   1   2
2   3   1
2   1   3
1   3   2
1   2   3

示例2

perms ([1, 1, 2, 2], "unique")
⇒
2   2   1   1
2   1   2   1
2   1   1   2
1   2   2   1
1   2   1   2
1   1   2   2

编程注意事项:如果"unique"参数未使用,的长度v应不超过10-12以限制内存消耗。即使有"unique",中的唯一元素不应超过10-12个v.

详见: permute, randperm, nchoosek.

: y = ranks (x) ¶

: y = ranks (x, dim) ¶

: y = ranks (x, dim, rtype) ¶

返回的排名(在顺序统计的意义上)x沿着为领带调整的第一个非奇异维度。

如果可选dim给定参数,沿此维度操作。

可选参数rtype决定如何处理关系。以下示例假设输入[ 1, 2, 2, 4 ].

0 or "fractional" (default) for fractional ranking (1, 2.5,: 2.5, 4);
1 or "competition" for competition ranking (1, 2, 2, 4);
2 or "modified" for modified competition ranking (1, 3, 3, 4);
3 or "ordinal" for ordinal ranking (1, 2, 3, 4);
4 or "dense" for dense ranking (1, 2, 2, 3).

详见: spearman, kendall.

: cnt = run_count (x, n) ¶

: cnt = run_count (x, n, dim) ¶

计算沿的第一个非奇异维度上级运行次数x长度为1,2…,n-1且大于或等于n.

如果可选参数dim然后沿着这里的维度进行运算。

详见: runlength.

: count = runlength (x) ¶

: [count, value] = runlength (x) ¶

找出所有公共值序列的长度。

count是具有每个重复值的长度的向量。

可选输出value包含在序列中重复的值。

runlength ([2, 2, 0, 4, 4, 4, 0, 1, 1, 1, 1])
⇒   2   1   3   1   4

详见: run_count.