c++ - 计算给定数字列表的四分位数

标签 c++ quartile

我正在尝试完成“Accelerated C++”练习 3-2。我已经测试过,下四分位数和中位数计算正确,但上四分位数计算不正确。

例如,假设输入“50、60、70、80、90、100”,它将输出四分位数为 60、75 和 80。

我有两个问题想解决:

1) 在这种情况下,上四分位数应为 90。 2) 如何让我的程序显示我的数字的 float 或 double 版本?较低四分位数的更精确四分位数是 62.5,而不是 60。

/* Write a program to compute and print the quartiles(quarter of the
 * numbers with the largest values) of a set of integers
 * The first quartile (Q1) is defined as the middle number between the smallest number and the median of the data set.
 * The second quartile (Q2) is the median of the data.
 * The third quartile (Q3) is the middle value between the median and the highest value of the data set.*/

#include <algorithm>
#include <iomanip>
#include <ios>
#include <iostream>
#include <string>
#include <vector>

using std::vector;
using std::endl;
using std::cout;
using std::cin;

int main() {
    double x = 0;
    double median, lowerQt, upperQt;
    median = lowerQt = upperQt = 0;
    vector<double> set;
    typedef vector<double>::size_type vec_sz;

    cout << "Enter integers followed by EOF: ";

    while(cin >> x)
        set.push_back(x);

    vec_sz size = set.size();
    if(size == 0) {
        cout << "invalid" << endl;
        return 1;
    }

    vec_sz mid = size / 2;
    vec_sz lower = mid / 2;
    vec_sz upper = size - mid;

    sort(set.begin(), set.end());

    median = size % 2 == 0 ? (set[mid] + set[mid - 1]) / 2 : set[mid];
    lowerQt = mid % 2 == 0 ? (set[lower] + set[lower - 1]) / 2 : set[lower];
    upperQt = mid % 2 == 0 ? (set[upper] + set[upper - 1]) / 2 : set[upper];

    cout << lowerQt << endl << median << endl << upperQt;
}

最佳答案

对于初学者来说,您的代码有点困惑且难以阅读。如果你使用现代 C++ 编译器,你不需要那个愚蠢的 typedef。您可以使用类型推导:

auto size = set.size();

size % 2 == 0 作为 bool 值使用有点麻烦,它通常写成 (size % 2) 为清楚起见,仅使用该表达式可能是谨慎的一次

共有三种确定四分位数的方法,它们给出了不同的答案,您的代码与其中两种不匹配(因为每种方法都会检查数据集中项目的实际数量)。编码它匹配“1-Var Stats”方法,由于错误而不会返回您需要的值。

  1. 使用中位数将有序数据集分成两半。

    • 如果原始有序数据集中的数据点数量为奇数,则不包括任何一半的中位数(有序列表中的中心值)。

    • 如果原始有序数据集中有偶数个数据点,则将这个数据集恰好分成两半。

  2. 下四分位数值是下半部分数据的中位数。上四分位数是数据上半部分的中位数。

我想,你期待 Tukey 的铰链 (midhinge) 吗?

  1. 使用中位数将有序数据集分成两半。

    • 如果原始有序数据集中的数据点数量为奇数,则在两半中包括中位数(有序列表中的中心值)。
    • 如果原始有序数据集中有偶数个数据点,则将这个数据集恰好分成两半。
  2. 下四分位数值是下半部分数据的中位数。上四分位数是数据上半部分的中位数。

如果关于统计的书太远了,wiki 和应用数学 stackexchange 中描述了算法。

研究您的代码行为:您仅通过除以数组的大小来计算“中间”,如果您采用较高或较低的“中间”值,则不受控制。为什么?理论上,在计数不均匀的情况下,如果四舍五入,您总是会取较大的值,但实际上您只取较小的值,因为您使用整数值进行运算,除法的结果将被截断。对于 size = 11,您的 mid 将为 5。“上”索引会发生什么情况?

auto upper = size - mid;   //? upper = 6 That's not right

应该是

auto upper = (size + mid)/2;

第一种方法的正确答案是:60 75 90

关于c++ - 计算给定数字列表的四分位数,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/43792127/

相关文章:

c++ - 从字符串中分 ionic 串

python - seaborn violinplot 中的四分位数线属性

python - 优化 Pandas 数据框列的四分位数?

C++ Boost 函数回调。如何调用函数作为回调并在内部传递参数?

c++ - C++ 中带有模板参数的 Typedef

c++ - 现代 C++ 中有命名参数吗?

c++ - 模板类之间模板类型的转换还要专门化

r - 使用 cut2 在 Hmisc 中获得漂亮的切割(没有 [ ) 符号)

r - 为什么这个 CSV 数据与 ggplot2 晶须图复杂化?