箱线图(Box Plot)是一种用于展示数据分布、离散和中心趋势的统计图形。以下是箱线图分析的关键点:
中位数(Median)
箱子中间横线代表中位数,它表示数据的中心位置。
四分位数(Quartiles)
箱子上边线(Q3)代表上四分位数,即75%的数据小于或等于此值。
箱子下边线(Q1)代表下四分位数,即25%的数据小于或等于此值。
四分位距(Interquartile Range, IQR)
箱子大小(宽度)代表四分位距,计算公式为IQR = Q3 - Q1。
异常值(Outliers)
箱子延伸出去的竖线和横线代表异常值的界限,通常是Q1 - 1.5IQR和Q3 + 1.5IQR。超出这些界限的点被认为是异常值。
数据分布
箱子的高度表示数据的离散程度,高度越高,数据分布越离散。
连接箱子上下方的线段(胡须)表示最大值和最小值,但不包括异常值。
分组比较
当箱线图用于比较不同组的数据时,不同颜色的箱子代表不同的组。
箱子上方的线段用于比较不同组之间的显著性差异。
箱线图分析通常用于快速识别数据的异常值、比较不同组之间的分布差异,以及了解数据的中心趋势和离散程度。在科研和数据分析中,箱线图是一种非常有用的工具