Python中的`iris`数据集是著名的鸢尾花数据集(Iris dataset),它是一个用于机器学习和数据挖掘任务的经典数据集。以下是有关`iris`数据集的一些关键信息:
数据集名称:Anderson's Iris dataset
样本数量:150个样本
特征数量:4个特征
类别数量:3个类别(山鸢尾Setosa、杂色鸢尾Versicolor、维吉尼亚鸢尾Virginica)
数据结构:150行5列的二维表,其中每行代表一个样本,包含4个属性(花萼长度sepal length、花萼宽度sepal width、花瓣长度petal length、花瓣宽度petal width)和一个类别标签
数据用途:用于分类任务,通过4个属性来预测鸢尾花的种类
在Python中,你可以使用`sklearn.datasets`模块中的`load_iris`函数来加载`iris`数据集,如下所示:
from sklearn.datasets import load_iris
iris = load_iris()
print(iris.keys()) 输出数据集包含的键
n_samples, n_features = iris.data.shape 获取样本数量和特征数量
print((n_samples, n_features)) 输出样本数量和特征数量
print(iris.data) 输出第一个样本的数据
print(iris.target) 输出第一个样本的类别标签
这个数据集常用于演示机器学习的基础概念和算法,是入门级数据集的经典例子