使用“插值”来估算缺失值以及过程中数据点顺序的重要性


插值的定义 – 插值通过研究某个点的相邻点(同一列内)来预测该点的值,这与在研究点之间的关系时考虑所有列的数据建模不同。

我尝试过的:

以下是我在插值研究中收集的要点和我的疑问:

1. 插值假定使用曲线/直线连接时连续数据点之间的平滑性和连续性。 因此,混合/排序列中的值将对插值线/曲线和后续结果产生负面影响。 因此,我们不能修改数据集中数据点的顺序。

疑问 – 当这些数据点绘制在图表上时,值/数据点彼此的接近度无论如何都将取决于值的大小,即数量越接近的值将彼此更接近。 它们在数据集中的排序方式并不重要。 那么为什么如此强调保留数据集值的原始顺序呢?

假设准备数据集的人已按照确保所考虑列的数据点之间的连续性和平滑性的顺序排列值,这有多实用? 我们不知道哪一列被视为行排序的关键。

笔记:我已经尽可能详细地解释了我的理解和疑问。 如果我的理解错误或我的问题不清楚,请告诉我。

解决方案1

首先,这里没有代码可以提供反馈,因此在这方面答案不是很好。

在数学中,有不同的插值方法。 有拉格朗日插值法或牛顿插值法。 这些原理与使用所有点来拟合经过每个点的最高阶多项式曲线的原理相同。

有些样条曲线使用低阶多项式拟合来生成曲线,在这里您可以使用给定次数多项式的最小二乘拟合。

你遇到的问题实际上是指定你真正想要什么,但你没有。

コメント

タイトルとURLをコピーしました