【解決方法】欠損値を補うための「補間」の仕組みと、プロセスにおけるデータポイントの順序の重要性

[ad_1]

補間の定義 – 内挿では、点間の関係を調査するときにすべての列が考慮されるデータモデリングとは対照的に、(同じ列内で) 隣接する点を調査することによって、ある点の値を予測します。

私が試したこと:

以下は、補間に関する私の研究の一環として収集したポイントと私の疑問です。

1. 補間では、曲線/直線を使用して接続された場合の連続するデータポイント間の滑らかさと連続性が前提となります。したがって、列内の値を混同したり並べ替えたりすると、補間の線や曲線とその後の結果に悪影響が生じます。したがって、データセット内のデータポイントの順序を変更してはなりません。

疑問 – これらのデータポイントがグラフ上にプロットされる場合、値/データポイントの相互の近接性はいずれにせよ値の大きさに依存します。つまり、数値が近い値ほど互いに近くに位置します。データセット内でそれらがどのように順序付けられているかは関係ありません。では、なぜデータセット値の元の順序を保持することがこれほど重視されるのでしょうか?

そして、データセットを準備した人が、検討中の列のデータポイント間の連続性と滑らかさを保証する順序で値を配置したと仮定するのは、どれほど現実的でしょうか? どの列が行の順序付けのキーとして考慮されたのかはわかりません。

注記: 私の理解と疑問をできるだけ詳しく説明しました。私の理解が間違っていたり、質問が明確でない場合は、お知らせください。

解決策 1

まず、ここにはフィードバックを与えるコードがないので、その点では答えはあまり良くありません。

数学では、点を補間するさまざまな方法があります。ラグランジュ補間またはニュートン補間があります。これらは、すべての点を使用して各点を通過する最高次の多項式曲線をフィッティングするのと同じ原理です。

曲線を生成するために低次の多項式フィットを使用するスプラインがあり、ここでは特定の次数多項式の最小二乗フィットを使用できます。

あなたが抱えている問題は、実際に必要なものを指定しているのに、それを指定していないことです。

[ad_2]