期待値や分散がわからないマン

ちょっと目からうろこ。

数学好きだけど苦手マンなので、期待値って何?
ていうところから色々調べていました。
もっと言うと、分散の公式が期待値関数を使ってかけるやつの意味がちょっとわかんなくて。

その道中に見つけた下記事。
dev.classmethod.jp

これひとつとってみても、期待値の x を単なる関数の変数としてみなしてしまうと、次のように渡す変数の形を変えた時に確率密度関数に p に渡す x も変更してしまうような誤解をしてしまいがちです。

\ E(x ^ 2)= \int x ^ 2 p(x ^ 2 ) dx
このままだと先ほどの関係式は導かれません。実際には

\ E(x ^2)= \int x ^ 2 p(x)dx

実際の計算上では意識しない部分でしたが、これは知らなかった。


まあそれは置いておいて。分散の公式が理解できていないのです。
\ V(x) = E( (x-E(x))^2 ) = \int (x-E(x))^2 p(x)dx
上式の\ (x-E(x))^2は、「各データと平均値との差の二乗を出せよ(偏差平方)」てことでしょ?
\ p(x)は、確率密度関数?サイコロならxが何であろうと1/6、コインなら1/2・・
僕の知ってる分散は\ V(x) = \frac{\int (x-E(x))^2 dx}{n}です。データの期待値からの距離(2乗)を足し合わせて、データ数で割ってあげることで比較しやすいようにしました。という理解です。
この2式が同じになるはずなんだろうけど、よくわからない。誰か教えてほしい泣

統計で扱う数式って「分散はこの公式で出しまーす(数学アレルギーの生徒もいるだろうし詳細には立ち入らないよ)。」って感じが強いと思う、個人的に。なのでブラックボックス感ありますよね?


今図書館からこの本借りて読んでます。数式もいい塩梅で掲載してて良い本かも。2018年の本なので、書いてることも古臭くなくていい感じ。

統計思考の世界  ~曼荼羅で読み解くデータ解析の基礎

統計思考の世界 ~曼荼羅で読み解くデータ解析の基礎

こっちはアマゾンで購入しました。面白かったらまた紹介します。

平均・分散から始める一般化線形モデル入門

平均・分散から始める一般化線形モデル入門


ではでは。