【質的変数の数値化】数量化II類とその数式 - 判別分析を利用してカテゴリ変数をベクトル化する技術【いろんな分析 vol. 9 】

Рет қаралды 12,785

Күн бұрын

Пікірлер: 68

@Dr.Ks_Labo 4 жыл бұрын

私のまわりでは，こういうことをやりたいときには，説明する側・される側の間のクロス集計（説明側が多アイテムの場合は複合クロス表にするなりして）からの対応分析をやっていました。これだと説明する側とされる側の区別なく，互いによく説明しあう軸をもとめようとする感じ（正準相関分析に相当すると思われ）。説明する側・される側を区別するとⅡ類がある種の最適解なんでしょうね。量的変数でいえば回帰主成分分析（主成分回帰ではなく）に相当すると思われます。

@AIcia_Solid 4 жыл бұрын

おおー、 Dr. K さんのまわりではそういう分析が多いのですね！😍 データを眺めるとき、データから予測をするときでは利用する分析は変わってきますよね。なかなかするどい指摘だと思います、ありがとうございます🎉

@黒川優輝 Жыл бұрын

それぞれの変数で好まれ方が独立しているという強い仮定を置くのですね。

@AIcia_Solid Жыл бұрын

ご視聴コメントありがとうございます！その独立性の仮定は、どこで利用されているでしょうか、、？おそらく、そのような仮定はなくてもまともに動くのではないかと思うのですが、、、。私の思い過ごしかもしれませんので、もう少し詳しくお教えいただいても良いでしょうか？

@monstercookie215 4 жыл бұрын

動画面白かったです！コードも拝見しましたが、なんとなくやっていることはわかるものの、計算の詳細説明をいただけるとより理解が進むと思うので楽しみに待ってます！（数量化II類に限った話ではないかもしれませんが）今回は数問のアンケート項目でしたが、項目が数十〜数百ある場合にもそのまま適用、解釈するものなのでしょうか？（それとも項目の次元削減を行ったり？）

@AIcia_Solid 4 жыл бұрын

詳細はそのうち出すことにしました！😍 項目が増えた場合も、回答者数が多い場合はそのままやってもいいと思います。ですが、そうでない場合は、もしかしたら高次元統計の知識を利用した方が良いかもです。わたしも勉強中です😎

@ttks2122 3 жыл бұрын

詳細って上がってますかね？？？続きが気になりすぎります！！！

@AIcia_Solid 3 жыл бұрын

そろそろあげます！もう少しお待ちください！🙏🙏🙏

@Dr.Ks_Labo 4 жыл бұрын

やってることは相関比の最大化だから，説明変数をダミー変数として正準判別分析のプログラムにぶちこめば形式的には同じ結果が得られるのかな

@AIcia_Solid 4 жыл бұрын

ですね！ぜひ試してみてください！😍🎉

@salsanotomo 3 жыл бұрын

判別分析のところで、ピピっと自分が反応して、正準判別分析っていう言葉に昔出会って、興味があったのですが何のことか分からず今に至っています。もしよかったら、解説お願いします。　途中の式変形のところは、基本的な分散分析を勉強した経験があれば、抵抗はないように思いました。

@AIcia_Solid 3 жыл бұрын

さすが！正準判別分析と数量化II類は本質的には同じ分析です😎 なので、この動画が分かれば正準判別分析もOKです！

@KentaS-ze6pn 4 ай бұрын

いつも分かりやすい動画をありがとうございます！アイシアさんのgithubの例の場合、目的変数の種類が3種類（○・△・×）であるため、固有値が2番目までに大きいものに対応する固有ベクトル（a）を採用できるという認識でよろしいでしょうか？（3番目以降は固有値が0になるため）

@AIcia_Solid 4 ай бұрын

ご視聴コメントありがとうございます！🎉 そうですね、なので2番目までというのもありますし、目的が可視化なので、最初の2つを持ってきて平面に可視化したという側面もあります！

@KentaS-ze6pn 4 ай бұрын

@@AIcia_Solid お返事ありがとうございます！確かに、「数学的な意味」と「可視化」という2つの側面からのアプローチということなのですね。ご丁寧にありがとうございました！

@AIcia_Solid 4 ай бұрын

疑問が解消いただけてよかったです！またいつでも何でも聞いて下さい！🎉

@だいこん丸舟長 2 жыл бұрын

後半のグラフの解釈は主成分分析と似てますね。固有ベクトル（第1主成分、第2…）と固有値（寄与率）が得られるところが。ただ、主成分分析と違って変数名ではなく、各カテゴリが直接配置されるところが違うのかな。今回の例の被説明変数では〇△×には順番的なもの（△は×より〇に近い）がありましたが、順番がない被説明変数（例えば「どの県に住みたいか」等）もあると思います。そのことに関連して〇を10、×を５、△を０（実務でこんなことはしないでしょうが）として分析にかけた場合、解釈に影響するほど異なった分析結果になるものでしょうか？また、順番がない被説明変数には、どのような方針で数値を割り当てるのでしょうか？

@AIcia_Solid 2 жыл бұрын

数量化II類では、順序尺度であっても名義尺度として扱って分析してしまいます。なので、順序を入れ込むには、なにか別の工夫が必要です。数量化理論やその周辺は自由度が高いので、多分そういうのもあるとは思いますが、今の私は知りません。すみません、、、🙇‍♀️🙇‍♀️🙇‍♀️

@rieeeee0502 8 ай бұрын

20:40 あたりのaの値はどのように算出しているのでしょうか？コードを拝見したのですが、算出するためのコードがなかったため、お聞きしました。

@AIcia_Solid 8 ай бұрын

ご視聴コメントありがとうございます🥳 計算はこのあたりでやっています！ ``` eig_vals, eig_vecs = np.linalg.eig(np.linalg.inv(S_tot).dot(S_between)) idx_eta_square = np.argmax(eig_vals) eta_square = eig_vals[idx_eta_square] qualitization_vector = eig_vecs[:, idx_eta_square] ``` なぜこの計算で良いのかは、こちらから始まるシリーズを見ていただければよいかと思います！ kzbin.info/www/bejne/bZjcZp2moa14rqs

@rieeeee0502 8 ай бұрын

ご回答ありがとうございます！コード動かせました！動画も拝見させてもらいます！

@AIcia_Solid 8 ай бұрын

それはとても良かったです！動画も是非のんびりご覧くださいませ😊

@KentaS-ze6pn 4 ай бұрын

度々失礼します。 26:30 あたりの「赤で○×△つけるパターン」と「緑で○×△つけるパターン」が異なるというのは、具体的にどのような意味でしょうか。お時間あるときに回答いただけますと幸いです。

@AIcia_Solid 4 ай бұрын

ご視聴コメントありがとうございます！質問もありがとうございます！これは、水筒が赤色のときに、どういうデザインを買いたい（◯）買いたくない（×）中間くらい（△）と思うかと、水筒が緑色のときに、どういうデザインを買いたい（◯）買いたくない（×）中間くらい（△）と思うかのパターンが異なるという意味で言いました。たしかにやや分かりづらい言い回しですね、すみません！🙏

@KentaS-ze6pn 4 ай бұрын

@@AIcia_Solidなるほど、そのような意味だったのですね！ご丁寧にありがとうございます！

@マスツウィ 4 жыл бұрын

自分も詳細知りたいです！そして、2類になってから急に難しくなった～～ぴえん(´;ω;｀) がんばろう～～コード上がってて、動画見やすくて、説明も丁寧、アイシアちゃんかわいくてもう最高です！！

@AIcia_Solid 4 жыл бұрын

ぴえん🥺 わたしのかわいさに免じて許してください😍

@水天然-v3e 2 жыл бұрын

大変勉強になりました。ありがとうございます!! 質問なのですが、被説明変数がカテゴリ変数（５種類）で説明変数が全てアンケートのような形でもともと「はい」か「いいえ」のダミー変数の場合でも特に問題なく適用できますか？他の動画の導出過程も見させて頂きましたところ、自分は問題なくできると思っていますが、ネットで検索すると大体示されている例が説明変数が元々ダミー変数の場合がなく、不安に思ったので質問させて頂きました。あと、動画でいうa500やa円のようなものは元来同じカテゴリの中のもの以外は、影響度の比較はできないという理解であっていますか？完全独学のような形で、少しでも理解がはっきりしないと不安になってしまうものですみません。お手数ですがお答えいただけると大変ありがたいです。

@AIcia_Solid 2 жыл бұрын

ご視聴コメントありがとうございます！問題なく適用できると思いますよ！(^o^) 異なるカテゴリでの比較は注意が必要です。同じカテゴリの中のどれかの a を 0 にしていて、他の a はそれからの差分を表すので、単純な比較はできません。そういう差分なのだという前提を持って比較する分には良いかと思います！

@水天然-v3e Жыл бұрын

@@AIcia_Solid ありがとうございます🙇‍♂ 再度申し訳ないのですが、この数量化二類の結果の有意性の検定などはないのでしょうか？未熟なため的外れな質問でしたら申し訳ありません。

@AIcia_Solid Жыл бұрын

たしかに、検定、あるんでしょうか？🤔 気になりますね。あるとは思いますが、設定する確率モデルに応じて色々ありそうです👀 どのような文脈で必要とされている感じでしょうか？？

@leer4340 4 жыл бұрын

「構造方程式モデリング」の動画で因子、潜在変数である言語力、数理力、記憶推論などの曖昧なデータをどのように数値化したのか？と質問させていただいたものです。この動画で話している数量化とこの質問内容は同じ内容でしょうか？それとも全く別件でしょうか？

@AIcia_Solid 4 жыл бұрын

おひさしぶりです！😍 両分析とも、やりたいことは似ていますが、数学的な手法が異なります。ですので、似た目的の別の分析と理解いただけるとよいかと思います！

@leer4340 4 жыл бұрын

@@AIcia_Solid 数量化Ⅰ類でするべき質問だったかもしれません。納得できなかったのでもう一度だけ質問させてください分析自体の比較ではなく、因子、潜在変数である言語力、数理力、記憶推論など元からあるデータとは別に作られた変数の数値化と今回話している「数量化」（曖昧なデータを数値化する技術？）は同じ内容でしょうか？

@AIcia_Solid 4 жыл бұрын

なんでも聞いてください！🎉 お答えする前に聞いておきたいのですが、「同じ内容」とはどういう意味を想定していますか？

@leer4340 4 жыл бұрын

@@AIcia_Solid １．「構造方程式モデリング」の動画に出てくる因子、潜在変数である「言語力、数理力、記憶推論」などはあいしあさんが勝手に作り上げた変数であり、この変数の決定は「構造方程式モデリング」の動画とは別に数学的な詳細を話すかもしれません。と返信がありました。２．数量化I類、Ⅱ類（この動画と、以前の動画）では、小～高校生の男女の身長の特徴や、水筒の色、形、容量などを数値化して分析に利用しようとしている（もしここの意味の解釈を間違えているなら前提が崩れるので動画見なおしてきます！）３．　１の因子、潜在変数（言語力など）の決定方法は別に数学的な詳細を話すかもしれませんといった内容と　２の身長や、水筒の特徴を数値化する技術つまり、言語力や水筒の種類など曖昧なデータを数値化する技術はどちらも数量化理論の話ですか？

@AIcia_Solid 4 жыл бұрын

なるほど！よくわかりました！構造方程式モデリングと、数量化理論とは別物です。 3の数学的詳細は、構造方程式モデリングの詳細で、これも数量化理論とは別物です！

@ken-ichinaitou6614 3 жыл бұрын

なんとなく分かった気にはなりましたが、やはり詳細知りたいです。プログラムの方を見れば分かりますかね？

@ken-ichinaitou6614 3 жыл бұрын

固有値や固有ベクトルって、計算、結構大変ですよね。昔、ハウスホルダー変換とかして大行列の計算してました

@AIcia_Solid 3 жыл бұрын

数式詳細は別動画にまとめますので、それをお待ち下さい。興味あれば、ソースコード見てみるのもよいと思いますよ！

@ken-ichinaitou6614 3 жыл бұрын

@@AIcia_Solid ありがとうございます！　楽しみにしています！　ソースコードも見てみますね

@urasandesu 2 жыл бұрын

わかりやすい説明ありがとうございます！ 1 点、動画・GitHub のノートともに間違いがあるように思います。 qualitization_vector の解釈において、dependent_vars として '形_円柱' を残しているにも関わらず、円柱の値を 0 にしてしまっているようなのです。動画 22:28 辺りでも「不思議」と言及されていますが、「形は、円柱より4角柱の方が好まれる」のではなく、「形は、4角柱より円柱の方が好まれる」のではないでしょうか？

@AIcia_Solid 2 жыл бұрын

ほんとだ！！！！！よく気づきましたね！！！！！！！！！！ありがとうございます！！！！！！！！！！！！！！！！！！！！！！！😍😍😍😍😍 概要欄にて訂正しつつ、GitHub も直しておきます！

@AIcia_Solid 2 жыл бұрын

訂正完了しました！ありがとうございました！！ github.com/sugiyama34/AIciaSolidProject/pull/60

@urasandesu 2 жыл бұрын

@@AIcia_Solid ありがとうございます！！！

@huoujfodssdfkfsdaojkfsdo3202 3 жыл бұрын

これはフィッシャーの線形識別ですか？なんか似ているような気がしたので。

@AIcia_Solid 3 жыл бұрын

同じものです！この時代は、いろんな国、いろんな分野で、同じものが何度も発見されていました。なので、別名で同分析ということはよくあります😋 わたしも、フィッシャーの判別分析というのは始めて聞きました。勉強になりました！😍🎉

@RIPvich 3 жыл бұрын

コードを一度拝見したいのですが,URL等を共有していだけますと幸いです！

@AIcia_Solid 3 жыл бұрын

ここのなかの qualification というところにあります！😎 github.com/sugiyama34/AIciaSolidProject

@tonnnsuke 3 жыл бұрын

多項モデルの一般回帰とどういうふうに違いますか？

@AIcia_Solid 3 жыл бұрын

分類器だと思ったら、そんなに結果は変わらないと思います。数量化II類の方が、若干、数理的制約があるので、精度が落ちるかもしれません。最大の差は、数量化II類では、説明変数のベクトル表現を得られることです。これにより、説明変数同士の関係性を分析できます😋