タグ

2013年8月7日のブックマーク (6件)

  • 統計的機械学習入門

    統計的機械学習入門(under construction) 機械学習歴史ppt pdf 歴史以前 人工知能の時代 実用化の時代 導入ppt pdf 情報の変換過程のモデル化 ベイズ統計の意義 識別モデルと生成モデル 次元の呪い 損失関数, bias, variance, noise データの性質 数学のおさらいppt pdf 線形代数学で役立つ公式 確率分布 情報理論の諸概念 (KL-divergenceなど) 線形回帰と識別ppt pdf 線形回帰 正規方程式 正規化項の導入 線形識別 パーセプトロン カーネル法ppt pdf 線形識別の一般化 カーネルの構築法 最大マージン分類器 ソフトマージンの分類器 SVMによる回帰モデル SVM実装上の工夫 クラスタリングppt pdf 距離の定義 階層型クラスタリング K-means モデル推定ppt pdf 潜在変数のあるモデル EMアル

  • 統計的機械学習入門 | 中川研究室

    導入pdf 情報の変換過程のモデル化 ベイズ統計の意義 識別モデルと生成モデル 最尤推定、MAP推定 データの性質 情報理論の諸概念 (KL-divergenceなど) 距離あるいは類似度 数学のおさらいpdf 行列の微分 線形代数学の役立つ公式 多次元正規分布 条件付き正規分布 Bayes推論pdf Bayseによる確率分布推定の考え方 多項分布、ディリクレ分布 事前分布としてのディリクレ分布の意味<\li> 正規分布と事後分布 指数型分布族 自然共役事前分布の最尤推定 線形回帰および識別pdf 線形回帰のモデル 正則化項の導入 L2正則化 L1正則化 正則化項のBayes的解釈 線形識別 2乗誤差最小化の線形識別の問題点 生成モデルを利用した識別 学習データと予測性能pdf 過学習 損失関数と Bias,Variance, Noise K-Nearest Neighbor法への応用 b

  • 赤池情報量規準 - Wikipedia

    赤池情報量規準(あかいけじょうほうりょうきじゅん; 元々は An Information Criterion, のちに Akaike's Information Criterionと呼ばれるようになる)は、統計モデルの良さを評価するための指標である。単にAICとも呼ばれ、この呼び方のほうが一般的である。統計学の世界では非常に有名な指標であり、多くの統計ソフトに備わっている。元統計数理研究所所長の赤池弘次が1971年に考案し1973年に発表した[1]。 AICは、「モデルの複雑さと、データとの適合度とのバランスを取る」ために使用される。例えば、ある測定データを統計的に説明するモデルを作成することを考える。この場合、パラメータの数や次数を増やせば増やすほど、その測定データとの適合度を高めることができる。しかし、その反面、ノイズなどの偶発的な(測定対象の構造と無関係な)変動にも無理にあわせてしま

  • mizuyari 確率的勾配降下法( Stochastic Gradient Descent )

    今回は,確率的勾配降下法(Stochastic Gradient Descent, 以下 SGD)について触れてみようと思います. SGDは次のような目的関数が期待値で表現された最適化問題などに適用されるオンラインアルゴリズムです. ここで,  は  に従う確率変数とします. この形の最適化問題は機械学習の分野でよく表れます.今回は詳しく述べませんが,例えば とした場合の(1)はサポートベクターマシンに対応しています.以下では,機械学習の分野にならって を損失関数, を期待損失と呼ぶことにします. 最適化問題に対するアルゴリズムとしては,勾配法が良く知られています.勾配法というのは反復点が  のとき,次の点を とする反復アルゴリズムのことで,各反復点において目的関数の勾配とは逆方向に進むので,最小点への 収束が期待されるわけです.問題(1)についてもこの勾配法を適用出来れば,それで求解でき

  • 100万件では専用ツールが最速

    実際に構築するHadoopのシステムでは(a)インポートや(d)エクスポートのように、扱うデータ量に依存し、Hadoopのノード数を増やしても性能が向上しない処理があり、そこがボトルネックになり得る。いかに効率良くRDBMSからデータをインポート/エクスポートするかが非常に重要だ。 ここでは、(a)インポートに焦点を当て、「JDBCドライバを使用して標準SQLでアクセス」「米Clouderaが提供するデータ転送ツールsqoopを使用」「MySQLの独自機能を利用したダンプ」の3通りの方法を試した(図4)。

    100万件では専用ツールが最速
    mooz
    mooz 2013/08/07
  • Sqoop -

    Apache Sqoop(TM) is a tool designed for efficiently transferring bulk data between Apache Hadoop and structured datastores such as relational databases. Sqoop successfully graduated from the Incubator in March of 2012 and is now a Top-Level Apache project: More information Latest stable release is 1.4.7 (download, documentation). Latest cut of Sqoop2 is 1.99.7 (download, documentation). Note that

    mooz
    mooz 2013/08/07
    RDB のような structured なデータストアと HDFS の間でデータをやりとりするためのツール