タグ

convex_optimizationに関するmoozのブックマーク (12)

  • informs08.dvi

    CVXMOD: Convex Optimization in Python Jacob Mattingley joint work with Stephen Boyd Electrical Engineering Department, Stanford University INFORMS, 10/12/08 CVXMOD • convex optimization modeling layer, in Python • completely open source, object-oriented toolchain • form problems easily using basic set of atoms and composition rules from convex analysis • uses CVXOPT’s general nonlinear convex solv

    mooz
    mooz 2016/07/10
    convex modeling
  • Adam論文概要とコード - Qiita

    最近、機械学習系のタスクから離れていて(ずっとRails書いてました...そろそろ機械学習界隈の世界に戻らんと...) まだAdamの論文読めてなかったので、読んで適当に実装してみました。 motivation 簡単に実装できて、計算効率が良くて、省メモリで、スケールの影響も受けにくくて、大規模なデータ/パラメタに対して適応的なモデルを作りたい Adamの名前の由来 Adaptive moment estimation Adamの利点 AdaGradとRMSPropの良い所を合わせ持った手法 AdaGradはsparse gradientに強い(が、一次モーメントのバイアス訂正項がないのでバイアスが非常に大きくなって、パラメタの更新が非常に大きくなる) RMSPropはオンラインで非定常な設定で強い(がバイアス訂正項が小さな値になるとstepsizeがバカでかくなる) 初期値を与える必要は

    Adam論文概要とコード - Qiita
    mooz
    mooz 2015/09/26
    "AdaGradとRMSPropの良い所を合わせ持った手法"
  • KDD2014勉強会 発表資料

    Li, Mu, et al. "Efficient mini-batch training for stochastic optimization." Proceedings of the 20th ACM SIGKDD international conference on Knowledge discovery and data mining. ACM, 2014. http://www.cs.cmu.edu/~muli/file/minibatch_sgd.pdf KDD2014勉強会関西会場: http://www.ml.ist.i.kyoto-u.ac.jp/kdd2014readingRead less

    KDD2014勉強会 発表資料
  • Random coordinate descent - Wikipedia

    Randomized (Block) Coordinate Descent Method is an optimization algorithm popularized by Nesterov (2010) and Richtárik and Takáč (2011). The first analysis of this method, when applied to the problem of minimizing a smooth convex function, was performed by Nesterov (2010).[1] In Nesterov's analysis the method needs to be applied to a quadratic perturbation of the original function with an unknown

    mooz
    mooz 2013/10/24
    Randomized (Block) Coordinate Descent
  • 量子焼きなまし法 - Wikipedia

    量子焼きなまし法(りょうしやきなましほう、英: quantum annealing、略称: QA、量子アニーリングともいう)は、量子ゆらぎを用いた過程によって、解候補(候補状態)の任意の集合から任意の目的関数の最小値(グローバルミニマム)を探す一般的方法である。 主に探索空間が多くのローカルミニマムを持ち離散的である問題(特に組合せ最適化問題)に対して用いられる(量子トンネリングを使用したスピングラスの基底状態の探索など)[1]。1994年にJ. D. Dollらによって現在とは別の形式が提案されていたが[2]、現在の形式は西森秀稔らによって1998年に考案されたものである[3]。 量子焼きなまし法は、均等な重み付けを持つ全ての可能な状態(候補状態)の量子力学的重ね合わせから開始する。次に、系は物理系の自然な量子力学的発展である時間依存シュレーディンガー方程式に従って変化する。状態間の量子

    mooz
    mooz 2013/10/21
    量子力学的に最適化問題を解くとかなんとか。D-Wave のプロセッサに入ってるらしい。
  • Line search - Wikipedia

    In optimization, line search is a basic iterative approach to find a local minimum of an objective function . It first finds a descent direction along which the objective function will be reduced, and then computes a step size that determines how far should move along that direction. The descent direction can be computed by various methods, such as gradient descent or quasi-Newton method. The step

    mooz
    mooz 2013/09/12
    最適化で、勾配方向の直線上で目的関数が最大・最小となる点を探す。ステップ幅の決定に。
  • EE364a: Convex Optimization I

  • EE364b - Convex Optimization II

  • A Stochastic Gradient Method with an Exponential Convergence Rate with Finite Training Sets - kisa12012の日記

    概要 データが事前に固定されていれば,ある種の一般的条件設定のもとで,データ数に対して定数オーダーの計算コストで線形収束を実現するSGDを提案.確率的最適化手法であるSGDと全データの勾配を毎ステップ計算して最適化するGDのハイブリッド(良いとこ取り)手法を提案し,こちらも理論的・実験的に非常に高速に最適解へ収束する事を示した. 背景 近年,ビッグデータが流行ってます 大量のデータから高速に学習する手法が求められています イテレーションコストを小さく,収束レートを早く 貢献 Stochastic Average Gradient method (SAG) を提案 SAGは線形収束することを証明 損失関数が微分可能,最適化問題はStrongly Convexである等の条件がいくつかあるが,大体の問題設定では満たされる アルゴリズム 1. データを1つランダムに選択し,現在の重みベクトルで勾配

    A Stochastic Gradient Method with an Exponential Convergence Rate with Finite Training Sets - kisa12012の日記
    mooz
    mooz 2013/08/30
    SAG (Stochastic Average Gradient). 線形収束するので高速.
  • Batch Gradient Descent vs. Stochastic Gradient Descent - MetaOptimize Q+A

    mooz
    mooz 2013/08/28
    SGD の downside について. (学習ではなく最適化問題に使うには)収束遅い, 学習率とCの2パラメータにセンシティブ.
  • Large Scale Learning to Rankを読んだ - 射撃しつつ前転 改

    当は三が日中にまともなエントリを1ぐらいは書く予定だったのだが、ちょっと無理だった。というわけで、実質的に新年一目のエントリです。Large Scale Learning to Rank (D. Sculley, NIPS Workshop on Advances in Ranking, 2009) (pdf) を読んだので、1目のエントリとしてこの論文を紹介したい。 では早速題に入ろう。順位学習において、Pairwise Learningを単純に行うと、n^2の学習コストがかかる。これは計算時間としては厳しい部類に入る。そもそも順位学習ってなに、という人は、WWW2009のチュートリアル(pdf)とかを参照してください。 Bottouらは、SGDの一般化能力はデータセットのサイズに依らず、どれだけのstochastic stepを実行したかで決まると言う事を示した。そこで、Sc

    Large Scale Learning to Rankを読んだ - 射撃しつつ前転 改
  • mizuyari 確率的勾配降下法( Stochastic Gradient Descent )

    今回は,確率的勾配降下法(Stochastic Gradient Descent, 以下 SGD)について触れてみようと思います. SGDは次のような目的関数が期待値で表現された最適化問題などに適用されるオンラインアルゴリズムです. ここで,  は  に従う確率変数とします. この形の最適化問題は機械学習の分野でよく表れます.今回は詳しく述べませんが,例えば とした場合の(1)はサポートベクターマシンに対応しています.以下では,機械学習の分野にならって を損失関数, を期待損失と呼ぶことにします. 最適化問題に対するアルゴリズムとしては,勾配法が良く知られています.勾配法というのは反復点が  のとき,次の点を とする反復アルゴリズムのことで,各反復点において目的関数の勾配とは逆方向に進むので,最小点への 収束が期待されるわけです.問題(1)についてもこの勾配法を適用出来れば,それで求解でき

  • 1