@tk
§15 関数の微分 II
§13 で微分を、§14 で積分を導入しました。今回は再び微分に焦点を当てます。微分と積分を行ったり来たりしながら話を進めていく事になりますが、§13 でも触れたように、微分積分学の基本定理を使いながら積分を通して微分の性質を明らかにしていくのが狙いです。
微分積分学の基本定理 II
§14 の定理 3 では「関数を積分してから微分すると元に戻る」というバージョンの基本定理を扱いました。定理番号を変更してステートメントを再掲します。
定理 1. なる区間 上の連続関数 に対して が成り立つ。但し は から端点を除いた区間。
上に対して、今回は「微分してから積分する」という操作に対応する定理を導きます。
定理 2 の証明のために一つ命題を準備します。この命題の証明は後で行います。
命題 1. 開区間 上で定義された微分可能な実数値関数 が , を満たすならば は定数関数である。
定理 2 の証明. 定理 1 より と置けば が成り立つ。よって on であるので s.t. , が成立。特に に注意して であり、これらの差を取って (1) を得る。
定理 2 の系として得られる以下の定理は微分積分学の基本公式と呼ばれ、初等関数の具体的な積分計算において有用です。
定理 3. を開区間、 を連続関数とする。 が 上で微分可能であり、, を満たすならば、任意の に対して
証明. に対して定理 2 を適用すれば が成立する ( の場合は自明、 の場合は , を考えれば良い)。
これらの定理を使えば、§14 で述べたような 等の計算を正当化する事が出来ますが、今回は微分の性質に焦点を当てたいので、具体的な積分計算の話題は次回以降に扱う事にします。
関数の微分と増減
関数の増減や最大値・最小値等を具体的に調べる方法として、高校数学では「導関数の符号を元に増減表を書く」という事をします。例えば () の最小値とそれを与える を調べようとする際、一つのやり方は と平方完成を使って のグラフの頂点にあたる座標を計算する、というものですが、これは二次関数特有の計算方法であって汎用的ではありません。 がもっと複雑な形状をしている時であっても、 と「微分係数が になる時の 」を計算してから導関数の符号 を調べる事で関数の増減の様子を捉える、というのが関数の微分の一つの大きな応用と言えます。今の場合、 は で狭義単調減少、 で狭義単調増大となる事から、 が最小値を取るのは の時である事が分かります。
ここでは増減表の上手な書き方を扱う事はしませんが、このような計算が何故可能なのか、その数学的な根拠を微分積分学の基本定理を使って明らかにしたいと思います。
命題 2. 開区間 上の -級関数 について、 on が成り立つ事と が 上で単調非減少である事は同値。
証明. on を仮定すると、 なる任意の に対して、定理 2 及び §14 の命題 4 から 即ち が成り立つ。
逆に が 上で単調非減少とする時、任意の に対して 及び のいずれの場合でも が得られるので、 とすれば を得る。
系. 開区間 上の -級関数 について、 on が成り立つ事と が 上で単調非増大である事は同値。
命題 2 及びその系によって、導関数の符号と関数の単調性の対応が分かりますが、更に狭義単調性に関して次が成り立ちます。
命題 3. 開区間 上の -級関数 が on を満たすならば は 上で狭義単調増大。
証明. , とする。 は 上で連続なので、§12 の定理 1 より において最小値を持つ。即ち s.t. . 仮定より となる事に注意して、§14 の命題 4 の系より が成り立つ3。後は定理 2 を使えば が得られる。
系. 開区間 上の -級関数 が on を満たすならば は 上で狭義単調減少。
なお命題 2 と異なり「 上で狭義単調増大 (または狭義単調減少) ならば (または ) on 」は成り立ちません。例えば の場合を考えてみましょう。
さて、上の具体例 では、(2) と命題 3 及びその系を用いて が示される事となります。そしてこの において、 の微分係数は となるのでした。
次に () という例を考えてみます。この場合、 であり、 となります。よってこの場合、 の近くにおける の符号は の 近辺のものと類似した状況になっています。しかしながら、 (複合同順) のため は において最大値も最小値も持ちません。「 は において、その近くでは値が一番小さくなる」という状況を表すために以下の概念を導入します。
定義. 関数 が において次を満たす時、 は で極大となると言い、 を極大値 (local maximum) と呼ぶ4。 が で極大となる時、 は で極小となると言い、 を極小値 (local minimum) と呼ぶ。
上の例の場合、 を例えば の上に制限すれば において は最小となっているので、 は の極小値です。同様に は の極大値となります。
ところで、 の定義域を に制限した場合を考えてみると、, 即ち は の 点で最大となっている事が分かります。しかしながら、 では は極大となっているのに対して、 においては最大であるものの極大とはなっていません。 を含む に含まれる「開区間」が (空集合を除いて) 存在しないからです。このように、最大値 (あるいは最小値) であっても必ずしも極大値 (あるいは極小値) とはならない事に注意しなければなりませんが5、それでも関数の振る舞いを調べる際に極大値・極小値を求める事は有益です。特に、次の定理によれば、(連続微分可能な) 関数 が極大値・極小値を取る点 の候補を「方程式 の解」に絞り込む事が出来ます。
命題 4. 開区間 上の -級関数 が において極大あるいは極小となるならば が成立。
証明. が において極大である場合を考える。極大値の定義より s.t. , , が成り立つ。つまり は 上で単調非減少であり、 上で単調非増大。よって命題 2 とその系より on かつ on となる。 は において連続なので、これらから かつ 即ち である事が分かる。極小の場合も同様。
なお、命題 4 の逆、即ち「 ならば は において極大または極小」は成立しません。反例として、 は原点において微分係数が となりますが極大にも極小にもなっていません。
さて、今 上で定義された -級関数 の増減について調べる事を考えてみます。方程式 の なる解が と全て求まったとします (つまり )。簡単のため , としておきましょう。
すると、区間 において は「常に正」か「常に負」のどちらかとなります。何故ならば、もし , であって と の符号が異なるような事があれば、 が 上で連続である事に注意して中間値の定理から なる が存在する事となり、 が の最小の解である事に矛盾するからです。そうすると、命題 3 及びその系から、 は 上で狭義単調増大あるいは狭義単調減少となります。
次に 上について同様に考えると、やはり は狭義単調増大あるいは狭義単調減少となります。もし が 上で狭義単調増大かつ 上で狭義単調減少となっているならば、 は において極大値を取る事となります。逆に、 上で狭義単調減少かつ 上で狭義単調増大である場合には は で極小となります。それ以外の場合には において は極大あるいは極小となりません (即ち 上でずっと単調 (増大または減少) となります)。
同様の事を で繰り返し、極大値・極小値及び関数の各区間における増減を調べた上で、更に , の値と各極大・極小値とを比較して最大値・最小値を求める…というのが、所謂「増減表を書いて関数の振る舞いを調べる」という手順の現代数学的な解釈です。
2 階導関数と凸関数
開区間 上で微分可能な実数値関数 について、その導関数 もまた 上の関数であるので、その微分可能性を考える事が出来ます。 が で微分可能である時、 は において 2 階微分可能である (twice differentiable) と言い、その微分係数を と表して 2 階微分係数 (second derivative) と呼びます。また が で微分可能である時、 は 上で 2 階微分可能であるといい、関数 を の 2 階導関数 (second derivative) と呼びます。更に が 上で連続である時、 は -級 であると言い、 と表します。3 階以上の微分係数や導関数の概念も同様に定義されます6。但し、高階導関数を表すのに と表すのは読みにくいので、 階導関数を とも表します。例えば , です。同様に と解釈します。
関数の 2 階導関数はその関数が定めるグラフの凹凸と関係が深い事が知られています。増減表を書く時にも、一階微分だけでなく二階微分の計算まで行ってより詳細なグラフの形状を求める場合もあるでしょう。そのためにまず、関数の凹凸に関する数学的な定義を与えます。
定義. 区間 上の実数値関数 が次を満たす時、 は で下に凸 (convex) あるいは単に凸であると言う。 が下に凸である時、 は上に凸 (concave) あるいは凹であると言う。(3) の不等式において等号が成立するのは の時のみである場合、 は狭義凸 (strictly convex) であると言う。 が狭義凸であるならば は狭義凹 (strictly concave) であると言う。
この定義も、数式だけを見ているだけでは直観的なイメージが分かりにくいかもしれません。以下の図は凸関数 のグラフのイメージです。
(3) の不等式の左辺が表しているのは「線分 を の割合に内分する点における の値」であり、右辺が表すのは「平面上の 2 点 と を の割合に内分する点 (の高さ)」です。関数のグラフにおける任意の 2 点を結ぶ線分の内分点よりも のグラフが下に位置している、というのが凸性の直観的なイメージとなります。
凸関数に関する基本的な性質として以下があります。
定理 4. 開区間 上の微分可能な実数値凸関数 について以下が成り立つ。
証明. の時は (4) は明らかなので、 として (4) の不等式を示す ( の時も同様)。任意の に対して と置くと7、(3) から が成立。ここから が得られるので、 として8 (4) を得る。
実は、(4) から の凸性を示す事も出来ます (よって、微分可能な関数が凸である事と (4) が成り立つ事は同値です)。実際、所与の , に対して、 と置くと、(4) から の 2 式が得られます。これらを組み合わせて を得る事が出来ます。
この定理から、凸関数に関する数多くの性質を導く事が出来ます。以下、系として一挙に紹介していきます。
系. 開区間 上の微分可能な実数値凸関数 の導関数 は 上で単調非減少。
証明. とする時、(4) において と の役割を入れ替えた式 及び (4) そのものを組み合わせて を得る。後は各辺を で割れば が得られる。
系. 開区間 上の -級 が凸であるならば , が成り立つ。
証明. 上の系と命題 2 から明らか。
系. 開区間 上の微分可能な実数値凸関数 がある において となるならば が成り立つ。更にもし が狭義凸ならばそのような は唯一つに定まる。
証明. 上の系より は 上単調非減少であるため、 に対して ならば である。よって命題 2 の系から ならば が成立。逆に の時は となるので、命題 2 から の時 が成り立つ。いずれにしても任意の に対して が成立しており、 は の 上の最小値となる。
また、 が狭義凸の時に の二点において となっていたとすると となり矛盾が生じる ( において が最小値よりも小さな値を取ってしまう)。よって最小値を与える はたかだか一つしか無い。
上で述べたように、方程式 を解いただけでは において が最大となっているのか最小となっているのか、それどころか極大か極小かすら一般には分からないのですが、凸関数に対しては の解がそのまま の最小値を与える事が分かります (逆に、 が凹関数であるならば の解は の最大値に対応します)。よって、ある関数 の最小化問題を考える場合、もし の凸性が既に分かっているのならば、 の最小値を求めるためには単に となるような を探せば良い事になります ( の解が存在しない場合もあり、その時は注意が必要ですが)。
ここまでの話からも分かるように、凸関数は最適化問題 (optimization problem) において大変重要な役割を担っています。最適化問題とは、一言で言えば「何らかの関数 (目的関数と呼ばれるもの) を最大化あるいは最小化するような 及び対応する を求める問題」の事です。この時の変数 を制御 (control) と呼びます。
例えば複数の金融資産への分散投資において、「どの金融資産をどの位買うか (あるいは売るか)」を考える事はある種の最適化問題となっています。この場合、 としては例えば「各資産への投資比率」が対応し、目的関数としては最大化を考える際は期待収益 (利益)、最小化を考える際はリスクあるいはコスト等が該当します。もし投資対象の金融資産が二種類だけであるならば、「第一資産に の割合だけ、第二資産に の割合だけ投資する」事にすれば問題を 1 変数 のみの最適化として定式化する事が出来ますが、通常はより多くの金融資産に対する投資比率の組み合わせ9を考えなければならず、その場合は多変数の最適化問題を考えなければなりません。
また、ニューラルネットワークをはじめとする機械学習における多くのモデルにおいて、学習とは「損失関数 (コスト関数) の最小化」を意味しています。つまり、大量のモデルパラメーターを動かして「損失関数が最も小さくなるようなパラメーターの組み合わせを探す」事を目指しており、これもまた多変数の最適化問題として定式化されるものです。
実際の最適化問題における目的関数は必ずしも凸とは限りませんが、もし凸性が厳密に保証されていない場合にも、現実的な最適化問題の求解において目的関数の導関数の挙動を調べる事はしばしば有用です。
凸関数に関する応用として、もう一つ有名な定理を示しておきます。
定理 5. (Jensen の不等式 I) を開区間 上で定義された微分可能な実数値凸関数とし、また , とする。更に を なる実数とする。この時次の不等式が成り立つ。
の時は凸性の定義 (3) そのものです ( に注意)。定理 5 は、(5) が で成り立てば任意の に対しても成立する事を主張しています。証明は数学的帰納法を用いて容易に行えますし、定理 4 の後に記した「(4) 凸」の証明と同じ計算を行っても出来ます。
次の不等式もまた Jensen の不等式と呼ばれています。
定理 6. (Jensen の不等式 II) を 上の Riemann 積分可能な実数値関数とし (但し )、 を の値域を含む開区間、 を微分可能な凸関数とする。この時、次が成立する。
証明. と置く。(4) より となるので、§14 の命題 4 の系から を得る。後は両辺を で割れば良い。
定理 5 は離散和に対する、定理 6 は Riemann 積分に対する不等式ですが、実は測度論の言葉を使うと、(5), (6) はどちらも「Lebesgue 積分に対する不等式」として一つにまとめる事が出来ます。特にこれらは全測度 の有限測度、即ち確率測度 (probability measure) の下での積分、つまり期待値 (expectation) に対する不等式と捉える事が出来るので、Jensen の不等式は確率論ではとりわけ重要な役割を担っています10。しかし今は、定理 5 の帰結として得られる次の有名な不等式を導くまでに留めておきます。
命題. (相加相乗平均の不等式) 任意の , に対して次が成り立つ。
証明. , として定理 5 を適用すれば良い。 が 上で凸である事は である事から分かる11。
寄り道: 凸関数の最適化アルゴリズム
これまで見てきた関数の微分の性質を用いて、いくつかの数値計算アルゴリズムの背後にある数学的根拠を調べてみたいと思います。まず、§7 の具体例に対する数値計算で用いた Newton–Raphson 法を紹介します。これは、非線形方程式 の解を数値的に求めるためのアルゴリズムであり、適当な初期値 から出発して漸化式 によって数列 を定める、という方法です。もしこれが何らかの に収束するのであれば、(7) で として 即ち が得られ、 が解である事が分かります。実際の数値計算の際には適当な で打ち切って を近似解として用いる事になるのですが、 が十分大きければ であり である事が期待されます。
勿論上の方法はどんな に対しても適用出来るわけではなく、いくつかの数学的な仮定が必要です。例えば、 の解が存在するためにはそもそも が常に正や常に負となっていては駄目ですし、また (7) を考えるためには となっていなくてはなりません。Newton-Raphson 法のための仮定の置き方にもいくつかのバリエーションが考えられますが、ここでは最も基本的と思われるものを紹介します。
命題 5. を -級の狭義単調増大な凸関数とし、ある に対して とする。この時、任意の に対して を (7) によって帰納的に定めれば、 は の下である に収束して が成り立つ。
証明. まず中間値の定理から、 となる が存在し、更に狭義単調性からそのような は唯一つに定まる。またやはり狭義単調性から常に である事にも注意。
さて、任意の に対して次の二つが成り立つ事を示す。
1.
2.
まず 1. について、定理 4 と (7) から となり、これと の単調増大性から分かる。2. については (8) と より が従う。
よって は下に有界な単調非増大列なので極限 を持つ。(7) において とすれば が得られる (従って である)。
証明中の性質 1. について、初期値である は適当に選んでいるので 以上とは限らないのですが、一旦 (7) のアルゴリズムが動き出すと、 に対しては 達は自動的に 以上かつ単調非増大となり、目的である の解に収束していく事が分かります。今回の証明では の凸性が本質的に機能しているのですが、一般には凸性が無くとも Newton–Raphson 法を適用する事が出来ます。例えば次の命題が知られています。
命題. を開区間とし、 が on を満たすとする。更に方程式 は の上で解 を持つとする (つまり , )。この時、 を含むある開区間 が存在して、任意の に対して、これを初期値として (7) で定められる数列 は の下で に収束する。
この命題では、 が にならない事は仮定されていますが、 の単調性も凸性も何も仮定されていません。そのため、 の解が唯一つに定まるとも限らず、複数の解を持つ場合も想定されます (少なくとも一つは解を持つ事は仮定されています12)。初期値の選び方によっては (7) による数列が我々の目標とする に収束してくれるとは限りませんし、もっと言えばいずれの解にも収束しない可能性もあります。この命題は、少なくとも目標の の近くにうまく初期値を選べば、(7) が定める が に収束する事を保証しています。しかしそのためには、予め がどの辺りに存在するのか当たりを付けておかなければなりません。
なお、Newton–Raphson 法は非線形方程式 の解に収束する近似列を作るために導関数 を用いる手法であり、そのために はある程度滑らかである13と仮定されていなければならないのですが、 が滑らかでなくとも の数値解を求めるアルゴリズムも知られています。例えば二分法 (bisection method) は、区間 において単調な連続関数 に対する零点 ( となる ) を求めるために、まず零点が と のどちらにあるかを調べ、今度は該当する区間を更に半分に分割して零点がどちらにあるかを調べ…と、区間をどんどん半分にしていって零点を追い込んでいくような方法です。それ以外にも実用的なアルゴリズムとして様々なものが知られていますが、ここではこれ以上踏み込まない事にします。
さて、再び凸関数 の最小化問題を考えます。 は -級であるとし、また簡単のため とします。更に話を単純にするため としましょう。すると は狭義単調増大となり、もし なる が存在すれば はそこで最小値を取る事となります14。
もし が Newton–Raphson 法を適用出来る条件を満たしているならば、 の解 は適当な初期値 と というアルゴリズムで近似する事が出来る事となり、よって十分大きな に対して と考えられます。このように、最適化問題を解くためのアルゴリズムとして Newton–Raphson 法を応用する事も出来ます。
Newton–Raphson 法に基づいた最適化アルゴリズム (9) を適用する場合、毎回のステップにおいて一階微分係数 だけでなく二階微分係数 も計算する必要があります。今は一変数の関数だけを考えているので別に良いのですが、応用上は が多変数となっている事がほとんどです。また深層学習 (deep learning) で用いられるような複雑なモデルにおいては途轍もない数の変数に対して微分係数を計算する必要が生じます。ニューラルネットワークモデルの場合、一階微分 (所謂勾配 (gradient)) ならば誤差逆伝播法のような手法を用いて効率良く計算する事も出来ますが、二階微分を全て計算するのは現代のコンピューターの性能をもってしても困難となる場合が多いようです15。
ところで、最適化アルゴリズムにおいて一般に という形で を更新していき、 を に近付ける方法を勾配法 (gradient method) と呼びます。ここで はステップ数 によって値を調節し得る係数であり、Newton–Raphson 法の場合は と設定されます。
一方で、機械学習において最急降下法 (gradient descent) と呼ばれる手法 (の中で最もシンプルなもの) では、適当な小さな実数 を用いて と設定します16。この場合、関数の二階微分の計算は必要が無いので、Newton–Raphson 法に基づいた最適化よりも計算コストを劇的に減らす事が出来ます。但し収束は多くの場合 Newton–Raphson 法よりもかなり遅くなると言われています。ここでパラメーター はステップサイズを表しますが、機械学習の文脈において学習率 (learning rate) と呼ばれるのが一般的です。
ここではやはり が凸である場合のみを考えますが、学習率をある程度小さく取れば、最急降下法のアルゴリズムもまた数学的に最適解 (即ち の最小値を与える点) に収束する事が示されます (証明は次回とします)。
命題 6. を強圧性条件 を満たす狭義凸関数とし、 と仮定する。この時、任意の に対してある が存在して、 を初期値として で定められる数列 は の下で極限 を持ち、 が成り立つ。
最急降下法等の手法を用いれば、(もし目的関数が数学的に良い性質を持っているならば) アルゴリズムの適用によって目的関数の最適化が果たせるはずですが、現実にはなかなかそううまくはいきません。理論的に保証されているのは「 とした時の収束」であり、「100 回繰り返せばうまくいく」「1000 回繰り返せば十分」等の具体的な基準が与えられているわけでもなく、また現実における目的関数はこれらの命題が前提としている程の綺麗な数学的仮定を満たしているとは限らないので、実際にはアルゴリズムの収束 (学習) がより効率的になるような現実的な (あるいは理論的考察に基づいた) 工夫の余地があります。その他、必ずしも (10) の形に限らず、 の更新に関する様々な手法が提案されています17。
ここまでのまとめ
微分積分学の基本定理によって「微分の理論」と「積分の理論」を行き来しながら、今回は関数の微分に関する基本的な性質を調べました。関数を微分する事で、その関数の増減の様子を局所的に調べられますが、特に凸関数 (あるいは凹関数) の場合は微分を計算する事で大域的な振る舞いまで調べる事が出来ます。
凸関数に関する研究分野である凸解析 (convex analysis) では、今回扱ったような一次元の凸関数だけでなく、多変数あるいは無限次元の凸関数に関する様々な性質が扱われており、これらの理論を用いる事でより複雑かつ大規模な最適化問題の解析や求解を行う事が出来ます。凸解析はそれ自体かなり大きな研究分野ですが、今回はその触りとして、一変数の滑らかな凸関数について基本的な性質を (「寄り道」として) 紹介しました。
次回は再び積分に戻って、Riemann 積分に関する更なる性質を調べながら、微分積分学における花形とも言える Taylor の定理及び Taylor 展開に少しずつ迫っていきたいと思います。
補遺: 命題 1 の証明
関数の微分を扱う多くのテキストでは命題 1 や定理 2, 3 の証明に Rolle の定理や平均値の定理を使うのが一般的であり18、以下で与える証明もまた本質的にはこれらの定理の証明に倣っています。
証明. が定数関数でないとすると、ある , に対して となる。そこで関数 を で定めれば、仮定から は 上で微分可能 (更には -級) であり、特に が成立。ところで、 は 上の連続関数でもあるので、§12 の定理 1 から s.t. が成立する。ここで、もし であるならば、 は において極大となるので となってしまい (11) と矛盾する19。よって のどちらかとなるが、いずれの場合にも が成立。よって となる。同様にして が示せるので、結局 , となるが、(§13 で述べたように) 定数関数の導関数は となる事から、再び (11) と矛盾してしまう。
以上より、背理法によって が定数関数である事が示された。
- この場合、 という記号を用います。閉区間上の微分可能な関数については後で補います。↩
- この仮定はもう少し弱める事が出来、実際には は 上で (連続微分可能ではなく単に) 微分可能かつ Riemann 積分可能であるだけで十分です (脚注 1 と同様、端点での微分可能性については後述)。しかし、我々が当面対象とする関数は連続微分可能であるものがほとんどであるため、これ以上の拡張はここでは扱いません。なお定理 2 の仮定の下では は 上で連続である事から (1) 左辺の Riemann 積分可能性は保証されている点に注意しましょう。↩
- の事を と略記します。↩
- より具体的に書き下すと、 s.t. , , となりますが、文献によっては上の不等式において等号となる事を許さず の時のみ を極大値と定義している場合もあります (極小値も同様)。↩
- とは言え、「最大・最小となる点で極大・極小とならない」という問題が生じるのは定義域の端点に限られます (理由を考えてみて下さい)。↩
- 自然数 に対する -級関数全体の集合 のアナロジーとして、 上の連続関数全体を と表す事があります。単に と表す事も多いです。↩
- 言うまでも無く、 となるように逆算して定義しています。いきなりこの形の を思いついた (思いつかなければならない) というわけではありません。↩
- の場合を考えていませんが、 の における微分可能性は仮定されているので問題ありません (もっと言えば , という場合のみを考えて とするのでも構いません)。↩
- ポートフォリオ (portfolio) と呼びます。↩
- 更に言えば、定理 5, 6 において実は の微分可能性の仮定は不要なのですが、簡単のためにこの仮定を置きました。↩
- 狭義凸性を使えば、不等式の等号成立条件が である事まで分かりますが、詳細は割愛します。↩
- このような主張を持つ定理を局所収束定理 (local convergence theorem) と呼びます。方程式の解の存在を仮定しないバージョンの定理も知られており、半局所収束定理 (semi-local convergence theorem) と呼ばれています。Newton–Raphson 法に対する半局所収束定理は Newton–Kantorovich の定理として知られています。↩
- 厳密な言い方ではありませんが、関数が何回も微分可能である時にその関数を滑らか (smooth) と呼びます。文献によって、無限回微分可能である時に限って滑らかという表現を許す場合もあります。↩
- そのような が一つも存在しないかもしれません。例えば は を満たしますが、 は実数解を持ちません。例えば であるならば、 は 上のどこかで最小値を取らざるを得ないので、その点で極小となり の解が保証されます。このような条件を強圧性 (coercivity) と呼びます。↩
- いずれ多変数関数の微分も扱いますが、例えば が 次元の変数である場合、 の一階微分は 個の方向に対する微分を集めた 次元ベクトルとなるのに対して、二階微分 (Hesse 行列 (Hessian matrix)) は のサイズの行列となります。二階微分の計算では「まず 方向に微分してから、次に 方向に微分する」という手順が生じ、常に二つの方向に対する微分を考えなければならないからです。よって、例えば であった場合、一階微分を計算するのには 回計算すれば良いところ、二階微分では 回の計算が必要となってしまいます (さらに言えば、各々の微分の計算量も一階微分よりも二階微分の方が多くなります)。勿論、問題によっては「 がたまたま綺麗な形をしているために二階微分の計算が楽に出来る」という場合もあるかもしれませんが。↩
- 文献によっては となるような を用いる等、更新と共に を適切に動かす場合にも最急降下法という名称を用いますが、機械学習の枠組みでは が定数の場合を指す事が多いようです。↩
- 機械学習における最適化問題では、大量の入力データ (ここではその集合を とし、何らかの方法で全て実数値に変換されているものとします) に基づいて目的関数が のような形で与えられるのが一般的です。但し は入力データ に依存した関数です。すると の微分は という形で与えられるのですが、実際の機械学習においては、この 全てを計算して足すのではなく、 の中からランダムに ( と比較して) 少数の を選び出して を計算して を更新していく、という手順が取られる事が多く、こうする事で学習の効率性を向上させられる事が多いと言われています。このような方法をミニバッチ学習 (mini-batch training) と呼び、ミニバッチ学習と最急降下法 (あるいはそれ以外の勾配法) を組み合わせた手法を確率勾配降下法 (stochastic gradient descent; SGD) と呼びます。↩
- なお、Rolle の定理と平均値の定理もまた、§6, §7 で紹介した実数の連続性公理と同値な命題です。↩
- 今回示した命題 4 を使ってしまっており、命題 4 の証明には命題 2 が使われているので破綻しているように感じられるかもしれませんが、実は命題 2 の証明の後半では定理 2 を用いておらず、命題 4 自体において微分積分学の基本定理は必要とされていないので問題ありません。↩
※ AMFiL Blog の記事を含む、本ウェブサイトで公開されている全てのコンテンツについての著作権は、一般社団法人数理ファイナンス研究所 (AMFiL) 及びブログ記事の寄稿者に帰属します。いかなる目的であれ、無断での複製、転送、改編、修正、追加等の行為を禁止します。