田舎で育つということ

田舎で育ってから大都市に行った人間は,好むと好まざるとにかかわらず,田舎での過去をアイデンティティ (あるいは呪詛) の一部として抱えることになる.

中国山地沿いの小さい町を出て東大へ進学した私は,同級生の文化的素養の深さに驚かされた.彼らは数学と物理学について卓越した知識を持つ,のみならず,音楽とか美術とか何かしらの一芸を持っており,その人格と識見には尊敬すべきものがあった.

大学の教室で本を読んでいたとき,学科の友人に書名を聞かれて,E. H. カーの『危機の二十年』だと答えたら,「ああ,あの有名な」と返されて,心底驚いたことがある.E. H. カーは■■市では全く有名ではなかった.私が■■市で過ごしていた頃,E. H. カーとか小林秀雄の話ができる相手は,歴史学の教員を除いては全くいなかった.私がいた学校には,「もう勉強したくないから」という不思議な理由で入学してきた人がたくさんいた.こうした環境で学術と文化への興味を保つには,非自明な努力を要する.

---

私がかつて大学の学祭でおこなった展示には,信じられないほど進んだ知識を持つ小中学生がたくさんやってきた.彼らが持っていたような知識を私がようやく身につけたのは,17 歳かそこらになってからだった.私が山間部の中学校で連立方程式を学んでいたとき,中学受験を経た同い年の人たちは微分積分を学んでいた.私が図形の相似を学んでいたとき,彼らは微分方程式を学んでいた.そしてその違いは,私と彼らの知的能力が著しく隔たっていたからではなく,私が田舎に住んでいて彼らが東京に住んでいたから,生じていたのだ.

---

■■駅から半径 50 km 以内には数学書を売っている書店は一つもない.一般向けのサイエンティフィックな読み物とか高校数学の参考書は売っているのだが,齋藤線型代数は売っていない.あなたが■■市在住の高校生で,奇特にも線形代数を勉強したいと思ったら,齋藤線型代数の価格の 2 倍近い運賃を払って◯◯市まで出る必要がある *1

■■市には大学が一つしかない.私立の単科大学である.あなたが■■市在住の高校生で,実家から通える大学に進もうと思ったら,専攻は児童教育・社会福祉・栄養のいずれかに限られ,国立大学の 2 倍を超える学費を毎年支払うことになる.少し前,Twitter で「東京にはちょうどいい国立の総合大学がない」と嘆いている人を見たとき,なんという贅沢な悩みだろう,と思った.東京に住んでいる人は,実家から通える範囲で,ほとんど全ての専攻を選べる.

---

田舎では,選択肢と可能性が絶望的に少ないので,学術への興味を持つこと自体まず容易でないし,その興味に沿って学ぶことはなおさら難しい.単に「田舎に生まれたから」という理由で,花開くべき才能をみすみす枯らしてしまった人が,どれほどたくさんいることか.

そして,幸運にもこの閉塞的な田舎をすり抜けて,大都市で文化と学術に触れることのできた若者は,ほとんどの場合,二度と地元に帰らない.培ったその知識を活かすべき場が田舎には少なすぎるからである.こうして田舎ではおよそ学術と縁のない人間のみが再生産される.

*1:もちろん今は通販があるのだが,特に数学書を買うときは,手に取って選ぶということが死活的に重要である.

小都市を旅する

かねてから私は,大した目的もなく小都市に行くことが好きだった.

小都市の駅に降り立つと,あたりは静まり返っていて,ロータリーに客待ちのタクシーが数台停まっている.歩道に人はおらず,多少のビルと車だけが視界に入ってくる.そこでは,淡々と静かに生活が営まれている.私にとって東京の人混みは耐え難い苦痛だったので,こうした風景は救いであり,願いでもあった.私が東京で送っていた (送っている) 暮らし——たくさんの人で溢れかえった駅や公園や歩道,通路が狭すぎるスーパーマーケット,満員電車,音と光の絶え間ない刺激,道の向こうからやってくる人とのすれ違い,それら全てを避けるため自室に籠る日々——はおよそ生活と呼べるものではなかった.少なくとも,上京前に私が送っていた「生活」とは異なっていた.私の思う生活は,もっと森閑としていなければならなかった.そこで私は,小都市への旅行という非-生活を利用して,生活に接近しようとしていた.

さて一方で,小都市を訪うたびに私は,その生活から完全に拒まれているという気がしてくる.非-生活で以て生活に近づこうとしているのだから,私はその地で現に生活を営んでいるわけではないのだから,それは当然である.更に一歩を進めると,私は小都市において,生活から主要項を差し引いた剰余——生活の上澄み——のみを味わっていたに過ぎなかった.その主要項とは,生活を真に生活たらしめるものであって,労苦,繁忙,人間関係,すなわち私が東京で心から呪っていたものである.

私が上京前に送っていた「生活」とは,生活の主要項——他者との相互作用——をもっぱら両親に負担させることで実現されていた.生活のためには金も要るし,人付き合いも欠くわけにはいかないし,どこかで毎日の食べ物を調達しなければならない.ただ東京ではこうしたこと全てが (主に過密と交通事情のために) 私からもよく見えて,地方では自動車と家族関係によって覆い隠されているだけのことだ.煩雑な人間関係,神経を摩耗させる通勤,こうしたものを全て両親に委ねて,私は静かに晴耕雨読を気取っていた.それと同様に,小都市に旅行しているときの私は,よそ者であり「お客様」であるという身分のために,生活の苦痛を一時免除されていたのだ.

すると私は,時間の問題を空間の問題と取り違えていたことになる.このことへ思いを致すとそぞろ絶望的な気分になる.なんとなれば,空間は可逆だが,時間は不可逆だからである.私はこれから数十年間,生活の主要項を——本当にうんざりするほどたくさんの人間との相互作用を——背負いながら生きていかなければならないのだろうか? 東京で暮らすにせよ,小都市で暮らすにせよ.

2023 年を振り返って

学業

  • 年明けから春にかけて関数解析のゼミに参加した.Hilbert 空間に関する章は合宿で読んだ.いま振り返って思うが,大変有益なゼミだった.
  • TOEFL を受検した.94 点だった.海外渡航経験のないノンネイティブとしてはかなりいい線行けたと思う.もう一度この点を取れと言われても無理な気がするが,TOEFL スコアの有効期限は 2 年間らしいので,いつかまた受け直さないといけないかもしれない.
  • 大学院入試を受けた.数理最適化・トポロジー・統計・アルゴリズム・数値解析・代数などなどを勉強した.基礎知識を固めるという意味でも非常にいい勉強になったと思う.それはそれとして負荷が重く,今年の前半はほぼ院試対策に忙殺されていた.
  • 春学期に数値線形代数と確率論の論文をそれぞれ輪読した.
  • 卒業研究を始めた.数論アルゴリズムについて研究している.
  • 趣味で,力学系・数値解析・多様体論・圏論などを勉強した.

趣味

  • 登山:春と秋にいくつか登った.本格的な鎖場・岩場にも挑戦し,進歩を感じる一年だった.
  • お酒:去年よりも飲酒量は減った.最近はビール・日本酒・(まれに) 焼酎しか飲まなくなりつつある.
  • 旅行:敦賀・小倉・熊本・高知・甲府に行った.北陸とかにも行きたかった.

その他

読書

今年は三島由紀夫をよく読んだ一年間だった.

言葉は私を、陥っていた無力から弾き出した。

特に春~夏はほぼ本を読まなかったので,例年に比べて読書量が減った.

皇室典範のデザインパターン

現行の憲法および皇室典範には,天皇インスタンスが 2 つ以上存在しうる,という脆弱性がある.

(日本国憲法)

第一条 天皇は、日本国の象徴であり日本国民統合の象徴であつて、この地位は、主権の存する日本国民の総意に基く。

第二条 皇位は、世襲のものであつて、国会の議決した皇室典範の定めるところにより、これを継承する。

(皇室典範)

第一条 皇位は、皇統に属する男系の男子が、これを継承する。

第二条 皇位は、左の順序により、皇族に、これを伝える。

(中略)

第四条 天皇が崩じたときは、皇嗣が、直ちに即位する。

これらの条文は,皇位が満たすべき条件を述べているのみであり,可能な皇位の数を制限していない.

憲法および皇室典範に依存するプログラム (法令) は,天皇インスタンスが一意に定まることを暗黙裡に仮定している.天皇が複数存在する場合の挙動は,ほとんどの場合に未定義であり,実行環境に依存する.その代表例は国事行為である.

(日本国憲法)

第七条 天皇は、内閣の助言と承認により、国民のために、左の国事に関する行為を行ふ。
一 憲法改正、法律、政令及び条約を公布すること。

二 国会を召集すること。

三 衆議院を解散すること。

四 国会議員の総選挙の施行を公示すること。

(後略)

これによれば,天皇衆議院を召集し,解散し,その選挙を行わせることができる.天皇インスタンスが複数ある場合,一つの天皇インスタンスが召集した国会を,別の天皇インスタンスが解散することもありえる.また,国会が null であるにもかかわらず解散が試みられることも考えられる *1.このような未定義動作は深刻なランタイムエラーを招き,日本は無政府状態に陥るかもしれない.また,例えば天皇インスタンスが 2^32 人程度存在した場合,ある種のプログラム (法令) は,天皇を取得しようとしてハングアップするだろう.

現在,天皇と関係する全てのプログラムは,実装と運用に細心の注意を払い,実行時に天皇インスタンスが高々 1 つしか存在しないようにすることで,未定義動作を防いでいる.しかし,このような問題は本来,天皇のクラス設計を見直すことで解決されなければならない.

したがって,日本国憲法または皇室典範は Singleton パターンを実装するべきである.具体的には,天皇クラスは

ようにする.これにより,天皇インスタンスは実行中に高々 1 つしか存在しないことが保証される.

孔子曰く,天に二日なく,地に二王なし。

現行の運用と合致するように設計を見直してプログラムをリファクタリングすることは,良いことである.この変更により憲法および皇室典範脆弱性が一つ除かれ,現状では内閣法制局あたりが負担している設計コストが削減できる.このプルリクエスト,もとい憲法改正は,レビュアー,もとい国民の理解を得やすいだろう.

しかし,この脆弱性の深刻さを強調するための Proof of Concept を作成することは,推奨されない.

*1:実はこのような動作は,天皇インスタンスが 1 つであっても起こりうるのだが,「天皇が一貫した一人の人間である」という運用により防がれている.

近衛文麿が栄爵を拝辞した際の上奏文

近衛文麿は 1945 年 11 月 22 日付で爵位勲章を拝辞した.以下はその際の上奏文である.

全文を矢部貞治『近衛文麿 下』(1952 年) に依った.仮名遣いは同書に揃え,擡頭のみ闕字に改めた (読みづらいので).

誠恐誠惶頓首謹て言ふす
昭和十二年臣 命を奉じて始めて内閣を組織するや先づ日支両国の関係を調節して東亜安定の大計を樹立せんと欲す然るに何ぞ図らん組閣後一個月を出でずして盧溝橋事件の発生に遭へり 臣は力を尽して事件の拡大せざらんことを望みたるも、寸毫の効果なく禍乱は遂に全支に及び両国の間埋むべからざる溝渠を生ずるに至れり
昭和十五年再び組閣の大命を拝するや此時日米の関係漸く円満ならざるを見臣は両国相接近することに依りて太平洋の平和を維持し併せて日支の紛擾を解決せんことを期す 十六年春開始せられたる日米国交調整の商議は臣が公的生活の一切を捧げて千段の努力を傾注したる所なり 然れども国内の政情は臣が画策志望の達成を許さず 遂に骸骨を闕下に乞い奉るの止むなきに至らしめたり 臣菲才微力にして所信を貫徹し邦家の難を救ふ能わず 至尊をして独り社稷を憂ひ給はしむるに至る爾来歴閣各尽瘁する所ありと雖国勢陵夷遂に千古拭ふ可らざるの汚辱に沈淪せり 臣が家歴世宏大の聖恩を辱うし臣が身に及ぶ臣俯仰感慨神明に対して晏如たる能はず茲に謹みて爵位勲章を奉還して涯りなき聖恩を拝謝せんと欲す
陛下海岳の量臣が至願を容れ賜はば幸甚誠恐誠惶頓首再拝して言ふす

 

科学とは何か?

以下は George Orwell によるエッセイ,"What is Science?" の拙訳である.原文は https://orwell.ru/library/articles/science/english/e_scien を用いた.

---

先週の Tribune 紙には J. Stewart Cook 氏による興味深い寄稿があった.その中で彼は,「科学のヒエラルキー」の危険を避ける最善の道は,一般の市民が可能な限りの科学教育を受けることで得られる,と述べている.同時に,科学者は孤立をやめて政治および行政で大きな役割を果たすべきだとも.


一般的な主張としては,われわれの多くはこれに賛同するだろう.しかし,Cook 氏は (よくあることなのだが) 科学とは何かを定義しておらず,単に「科学とはある種の厳密な学問であって研究室の中で実験が行われるようなものだ」と示唆しているに留まっている.したがって,経済学や社会学は科学の分野だとは見なされないために,「社会人への教育が文学,経済学,社会学を重視して科学を無視している傾向にある」とされる.これは明らかに重要な点である.今のところ,科学という語は少なくとも 2 つの意味を持っている.そして,科学教育に対する疑問はみな,一方の意味を他方の意味と取り違える現下の傾向によって曖昧になっている.


科学は,一般には (a) 化学や物理学といった厳密な科学 (ハードサイエンス),(b) 観察事実からの論理的な推論によって検証可能な結果を導く思考の方法,というどちらかの意味で捉えられている.


だれかしら科学者や,あるいは教育を受けた人に「科学とは何か?」と尋ねれば,(b) に近い答えを得るだろう.しかし,日常生活では,話し言葉にせよ書き言葉にせよ,「科学」という言葉が使われるときには (a) を指しているのである.科学とは何かしら研究室の中で行われるものである,と.「科学」という言葉自体が,グラフ,試験管,天秤,ガスバーナー,顕微鏡といったイメージを想起させる.生物学者天文学者,さらにはおそらく心理学者や数学者も「科学に携わる人」とされる.一方で,誰もこの呼称を政治家,詩人,ジャーナリストや哲学者に使おうとは考えないだろう.そして,「若者は科学教育を受けるべきだ」と述べる人は,ほとんど間違いなく,「若者は放射能や天体や生理学や人体について教育されるべきだ」と言っているのであって,「若者はより厳密に考えるよう教育されるべきだ」と述べているのではない.


こうした語義の混同は――その一部は意図的だが――大きな危険をはらむ.科学教育を求める人が暗黙裡に主張しているのは,ある人が科学的な教育を受けたならば,「任意の」対象に対する彼のアプローチは,そうした教育を一切受けなかった場合に比べて,より知的になるだろう,ということだ.そこでは,政治,社会,道徳,哲学,そしておそらくは芸術に対する科学者の意見は,素人の意見よりも価値があると仮定されている.言い換えれば,もし科学者がコントロールしたならば,世界はもっとよい場所になるだろうと考えられている.しかし,先述したように,(ここにおいて)「科学者」という語は実際には厳密な科学 (ハードサイエンス) を意味しているのだ.したがって,化学者や物理学者は詩人や弁護士よりも政治的に賢明であるということになる.実際にそのように信じている人々が数百万人から存在するのである.


しかし,こうした狭い意味での「科学者」はそうでない人々よりも,科学と関係ない問題に対しても客観的なアプローチをしそうだ,という考えは果たして本当だろうか? そう考える理由はあまりない.一つ簡単な例を出そう.ナショナリズムに抵抗する能力についてである.しばしば「科学は国際的である」と大雑把に言われるが,実際にはあらゆる国において,科学者は自国の政府に追従した.この際に科学者らが抱いた罪悪感は,作家や芸術家たちが抱いたものよりも少なかった.ドイツの科学界は,全体としてヒトラーに一切の抵抗を示さなかった.なるほどヒトラーはドイツにおける科学の長期的な視野を破壊したが,たくさんの才能ある科学者たちが合成石油,ジェット機,ロケットの弾道計算,そして原子爆弾についての研究に不可欠な役割を果たしていたのだ.彼らなしではドイツの軍事機構は絶対に成り立たなかっただろう.


一方で,ナチスが権力の座についたとき,ドイツの文学界には何が起きたか? 起きたことの網羅的なリストは今のところ公開されていないだろうが,私が思うに,自発的に国を去ったり,政権によって訴追されたりした科学者は――ユダヤ人科学者を除くが――,同様にした作家やジャーナリストよりもはるかに少なかっただろう.なお悪いことに,「人種科学」という怪物を崇拝した科学者は多数存在したのである.彼らが名を記した声明のいくつかを,Brady 教授の "The Spirit and Structure of German Fascism" で見つけることができる.


とはいえ,少し異なる形ではあるが,似たような光景はどこでも見られる.英国では,指導的地位の科学者たちの大部分は資本主義社会の構造を受け入れている.それは彼らがナイトや男爵といった称号,ときには貴族の地位を与えられるときの,あまり抵抗を感じていないさまを見ることでも分かる.Tennyson 以来,読むに値する作品をものした英国の作家は誰も――あるいは Max Berrbohm が例外とされるかもしれないが――称号を授けられていない.さらに,「現状」を単純に受け入れてはいない英国の科学者は,たいてい共産主義者である.すなわちそうした人々も,自らの研究領域では知的に慎重であっても,ある分野については容易に無批判になったり不誠実になったりするのだ.実際は,一つやそこらのハードサイエンスの分野で訓練を受けたところで,非常に優れた才能があったとしても,人道的で盲信を退けるような視野が得られる保証はない.半ダースもの大国の物理学者が熱狂的かつ秘密裏に原子爆弾の開発に取り組んだ事実がそれを例証している.


しかし,これら全ては,公衆が科学的な教育をもっと受けるべきではない,ということを意味するだろうか? むしろ,その反対である! これら全てが意味しているのは,大衆に対する科学教育は,もしそれが単に物理学や化学や生物学を一層教え込んで,代わりに文学や歴史学を軽視したならば,少しの善と大量の害をもたらすだろう,ということだ.こうした科学教育を受けた人はおそらく,思考の幅が狭まり,専門ではない領域の知識を軽蔑しさえするようになるだろう.そして,そうした人の政治に対する反応は,歴史についてのいくらかの記憶と非常に健全な感覚を持つ無学な農民のそれよりも,もっと愚かしくなるはずだ.


科学教育という語が「合理的,懐疑的,実験的な思考の慣習を根付かせること」を意味するべきなのは明らかだ.それは方法論――直面するいかなる問題に対しても用いることができる手法――の獲得を意味するべきで,単なる事実の羅列に終わるべきではない.このように述べれば,科学教育を唱える人たちは同意するだろう.(そこで,)更に突き詰めて,彼にもっと具体化するように尋ねると,だいたいいつも「科学教育は,科学――言い換えれば,事実――に対してもっと注意を払うことを意味する」と述べる.科学とは世界に対する見方を意味するのであって,単なる知識の体系ではない,という考え方は,現実ではかなり強固に拒まれている.思うに,単なる職業上の嫉妬がその理由である.科学とは方法論や態度であって,十分に合理的な思考をする人なら誰でもある意味で科学者と呼ばれうるのだとすれば,化学者や物理学者が現下に享受している名声や,そうした人たちは他の人よりもいくらか賢いという主張はどうなってしまうのだろうか?


100 年前に Charles Kingsley は科学を「研究室で悪臭を製造している」と述べた.去年か一昨年に,ある若い化学者が気取って,私に「詩の効用が何なのか分からない」と言った.これは振り子が行ったり来たりしているようなもので,私には一方の態度が他方より優れているとは思えない.今のところ科学は成長しているので,大衆は科学教育を受けるべきだという主張が聞こえてくるのももっともである.だが,科学者たち自身も教育から何かしら得られるだろうという主張――当然あるべきなのだが――は聞こえてこない.本稿を書く前に,ある米国の雑誌で,多くの英国と米国の物理学者が,それが何をもたらすかを熟知していたために,原子爆弾の開発研究をはじめから拒んだ,という記述を見かけた.狂った世界の中で正気を保っている人たちがいるのだ.名前こそ明らかになっていないが,彼らはみな広範な文化的素養を持ち,歴史や文学や芸術のこともいくらか知っていただろうと私は考えている.端的に言えば,彼らの関心は,現在の語義における純粋な科学ではなかったのである.

確率過程の sup 評価 ―― 行列ノルムを例として

はじめに

 M = (M_{i, j}) n \times m サイズの実数値ランダム行列とし,各要素は  \sigma^2-subgaussian な分布に独立に従うとする.このとき, M の ( \mathbb{R} の 2-ノルムから誘導された) 作用素ノルム,すなわち
 \displaystyle{ \| M \| = \sup_{\| v\|, \| w \| \le 1} \langle v, Mw \rangle }
の期待値を上から評価する問題を考える.この問題は,適切な定式化によって,Lipschitz な確率過程において  \sup を求めることに帰着する.この記事では,Lipschitz 過程における上界評価の具体的な手法を紹介し, \|M\| の上界を求めることを目指す.

なお,この記事の大部分は,van Handel [1] を輪読した際のゼミ資料から抜粋して,(発表時に頂いたコメントを反映しつつ) 記述を全体的に簡略化したものである.

添字集合が有限な過程

 \{ X_t \}_{t \in T} という確率過程を考える. T は添字集合 (例えば,時刻や位置の集合) である.いま,期待値  \mathbb{E} \left[ \sup_{t \in T} X_t \right] を評価したい.標語的には,この上界は「確率過程の連続性」と「添字集合の複雑性」によって決まる.

もっとも単純なケースとして, T が有限集合であって, X_t が任意の  t \sigma^2-subgaussian となる状況を考える.このとき,どこかで見たような式による評価が得られる.

Lem. 1
 \{ X_t \}_{t \in T} を確率過程とする. |T| < \infty であり,任意の  t \in T, \lambda \ge 0 \log \mathbb{E} [ \exp (\lambda X_t) ] \le \sigma^2 \lambda^2 / 2 が成り立つと仮定する.このとき,
 \displaystyle{ \mathbb{E} \left[ \sup_{t \in T} X_t \right] \le \sqrt{ 2\sigma^2 \log |T| } }
が成り立つ.

pf.
 \psi (\lambda) = \sigma^2 \lambda^2 / 2 とする.Jensen の不等式により,任意の  \lambda \ge 0 について,
 \displaystyle{  \mathbb{E} \left[ \sup_{t \in T} X_t \right] \le \frac{1}{\lambda} \log \mathbb{E} [e^{\lambda \sup_{t \in T} X_t} ] \le \frac{1}{\lambda} \log \sum_{t \in T} \mathbb{E} [e^{\lambda X_t} ] \le \frac{\log |T| + \psi(\lambda)}{\lambda} }
が成り立つ.ここで,右辺で  \lambda について  \inf を取ることで不等式を tight にしたいが,相加平均・相乗平均の不等式から, \sqrt{ 2\sigma^2 \log |T|} が最適な評価である (かつ,実際にこの評価を達成できる) ことが分かる.(証明終)

Rmk.
この補題は, X_t が subgaussian でなくても,モーメント母関数の対数が有界 ( \psi (\lambda) によって抑えられる) な場合に一般化できる.その場合は, \psi (\lambda) の Legendre 変換を用いた不等式評価が得られる.

Lipschitz 過程と covering number

 T が無限集合の場合,上述したような評価は使えない (自明な不等式しか与えない).そこで, T を有限集合  N によって近似することを考える.もし,確率過程  X_t が添字について「連続」であれば,適切に  N を構成することで,近似誤差をある程度小さくできる.この観察を定式化するため,「連続」な過程のもっとも強い形である Lipschitz 過程を導入する.

Def. 2
確率過程  \{ X_t \}_{t \in T} が距離  d : T\times T \to \mathbb{R}_{\ge 0} について Lipschitz であるとは,確率変数  C が存在して,任意の  t, s \in T に対して
 \displaystyle{ |X_t - X_s| \le C d(t, s) }
が成り立つことである.

Rmk.
確率過程が Lipschitz であるという仮定は強い.つねにこのような評価ができるとは限らないことに注意する必要がある.たとえば,Wiener 過程は一般に Lipschitz でない.

次に, T を近似する有限集合  N の構成について考える. N は, T の任意の点から離れすぎておらず,かつ集合としてできるだけ小さいものにしたい.この直観的な考え方に基づいて,net と covering number という概念が定義される.
Def. 3
 N (T, d) \epsilon-net であるとは,任意の  t \in T に対してある  \pi (t) \in N が存在して, d (t, \pi (t)) \le \epsilon を満たすことである.また, (T, d) \epsilon-netのうち最小のものの濃度を covering number と呼び, N(T, d, \epsilon) と書く.すなわち,
  \displaystyle{ N(T, d, \epsilon) = \inf \{ |N| \mid Nは(T, d)の\epsilon{\text-}net \} .}

以上で,「確率過程の連続性」と「添字集合の複雑性」をそれぞれ表す指標が定まった.すなわち,前者は確率過程の Lipschitz 定数であり,後者は  (T, d) の covering number である.

Lipschitz 過程の sup

これまで導入した定義を用いることで,各時刻で subgaussian であるような Lipschitz 過程で  \sup を評価することができる.

Lem. 4
 \{X_t\}_{t\in T} は Lipschitz 過程であり,Lipschitz 定数は  C であるとする.また,任意の  t \in T について  X_t \sigma^2-subgaussian であるとする.このとき,
 \displaystyle{ \mathbb{E} \left[ \sup_{t \in T} X_t \right] \le \inf_{\epsilon > 0} \left\{ \epsilon \mathbb{E} [C] + \sqrt{2\sigma^2 \log N(T, d, \epsilon)} \right\} }
が成り立つ.

pf.
 \epsilon を任意の正数とし, N (T, d) \epsilon-net とする.このとき,
 \displaystyle{  \sup_{t \in T} X_t \le \sup_{t \in T} \left\{X_t - X_{\pi (t)} \right\} + \sup_{t \in T} X_{\pi (t)} \le C \epsilon + \sup_{t \in N} X_t }
である.ここで,最右辺第 2 項では, N が有限集合だから,Lem. 1 が適用できる.不等式の両辺で期待値を取ると,
 \displaystyle{ \mathbb{E} \left[ \sup_{t \in T} X_t \right] \le \epsilon \mathbb{E} [C] + \sqrt{2\sigma^2 \log |N|}. }
 \epsilon > 0 N は任意だったから,それらについて右辺を最小化することで,
 \displaystyle{  \mathbb{E} \left[ \sup_{t \in T} X_t \right] \le \inf_{\epsilon > 0} \left\{ \epsilon \mathbb{E} [C] + \sqrt{2\sigma^2 \log N(T, d, \epsilon)} \right\} }
を得る.(証明終)

Packing number

さて,具体的な評価を得るためには covering-number  N(T, d, \epsilon) を求める (少なくとも,抑える) ことが必要である.そのために,数理最適化における双対問題と類似した概念を covering number に対して導入する.
Def. 5
 N \subseteq T (T, d) \epsilon-packing であるとは,任意の相異なる  t, t' \in N について  d(t, t') > \epsilon が成り立つことである.また, (T, d) \epsilon-packing のうち最大のものの濃度を packing number と呼び, D(T, d, \epsilon) で書く.すなわち,
  \displaystyle{ D(T, d, \epsilon) = \sup \{ |D| \mid Dは(T, d)の\epsilon{\text {-packing}} \}. }

Covering number と packing number の間には,ある種の双対定理が成り立つ.
Lem. 6
任意の  \epsilon > 0 について,
  \displaystyle{  D(T, d, 2\epsilon) \le N(T, d, \epsilon) \le D(T, d, \epsilon). }

pf.
 D 2\epsilon-packing とし, N \epsilon-netとする.定義から,任意の  t \in D について, \pi (t) \in N d(t, \pi (t)) \le \epsilon となるように選べる. t \neq t' ならば,
 \displaystyle{ 2\epsilon < d(t, t') \le d(t, \pi (t)) + d(\pi (t), \pi (t')) + d(\pi (t') , t') \le 2 \epsilon + d(\pi (t), \pi (t')) }
だから, d(\pi(t), \pi (t')) > 0 である.すなわち  \pi : D \to N単射で, |D| \le |N| が従う.したがって, D(T, d, 2\epsilon) \le N(T, d, \epsilon) である.

次に,右側の不等式を示すために, D (T, d) の最大  \epsilon-packing とする.このとき, D \epsilon-net でもある.実際,ある  t \in T があって任意の  t' \in D に対して  d (t, t') > \epsilon とすると, D \cup \{ t \} もまた  \epsilon-packing であり, D の最大性に矛盾する.(証明終)

行列ノルムの評価

いよいよ,最初に言及した行列ノルムの評価をおこなう.繰り返すと, M は各要素が独立かつ  \sigma^2-subgaussian であるようなランダム行列であり,
 \displaystyle{ \| M \| = \sup_{\| v\|, \| w \| \le 1} \langle v, Mw \rangle }
の期待値  \mathbb{E} [ \|M\| ] を評価したいのだった.

 B_2^n = \{ x \in \mathbb{R}^n \mid \| x \| \le 1 \}, \; T = B_2^n \times B_2^m とし,
 \displaystyle{ X_{v, w} = \langle v, Mw \rangle = \sum_{i = 1}^n \sum_{j = 1}^n v_i M_{ij} w_j }
とすると,
 \displaystyle{  \| M \| = \sup_{(v, w) \in T} X_{v, w} }
と書ける.そこで,作用素ノルムの評価は,添字集合  T を持つ確率過程の  \sup を求める問題に帰着する.さらに,この過程は, T に適切な距離を入れることで Lipschitz となる.そのことを示そう.

Azuma の不等式から,任意の  (v, w) \in T について, X_{v, w} \sigma^2-subgaussian である.さらに,
 \displaystyle{  \begin{equation*} \begin{split} |X_{v, w} - X_{v', w'} | &= | \langle v, Mw \rangle - \langle v', M w' \rangle | \\ &= | \langle v - v', Mw \rangle + \langle v', M w - w' \rangle | \\ &\le | \langle v - v', Mw \rangle| + | \langle v', M w - w' \rangle | \\ &\le \|v - v' \| \| M \| \| w \| + \| v' \| \| M \| \| w - w' \| \\ &\le \| M\| (\| v - v' \| + \| w - w' \| ) \end{split} \end{equation*} }
が成り立つ.したがって, T 上の距離  d d ( (v, w), (v', w') ) = \| v - v' \| + \| w - w' \| で定めると, X_{v, w} は Lipschitz 過程となる.Lipschitz 定数は  \| M \| である.以上で,Lem. 4 を用いるための仮定が揃った.Lem. 4 の不等式に Lipschitz 定数を代入して整理すると,
 \displaystyle{ \mathbb{E} [ \| M \| ] \le \inf_{\epsilon > 0} \frac{\sigma \sqrt{2}}{1 - \epsilon} \sqrt{ \log N(T, d, \epsilon)} }
を得る.

さらに, T が Euclid 空間の単位球の直積であることを踏まえて,packing number との双対性を利用しつつ,covering number を求める.
Lem. 7
 B_2^n を, n 次元 Euclid 空間の単位球とする. 0 < \epsilon < 1 のとき,
 \displaystyle{ \left( \frac{1}{\epsilon} \right)^n \le N(B_2^n, \| \cdot \|, \epsilon) \le \left( \frac{3}{\epsilon} \right)^n .}

pf.
図を描いて考えると,比較的明らかである.

図 1 は, B_2^n を青い円で描き, 2\epsilon -packingの点を打ったものである.赤い円の面積の総和は,グレーの円 (半径  1 + \epsilon) の面積以下である.小さい円は互いに交わらないから, \lambda を Lebesgue 測度として,
 \displaystyle{ |D| \lambda (B (0, \epsilon)) = \sum_{t \in D} \lambda ( B (t, \epsilon)) = \lambda \left( \bigcup_{t \in D} B(t, \epsilon) \right) \le \lambda (B(0, 1 + \epsilon)). }
したがって,
 \displaystyle{ |D| \le \frac{\lambda(B(0, 1 + \epsilon))}{\lambda(B(0, \epsilon))} = \left( \frac{1 + \epsilon}{\epsilon} \right)^n = \left( 1 + \frac{1}{\epsilon} \right)^n \le \left( \frac{3}{2\epsilon} \right)^n. }
あとは, 2\epsilon \mapsto \epsilon と取りかえた上で,Lem. 6 の双対性を用いれば, \left( \frac{1}{\epsilon} \right)^n \le N(B_2^n, \| \cdot \|, \epsilon) を得る.

図 2 は, \epsilon-net の点を打ったものである.小さい円の面積の総和は,青い円 (半径  1) の面積以上である.そこで,
 \displaystyle{ \lambda(B_2^n) \le \lambda \left( \bigcup_{t \in N} B(t, \epsilon) \right) \le \sum_{t \in N} \lambda (B(t, \epsilon)) .}
から,
 \displaystyle{ |N| \ge \frac{\lambda(B_2^n)}{\lambda (B(0, \epsilon))} = \left( \frac{1}{\epsilon} \right)^n }
を得る.(証明終)

この補題により,作用素ノルムの期待値の評価を得ることができる.まず, N_1, N_2 がそれぞれ  B_2^n, B_2^m \epsilon-net であるとき,  N_1 \times N_2 は (先述した距離のもとで)  T = B_2^n \times B_2^m 2\epsilon-net である.したがって,
 \displaystyle{ N(T, d, 2\epsilon) \le N(B_2^n, \| \cdot \|, \epsilon) N(B_2^m, \| \cdot \|, \epsilon) \le \left( \frac{3}{\epsilon} \right)^{n + m} }
である.定数倍を無視することで,
 \displaystyle{ \mathbb{E} [ \| M \| ] \lesssim \sigma \sqrt{n + m} }
を得る.これが所期の不等式評価である.行列ノルムのオーダーが  \sqrt{nm} ではなく  \sqrt{n + m} であることは非自明であり,興味深い.

Rmk.
上記は, \sup の期待値評価の一つの手法ではあるが,確率過程の Lipschitz 性や  T のコンパクト性に強く依拠している.実際,covering number が多項式オーダーであることは,添字集合が Euclid 空間の構造を持つことに由来する幸運であると言える.

また,Lem. 4 の評価は,ある意味で悲観的すぎて loose である.Covering number が指数オーダーで増加するような問題設定では,そのために,Lem. 4 の不等式が tight にならないことがある (van Handel [1] を参照).その場合,net argument を利用しない別の手法が必要となる.

参考文献

[1] R. van Handel (2016), Probability in High Dimension. APC 550 Lecture Notes (https://web.math.princeton.edu/~rvan/APC550.pdf).