Dette kan angripes på en rekke måter, inkludert ganske økonomiske tilnærminger via Karush – Kuhn – Tucker-forholdene.
Nedenfor er et ganske elementært alternativt argument.
Den minste firkantede løsningen for en ortogonal design
Anta at $ X $ består av ortogonale kolonner. Deretter er løsningen med de minste kvadratene $$ \ newcommand {\ bls} {\ hat {\ beta} ^ {{\ small \ text {LS}}}} \ newcommand {\ blasso} {\ hat {\ beta} ^ {{\ text {lasso}}}} \ bls = (X ^ TX) ^ {- 1} X ^ T y = X ^ T y \ >. $$
Noen tilsvarende problemer
Via Lagrangian-formen er det greit å se at et tilsvarende problem som det som er vurdert i spørsmålet er $$ \ min_ \ beta \ frac {1} {2} \ | y - X \ beta \ | _2 ^ 2 + \ gamma \ | \ beta \ | _1 \ >. $$
Ved å utvide den første terminen får vi $ \ frac {1} {2} y ^ T y - y ^ TX \ beta + \ frac {1} {2} \ beta ^ T \ beta $ og siden $ y ^ T y $ ikke inneholder noen av variablene av interesse, kan vi forkaste den og vurdere enda et tilsvarende problem , $$ \ min_ \ beta (- y ^ TX \ beta + \ frac {1} {2} \ | \ beta \ | ^ 2) + \ gamma \ | \ beta \ | _1 \ >. $$
Legg merke til at $ \ bls = X ^ T y $, det forrige problemet kan skrives om som $$ \ min_ \ beta \ sum_ {i = 1} ^ p - \ bls_i \ beta_i + \ frac {1} { 2} \ beta_i ^ 2 + \ gamma | \ beta_i | \ >. $$
Vår målfunksjon er nå en sum av mål, som hver tilsvarer en separat variabel $ \ beta_i $, slik at de kan løses hver for seg.
Helheten er lik summen av delene
Fiks en viss $ i $. Deretter ønsker vi å minimere $$ \ mathcal L_i = - \ bls_i \ beta_i + \ frac {1} {2} \ beta_i ^ 2 + \ gamma | \ beta_i | \ >. $$
Hvis $ \ bls_i > 0 $, så må vi ha $ \ beta_i \ geq 0 $ siden vi ellers kunne snu tegnet og få en lavere verdi for objektivfunksjonen. På samme måte hvis $ \ bls_i < 0 $, så må vi velge $ \ beta_i \ leq 0 $.
Sak 1 : $ \ bls_i > 0 $. Siden $ \ beta_i \ geq 0 $, $$
\ mathcal L_i = - \ bls_i \ beta_i + \ frac {1} {2} \ beta_i ^ 2 + \ gamma \ beta_i \ >, $$ og å differensiere dette med hensyn til $ \ beta_i $ og innstilling lik null, får vi $ \ beta_i = \ bls_i - \ gamma $ og dette er bare mulig hvis høyre side ikke er negativ, så i dette tilfellet er den faktiske løsningen $$ \ blasso_i = (\ bls_i - \ gamma) ^ + = \ mathrm { sgn} (\ bls_i) (| \ bls_i | - \ gamma) ^ + \ >. $$
Sak 2 : $ \ bls_i \ leq 0 $. Dette antyder at vi må ha $ \ beta_i \ leq 0 $ og så $$ \ mathcal L_i = - \ bls_i \ beta_i + \ frac {1} {2} \ beta_i ^ 2 - \ gamma \ beta_i \ >. $$ Differensiering med med hensyn til $ \ beta_i $ og innstilling lik null, får vi $ \ beta_i = \ bls_i + \ gamma = \ mathrm {sgn} (\ bls_i) (| \ bls_i | - \ gamma) $. Men igjen, for å sikre at dette er mulig, trenger vi $ \ beta_i \ leq 0 $, som oppnås ved å ta $$ \ blasso_i = \ mathrm {sgn} (\ bls_i) (| \ bls_i | - \ gamma) ^ + \ >. $$
I begge tilfeller får vi ønsket form, og så er vi ferdige.
Avsluttende kommentarer
Vær oppmerksom på at når $ \ gamma $ øker, vil hver av $ | \ blasso_i | $ nødvendigvis reduseres, og dermed øker $ \ | \ blasso \ | _1 $. Når $ \ gamma = 0 $, gjenoppretter vi OLS-løsningene, og for $ \ gamma > \ max_i | \ bls_i | $, får vi $ \ blasso_i = 0 $ for alle $ i $.