Kaksi intuitiota derivaattaan

Tässä kirjoituksessa tarkastellaan kahta eri tapaa hahmottaa derivaatta. Formalisoimalla nämä ajatukset saadaan myös kaksi näennäisen erilaista määritelmää derivoituvuudelle. Reaalimuuttujan reaaliarvoiselle funktiolle kyseiset määritelmät ovat yhtäpitäviä, mutta vektorimuuttujan vektoriarvoisille funktioille eivät.

Intuitio 1: derivaattaa muutosnopeuden mittana

Ensimmäinen tapa ajatella derivaattaa on ehkä helpointa selittää esimerkillä fysiikasta. Oletetaan, että kappale liikkuu yhdessä ulottuvuudessa suoraa pitkin (esimerkiksi juna raiteilla). Valitaan suoralta kaksi pistettä ja merkitään niitä $0$ ja $1$ . Tässä siis $0$ on origo ja $1$ määrää mittayksikön sekä positiivisen suunnan. Tällöin kappaleen paikkaa ajanhetkenä $t$ voidaan kuvata yhdellä reaalilukukoordinaatilla $r(t)$ , missä itseisarvo $|r(t)|$ kertoo kuinka monen mittayksikön päässä kappale on origosta ja etumerkki sen kumpaan suuntaan. Fysiikalle ominaiseen tyyliin edellä on tehty yksinkertaistava oletus, että kappale on pistemäinen (esimerkiksi junaa voi edustaa sen painopiste), jolloin sillä on joka hetki yksikäsitteinen paikka. Kutsumme tällaista pistemäistä kappaletta jatkossa partikkeliksi. Partikkelin liikettä ajassa kuvaa funktio $r:\mathbb{R}\to\mathbb{R}$ . Nyt partikkelin keskinopeus $v_{12}$ ajanhetkien $t_1, t_2$ , $t_1<t_2$ välillä määritellään erotusosamääräksi

$\displaystyle{ v_{12} = \frac{r(t_2) - r(t_1)}{t_2-t_1}}\$ .

Huomataan, että partikkeli liikkuessa negatiiviseen suuntaan $v_{12}<0$ . Kuten paikalla myös nopeudella on sekä suuruus että suunta. Teknisistä syistä keskinopeuden määritelmä kannattaa laajentaa koskemaan myös tapausta $t_1>t_2$ .

Tietystikään partikkeli ei välttämättä liiku ajanhetkien $t_1$ ja $t_2$ välillä koko ajan samalla nopeudella, vaan se saattaa välillä liikkua selvästi keskinopeutta kovempaa ja välillä taas paljon hitaammin – ehkä jopa kokonaan vastakkaiseen suuntaan. Mikä siis olisi parempi tapa mitata partikkelin hetkellistä nopeutta? Voidaan tietysti yrittää tarkastella keskinopeutta lyhemmän aikavälin yli, jolloin se toivottavasti on lähempänä hetkellistä nopeutta. Mutta kuinka lyhyt aikaväli on riittävän lyhyt? Tämä oletetettavasti riippuu tarkasteltavan liikkeen luonteesta sekä siitä, kuinka paljon virhettä ollaan valmiit sietämään. Joka tapauksessa tulos on aina käytetystä aikavälistä riippuva aproksimaatio. Jos hetkelliselle nopeudelle ajanhetkellä $t_0$ on olemassa jokin aikavälin pituudesta $\Delta t:=t-t_0$ riippumaton arvo, tulee meidän luultavasti saada sille sitä parempia aproksimaatioita, mitä pienemmäksi $\Delta t$ tehdään ja välttämätön johtopäätös on, että hetkellinen nopeus $v(t)$ saavutetaan lopulta raja-arvona

$\displaystyle v(t_0) = \lim_{\Delta t\to 0} \frac{r(t_0+\Delta t) - r(t)}{\Delta t} = \lim_{t\to t_0} \frac{ r(t)-r(t_0) }{ t-t_0 } \$ .

Yleisemmin funktiota $f:]a,b[\to \mathbb{R}$ kutsutaan derivoituvaksi pisteessä $c\in]a,b[$ , jos raja-arvo

$\displaystyle{ \lim_{x\to c} \frac{f(x)-f(c)}{x-c} }$

on olemassa. Edelleen tällöin kyseistä raja-arvoa merkitään $f'(c)$ ja kutsutaan funktion $f$ derivaataksi pisteessä $c$ .

Hetkellinen nopeus ajanhetkellä $t$ määritellään siis paikan derivaattana $v(t) = r'(t)$ . Ainakin klassisessa fysiikassa voidaan olettaa, että hetkellinen nopeus on olemassa ja paikka on siis derivoituva ajan funktiona. Yleisemmin funktion $f$ derivaattaa voi ajatella muutosnopeuden mittana abstraktimmassa mielessä: mitä suurempi positiiviluku $f'(c)$ on, sitä nopeammin funktio kasvaa pisteen $c$ ympäristössä, ja vastaavasti mitä pienempi negatiivinen luku, sitä nopeammin funktio vähenee.

Edeltävä fysikaalinen esimerkki on hiukan keinotekoinen, sillä yleensä haluamme tarkastella liikettä kolmessa ulottuvuudessa pelkän yhden sijasta. Tällöin partikkelin paikkaa ajanhetkellä $t$ kuvaa reaaliluvun sijasta sen paikkavektori $\mathsf{r}(t)$ , joka siis osoittaa origosta partikkelin sijaintipaikkaan. Samoin keskinopeus ajanhetkien $t_1$ ja $t_2$ välillä on kolmiulotteisen avaruuden vektori

$\displaystyle{ \mathsf{v}_{12} = \frac{ \mathsf{r}(t_2) - \mathsf{r}(t_1) }{ t_2 - t_1 } } \$ .

Yleisesti vektoriarvoinen funktio $\mathrm{f}: ]a,b[\to \mathbb{R}^3$ on derivoituva pisteessä $c\in]a,b[$ , jos

$\displaystyle{ \mathrm{f}'(c) = \lim_{x\to c}\frac{ \mathrm{f}(x) - \mathrm{f}(c) }{x-c} } \$ .

on olemassa, missä tapauksessa kyseistä raja-arvoa nimitetään funktion derivaataksi pisteessä $x$ . Vastaavasti kuin yksiulotteisessa tapauksessa hetkellinen nopeus saadaan keskinopeuden raja-arvona ja se on samalla vektoriarvoisen paikkafunktion $\mathsf{r}:\mathbb{R}\to\mathbb{R}^3$ derivaatta.

Reaalimuuttujan vektoriarvoisen funktion derivointi on täten normaalin määritelmän suoraviivainen yleistys, mistä ei kaiketi lukion matematiikan opetuksessa yleensä puhuta. Koska se kuitenkin edellä esitetyllä tavalla erittäin kiinteästi liittyy alkeisfysiikkaan, saattaisi sitä olla paikallaan lyhyesti käsitellä. Pieneksi ongelmaksi voi muodostua se, että määritelmä vaatii pohjakseen vektoriarvoisen funktion raja-arvon määritelmän. Se kuitenkin on analoginen yksiulotteisen tapauksen kanssa ja sitäpaitsi tavanomaisen reaaliarvoisen funktion raja-arvon täsmälliseen määritelmäänkään ei yleensä juurikaan kiinnitetä lukio-opetuksessa huomiota, joten vektoriarvoisen funktion raja-arvon täsmällisen määritelmän voinee varmaankin tarvittaessa sivuuttaa ja yrittää tehdä käsitteen intuitiivisesti ymmärrettäväksi muutamilla hyvin valituilla esimerkeillä. Luonnollisesti kolmiulotteinen Euklidinen avaruus $\mathbb{R}^3$ voidaan sekä raja-arvon että derivaatan määritelmässä korvata myös kaksiulotteisella avaruudella $\mathbb{R}^2$ tai korkeampiulotteisella avaruudella $\mathbb{R}^n$ , missä $n>3$ , tai vielä yleisemmin millä tahansa normiavaruudella.

Sekä keskinopeus että hetkellinen nopeus $\mathrm{v}(t) = \mathrm{r}'(t)$ ovat vektorisuureita. Hetkellistä nopeutta kuvaavan vektorin pituutta $|\mathrm{v}(t)|$ kutsutaan hetkelliseksi vauhdiksi. Arkikielessä nopeus ja vauhti ovat usein synonyymejä, mutta fysiikassa ne on pidettävä tiukasti erillään, sillä nopeudella on sekä suuruus että suunta kun taas vauhti on skalaarisuure, jolla on pelkkä suuruus. Keskivauhti puolestaan saadaan jakamalla kuljettu matka siihen käytetyllä ajalla. Pieni sekaannuksen vaara liittyy siihen, että keskivauhti ei ole keskinopeuden normi eli pituus kuten naiivi interpolointi hetkellisen vauhdin tilanteesta ehdottaisi . Ajatellaanpa esimerkiksi tilannetta missä heitetään kivi suoraan ylös ja annetaan pudota takaisin lähtötasolle. Tällöin keskinopeus on nolla, sillä se riippuu vain lähtö- ja saapumispaikan vektorierotuksesta, joka tietysti on nolla. Sen sijaan keskivauhti riippuu näiden pisteiden välillä kuljetusta polusta, tämällisemmin sen pituudesta, ja sillä on täten positiivinen arvo.

Intuitio 2: derivaatta parhaana lineaarisena aproksimaationa

Oletetaan, että $f:]a,b[\to\mathbb{R}$ on derivoituva pisteessä $c\in]a,b[$ . Merkitään

$\displaystyle e(x) := \frac{ f(x) - f(c) }{ x-c } -f'(c)$

kun $x\in ]a,b[ - \{c\}$ . Derivaatan määritelmän nojalla $\lim_{x\to c} e(x) = 0$ . Ratkaisemalla $f(x)$ saadaan

$f(x) = f(c) + f'(c)(x-c) + e(x)(x-c)$

aina, kun $x\in]a,b[$ ja $x\not=c$ . Kaavan mukainen esitys on voimassa myös pisteessä $x=c$ ja funktio $e$ tulee jatkuvaksi kyseisessä pisteessä, kun määritellään $e(c)=0$ . Tästä saadaan tärkeä aproksimaatio

$f(x) \approx f(c) + f'(c)(x-c)$ .

Aproksimaatiossa tehtävä virhe on siis $e(x)(x-c)$ ja, koska $\lim_{x\to c} e(x)(x-c) = 0$ , aproksimaatio on hyvä kun $x$ on riittävän lähellä pistettä $c$ .

Jos on olemassa sellainen raaliluku $A$ ja sellainen funktio $e:]a,b[\to \mathbb{R}$ , että $\lim_{x\to c} e(x)=0$ ja kaikilla $x\in ]a,b[$ funktiolle $f$ pätee esitys

$f(x) = f(c) + A(x-c) + e(x)(x-c)$ ,

niin funktiota kutsutaan differentioituvaksi pisteessä $c$ ja kyseistä esitystä funktion differentiaalikehitelmäksi tämän pisteen suhteen. Edellä on nähty, että derivoituva funktio on differentioituva valinnalla $A=f'(c)$ . Kääntäen, jos $f$ on differentioituva pisteessä $x$ , niin differentiaalikehitelmästä saadaan

$\displaystyle \frac{ f(x) - f(c) }{ x-c } = A + e(x) \to A$ kun $x\to c$ .

Täten $f$ on derivoituva pisteessä $c$ ja $f'(c) = A$ . Differentioituvuus ja derivoituvuus ovat siis funktion $f: ]a,b[\to \mathbb{R}$ tapauksessa yhtäpitäviä käsitteitä.

Differentiaalikehitelmän kautta saatiin toinen, vaihtoehtoinen määritelmä derivaatalle. Edelleen tulkitsemalla differentiaalikehitelmä geometrisesti saadaan myös vaihtoehtoinen tapa ajatella derivaattaa. Mitä tahansa muotoa $x\mapsto f(c) + B(x-c)$ , missä $B$ on reaalinen vakio, olevaa funktiota kutsutaan jatkossa lineaariseksi aproksimaatioksi funktiolle $f$ pisteen $c$ ympäristössä, sillä sen kuvaaja on suora, joka leikkaa funktion $f$ kuvaajan pisteessä $(c, f(c))$ . Funktion $f$ ollessa differentioituva on differentiaalikehitelmästä saatava arvoa $B=f'(c)$ vastaava aproksimaatio on kaikista lineaarisista aproksimaatioista paras . Tämä saattaa olla aiemmin sanotun perusteella jo jokseenkin selvää, mutta viimeistenkin epäilysten hälventämiseksi annettakoon seuraavaksi vielä formaali perustelu.

Derivaatan määritelmää käyttämällä saadaan raja-arvo

$\displaystyle \lim_{x\to c} \left| \frac{ f(x)-f(c) }{ x-c } -B \right| = | f'(c) -B |$ .

Kun $B\not= f'(c)$ , $|f'(c)-B|>0$ , ja täten edelleen

$\displaystyle{ \lim_{x\to c} \left| \frac{ f(x)-f(c) }{ x-c } - f'(c) \right| = |f'(c)-f'(c)| = 0 < \lim_{x\to c} \left| \frac{ f(x)-f(c) }{ x-c} - B \right| }$ .

Näin ollen pisteen $c$ riittävän pienessä ympäristössä pätee

$\displaystyle{ \left| \frac{ f(x)-f(c) }{ x-c } - f'(c) \right| < \left| \frac{ f(x)-f(c) }{ x-c } - B \right| }$ ,

mistä edelleen kertomalla puolittain luvulla $|x-c|$ saadaan

$\displaystyle{ |f(x) - f(c) - f'(c)(x-c)| < | f(x) - f(c) - B(x-c)| }$ .

Toisin sanoen pisteen $c$ riittävän pienessä ympäristössä aproksimaatio $f(c) + f'(c)(x-c)$ on lähempänä funktion todellista arvoa kuin aproksimaatio $f(c) + B(x-c)$ .

Parhaan lineaarisen aproksimaation kuvaajaa

$y = f(c) + f'(c)(x-c)$

kutsutaan funktion $f$ kuvaajan tangenttisuoraksi pisteessä $c$ . Derivaattaa on tangenttisuoran kulmakerroin. Tämän intuition mukaisesti differentioituvat eli derivoituvat funktiot ovat sellaisia kuvauksia, joita voidaan aproksimoida hyvin lineaarisesti (eli niillä on olemassa tangenttisuora). Edellä differentioituvuus ja differentiaalikehitelmä on määritelty vain reaalimuuttujan reaaliarvoisille funktioille, mutta vastaavat määritelmät voidaan tehdä myös reaalimuuttujan vektoriarvoisille funktioille ja myös tällöin derivoituvuus ja differentioituvuus ovat yhtäpitäviä käsitteitä. Sen sijaan tarkasteltaessa funktioita, joiden määritysjoukko on useampiulotteinen (eli argumentti on vektori), ei derivaatan määritelmä erotusosamäärän raja-arvona ole mielekäs, koska erotusosamäärän nimittäjään tulisi tällöin vektori ja vektorilla jakamista ei ole määritelty. Differentioituvuuden määritelmä on kuitenkin sopivasti tulkittuna varsin helppo yleistää myös tähän tapaukseen. Esimerkiksi jatkuvan funktion $f:\mathbb{R}^2\to \mathbb{R}$ tapauksessa kuvaaja $z=f(x,y)$ on kolmiulotteisen avaruuden $\mathbb{R}^3$ kaksiulotteinen pinta ja intuitiivisesti $f$ on differentioituva pistessä $(a,b) \in \mathbb{R}^2$ , jos funktion $f$ kuvaajaa voidaan pisteen $(a,b,f(a,b))\in\mathbb{R}^3$ ympäristössä aproksimoida hyvin sopivalla kolmiulotteisen avaruuden $\mathbb{R}^3$ tasolla (= tangenttitaso). Emme kuitenkaan paneudu näihin yleistyksiin tarkemmin tässä yhteydessä.

Kaksi intuitiota derivaattaan

Intuitio 1: derivaattaa muutosnopeuden mittana

Intuitio 2: derivaatta parhaana lineaarisena aproksimaationa

Jätä kommentti Peruuta vastaus

Viimeisimmät artikkelit

Arkistot

Suomenkielisiä matikkalinkkejä

Ohjelmistot

LaTeX

Lontoonkielisiä matikkalinkkejä

Kaksi intuitiota derivaattaan

Intuitio 1: derivaattaa muutosnopeuden mittana

Intuitio 2: derivaatta parhaana lineaarisena aproksimaationa

Jaa tämä:

Aiheeseen liittyy

Jätä kommentti Peruuta vastaus

Viimeisimmät artikkelit

Arkistot

Suomenkielisiä matikkalinkkejä

Ohjelmistot

LaTeX

Lontoonkielisiä matikkalinkkejä