Když v počítači zvukový záznam nahráváme, počítač zaznamenává polohu membrány mikrofonu v řadě rychle po sobě jdoucích časových okamžiků. Této rychlosti záznamu se říká vzorkovací frekvence a program "Mentio Nahrávání" uživateli umožňuje vybrat z hodnot 44,1 a 48 kHz. Počítač tedy pořizuje 44.100 nebo 48.000 hodnot během každé vteřiny, kdy zvuk nahrává. Při přehrávání záznamu jsou tyto hodnoty použity pro ovládání membrány reproduktoru, která svými kmity vytvoří opět zvuk.
Nahrávat můžeme monofonní, nebo stereofonní signál. V prvním případě je v každém časovém okamžiku zaznamenána jedna hodnota, ve druhém případě hodnoty dvě - jedna pro levý a jedna pro pravý kanál (obvykle levý a pravý mikrofon). Pokud máme jen jeden mikrofon a zaznamenáváme stereofonní signál, budou hodnoty pro levý a pravý signál téměř shodné a budou se lišit jen rozdílným nastavením elektronických obvodů pro záznam levého a pravého kanálu.
Program "Mentio Nahrávání" zaznamenává zvuk s rozlišením 16 bitů. To znamená, že při využití celého rozsahu citlivosti nahrávacích obvodů se jednotlivé zaznamenané hodnoty pohybují od -32768 do +32767. Pokud je signál slabý a z tohoto rozsahu využijeme jen malou část (například od -3000 do +3000) a signál následně zesílíme, nedosáhneme takové kvality, jako kdybychom zesílili vstupní signál při pořízení nahrávky. Nedostatečný počet využitých úrovní totiž způsobí, že na křivce jsou "shody", jejichž velikost není vzhledem k celému rozsahu využitých hodnot zanedbatelná, a v nahrávce se objeví šum.
Při frekvenční analýze využijeme tzv. Fourierovu transformaci, která pro určený krátký úsek časové křivky spočítá, jaké frekvence se v tomto úseku vyskytují. Nerozlišuje se přitom, zda se ta či ona frekvence vyskytla na začátku, nebo na konci analyzovaného úseku. Abychom výskyt frekvencí mohli určit pro celou časovou křivku, je potřeba ji postupně rozdělit na krátké úseky a pro každý spočítat vyskytující se frekvence.
Pokud jsou tyto úseky velmi krátké, můžeme sledovat rychlé změny frekvenčních charakteristik, protože frekvenční charakteristiku stanovujeme dostatečně často - ale počet sledovaných frekvencí je malý. A obráceně, pokud jsou tyto úseky dostatečně dlouhé, abychom mohli sledovat velké množství frekvencí, nebudeme schopni zachytit jejich rychlé změny.
Například program "Mentio Hlas" zaznamenává zvuk se vzorkovací frekvencí 44,1 kHz a pro frekvenční analýzu používá kombinaci různě dlouhých úseků - každý úsek o 256 vzorcích je ještě rozdělen na dva úseky o 128 vzorcích. Analýza delších úseků umožňuje sledovat dvakrát více frekvencí a analýza kratších úseků umožňuje detekovat dvakrát rychlejší frekvenční změny - rozhodovací algoritmy pak využívají informace z obou těchto analýz.
Jednotlivé úseky je před zpracováním Fourierovou transformací nutné vynásobit vhodným "oknem", které zjednodušeně řečeno hlasitost zvuku na začátku a konci každého kousku křivky ztlumí tak, aby křivka začínala blízko nuly a ne třeba na maximální hodnotě - v takovém případě by totiž výsledek výpočtu byl plný šumu. Aby se informace obsažená v signálu na začátcích a koncích těchto oken při analýze využila a abychom zvýšili časové rozlišení frekvenční analýzy, začíná každé následující okno již v polovině délky okna předcházejícího.
V programu "Mentio Nahrávání" si můžeme vybrat, zda použijeme úseky dlouhé 256, 1024 nebo 4096 vzorků. Rozdíly při použití různě dlouhých úseků jsou vidět na první pohled. Po Fourierově transformaci máme pro každý krátký úsek původní křivky hned celou skupinu hodnot - pro každou ze sledovaných frekvencí míru jejího zastoupení tak, jak vidíme na obrázku níže.
V dolní části obrazovky vidíme spektrum zvukového záznamu z horní části obrazovky. Světlejší části grafu odpovídají menšímu zastoupení dané frekvence, tmavší pak většímu zastoupení dané frekvence. Dolní okraj odpovídá frekvenci 0 Hz, horní pak hodnotě 5 kHz (program umožňuje rozsah zvětšit na 8 kHz). Hodnoty jsou zlogaritmovány, takže vyšší špičky nejsou již tak výrazné a naopak nižší špičky vynikly.
V pravém dolním rohu vidíme frekvenční profil pro vyznačené místo (konec hlásky "í"). Tenké vodorovné proužky při použití úseků o 4096 vzorcích odpovídají harmonickým frekvencím v analyzovaném zvuku, jejichž skupiny, jak uvidíme níže, tvoří "formanty". Zkušené oko odborníka již na tomto grafu odhadne, kde přesně formanty jsou, po dalším zpracování bude jejich poloha jasně vidět - tmavé oblasti na grafu s úseky o 256 vzorcích jim zhruba odpovídají. Při použití takto krátkých úseků totiž není frekvenční rozlišení dostatečně podrobné, abychom mohli pozorovat harmonickou strukturu tónů.
Abychom mohli formanty dobře odlišit, musíme signál dále zpracovat. Tuto spektrální mapu zpracujeme další Fourierovou transformací, jako kdyby jednotlivé frekvenční profily (v pravém dolním rohu) byly časové řady. Tím vznikne tzv. "cepstrum". Přesmyčka spektrum => cepstrum se obdobně použije i na další charakteristiky získaných dat. Místo frekvence používáme "quefrenci", místo filtrace pak "liftraci".
Pozor, nejedná se o "kepstrum" - to je používáno pro podobný pojem, a sice "Kolmogorov equation power series time response".
Černé oblasti na Cepstru odpovídají případným ozvěnám při nahrávání a také quefrencím, které charakterizují obálku spektra - jakousi průměrnou hodnotu frekvenčního profilu bez oněch výše viditelných tenkých vodorovných proužků (obraz v grafu je opět zlogaritmovaný). Pokud z cepstra odliftrujeme quefrence odpovídající těmto tenkým proužkům a provedeme - jak jinak - další Fourierovu transformaci (tentokráte zpětnou), získáme spektrum liftrovaného cepstra, na kterém velmi pěkně jednotlivé formanty již vidíme.
Na obrázku níže vidíme tu část cepstra, která po liftraci zbyla (je zaškrtnutý přepínač "Liftr"). Jedná se o oblast, která je na obrázku výše těsně nad dolním okrajem grafu (quefrence u dolního okraje rostou k nekonečnu a směrem nahoru klesají jako 1/x).
A nyní se již podíváme na výsledek zpětné transformace - tedy na spektrum liftrovaného cepstra.
Pohybem myší po levém nebo pravém dolním grafu můžeme odečítat frekvenční hodnoty.
Všimněte si, že profil v pravém dolním rohu této obrazovky zhruba odpovídá profilu z obrazovky se spektrem - akorát nyní již bez struktury s tenkými vodorovnými proužky oproti grafu s délkou úseků 4096 vzorků a s jemnějším frekvenčním rozlišením oproti grafu s délkou úseků 256 vzorků. Tmavé oblasti na tomto grafu odpovídají frekvencím, které jsou v daný okamžik využívány, a označují se jako formanty. Jejich vzájemná poloha je specifická pro každou hlásku a proto je lze využít při rozpoznávání řeči počítačem - to ale program "Mentio Nahrávání" neumí.
Celý výše popsaný proces si lze intuitivně představit takto: Zaznamenávaný hlas je výsledkem složení dvou mechanismů - artikulační činnosti mluvidel (obecně všech prvků, které se aktivně podílejí na tvorbě hlásek) a odezvy celého systému tvorby hlasu včetně například dutin, v nichž kmitá vzduch a vzniká tak tón apod. Cílem výše uvedeného postupu je ze signálu odstranit všechny ty části, které size zprostředkovávají hlasový projev, ale nenesou žádnou informaci o tom, o jakou hlásku se jedná, a ponechat jen ty, které odpovídají informacím o artikulaci jednotlivých hlásek. Použitá metoda je pro tento účel vhodná. Stejného principu se také s výhodou využívá i v úplně jiných odvětvích, jako je například defektoskopie převodovek nebo obecně jakýchkoliv strojních rotujících součástí - ze zaznamenaného signálu se odfiltrují části způsobené rotační činností zařízení a zůstanou jen ty, které jsou diagnosticky významné.
Podrobné informace o využití formantové struktury lze najít například v knize Pavla Machače a Radka Skarnitzla "Fonetická segmentace hlásek".