Práce s řetězci
Nette\Utils\Strings je statická třída s užitečnými funkcemi pro práci s řetězci převážně v kódování UTF-8.
Instalace:
Všechny příklady předpokládají vytvořený alias:
Změna velikosti písmen
Tyto funkce vyžadují PHP rozšíření mbstring
.
lower(string $s): string
Převede UTF-8 řetězec na malá písmena.
upper(string $s): string
Převede UTF-8 řetězec na velká písmena.
firstUpper(string $s): string
Převede první písmeno UTF-8 řetězce na velké, ostatní nemění.
firstLower(string $s): string
Převede první písmeno UTF-8 řetězce na malé, ostatní nemění.
capitalize(string $s): string
Převede první písmeno každého slova v UTF-8 řetězci na velké, ostatní na malé.
Úprava řetězce
normalize(string $s): string
Odstraňuje kontrolní znaky, normalizuje konce řádků na \n
, ořízne úvodní a koncové prázdné řádky,
ořízne pravostranné mezery na řádcích, normalizuje UTF-8 na normální formu NFC.
unixNewLines(string $s): string
Převede konce řádků na \n
používané v unixových systémech. Konce řádků jsou: \n
,
\r
, \r\n
, U+2028 line separator, U+2029 paragraph separator.
platformNewLines(string $s): string
Převede konce řádků na znaky specifické pro aktuální platformu, tj. \r\n
na Windows a \n
jinde. Konce řádků jsou: \n
, \r
, \r\n
, U+2028 line separator, U+2029 paragraph
separator.
webalize(string $s, ?string $charlist=null, bool $lower=true): string
Upraví UTF-8 řetězec do tvaru používaného v URL, tj. odstraní diakritiku a všechny znaky, kromě písmen anglické abecedy a číslic, nahradí spojovníkem.
Mají-li být zachovány i jiné znaky, lze je uvést v druhém parametru funkce.
Třetím parametrem lze potlačit převádění na malá písmenka.
Vyžaduje PHP rozšíření intl
.
trim(string $s, ?string $charlist=null): string
Ořízne mezery (nebo jiné znaky určené druhým parametrem) ze začátku a konce UTF-8 řetězce.
truncate(string $s, int $maxLen,
string $append=`'…'
`): string
Ořízne UTF-8 řetězec na uvedenou maximální délku, přičemž se snaží zachovávat celá slova. Pokud dojde ke zkrácení řetězce, přidá na konec trojtečku (lze změnit třetím parametrem).
indent(string $s, int $level=1, string
$indentationChar=`"\t"
`): string
Odsadí víceřádkový text zleva. Počet odsazení určuje druhý parametr, čím odsazovat parametr třetí (výchozí hodnotou je tabulátor).
padLeft(string $s, int $length, string
$pad=`' '
`): string
Doplní UTF-8 řetězec na zadanou délku opakováním řetězce $pad
zleva.
padRight(string $s, int $length,
string $pad=`' '
`): string
Doplní UTF-8 řetězec na zadanou délku opakováním řetězce $pad
zprava.
substring(string $s, int $start, ?int $length=null): string
Vrátí část UTF-8 řetězce $s
zadanou počáteční pozicí $start
a délkou
$length
. Pokud je $start
záporný, bude vrácený řetězec začínat znakem -$start
znakem od konce.
reverse(string $s): string
Obrátí UTF-8 řetězec.
length(string $s): int
Vrací počet znaků (nikoli bytů) v řetězci UTF-8.
To je počet kódových bodů Unicode, které se mohou lišit od počtu grafémů.
startsWith(string $haystack, string $needle): bool
Zjistí jestli řetězec $haystack
začíná řetězcem $needle
.
Používejte nativní str_starts_with()
.
endsWith(string $haystack, string $needle): bool
Zjistí jestli řetězec $haystack
končí řetězcem $needle
.
Používejte nativní str_ends_with()
.
contains(string $haystack, string $needle): bool
Zjistí jestli řetězec $haystack
obsahuje $needle
.
Používejte nativní str_contains()
.
compare(string $left, string $right, ?int $length=null): bool
Porovnání dvou UTF-8 řetězců nebo jejich částí bez ohledu na velikost písmen. Pokud $length
obsahuje
null, porovnávají se celé řetězce, pokud je záporný, porovnává se příslušný počet znaků od konce řetězců, jinak
se porovnává příslušný počet znaků od začátku.
findPrefix(…$strings): string
Najde společný začátek řetězců. Nebo vrátí prázdný řetězec, pokud společná předpona nebyla nalezena.
before(string $haystack, string $needle, int $nth=1): ?string
Vrátí část řetězce $haystack
před n-tým $nth
výskytem řetězce $needle
. Nebo
null
, pokud $needle
nebyl nalezen. Při záporné hodnotě $nth
se hledá od konce
řetězce.
after(string $haystack, string $needle, int $nth=1): ?string
Vrátí část řetězce $haystack
po n-tém $nth
výskytu řetězce $needle
. Nebo
null
, pokud $needle
nebyl nalezen. Při záporné hodnotě $nth
se hledá od konce
řetězce.
indexOf(string $haystack, string $needle, int $nth=1): ?int
Vrátí pozici ve znacích n-tého $nth
výskýtu řetězce $needle
v řetězci
$haystack
. Nebo null
, pokud nebyl $needle
nalezen. Při záporné hodnotě
$nth
se hledá od konce řetězce.
Kódování
fixEncoding(string $s): string
Odstraní z řetězce neplatné UTF-8 znaky.
checkEncoding(string $s): bool
Zjistí, jestli jde o platný UTF-8 řetězec.
Použijte Nette\Utils\Validator::isUnicode().
toAscii(string $s): string
Převede řetězec UTF-8 na ASCII, tj. odebere diakritiku atd.
Vyžaduje PHP rozšíření intl
.
chr(int $code): string
Vrací specifický znak v UTF-8 z kódového bodu (číslo v rozsahu 0×0000..D7FF a 0xE000..10FFFF).
ord(string $char): int
Vrací kódový bod konkrétního znaku v UTF-8 (číslo v rozsahu 0×0000..D7FF nebo 0xE000..10FFFF).
Regulární výrazy
Třída Strings nabízí funkce pro práci s regulárními výrazy. Na rozdíl od nativních PHP funkcí disponují
srozumitelnějším API, lepší podporou Unicode a především detekcí chyb. Jakákoliv chyba při kompilaci nebo zpracování
výrazu vyhodí výjimku Nette\RegexpException
.
split(string $subject, string $pattern, bool $captureOffset=false, bool $skipEmpty=false, int $limit=-1, bool $utf8=false): array
Rozdělí řetězec do pole podle regulárního výrazu. Výrazy v závorkách budou zachyceny a vráceny také.
Pokud $skipEmpty
je true
, budou vráceny pouze neprázdné položky:
Je-li zadáno $limit
, budou vráceny pouze podřetězce do limitu a zbytek řetězce bude umístěn do posledního
prvku. Limit –1 nebo 0 znamená žádné omezení.
Pokud $utf8
je true
, přepne se vyhodnocování do Unicode režimu. Podobně jako když uvedete
modifikátor u
.
Pokud $captureOffset
je true
, bude pro každou vyskytující se shodu vrácena také její pozice
v řetězci (v bajtech; pokud je nastaveno $utf8
tak ve znacích). Tím se změní návratová hodnota na pole, kde
každý prvek je dvojice složená z matchnutého řetězce a jeho pozice.
match(string $subject, string $pattern, bool $captureOffset=false, int $offset=0, bool $unmatchedAsNull=false, bool $utf8=false): ?array
Hledá v řetězci část odpovídající regulárnímu výrazu a vrátí pole s nalezeným výrazem a jednotlivými
podvýrazy, nebo null
.
Pokud $unmatchedAsNull
je true
, jsou nezachycené podvzory vráceny jako null; jinak jsou vráceny
jako prázdný řetězec nebo nevráceny:
Pokud $utf8
je true
, přepne se vyhodnocování do Unicode režimu. Podobně jako když uvedete
modifikátor u
:
Parametr $offset
lze použít k určení pozice, od které se má začít hledat (v bajtech; pokud je nastaveno
$utf8
tak ve znacích).
Pokud $captureOffset
je true
, bude pro každou vyskytující se shodu vrácena také její pozice
v řetězci (v bajtech; pokud je nastaveno $utf8
tak ve znacích). Tím se změní návratová hodnota na pole, kde
každý prvek je dvojice složená z matchnutého řetězce a jeho offsetu:
matchAll(string $subject, string $pattern, bool $captureOffset=false, int $offset=0, bool $unmatchedAsNull=false, bool $patternOrder=false, bool $utf8=false, bool $lazy=false): array|Generator
Hledá v řetězci všechny výskyty odpovídající regulárnímu výrazu a vrátí pole polí s nalezeným výrazem a jednotlivými podvýrazy.
Pokud $patternOrder
je true
, změní se struktura výsledků tak, že v první položce je pole
úplných shod vzoru, ve druhé je pole řetězců, kterým odpovídá první podvzor v závorce, a tak dále:
Pokud $unmatchedAsNull
je true
, jsou nezachycené podvzory vráceny jako null; jinak jsou vráceny
jako prázdný řetězec nebo nevráceny:
Pokud $utf8
je true
, přepne se vyhodnocování do Unicode režimu. Podobně jako když uvedete
modifikátor u
:
Parametr $offset
lze použít k určení pozice, od které se má začít hledat (v bajtech; pokud je nastaveno
$utf8
tak ve znacích).
Pokud $captureOffset
je true
, bude pro každou vyskytující se shodu vrácena také její pozice
v řetězci (v bajtech; pokud je nastaveno $utf8
tak ve znacích). Tím se změní návratová hodnota na pole, kde
každý prvek je dvojice složená z matchnutého řetězce a jeho pozice:
Pokud $lazy
je true
, funkce vrací Generator
místo pole, což přináší významné
výkonnostní výhody při práci s velkými řetězci. Generátor umožňuje vyhledávat shody postupně, místo celého
řetězce najednou. To umožňuje efektivně pracovat i s extrémně velkými vstupními texty. Navíc můžete kdykoliv
přerušit zpracování, pokud najdete hledanou shodu, což šetří výpočetní čas.
replace(string $subject, string|array
$pattern, string|callable $replacement=''
, int $limit=-1, bool $captureOffset=false, bool
$unmatchedAsNull=false, bool $utf8=false): string
Nahrazuje všechny výskyty odpovídající regulárnímu výrazu. $replacement
je buď maska náhradního
řetězce nebo callback.
Funkce také umožnuje provést více záměň tím, že ve druhém parametru předáme pole ve tvaru
pattern => replacement
:
Parametr $limit
omezuje počet provedených záměň. Limit –1 znamená žádné omezení.
Pokud $utf8
je true
, přepne se vyhodnocování do Unicode režimu. Podobně jako když uvedete
modifikátor u
.
Pokud $captureOffset
je true
, bude pro každou vyskytující se shodu předána callbacku také její
pozice v řetězci (v bajtech; pokud je nastaveno $utf8
tak ve znacích). Tím se změní podoba předávaného
pole, kde každý prvek je dvojice složená z matchnutého řetězce a jeho pozice.
Pokud $unmatchedAsNull
je true
, jsou nezachycené podvzory předány do callbacku jako null; jinak
jsou předány jako prázdný řetězec nebo nepředány: