The Game Theory

Teoria gier to dział matematyki stosowanej zajmujący się formalnym opisem i analizą interakcji strategicznych pomiędzy racjonalnymi (lub ograniczenie racjonalnymi) decydentami, zwanymi graczami. Jej rdzeń stanowi modelowanie sytuacji, w których: • każdy gracz wybiera strategię (tj. kompletny plan działania, często warunkowy od informacji i historii), • wynik jest opisany przez funkcje wypłat (utility/payoff), • wypłata każdego gracza zależy od profilu strategii wszystkich uczestników. Centralne pojęcia teorii gier to m.in. równowaga Nasha (brak jednostronnie opłacalnej zmiany strategii), gry dynamiczne (sekwencyjne), gry z niepełną informacją (Bayesowskie), oraz narzędzia analizy stabilności zachowań i alokacji zasobów w warunkach konfliktu i koordynacji.

Ilustracje: konfiguracje (B/S) — 8 wariantów

8 wariantów

Ilustracja skróconej wersji Teorii Zbioru Względnych Konfiguracji: 8 możliwych wariantów konfiguracji zmiany ceny (wersja uproszczona), stanowiąca wprowadzenie do wersji rozszerzonej (16 możliwych wariantów zmiany ceny).

Ekonometria to dziedzina łącząca teorię prawdopodobieństwa, statystykę matematyczną i modelowanie w celu: • estymacji parametrów modeli opisujących zależności ekonomiczne/finansowe, • testowania hipotez o mechanizmach generujących dane, • prognozowania oraz kwantyfikacji niepewności.

W praktyce ekonometria obejmuje m.in.: • modele regresyjne i uogólnione (OLS/GLM), • modele szeregów czasowych (ARMA/ARIMA, VAR, GARCH, state-space), • problemy identyfikacji (endogeniczność, IV/2SLS), • własności estymatorów (obciążenie, zgodność, efektywność), • rygorystyczną walidację out-of-sample i kontrolę błędów specyfikacji.

Ilustracje: BOSO / BXSO / SXBO

3 warianty

Poniżej znajdują się 3 schematy wraz z obliczeniami dla trzech kolejnych zmiennych, które można zaimplementować podczas tworzenia własnych Expert Advisorów. Zmienne te filtrują więcej przypadków niż samo korzystanie z Teorii Zbioru Względnych Konfiguracji (BOSO) dla UUUU. Pokazuję, jakie będą wyniki dla poszczególnych konfiguracji — których w 4-krokowym ruchu jest 16 — oraz wynik po ich zsumowaniu. Skrót BOSO oznacza, że przez cały ruch ścieżki (w tym przypadku przedstawiony jako Wzrost, Wzrost, Wzrost, Wzrost (UUUU)) utrzymujemy otwarte jednocześnie pozycje BUY i SELL, każdą o wolumenie 0.01 lota, przez wszystkie 4 kroki, a następnie zamykamy je dopiero na końcu. Analogicznie, BXSO oznacza, że pozycje BUY w trakcie 4-krokowego ruchu ceny zamykamy natychmiast, gdy tylko osiągną zysk +1 (dla przypadku UUUU pierwszy krok w stronę zysku dotyczy pozycji BUY). Z kolei pozycje SELL przetrzymujemy na stracie aż do końca 4-krokowego ruchu. Natomiast SXBO oznacza, że pozycje SELL (w przypadku UUUU to SELL generuje −1 straty) zamykamy od razu po osiągnięciu straty −1, a pozycje BUY przetrzymujemy z zyskiem do końca ruchu. Co to oznacza w praktyce? To, że niezależnie od tego, jaki instrument wybierzemy (np. dla kontraktów terminowych) i jaką analizę techniczną zastosujemy, pewne elementy statystyczne mogą dawać większą przewagę. Im więcej zmiennych statystycznych zaimplementujemy, tym precyzyjniejszy model stworzymy — zarówno dla strategii, jak i dla testów oraz analizy wyników na historycznych ruchach ceny. Pamiętaj jednak, że nie da się jednoznacznie przewidzieć kierunku najbliższego ruchu ceny — dokładnie tak samo jak nie da się przewidzieć wyniku pojedynczego rzutu w orzeł–reszkę. Przewagę buduje się nie przez „pewność”, lecz przez statystykę i reguły działania.

Kontekst w quantitative tradingu

W quantitative tradingu ekonometria i teoria gier odpowiadają na dwa różne, komplementarne pytania:Ekonometria: „Jakie prawidłowości/statystyki da się wiarygodnie wydobyć z danych i z jaką niepewnością?” → estymacja sygnałów (alpha), reżimów, korelacji, ryzyka, przewidywań (forecast), parametrów microstructure (np. impact).

Teoria gier: „Jak mój wynik zmieni się, gdy inni uczestnicy rynku zareagują na moją strategię?” → modelowanie strategicznej adaptacji rynku do Twojego działania (kontrstrategie, crowding, wyścig o kolejkę, selekcja negatywna).

Konkretnie, w tradingu teoria gier jest użyteczna, bo rynek nie jest „tłem”, tylko systemem interakcji strategii: • Egzekucja zleceń (execution): Twoje decyzje wpływają na LOB i wywołują odpowiedź innych algorytmów → ekonometria szacuje impact/slippage, teoria gier opisuje „przeciwnika” (market maker, arbitrzy, inne algorytmy) i równowagę zachowań. • Adverse selection i toxicity: dostawcy płynności optymalizują kwotowanie przeciw agresorom; agresorzy optymalizują timing i fragmentację zleceń → to klasyczna interakcja strategiczna. • Crowding i erozja edge’u: sygnał może działać do momentu, aż stanie się powszechny; wtedy pojawia się reakcja konkurencji i zmiana rozkładów → ekonometria wykrywa degradację, teoria gier wyjaśnia mechanizm (adaptacja strategiczna). • Reguły rynku i mikrostruktura: priorytet cena–czas, tick size, opłaty, zasady matching’u to „reguły gry”; zachowania uczestników mogą tworzyć stabilne wzorce (równowagi) → trading jest wtedy analizą strategii w danych regułach gry.

A) Intuicja rynkowa (rynek jako gra) 🎲 Twoja egzekucja zmienia LOB → inni adaptują quote/latency → zmienia się rozkład fill/impact. To jest dokładnie „gra”.

B) Ekonometria jako warstwa estymacji (co wchodzi do gry)

W praktyce nie znasz P(⋅) ani składników payoff. Ekonometria dostarcza estymat: • Model przejść / dynamiki rynku: P(⋅ | s_t, a_t^{1:N}) — szacujesz z danych reżimy zmienności, order‑flow, prawdopodobieństwa fill. • Koszty mikrorynkowe: impact(q, state), oraz Pr(fill | price level, depth, flow). • Modele punktowe dla flow: Hawkes / intensity models dla napływu zleceń i anulowań.

To jest „cement” pod teorię gier: bez estymacji parametrów gra jest czystą abstrakcją.

C) Jak to się łączy w quant tradingu (konkretnie, bez ogólników)

1) Pipeline: Estymuj → Optymalizuj strategię → Sprawdź stabilność strategiczną • Ekonometria: estymujesz P̂, impact̂, Pr(fill)̂, reżimy. • Teoria gier / kontrola: rozwiązujesz problem strategii π* przy założeniu reakcji rynku (równowaga / najlepsza odpowiedź). • Test strategiczny: sprawdzasz, czy edge nie znika przy crowding/adaptacji (to już element „gry”, a nie samej predykcji).

2) Dwa klasyczne „punkty zapalne” • Adverse selection / toxicity: market maker ustawia spready/quotes tak, by minimalizować stratę na informed flow; Ty optymalizujesz timing/agresję → naturalnie opisuje to gra „dostawca płynności vs agresor”. • Crowding i erozja alpha: jeśli wiele algorytmów używa podobnego sygnału, to payoff zależy od udziału innych. Formalnie: payoff u_i zależy od rozkładu strategii populacji → mean‑field games jako sensowny model dużego rynku.

W quantitative tradingu rynek można modelować jako stochastyczną grę dynamiczną, w której gracze (algorytmy i uczestnicy rynku) wybierają strategie będące regułami składania/anulowania zleceń w czasie na podstawie obserwacji stanu rynku (LOB/order flow). Wypłaty zależą od wspólnego profilu strategii i obejmują PnL pomniejszony o koszty transakcyjne, market impact i komponent ryzyka. Ekonometria dostarcza estymat dynamiki rynku oraz parametrów kosztów i prawdopodobieństw realizacji zleceń, a teoria gier opisuje równowagi i reakcje konkurencyjne, które determinują stabilność i trwałość edge’u.

Wzrost ceny w pierwszym ruchu - 8 możliwych konfiguracji

8 wariantów

W sytuacji gdzie 4 ruchy(kroki) występują kolejno po sobie mamy 16 wariantów konfiguracji ruchów(kroków). 8 możliwości konfiguracji rozpoczynających się pierwszym ruchem w górę(wzrost)

Spadek ceny w pierwszym ruchu - 8 możliwych konfiguracji

8 wariantów

Wzrost i Spadek ceny w pierwszym ruchu - 8 możliwych konfiguracji

8 wariantów

Teoria Zbioru Względnych Konfiguracji (Relative Configuration Sets (RCS): Formalna koncepcja portfeli konfiguracji z operatorami rozliczania i czasami zatrzymania w grach sekwencyjnych. RCS jako meta-strategia: symetrie, neutralizacja ścieżkowa i selekcja nieantycypująca. Przedstawienie operatorów rozliczania jako kontrola w strategiach samofinansujących: RCS, EMM i no-arbitrage

Teoria Zbioru Względnych Konfiguracji (RCS) jako meta-strategia w sekwencyjnych grach losowych

Operatory wypłat z czasami zatrzymania, switching, samofinansowanie, FTAP oraz gwarancje pathwise/no-regret

Abstrakt

Formalizuję Teorię Zbioru Względnych Konfiguracji (Relative Configuration Set, RCS) jako klasę meta-strategii w dyskretnych grach sekwencyjnych inspirowanych konstrukcją strategii algorytmicznych na siatce kroków ceny. Rynek modeluję jako ścieżkę ω∈{U,D}T (kroki ±1), konfiguracje decyzji jako wektory a∈{B,S}T uruchamiane równolegle, zaś mechanikę realizacji wyników jako rodzinę operatorów wypłat Φm implementujących czasy zatrzymania (m.in. hold-to-maturity, take-profit, stop-loss). Portfel RCS jest agregacją wypłat po zbiorze konfiguracji oraz krokach, z możliwością switchingu operatorów zależnego od historii. Wykazuję własność symetrii: dla pełnego zbioru konfiguracji operator hold-to-maturity neutralizuje portfel ścieżkowo (identycznie zero dla każdej ω). Następnie rozdzielam dwie perspektywy analizy: (i) pathwise/adversarial, w której stosuje się algorytmy no-regret (Hedge/multiplicative weights) bez założeń probabilistycznych [4–6], oraz (ii) perspektywę martingale/FTAP, w której portfele interpretuję jako strategie samofinansujące o procesie wartości Vt i formułuję wyniki no-edge/no-arbitrage w języku martyngałów i miary równoważnej martyngałowej (EMM) [9–12]. Kończę sekcjami ograniczeń praktycznych oraz projektu eksperymentów Monte Carlo służących estymacji metryk rozkładu wypłat (w tym ogonów).

Słowa kluczowe: meta-strategie, portfel strategii, stopping time, operator wypłaty, switching, samofinansowanie, martyngał, FTAP, EMM, no-regret, ryzyko ogonowe.

1. Wprowadzenie

W klasycznej teorii gier podstawowym wyborem jest pojedyncza strategia, zaś wypłata jest funkcją strategii i stanu natury. W zastosowaniach algorytmicznych (trading, market-making, automaty decyzji) często utrzymuje się jednak wiele reguł równolegle, a kluczową rolę odgrywa schemat rozliczania (zamknięcia TP/SL/hold), który nie jest jedynie parametrem, lecz elementem sterowania. Taki obraz jest spokrewniony z portfelami strategii (w tym uniwersalnymi portfelami) [1–3] oraz uczeniem online (mieszanie ekspertów i minimalizacja regret) [4–6], lecz RCS eksponuje dodatkową warstwę: operator rozliczania jako jawny obiekt decyzyjny.

Remark 1.1 (dwa reżimy analizy)

RCS dopuszcza dwie komplementarne perspektywy:

• Pathwise/no-regret: rynek jest dowolną ścieżką (nawet adversarial), a celem jest adaptacja do najlepszego eksperta w hindsight bez probabilistyki [4–6]. • Martingale/FTAP: rynek jest modelem stochastyczno-finansowym; kluczowe są no-edge (w sensie EV) oraz no-arbitrage (w sensie FTAP) [9–12]. Wyniki z (1) i (2) odpowiadają na różne pytania i wymagają rozdzielenia założeń.

2. Model rynku: siatka kroków i filtracja 2.1. Siatka kroków Niech Δ>0 będzie krokiem siatki, T∈N horyzontem. Zdefiniuj proces przyrostów:

Xt(ω)∈{+1,−1},t=1,…,T,

gdzie identyfikuję U↔+1, D↔−1. Proces ceny:

Pt(ω)=P0+Δi=1∑tXi(ω),t=0,1,…,T.

2.2. Przestrzeń ścieżek i filtracja Ω={U,D}T,ω=(ω1,…,ωT)∈Ω.

Niech Ft=σ(ω1,…,ωt) będzie naturalną filtracją. Historię do chwili t oznaczam:

ht=(ω1,…,ωt−1).

3. Konfiguracje decyzji i zbiór RCS 3.1. Konfiguracje A={B,S}T,a=(a1,…,aT)∈A,∣A∣=2T.

Kodowanie kierunku:

d(at)={+1,−1,at=B,at=S.

Definicja 3.1 (RCS) Zbiorem względnych konfiguracji jest dowolny S⊆A, interpretowany jako portfel konfiguracji uruchamianych równolegle. Szczególny przypadek stanowi pełny zbiór S=A.

4. Operatory wypłat i czasy zatrzymania 4.1. Zysk pojedynczej nogi Noga otwarta w kroku t (kierunek d(at)) i zamknięta w czasie τ≥t ma wypłatę (w jednostkach kroku):

G(ω,a,t;τ)=s=t∑τ−1d(at)Xs+1(ω).

4.2. Operator wypłaty Niech M będzie rodziną operatorów rozliczania. Operator m∈M przypisuje czas zamknięcia τm(ω,a,t) oraz wypłatę:

Φm(ω,a,t)=G(ω,a,t;τm(ω,a,t)).

Założenie 4.1 (warunki techniczne „journal-grade”) Dla każdego m∈M, a∈A, t∈{1,…,T}:

(A1) τm(⋅,a,t) jest czasem zatrzymania względem (Fu).
(A2) t≤τm(ω,a,t)≤T (ograniczenie horyzontem).
(A3) Φm(⋅,a,t)∈L1 (całkowalność; w modelu ±1 z τ≤T wypłaty są ograniczone, więc warunek jest spełniony).

4.3. Kanoniczne operatory

BOSO (hold-to-maturity):

τBOSO(ω,a,t)=T.

BXSO (TP +1 dla long; short do końca):

τBXSO(ω,a,t)={inf{u∈{t+1,…,T}:Pu(ω)−Pt(ω)≥Δ}∧T,T,at=B,at=S.

BOSX (SL −1 dla short; long do końca):

τBOSX(ω,a,t)={T,inf{u∈{t+1,…,T}:Pu(ω)−Pt(ω)≥Δ}∧T,at=B,at=S.

5. Portfel RCS: wolumeny i switching operatorów 5.1. Wolumeny Niech v=(v1,…,vT), gdzie vt≥0 jest wolumenem przypisanym do kroku t.

5.2. Portfel przy stałym operatorze Πm(ω;S,v)=t=1∑Tvta∈S∑Φm(ω,a,t).

5.3. Switching operatorów

Polityka switchingu:

π: (t,ht)↦mt∈M.

Wymaganie nieantycypacji:

π(t,ht) zależy wyłącznie od Ft−1. Portfel ze switchingiem:

Π(ω;S,v,π)=t=1∑Tvta∈S∑Φπ(t,ht)(ω,a,t).

6. Symetria i neutralizacja dla pełnej bazy konfiguracji Definicja 6.1 (inwolucja long/short) Zdefiniuj odwzorowanie ⋅ˉ:A→A przez zamianę B↔S w każdym kroku:

aˉt={S,B,at=B,at=S.

Wtedy aˉˉ=a oraz d(aˉt)=−d(at).

Lemat 6.1 (antysymetria wypłaty w BOSO) Dla operatora BOSO i dowolnych ω,a,t:

ΦBOSO(ω,aˉ,t)=−ΦBOSO(ω,a,t).

Dowód. W BOSO τ=T, a wypłata jest liniowa w d(at). Zamiana d↦−d zmienia znak. □

Propozycja 6.1 (neutralizacja ścieżkowa) Jeżeli S=A, to dla dowolnych vt≥0 i dowolnej ścieżki ω:

ΠBOSO(ω;A,v)≡0.

Dowód. Zbiór A dzieli się na pary {a,aˉ}. Z Lematu 6.1 wkłady każdej pary znoszą się w sumie po a, dla każdego t, więc cała suma wynosi 0. □

Remark 6.1 (o artefaktach „dodatnich sum” w tabelach)

Jeżeli analizuje się tylko część konfiguracji lub tylko część ścieżek, parowanie może nie domknąć się i pojawiają się pozorne dodatnie sumy. Nie jest to własność modelu, lecz artefakt niepełnej enumeracji.

7. Pivot jako stopping time i „wartość prawa selekcji”

Definicja 7.1 (pivot) Pivotem jest minimalny prefiks długości 2 wracający do poziomu startu: UD lub DU.

Lemat 7.1 (pivot jest czasem zatrzymania) Niech τpivot będzie pierwszym czasem t≥2, dla którego (ωt−1,ωt)∈{(U,D),(D,U)}. Wtedy τpivot jest czasem zatrzymania względem (Ft).

Dowód. Zdarzenie {τpivot≤t} zależy tylko od (ω1,…,ωt), więc należy do Ft. □

Remark 7.1 (lokalne „+1” w węźle pivotu) Dla ścieżki UD: P0→P0+Δ→P0. Noga otwarta na poziomie P0+Δ ma przy powrocie: short +1 krok, long −1 krok. Stąd w węźle pivotu występuje chwilowa asymetria MTM wśród konfiguracji.

Definicja 7.2 (selekcja po pivocie jako ruch meta-poziomu)

Niech K będzie zbiorem dopuszczalnych reguł selekcji (np. zamknięcie pewnej podrodziny konfiguracji spełniających kryterium MTM). Reguła selekcji:

κ: (t,ht)↦κt∈K

jest nieantycypująca. Selekcja po pivocie jest interpretowana jako rozszerzenie przestrzeni akcji o ruch, który nie zmienia natury ścieżki, ale zmienia reguły agregacji wypłat (pruning gałęzi portfela).

Remark 7.2 (dlaczego to nie jest „arbitraż znikąd”)

Jeśli selekcja jest dozwolona, to analizowana gra jest inna niż gra bez selekcji: pojawia się dodatkowa opcjonalność. Zysk „księgowy (+1)” może być interpretowany jako realizacja wartości tej opcjonalności, ale nie obala wyników no-edge/no-arbitrage bez dodatkowych założeń o asymetrii rynku lub wypłat.

8. Reżim I: ujęcie pathwise/adversarial i gwarancje no-regret 8.1. Kod historii i pamięć n Dla n≥1 definiuję stan historii:

ht(n)(ω)=(Xt−n(ω),…,Xt−1(ω))∈{−1,+1}n,

dla t>n (dla t≤n przyjmuję konwencję uzupełnienia stanem początkowym).

8.2. Dwie klasy baz: konfiguracje vs polityki pamięci n

W celu uniknięcia niejednoznaczności rozróżniam:

Definicja 8.1 (eksperci-konfiguracje).

Cn={B,S}n,∣Cn∣=2n.

Są to sekwencje decyzji długości n.

Definicja 8.2 (eksperci-polityki pamięci n).

Πn={π:{−1,+1}n→{B,S}},∣Πn∣=22n.

Są to pełne reguły decyzyjne zależne od stanu historii.

8.3. Mieszanie ekspertów i założenie ograniczonych strat Niech w kroku t ekspert i∈[N] ponosi stratę ℓt,i∈[0,1] (w praktyce osiąga się to przez skalowanie wypłat/bounded gains). Portfel (mieszanka) utrzymuje rozkład wag wt∈ΔN i ponosi stratę ⟨wt,ℓt⟩.

Twierdzenie 8.1 (Hedge/WM: gwarancja no-regret) Dla dowolnej sekwencji strat ℓt∈[0,1]N (w szczególności adversarial) algorytm Hedge/multiplicative weights spełnia:

t=1∑T⟨wt,ℓt⟩≤i∈[N]mint=1∑Tℓt,i+O(TlogN),

z jawnie znanymi stałymi (zależnymi od wariantu algorytmu) [4–6]. Interpretacja: bez probabilistyki uzyskuje się adaptację do najlepszego eksperta w hindsight, z regret subliniowym w T.

Remark 8.1 (relacja do RCS)

W ujęciu RCS „eksperci” mogą odpowiadać konfiguracjom Cn, politykom Πn lub bardziej złożonym obiektom (np. parom: konfiguracja + operator). Gwarancja no-regret dotyczy wtedy porównania do najlepszego obiektu w tej rodzinie.

9. Reżim II: samofinansowanie, martyngały i FTAP (EMM)

W tej części przechodzę do standardowego języka finansów matematycznych, aby odróżnić „no-edge” (w sensie wartości oczekiwanej) od „no-arbitrage” (w sensie FTAP).

9.1. Model rynku bez tarcia Niech St będzie ceną aktywa ryzykownego (można przyjąć St=Pt), a konto bezpieczne:

Bt=(1+r)t,r≥0.

Cena zdyskontowana:

St=BtSt.

Definicja 9.1 (strategia i proces wartości) Strategia to proces (φt,ψt)t=0T−1, gdzie φt jest liczbą jednostek aktywa ryzykownego trzymaną na [t,t+1), a ψt liczbą jednostek konta bezpiecznego. Wartość portfela:

Vt=φtSt+ψtBt,Vt=BtVt=φtSt+ψt.

Definicja 9.2 (samofinansowanie)

Strategia jest samofinansująca, jeśli:

Vt+1−Vt=φt(St+1−St)+ψt(Bt+1−Bt),

równoważnie:

Vt+1−Vt=φt(St+1−St).

Jest to standardowa definicja rynku dyskretnego bez tarcia [9–10].

9.2. Wersja „no-edge” pod P (martingale pricing intuition)

Założenie 9.1 (martyngał pod miarą statystyczną).

EP[St+1∣Ft]=St.

Lemat 9.1 (brak driftu dla zysków przewidywalnych). Jeśli S jest martyngałem pod P oraz φt jest Ft-mierzalne i całkowalne, to:

EP[VT]=V0.

Uzasadnienie. Z samofinansowania VT=V0+∑t=0T−1φt(St+1−St), a każdy składnik ma warunkową wartość oczekiwaną 0. □

Twierdzenie 9.1 (no-edge dla portfeli RCS pod P).

Jeżeli wypłaty portfela RCS odpowiadają strategii samofinansującej o zdyskontowanej wartości VT oraz zachodzi Założenie 9.1, to:

EP[VT]=V0.

W szczególności, dla V0=0 otrzymuje się EP[VT]=0.

Interpretacja: bez asymetrii (driftu/premii) nie powstaje dodatni EV wyłącznie przez reguły rozliczania i switching.

9.3. Wersja FTAP: miara równoważna martyngałowa

Twierdzenie 9.2 (FTAP, wersja dyskretna — skrót). W rynku dyskretnym bez tarcia warunek braku arbitrażu (NA) jest równoważny istnieniu miary Q∼P, pod którą S jest martyngałem (EMM) [9–12].

Twierdzenie 9.3 (no-arbitrage dla strategii samofinansujących).

Jeżeli istnieje EMM Q, to dla dowolnej samofinansującej strategii:

EQ[VT]=V0.

W szczególności nie istnieje strategia o V0=0 taka, że VT≥0 P-p.n. oraz P(VT>0)>0 (brak arbitrażu) [9–12].

Remark 9.1 (P vs Q)

FTAP gwarantuje brak arbitrażu i istnienie miary Q, pod którą zdyskontowane ceny są martyngałem. To nie jest tożsame z twierdzeniem o EV pod P. W praktyce:

„no-arbitrage” jest warunkiem modelowym rynku,
„no-edge” (dodatnie EV) jest własnością strategii pod miarą statystyczną P i wymaga asymetrii.

10. Minimalne warunki na dodatni EV: co musi wprowadzać asymetrię

Twierdzenie 10.1 (warunek minimalny: asymetria warunkowa) Jeżeli istnieje historia ht taka, że:

EP[ΔSt+1∣ht]≠0,

to istnieje polityka ekspozycji (a w szczególności polityka switchingu operatorów i/lub wag) zdolna do skonstruowania strategii o dodatnim EV (przy pomijalnych kosztach i spełnionych ograniczeniach). Uzasadnienie (intuicja). Warunkowy drift pozwala kierować ekspozycję w stronę częstszych ruchów; operator typu take-profit działa jak mechanizm „zbierania” tej asymetrii.

Twierdzenie 10.2 (asymetria wypłaty / premia mikrostrukturalna) Nawet przy EP[ΔSt+1∣Ft]=0, dodatni EV może pojawić się, jeśli wypłaty zawierają dodatni składnik oczekiwany (np. premia za dostarczanie płynności, spread capture, asymetria wykonania). Wtedy EV pochodzi z funkcji wypłaty, nie z driftu ceny.

11. Limitations & Practical Considerations

Koszty transakcyjne (spread, prowizje) redukują efektywne Φm i mogą zneutralizować lokalne realizacje.

Slippage jest stanowo-zależny; asymetria slippage może tworzyć lub niszczyć przewagę.

Forced liquidation / margin wprowadza zewnętrzny czas zatrzymania τmargin, wzmacniając ogony strat.

Gaps łamią bariery TP/SL (realizacje gorsze niż modelowe).

Złożoność ∣A∣=2T wymusza redukcję rodziny konfiguracji lub parametryzację.

12. Experimental Design: Monte Carlo i metryki rozkładu 12.1. Cel Oszacować rozkład Π(ω;S,v,π) (lub VT) dla danych operatorów i polityk, rozdzielając:

kontrolę kształtu rozkładu (win-rate, ogony),
weryfikację EV w obecności kosztów/asymetrii.

12.2. Generowanie ścieżek

Generuję N niezależnych ścieżek w modelach:

i.i.d. „uczciwa monetka” (benchmark),
modele reżimowe/Markowowskie (asymetria warunkowa),
modele z kosztem i slippage (asymetria wypłaty).

12.3. Metryki Raportuję: EV, błąd standardowy i CI; win-rate Pr(Π>0), nonlose-rate Pr(Π≥0); kwantyle 1%,5%,50%,95%,99%; VaRα i CVaRα; min/max; porównania wariantów operatorów i switchingu (bootstrap/testy różnic).

13. Wnioski

RCS formalizuje meta-poziom strategii: portfel konfiguracji + wybór/switching operatora wypłaty opartego o czasy zatrzymania. Dla pełnej bazy konfiguracji operator BOSO neutralizuje portfel ścieżkowo, ujawniając strukturę symetrii. W ujęciu pathwise algorytmy no-regret zapewniają adaptację do najlepszego eksperta bez probabilistyki. W ujęciu finansowym (martingale/FTAP) brak jest darmowego arbitrażu; dodatnie EV wymaga asymetrii w prawdopodobieństwach przejść lub w strukturze wypłaty. RCS porządkuje różnicę między projektowaniem rozkładu wypłat a generowaniem przewagi.

Bibliografia

[1] T. M. Cover, Universal Portfolios, Mathematical Finance 1(1):1–29, 1991. [2] T. M. Cover, E. Ordentlich, Universal Portfolios with Side Information, IEEE Transactions on Information Theory 42(2):348–363, 1996. [3] A. T. Kalai, S. S. Vempala, Efficient Algorithms for Universal Portfolios, Journal of Machine Learning Research 3:423–440, 2002. [4] N. Littlestone, M. K. Warmuth, The Weighted Majority Algorithm, Information and Computation 108(2):212–261, 1994. [5] Y. Freund, R. E. Schapire, A Decision-Theoretic Generalization of On-Line Learning and an Application to Boosting, Journal of Computer and System Sciences 55(1):119–139, 1997. [6] N. Cesa-Bianchi, G. Lugosi, Prediction, Learning, and Games, Cambridge University Press, 2006. [7] G. Peskir, A. Shiryaev, Optimal Stopping and Free-Boundary Problems, Birkhäuser, 2006. [8] Y. Kifer, Dynkin Games and Israeli Options, arXiv:1209.1791, 2012. [9] J. M. Harrison, D. M. Kreps, Martingales and Arbitrage in Multi-period Securities Markets, Journal of Economic Theory 20(3):381–408, 1979. [10] J. M. Harrison, S. R. Pliska, Martingales and Stochastic Integrals in the Theory of Continuous Trading, Stochastic Processes and their Applications 11(3):215–260, 1981. [11] F. Delbaen, W. Schachermayer, A General Version of the Fundamental Theorem of Asset Pricing, Mathematische Annalen 300(3):463–520, 1994. [12] F. Delbaen, W. Schachermayer, The Fundamental Theorem of Asset Pricing for Unbounded Stochastic Processes, Mathematische Annalen 312(2):215–250, 1998.

Niniejsza praca przedstawia autorską koncepcję oraz towarzyszący jej aparat pojęciowy, obejmujące opis zjawisk, tok rozumowania oraz ilustracje stanowiące elementy jednej spójnej konstrukcji teoretycznej. Wprowadzono własne nazewnictwo i definicje operacyjne kluczowych komponentów, traktując je jako integralne elementy zaproponowanego ujęcia. ~Dominik Jakubiec Quanthasma Insights 2026r.