Rozdzielanie słów losowymi DFA

15

Jeden z interesujących otwartych problemów dotyczących DFA wymienionych w Czy są jakieś otwarte problemy dotyczące DFA? jest wielkością DFA wymaganą do oddzielenia dwóch łańcuchów długości n . Jestem ciekawy, czy są jakieś wyniki dotyczące zdolności losowego DFA do oddzielania dwóch podanych (nielosowych) ciągów.

Wyraźnie losowy DFA o wystarczająco wielu stanach oddziela łańcuchy z dużym prawdopodobieństwem. W szczególności, jeśli u,vΣn , losowe DFA ze stanami O(n) prawdopodobnie nigdy nie powrócą do tego samego stanu, gdy osiągnie pierwsze miejsce, w którym różnią się u i v , a zatem oddziela u i v .

Czy możemy zrobić lepiej? Idealnie, co jest najmniejszą ST, które losowym DFA z F ( ń ) państw oddziela ciągi o długości n z dodatnim prawdopodobieństwa (lub może prawdopodobieństwo 1 / 2 )? Krótkie wyszukiwanie nie wykazało wielu wyników dotyczących właściwości losowych DFA; wszystko, co mogłem znaleźć, to http://arxiv.org/abs/1311.6830 .f(n)f(n)n1/2

Geoffrey Irving
źródło
Pozytywne prawdopodobieństwo nie jest tutaj szczególnie przydatnym warunkiem, biorąc pod uwagę, że jest to tylko powtórzenie otwartego problemu. Wysokie prawdopodobieństwo wciąż może być interesujące.
Geoffrey Irving
1
Co znaczy „separuje”? Akceptuje jedno, a odrzuca drugie? Jeśli tak, to czy oczywiste jest, że stany wystarczające? O(n)
usul
Tak, oddziela oznacza, że ​​akceptuje dokładnie jeden. I masz rację: najbardziej trywialny argument separacji faktycznie wymaga stanów (to, co napisałem powyżej jest błędny), choć byłbym zaskoczony, gdyby mniej było ich mniej. O(n2)
Geoffrey Irving
1
Czy nie spodziewałbyś się, że granice będą zależeć od tego, jak bardzo różnią się słowa? Wygląda na to, że słowa różniące się pojedynczą literą byłyby trudniejsze do przypadkowego rozróżnienia, ponieważ musisz dyskryminować przy tym jednym przejściu, a bardzo różne słowa byłyby łatwiejsze. [Aby uogólnić, możesz zapomnieć o najdłuższym wspólnym prefiksie (z tego osiągasz stan losowy); następnie różne litery wysyłają cię do tego samego stanu lub do różnych stanów; wtedy, jeśli stany są różne, musisz przyjrzeć się proba ponownej synchronizacji i pozostania w synchronizacji (zaczyna się ponownie w zależności od słów) ...]
ann
Tak, podobnie jak problem otwarty, interesują mnie najtrudniejsze możliwe słowa, aby je rozróżnić. Słowa, które różnią się tylko kilkoma miejscami, mogą już być oddzielone stanami , więc jest mało prawdopodobne, aby były trudnym przypadkiem. O(logn)
Geoffrey Irving

Odpowiedzi:

2

[Edytuj: ta odpowiedź nie działa, zobacz komentarze.]

To tylko nieformalny pomysł i nie wiem, czy to pomaga, ale jest zbyt długi, aby go podać w komentarzu. Nie jestem też w ogóle zaznajomiony z przypadkowymi DFA, więc może mam błędną intuicję, jak powinieneś myśleć o prawdopodobieństwach na ich temat, ale mam nadzieję, że nie jest to całkowicie bezwartościowe.

Przypuszczam, że twoje granice powinny zależeć od tego, jak bardzo różnią się i v ; jeśli nie, wydaje mi się jasne, że najgorszym przypadkiem są łańcuchy różniące się tylko pierwszym znakiem (łańcuchy różniące się w zbiorze X pozycji mają większe szanse na rozróżnienie niż łańcuchy różniące się w zbiorze Y uvX pozycji , Powiedziałbym, a jak najszybsze wprowadzenie różnicy daje możliwość ponownej synchronizacji).YX

Przyjrzę się również prawdopodobieństwu rozróżnienia słów, a mianowicie, że osiągają różne stany. Sądzę, że musiałbyś wtedy dostosować się do przyjęcia lub odrzucenia na podstawie tego, jak twoje losowe DFA przydzielają stany końcowe. Jeśli prawdopodobieństwo każdego stanu 1/2 jest ostateczne, wówczas gdy łańcuchy kończą się w tym samym stanie, nie są rozróżniane, a gdy kończą się w różnych stanach, prawdopodobieństwo 1/2 ich rozróżnienia.

Teraz rozważę słowo uzyskane z u i v w następujący sposób: w i = 1 jeśli u i = v i , w i = 0 w przeciwnym razie. Myślę, że jest jasne, że w jest jedyną interesującą rzeczą do rozważenia na temat u i v .wuvwi=1ui=viwi=0wuv

Teraz należy ustalić prawdopodobieństwo tego, że są w tym samym stanie po przeczytaniu prefiksów długości i z U i V , a Q ( i ) = 1 - p ( ı ), prawdopodobieństwo tego, że nie są.p(i)iuvq(i)=1p(i)

Myślę, że mamy gdy w i + 1 wynosi 1 . Intuicyjnie jesteśmy w tym samym stanie po przeczytaniu liter i + 1, albo kiedy byliśmy w tym samym stanie po przeczytaniu i , lub gdy byliśmy w dwóch różnych (losowych) stanach, narysowaliśmy dwie przejścia do stanów losowych, a one się zdarzyły bądź taki sam. Podobnie mamy p ( i + 1 ) = 1p(i+1)=p(i)+q(i)/nwi+11i+1i gdy w i + 1 wynosi 0p(i+1)=1/nwi+10 : rysujesz dwa losowe stany, bez względu na to, od czego zacząłeś.

Z tego sądzę, że można obliczyć prawdopodobieństwo bycia w tym samym stanie po przeczytaniu i v .uv

a3nm
źródło
Niestety nie jest wcale oczywiste, że jest jedyną interesującą właściwością u i v . Najłatwiej to zobaczyć, ponieważ istnieje trywialnie niezerowe prawdopodobieństwo odróżnienia dowolnego nietrywialnego w od 0 n ; w rzeczywistości wystarczą tylko dwa stany, niezależnie od n . Jednak, jak omówiono w arxiv.org/pdf/1103.4513.pdf , istnieją słowa u , v długości n st no o ( log n ) stan DFA może je rozróżnić. Jest to sprzeczne z twoimi formułami dla p ( i )wuvw0nnu,vno(logn)p(i) .
Geoffrey Irving
1
Aby to wyjaśnić, twoje formuły byłyby poprawne, gdyby przejścia DFA były losową funkcją indeksu ciągu; ponieważ są one niezależne od wskaźnika, prawdopodobieństwa są skorelowane w dość skomplikowany sposób.
Geoffrey Irving
Obawiam się, że nie rozumiem twojego kontrprzykładu. Istnieje prba, z dwoma stanami, rozróżniającymi 0 n i w 0 n , OK; i może są słowa o długości n , których nie można rozdzielić stanami o ( log n ) . Ale w jaki sposób przeczy to mojemu twierdzeniu, że w jest jedyną ważną rzeczą, lub moim formułom dla p ( i )>00nw0nno(logn)wp(i)? Jeśli chodzi o korelacje, widzę, że może istnieć hatchback, o którym wspominasz, ale nie rozumiem jeszcze, dlaczego zawodzi. Jeśli przejdziesz dwa razy przez ten sam stan, istnieje korelacja, ale czy istnieje powód, by sądzić, że wpłynie on średnio w określonym kierunku?
a3nm
If p(n)<1, u and v are distinguished with positive probability. However, for sufficiently large n and small numbers of states we know that p(n)=1 for some u and v. Since your formulas imply that if p(i)<1 then p(i+1)=p(i)+(1p(i))/n=p(i)(11/n)+1/n<1, your formula is not capturing the fact that certain u and v are impossible to distinguish.
Geoffrey Irving
Ah... right, I understand. If no small DFA can distinguish two words, then no random DFA can distinguish them either. So indeed there is a problem with my approach, the probability q(i) should drop to zero eventually, because of those correlations, it seems. Sorry for providing an incorrect answer.
a3nm