Jak znaleźć typowe błędy ortograficzne w nazwie mojej domeny?

38

Chciałbym zarejestrować błędy pisowni dla mojej nazwy domeny, ale nie chcę spekulacyjnie rejestrować zillion formularzy „tylko zgadujących”. Na przykład to narzędzie oferuje następujące opcje w Generatorze literówek słów kluczowych

  • pomiń litery
  • podwójne litery
  • odwrotne litery
  • pomiń spacje
  • brakujący klucz
  • włożony klucz

Co jest świetne i generuje dziesiątki, jeśli nie setki możliwych nazw domen ... ale to nie mówi mi najważniejszej rzeczy: które z tych błędów ortograficznych zdarzają się najczęściej przy prawdziwych użytkownikach na żywo w Internecie?

Jak znaleźć rzeczywiste dane z błędami pisowni od prawdziwych użytkowników?

Jeff Atwood
źródło

Odpowiedzi:

25

Istnieje kilka zasobów na Wikipedii, ale naprawdę trzeba mieć szczęście, aby mieć domenę, która jest zwykłym waniliowym angielskim słowem, wystarczająco powszechnym, aby się tutaj pojawić.

Możesz użyć narzędzia do generowania literówek słów kluczowych lub czegoś podobnego, a następnie mozolnie wprowadzić każde z nich do Google - co ironicznie spróbuje naprawić pisownię - a następnie użyj „wyszukaj zamiast {wersja z błędną pisownią}” i sprawdź, ile wyszukiwań wyniki otrzymane dla tego konkretnego błędu ortograficznego:

Pokazuje wyniki dla traktatu

Zamiast tego wyszukaj tretise

To daje około 117 000 wyników dla „tretise” vs. 17 800 000 wyników dla „traktat”. Masz teraz pojęcie, jak często ten błąd ortograficzny występuje w całym Internecie! Możesz więc faworyzować błędy pisowni, które występują częściej w prawdziwym świecie.

Być może co najważniejsze, znalazłem też te strony:

http://how-to-spell.net/treatise

Jak przeliterować traktat?

Prawidłowo: traktat .

Typowe błędy ortograficzne: tretise - 100%

Który najwyraźniej nie korzystania z rzeczywistych danych!

Zebraliśmy odsetki błędów w pisowni z prawie 15 423 252 sesji sprawdzania pisowni na stronie internetowej spellchecker.net (styczeń 2010 - czerwiec 2012).

Najlepiej byłoby, gdyby Google udostępniło dane dotyczące błędów ortograficznych, ponieważ podejrzewam, że ma o wiele więcej danych ... ale nie jestem pewien, czy są skłonne je udostępnić, być może uważają automatyczną korektę pisowni błędnie wpisanych wyszukiwanych słów jako przewaga konkurencyjna.

Byłoby wspaniale, gdyby tak zrobili!

Jeff Atwood
źródło
2
Nie zapominaj, że możesz również zapytać użytkowników!
Alex L
2
Google Triliion słowo corpus pewnością obejmował zarówno prawidłowo i nieprawidłowo pisane słowa, więc można go używać i wiele słowa i liczby pożerające obliczyć te się od surowych danych Google dokłada akcji.
hippietrail
OpenDNS i Google Public DNS zdecydowanie mają tego rodzaju informacje, ale żadne z nich nie udostępnia ich, ale zamiast tego używa ich do ulepszania własnych usług (OpenDNS ma funkcję korekty literówek). Można założyć własną usługę DNS za darmo / libre i zbierać dane.
Christian Davén
1
Nie sądzę, aby korzystanie z wyników Google było dobrym pomysłem (nawet jeśli jest to niepraktyczne). Jak wskazuje xkcd na swoim blagu , „liczba„ wyników ”, które Google podaje podczas wyszukiwania, jest sfabrykowana”.
rodrigoq
9

Ciekawy problem. Możesz użyć narzędzia wyszukiwania słów kluczowych Google na https://adwords.google.pl/o/KeywordTool, aby dowiedzieć się, ile wyszukiwań miesięcznie jest przeprowadzanych dla każdej z literówek nazw domen (musisz wygenerować listę literówek z narzędzie wspomniane powyżej). Nie jest idealny, ale reprezentowałby rzeczywiste literówki użytkowników i dawałby ci sporo przyzwoitych danych. (Właśnie go przetestowałem i uzyskałem pewne wyniki, które wydawały się rozsądne).

Mark Seifert
źródło
Niestety, nie jest to już prawdą, skoro mamy Kolibra. Narzędzie propozycji słów kluczowych Google zostało deprecated. Został zastąpiony Planerem słów kluczowych, produktem Google AdSense.
Ellie Kesselman,
4

Interesujące pytanie, analiza wyników wyszukiwania zgodnie z opisem tutaj powinna zdecydowanie być dobrą pozycją wyjściową, ale jest wrażliwa na fałszywe alarmy wywołane przez inne witryny o nazwach podobnych do twojej. Może również pomijać typowe błędy, o których nie pomyślałeś, patrząc na listę, którą powiedziałbym, analiza analizy słów może być również interesująca.

Metodą szczególnie dobrą w wykrywaniu błędów, które najczęściej popełniają zwykli użytkownicy, jest poproszenie ich o wpisanie nazwy. Oczywiście nie wszystkie strony internetowe są do tego odpowiednie, zakładając, że strona jest interaktywna, powinna dobrze pasować.

Zamiast używać zwykłego captcha, po prostu pokaż kilka logo swojej witryny z (częścią) napisaną tam nazwą i poproś innych o wpisanie go, zanim będą mogli zrobić to samo.

Dane nie będą oparte na ogromnej populacji, takiej jak wyszukiwarka Google, ale będzie to dokładnie grupa docelowa, a zatem wyniki powinny być dość potężne.

Dennis Jaheruddin
źródło
1

Możesz wypróbować tę wyszukiwarkę literówek w domenie . Opcje wyszukiwania, osobno lub łącznie:

  • Klawiatura QWERTY zsuwa się
  • Zamiana listów
  • Lepkie klucze, na dodatkowe lub brakujące litery
  • Wyglądają jak litery lkontra cyfry1

Istnieją trzy „punkty widzenia” do wyszukiwania. Rejestrujący jest domyślny. DNS to sortowalny widok pokazujący serwer nazw i adres IP każdej literówki. TLD znajduje literówki w nazwach w dowolnym z tych sześciu TLD: .com .net .org .biz .us .infoi jeśli jest zarejestrowane.

Czy różni się to od słowa kluczowego narzędzia OP? Może. Twierdzi, że „znajduje typowe literówki związane z nazwami domen”. Oznacza to, że dane zostały zebrane od użytkowników podczas ręcznego wpisywania nazw domen na pasku nawigacji przeglądarki .

  • Wyszukiwanie „klawiszy lepkich” obejmuje popularne warianty z łącznikami lub bez łączników. Tego rodzaju literówki nie wynikają z fizycznie pomieszanych, lepkich klawiszy, a raczej z błędów w postrzeganiu ludzi. Wskazuje to na zastosowanie czegoś lepszego niż oparte na regułach podejście eksperckie.
Ellie Kesselman
źródło