Nigdy nie korzystałem z niego bezpośrednio, więc mogę podzielić się tylko niektórymi dokumentami i ogólnymi przemyśleniami na temat tej techniki (które głównie dotyczą twoich pytań 1 i 3).
Moje ogólne rozumienie biclusteringu pochodzi głównie z badań genetycznych (2-6), w których staramy się uwzględnić klastry genów i grupy osób: krótko mówiąc, szukamy grup próbek o podobnym profilu ekspresji genów razem (może to być powiązane na przykład stan chorobowy) i geny, które przyczyniają się do tego wzoru profilowania genów. Przegląd najnowszego stanu wiedzy na temat biologicznych „masywnych” zestawów danych jest dostępny w slajdach Pardalos , Biclustering . Zauważ, że istnieje pakiet R, biclust , z aplikacjami do danych mikromacierzy.
W rzeczywistości moim pierwotnym pomysłem było zastosowanie tej metodologii do diagnozy klinicznej, ponieważ pozwala ona na umieszczenie cech lub zmiennych w więcej niż jednym klastrze, co jest interesujące z punktu widzenia semeiologicznego, ponieważ objawy, które łączą się razem, pozwalają zdefiniować zespół , ale niektóre objawy mogą pokrywają się w różnych chorobach. Dobrą dyskusję można znaleźć w Cramer i wsp., Comorbidity: A perspektywy sieci (Behavioural and Brain Sciences 2010, 33, 137-193).
Nieco powiązaną techniką jest wspólne filtrowanie . Dobra recenzja została udostępniona przez Su i Khoshgoftaar ( Advances in Artificial Intelligence , 2009): A Survey of Collaborative Filtering Techniques . Inne odniesienia są wymienione na końcu. Być może wiąże się z tym również analiza częstych zestawów przedmiotów , jak pokazano na przykładzie problemu z koszykiem , ale nigdy tego nie badałem. Kolejnym przykładem ko-klastrowania jest sytuacja, gdy chcemy jednocześnie grupować słowa i dokumenty, jak w przypadku eksploracji tekstu, np. Dhillon (2001). Ko-klastrowanie dokumentów i słów za pomocą dwustronnego podziału spektralnego . Proc. KDD , s. 269–274.
O niektórych ogólnych odniesieniach, oto niezbyt wyczerpująca lista, która, mam nadzieję, może okazać się przydatna:
- Jain, AK (2010). Grupowanie danych: 50 lat ponad K-średnich . Pattern Recognition Letters , 31 , 651–666
- Carmona-Saez i in. (2006). Przetwarzanie danych dotyczących ekspresji genów przez nierównomierną nieujemną faktoryzację macierzy . BMC Bioinformatics , 7 , 78.
- Prelic i in. (2006). Systematyczne porównanie i ocena metod biclustering dla danych dotyczących ekspresji genów . Bioinformatics , 22 (9) , 1122-1129. www.tik.ee.ethz.ch/sop/bimax
- DiMaggio i in. (2008). Biclustering poprzez optymalne ponowne uporządkowanie matryc danych w biologii systemów: rygorystyczne metody i badania porównawcze . BMC Bioinformatics , 9 , 458.
- Santamaria i in. (2008). BicOverlapper: narzędzie do wizualizacji bicluster . Bioinformatics , 24 (9) , 1212-1213.
- Madeira, SC i Oliveira, AL (2004) Algorytmy Bicluster do analizy danych biologicznych: ankieta . IEEE Trans. Comput. Biol. Bioinform. , 1 , 24–45.
- Badea, L. (2009). Uogólnione klastry do nakładających się na siebie klastrów . IJCAI
- Symeonidis, P. (2006). Filtrowanie grupowe Nearest-Biclusters . WEBKDD
Oto dobra ankieta / opinia:
Stanislav Busygin, Oleg Prokopyev i Panos M. Pardalos. Rowerem w eksploracji danych . Computers & Operations Research, 35 (9): 2964–2987, wrzesień 2008 r.
źródło