ArticleOriginal scientific text
Title
Localizing influential genes with modified versions of Bayesian Information Criterion
Authors ,
Abstract
W ostatnich latach nastąpił bardzo szybki rozwój technologii wspomagających badania w genetyce. Rezultatem tego postępu są olbrzymie zbiory danych. Skuteczne pozyskiwanie informacji z takich zbiorów wymaga scisłej współpracy między genetykami, informatykami oraz statystykami. Rolą statystyków jest okreslenie precyzyjnych kryteriów gwarantujących efektywne oddzielenie istotnej informacji od losowych zakłócen. W szczególnosci, duze rozmiary tych zbiorów wymagają opracowania nowych metod korekty na wielokrotne testowanie oraz nowych kryteriów wyboru istotnych zmiennych objasniających. Szczególnym przykładem identyfikacji zmiennych objasniających jest problem lokalizacji genów odpowiedzialnych za cechy ilosciowe (Quantitative Trait Loci, QTL).Do lokalizacji genów stosuje się tzw. markery molekularne. Są to fragmenty łancucha DNA, które mogą występowac w róznych wariantach (allelach) u róznych jednostek w populacji. Postac danego markera u badanego osobnika mozna ustalic eksperymentalnie.U organizmów diploidalnych, u których chromosomy występują w parach, genotyp danego markera jest wyspecyfikowany przez podanie alleli występujących na obu chromosomach. Z punktu widzenia statystyka genotypy markerów stanowią jakosciowe zmienne objasniające. Jezeli dany marker znajduje się blisko genu wpływającego na badaną cechę, to mozemy spodziewac się statystycznej zaleznosci między genotypem w tym markerze a badaną cechą ilosciową.Do identyfikacji istotnych markerów genetycznych zwykle stosuje się model regresji wielorakiej. Liczbę zmiennych niezaleznych mozna w tej sytuacji szacowac za pomocą jednego z wielu kryteriów wyboru modelu. Niestety, okazuje się, ze w kontekscie genetycznym, gdzie liczba markerów istotnie przewyzsza liczbę obserwacji, klasyczne kryteria wyboru modelu przeszacowują liczbę istotnych zmiennych.Aby rozwiązac ten problem ostatnio wprowadzono kilka nowych modyfikacji Bayesowskiego Kryterium Informacyjnego. W tym artykule zaprezentujemy trzy z tych modyfikacji, podamy wyniki dotyczące zgodnosci tych metod w sytuacji gdy liczba dostępnych markerów genetycznych rosnie wraz z rozmiarem próby oraz wyniki symulacji komputerowych ilustrujących działanie tych metod w kontekscie genetycznym.
Keywords
statistical genetics, quantitative trait loci, model selection, sparse linear regression, Bayesian Information Criterion