Localizing influential genes with modified versions of Bayesian Information Criterion

Bogdan, Małgorzata; Szulc, Piotr

doi:10.14708/ma.v40i1.274

Artykuł - szczegóły

Czasopismo

Mathematica Applicanda

2012 | 40 | 1 |

Tytuł artykułu

Localizing influential genes with modified versions of Bayesian Information Criterion

Autorzy

Małgorzata Bogdan , Piotr Szulc

Treść / Zawartość

Pełne teksty:

Pobierz

Warianty tytułu

Języki publikacji

EN

Abstrakty

EN

Regions of the genome that influence quantitative traits are called quantitative trait loci (QTLs) and can be located using statistical methods. For this aim scientists use genetic markers, whose genotypes are known, and look for the associations between these genotypes and trait values. The common method which can be used in this problem is a linear regression. There are many model selection criteria for the choice of predictors in a linear regression. However, in the context of QTL mapping, where the number of available markers $p_n$ is usually bigger than the sample size $n$, the classical criteria overestimate the number of regressors. To solve this problem several modifications of the {\it Bayesian Information Criterion} have been proposed and it has been recently proved that at least three of them, EBIC, mBIC and mBIC2, are consistent (also in case when $p_n>n$). In this article we discuss these criteria and their asymptotic properties and compare them by an extensive simulation study in the genetic context.

PL

W ostatnich latach nastąpił bardzo szybki rozwój technologii wspomagających badania w genetyce. Rezultatem tego postępu są olbrzymie zbiory danych. Skuteczne pozyskiwanie informacji z takich zbiorów wymaga scisłej współpracy między genetykami, informatykami oraz statystykami. Rolą statystyków jest okreslenie precyzyjnych kryteriów gwarantujących efektywne oddzielenie istotnej informacji od losowych zakłócen. W szczególnosci, duze rozmiary tych zbiorów wymagają opracowania nowych metod korekty na wielokrotne testowanie oraz nowych kryteriów wyboru istotnych zmiennych objasniających. Szczególnym przykładem identyfikacji zmiennych objasniających jest problem lokalizacji genów odpowiedzialnych za cechy ilosciowe (Quantitative Trait Loci, QTL).Do lokalizacji genów stosuje się tzw. markery molekularne. Są to fragmenty łancucha DNA, które mogą występowac w róznych wariantach (allelach) u róznych jednostek w populacji. Postac danego markera u badanego osobnika mozna ustalic eksperymentalnie.U organizmów diploidalnych, u których chromosomy występują w parach, genotyp danego markera jest wyspecyfikowany przez podanie alleli występujących na obu chromosomach. Z punktu widzenia statystyka genotypy markerów stanowią jakosciowe zmienne objasniające. Jezeli dany marker znajduje się blisko genu wpływającego na badaną cechę, to mozemy spodziewac się statystycznej zaleznosci między genotypem w tym markerze a badaną cechą ilosciową.Do identyfikacji istotnych markerów genetycznych zwykle stosuje się model regresji wielorakiej. Liczbę zmiennych niezaleznych mozna w tej sytuacji szacowac za pomocą jednego z wielu kryteriów wyboru modelu. Niestety, okazuje się, ze w kontekscie genetycznym, gdzie liczba markerów istotnie przewyzsza liczbę obserwacji, klasyczne kryteria wyboru modelu przeszacowują liczbę istotnych zmiennych.Aby rozwiązac ten problem ostatnio wprowadzono kilka nowych modyfikacji Bayesowskiego Kryterium Informacyjnego. W tym artykule zaprezentujemy trzy z tych modyfikacji, podamy wyniki dotyczące zgodnosci tych metod w sytuacji gdy liczba dostępnych markerów genetycznych rosnie wraz z rozmiarem próby oraz wyniki symulacji komputerowych ilustrujących działanie tych metod w kontekscie genetycznym.

Słowa kluczowe

EN

statistical genetics, quantitative trait loci, model selection, sparse linear regression, Bayesian Information Criterion

PL

genetyka statystyczna, wybór modelu, rzadka regresja liniowa,

Wydawca

Polish Mathematical Society

Czasopismo

Mathematica Applicanda

Rocznik

2012

Tom

40

Numer

1

Opis fizyczny

Daty

wydano

2012

online

2012-08-06

Twórcy

autor

Małgorzata Bogdan

autor

Piotr Szulc

Bibliografia

Typ dokumentu

Bibliografia

Identyfikatory

DOI

10.14708/ma.v40i1.274

Identyfikator YADDA

bwmeta1.element.ojs-doi-10_14708_ma_v40i1_274

Artykuł - szczegóły

Czasopismo

Mathematica Applicanda

Tytuł artykułu

Localizing influential genes with modified versions of Bayesian Information Criterion

Autorzy

Treść / Zawartość

Warianty tytułu

Języki publikacji

Abstrakty

Słowa kluczowe

Wydawca

Czasopismo

Rocznik

Tom

Numer

Opis fizyczny

Daty

Twórcy

Bibliografia

Typ dokumentu

Bibliografia

Identyfikatory

Identyfikator YADDA