چه تعداد تکرار بوتسترپ برای بررسی‌های جدول زندگی ضروری است؟

کد مقاله : 1891-24IPPC (R2)

نویسندگان

¹دانشگاه تبریز

²گروه گیاهپزشکی دانشگاه تبریز

چکیده

یکی از مسایل مهم در تجزیه داده های جدول زندگی، برآورد عدم قطعیت پارامترهای جدول زندگی است. روش های نمونه گیری مجدد مورد استفاده ی محققین قرار گرفته که در سال های اخیر روش بوتسترپ به روش جکنایف ترجیح داده شده است. یکی از پرسش‌های مطرح در این زمینه تعداد تکرار لازم برای نیل به دقت بالا و پرهیز از عملیات غیر ضروری می‌باشد. در بررسی‌های اخیر 100 هزار تکرار بوتسترپ رایج گردیده، این در حالی است که Meyer و همکاران 500 تا 1000 تکرار را برای این آنالیزها کافی می دانند. در این بررسی بر آن شدیم این موضوع را از دیدگاه اثری که تکرارهای بیشتر بر نرمال شدن پارامترها از یک سو و همگرایی مقادیر انحراف استاندارد (SE) از سوی دیگر دارد مورد بررسی قرار دهیم. چنانچه افزودن تکرارها برای نیل به یک توزیع نرمال یا تخمین دقیق‌تر SE کمکی ننمایند انجام آن غیرضروری خواهد بود. برای این منظور 19 سری داده‌ی جدول زندگی شامل 11 سری داده‌ی شبیه سازی شده، شش تیمار مربوط به جدول زندگی زنبور پارازیتویید تخم سن گندم Trissolcus vassilievi Mayr از داده های بنامولایی و دو سری داده‌های مربوط به Ooencyrtus telenomicida Vassiljev و O. fecundus Ferrier & Voegelle انتخاب و تکرارهای بوتسترپ برای پارامترهای جدول زندگی ایجاد در 10000 تکرار ایجاد و روند تغییرات خطای استاندارد SE و انحراف داده‌ها از توزیع نرمال بررسی شد. در داده‌های شبیه سازی شده با توجه به منحنی بقای نوع اول حشرات آزمایشگاهی، متغیرهای بیشتری از قبیل تولیدمثل چاوله در برابر نرمال، منحنی بقای مقعر در برابر محدب، نرخ رشد سریع در مقایسه با آهسته و واریانس‌های نشو ونمایی مختلف مورد بررسی قرار گرفت. در بین تمام متغیرهای مورد مطالعه، معلوم شد که فقط نوع منحنی بقا در نتایج تاثیر شگرف می‌گذارد و مادامی‌که منحنی بقا محدب باشد، 500-1000 تکرار پیشنهادی میر و همکاران برای تخمین‌های دقیق SE کافی و حتی زیادی خواهد بود. افزایش تکرارها هیچ کمکی به بهبود تخمین‌های SE نکرد و علاوه بر این در نرمال شدن داده‌ها نیز کمکی نکرد. داده‌های d به‌شدت چاوله و غیر نرمال بودند و تحت هیچ شرایطی نرمال نشدند. وقتی منحنی بقا مقعر و تلفات نابالغی خیلی سنگین بود، d به نرمال نزدیک‌تر و سایر پارامترها انحراف بیشتری از نرمال نشان دادند که باز هم نمونه‌های بزرگ‌تر انحراف‌های بیشتری از نرمال داشتند. مضافا همگرا شدن SE در این حالت با تعداد تکرارهای بیشتر حاصل شد. چنانچه تعداد حشرات آزمایشی 20 و بیشتر باشد 1600 تکرار کافی به نظر می‌رسد ولی در نمونه‌های کوچک‌تر تا 2500 تکرار ضرورت می‌یابد. در هر حال، تکرارهای بی‌شمار غیر ضروری است و کمکی به بهبود تجزیه نخواهد کرد.

کلیدواژه ها

نمونه گیری مجدد؛ نرمالیته؛ تکرار؛ خطای استاندارد

Title

How many bootstrap replicates are necessary in life table data analysis?

Authors

Shahazad Iranipour, Saba Mahmoodi Arabi

Abstract

An important problem in life table analysis is estimating uncertainty of the parameters. Researchers use recombination (or resampling) methods, while bootsrap is preferred recently to jackknife technique. One basic question in these analyses is that how many bootstrap replication is necessary to achieve an adequately precise estimate without unnecessary measurements. In recent researches 100'000 replicates are used, however Meyer et al proposed 500-1000 replicates. In this study, we tackled this issue by addressing two basic objects; one normality of parameters; i. e. if higher number of replicates lead to achieve a normal distribution, and the second, how precise is standard error (SE) estimates. If additional replicates do not play a role in achieving more precise and normal parameter estimates, then they will be avoided. To achieve this task, we processed data of 19 cohorts including six Trissolcus vassilievi Mayr, of BenaMolaei’s research, two cohorts of Ooencyrtus telenomicida and O. fecundus and 11 simulated life table data, and 10 or 100 thousands bootstrap replicates were created by computer and trend of convergence of SE values by including any additional replicate, as well as normality of data were investigated. Taking into account that laboratory data had only convex survivorship curves, in simulated populations some further variables such as concave vs. convex survivorship curve, skewed vs. normal distribution of reproduction, higher vs. lower growth rates and developmental time, also were included. Among those variables only immature mortality (concave vs convex survivorship curve) had a considerable effect on the behavior of parameters. As long as survivorship curve is convex, d remains skewed and did not reach a normal situation, while 500-1000 replicates was enough to achieve convergence in SE-values. Additional replicates did not lead to achieve normal data. In contrast when the survivorship curve was concave, d tend to achieve to normality, whereas the other parameters depart more frequently. Convergence in SE estimates achieved by higher number of replicates particularly when number of the handled insects were low. In this circumstances 1600-2500 replicates caused SE-values to converge. As a whole, bootstrap replicates over 1000 when immature mortality is low, and 2500 when it is high adequate and additional replicates are unnecessary and do not assist in obtaining more precise and normal set of data.

Keywords

resampling, normality, repetition, standard error