عنوان مقاله ترجمه شده:مطالعات تجربی یک رویکرد پیش پردازش داده دو مرحله ای برای پیش بینی خطای نرم افزار
عنوان انگلیسی مقاله ترجمه شده:Empirical Studies of a Two-Stage Data Preprocessing Approach for Software Fault Prediction
سال انتشار مقالهنام ژورنالتعداد صفحات مقاله ترجمه شده
2016IEEE TRANSACTIONS ON RELIABILITY16
چکیده فارسی:پیش بینی خطای نرم افزار یک اقدام ارزشمند در اطمینان از کیفیت نرم افزار می باشد تا به بهترین شکل منابع آزمایش محدود را تخصیص دهد. طبقه بندی یکی از روش های موثر برای پیش بینی خطای نرم افزار می باشد. مدل های طبقه بندی براساس مجموعه داده های به دست آمده به وسیله کاوش مخازن داده گذشته نرم افزار آموزش داده شده اند. در این مقاله، ما یک رویکرد پردازش داده دو مرحله ای نوین پیشنهاد کردیم که انتخاب ویژگی و کاهش نمونه را شامل می شود. خصوصا، در مرحله انتخاب ویژگی، ما در ابتدا آنالیر ارتباط را اجرا می کنیم و سپس یک روش خوشه بندی مبتنی بر آستانه به نام الگوریتم خوشه بندی مبتنی بر آستانه نوین را برای اجرای کنترل افزونگی پیشنهاد می کنیم. در مرحله کاهش نمونه، زیرنمونه گیری برای حفظ تعادل بین نمونه های معیوب و غیرمعیوب به کار گرفته شده است. در مطالعات تجربی، ما مجموعه داده ها را از پروژه های نرم افزاری جهان حقیقی همانند ناسا و Eclipse انتخاب کردیم. سپس ما رویکرد خود را با برخی روشهای پایه مقایسه کردیم و فاکتورهای تاثیرگذار بیشتر در رویکرد ما مورد بررسی قرار گرفتند. نتیجه نهایی اثربخشی (کارایی) رویکرد ما را نشان می دهد و یک راهنمایی برای رسیدن به پیش پردازش داده مقرون به صرفه در هنگام استفاده از رویکرد دو مرحله ای ما فراهم می کند.
چکیده انگلیسی:Software fault prediction is a valuable exercise in software quality assurance to best allocate limited testing resources. Classification is one of the effective methods for software fault prediction. The classification models are trained based on the datasets obtained by mining software historical repositories. However, the performance of the models depends on the quality of datasets. In this paper, we propose a novel two-stage data preprocessing approach which incorporates both feature selection and instance reduction. Specifically, in the feature selection stage, we first perform relevance analysis, and then propose a threshold-based clustering method, called novel threshold-based clustering algorithm, to conduct redundancy control. In the instance reduction stage, we apply random under-sampling to keep the balance between the faulty and non-faulty instances. In empirical studies, we chose datasets from real-world software projects, such as Eclipse and NASA. Then we compared our approach with some classical baseline methods, and further investigated the influencing factors in our approach. The final results demonstrate the effectiveness of our approach, and provide a guideline for achieving cost-effective data preprocessing when using our two-stage approach
کلمات کلیدی مقاله: , , , , ,
دانلود اصل مقاله ترجمه نشده افزودن به سبد خرید