—d1984

دانشکده شیمی
پایان نامه دوره کارشناسی ارشد در رشته شیمی گرایش تجزیه
عنوان:
مدلسازی QSAR سمیت مایعات یونی
استاد راهنما:
دکتر محمد حسین فاطمی
استاد مشاور:
دکتر محمد رضا حاج محمدی
نگارش:
پريسا ايزديان
خرداد ماه1390
سپاس‌گزاری
سپاس و ستایش خداوند بی همتا را که توفیق کسب علم و معرفت، به من عطا فرمود. به رسم ادب و سنت نیکوی سپاس، لازم می دانم از کلیه عزیزانی که مرا در تدوین این پایان نامه یاری کردند سپاس گزاری نمایم.
از پدر و مادرم، دو بیکران بی همتا، دو سرو قامتی که گوهر وجودشان، نسیم کلام شان و باران محبت شان را همواره بی هیچ منت و ادعا، مرهمی نمودند بر خستگی هایم. آنان که راستی قامتم در شکستگی قامتشان تجلی یافت و آنان که همیشه، هموارگر مسیر تلاش‌هایم بوده اند، بسیار متشکرم و بر دستان پر مهرشان بوسه می زنم. از خواهرانم، یاران راستین روزهای زندگیم که در طول زندگی و تحصیل یاور و پشتیبانم بودند، کمال تشکر را دارم و با دلی مملو از محبت آرزوهایشان را آرزومندم.
از استاد فرزانه و بزرگوارم جناب آقای دکتر محمد حسين فاطمي که افتخار شاگردی ایشان را داشتم و در تمامی مراحل اجرای این پایان نامه، همواره از پشتیبانی و رهنمودهای ارزنده‌ي ایشان بهره مند بوده ام، سپاس گزارم. صمیمانه ترین تشکرات خود را به اساتید ارجمندم آقایان دکتر محمدرضا حاج محمدي، دکتر رضا اوجاني و دکتر جهانبخش رئوف تقدیم می دارم.
یاد و خاطره دوستان عزیز و خوبم، خانم ها هدي قمبري، زهرا قربانژاد، ماريه اوصيا و زهره قره‌چاهي، که در طول دوران تحصیلم افتخار آشنایی با ایشان را داشته ام، گرامی می دارم. خاطرات شیرین و به یاد ماندنی با همه‌ي این بزرگواران را همواره و در همه جا در ذهن می پرورانم و از درگاه ایزدمنان آرزوی سلامتی و توفیق روز افزون برای همگی این عزیزان خواستارم.

تقديم به
مهربان پروردگاري كه هرچه دارم از لطف و اراده ي اوست.
ارزنده ترین آموزگار دوران زندگيم دكتر محمدحسين فاطمي
موهبت هاي زندگيم
مادرم، مهربان ترين فرشته روي زمين، زيباترين كلمه ‌ي وجودي دنيا ، او كه تار و پود روح بزرگش را از مهربانی بافته‌اند. كسي كه در هر آغوشش، هر نوازشش و در هر لبخندش به سوي عطوفت الهي گام بر مي دارد.
پدرم، وجودش افتخار و آرامش لحظه هايم
درخشان ترين گوهران آسمان زندگيم خواهرانم،
مهسا كه همواره مديون پشتيباني ها و راهنمايي هايش خواهم بود
پرستو و درسا كه وجودشان لحظه ها را برايم به نغمه ها مبدل مي‌سازد.

چكيده
سميت سلولي سري متنوعي از 227 مايع يوني (بدست آمده از پايگاه داده‌ي تاثيرات زيستي مايعات يوني UFT/Merck) حاوي 94 كاتيون ايميدازوليوم، 53 پيريدينيوم، 23 پيروليدينيوم، 22 آمونيوم، 15 پپريدينيوم، 10 مورفولينيوم، 5 فسفونيوم و 5 كويينولينيوم در تركيب با 25 نوع آنيون متفاوت، با استفاده از پارامترهاي ساختاري آنها و با بهره‌گيري از رويكرد QSAR تخمين زده شد. مدل‌هاي خطي و غير خطي جهت پيش‌بيني سميت مايعات يوني با استفاده از روش‌هاي رگرسيون خطي چندگانه (MLR)، شبكه‌ي عصبي پرسپترون چند لايه (MLP NN) و الگوريتم ژنتيك ساخته شدند. كيفيت و اعتبار مدل‌هاي پيشنهادي نيز با استفاده از روش‌هاي ارزيابي داخلي و خارجي مورد بررسي قرار گرفت. همچنين، قلمرو كاربرد مدل نيز براي مدل ارائه شده محاسبه گرديد. نتايج حاصل نشان دادند كه نيمه‌ي كاتيوني مايعات يوني بيشترين سهم را در بروز فعاليت سمي اين تركيبات بر عهده داشته و نيمه‌ي آنيوني داراي سهم كمتري مي‌باشد. اطلاعات ساختاري ارائه شده در اين كار مي‌تواند جهت طراحي منطقي مايعات يوني ايمن‌تر مورد استفاده قرار گيرد.
واژه‌هاي كليدي
مايعات يوني، شبكه‌ي عصبي پرسپترون چندلايه، الگوريتم ژنتيك
فهرست مطالب
عنوان صفحه
TOC \o “1-6” \h \z \u فصل اول: مقدمه11-1) اجزاي اصلي QSAR31-2) انواع روش‌هاي QSAR41-3) اهداف QSAR51-4) نگاهي گذرا برمايعات يوني5فصل دوم: تئوری82-1) جمع‌آوري سري داده‌ها………………………………………………………………………………………………………………..10
2-1-1) روش‌هاي تقسيم بندي سري داده‌ها……………………………………………………………………………………………….10
2-1-1-1) تحليل خوشه‌اي (CA)……………………………………………………………………………………………………….11
2-1-1-2) انواع خوشه‌بندی……………………………………………………………………………………………… …………….12
2-1-1-3) اندازه‌گیری فاصله ……………………………………………………………………………………………………………13
2-1-1-4) دسته‌بندی تفکیکی……………………………………………………………………………………………………………14
2-1-1-4-1) دسته بندی مبهم C- میانگین………………………………………………………………………………………….14
2-1-1-4-2) الگوریتم دسته‌بندی QT………………………………………………………………………………………………15
2-1-1-4-3) خوشه بندي K- میانگین………………………………………………………………………………………………15
2-2) بهینه‌سازی ساختارهای مولکولی…………………………………………………………………………………………………………………………….17
2-3) محاسبه توصیف‌کننده‌های مولکولی172-3-1) توصیف‌کننده‌های ساختاری………………………………………………………………………………………………………………………..19
2-3-2) توصیف کننده‌های توپولوژیکی……………………………………………………………………………………………………………………192-3-2-1) توصيف‌كننده‌هاي جزء……………………………………………………………………………………………………………………..19
2-3-2-2) انديس‌هاي توپولوژي192-3-2-3) توصيف‌كننده‌هاي زيرساختاري202-3-2-4) توصيف‌كننده‌هاي محيطي………………………………………………………………………………………………………………….20
2-3-3) توصيف‌كننده‌هاي هندسي202-3-4) توصیف‌کننده‌های الکترونی212-3-5) توصیف‌کننده‌های فیزیکو شیمیایی………………………………………………………………………………………………………………..212-3-6) توصیف‌کننده‌های توسعه یافته………………………………………………………………………………………………………………………21
2-3-7) توصیف‌کننده‌های LFER……………………………………………………………………………………………………………………………22
2-4) تجزیه و تحليل آماري توصيف‌کننده‌ها و انتخاب مؤثرترین آنها…………………………………………………………………………………..22
2-4-1) الگوريتم ژنتيك (GA)……………………………………………………………………………………………………………………………….23
2-4-1-1) اصول الگوريتم‌هاي ژنتيكي…………………………………………………………………………………………………24 2-4-1-2) روش‌های انتخاب…………………………………………………………………………………………………………………….252-5) ایجاد مدلهای آماری 26 2-5-1) رگرسیون خطی چندگانه…………………………………………………………………………………………………………..26
2-5-2) شبکه‌هاي عصبی پرسپترون چندلايه(MLP)…………………………………………………………………………………….27
2-5-2-1) تک نرون و ساختار (MLP)………………………………………………………………………………………………..28
2-5-2-2) پرسپترون چند لايه……………………………………………………………………………………………………………30
2-5-2-3) آموزش شبکه‌هاي عصبی MLP……………………………………………………………………………………………30
2-6) انتخاب بهترين مدل و ارزيابي اعتبار مدل انتخاب شده33 2-6-1) قلمرو كاربرد مدل………………………………………………………………………………………………………………….37
2-7) نرم افزارهای مورد استفاده………………………………………………………………………………………………………………………………………………………………38
2-7-1) بسته نرم افزاري Hyperchem………………………………………………………………………………………………………………………38
2-7-2) بسته نرم افزاري MOPAC…………………………………………………………………………………………………………………………..382-7-3) بسته نرم افزاريSTATISTICA 392-7-4) نرم افزار دراگون392-7-5) نرم افزار CODESSA………………………………………………………………………………………………………………………………..39
فصل سوم: مدلسازی QSAR سمیت مایعات یونی413-1) روش كار433-1-1) سری داده‌ها………………………………………………………………………………………………………………………………………………43
3-1-2) محاسبه و پيش‌پردازش توصیف‌کننده‌ها…………………………………………………………………………………………………………533-1-3) انتخاب اعضاي سري‌هاي آموزشي و ارزيابي به روش خوشه‌بندي k-ميانگين……………………………………………………….543-1-4) انتخاب بهترين توصيف كننده و مدل‌سازي خطي…………………………………………………………………………………………….553-1-5) مدلسازی غیر خطی با شبكه‌ي عصبی مصنوعی پرسپترون چند لايه563-2) بحث و نتيجه‌گيري573-2-1) تفسير توصيف‌كننده‌ها………………………………………………………………………………………………………………………………..753-2-2) بررسي نتايج……………………………………………………………………………………………………………………………………………..61
3-2-3) ارزيابي نتايج مدل………………………………………………………………………………………………………………………………………633-3) جمع‌بندي نهايي65فصل چهارم: پيش‌بيني دماي ذوب مايعات يوني و نمك‌هاي مربوطه با بهره‌گيري از رويكرد QSPR674-1) روش كار704-1-1) سري داده‌ها………………………………………………………………………………………………………………………………………………70
4-1-2) محاسبه و پيش‌پردازش توصيف‌كننده‌ها…………………………………………………………………………………………………………72
4-1-3) تقسيم‌بندي سري داده‌ها توسط روش تحليل خوشه‌اي……………………………………………………………………………………….73
4-1-4) انتخاب متغير و مدل‌سازي خطي……………………………………………………………………………………………………………………744-1-5) مدل‌سازي به روش شبكه‌ي عصبي پرسپترون چند لايه (MLP)77
4-2) بحث و نتيجه‌گيري794-2-1) تفسير توصيف‌كننده‌ها………………………………………………………………………………………………………………………………..79
4-2-2) ارزيابي نتايج مدل‌ها…………………………………………………………………………………………………………………………………..814-3) جمع‌بندي نهايي…………………………………………………………………………………………………………………………………………………82
منابع83فهرست شکلها
عنوان صفحه
شکل 2-1: طرحي ساده از خوشه بندي سلسله‌اي13
شکل 2-2: شمايي كلي از الگوريتم ژنتيك25
شکل 2-3: شمايي كلي از يك نرون29
شکل 2-4: ساختار کلی پرسپترون تک لایه29
شکل 2-5: ساختار شبکه پیشرو دولایه با توابع سیگموید در لایه پنهان و لایه خروجی30
شکل 2-6: کمینه کلی و کمینه محلی31
شکل 2-7: ساختار کلی آموزش با ناظر32
شکل 3-1: شمايي از شبكه‌ي بهينه شده‌ي پرسپترون57
شکل 3-2: نمودار مقادير تجربي سميت در برابر مقادير محاسبه شده با مدل پرسپترون چند لايه62
شکل 3-3: نتايج تحليل حساسيت63
شکل 3-4: قلمرو كاربرد مدل ارائه شده به صورت نمودار ويليامز64
شکل 1-4: نمودار حاصل از آناليز خوشه‌اي76
شکل 4-2: نمودار تغيير ضريب همبستگي و لگاريتم خطاي استاندارد مدل در برابر تعداد توصيف‌كننده‌ها75
شکل 4-3: شبكه‌ي عصبي پرسپترون طراحي شده جهت پيش‌بيني دماي ذوب مايعات يوني78
شکل 4-4: نمودار حاصل از تحليل حساسيت79
شکل 4-5: قلمرو كاربرد مدل81
فهرست جدولها
عنوان صفحه
جدول 3-1: سری داده‌های سميت تجربی و پیش بینی شده به صورت (log EC50)44
جدول 3-2: ماتریس ضرایب همبستگی بین توصیفکنندههای انتخاب شده55
جدول 3-3: آنيون‌هاي متنوع به كار رفته در ساختار مايعات يوني موجود در سري داده60
جدول 3-4: پايه‌هاي كاتيوني به كار رفته در سري داده61
جدول 3-5: نتايج حاصل از مدل‌هاي خطي و غير خطي62
جدول 4-1: مقادير پيش‌بيني شده و تجربي دماي ذوب مايعات يوني70
جدول 4-2: ماتريس ضرايب همبستگي بين توصيف‌كننده‌هاي انتخاب شده76
جدول 4-3: ضرايب و آماره‌هاي مدل MLR77
جدول 4-4: نتايج حاصل از مدل‌هاي خطي و غيرخطي78
فصل اول
مقدمه

کمومتریکس يا شيمی سنجی در حقيقت کاربرد علوم آمار، کامپيوتر و رياضی در شيمی می‌باشد [1]. از روش‌های ذکر شده برای درک بهتر اطلاعات شيميايی که در آزمايشگاه بدست مي‌آيد استفاده می‌شود، به اين صورت که با استفاده از تحليل داده‌های شيميايی بدست آمده اطلاعات مفيد استخراج می شود تا با توجه به اين اطلاعات بتوان آزمايش‌های مورد نظر را با بازدهی بهتر طراحي کرد.کاربرد روش‌های رياضی در شيمی سابقه ديرين دارد ولی با توجه به پيشرفت علوم کامپيوتر و کاربرد آن در علوم روش‌های کمومتريکس در دهه اخير پيشرفت بسيار داشته است. در اين دو دهه روش‌های کمومتريکس مختلفی توسط شيميدان‌ها با کمک متخصصين علوم کامپيوتر، رياضی و آمار ارائه شده است. بسياری از شيميدان‌ها و کساني که از روش‌های کمومتريکس استفاده مي‌کنند دانشمند سوئدی به نام ولدرا به عنوان اولين کسی که اين روش‌ها را معرفی کرده است نام می‌برند و به او لقب پدر علم کمومتریکس را داده‌اند [2]. کمومتریکس درشاخههای مختلف شیمی مورد استفاده قرار می‌گیـرد. بـرخی از کاربردهاي آن شامل کنترل فرآیندها، تجزیه و تحلیل و شناخت الگوها، پردازش علائم و بهینه کردن شرایط میباشد.  یکی از زمینههای مهم کاربرد کمومتریکس در مطالعاتی است که خواص مولکولها را به ویژگیهای ساختاری آنها نسبت میدهد. موارد خاصی از این تحقیقات و مطالعات شامل موارد رابطه‌ي كمي ساختار-فعاليت(QSAR)، رابطه‌ي كمي ساختار-سميت(QSTR)، رابطه‌ي كمي ساختار-خصوصيت(QSPR) است که به منظور سهولت و کلی نگری تمامی این موارد تحت عنوان QSAR قرار می گیرند.
1-1) اجزاي اصلي QSAR
يك رابطه ي كمي‌ساختار – فعاليت از سه بخش مجزاي زير تشكيل مي‌گردد ;[3]
داده‌هاي معتبر مربوط به فعاليت يا ويژگي مورد مطالعه كه بايد مدل سازي و در نهايت پيش بيني شوند. تعدادي از خصوصياتي كه مي‌توانند براي مدل سازي QSAR مورد استفاده قرار گيرند به شرح زير مي‌باشند: فعاليت دارويي، فعاليت سمي، خصوصيات فيزيكوشيميايي و تاثيرات سموم شيميايي در محيط زيست.
توصيف‌كننده‌ها يا همان متغيرهايي كه مدل براساس آنها ساخته مي‌شود. ويژگي‌هاي هر ملكول كه معمولا با در نظر گرفتن ساختار ملكولي به صورت كمي‌محاسبه مي‌شوند، در واقع همان متغير‌هاي مورد استفاده در مدل سازي مي‌باشند.
روشي (اعم از رياضي يا آماري) كه براي فرمول بندي مدل از آن استفاده مي‌گردد.
روش‌هاي بسياري جهت مدل سازي QSAR به كار مي‌روند كه تعدادي از آن‌ها به قرار زير مي‌باشند:
رگرسیون خطی چند تایی (MLR)، روشي ریاضی است که معمولا برای برقراری ارتباط بین ویژگیهای ساختاری مولکول و خواص آن در مطالعات QSPR/QSAR به کار میرود. این روش هنگامی که بین توصیفکنندهها برهمکنشی وجود نداشته و ارتباط آنها با فعالیت مورد نظر خطی باشد مفید است.[4]
شبکه عصبی مصنوعی (ANN)، كه با تقليد از شبكههاي عصبي بيولو‍ژيكي مثل مغز انسان ساخته شدهاند الگويي براي پردازش اطلاعات ميباشند كه بر پايه اتصال به هم پيوسته چندين واحد پردازشي عمل ميكنند [5].
ماشین بردار پشتیبان (SVM)، يكي دیگر از روشهاي يادگيري راهنمایی شده است كه از آن براي طبقه بندي و آناليز رگرسيون استفاده ميكنند[6] .
كمترين مربعات جزيي (PLS)، اين روش با روش MLR، تفاوت چنداني ندارد. تنها فرضياتي كه براساس آن ضرايب متغيرهاي مدل محاسبه مي‌گردند در دو روش با هم متفاوت است[7] .
1-2) انواع روشهای QSAR
روش‌هايQSAR را مي‌توان به سه گروه تقسيم‌بندي کرد[8]. اولين روش، QSAR دو بعدی است که در آن ساختار سه ‌بعدي مولکول در نظر گرفته نمی‌شود. در اين روش مولکول با استفاده از يک سري توصيف‌کننده‌هاي مولکولي نمايش داده مي‌شود که مقادير عددي آن مشخصه مفاهيم متنوعی از ساختار مولکولي است و در مجموع با در نظر گرفتن فعاليت مشاهده شده مدل پيشگو ساخته مي‌شود.
روش دوم QSAR سه بعدی است که بطور مثال با رهيافت CoMFA نشان داده مي‌شود [8]. در اين روش ساختار سه بعدي مولکول مورد بررسي قرار مي‌گيرد. به این منظور ابتدا مولکول در يک شبکه منظم سه‌ بعدي قرار گرفته و سپس برهمکنش‌هاي الکتروستاتيک و فضايي بين مولکول مورد نظر و يک اتم فرضي قرار گرفته در محل نقاط تقاطع اين شبکه توري مانند (مثل کربن)، محاسبه شده و به عنوان توصيف‌کننده استفاده مي‌شود تا با ايجاد مدل، برهمکنشهاي الکتروستاتيک و فضايي مطلوب بدست آيد. به وضوح اين روش مزاياي بسيار زيادي نسبت به روش ساده‌تر دو بعدي دارد اما پيچيدگي‌هاي آن نيز بيشتر است.
روش سوم که QSAR چهار بعدی است، يک روش توسعه يافته از QSAR سه بعدی مي‌باشد و توسط هاپفينگر و همکارانش ارائه شد [9] که اطلاعات مربوط به صورتبندي را در بعد چهارم در نظر مي‌گيرد. مشابه با روش CoMFA، QSARچهار بعدی با مشخص کردن يک مجموعه از نقاط شبکه که خصوصيات مولکول را ارزيابي کند شروع مي‌شود. اين روش علاوه بر نقاط شبکه از کل صورتبندي، نمونه برداري کرده و از اطلاعات بدست آمده از آن استفاده مي‌کند تا سلولهاي اشغال شده در شبکه را ارزيابي کند و از اين خصوصيات مولکولي براي ساختن مدل استفاده مي‌کند.
1-3) اهداف QSAR
روابط كمي‌ساختار – فعاليت بايد به عنوان ابزاري علمي‌تلقي گردند كه اجازه ي كشف و همچنين تجزيه و تحليل روابط نهفته در ميان داده‌هاي موجود را به ما مي‌دهند. اهداف زيادي را از ايجاد يك QSAR مي‌توان برشمرد كه تعدادي از آنها به صورت زير است[8]:
1- پيش بيني فعاليت زيستي وخصوصيات فيزيكو- شيميايي
2- درك بهتر مكانيسم عمل دريك سري از تركيبات شيميايي
3- صرفه جويي درهزينه‌هاي توليد محصول ( داروها ، آفت كش‌ها ، و تركيبات شيميايي جديد)
4- كاهش دادن ودربرخي موارد حتي جايگزيني استفاده از حيوانات آزمايشگاهي
با توجه به این اهداف، مدل سازی خصوصیات مایعات یونی که از پرکاربردترین ترکیبات در علم شیمی بشمار میروند، میتواند بسیار مفید واقع گردد. در ادامه مایعات یونی به صورت مختصر معرفی گردیدهاند.
1-4) نگاهي گذرا برمايعات يوني
مايعات يوني اولين بار در سال ١٩١٤ با سنتز اتيل آمونيوم نيترات (نقطه ذوب C˚12) شناخته شدند اما تا سال ١٩۵١ كاربرد گسترده اي نداشتند [10] . در پی يافتن روش جديدي براي تهيه آلومينيم به طريق آبكاري با مخلوط كردن دو پودر سفيد رنگ آلكيل پيريدينيوم كلريد با 3AlCl مشاهده شد که اين دو با يكديگر واكنش مي‌دهند و مايع بي رنگ آلكيل پيريدينيوم تتراكلروآلومينات توليد مي‌شود[11] . با اين توصيف همچنان به اين دسته از تركيبات فقط با كنجكاوي نگاه مي‌شد تا اينكه در چند دهه اخير به عنوان جايگزين، براي حلال‌هاي آلي متداول واكنش‌هاي شيميايي مطرح شدند. به طور كلي تعريف‌هاي گوناگوني براي يك مايع يوني وجود دارند كه شايد پذيرفته شده‌ترين آنها «يك ماده متشكل از يون‌ها با نقطه ذوب پايين‌تر از 100 درجه‌ي سانتي‌گراد» باشد [12] . مايعات يوني را با نام هاي نمك هاي مذاب، مايعات يوني غيرآبي يا مايعات يوني دماي اتاق نيز مي‌شناسند[13] . اگر دمای ذوب نمک زیر دمای اتاق (25درجه‌ي سانتی‌گراد) باشد به آن مايع يوني دماي اتاق مي‌گویند. اين تركيبات متشكل از یک کاتیون آلی غیر متقارن سنگین شامل فسفر یا نیتروژن مانند آلكیل ایمیدازولیوم، پیرولیدینیوم، آمونیم، فسفونیوم و انواع مختلفی از آنیون‌های آلی مانند تری فلئورو استات و یا آنيون‌هاي معدنی کلرید، برمید، تترافلئوروبورات و هگزافلئوروفسفات و … می‌باشند [13]. ترکیب آنیون‌ها و کاتیون‌های مختلف به طور گسترده تعداد مایعات یونی را گسترش داده‌است و تاکنون بیش از 2000 مایع یونی شناخته شده‌اند. از آنجا که معمولا می‌توان با اتصال یک کاتیون و آنیون خاص مایع یونی مورد نیاز برای یک کاربرد به خصوص را تولید کرد به این حلال‌ها، حلال‌ طراح نيز گفته می‌شود[12] .
مهمترين ويژگي‌هاي مايعات يوني عبارت‌اند از:[14]
خواص فيزيكي مايعات يوني با تغيير تركيب شيميايي آنيون‌ها و كاتيون‌ها تغيير مي‌كنند.
مايعات يوني غير فرارند بنابراين در سيستم‌هاي با خلاء زياد قابل استفاده‌اند كه اين موضوع از بروز برخي مشكلات فرايندي جلوگيري مي‌كند.
بسياري از تركيبات آلي و معدني در آنها قابل حل‌اند.
عدم حلاليت مايعات يوني در برخي از حلال‌ها (مانند آلكان‌ها) يك محيط قطبي غير آبي ايجاد مي‌كند كه اين عامل، در سيستم‌هاي جداسازي دو فازي و چند فازي، بازيابي كاتاليست را (فرايند سبز) آسان مي‌كند.
اين تركيبات مي‌توانند، نه تنها به عنوان يك حلال، بلكه به عنوان يك كاتاليست فعال نيز در واكنش شركت كنند.
همچنين مایعات یونی خواص بی نظیر ديگری از قبیل پنجره‌ي الکتروشیمیایی وسيع، هدایت الکتریکی زیاد، تحرک یونی، گستره‌ي دمایی مايع وسيع، به شدت سولواته کننده، عدم فراريت، اشتعال ناپذیري و گستره‌ي پایداری گرمایی وسیع نیز دارند.
با وجود محدوديت تعداد پايه هاي كاتيوني مايعات يوني كه بيشتر مشتقات ايميدازول، پيريدين و پيروليدين هستند، به دليل تنوع تركيبي با آنيون هاي مختلف، امروزه تعداد بيشماري مايع يوني ساخته شده‌است. در مجموع، قابليت‌هاي منحصر به فرد مايعات يوني مانند فشار بخار ناچيز، پايداري حرارتي خوب و قابليت انحلال گونه‌هاي قطبي، اين تركيبات را جايگزين مناسبي براي حلال‌هاي آلي فاقد چنين ويژگي‌هايي مي‌كند [15]. در نتیجه‌ي همين ویژگی‌ها، مایعات یونی به‌طور گسترده در زمینه‌های مختلف کاربردی شیمی تجزیه شامل: كروماتوگرافي گازي، كروماتوگرافي مايع با عملكرد بالا، استخراج مایع- مایع، میکرواستخراج٬ طيف‌سنجي جرمي، الکتروفورز و حسگرها به کار مي‌روند[14] .
از اينرو، با توجه به كاربرد گسترده‌ي مايعات يوني درفرآيند‌هاي شيميايي و اهميت دماي ذوب اين تركيبات در نوع كاربرد آن‌ها‌، در اين پروژه سعي شده با استفاده از رويكرد QSPR، مدل‌هايي براي پيش‌بيني دماي ذوب اين تركيبات ارائه گردد و همچنين به منظور بررسي عوامل مؤثر بر بروز فعاليت سمي مايعات يوني در سلول‌هاي زنده، مسموم كنندگي سلولي اين تركيبات نيز با استفاده از رويكرد QSAR مدل‌سازي شود.

فصل دوم
تئوري

نتايج مطالعات ساختار- فعالیت/ ویژگی علاوه بر شفافسازي نحوه ارتباط بين خواص مولكول‌ها و ويژگي‌هاي ساختماني آنها، به پژوهشگران در پيش‌بيني رفتار مولكول‌هاي جديد براساس رفتار مولكول‌هاي مشابه كمك مي‌كند. به مجموعه ابزارها و روشهايي كه به اين منظور مورد استفاده قرار مي‌گيرند روش‌هاي پارامتري گويند.  در روش‌هاي پارامتري سعي مي‌کنند بين يك سري توصيف كننده‌هاي مولكولي با فعاليت يا خاصيت مورد نظر ارتباط منطقي برقرار نمايند. توصيف‌كننده‌هاي مولكولي كه به اين منظور استفاده مي‌شوند، مقادير عددي مي‌باشند كه جنبه‌هاي مختلف ساختاري مولكول را به طور كمي‌نشان مي‌دهند. وقتی خصوصیات ساختاری گونه‌ها و فعالیت آنها توسط اعداد و ارقام بیان می‌شود می‌توان رابطه ریاضی یا کمی، بین ساختار و فعالیت گونه ایجاد کرد. این رابطه می‌تواند برای پیشبینی پاسخ بیولوژیکی یا شیمیایی دیگر ساختارها مورد استفاده قرار گیرد. به عبارتی دیگر در این گونه مطالعات توصیفکنندهها به عنوان متغیرهای مستقل و پارامتر بیولوژیکی یا شیمیایی مورد نظر به عنوان متغیر وابسته در نظر گرفته میشوند. در مرحله مدلسازی مدلی از متغیر وابسته بر حسب متغیرهای مستقل ساخته میشود، سپس در مرحله پیشبینی مدل ساخته شده مورد ارزیابی قرار میگیرد. مراحل كلي مدل‌سازي به روش پارامتري به شرح زير است:
1- جمع آوري سري داده‌ها
2- وارد کردن ساختارهای مولکولی و بهینهسازی آنها
3- محاسبه توصیفکننده‌های مولکولی
4- تجزيه و تحليل آماري توصيفكندهها و انتخاب مؤثرترين آنها
5- ايجاد مدلهاي آماري
6- انتخاب بهترين مدل و ارزيابي اعتبار مدل انتخابشده
2-1) جمعآوري سري دادههااولین مرحله، جمعآوري و انتخاب يك سري مولكولي از منابع قابل اعتماد و در دسترس است. بایستی کمیت مورد مدل‌سازی برای ترکیبات مختلف، در شرایط عملی یکسان بدست آمده باشد تا نتیجه قابل قبولتر و مناسبتری بدست آید. در مدلهای خطی سری دادهها به دو قسمت سری کالیبراسیون و سری ارزیابی تقسیم میشوند[7] . عمليات مدل‌سازي بر روي سري کالیبراسیون كه اكثر مولكولها را در بر ميگيرد، انجام ميشود. از سری ارزیابی برای بررسی قدرت پیشبینی و اعتبار مدل استفاده میشود. ترکیبات سري ارزيابي به نحوي انتخاب ميشوند كه نماينده جمعيت مولكولهاي سري کالیبراسیون باشند. لازم به ذكر است كه مولكولهاي سري ارزيابي در هيچ يك از مراحل مدل‌سازي شركت ندارند. در مدل سازی به روشهایی مانند شبکه عصبی مصنوعی از سری کالیبراسیون به دلیل استفاده در مرحله آموزش با عنوان سری آموزشی نام برده میشود. سری ارزیابی نیز به دو دسته به نامهای سری ارزيابي داخلی یا سری پیشبینی و سری ارزيابي خارجی تقسیم میشود. سری پیشبینی برای کنترل خطای مدلسازی و جلوگیری از ایجاد آموزش اضافی در حین ساخت مدل و سری ارزیابی، برای ارزیابی اعتبار مدل و تخمین قدرت پیشگویی آن بهکار میرود.
2-1-1) روش‌هاي تقسيم بندي سري داده‌ها
به طور معمول، دو روش وجود دارند كه از رايج‌ترين روش‌هاي تقسيم بندي سري داده‌ها در مدل‌سازي QSAR به شمار مي‌روند[16] :
1- روش انتخاب تصادفي: در اين روش سري داده‌ها به صورت كاملا تصادفي و بدون در نظر گرفتن هيچ گونه معيار خاصي، به سري‌هاي آموزشي و ارزيابي تقسيم مي‌گردد. عمده‌ترين نقص اين روش اين است كه در اين روش تركيبات بدون در نظر گرفتن هيچ‌گونه ارتباطي با ساختارشان، دسته‌بندي مي‌گردند. به همين دليل احتمال بسيار زيادي وجود دارد كه تركيباتي خارج از قلمرو كاربرد مدل، در سري ارزيابي قرار گيرند[7] . بنابراين از آنجايي كه اين تركيبات توسط مدل برون‌يابي مي‌شوند، پيش‌بيني‌هاي مدل براي اين تركيبات غير‌قابل اعتماد خواهد بود[17] .
2- روش مرتبسازیy-: در این روش سری دادهها به صورت نزولی یا صعودی مرتب شده و از هر قسمت آن بهعنوان نماینده یک داده برای قرار گرفتن در سری ارزیابی انتخاب میشود[7] . حتي در اين روش نيز ضمانتي وجود ندارد كه سري‌هاي آموزشي و ارزيابي روي تمامي نقاط نماينده در فضاي توصيف‌كننده‌ها پراكنده بوده و سري آموزشي بتواند تمامي نقاط موجود در سري داده‌ها را تحت پوشش قرار دهد[18] . در حقيقت انتخاب سري‌هاي آموزشي و ارزيابي بايد بر اساس نزديكي نقاط نماينده‌ي سري آموزشي به نقاط نماينده‌ي سري ارزيابي در فضاي چند بعدي توصيف كننده‌ها صورت گيرد. در اصل مفهوم “نزديكي”، بر اساس مهمترين فرضي است كه منجر به شكل گيري روابط QSAR گرديده است[16] :
” تركيبات مشابه، خصوصيات مشابهي دارند”
در اين پروژه از روشي نوين به نام تحليل خوشه‌اي (CA) [19]جهت انتخاب صحيح اعضاي سري‌هاي آموزشي و ارزيابي (براساس ساختار) استفاده شده ‌است كه در ادامه معرفي مي‌گردد.
2-1-1-1) تحليل خوشه‌اي (CA)
تحليل خوشه‌ای یا خوشه‌بندی نسبت دادن یک سری از اشیاء به گروه‌های معین (يا خوشه‌ها) می باشد، به نحوی که اشیاء موجود دریک خوشه از برخی جهات مشابه بوده ودارای وجه اشتراک باشند. خوشه‌بندی یکی از روش‌های موجود یادگیری غیر نظارت شده است که روشی معمول برای آنالیز آماری داده‌ها در بسیاری از زمینه‌های علمی شامل: یادگیری ماشینی، داده‌کاوی، تشخیص الگو، آنالیز تصاویر، بازیابی اطلاعات و زیست فناوری می باشند[20] . علاوه بر اصطلاح خوشه‌بندی عبارات دیگری نیز دررابطه باهمین مفهوم مورد استفاده قرار می‌گیرند كه شامل: طبقه‌بندی خودکار، دسته‌بندی عددی، آنالیز رده‌شناسی و بتریولوژی مي‌باشند.
2-1-1-2) انواع خوشه‌بندی
الگوریتم‌های سلسله مراتبی با استفاده از گروه‌هايي که قبلا تشکیل شده‌اند گروه‌های جدیدی را پیدا می‌کنند. این الگوریتم‌ها غالبا یا تراکمی (از بالا به پایین) هستند، یا انشعابی (از پایین به بالا). الگوریتم‌های تراکمی با هر عنصر که به عنوان یک خوشه‌ی مجزا درنظر گرفته شده است شروع می‌شوند و آنها را به گروه‌های بزرگتر تبدیل می‌کنند[21] . الگوریتم‌های انشعابی با تمامی سری داده شروع می‌شوند و با تقسیم کردن آنها به گروه‌ها یا خوشه‌های کوچکتر ادامه می یابند (شكل 2-1 را ببينيد). الگوریتم‌های تفکیکی معمولا تمامی خوشه‌ها را به صورت یکباره تعیین می‌کنند اما می‌توانند بعنوان الگوریتم‌های انشعابی در خوشه‌بندی سلسله‌ای نیز بکار روند. الگوریتم‌های خوشه‌بندی چگالی مبنا، به منظور کشف گروه‌هایی با شکل دلخواه ابداع شده‌اند. در این رویکرد یک خوشه بصورت منطقه‌ای درنظر گرفته می‌شود که چگالی یا تراکم اشیاء در آن از حد آستانه بیشتر باشد. الگوریتم‌های خوشه‌ای فضايی ، به دنبال خوشه‌هایی می‌گردند که فقط بتوان انها را دریک تجسم خاص از داده‌ها (خمیده، بخشی از فضا) مشاهده کرد[22] .

شكل2-1) طرحي ساده از خوشه بندي سلسله‌اي
2-1-1-3) اندازه‌گیری فاصله
یکی از مراحل خوشه‌بندی انتخاب مقیاس اندازه‌گیری فاصله ‌است که نحوه‌ی محاسبه‌ی میزان شباهت دوعنصر را تعیین می‌کند. این انتخاب می تواند بر شکل خوشه‌ها تاثیرگذار باشد بنابراین یک عنصر می تواند براساس نوع فاصله‌ی انتخابی مربوط به یک خوشه‌ی خاص باشد که با تغییر نوع فاصله، این عنصر به خوشه‌ی دیگری تعلق گیرد. توابع فاصله‌ای که متداولترند شامل موارد زیر می شوند: فاصله اقلیدسی، فاصله‌ی منهتن، فاصله ماهالانوبیس، زاویه‌ی بین دو بردار نیز می‌تواند به عنوان مقیاس فاصله در نظر گرفته شود[23] . مورد دیگری که در خوشه‌بندی از اهمیت بالایی برخوردار است این است که آیا از فواصل متقارن استفاه می‌شود یا فواصل نامتقارن. بسیاری از توابع فاصله که در بالا به آنها اشاره شد دارای خصوصیت متقارن بودن فواصل‌اند. اين تقارن به این معنی است که فاصله‌ی شيء A از B دقیقا با فاصله‌ی شیء B از A یکسان است. درعین حال باید دقت شود که یک مقیاس مناسب، اندازه‌های متقارن ارائه می‌دهد.
2-1-1-4) دسته‌بندی تفکیکی
انواع زيادي از اين نوع دسته‌بندي وجود دارد كه در ادامه به تعدادی از آنها اشاره شده است.
2-1-1-4-2) دسته بندی مبهم C- میانگین
(2-1)
دردسته بندی مبهم یا نامشخص[22] ، هرنقطه به جای اینکه کاملا به یک دسته‌ی مشخص نسبت داده شود بادرجه‌ای از میزان تعلق به یک دسته تعیین می‌گردد. بناباین نقاط روی مرز یک دسته می‌توانند متعلق به آن دسته در نظر گرفته شوند اما با درجه‌ی تعلق کمتری نسبت به نقاط مرکزی دسته. برای هرنقطه‌ی x ضریبی تعریف می‌شود که میزان تعلق آن نقطه رابه دسته‌ي K‌ ام نشان می‌دهد Uk(x). معمولا مجموع ضرایب برای هر نقطه‌ای یک تعریف می شود. مرکز یک دسته، مرکز تمامی نقاطي است که میزان تعلق آنها به دسته در فرمول زير در نظر گرفته می‌شود:
Centerk= xUk(x)mxxUk(x)mx= نقطه
k= دسته
m= پارامتر واقعي
(2-2)
درجه‌ی تعلق با معکوس فاصله تا مرکز دسته ارتباط دارد:
Ukx= 1d (Centerk , x)d= فاصله
‌سپس ضرایب نرمال شده با یک پارامتر واقعی m >1 به نحوی که مجموع آنها یک شود، مبهم سازی می‌گردند.
(2-3)

Ukx= 1j(d (Centerk , x)d (Centerj , x))2(m-1)برای 2= m به راحتی می توان به نحوی نرمال سازی راانجام داد که مجموع مقادیر آنها به صورت خطی یک شود. این الگوریتم با الگوریتم k- میانگین بسیار مشابهت دارد.
2-1-1-4-3) الگوریتم دسته‌بندی QT
دسته بندی QT (آستانه کیفیت)[21] روش جایگزین برای تفکیک داده‌ها در دسته بندی‌های ژنی است. این الگوریتم درمقایسه با الگوریتم K- میانگین به نیروی محاسباتی بیشتری نیازمند است، اما به تعیین تعداد دسته‌ها پیش از اجرای الگوریتم نیاز ندارد وهمیشه نتایج یکسانی را پس از هر مرتبه اجرا بدست می‌دهد. در اين روش فاصله‌ی بین یک نقطه ویک گروه از نقاط با استفاده از روش اتصال کامل (در نظر گرفتن بیشترین فاصله از نقطه‌ی مورد نظر تا هر نقطه از اعضای گروه )‌ محاسبه می شود.
2-1-1-4-1) خوشه بندي K- میانگین
(2-4)
الگوریتم K-میانگین [16]روشي از آناليز خوشه‌اي است كه n شيء را به k سري دسته‌بندي مي‌كند. هرنقطه از داده‌ها به دسته‌ای اختصاص می‌يابد که مرکز آن نزدیکترین محل به نقطه‌ی مورد نظر است. مرکز، درحقیقت میانگین تمامی نقاط درون دسته است. اگر يك سري از اشياء را به صورت {x1, x2, …, xn}در نظر بگيريم به نحوي كه هر شيء يك بردار حقيقي d بعدي باشد، خوشه‌بندي K- میانگین تلاش مي‌كند تا n شيء را به k سري تقسيم‌بندي كند (n S={s1, s2, …, sn} (k ≤، به صورتي كه مجموع مربعات درون خوشه‌اي (wcss) كمترين مقدار باشد.
argsmini=1kxi∈sixj-μi2xj=شيءS= دسته
در اين رابطه، μi ميانگين نقاط درون si مي‌باشد.
اصطلاح « K- میانگین» براي اولين بار توسط جيم مك كويين در سال 1967 به كار برده شد. هر چند كه نظريه‌ي‌ اوليه‌ي آن مربوط به شخصي به نام هوگو اسين‌هاوس در سال 1956 مي‌باشد. الگوريتم‌هاي مختلفي از الگوريتم‌هاي اكتشافي براي حل مسئله‌ي خوشه‌بندي K- میانگین وجود دارد كه متداولترين آنها الگوريتم استاندارد مي‌باشد. اين الگوريتم از روش پالايش مكرر بهره مي‌برد. شايان ذكر است كه اين الگوريتم در علم رايانه تحت عنوان الگوريتم للويد نيز شناخته مي‌شود.
با فرض اوليه‌ي K- میانگین {m1, …, mk}، الگوريتم با نوسان بين دو مرحله جلو مي‌رود. اولين مرحله، مرحله‌ي تعيين يا انتصاب است كه در آن هر شيء به خوشه‌اي كه داراي نزديكترين ميانگين است تعلق مي‌گيرد. در حقيقت اشياء مورد نظر با در نظر گرفتن رابطه‌ي زير دسته‌بندي مي‌گردند.
(2-5)

si(t)= xj:xj-mi(t)≤xj-mi(t) for all i=1, 2, …, ks= دسته
m=ميانگين
x=شيء
مرحله‌ي دوم، مرحله‌ي نوسازي مي‌باشد. در اين مرحله ميانگين‌هاي جديدي (طبق فرمول زير) محاسبه مي‌گردند كه در مركز اعضاي خوشه قرار دارند.
(2-6)
mi(t)= 1si(t)xj∈ si(t)xjs= دسته
m=ميانگين
x=شيء
زماني كه در انتصابات انجام گرفته ديگر تغييري صورت نگيرد، الگوريتم به همگرايي رسيده است و پايان يافته تلقي مي‌گردد. مراحل اين الگوریتم به اختصاربه صورت زیر است:
تعداد دسته‌ها راانتخاب می‌کنیم (K).
بصورت تصادفی K دسته ایجاد ومراکز آنها تعیین می‌گردند.
مراکز دسته‌های جدید دوباره محاسبه می‌گردند.
دومرحله‌ی قبلی را تا زمانی که الگوریتم به همگرایی برسد (یعنی زمانی که اعضای موجود دردسته دیگر تغییر نکنند) تکرار می شوند.
مهمترین مزیت این الگوریتم سادگی وسرعت آن است که اجازه می‌دهد آن رابرروی سری داده‌های بزرگ اجرا کنیم. درعین حال دو نکته وجود دارند که باید مد نظر قرار گیرند:
مفهوم میانگین باید به وضوح برای تمامی مراحل تعریف شده وثابت باشد.
از آنجایی که دسته‌ها در ابتدا به صورت تصادفی تشکیل می‌گردند، نتایج حاصله می توانند در هر مرتبه از اجرای الگوریتم متفاوت باشند، بناباین داشتن درکی کلی از تعداد دسته‌های موجود درسری داده به صورت تجربی به اجرای صحيح این الگوریتم کمک می کند.

2-2) بهینهسازی ساختارهای مولکولی
مولکولها معمولا با استفاده از نرمافزارهایی مانند Hyperchem [24] رسم میشوند. درنهایت، ساختار مولکولها به وسیله روش مکانیک مولکولی و یا روشهای نیمه تجربی بهینه میشوند. سپس ماتریس سه‌بعدی این ساختارها به صورت ورودی به نرمافزارهایی مانندMopac [25]، Dragon [26]وارد شده تا توصیفکنندههای مولکولی محاسبه شوند.

2-3) محاسبه توصیفکنندههای مولکولیتوصیفکنندههای مولکولی نتیجه نهایی یک استدلال و روش ریاضی هستند که اطلاعات شیمیایی را به رمز تبدیل می‌کنند و آنها را به صورت یک نماد نشان می‌دهند طوری که ارائه دهنده ویژگیهای یک مولکول به صورت یک عدد مفید ‌باشند. برای مثال ممکن است توصیف‌کننده‌ها، ویژگی‌های فیزیکی و شیمیایی یک مولکول باشند و یا ممکن است مقادیر ناشی از بکارگیری روش‌های الگوریتمی برای ساختارهای مولکولی باشند. به عبارت دیگر میتوان گفت که هر توصیفکننده، اطلاعات خاصی از مولکول را که بر کمیت مورد مدلسازی اثر میگذارد در اختیار قرار میدهد که از اهمیت به سزایی برخوردار است. در صورتي كه توصيفكنندههاي انتخاب شده مناسب نباشند، عمل مدل‌سازي با مشكل مواجه شده و مدل مناسب به دست نخواهد آمد. بنابراين در انتخاب توصيفكنندهها بايد دقت كرد و توصيفكنندههايي ميبايست انتخاب شوند كه در ارتباط با ويژگي مورد نظر مولكول بوده، فهم و تفسیر آنها آسان باشد و بتوانند به ساختارهای متفاوت، مقادیر عددی متفاوتی بدهند.
توصیفکنندهها را بر اساس چگونگی بیان خصوصیات مولکول میتوان به چند دسته کلی تقسیم کرد، كه معروفترين آنها در اينجا آورده شده است:
1- توصیفکنندههای ساختاری
2- توصیفکنندههای توپولوژیکی
3- توصیفکنندههای هندسی
4- توصیفکنندههای الکترونی
5- توصیفکنندههای فیزیکوشیمیایی
6- توصیفکنندههای توسعهیافته
7- توصیفکنندههای LFER
2-3-1) توصیفکنندههای ساختاریاین سری توصیفکنندهها عمومیترین توصیفکنندههای مورد استفاده میباشند که ساختار ترکیب را بدون هیچگونه اطلاعاتی درباره هندسه مولکولی آن در اختیار قرار میدهند. از مهمترین توصیفکنندههای ساختاری میتوان تعداد اتمها، تعداد پیوندها، تعداد مطلق و نسبی انواع اتمهای مورد نظر و تعداد مطلق و نسبی انواع پیوندها را نام برد. این دسته توصیفکنندهها به تغییرات پیکربندی حساس نیستند و بین ایزومرها تمایزی قائل نمیشوند.
2-3-2) توصیفکنندههای توپولوژیکیتوصیف‌کننده‌های توپولوژیکی جزء سادهترین نوع توصیف‌کننده‌ها می‌باشند و به ساختار فضایی مولکول ارتباطی نداشته و تنها به نوع اتمها، نوع پیوندها و نحوه ارتباط اتم‌ها به یکدیگر وابستهاند. این پارامترها را می‌توان بدون بهینه کردن ساختار مولکول محاسبه کرد. توصیف‌کننده‌های توپولوژیکی خود به چهار دسته، توصیفکنندههای جزء، زیر ساختاری، اندیسهای توپولوژی و توصیفکنندههای محیطی تقسیم میشوند و شکلهای ساختاری از قبیل مسیر و ارتباطات را مشخص میکنند.
2-3-2-1) توصيفكنندههاي جزءاين گروه از توصيفكنندهها مشخص كننده اطلاعات ساده مولكولي بوده و از نظر محاسبه سادهترين نوع توصيفكنندهها ميباشند مقدار توصيفكنندههاي فوق به سادگي از فرمول مولكولي تركيب مورد نظر قابل محاسبه ميباشند. اين نوع از توصيفكنندهها ميتوانند جرم مولكولي، حضور يا عدم حضور گروههاي عاملي خاص و يا اتمهاي معيني را در مولكول نشان دهند.
2-3-2-2) انديسهاي توپولوژياين انديسها دستهاي از توصيفكنندههاي توپولوژيكي هستند كه اطلاعاتي راجع به ساختمان، اندازه و ميزان شاخهاي شدن مولكول، نحوه اتصال اتمها و نوع اتمهاي موجود در يك را مولكول در اختيار ما قرار ميدهند. و از روی شكل‌های شیمیایی مولکولها بدست می‌آیند. شكل نمایش دهنده ساختار به شیوه انتزاعی است که در آن اتمهای مولکول به صورت نقطه و پیوندهای میان اتمها به صورت خطهای راست رسم شده باشند. در شكل شیمیایی وجود پیوند میان اتمها اهمیت دارد نه ماهیت آن پیوند شيميايي. از جمله اندیسهای توپولوژی میتوان انديس بالابان و عدد واینر را نام برد.
2-3-2-3) توصيفكنندههاي زيرساختاري 
اين توصيفكنندهها اطلاعاتي را در مورد وجود يا عدم وجود گروههاي عاملي خاص يا زيرساختارهاي معين در مولكول فراهم ميسازند. اگر زيرساختار مشخصي در مولكول وجود داشته باشد، توصيفكننده مقداري معادل با تعداد دفعات تكرار آن زير ساختار در مولكول را خواهد داشت ودر غير اين صورت مقدار آن صفر خواهد شد.
2-3-2-4) توصيفكنندههاي محيطياين نوع توصيفكنندهها نحوه قرار گرفتن يك زيرساختار را در مولكول نشان ميدهند. اگر يك زيرساختار خاص در مولكول وجود داشته باشد، آنگاه يك شبه مولكول توسط اين زيرساختار و اولين اتم مجاور آن تشكيل ميشود. مقدار توصيفكننده محيطي براي اين زيرساختار خاص برابر با انديس ارتباطي مولكول مسير درجه اول براي شبه مولكول حاصل ميباشد. در صورتي كه يك زيرساختار معين چند بار در مولكول تكرار شده باشد، مقدار متوسط انديس ارتباطي آنها در نظر گرفته ميشود.
2-3-3) توصيفكنندههاي هندسيتوصيفكنندههاي هندسي نسبت به نوع توپولوژيك از اهميت بيشتري برخوردارند. يكي از خصوصيات بارز اين توصيفكنندهها، ارتباط آنها با ساختار سه بعدي مولكولها ميباشد. بنابراين قبل از محاسبه اين توصيفكنندهها بايد پايدارترين ساختار فضايي مولكول تعيين شود كه بهينه كردن مولكول توسط روشهاي كوانتوم-مكانيك انجام ميشود. حجم واندروالس، مساحت سايه، فاكتور شكل از اين نوع توصيفكنندهها ميباشند.
2-3-4) توصیفکنندههای الکترونیتوصیفکنندههای الکترونی بیانگر خواص الکترونی مولکولها میباشند و اطلاعات مفیدی راجع به برهمکنشهای الکترونی بین مولکولی و درون مولکولی ارائه میدهند. این نوع از برهمکنشها خواص فیزیکی و شیمیایی مولکولها را به شدت تحت تأثیر قرار میدهند. اهمیت این برهمکنشها به ویژه هنگامی که مولکولهای عملکننده قطبی باشند، بیشتر میشود. با توجه به اینکه مولکولها از تعدادی الکترون، پروتون و نوترون تشکیل شدهاند، بنابراین بسیاری از رفتارهای مولکول را میتوان با توجه به تأثیرات متقابل الکتریکی درک و توجیه نمود. هر نوع توصیفکنندهای که بتواند به نحوی یکی از عوامل مؤثر در برهمکنشهای الکترونی را بیان کند، در گروه توصیفکنندههای الکترونی قرار میگیرد. بار جزئی اتمها، نحوه توزیع بار در مولکول، فاصله بین بارهای مخالف، گشتاور دوقطبی و قطبشپذیری مولکولها را میتوان در این مورد نام برد.
2-3-5) توصیفکنندههای فیزیکو- شیمیایی
این توصیفکنندهها از جمله مهمترین توصیفکنندهها هستند و با برهمکنشهای حیاتی، همبستگی بالایی نشان میدهند. این دسته از توصیفکنندهها بیانگر بعضی از خواص فیزیکی و شیمیایی مولکولها میباشند که به ساختار مولکول وابستگی شدیدی نشان میدهند. از میان آنها میتوان لگاریتم ضریب تقسیم آب- اکتانول، ویسکوزیته، شکست مولکولی، نقطه ذوب و نقطه جوش را نام برد.
2-3-6) توصیفکنندههای توسعهیافته
توصیفکنندههایی هستند که میتوانند همزمان فرم ساختاری و الکترونی مولکول را لحاظ کنند. سرعت بالای محاسبه و دارا بودن اطلاعات بیشتری از مولکول از جمله مزایای این توصیفکنندهها میباشد. مساحت سطح جزئی باردار شده (CPSA)، مساحت سطح آبگریزی (HPSA)و توصیفکنندههای كلي‌نگر ثابت مولكولي (WHIM) برخی از توصیف کنندههای توسعه یافته هستند.

2-3-7) توصیفکنندههای LFERمعادله کلی LFER در سال 1994 توسط آبراهام و همکارانش ارائه شد[27] . اساس معادله آنها بر مبنای
بررسی حلالیت نمونههای مختلف در یک حلال واحد بود. این معادله مستقیما ترمهای مختلف حلالیت نمونه را به یکی از خواص نمونه نسبت میدهد. فرمول زیر معروف به معادله LFER میباشد:
(2-7)
که در آن SP نشاندهنده یک خاصیت از نمونه یا جسم حلشونده، V به عنوان ترم تشکیل حفره، E نشاندهنده ضریب شکست مولی اضافی، S پارامتر قطبیت، A به عنوان خصلت اسیدی پیوند هیدروژنی و B نشاندهنده خصلت بازی پیوند هیدروژنی میباشند. به پارامترهای E، S، A، Bو V توصیفکنندههای LFER نمونه میگویند که مقادیر آنها به خود نمونه بستگی دارد و برای هر نمونه مقداری معین و ثابت میباشد. در معادله فوق به ضرایب e، s، a، b، v ثابتهای سیستم گفته میشود. این ضرایب از برهمکنش نمونه با فازها حاصل میشوند و از طریق رگرسیون خطی چندگانه اندازهگیری میشوند.
2-4) تجزیه و تحليل آماري توصيفکنندهها و انتخاب مؤثرترین آنها
داده‌هاي خام معمولا دچار مشکلاتی مانند نوفه، بایاس، تغییرات شدید در بازه دینامیکی و نمونه برداري هستند و استفاده از آنها به همین صورت موجب تضعیف طراحی‌هاي بعدي خواهد شد. بدین منظور نخست متغیرهایی را که برای 80 تا 95 درصد از مولکولها یکسان هستند، حذف میکنیم، سپس در مرحله دوم همبستگی بین متغیرها را محاسبه میکنیم. ماتریس مربع ضرایب همبستگی تشکیل داده میشود و از بین توصیفکنندههایی که حاوی اطلاعات مشابهی هستند یعنی ضریب همبستگی بالایی با یکدیگر دارند (9/0R>) یکی از آنها که معمولا نحوه محاسبه آسانتری داشته یا همبستگی بیشتری با پاسخ مورد نظر دارد، حفظ شده و بقیه حذف میگردند. از آنجا كه بازه تغییرات توصيف كننده‌هاي محاسبه شده یکسان نبود و با در نظر گرفتن اين كه مقدار عددي بيشتر توصيف كننده‌ها لزوما نشان دهنده‌ي اهميت بيشتر آنها نمي‌باشد، از روش بهنجار كردن (طبق رابطه‌ي زير) در اين پروژه جهت پيش پردازش داده‌ها استفاده شد.
(2-8)
yij= xij-μiσiدر اين رابطه
xij داده‌ي اصلي، yij داده‌ي تغييريافته، μi ميانگين و σi واريانس توصيف كننده بر روي n داده مي‌باشند.
پس از کاهش تعداد توصیفکنندهها، مرحله انتخاب متغیر با توجه به پاسخ دادههای QSPR / QSAR انجام میشود. روشهای مختلفی برای انتخاب مؤثرترین توصیفکنندهها وجود دارد. الگوريتم ژنتيك (GA)، يكي از موفق‌ترين روش‌هاي مطرح در مطالعات ساختار – فعاليت مي‌باشد كه در اين پروژه از آن بهره گرفتيم [28].

2-4-1) الگوريتم ژنتيك (GA)
الگوریتم ژنتیک[28] تکنیک جستجویی در علم رایانه برای یافتن راه‌حل تقریبی برای بهینه‌سازی و مسائل جستجو است. الگوریتم ژنتیک نوع خاصی از الگوریتمهای تکامل است که از تکنیکهای زیست‌شناسی فرگشتی مانند وراثت و جهش استفاده می‌کند و از برترين روش‌هاي انتخاب متغير در مطالعات كمومتريكس به شمار مي‌رود. در واقع الگوریتم‌های ژنتیک از اصول انتخاب طبیعی داروین برای یافتن فرمول بهینه جهت پیش‌بینی یا تطبیق الگو استفاده می‌کنند. الگوریتم‌های ژنتیک اغلب گزینه خوبی برای تکنیک‌های پیش‌بینی بر مبنای رگرسیون هستند. مختصرا گفته می‌شود که الگوریتم ژنتیك يا (GA) یک تکنیک برنامه‌نویسی است که از تکامل ژنتیکی به عنوان یک الگوی حل مسئله استفاده می‌کند. مسئله‌ای که باید حل شود ورودی است و راه ‌حل‌ها طبق یک الگو کدگذاری می‌شوند و تابع برازندگي نيز براي ارزيابي كيفيت راه حل‌هاي ارائه شده به كار مي‌رود. هر راه حل، کاندیدي را ارزیابی می‌کند که اکثر آنها به صورت تصادفی انتخاب می‌شوند. کلا این الگوریتم‌ها از بخش‌های زیر تشکیل می‌شوند : تابع برازش، نمایش، انتخاب، تغییر.
2-4-1-1) اصول الگوريتم‌هاي ژنتيكي
هنگامی که لغت تنازع بقا به کار می‌رود اغلب بار ارزشی منفی آن به ذهن می‌آید. شاید همزمان قانون جنگل به ذهن برسد. قانون انتخاب طبیعی بدین صورت است که تنها گونه‌هایی از یک جمعیت ادامه نسل می‌دهند که بهترین خصوصیات را داشته باشند و آنهایی که این خصوصیات را نداشته باشند به تدریج و در طی زمان از بین می‌روند. در حقيقت طبیعت با بهره‌گیری از یک روش بسیار ساده (حذف تدریجی گونه‌های نامناسب و در عین حال تکثیر بالاتر گونه‌های بهینه)، توانسته است دائما هر نسل را از لحاظ خصوصیات مختلف ارتقاء بخشد. در دهه هفتاد میلادی دانشمندی از دانشگاه میشیگان به نام جان هلند ایده استفاده از الگوریتم ژنتیک را در بهینه‌سازی‌های مهندسی مطرح کرد. ایده اساسی این الگوریتم انتقال خصوصیات موروثی توسط ژن‌هاست. فرض کنید مجموعه خصوصیات انسان توسط کروموزوم‌های او به نسل بعدی منتقل می‌شوند. هر ژن در این کروموزوم‌ها نماینده یک خصوصیت است. بعنوان مثال ژن 1 می‌تواند رنگ چشم باشد، ژن 2 طول قد، ژن 3 رنگ مو و الی آخر. حال اگر این کروموزوم به طور كامل به نسل بعد انتقال یابد، تمامی خصوصیات نسل بعدی شبیه به خصوصیات نسل قبل خواهد بود. بدیهی است که در عمل چنین اتفاقی رخ نمی‌دهد. در واقع بصورت همزمان دو اتفاق برای کروموزوم‌ها می‌افتد. اتفاق اول جهش است. جهش، به این صورت است که بعضی ژن‌ها بصورت کاملا تصادفی تغییر می‌کنند. البته تعداد این گونه ژن‌ها بسیار کم می‌باشد اما در هر حال این تغییر تصادفی بسیار مهم است. علاوه بر جهش اتفاق دیگری که می‌افتد و البته این اتفاق به تعداد بسیار بیشتری نسبت به جهش رخ می‌دهد چسبیدن ابتدای یک کروموزوم به انتهای یک کروموزوم دیگر است. این مسأله با نام تقاطع شناخته می‌شود[28] . این همان چیزیست که مثلا باعث می‌شود تا فرزند تعدادی از خصوصیات پدر و تعدادی از خصوصیات مادر را با هم به ارث ببرد و از شبیه شدن تام فرزند به تنها یکی از والدین جلوگیری می‌کند. در مسائل انتخاب متغير، ابتدا به صورت اتفاقي يك جمعيت از رشته‌ها (ژنوم‌ها يا راه حل‌ها) توليد مي‌شود. در اينجا هررشته يك بردار سطري است كه عناصر آن را متغيرها تشكيل مي‌دهند و هر عنصر به صورت صفر يا يك در رشته كددار شده است. صفر براي مواقعي كه متغير وجود ندارد و يك براي موقعي كه متغير وجود دارد. براي هررشته از اين جمعيت كه به طور اتفاقي توليد شده مقدار شايستگي محاسبه مي‌شود و بهترين رشته‌ها انتخاب مي‌شوند و تحت عمل تركيب و جهش قرار مي‌گيرند. اين فرآيند چند مرتبه تكرار مي‌شود تا در نهايت به حل بهينه برسيم. شمای کلی از نحوهٔ عملکرد اين الگوريتم در شكل زير نمايش داده شده‌است.
جهش
زايش
فرزندان
كروموزوم
نسل جديد
جمعيت جديد
جمعيت آغازين
مورد ايده‌آل
ارزيابي سازش
انتخاب والدين برتر

شکل 2-2) شمايي كلي از الگوريتم ژنتيك
2-4-1-2) روش‌های انتخاب
روش‌های مختلفی برای الگوریتم‌های ژنتیک وجود دارند که می‌توان برای انتخاب ژنوم‌ها از آن‌ها استفاده کرد. اما روش‌های لیست شده در پایین از معمول‌ترین روش‌ها هستند.[28]
انتخاب اصلح: مناسب‌ترین عضو هر اجتماع انتخاب می‌شود.
انتخاب رولت: یک روش انتخاب است که در آن عنصری که عدد برازش (تناسب) بیشتری داشته باشد، انتخاب می‌شود. در واقع به نسبت عدد برازش براي هر عنصر يك احتمال تجمعي نسبت ميدهيم و با اين احتمال است كه شانس انتخاب هر عنصر تعيين مي‌شود.
انتخاب مقياسي: به موازات افزایش متوسط عدد برازش جامعه، سنگینی انتخاب هم بیشتر می‌شود و جزئی‌تر. این روش وقتی کاربرد دارد که مجموعه دارای عناصری باشد که عدد برازش بزرگی دارند و فقط تفاوت‌های کوچکی آن‌ها را از هم تفکیک می‌کند.
انتخاب رقابتي: یک زیر مجموعه از صفات یک جامعه انتخاب می‌شوند و اعضای آن مجموعه با هم رقابت می‌کنند و سرانجام فقط یک صفت از هر زیرگروه برای تولید، انتخاب می‌شوند.
2-5) ایجاد مدلهای آماری
پس از ارزیابی توصیفکنندهها و انتخاب مناسبترین آنها، با استفاده از روشهای آماری مختلف به جستجوی مدل مناسبی پرداخته میشود که بتواند ارتباط بین توصیفکنندههای انتخابی و پارامترهای مورد مدلسازی را به درستی بیان کند. برای مدلسازی از روشهای گوناگون خطی و غیرخطی میتوان استفاده کرد. در پژوهش حاضر، از روش MLR به عنوان یک روش خطی و از میان روشهای غیرخطی، شبكه‌ي عصبي پرسپترون چند لايه از شبکههای عصبی مصنوعی استفاده گردید که در ذیل به طور مختصر شرح داده میشوند.
2-5-1) رگرسیون خطی چندگانه
رگرسیون خطی چندگانه روشی است که برای مدلسازی رابطه خطی بین یک متغیر وابسته با یک یا چند متغیر مستقل بهکار برده میشود. متغیر وابسته گاهی مورد پیشبینی و متغیر مستقل پیشبینیکننده نامیده میشوند. در کار ما، توصیفکنندهها به عنوان متغیرهای مستقل درنظر گرفتهشده و کمیت مورد مدلسازی در نقش متغیر وابسته ظاهر میشود. رابطه کلی به صورت زیر است:
(2-9)
در اين رابطه، yi کمیت مورد مدلسازی، xi, k مقدار k اُمین توصیفکننده مربوط به i اُمین ترکیب، k تعداد کل توصیفکنندهها، b ثابت رگرسیون، bk ضریب k اُمین توصیفکننده و ei ترم خطا مي‌باشند. مدل بالا با حداقل مربعات تخمین زده میشود، یعنی باید به مدلی منجر شود که مجموع مربعات خطاها در آن مدل حداقل شود. معادله پیشبینی شده، مدل زیر است:
(2-10)
در اینجا علامت « ^ » مقادیر پیشبینی شده را نشان میدهد. باقیماندههای رگرسیون به صورت زیر تعریف میشود:
(2-11)
در اینجا yi پارامتر مشاهده شده i وyi پارامتر پیشبینی شده i میباشد.
الگوریتم MLR طوری است که مجموع باقیماندهها در سری دادهها صفر شود. واریانس باقیماندهها نیز سایز خطا را در نظر میگیرد که اگر مدل روی دادهها به خوبی منطبق شود، کوچک میباشد. در این روش هر چه درجه خطی بودن رابطه بین متغیرهای مستقل با وابسته بیشتر باشد و برهمکنش متغیرهای مستقل با یکدیگر کمتر باشد ، مدل بهتری بدست خواهد آمد.
2-5-2) شبکه‌هاي عصبی پرسپترون چند لايه(MLP)
اولین کارهاي مربوط به شبکه‌هاي عصبی به سال 1943 برمیگردد، زمانی که یک فیزیولوژیست اعصاب به نام مک‌کلا و یک ریاضیدان به نام پیتس رساله خود را در مورد نحوه عملکرد احتمالی نرون‌ها در مغز منتشر کردند. از آن زمان تا سال حدود 1959 این موضوع مورد توجه مهندسین قرار نگرفت. اما در این سال از شبکه‌هاي عصبی به عنوان فیلتر تطبیقی در خطوط تلفن مورد استفاده قرار گرفت که اولین استفاده شبکه عصبی در دنیاي واقعی نیز بود. در سال 1962رزنبلات مفهوم پرسپترون تک لایه را به عنوان ابزاري مفید در دسته‌بندي مجموعه‌هاي از داده‌ها به دو کلاس معرفی و براي قانون آموزش پرسپترون، اثبات پایداري ارایه نمود. در سال 1969 ، مینسکی و پپرت در رساله‌اشان و کتابی به نام پرسپترون‌ها نشان دادند که شبکه عصبی (تک لایه) در جداسازي مجموعه داده‌هایی که به صورت غیرخطی جداپذیرند ضعیف عمل می‌کند. مینسکی و پپرت ضعف‌هاي دیگري از شبکه‌هاي عصبی را نیز نشان دادند. آنها همچنین به اشتباه اظهار داشتند که چندلایه کردن شبکه عصبی، تاثیري در حل محدودیت‌هاي گفته شده ندارد؛ هر چند در ادامه تاکید کردند که پژوهش در این زمینه ارزشمند میباشد. این امر موجب شد پژوهش وسرمایه‌گذاري در زمینه شبکه عصبی به شدت کاهش یابد. در سال1982 ، اتفاقات زیادي موجب علاقه دوباره به شبکه عصبی شد. از آن جمله می‌توان به ارایه مدلی توسط هپفیلد با اتصال دو طرفه نرون‌ها و برگزاري کنفرانس آمریکایی-ژاپنی با عنوان شبکه‌هاي عصبی همیاري- رقابتی در کیوتوي ژاپن نام برد. شبکه‌هاي عصبی از این شروع مجدد پژوهش‌ها تا به حال، پیشرفت‌هاي زیادي به چشم دیده است. مدل‌هاي مختلف و روش‌هاي آموزش متنوعی معرفی و توسعه داده شدند و شبکه‌هاي عصبی در کاربردهاي مختلفي براي تشخیص الگو، تقریب توابع و مدل‌سازي سیستم‌هاي دینامیکی خطی و غیرخطی و … مورد استفاده قرار گرفتند. در مرجع [29]گردآوري خوبی در زمینه تاریخچه‌ي شبکه عصبی انجام شده است .در ادامه به بررسی عملکرد شبکه عصبی [30] MLP و نحوه آموزش آن می‌پردازیم.
2-5-2-1) تک نرون و ساختار (MLP)
یک نرون داراي M ورودي xi و يك خروجي است كه ما آن را Y مي‌ناميم (شكل2-3). هر ورودي با يك وزن wi همراه است. معمولا پارامتر دیگر W0 نیز وجود دارد که بایاس نامیده می‌شود و می‌تواند به عنوان وزنی در نظر گرفته شود که به وروديX0 متصل است به صورتی که مقدار X0 همواره 1 در نظر گرفته می‌شود. یک تک نرون همواره به صورت پیشخور درنظر گرفته می‌شود به این معنی که اتصالات همواره از سمت ورودي‌ها به خروجی جهت‌دهی شده‌اند و به عبارت دیگر جهت جریان اطلاعات در تک نرون همواره از ورودي به خروجی است.

شكل 2-3) شمايي كلي از يك نرون
در حقيقت مي‌توان گفت كه یک تک نرون یک تابع f(x,y) را پیاده‌ سازي می‌نماید؛ از دیدگاه ورودي-خروجی، خروجی تک نرون، y، تابعی غیر خطی از ورودي‌هاي x است. پارامترهاي این تابع را وزن‌ها و بایاس، w تشکیل می‌دهند. براي فعال شدن هر نرون توابع محرك مختلفی وجود دارد که بعضی از پرکاربردترین آنها شامل؛ توابع خطي، سيگموييد (لگاريتمي)، سيگموييد (تانژانت هیپربولیک)، تابع آستانه و تابع متقارن آستانه مي‌باشند[31] . معمولا تابع محرك به وسیله طراح انتخاب می‌شود و سپس وزن‌ها و بایاس به وسیله یک الگوریتم آموزش، به گونه‌اي تنظیم می‌شوند که رابطه ورودي-خروجی نرون یک هدف مشخص را ارضا کند. ساده‌ترین شکل استفاده از پرسپترون‌ها استفاده از آنها در یک لایه است. شکل 2-4، ساختار شبکه عصبی تک لایه را نشان می‌دهد. همانگونه که مشاهده می‌شود ساختار شبکه عصبی تک لایه، شامل تعدادي گره ورودي است که به ورودي تعدادي پرسپترون که در یک لایه (لایه خروجی) قرارگرفته‌اند متصل شده‌اند.

شكل 2-4) ساختار کلی پرسپترون تک لایه
2-5-2-2) پرسپترون چند لايه
بايد در نظر داشت كه پرسپترون تک‌لایه تنها قادر به حل مسائل خطي است و اين يكي از نواقص آن به شمار مي‌رود. براي حل مسائل غير خطي و همچنين زماني كه متغيرها داراي همپوشاني يا همبستگي باشند به تعداد لايه‌هاي بيشتري نياز داريم. شكل 2-5، یک شبکه دولایه (یک لایه خروجی و یک لایه میاني) را نشان می‌دهد. لایه میانی به طور مستقیم از محیط خارج ورودي دریافت نکرده و به دنیاي خارج نیز مستقیما خروجی نمی‌دهند، به همین دلیل به این لایه‌ي از دیدگاه خارج، لایه‌ي پنهان نیز می‌گویند.[32]

شكل 2-5) ساختار شبکه پیشرو دولایه با توابع سیگموید در لایه پنهان و لایه خروجی
در این نوع شبکه‌ها معمولا هر گره به تمامی گره‌هاي لایه بعدي متصل است که به این حالت اتصال کامل گفته می‌شود. همچنین همه مسیرها در جهت ورودي به خروجی است و مسیر برگشتی وجود ندارد به همین دلیل به این نوع شبکه‌ها پیشخور گفته می‌شود.
2-5-2-3) آموزش شبکه‌هاي عصبی MLP
به فرآیند تغییر w و b طوری که منجر به کاهش مقادیر خطاهای شبکه شود، مرحله آموزش گویند. از شبکه آموزش دیده میتوان به عنوان ابزاری برای پیشبینی فعالیت (خاصیت) سری جدید ورودیها استفاده کرد. هدف نهایی آموزش تصحیح خطا، کم کردن تابع هزینه‌اي است که بر اساس خطاي شبکه تعریف می‌شود[32] . از یک دیدگاه، وقتی تابع هزینه تعریف می‌شود، (ti )، اختلاف خروجی شبکه و مقدار آموزش شبکه در واقع حل یک مساله بهینه‌سازي است. یک تابع هزینه‌اي که به صورت معمول مورد استفاده قرار می‌گیرد مجموع مربعات خطا است:
(2-12)
εw=12er2e= خطا
W= باياس
انديس r نشان‌دهنده‌ي مجموع بر روي همه‌ي r خروجی شبکه می‌باشد. در این حالت، آموزش شبکه، تنظیم وزن‌ها براي کمینه کردن یک تابع هزینه درجه دوم می‌باشد. نمودار تابع هزینه بر حسب وزن‌ها یک اَبَررویه است که رویه‌ي خطا نامیده می‌شود. بسته به نوع تابع محرك در شبکه دو حالت ممکن است به وجود آید: اگر در شبکه فقط از نرون‌هاي خطی استفاده شده باشد: رویه خطا، یک تابع کاسه‌اي شکل و داراي یک کمینه است. اگر شبکه از نرون‌هاي غیر خطی هم استفاده کند: رویه خطا یك (یا چند) کمینه کلی دارد كه کمینه‌ي (هاي) محلی است. نمونه‌اي از این حالت در شکل 2-6 آورده شده است.

شكل 2-6) کمینه کلی و کمینه محلی
به دست آوردن کمینه تابع هزینه براي آموزش بسیاري از شبکه‌ها کار ساده‌اي نیست و معمولا از روش‌هاي بر پایه تکرار بر پایه گرادیان یا الگوریتم‌هاي جستجوي هوشمند استفاده می‌شود. ویژگی‌هاي یک الگوریتم مناسب، همگرایی، سرعت همگرایی، ترفند براي گیر نکردن در بهینه‌هاي محلی و حجم محاسبات کم می‌باشد.
روش‌هاي آموزش از یک دیدگاه به دو دسته عمده تقسیم می‌شوند:
آموزش با ناظر: در این روش نمونه‌هاي آموزشی به شبکه اعمال شده و خروجی حاصل توسط سیستم یادگیري با خروجی مطلوب مقایسه می‌شود. از سیگنال خطاي حاصل جهت تصحیح پارامترهاي شبکه استفاده می‌شود. شکل 2-6، نمونه‌اي از ساختار کلی آموزش با ناظر را نشان میدهد.
آموزش بدون ناظر: در این حالت خروجی مطلوب در دست نمی‌باشد. پارامترهاي سیستم با توجه به پاسخ سیستم و شاخص‌هاي اجرایی تعیین شده مانند شباهت در پاسخ، اصلاح و تنظیم می‌گردد.

شكل 2-7) ساختار کلی آموزش با ناظر
در این پایان‌نامه از روش لونبرگ- مارکوارت براي آموزش وزن‌هاي شبکه استفاده شده‌است. در ادامه به معرفی مختصر این روش می‌پردازیم. الگوریتم لونبری-مارکوات طوری طراحی شدهاست که نیاز به محاسبه ماتریس هسیان ندارد، بنابراین باعث افزایش سرعت آموزش میشود. وقتی تابع اجرایی به فرم مجموع مربعات خطا باشد (که به طور نوعی در شبکههای پسانتشار استفاده میشود) ماتریس هسیان میتواند به شکل زیر تقریب زده شود:
(2-13)
و گرادیان نیز به صورت زیر محاسبه میشود:
(2-14)
که در آن J نمایانگر ماتریس ژاکوبیان میباشد و Je ماتریس ژاکوبیانی است که محتوی مشتقات اول خطاهای شبکه نسبت به وزنها و بایاسها است. ماتریس ژاکوبیان میتواند از طریق یک تکنیک پسانتشار استاندارد محاسبه شود. الگوریتم لونبری-مارکوات از این تقریب برای بهروزکردن الگوریتم شبه نیوتن استفاده کرده و آن را به فرم زیر درآورده است:
(2-15)
در هر مرحله (مقداردهی) که تابع اجرایی تعدیل شود پارامتر µ در μ_dec ضرب میشود ودر هر مرحله که تابع اجرایی زیاد شود در μ _inc ضرب میشود. مقدار μ_dec را در بازه 0 تا 1 و مقدار μ _inc را در بازه مقادیر بزرگتر از یک تغییر میدهیم تا به مقدار بهینه برسیم. بنابراین µ بعد هر مرحله موفق (مرحلهای که تابع اجرایی کاهش یابد) کاهش مییابد و تنها زمانی افزایش مییابد که مرحلهای تابع اجرایی را زیاد کند. با این روش تابع اجرایی در هر مقداردهی آموزشی همواره تعدیل میشود. یک مقدار حداکثر برای µتعیین میشود که هر وقت به آن مقدار برسد الگوریتم متوقف میشود.
2-6) انتخاب بهترين مدل و ارزيابي اعتبار مدل انتخاب شده
جهت مقایسه مدلها از آمارههای مختلفی استفاده میشود. نخست چند پارامتر که برای درک آمارههای مذکور مورد نیاز هستند توضیح داده شده سپس به مهمترین آمارههای مورد استفاده اشاره میکنیم :[33]
-مجموع مربعات خطا (2-16)
-مجموع مربعات کل (2-17)
-مجموع مربعات رگرسیون (2-18)
در پارامترهای فوق n، تعداد مشاهدات، yi مقدار تجربی، مقدار پیشبینی شده و مقدار میانگین می‌باشند.
– میانگین مربعات خطا : برابر با واریانس باقی مانده‌ها می باشد.
(2-19)
1- پارامتر ضریب همبستگی مدل (R-squared): نسبت جمع مربعات مدل به جمع مربعات کل میباشد که از مقایسه مقدار تجربی پارامتر و مقدار محاسبه شده از مدل بدست میآید:
(2-20)



قیمت: 10000 تومان