پایان نامه مقطع کارشناسی ارشد رشته کامپیوتر

دانشگاه شیراز

دانشـكده مهندسـي

پايان‌نامه كارشناسي ارشد در رشته مهندسي کامپيوتر (نرم افزار)

عنوان:

مدلی کارا برای ساخت پیکره متنی موازی از روی پیکره متنی تطبیقی

استاد راهنما:

دكتر محمدهادی صدرالدینی

برای رعایت حریم خصوصی نام نگارنده درج نمی گردد

شما می توانید تکه های دیگری از این مطلب را در شماره بندی انتهای صفحه بخوانید              

تکه هایی از متن به عنوان نمونه :

چکیده:

اغلب رویکردهای جدید ترجمه در حوزه ترجمه ماشینی مانند ترجمه ماشینی آماری، ترجمه ماشینی مبتنی بر مثال و ترجمه ماشینی ترکیبی از مجموعه متون هم‌ترجمه تحت عنوان پیکره‌های متنی موازی به عنوان داده آموزشی اصلی بهره گیری می‌کنند. اما برای اغلب زبان‌ها پیکره‌های موازی به میزان بسیار کمی در دسترس هستند و یا مربوط به دامنه خاصی از نوشتجات می شوند. در طرف دیگر پیکره‌های تطبیقی قرار دارند که مواد اولیه آنها به راحتی به دست می‌آید. پیکره‌های تطبیقی شامل متون هم‌ترجمه نیستند اما در آن هر دو متن در دو زبان مختلف از نظر شباهت معیارهایی زیرا محتوا، تاریخ انتشار، عنوان و … با یکدیگر قابل تطبیق هستند.

پیکره‌های تطبیقی شامل جملاتی هستند که می‌توانند ترجمه خوبی برای یکدیگر باشند. هدف این رساله ساخت خودکار پیکره موازی با استخراج اینگونه جملات از پیکره تطبیقی می باشد. مدلی که در این پژوهش ارائه می گردد از سه مرحله اصلی تشکیل می گردد: (1) انتخاب جفت جملات کاندیدای موازی بودن با بهره گیری از فیلتر نسبت طول جملات و فیلتر تعداد کلمات مشترک (2) انتخاب جفت جملات موازی با بهره گیری از طبقه‌بند آنتروپی بیشینه و در نظر گرفتن ویژگی‌های مربوط به طول دو جمله، کلمات مشترک آنها و ویژگی‌های مبتنی بر همترازی در سطح کلمه بین دو جمله (3) بالابردن دقت جفت جملات استخراج شده با انتخاب تنها یکی از جملات جفت شده با هر جمله. این کار را می‌توان بوسیله محاسبه نزدیکی آن جمله با ترجمه جملات جفت شده از طرف مقابل توسط معیار TER و انتخاب نزدیک‌ترین جمله انجام داد.

در انتها کارآیی مدل ارائه شده در دو بخش (1) ارزیابی طبقه‌بند آنتروپی بیشینه طراحی شده و (2) ارزیابی میزان سودمندی جفت جملات موازی استخراج شده در بهبود کیفیت ترجمه ماشینی مطالعه می گردد.

فصل اول: مقدمه

1-1- مقدمه

به دلیل افزایش ارتباطات متقابل منطقه‌ای و نیاز برای تبادل اطلاعات، تقاضا برای ترجمه زبان بسیار افزایش یافته می باشد. بسیاری از نوشتجات نیاز به ترجمه دارند مانند مستندات علمی و فنی، دستورالعمل‌های راهنما، مستندات حقوقی، کتاب‌های درسی، بروشورهای تبلیغاتی، اخبار روزنامه‌ها و غیره؛ که ترجمه بعضی از آنها سخت و چالش برانگیز می باشد اما اکثرا خسته کننده و تکراری هستند و در عین حال به انسجام و دقت نیاز دارند. برآوردن نیازهای روز افزون ترجمه برای مترجمان حرفه‌ای دشوار می باشد. در چنین موقعیتی ترجمه ماشینی می‌تواند به عنوان یک جایگزین به کار گرفته گردد.

ترجمه ماشینی بعد از 65 سال یکی از قدیمی‌ترین کاربردهای کامپیوتر می باشد. در طول سال‌ها، ترجمه ماشینی مرکز توجه تحقیقات زبان‌شناسان، روان‌شناسان، فیلسوفان، دانشمندان و مهندسان علم کامپیوتر بوده می باشد. اغراق نیست اگر بگوییم کارهای جدید در حوزه ترجمه ماشینی، به گونه قابل ملاحظه‌ای در توسعه زمینه‌هایی نظیر زبان شناسی رایانه‌ای، هوش مصنوعی و پردازش زبان‌های طبیعی برنامه‌گرا، مشارکت کرده می باشد.

ترجمه ماشینی را می‌توان به این شکل تعریف نمود: “ترجمه از یک زبان طبیعی (زبان مبدأ) به زبان دیگر (زبان مقصد) با بهره گیری از سیستم‌های کامپیوتری شده و به همراه یا بدون کمک بشر”. کار پژوهشی در حوزه ترجمه ماشینی به هدف بزرگ ترجمه تمام خودکار با کیفیت بالا (قابل نشر) محدود نمی‌گردد. غالبا ترجمه‌های ناهموار برای بازبینی موضوعات خارجی کافی می باشد. کوشش‌های اخیر، در جهت ساخت کاربردهای محدودی در ترکیب با تشخیص گفتار به خصوص برای دستگاه‌های دستی می‌باشند. ترجمه ماشینی می‌تواند به عنوان پایه‌ای برای ویرایش‌های بعدی به کار گرفته گردد، مترجم‌ها معمولا با ابزارهایی نظیر حافظه‌های ترجمه که از فناوری ترجمه ماشینی بهره گیری می‌کنند اما آنها را در کنترل خود قرار می‌دهند، بهره گیری می‌کنند.

ترجمه ماشینی یکی از حوزه‌های پژوهشی «زبانشناسی رایانه‌ای» می باشد. تا کنون روش‌های مختلفی جهت خودکار کردن ترجمه ابداع شده می باشد، که در نوشتجات حوزه ترجمه ماشینی به صورت‌های مختلفی دسته‌بندی شده‌اند. شکل 1-1 انواع روش‌های ترجمه ماشینی موجود را در قالب دسته‌بندی که در [1] آمده می باشد نشان می‌دهد.

1-1-1- ترجمه ماشینی مبتنی بر فرهنگ لغت

این نوع ترجمه ماشینی مبتنی بر مدخل‌های فرهنگ لغت می باشد؛ و در آن از معادل کلمه جهت تولید ترجمه بهره گیری می گردد. اولین نسل ترجمه ماشینی (از اواخر دهه 1940 تا اواسط دهه 1960) کاملا بر مبنای فرهنگ لغت‌های الکترونیک بودند. این روش همچنان تا حدی در ترجمه عبارات و نه جملات مفید می باشد. اکثر روش‌هایی که بعدا توسعه داده شدند کم یا بیش از فرهنگ لغات دوزبانه بهره می‌گیرند [1].

2-1-1- ترجمه ماشینی مبتنی بر قانون

ترجمه ماشینی مبتنی بر قانون با اطلاعات ریخت شناسی، نحوی و معنایی زبان‌های مبدأ و مقصد سر و کار دارد. قوانین زبانی از این اطلاعات ساخته می شوند. این روش می‌تواند با پدیده‌های مختلف زبانی مقابله کند و قابل گسترش و قابل نگهداشت می باشد، اما استثنائات موجود در دستور زبان مشکلاتی به این سیستم می‌افزاید. همچنین فرآیند پژوهشی آن نیاز به سرمایه‌گذاری زیادی دارد. هدف ترجمه ماشینی مبتنی بر قانون تبدیل ساختارهای زبان مبدأ به ساختارهای زبان مقصد می باشد. این روش رویکردهای مختلفی دارد.

– رویکرد مستقیم[1]: کلمات زبان مبدأ بدون عبور از یک نمایش میانی ترجمه می شوند. در این روش به بستر متن، معنی و دامنه توجه نمی‌گردد.

– رویکرد انتقالی[2]: مدل انتقالی متعلق به نسل دوم ترجمه ماشینی می باشد (از اواسط دهه 1960 تا دهه 1980). در این مدل، زبان مبدأ به یک انتزاع که نمایشی کمتر مختص به زبان می باشد، انتقال می‌یابد. سپس یک نمایش معادل برای زبان مقصد (با همان سطح انتزاع) با بهره گیری از فرهنگ لغات دوزبانه و قوانین گرامری تولید می گردد.

– میان زبانی[3]: این روش متعلق به نسل سوم ترجمه ماشینی می باشد. در این روش زبان مبدأ به یک زبان (نمایش) میانی تغییر شکل می‌دهد که این زبان میانی مستقل از هر دو زبان شرکت کننده (مبدأ و مقصد) در ترجمه می باشد. سپس ترجمه برای زبان مقصد از این نمایش کمکی به دست می‌آید. از اینرو در این نوع سیستم تنها به دو ماژول تجزیه و ترکیب نیاز می باشد. همچینن به دلیل مستقل بودن این روش از زبان‌های مبدأ و مقصد، بیشتر در ماشین‌های ترجمه چندزبانه بهره گیری می گردد. این روش بر یک نمایش واحد از زبان‌های مختلف تأکید می کند.

3-1-1- ترجمه ماشینی مبتنی بر دانش[4]این روش با واژه‌نامه‌ای مفهومی‌که یک دامنه را نشان می‌دهد سر و کار دارد. این روش شامل دو مرحله تحلیل و تولید می باشد. اجزای پایه‌ای یک ماشین ترجمه مبتنی بر دانش عبارتند از یک آنتولوژی از مفاهیم، واژه‌نامه و گرامر زبان مبدأ برای فرآیند تحلیل، واژه‌نامه و گرامر برای زبان مقصد و قوانین نگاشت بین نحو زبان میانی و زبان‌های مبدأ و مقصد.

4-1-1- ترجمه ماشینی مبتنی بر پیکره[5]

رویکرد ترجمه ماشینی مبتنی بر پیکره‌های متنی از سال 1989 ظهور پیدا نمود و به گونه وسیعی در حوزه ترجمه ماشینی به آن پرداخته گردید؛ و به دلیل دقت بالای این روش در ترجمه، بر دیگر روش‌ها غلبه پیدا نمود. در این روش، دانش یا مدل ترجمه به گونه خودکار از پیکره‌های متنی (مجموعه متون) دوزبانه گرفته می گردد. از آنجایی که این رویکرد با حجم زیادی از داده‌ها کار می کند، ترجمه ماشینی مبتنی بر پیکره نامیده شده می باشد. بعضی از انواع روش‌های مبتنی بر پیکره در ادامه توضیح داده می شوند.

ترجمه ماشینی آماری[6]

با اینکه ایده اولیه ترجمه ماشینی آماری توسط وارن ویور در سال 1941 معرفی گردید، اما از سال 1993 که این روش توسط محققان آی بی ام مدل گردید به گونه گسترده‌ای مورد بهره گیری قرار گرفت؛ به طوری‌که در حال حاضر ترجمه ماشینی آماری رایج‌ترین رویکرد در ترجمه ماشینی به شمار می‌آید. در روش ترجمه ماشینی آماری از مدل‌های آماری بهره گیری می گردد که پارامترهای این مدل‌ها از متون دوزبانه یا همان «پیکره‌های موازی» استخراج می شوند. به بیانی دیگر سیستم ترجمه ماشینی آماری، احتمالات ترجمه را از پیکره موازی می‌آموزد و با بهره گیری از این احتمالات برای جملات ورودی که در فرآیند آموزش دیده نشده‌اند، ترجمه‌ای مناسب تولید می کند. در این روش از دو مدل عمده به نام مدل‌های مبتنی بر کلمه و مدل‌های مبتنی بر عبارت بهره گیری می گردد.

ترجمه ماشینی مبتنی بر مثال[7]

روشهای ترجمه ماشينی مبتنی بر مثال، روشهای مبتنی بر حافظه[8] نيز ناميده شده‌اند. ایده این روش از سال 1980 در ژاپن شروع گردید. این نوع سیستم‌ها کوشش می‌کنند تا جمله‌ای مشابه جمله ورودی در پیکره موازی پیدا کنند، و سپس با اِعمال تغییراتی بر روی جمله ترجمه شده که قبلا ذخیره شده، ترجمه جمله ورودی را تولید کنند.

ایده اولیه در این روش، بهره گیری از ترجمه‌های انسانی موجود برای ترجمه متن‌های جدید می باشد. لذا کافی می باشد متون جدید به قطعه‌های کوچک شکسته گردد و ترجمه معادل این قطعات، در پایگاه داده‌ای از قطعات ترجمه شده جستجو شده و ترجمه مورد نظر تولید گردد. این روش دارای محدودیت دادگان می‌باشد. جمع‌آوری مجموعه مثال‌های بسیار بزرگ نیز کل زبان را پوشش نمی دهد. پس معمولا این روش برای زیر مجموعه‌های محدودی از یک زبان بهره گیری می گردد.

[1] Direct approach

[2] Transfer based

[3] Interlingua

[4] Knowledge based machine translation

[5] Corpus based machine translation

[6] Statistical Machine Translation (SMT)

[7] Example Based Machine Translation (EBMT)

[8] Memory based machine translation

***ممکن می باشد هنگام انتقال از فایل اصلی به داخل سایت بعضی متون به هم بریزد یا بعضی نمادها و اشکال درج نشود اما در فایل دانلودی همه چیز مرتب و کامل و با فرمت ورد موجود می باشد***

متن کامل را می توانید دانلود نمائید

زیرا فقط تکه هایی از متن پایان نامه در این صفحه درج شده (به گونه نمونه)

اما در فایل دانلودی متن کامل پایان نامه

 با فرمت ورد word که قابل ویرایش و کپی کردن می باشند

موجود می باشد

تعداد صفحه : 98

قیمت : چهارده هزار و هفتصد تومان

شما می توانید مطالب مشابه این مطلب را با جستجو در همین سایت بخوانید