برترین مقالات کامپیوتر

طرح ایجاد پایگاه داده های زبان فارسی با کمک کامپیوتر

کلید واژه ها :

زبان فارسی پایگاه اطلاعاتی پیکره زبانی پایگاه داده های زبانی

چکیده:

این طرح ، طرحی بنیادی و گسترده برای زبان فارسی است که با توجه به هدف ، سودمندیها و کاربران گوناگون آن ، می تواند به عنوان طرح مادر یا پشتیبان برای بسیاری از طرحهای زبانی ، ادبی و زبانشناختی زبان فارسی به کار گرفته شود . اکنون چند ماه است که اجرای فازاول این طرح در پژوهشگاه علوم انسانی و مطالعات فرهنکی آغاز شده است .

1 – هدف طرح

هدف این طرح گردآوری و سازماندهی یک پیکره زبانی پایه برای زبان فارسی (شامل متنهای مهم و واژگان عمده آن ) در درون یک سیستم اطلاعات کامپیوتری و ایجاد نخستین بانک داده های زبان فارسی برای بهره گیری همه کاربران و پژوهندگان است .

2 - پیشینه بانکهای داده های زبانی

گرچه درگذشته سازمانها ، مراکز پژوهشی ، کتابخانه ها و مانند اینها به گردآوری اطلاعات تخصصی در زمینه های گوناگون و ارائه آنها با سرعت و تنوع زیاد علاقه مند بوده اند ؛ اماتنها پس از پیدایش کامپیوتر ، اندیشه ایجاد پایگاههای داده ها و بانکهای اطلاعاتی به خود جامه عمل پوشید . بویژه در زمینه پژوهشهای زبانی و فرهنگ نگاری ، روشهای کامپیوتری (یعنی پردازش خودکار زبان طبیعی Automated Natural Language Processing بسیار موفق بوده است .

در سه دهه گذشته ، بیشتر کشورهای صنعتی به ایجاد بانکهای زبانی خود پرداختنه اند . این کشورها ، ابتدا با گردآوری داده ها یا پیکره های زبانی (Corpus Linguistics ) ) و سپس با سازماندهی آنها در پایگاههای داده ها (Databases) و بانکهای اطلاعات زبانی (Linguistic Data Banks )، از شبکه های جهانی داده های زبانی (International Networks of Linguistic Data ) بهره برداری می کنند . در پیوست الف ، نمونه هایی از هریک آورده شده و برای آگاهی از جزئیات بیشتر ، از منابع مربوط نیز یاد گردیده

زبان فارسی را همواره از نظر منابع ادبی و واژگان ، یکی از زبان ها ی غنی و با سابقه به شمار آورده اند ؛ اما تا کنون بررسی همه جانبه و دقیقی با تکیه بر آمار و داده های کافی ، درباره این زبان انجام نیافته است . همچنین بسیاری از پژوهشهای زبانشناختی و تصمیم گیریها در برنامه ریزی زبانی ، تنها با دسترسی به یک پیکره زبانی کافی و است .

3-دلایل پیشنهاد طرحمستند ، ارزش و اعتبار خواهند داشت از سوی دیگر، با گسترش کار برد کامپیوتر و پیدایش امکانات تازه نرم افزاری و سخت افزاری ، و وجود نمونه های بسیاری از این گونه بانک های داده ای زبانی در جهان و اثبات سود مندی و کارایی آنها ، زمان برای آغاز کوششهایی برای زبان فارسی ، از هر جهت مناسب می نماید .

دستیابی سریع به مجمو عه عظیمی از پیکره زبان فارسی و نیز امکان هرگونه جستجوی جهتدار، موضوعی و یا ساختاری در میان داده ها ، آرزوی هر پژوهنده زبان است . یک گنجینه بسامان از متنهای مهم و واژگان فارسی ، منبعی قابل اعتماد و آماری دقیق در دسترس افراد یا سازمانهای علاقه مند قرار می دهد . برخی از کاربردها ی بانک داده های زبانی در زمینه های زیر است :

- فعالیتهای گوناگون فرهنگ نگاری

- واژه گزینی علمی

- بررسیهای دستوری و تدوین دستور زبان امروز

- بررسی تحولات تاریخی زبان فارسی و پیگیری سیر تحول واژگان آن

- مطالعات سبک شناسی در دوره های گوناگون ، یا درباره نویسندگان و شاعران مشخص

- بررسیهای آوایی و گویش شناسی

- تالیف تدوین فرهنگ تاریخی زبان فارسی

- اجرای طرح ترجمه ماشینی برای زبان فارسی

5- کاربران

به طور کلی همه سازمانها و افرادی که به گونه ای با زبان فارسی و مسائل گوناگون آن سرو کار دارند، می توانند کاربران بالقوه این پایگاه باشند .

5-1- سازمانها

- سازمانهایی که به پژوهشهای زبانی و زبان شناختی می پردازند ، مانند پژوهشگاه علوم انسانی و مطالعات فرهنگی ؛

- سازمانهای برنامه ریزی زبانی ، مانند فرهنگستان زبان ؛

- سازمانهایی که با آموزش زبان سروکار دارند ، مانند دانشگاه ها و وزارت آموزش و پرورش ؛

- سازمانهای چاپ و نشر ؛

- کتابخانه ها و مراکز اسناد ؛

- رسانه های همگانی ، و بسیاری از سازمانهای دیگر ؛

4-2- اشخاص

- نویسندگان ، شاعران و روز نامه نگاران ؛

- مترجمان و ویراستاران ؛

- منتقدان ادبی ؛

- زبانشناسان ؛

- فرهنگ نگاران ؛

- چکیده نویسان ؛

- دستور نویسان ؛

- اصطلاحشناسان ؛

- برنامه سازان کامپیوتر ؛

- معلمان زبان و پژوهندگانی که از داده های زبانی به عنوان ماده اولیه کار خود بهره می گیرند .

6- مراحل اجرای طرح

این طرح به طور کلی ، در سه دوره – یا فاز – متفاوت انجام می پذیرد :

- دوره 1. گردآوری داده ها و فراهم آوردن واژه ها مه های بسامدی ؛

- دوره 2. سارماندهی و ایجاد پایگاه داده ها

- دوره3. بهره برداری ، نگهداری ، افزایش داده ها و روز آینده سازی پایگاه .

ترتیب زمانی ، زمانبندی تخمینی و ارتباط دوره ها به صورت زیر خواهند بود :

7 – ویژگیهای پایگاه داده ها

در این طرح ، زبان فارسی و ساختار داده ها ، دارای مشخصات ویژه ای خواهند بود که در زیر تنها به چارچوب
آنها اشاره می شود :

7 – 1 – زبان فارسی

7 – 1 – 1 – گستره و محدوده :

به طور کلی این اصطلاح می تواند همه گونه های گفتاری ، نوشتاری ، سبکی و کاربردی زبان را در همه دورانهای تحول آن دربرگیرد ؛ اما لازم است که محدوده آن به گونه ای مشخص گردد . از این رو ، نخست دو برش جداگانه تاریخی از آن در نظر می گیریم : اول زبان فارسی امروز یا فارسی معاصر ، و دیگری دورانهای گذشته زبان فارسی .

از سوی دیگر برش گذشته فارسی ، خود به خود به گونه نوشتاری محدود خواهد شد ، در صورتی که برش امروزین ، گونه های گفتاری رانیز می توان دربرگیرد .

هدف نخست این طرح ، زبان فارسی امروز خواهد بود و در مراحل بعد به دورانهای گذشته پرداخته خواهد شد .

7 – 1 – 2 – بخشهای سازنده پیکره زبانی

برای فراهم آوردن پیکره زبانی فارسی امروز ، بابسته است مجموعه گوناگون و شاخصی از همه نمونه های مهم آن – تا حد امکان – را گردآورد . و برای این منظور ، یک بررسی دقیق آماری و مشاوره با کارشناسان گوناگون ضروری است؛ اما می توان پیش بینی کرد که نمونه هایی از هریک از منابع و گونه های زیر مورد نیاز باشد :

- نمونه های شاخص نظم و نثر (مهمترین آثار ادبی )؛

- نمونه های مهم متنهای علمی و آموزشی (رشته های گوناگون )؛

- نمونه های مهم از نشریات (مقاله های گوناگون در زمینه های ادبی ، فرهنگی، اجتماعی ، سیاسی ، هنری ، علمی ، ورزشی و مانند اینها )؛

- نمونه های مهم از گونه های گفتاری رسمی و غیر رسمی ( گفتارهای رادیویی و تلویزیونی ، مصاحبه ها ، گفتگوهای خودمانی ، مکالمه های تلفنی و مانند اینها که ضبط و بازنویسی شده باشند ) ؛

- فهرست های واژگانی برگرفته از فرهنگها و واژه نامه های عمومی و تخصصی و بسیاری منابع دیگر .

7 – 2 – ساختار پایگاه :

منظور از ایجاد یک پایگاه داده ها ، سازماندهی داده ها به گونه ای است که بتوان میان بخشهای آن ارتباط برقرار کرد و از راه جستجو به هر گونه آگاهی مورد نظر دست یافت .

7 – 2 – 1 – پایگاه داده های پیوستار(Relational DATABASE):

بررسی بیشتر پایگاههای ایجاد شده برای زبانهای گوناگون ، نشان می دهد که از میان سه گونه مهم و شناخته شده " سلسبه مراتبی "، " شبکه ای " و "پیوستار " ، نوع پیوستار بیشترین موفقیت را داشته است . دلیل این امر ، می تواند سادگی نسبی و کارآیی بالای آن باشد . نرم افزارهای آماده ای برای این منظور وجود دارد که با بررسی ، مشاوره و آزمون می تواند مناسبترین نمونه را برگزید .

7 – 2 – 2 – شکل داده ها :

داده های زبانی ، در این پایگاه به صورتهای گوناگون گردآوری می شود – چه به شکل متن پیوسته و چه به صورت فهرستهای واژگانی دارای تعریف و یا بدون تعریف و حتی مجموعه یادداشتهای پژوهشی .

7 – 2 – 3 – پیوندهای میان داده ها:

بخشهای متون و اقلام به گونه ای با یکدیگر ارتباط می یابند که امکان جستجو و دستیابی به بیشترین آگاهیها ، در زمانی کوتاه فراهم گردد . مثلأ با معرفی یک واژه ، بخشی از یک واژه ، یک نشانه اختصاری ، پاره ای از یک متن ، نام نویسنده ، گونه ای از زبان ، نام یک اثر ، مفهوم کلی یک واژه ، و یا نشانه های کلیدی دیگر ، بتوان به تعاریف ، مترادفها ، متضادها ، همخانواده ها ، ترکیبات ، نمونه کاربردی ، تاریخ کاربرد ، نویسنده یا کاربرنده و بسیاری دیگر از اطلاعات مربوط به آن دست یافت و یا آمارهایی از دسته های معینی واژه یا اصطلاح در یک یا چند متن دلخواه به دست آورد .

8 – مختصری پیرامون ویژگیهای هر دوره

8 – 1 – دوره اول:

این دوره ، می تواند طرحی مستقل برای تدوین تعداد دلخواهی واژه نامه بسامدی برای متنهای برگزیده
ربان فارسی به شمار آید.

این دوره شامل یک مرحله مقدماتی بررسی و آماده سازی امکانات ، نیروی انسانی و متنها ، و مرحله گردآوری و درونداد واژه ها ، اصطلاحات ، و متون شاخص و نمونه های گوناگون زبان فارسی ، و تدوین کامپیوتری واژه نامه های بسامدی ، واژه نما (معجم المفهرس ) و فهرست های آماری گوناگون است .

از ویژگیهای این دوره ، نتایج مجزا و مستقلی است که به صورت واژه نامه ها و آمار واژگانی برای انتشار ارائه میگردد . همچنین انعطاف پذیری آن است که به موازات افزایش نیروی انسانی و تجهیزات کامپیوتری ، می توان سرعت و حجم کار را افزایش داد و باامکانات کمتر ، روند پیشرفت کندتر ؛ ولی بدون اشکال ادامه خواهد یافت .

8 – 2 – دوره دوم :

این دوره ، می تواند همزمان با دوره 1 آغاز شده ، به موازات آن پیشرفت کند .

دراین دوره ، پس از نصب و راه اندازی سیستم پایگاه داده ها ، کار درونداد همه داده ها آماده شده ، و سازماندهی آنها در درون پایگاه آغاز می شود . همچنین آزمایش برنامه ها و کارآیی سیستم . آغاز بهره برداری از پایگاه ، در این مرحله انجام خواهد شد .

نیازهای نرم افزاری و سخت افزاری ، با بررسی بسته برنامه های کاربردی بسیاری که برای این منظورها تهیه شده – و در بازار موجود است – و با توجه به حجم داده ها ، تعداد کاربران و چگونگی ارائه خدمات تعیین می گردد.

8 – 3 – دوره سوم :

این دوره ، پس از مرحله نصب و راه اندازی سیستم آغاز خواهد شد و مدت آن نامحدود خواهد بود ؛ چرا که شامل عملیات نگهداری ، بهره برداری ، روزآیند کردن ، بهبود و افزایش امکانات و داده های بانک می شود . در این دوره ، کار تهیه واژه نامه های بسامدی (دوره 1 )دنبال خواهد شد و نیز بانک داده های زبانی همواره فعال خواهد بود .

9 – سازمان

سازمان و تشکیلات این پایگاه ، به موازات پیشرفت آن و با آغاز هر مرحله تازه آن ، گسترش خواهد یافت و از نظر نیروی انسانی ، به همکاری گروهی از کارشناسان با تخصصهای زبان و زبانشناسی ، کامپیوتر ، و ادبیات در کنار کارکنان بخش اداری نیاز خواهد بود .

10 – زمان بندی

زمان اجرای مراحل اول و دوم ، به طور تخمینی تعیین شده است که با پیشرفت تدریجی طرح ، می توان آن را دقت بخشید .

پیوست الف :

چند نمونه موجود و فعال پایگاه داده های زبانی

در این پیوست ، ابتدا به چند پیکره زبانی بزرگ که خود اساس ایجاد پایگاهها و بانکهای داده های زبانی قرار گرفته اند اشاره می شود.
برخی از پیکره های زبانی که تنها برای زبان انگلیسی ایجاد شده است ، عبارت اند از :
1 – پیکره دانشگاه بر اون ( Brown University Corpus of American English) که در سال 1961 با بیش از 5 میلیون واژه نمونه از کتابها و مجلات منتشر شد در همان سال ایجاد شد .
2-پیکره زبانی دانشگاه بیر منگام ( Birmingham University Corput) که از یک مجموعه متن زبان انگلیسی عمومی (با نزدیک به 20 میایون واژه )به مجموعه گوناگونی از متنهای تخصصی (با نزدیک به 20 میلیون واژه) مربوط به سالهای 1960 تا 1981 تشکیل شده است .
3 -پیکره زبانی مرکز پژوهشهای ارتباطی بل (Bellcore Corpora) مجموعه ای از متنهای زبان انگلیسی امروز (شامل 70 میلیون واژه از مرکز نیویورک تایمز از سال 1983 به بعد و متنهای گوناگون دیگر )
4- پیکره مشترک لانگمن – لانکاستر برای زبان انگلیسی (Longman – Lancaster English Language Corpus) با 30 تا 50 میلیون واژه از زبان انگلیسی گفتاری و نوشتاری .
5 -پیکره جهانی زبان انگلیسی (International Corpus of English , ICE ) طرحی برای گردأوری یک میلیون واژه از گونه های انگلیسی ، در سراسز جهان که در اوایل دهه 1990 آماده خواهد شد .
و بسیاری دیگر که برای آگاهی بیشتر درباره آنها ، می توان به منبع شماره 3 مراجعه کرد . در این کتاب ، بیش از 39 پیکره زبانی برای زبان انگلیسی و تعداد زیادی برای دورانهای گوناگون و آثار کلاسیک آن معرفی شده است .
همچنین مشخصات چندین پیکره بزرگ که برای زبان فرانسه فراهم شده ارائه گردیده ، از جمله : پیکره ARTEL که با همکاری مرکز ملی پژوشهای علمی فرانسه (CNRS) و دانشگاه شیکاگو از حدود 2000 متن برگزیده و 150 میلیون واژه تشکیل شده است . یا پیکره FRANTEXT که با 170 میلیو ن واژه برای فراهم أوردن مواد پایگاه داده های بزرگزبان فرانسه (Trexor de le Langue Francaisa ) ایجاد شد .
در همین منبع ، پیکره های زبانی ایجاد شده برای بسیاری از زبانهای جهان ، از جمله : آلمانی ، ایتالیلیی ، اسپانیایی ، بیشتر زبانهای اسلاوی ، سوئدی ، نروژی ،هلندی ، عربی ، عبری ، ارمنی ، لاتینی ، یونانی ، ژاپنی ،و مانند اینها معرفی شده است .
در پی فراهم آوردن اینگونه مواد زبانی ، بسیاری از کشورها به ایجاد بانکهای داده های زبانی در سطح ملی پرداختند ، از جمله : کشور های فرانسه ، کانادا ، آلمان ، ایتالیا ، اسپانیا ، روسیه ، ایالات متحده ، هلند ، سوئد ، دانمارک ، انگلستان .
فراتر از این ،اکنون چندین بانک داده های زبانی و واژگانی ، در سطح جهانی به وسیله سازمانهای بین المللی ایجاد گردیده و مورد بهره برداری است . مثلا جامعه اروپا ، بانک داده های خود را از طریق سازمان جهانی استاندارد (EURONET ) از راه ISONET و مرکز اطلاعات اصلاحشناسی جهانی ( Infoterm) از راه TERMNET ارائه می کنند (نگاه کنید به منابع شماره 4و 5 ).