نقش ویرایش در معیارسازی و پردازش ماشینی خط و زبان فارسی (نوشتهی امید طبیبزاده*)
مقدمه1
در اینجا ابتدا بهاختصار تعریفی برای هریک از اصطلاحات «ویرایش»، «معیار»، «معیارسازی» و «پردازش ماشینی» عرضه میداریم، سپس از تفاوت متنهای علمی و خبری با متنهای ادبی سخن میگوییم، بعد به چگونگی تحول ویرایش در متنهای خبری فارسی اشاره میکنیم و نهایتاً به بحث اصلی خود میپردازیم و با انجام یک آزمایش ساده، نشان میدهیم که ویرایشِ متنهای خبری فارسی چه نقش مهمی در فعالیتهای پردازشی، مثلاً ترجمۀ ماشینی متنها به زبان انگلیسی دارد. بحث دربارۀ اهمیت مطالعات مربوط به پردازش زبان، و لزوم توجه به آنها برای تقویت هرچه بیشتر زبان فارسی از مباحث پایانی این مقاله است.
ویرایش
حسین معصومیهمدانی دربارۀ اهمیت زبان علم در فارسی بهدرستی چنین گفته است (1382): «یکی از بختهای ما ایرانیان این است که زبان ملی و زبان علمیمان یکی است. ملتهایی در جهان و در کشورهای اطراف ما هستند که یا بهحکم اوضاعو احوال تاریخی یا دانسته و به این گمان که اختیارکردنِ یک زبان اروپایی بهعنوان زبان علمی میتواند ایشان را در کار انتقال علوم و غلبه بر عقبماندگی علمی موفق کند، زبان ملی خود را برای کاربردهای روزمره نگاه داشتهاند و برای کاربردهای علمی، لااقل در سطوح دانشگاهی، یک زبان اروپایی را برگزیدهاند. زیانهای این گزینش به حدی است که بر فواید احتمالی آن میچربد…».
معصومیهمدانی در ادامۀ مقالۀ خود از فواید و اهمیت چنین اتفاق خجستهای در زبان فارسی سخن گفته و ضمن برشمردن شیوههایی برای تثبیت و تقویت این جنبه از زبان فارسی به نیکی از کسانی یاد کرده است که از ابتدای ورود علم جدید به ایران زبان فارسی را برای بیان مفاهیم علمی برگزیدند. با تأسیس فرهنگستانِ اول در سال 1314 نخستین گامها برای برنامهریزی زبانی در حوزۀ واژهگزینی در مباحث علمی برداشته شد و پس از آن با شکلگیری نهادهایی چون مؤسسۀ انتشارات فرانکلین در 1333 و بعدها مرکز نشر دانشگاهی در 1359، امرِ ویرایش نیز برای تثبیت و تقویت هرچه بیشتر این جنبه از زبان فارسی وارد میدان شد.
ویرایش عبارت است از انجام فعالیتهای گوناگونی چون یکدستکردن اصطلاحاتِ متن، یکدستکردن نشانههای سجاوندی و شیوۀ ارجاعات در متن، تنظیم پاراگرافبندیها و اطمینانیافتن از رعایت دستور زبان معیار و دستور خط مصوب سازمان انتشاراتی در متن، و غیره و غیره، برای کمک به انتقال هرچه بهتر و دقیقتر اطلاعات از نویسنده یا مترجم به خواننده. اما نکتهای که حتی بسیاری از ویراستاران نیز بدان توجهی ندارند این است که ویرایش بیش از هر چیز، بخشی از یک برنامهریزی زبانی است که هدفش هرچه معیارترکردن زبان معیار است. اهمیت دو مفهوم «زبان معیار» و «برنامهریزی زبانی» در امر ویرایشِ متنهای علمی و خبری چنان زیاد است که هر تعریفی از ویرایش بدون توجه به آن دو مفهوم، تعریفی ناقص و ناتمام خواهد بود.
زبان معیار و معیارسازی زبان
زبانها مخصوصاً در جوامع بزرگ و پیشرفته، برحسب کاربردشان دارای تنوعات بسیاری هستند. اهل زبان بسته به موقعیت جغرافیایی خود یا بسته به ویژگیهای دیگری همچون سن و جنس و موقعیت اجتماعیشان دارای گونههای زبانی متفاوتی هستند؛ مثلاً در مورد زبان فارسی، گونۀ فارسی مشهدی با گونۀ فارسی اصفهانی تفاوت دارد، یا گونۀ زبانی زنان با گونۀ زبانی مردان در بسیاری موارد متفاوت است. همچنین اهل زبان بسته به رسمیبودن یا دوستانهبودن بافتی نیز که در آن سخن میگویند از سبکهای متفاوتی استفاده میکنند؛ مثلاً سبکی که آنها در خانه و میهمانیهای دوستانه بهکار میبرند متفاوت از سبکی است که در محیطهای رسمی همچون دادگاه و دانشگاه از آن استفاده میکنند. گونههایی از یک زبان که متناسب با بافت اجتماعی گفتار مورد استفاده قرار میگیرند، سبکهای مختلف آن زبان به شمار میروند (مدرسی 1368: 185-186؛ همچنین رک. سارلی1387: 16-17). اما در میان این گونهها و سبکهای متفاوت معمولاً فقط یکی گونۀ معیار (standard) یا گونۀ وجههدارِ (prestigious) زبان شمرده میشود. گونۀ معیار به گونۀ وجههداری اطلاق میشود که مورد قبول اکثر افراد جامعه است و از آن در نوشتار، اخبارِ رادیو و تلویزیون، احکام حکومتی، و کلیۀ محیطهای رسمی استفاده میکنند. گونۀ معیار همچنین همان گونهای است که غالباً در جوامع چندزبانه از آن بهعنوان زبان مشترک و میانجی استفاده میشود و گاه بدان زبان رسمی یا زبان ملی اطلاق میشود.
«معیارسازی» (standardization) هم به انتخاب یک گونۀ زبانی بهعنوان گونۀ معیار اطلاق میشود، و هم به آمادهسازی و تقویت گونۀ معیار برای انجام هرچه بهتر وظایفی که بر عهده دارد. تدوین فرهنگهای لغت و کتابهای دستور، تهیۀ واژهنامهها و واژگانها، و نگارش آثاری چون «غلط ننویسیم» (نجفی 1397؛ نیز رک. طبیبزاده 1397)، «فرهنگ املایی زبان فارسی» (صادقی و زندیمقدم 1398)، «راهنمای ویرایش» (سمیعی 95؛ 97)، «فرهنگ توصیفی دستور زبان فارسی» (طباطبایی 1395) و غیره، همه و همه فعالیتهایی در جهت هرچه معیارترساختن زبان فارسی محسوب میشوند. گاهی معیارسازی به شکل طبیعی و بهاصطلاح خودانگیخته است، و گاهی بهصورت آگاهانه. مثلاً تا پیش از نهضت مشروطه در ایران زبان فارسی بهصورت طبیعی و خودانگیخته و با سرعتی بسیار اندک مسیر معیارشدن را طی میکرد، اما طی این مسیر پس از نهضت مشروطه و بهویژه در دوران پهلوی اول و پس از تأسیس فرهنگستان نخست، بهصورت آگاهانه درآمد و مدام بر سرعت آن افزوده شد. البته جریان معیارسازی در مورد زبانهای زنده و پرکاربرد هیچگاه متوقف نمیشود، و چه در حالت خودانگیخته و چه در حالت آگاهانه، همواره وجود دارد و مراحل گوناگون را پشتسر میگذارد. تعیین ویژگیهای زبان و خط معیار از طریق تدوین دستورهای زبان و خط امکانپذیر است و چون چنین دستورهایی بهناگزیر تجویزی هستند، گونۀ معیار نیز خواهناخواه و پس از اندکی، مبدل به گونهای برساخته میشود که جریان تحول آن اندکی کندتر از جریان تحول زبان گفتار است. ازاینرو میتوان و باید هر چند سال یکبار به تجدیدنظر در ویژگیهای متفاوت گونۀ معیار پرداخت و از این طریق مانع از ثابتماندن گونۀ معیار و دورشدن آن از جریان تحول کلّی زبان طبیعی گفتار شد.
پردازش زبانهای طبیعی و متنهای علمی و خبری
حوزۀ پردازش زبانهای طبیعی (Natural Language Processing= NLP) که آغاز شکلگیری آن به سالهای دهۀ پنجاه قرن بیستم بازمیگردد، محل تلاقی سه رشتۀ گوناگون زبانشناسی و علوم رایانهای و هوش مصنوعی است. این حوزه به تعامل میان رایانه و زبان اختصاص دارد و به موضوعاتی میپردازد همچون تحلیل و پردازش خودکارِ دادههای انبوه زبانی با استفاده از کامپیوتر، درک گفتار، تولید گفتار، تبدیل متن به نوشتار، تبدیل نوشتار به متن، بازیابی اطلاعات از درون متن، تهیۀ پیکرههای عظیم زبانی و ترجمۀ ماشینی و غیره. به اعتقاد نگارندۀ این سطور اولاً با توجه به پیشرفتهای روزافزون در حوزۀ پردازش زبانهای طبیعی، دیری نخواهد گذشت که زبانهای زندۀ جهان برحسب میزان پیشرفتهایشان در استفاده از فناوریهای جدید در حوزۀ پردازش زبانهای طبیعی، به دو دستۀ زبانهای اصلی و زبانهای پیرامونی تقسیم میشوند؛ ثانیاً معیارسازی آگاهانۀ زبان از طریق برنامهریزیهای زبانی و مخصوصاً از طریق ویرایش، سبب میشود تا متنهای علمی و خبری خودبهخود دارای ویژگیهایی شوند که کار متخصصانِ حوزههای گوناگون در پردازش زبان را در انجام کارهای خود بسیار ساده کند. بدیهی است که اگر قرار باشد زبان فارسی در آینده در زمرۀ زبانهای پیرامونی نباشد، باید از هماکنون به تقویت هرچه بیشتر آن در این مطالعات یاری رساند. با آزمایشی ساده میتوان نشان داد که معیارسازی زبان نوشتار از طریق ویرایش، میتواند دارای چه سهم مهمی در آمادهسازی زبان از حیث مباحث مربوط به پردازش زبان باشد.
متنهای علمی و خبری از حیث نقش (function) و گونه و نیز پردازش دارای تفاوتهای بسیاری با متنهای ادبی هستند. از حیث نقش، زبانِ متنهای علمی و خبری همواره دارای نقش ارجاعی (referential) هستند اما در متنهای ادبی نقش شاعرانه (poetic) اهمیت دارد؛ یعنی در متنهای خبری و علمی همواره به جهان بیرون از متن ارجاع داده میشود و از این طریق بر اطلاعات خواننده افزوده میشود، اما در متنهای ادبی و مخصوصاً در شعر آنچه اهمیت دارد خود زبان است و آرایههای گوناگون ادبی موجود در آن. از حیث گونه، متنهای علمی و خبری همواره به گونۀ معیار و رسمی نگاشته میشوند و استفاده از هر گونۀ دیگری در آنها معمول نیست، اما در متنهای ادبی از انواع گونهها و سبکها ممکن است استفاده شود. و بالاخره از حیث مسائل مربوط به پردازش زبانهای طبیعی نیز متنهای علمی و خبری بیشترین میزان آمادگی را برای متخصصان این قبیل مطالعات دارند، اما به متنهای ادبی به علت پیچیدگیهای سبکی و معنایی متعددشان، کمتر از این حیث پرداخته میشود. بنابراین کار ویراستارانِ متون علمی و خبری بیش از هر چیز به مسئلۀ گونۀ معیار مربوط میشود؛ آنان با افزودن بر صراحت و سادگی این متنها باعث افزایش نقش ارجاعی آنها میشوند، و با کاستن از تنوعات زبانی در آنها امکان پردازش هرچه سریعتر و دقیقتر آنها را افزایش میدهند.
بررسی نقش ویرایش در پردازش ماشینی متنهای ویراسته یا معیار
اگر بخواهیم زبان فارسی در آینده در زمرۀ زبانهای پیرامونی قرار نگیرد، باید از هماکنون ازطریق معیارسازی و نیز از طریق انجام پژوهش و مطالعات هرچه بیشتر در حوزۀ پردازش ماشینی، به تقویت آن یاری برسانیم. در اینجا با آزمایش سادهای نشان میدهیم که چگونه معیارسازی آگاهانۀ زبان و مخصوصاً فعالیتهای ویرایشی، خودبهخود باعث تسهیل کار متخصصانِ پردازش زبان فارسی میشود.
چهار بند زیر را بهطور کاملاً تصادفی از چهار روزنامه فارسی که به فواصل 50 تا 60 سال از سال 1229 شمسی تا 1399 منتشر شدهاند برگزیدیم. این روزنامهها به فواصل 50 تا 60 سال از هم منتشر شدهاند و هر یک از بندهای زیر نیز بهطور میانگین شامل 102 واژه است. دو متن اول مبین معیارسازی خودانگیخته و دو بند دوم مبین معیارسازی کموبیش آگاهانه هستند:
روزنامچه اخبار دارالخلافۀ طهران [وقایع اتفاقیه]
شمارۀ 1، جمعه پنجم ربیعالثانی 1267هق/ 18 بهمن 1229: کشتی بزرک دولت فرانسه که در شهر برست بود یکصد و هست عراده توپ در میانش بود یکنفر از توپچیان فشنک آتشبازی درست میکرد ناکاه باروطی که در آنجا بود آتش کرفت و خود آن توپچی و هشت نفر دیکر که نزدیک او بودند آتش کرفته هلاک شدند و ده دوازده نفر هم از تخته پاره زخم دار شدند
درین روزها در دریاهای اطراف مملکت انکلیس و فرانسه طوفان زیاد شده و بسیار ضرر بکشتیها خورده است ازجمله یک کشتی در سمت مغرب ولایت انکلیس بسنک خورده و غرق شد و مالالتجاره که در آن بود سی پنجهزار پوند پول انکلیس بود که هفتاد هفت هزار تومان پول ایران باشد و همه تلف شد.2
حبلالمتین (تهران)
شمارۀ 1، صفحۀ 2-3، 15 ربیعالاول 1325هق/ 9 اردیبهشت 1285هش: تا کنون هر گونه حوادث و وقایع که نتیجه آنها افتتاح مجلس شورای ملّی بود واقع میشد (انقلاب) میگفتیم اما پاره واقعات که این روزها بظهور رسیده و در بعضی اماکن سرزده و میزند باید آنهارا اختلال بگوئیم انقلاب – مبارزت و ستیزه است که فیما بین دولت و ملت واقع میشود و اختلال عبارتاست از اغتشاش و هرجومرجی که باغوا واغفال دولت و دولتیان ظاهر میشود و فائده اختلال برای دولت آنستکه انقلاب و مشاجره با دولت توقیف گردیده خلق بجان یکدیگر افتاده دولتیانرا آسوده میگذارند و حکومت از ضعف و سستی خلاص شده محکم و پایدار میگردد
روزنامۀ اطلاعات
شمارۀ 10649، سال 36، شانزده آبان 1340: امروز آقای دکتر امینی نخستوزیر بخبرنگار ما اظهار داشت که دولت امریکا مبلغی بایران بعنوان کمک بلاعوض میپردازد و یک وام نیز برای انجام کارهای کنونی سازمان برنامه در اختیار این سازمان میگذارد. آقای نخستوزیر اظهار داشت که دیروز ساعت 4 بعد از ظهر آقای هولمز سفیر کبیر آمریکا، باتفاق برن رئیس اصل چهار در ایران، در کاخ نخستوزیری حضور یافت و تصمیم دولت آمریکا را در این مورد اطلاع داد. خبرنگار مادر باره جریان کمک بلاعوض آمریکا سؤال کرد و آقای نخستوزیر پاسخ داد که این کمک جنبه استثنائی دارد.
روزنامه شرق
شمارۀ 3859، سال 18، دوشنبه 19 آبان 1399: شکست دونالد ترامپ در انتخابات آمریکا، واکنش مقامات و مسئولان را در پی داشت. صفحه توییتر انگلیسی دفتر مقام معظم رهبری در واکنش به شکست ترامپ در انتخابات نوشت: «اوضاع در ایالاتمتحده و آنچه آنها خود در مورد انتخابات میگویند یک نمایش است! این نمونهای از چهره زشت لیبرالدموکراسی در ایالاتمتحده است. صرفنظر از نتیجه، یک چیز کاملا واضح است، سقوط قطعی سیاسی، مدنی و اخلاقی رژیم ایالاتمتحده». رئیسجمهور نیز در جلسه روز گذشته ستاد هماهنگی اقتصادی دولت، به نتیجه انتخابات ریاستجمهوری آمریکا اشاره کرد و گفت: «دولت آینده آمریکا از فرصت پیشآمده برای جبران اشتباهات گذشته استفاده کند.
میبینیم که هرچه متنها جدیدتر میشوند، نشانههای معیارشدگی آنها نیز بیشتر میشوند؛ مثلاً در متن شمارۀ 1 از هیچ علامت سجاوندی استفاده نشده است، در متن 2 از دو علامت (یک پرانتز و یک خط تیره که کاربرد دومی معلوم نیست)، در متن 3 از پنج علامت (سه نقطه و دو ویرگول)، و در متن شمارۀ 4 از 16 علامت (پنج نقطه، پنج ویرگول، دو جفت گیومه نقل قول، دو دونقطه، و یک علامت تعجب) استفاده شده است. با جدیدترشدن متنها به تعداد علائم سجاوندی آنها اضافه میشود و هم استفاده از آنها نقشمندتر و صحیحتر میشود. بعداً خواهیم دید که استفادۀ نظاممند و دقیق از علائم سجاوندی فقط پردازش متن را برای انسان سادهتر نمیکند بلکه پردازش آن برای ماشین را نیز، مثلاً در ترجمۀ ماشینی تسهیل میکند.
در مورد مسئلۀ جدا یا سرهمنوشتن حرفهای اضافه و پیشوندهای فعلی و واژههای مرکب با دو گرایش متفاوت مواجه هستیم، در معیارسازی خودانگیخته (متنهای 1 و2) گرایش به استفادۀ هرچه بیشتر از سرهمنویسی است، و در معیارسازی آگاهانه (متنهای 3 و 4) گرایش به استفادۀ هرچه بیشتر از جدانویسی. متن شمارۀ 1 شامل هفت مورد سرهمنویسی («یکصد»، «یکنفر» «میکرد» «درین»، «بکشتیها»، «بسنک»، «پنجهزار»)، متن شمارۀ 2 شامل 12 مورد («میشد»، «میگفتیم» «بظهور» «میزند» «میشود» «باغوا [= به اغوا]»، «میشود»، «آنستکه»، «بجان»، «دولتیانرا»، «میگذارند» «میگردد»)، متن شمارۀ 3 شامل شش مورد («بخبرنگار»، «بایران [= به ایران]»، «بعنوان» «میپردازد»، «میگذارد»، «باتفاق») است، اما در متن شمارۀ 4 حتی یک مورد سرهمنویسی نیز وجود ندارد. بیگمان این امر حاکی از اهمیت یافتن رعایت دستور خط مصوب فرهنگستان زبان و ادب فارسی در سالهای اخیر بوده است که تأکید بر جدانویسی هرچه بیشتر داشته است.
اصرار نویسندگان دستور خط فرهنگستان بر امر جدانویسی، قطعاً به این دلیل بوده است که میدانستند خوانندگان فارسیزبان صورتهایی چون «دولتیان را» «به اغوا» و «به ایران» را بسیار سریعتر از صورتهایی چون «دولتیانرا» و «باغوا» و «بایران» درک میکنند، اما چنانکه خواهیم دید، تأکید آنان بر جدانویسی خودبهخود باعث تسهیل کار پردازش توسط ماشین نیز شده است. ویرایش و خاصه ویرایش متنهای علمی و خبری ازجمله اقدامات آگاهانه در معیار ساختن زبان محسوب میشود، و در این میان هرچه دستورالعملهای ویرایشی منطقیتر و عقلانیتر باشد، و هرچه ویراستاران در رعایت این دستورالعملها منسجمتر و یکدستتر عمل کنند، تأثیر عملکردِ آنان بر جریان معیارسازی زبان بیشتر خواهد بود.
باری ما چهار متنی را که در بخش قبل بهتصادف انتخاب و از حیث ویژگیهای ویرایشی بررسی کرده بودیم، به نرمافزار ترجمۀ ماشینی موجود در شبکۀ اجتماعی اینستاگرام سپردیم، و این نرمافزار هر متن را در کمتر از یک ثانیه به زبان انگلیسی ترجمه کرد و متنهای ترجمهشدۀ زیر را در اختیار ما گذاشت:
سپس ما این متنها را همراه با نامۀ زیر برای 10 نفر از متخصصان آموزش زبان انگلیسی و زبانشناسی ارسال کردیم3:
«… به ضمیمه چهار متن بسیار کوتاه انگلیسی را تقدیم میدارم. ممنون میشوم این متنها را بخوانید و نمرهای بین صفر تا ده به آنها بدهید. این متنها همه توسط ماشین از فارسی به انگلیسی ترجمه شده است. لطفاً معیار شما در تصحیح این متنها صرفاً صحت زبان از حیث قواعد دستوری و نگارشی و موفقیت متن در رساندن معنا باشد. بنده فقط به نمره کلی شما احتیاج دارم و خواهش میکنم زحمت تصحیح متنها را به خودتان ندهید».
پاسخی که دریافت کردیم بهوضوح نشان میدهد که دو متن جدیدتر که در حوزۀ معیارسازی آگاهانه میگنجند، بیشترین امتیاز را از حیث کیفیت ترجمه به انگلیسی دریافت کردهاند. جدول زیر مبین نمره یا امتیازی است که هر یک از ترجمههای فوق از 100 (یا از 20) گرفته است:
برای امتیاز بالای متن شمارۀ 4 و سپس 3 به سه دلیل میتوان اشاره کرد: اول اینکه در این دو متن از علائم نگارشی همچون نقطه و ویرگول و غیره بهدرستی اضافه شده است، و این علائم راهنمای خوبی برای ماشین در تعیین حدودوثغور عبارتها محسوب میشوند؛ دوم اینکه در این دو متن و مخصوصاً در متن شمارۀ 4 از جدانویسی استفاده شده است، و به همین دلیل ماشین در حین پردازش با موارد مبهمی همچون «دولتیانرا» و «باغوا» و «بایران» برخورد نکرده و لذا به هنگام ترجمۀ صورتِ واژهها کمتر دچار اشکال و اشتباه شده است؛ و بالاخره سوم اینکه به علت معیارشدن زبان، ساختار نحوی در دو متن شمارۀ 3 و 4 فاقد جملههای ناقص و ناتمام و مبهم و درنتیجه دارای انسجام بیشتر است.
جالب است که امتیاز ترجمۀ متن شمارۀ 1 بسیار بیشتر از امتیاز ترجمۀ متن شمارۀ 2 است، درحالیکه متن شمارۀ 2 بیش از نیمقرن پس از متن شمارۀ 1 نوشته شده است! این افزایش امتیاز دلیلی ندارد جز اینکه موارد سرهمنویسی در متن فارسی شمارۀ 1 (شامل هفت مورد) بسیار کمتر از موارد سرهمنویسی در متن شمارۀ 2 (شامل 12 مورد) است. این افزایش امتیاز ترجمۀ متن شمارۀ 1 بهخوبی مبین اهمیت فوقالعاده زیاد جدانویسی در نوشتار معیار امروز فارسی است. شاید زمانی که نویسندگانِ «دستور خط» در فرهنگستان زبان و ادب فارسی، بر امر جدانویسی تأکید میکردند، توجه چندانی به مباحث مرتبط با پردازش ماشینی زبان فارسی نداشتند، اما چون دستورالعملهای آنان در مورد جدانویسی مبتنیبر تفکری منطقی بوده، نتایج کارشان نیز خودبهخود متضمن فواید مهمی برای پردازش زبان شده است. باید توجه داشت که پردازش ماشینی زبان همواره بر اساس واژگانی (lexicon) صورت میگیرد که از قبل برای ماشین تدوین شده است؛ در چنین واژگانی احتمال وجود صورتهایی چون «دولتیان»، «را»، «به»، «اغوا»، «به»، و «ایران» بسیار بیشتر است تا صورتهایی چون «دولتیانرا» و «باغوا» و «بایران»! در این معنا نباید دستور خط را امری صرفاً قراردادی تصور کرد (نجفی 1396 [1384])، زیرا اگر به هنگام تدوین دستور خط به مسائلی چون درک سریعتر خوانندگان و نیز توان پردازش ماشین در مباحث مربوط به پردازش زبانهای طبیعی توجه داشته باشیم، خواهیم دید که برخی قراردادها از این حیث هم نزدیکتر به عملکرد ذهن اهل زبان هستند، و هم مناسبتر برای امر پردازش ماشینی زبان. درهرحال به قطعیت میتوان گفت آنچه میزان دقت ترجمۀ ماشینی متن فارسی شمارۀ 4 را تا بدین حد بالا برده که از 100 امتیاز، نمرۀ 82 بگیرد، چیزی نبوده است مگر معیار شدن هرچه بیشتر زبان در چند دهۀ اخیر، و دیگر اینکه زبان فارسی این درجه از معیارشدگیِ متنهای علمی و خبری را بیش از هر چیز مدیون دستورالعملهای ویرایشی و عمومیت یافتن فعالیتهای ویرایشی است.
لزوم اصلاح خط
خط فارسی مانند خط اکثر زبانهایِ برخوردار از انبوهِ متنهای کهن، خطی نارسا و مشکلدار است، اما همین خط نارسایِ نیمههجایی در طی بیش از هزار سال عمر خود، همواره حاملِ مهمترین و زیباترین افکار و آمال ایرانیان بوده است بهطوریکه تبدیل آن به خطی کارآمد و مثلاً واجنگار، بهمنزلۀ جدا ساختن ایرانیان از گذشتۀ فرهنگیشان خواهد بود. پس از ورود دستگاه چاپ به ایران و تولید انبوهِ کتابها و شکلگیری مطبوعات، کمکم مسئلۀ اصلاح خط و یکدستساختن آن اهمیت یافت و این بحث تا به امروز به انحاءِ گوناگون در جریان بوده است تا اینکه پس از تدوین «دستور خط فارسی» مصوب فرهنگستان زبان و ادب فارسی (چاپ اول 1381؛ چاپ سیزدهم 1394)، به قطعیتی نسبی رسید. اما ماجرای اصلاح خط هیچگاه به انتهای خود نمیرسد و همواره بهمقتضای زمان به اشکال گوناگون مجدداً مطرح میشود. امروزه با توجه به اهمیت یافتنِ مسئلۀ پردازش ماشینی زبان فارسی، ما ناچاریم دوباره به این بحث برگردیم و با اتخاذ تدابیری این خط را هرچه بیشتر آمادۀ کارهای پردازشی بکنیم. بحث خود را با اشاره به دو نمونه از چنین مواردی به پایان میرسانم.
خط فارسی قادر به نمایش کسرۀ اضافه در تمام موارد وقوع آن نیست، درحالیکه با اضافه کردن یک نویسۀ مستقل به این خط برای نمایش کسرۀ اضافه، میتوان کار پردازش متن را تا حد بسیار زیادی بهبود میبخشد. تعداد کسرههای اضافه در هر متن فارسی بهمراتب بیشتر از تعداد دفعاتی است که نشانۀ مفعولی «را» در آن تکرار میشود، اما در خط فارسی نشانۀ مفعولی بهدرستی و با صراحت تمام نمایش داده میشود درحالیکه هیچ نشانۀ ثابت و مستقلی برای نمایش کسرۀ اضافه وجود ندارد. جالب است که جوانان خود در فضای مجازی و برحسب ضرورت، با بهرهگیری از «هکسره» کسرۀ اضافه را نمایش میدهند، و مثلاً «کتاب من» را بهشکل «کتابه من» مینویسند؛ بدیهی است که هکسره شیوۀ مناسبی برای نمایش کسرۀ اضافه نیست، و این بر عهدۀ نهادی چون فرهنگستان زبان و ادب فارسی است که نویسۀ مناسبی را برای نمایش کسرۀ اضافه در خط فارسی ابداع و پیشنهاد کند و با این تمهید ساده رساییِ خط فارسی تا حد بسیار زیادی افزایش دهد.
عامل دیگری که وجود آن برای هرچه معیارتر کردن متنهای فارسی بسیار ضروری است، تدوین نرمافزاری همچون word برای این زبان است. بهجرئت میتوان گفت که ضرورت تدوین چنین نرمافزاری برای خط فارسی با هیچ طرح ملی دیگری برای صیانت از زبان فارسی و حفظ جایگاه آن در آیندۀ بسیار نزدیک قابلمقایسه نیست! چنین نرمافزاری اگر از سوی نهادی چون فرهنگستان زبان و ادب فارسی بهصورت کامل تدوین شود، مهمترین اقدام برای پایانبخشیدن به بیسروسامانیهای و پیچیدگیهای دستور خط فارسی و نیز معیار کردن هرچه بیشتر و پردازش هرچه دقیقتر آن محسوب میشود.
نتیجهگیری
ویرایش را باید بخشی از برنامهریزی زبانی در نظر گرفت که هدف آن هرچه معیارترکردن زبان نوشتار است. بقای زبان فارسی در مقام زبانی زنده و امروزین منوط به نائلآمدن به پیشرفتهای گسترده در حوزۀ پردازشِ ماشینی زبانهای طبیعی است، و ویرایش و اصلاحات جزئی در خط، باعث شکلگیری زبان و خطِ معیاری میشود که از بیشترین آمادگی برای پردازش ماشینی برخوردار است. امر ویرایش خاصه در مورد متنهای علمی و خبری اهمیت زیادی دارد، زیرا از یکسو پروژههای تحقیقاتی مربوط به پردازشِ زبانهای طبیعی غالباً متمرکز بر همین متنها هستند، و از سوی دیگر بقای زبان فارسی در مقام زبانی زنده و امروزین منوط به نائلآمدن به پیشرفتهای گسترده و متنوع در پردازش آنها است. خلاصه اینکه هرچه زبان در این قبیل متنها ویراستهتر و تثبیتشدهتر باشد کار پردازش ماشینی آنها سادهتر خواهد بود.
*استاد آواشناسی و واجشناسی پژوهشگاه علوم انسانی و مطالعات فرهنگی
(به یاد استاد احمد حب علی موجانی)
پینوشتها:
۱ـ مقالۀ حاضر صورت کامل مطلبی است که نخستین بار به مناسبت بیستوهشتمین دورۀ هفتۀ کتاب، بهصورت سخنرانی در همایش «ظرافتهای ویرایش در متون ترجمهای» در محل «خانۀ کتاب و ادبیات ایران» (پنجشنبه 29 آبان 1399) ایراد شد.
۲ـ ابتداییبودن نثر این بند و بند بعدی را نباید به سبک کهن آنها نسبت داد. در همان زمان نثر فارسی مثلاً در منشآت قائممقام به حد اعلای زیبایی و سلامت خود رسیده بود. درواقع این دو بند مبین نخستین رویارویی زبان فارسی با زبان خبری جهان مدرن هستند و ابتدایی و حتی مغلوطبودنشان نیز دلیلی جز همین امر ندارد. بیش از صد سال طول کشید تا نثر فارسی به پختگی و آمادگی لازم برای بیان مفاهیم جدید رسید.
۳ـ از دوستان و همکاران ارجمند زیر که امر امتیازدهی متنهای انگلیسی را به عهده گرفتند نهایت امتنان را دارم: آقایان دکتر مهرداد نغزگوی کن، محرم اسلامی، محمد راسخ مهند، مصطفی حسینی، آیتالله فاضلی منیع، رضا طاهرخانی، محمد احمدی صفا، و خانمها دکتر انیس مونسی، پونه تباری، زهرا خلجی.
مآخذ:
دستور خط فارسی، 1394، تهران، فرهنگستان زبان و ادب فارسی.
سارلی، ناصرقلی، 1387، زبان فارسی معیار، تهران، هرمس.
سمیعی، احمد، 1395، آیین نگارش، تهران، مرکز نشر دانشگاهی.
سمیعی، احمد، 1397، نگارش و ویرایش، تهران، انتشارات سمت.
صادقی، علیاشرف (و) زندی مقدم، زهرا، 1394، فرهنگ املایی زبان فارسی، تهران، فرهنگستان زبان و ادب فارسی.
طباطبایی، علاءالدین، 1395، فرهنگ توصیفی دستور زبان فارسی، تهران، فرهنگ معاصر، 1395.
طباطبایی، علاءالدین، 1397، «زبان نامه فرهنگستان»، مجله نامه فرهنگستان، شماره 66، ص 2-9.
طبیبزاده، امید، 1397، «درباره ویرایش و دستور زبان»، مجله نامه فرهنگستان، شماره 66، ص 138-145.
طبیبزاده، امید، 1398، غلط ننویسیم از چاپ اول تا ویراست دوم، چ2، تهران، کتاب بهار
مدرسی، یحیی، 1368، درآمدی بر جامعهشناسی زبان، تهران، مؤسسۀ مطالعات و تحقیقات فرهنگی.
معصومی همدانی، حسین، 1382، «واژهگزینی و استقلال زبان فارسی»، در: نشر دانش، بهار، شمارۀ 107، 2-7.
نجفی، ابوالحسن، 1397، غلط ننویسیم، تهران، مرکز نشر دانشگاهی.
۴ نظر
بی نهایت جالب بود و اهمیت ویرایش رو در نظرم بالاتر برد. ممنونم
با سپاس از سنجشگری نویسنده از چند متن گوناگون. ویرایش درست، میتواند خوانایی و دقت در خواندن را بیشتر کند.
“در متن ۲ از دو علامت (یک پرانتز و یک خط تیره که کاربرد دومی معلوم نیست)”
در این متن کاربرد دونقطه (:) را داشته:
انقلاب: مبارزت و ستیزه است که بین دولت و ملت روی میدهد.
با جدانویسیهای منطقی موافقم.همچون:
جدا نوشتن نشانه مفعول (را) در جمله.
جدا نوشتن به (حرف ربط) در جمله.تا با نشانه امر(بِـ) اشتباه نشود و از دیگر سو باعث کژتابی و کژخوانی نشود.
اما با جدانویسیهای غیر منطقی به شدت مخالفم چون بر خلافِ ساختار چسبانشی زبان فارسی است.همچون:
مخالف جدانویسی (می) پیشوندی هستم. باید آنرا سرهم نوشت.
مخالف جدانویسی نشانه جمع (ها) در واژگان. فقط در مواردی باید جدا نوشت که باعث کژتابی میشود.
مخالف نوشتن همزه(ء) به جای (ی) در زمان استفاده از کسره اضافه هستم (خانۀ بزرگ) باید (ی) را حتما نوشت: خانه ی بزرگ.
جدانویسی باید زمانی انجام گیرد که پیوسته نویسی باعث کژتابی در آن واژه شود نه مثل دستورِ خط دیمی ِفرهنگستان که هرجا عشقشان کشیده، گفته اند جدا بنویسیم و پا روی ساختارِ زبان فارسی گذاشته اند.
در مورد اصلاح خط هم اینکار بیهوده و هزینه بر هست و مشکلات خط کنونی را نمی تواند حل کند چون این خط مناسب زبانهای قالبی، همچون عربی و عبری است و مناسب زبانهای چسبانشی همچون فارسی و ترکی نیست. اصلاح باعث تغییر چهره خط میشود و عملا با تییر خط تفاوتی نخواهد داشت. مثلا اگر حروف زاید(ذ،ض،ث،ط،ظ) را بزداییم یا حرف و (واو/او/-ُ /اَو) را از هم با نشانه هایی جدا کنیم آنوقت با خط کنونی تفاوت بسیار خواهد کرد تازه مشکل پیوسته نویسی را به هیچ عنوان نمیتوان حل کرد.
خط کردی نمونه ی زنده یِ اصلاح خط است شاید این خط برای کردی خوب باشد اگر همین خط در فارسی اجرا شود جز زیان و ساختن مشکلات جدید چیزی در بر ندارد.
راهکار درست، استفاده از خطِ فنی در کنار همین خط کنونی(عربی) است. خطی که منطبق بر ساختار فارسی باشد و کاملا واج نگار و بر اساس دستور فارسی باشد (منظورم خط لاتین نیست بلکه خطی نوساخته است) و هرکدام از این دو خط را بنا به نیازمان در نوشتار، بکار ببریم و هزینه الکی هم پایِ اصلاح خط یا ساخت نرم افزارهای بومیِ پول-خراب-کَن، نکنیم.(هرچه ساخت سیستم عامل بومی، جویشگر بومی، پیامرسان بومی و… جواب داد این پیشنهاد هم جواب خواهد داد!؟)
بسیار خوش بررسی فرمودید و خوش نگاشتید.
چندی پیش با این بحث و جدال رو به رو شدم از دوستی که بر ژاپنی ها خورده می گرفت که چرا درصد بالایی از مردم ژاپن به انگلیسی مسلط نیستند و زبان علمی و دانشگاهی ایشان یکی از زبان های اروپایی همچون انگلیسی یا المانی نیست. با خواندن نوشته شما بسیار روشن شدم و بهتر خواهم توانست از معیارسازی دفاع کنم. سپاس گزارم برای تلاش هایتان در راستای آگاه سازی مردم مان