به نام خدا

در پارسي‌بلاگنرم افزار استخراج اطلاعات از صفحات وب

جمعه ۲۴ آبان ۹۲ - ۵:۴۶ عصر

براي من كه زياد پيش آمده است
براي ديگران نمي‌دانم
بارها شده در سايت‌ها
يا نرم‌افزارهاي تحت وب
دنبال مقاله يا مطلبي مي‌گردي
صدها صفحه مطلب ذخيره مي‌كني
اما هزاران تگ و فرمت و تصوير
پيرامون متن مورد نظرت را گرفته است
چه بايد كرد؟!

معمولاً چند خط كد مي‌نوشتم
اول و آخر مطلبي را كه مي‌خواستم برمي‌گزيدم
فرمتي كه منحصر به فرد باشد
و تكراري
باقي كار را نرم‌افزار انجام مي‌داد
بسيار ساده و سريع
تمام فايل‌ها را مي‌گشود
دنبال فرمت‌هاي داده شده مي‌گشت
آن‌ها را كه مي‌يافت
درون‌شان هر چه مطلب بود بيرون مي‌كشيد و جداگانه ذخيره مي‌كرد
شايد هزاران صفحه مطلب را با اين روش تا به حال استخراج كرده‌ام
هر بار به يك دليلي
و به يك نيازي
اما اين‌بار...

با خود گفتم چرا يك ابزار كوچك و ساده نباشد
اين كار را براي هميشه به انجام رساند
چرا مجبور باشم براي هر كنكاشي
يك بار كد بنويسم؟!

اين شد كه نوشتم
نرم‌افزاري كه در اين نشاني قرار دارد (http://movashah.id.ir/o/Extractor.zip)
فرمت اول را مي‌دهيد
فرمت آخر مطلب را هم
نشاني شاخه‌‌اي كه فايل‌ها در آن قرار دارند
پسوند فايل‌هاي مورد نظر
تا از ساير فايل‌ها صرف‌نظر نمايد
اگر مايل بوديد صفحات مختلف به هم نچسبند
گزينه مربوطه را تيك بزنيد و فعال كنيد
كه فايل‌هاي متعدد ساخته شود
در آخر هم...

سايت‌هايي كه مقالات و اخبار ارائه مي‌نمايند
مهم‌‌ترين هدف براي استفاده شخصي از اين ابزار هستند
حتي وبلاگ‌ها و خصوصاً آرشيوهاي وبلاگ
براي كاربردهاي مفيد البته.

توضيح1: اگر سيستم عامل شما امكان اجراي آن را نداشت
فايل
msvbvm60.dll را دانلود كنيد و در كنار برنامه اجرايي قرار دهيد
و يا بسته كمكي
vbrun60sp6.exe را دانلود و نصب فرماييد.

توضيح2: اين نرم‌افزار به صورت خودكار با باز كردن نخستين فايل
كاراكترست آن را شناسايي كرده (utf-8 يا ascii يا unicode)
و فايل خروجي را متناسب با همان مي‌سازد.


مطلب بعدي: فايل اكسل نام هاي ايراني مطلب قبلي: بي اجازه

نظرات

...: اسم اين آيكون هاي كوچكي كه وقتي سايت پدر مادر داري را باز ميكنيم گوشهء اسمش در تب مرور گر مياد چيه؟
مثلا همين علامت e پارسي بلاگ كه الان اون بالا سمت چپ "شايد سخن حق" هست.

پنج‌شنبه ۷ آذر ۹۲ - ۶:۴۱ عصر
پاسخ: اسمش مهم نيست اگر چه به faveorite icon يا bookmark icon و گاهي Shortcut icon معروفند و معمولاً به نام favicon.ico ذخيره مي‌شوند. مهم اين است كه در يك يا دو عنصر در اول متن html معرفي شده و آدرس‌دهي مي‌شوند. مانند اين: «link rel=icon href=favicon.ico». مرورگر خودش مي‌داند كه از اين فايل چگونه استفاده نمايد!
بازگشتنسخه محلّي از نوشته‌هاي وبلاگ شايد سخن حق سال نشر13نوشته‌هاي وبلاگ بر اساس سال برچسب‌ها33نوشته‌هاي وبلاگ بر اساس برچسب بيشترين نظر32نوشته‌هاي وبلاگ با بيشترين تعداد نظر
صفحه اصليبازگشت به صفحه نخست سايت نوشته‌ها721طرح‌ها، برنامه‌ها و نوشته‌ها مكان‌ها65براي چه جاهايي نوشتم زمان‌ها22همه سال‌هايي كه نوشتم جستجودستيابي به نوشته‌ها از طريق جستجو وبلاگ921با استفاده از سامانه پارسي‌بلاگ نماها1چند فيلم كوتاه از فعاليت‌ها آواها7تعدادي فايل صوتي براي شنيدن سايت‌ها23معرفي سايت‌هاي طراحي شده نرم‌افزارها36سورس نرم‌افزارهاي خودم معرفي6معرفي طراح سايت و آثار و سوابق كاري او فونت‌هاي فارسي60تعدادي قلم فارسي كه معمولاً در نوشته‌هايم استفاده شده است بايگاني وبلاگ862نسخه محلّي از نوشته‌هاي وبلاگ
با اسكن باركد صفحه را باز كنيد
تماس پيامك ايميل ذخيره
®Movashah ©2018 - I.R.IRAN