ادغام 2019 SQL Server و Apache Spark با هدف ایجاد یک پلتفرم داده‌ی یکپارچه

ادغام 2019 SQL Server و Apache Spark با هدف ایجاد یک پلتفرم داده‌ی یکپارچه

مشاهده: 64

به تازگی در سمینار تخصصی Ignite، مایکروسافت پیش‌نمایش SQL Server 2019 را معرفی کرد. 25 سال است که SQL Server به سازمان‌ها کمک می کند تا داده‌های رابطه‌ای خود را مدیریت کنند و بالاخره در نسخه‌های اخیر با یکپارچه‌سازی گراف و داده‌ی رابطه‌ای و ورود یادگیری ماشینی به مبحث داده‌ها، با استفاده از مدل R و Python، از جستجوی داده‌های رابطه‌ای فراتر رفته است. با افزایش حجم و تنوع داده، کاربران نیاز به این دارند که به سادگی انواع داده‌ها را بصورت یکپارچه‌، تجزیه‌وتحلیل کنند.

برای اولین بار، SQL Server 2019 با ادغام Apache Spark و (Hadoop Distributed File System (HDFS یک پلتفرم داده‌ی یکپارچه را ایجاد کرده و در SQL Server به عنوان راهکاری واحد و یکپارچه ارائه شده است. SQL Server 2019 با استفاده از قابلیت ایجاد کلاسترهای Big Data، قابلیت‌های مدیریت دیتابیس را به طرز فوق‌العاده‌ای گسترش داده و تعریفی فرای یک دیتابیس رابطه‌ای قدیمی از SQL Server ارائه می‌نماید. این پلتفرم با هر نسخه‌ی جدید با پردازش هوشمند Query، ابزارهای تطبیق‌پذیری داده و پشتیبانی از حافظه‌ای باثبات، مرزهای امنیت، دسترس‌پذیری و عملکرد را برای هر بار کاری رو به جلو می‌برد. با این نسخه جدید می‌توان مسئولیت هر پروژه‌ی داده‌ای، از بارهای کاری قدیمی SQL Server مانند OLTP، Data Warehousing و از هوش تجاری یا BI گرفته تا AI و تجزیه‌و‌تحلیل پیشرفته روی Big Data را پذیرفت.

SQL Server با SQL Server Surface Area از دیتاسنتر کاربر به Cloud Private، یک پلتفرم Hybrid حقیقی فراهم می‌کند و در نتیجه فرایند اجرا را در مکان انتخابی توسط کاربر آسان می‌نماید. از آنجایی که کلاسترهای Big Data متعلق به SQL Server 2019 با سرویس مدیریتی Built-In به عنوان Container روی Kubernetes پیاده‌سازی شده‌اند، مشتریان می‌توانند تجربه‌ی مدیریت و پیاده‌سازی مناسبی را روی انواع مختلفی از پلتفرم‌های تحت پشتیبانی بصورت On-Premises و یا Cloud دریافت نمایند؛ پلتفرم‌هایی مانند OpenShift یا Kubernetes، Azure Kubernetes Service،، Azure Stack و OpenShift روی Azure.

SQL Server همچنان با Open Source بودن همسو بوده و این رویکرد را با پشتیبانیِ SQL Server 2017 برای لینوکس و Containerها تا پذیرایی از Spark و HDFS برای فراهم کردن یک پلتفرم داده‌ی یکپارچه برای کاربر نشان داده است. با SQL Server 2019، تمام اجزای مورد نیاز برای اجرای فرآیند آنالیزِ داده‌های کاربر در یک کلاسترِ مدیریت شده، قرار گرفته و با توجه به نیازهای سازمان مربوطه قابل ارتقا می‌باشد. HDFS، Spark، Knox، Ranger و Livy، همه در یک پکیج با SQL Server قرار می‌گیرند و به سرعت و به سادگی به عنوان Containerهای لینوکس روی Kubernetes پیاده‌سازی می‌گردند. SQL Server با حذف هر مانعی که در حال حاضر بین داده‌های ساختاریافته و داده‏های بدون ساختار وجود دارد، مدیریت تمام داده‌های سازمانی کاربر را تسهیل می‌نماید.

در ادامه شرح داده می‌شود که از بین بردن موانع و تبدیل آن‌ها به اطلاعات حقیق در تمامی داده‌ها و فراهم نمودن یک نما از داده‌های کاربر در سازمان، چگونه ممکن می‌شود:

  • تسهیل آنالیز Big Data برای کاربرانSQL Server. جدیدترین نسخه SQL Server، مدیریت محیط‌های Big Data را تسهیل کرده است. این پلتفرم دارای تمام ویژگی‌های موردنیاز برای ایجاد یک Data Lake مانند HDFS و Spark است، که توسط Microsoft فراهم شده‌اند. همپنین ابزارهای تجزیه‌و‌تحلیل که همگی دارای یکپارچه‌سازی عمیقی با SQL Server هستند و کاملا تحت پشتیبانی مایکروسافت می‌باشند نیز در این رده قرار دارند. هم اکنون می‌توان برنامه‌های کاربردی، آنالیز و هوش مصنوعی را هم روی داده‌های ساختاریافته و هم داده‏های بدون ساختار، با استفاده از Queryهای T-SQL اجرا نمود و یا افرادی که با Spark آشنا هستند می‌توانند از Python، R، Scala و یا Java استفاده کنند تا Jobهای Spark را برای آماده‌سازی و یا تجزیه‌و‌تحلیل داده، همه و همه در یک کلاستر واحد و یکپارچه، اجرا نمایند.
  • ارائه‌ی یک منبع واحد برای داده‌های ساختاریافته و یا بدون ساختار به توسعه‌دهندگان، تحلیلگران داده و مهندسین داده با استفاده از ابزارهای موردعلاقه‌ی آن‌ها.محققانِ داده با استفاده از SQL Server 2019 می‌توانند به سادگی از طریق Jobهای  Spark، داده را در SQL Server و HDFS تجزیه‌و‌تحلیل کنند. تحلیلگران می‌توانند با استفاده از  خدمات یادگیری ماشینی SQL Server، تجزیه‌و‌تحلیل پیشرفته‌ای را روی Big Data که شامل آموزش دیتابیس‌های بزرگ در Hadoop و عملیاتی کردن آن در   SQL Server می‌باشد را اجرا نمایند. محققانِ داده، می‌توانند از از تجربه‌ی Notebook جدیدی استفاده کنند که روی موتور Notebookهای Jupyter در افزونه‌ی تازه‌ای  از Azure Data Studio اجرا می‌گردد تا به صورت تعاملی تجزیه‌و‌تحلیل پیشرفته‌ای از داده‌ها را اجرا کرده و به سادگی این تجزیه‌و‌تحلیل را با همکاران خود به اشتراک بگذارند.
  • تجزیه‌ی سیلوهای داده و ارائه‌ی یک نمای واحد در تمام داده‌های کاربر با استفاده از مجازی‌سازی داده:PolyBase که ابتدا در SQL Server 2016 ارائه شده بود، به کاربران توانایی اجرای یک T-SQL Query را در داخل  SQL Server فراهم کرده است تا بتوانند داده‌ها را از Data Lake خود بیرون کشیده و آن‌ها را در فرمتی ساختار‌یافته (بدون انتقال یا کپی کردن داده) بازگردانند. اکنون در SQL Server 2019، مفهوم مجازی‌سازی داده برای منابع داده‌ی بیشتر، از جمله Oracle، Teradata، MongoDB، PostgreSQL و موارد دیگر در حال گسترش است. با استفاده از PolyBase جدید، می‌توان Siloهای داده را تجزیه نمود و به سادگی با استفاده از مجازی‌سازی، داده‌ها را از منابع بسیاری با هم ترکیب کرد تا از هدر رفتن زمان و انرژی، ریسک‌های امنیتی و داده‌های تکراری که به دلیل انتقال داده و همسان‌سازی (Replication) ایجاد می‌گردند، اجتناب شود. «Poolهای داده» و «Compute Pool» جدید که به طور منعطفی مقیاس‌پذیر هستند، با Cache کردنِ داده و توزیع اجرای Query روی Instanceهای بسیاری از SQL Server جستجوی داده‌های مجازی‌سازی‌شده را به شدت تسریع می‌نمایند.