Apache Hive là 1 kho dữ liệu (data warehouse) hỗ trợ người sử dụng hoàn toàn có thể dễ dàng rộng trong việc cai quản và truy tìm vấn đối với các tập tài liệu lớn được lưu trữ trên các khối hệ thống lưu trữ phân tán (distributed storage). Hive được xây dựng dựa vào cơ sở của Apache Hadoop, nó cung cấp các tác dụng chinh sau:
Công cụ được cho phép dễ dàng tiến hành tác vụ như trích xuất, di chuyển và lưu trữ dữ liệu.Cơ chế để xử lý cho những định dạng tài liệu khác nhau.Truy cập tới tài liệu dạng files được lưu trữ trực tiếp sinh hoạt trong Apache HDFS hoặc so với nhiều khối hệ thống lưu trữ dữ liệu khác như Apache HBase.Thực hiện tại query thông qua MapReduce.
Bạn đang xem: Phân tích dữ liệu với Hive (Data Analytics with Hive)
Hive định nghĩa ra một ngôn từ truy vấn dễ dàng và đơn giản có cú pháp tương tự với SQL (SQL-like query language) được điện thoại tư vấn là Hive
QL, nó được cho phép người thực hiện đã thân quen với các truy vấn SQL triển khai việc tầm nã vấn dữ liệu. Ngoài ra ngôn ngữ này còn có thể chấp nhận được các lập trình sẵn viên bạn đã không còn xa lạ với Map
Reduce framework có thể nhúng các mappers với reducers cho bao gồm họ viết ra nhằm thực thi nhiều hơn thế nữa những phân tích phức tập mà không được cung ứng bởi những hàm đã tất cả sẵn trong ngôn từ Hive
QL. Hive
QL cung hoàn toàn có thể được mở rộng với những custom scalar functions (UDF’s), aggregations (UDAF’s) và các table funtions (UDTF’s)
Hive không yêu cầu dữ liệu phải được đọc cùng ghi bên dưới một format của riêng biệt Hive (Hive format). Hive hoạt động tốt trên Thrift và những định dạng dữ liệu riêng của fan sử dụng.
Hive không có thiết kế để cho các giao dịch online (OLTP workloads) và không nên dùng cho những real-time queries và các update trên từng dòng trong một table (row-level). Hive hoạt động tốt nhất cho các batch jobs trên các tập dữ liệu lớn, mà ở đó dữ liệu được thêm vào liên tiếp (append-only data) ví dụ như web logs. Hive có chức năng mở rộng lớn theo chiều ngang giỏi (thực thi tốt trên 1 hadoop cluster bao gồm số tượng máy trở nên đổi), có tác dụng tích phù hợp với Map
Reduce framework cùng UDF, UDAF, UDTF; có tác dụng chống chịu lỗi với mềm dẻo so với các tài liệu đầu vào của chính nó.
Các thành phần cấu hình Hive bao gồm HCatalog với Web
HCat. HCatalog là một trong những thành phần của Hive. Đây là lớp quản lý lưu trữ cho Hadoop (table và management layer), nó được cho phép người sử dụng với những công thay xử lý tài liệu khác nhau bao hàm cả Pig với Map
Reduce thực thi chuyển động đọc, ghi một cách dễ ợt hơn. Web
HCat hỗ trợ một dịch vụ cho phép bạn cũng có thể thực thi Hadoop Map
Reduce (hoặc YARN), Pig, Hive.
2.Kiến trúc của Hive
Hive có các thành phần chính là :
Hive UI: hỗ trợ giao diện chất nhận được người sử dụng liên hệ với khối hệ thống Hive. Hive hỗ trợ nhiều cách tiến hành khác nhau chất nhận được người sử dụng ảnh hưởng với Hive:CLI: hình ảnh dạng shell chất nhận được người sử dụng thúc đẩy trực tiếp qua command line.Hive website Interface: giao diện Web cho phép người sử dụng thực hiện các truy tìm vấn trải qua giao diện Web.Hive Thrift Server: chất nhận được các client từ rất nhiều ngôn ngữ lập trình không giống nhau có thể thực hiện liên tưởng với Hive.Hive Driver: thành phần nhận các truy tìm vấn và chuyển những truy vấn này thành các MapReduce Jobs để thực hiện xử lý yêu ước của bạn sử dụng.Driver: nhận những truy vấn, thành phần này thực hiện việc cai quản các sessions và hỗ trợ các API để tiến hành và lấy tài liệu trên JDBC/ODBC interfaces.Compiler: yếu tố hiện bài toán phân tích ngữ nghĩa so với các query, lấy các thông tin metadata cần thiết về table và partion từ metastore để sinh ra những excution plan.Execute engine: nhân tố thực thi các execution plan được tạo vị compiler (submit những job cho tới Map
Reduce). Trong khi thành phần execution enginen này thực hiện việc cai quản các dependencies của quá trình trong mỗi execution plan, xúc tiến từng bước này.Hive Metastore: thành phần lưu trữ các metadata của Hive: table, partion, buckets bao bao gồm cả thông tin về các column trong những table, những serializers với desrializers đề nghị thiết để triển khai việc đọc và ghi dữ liệu. Metastore sử dụng một cơ sở tài liệu quan hệ để tàng trữ dữ liệu của chính mình.
Hình 2.1. Bản vẽ xây dựng của Hive
3. Hoạt động của Hive
Hình 3.1. Mô hình hoạt động của Hive
Quy trình hoạt động của Hive có thể được trình bày theo các bước sau:
Các truy tìm vấn đến từ User Interface (CLI, Hive website Interface, Thirft Server) được gửi tới thành phần Driver (Bước 1 hình 3.1)Driver tạo nên mới 1 session cho truy vấn này và gửi query cho tới compiler để dìm lấy Execution Plan (Bước 2 hình 3.1)Compilter nhận những metadata cần thiết từ Metastore (Bước 3, 4 hình 3.1). Các metadata này sẽ được sử dụng để kiểm tra những biểu thức bên phía trong query mà Compiler nhận được.Plan được sinh ra do Compiler (thông tin về những job (map-reduce) buộc phải thiết để thực thi query sẽ được gửi lại tới thành phần triển khai (Bước 5hình 3.1)Execution engine nhận yêu cầu triển khai và lấy các metadata quan trọng và yêu mong mapreduce thực thi công việc (Bước 6.1, 6.2, 6.3 hình 3.1)Khi đầu ra được sinh ra, nó sẽ được ghi dưới dạng 1 temporary file, temorary tệp tin này sẽ hỗ trợ các thông tin cần thiết cho những stages không giống của plan. Nội dung của các temporary tệp tin này được execution phát âm trực tiếp từ bỏ HDFS như là một trong những phần của các lời điện thoại tư vấn từ Driver (bước 7, 8, 9 hình 3.1)4. Quy mô dữ liệu trong Hive
Hình 4.1. Hive Data Model
Dữ liệu vào Hive được tổ chức thành các kiểu sau:
4.1. Managed Tables & External Tables
Managed Tables:
Khi bạn tạo mới 1 tables thì Hive sẽ chuyển các dữ liệu này tới tới kho dữ liệu của nó (warehouse directory). Mặc dù bạn vẫn có thể tạo ra những external table, với khai báo thì nàythì Hive biết rằng tài liệu dữ liệu này đã tồn tại làm việc trên 1 location khác phía bên ngoài warehouse directory.
Sự khác biệt của chúng sẽ xẩy ra ở 2 quy trình LOAD cùng DROP. Ta ban đầu với việc khám phá managed table trước tiên:
Khi bạn thực hiện việc load dữ liệu vào phía bên trong managed table, nó sẽ thực hiện việc chuyển tài liệu tới bên phía trong warehouse directory. Ví dụ:
Nhà khoa học tài liệu với nhà phân tích dữ liệu với Kỹ sư dữ liệu có gì không giống biệt? Vai trò, trách nhiệm và quá trình của đều vị trí này ra sao?
Nhà khoa học tài liệu với công ty phân tích dữ liệu với Kỹ sư dữ liệuVới ảnh hưởng bùng nổ của dữ liệu, một số trong những vai trò và cơ hội công việc liên quan đến tài liệu đã mọc lên như mộc nhĩ trên toàn cầu. Theo công dụng của một report ngành, Khoa học dữ liệu sẽ chỉ chiếm 28% tổng số công việc kỹ thuật số vào khoảng thời gian 2020. Chúng có công dụng sinh lời cao nhờ tốc độ tạo dữ liệu mau lẹ và yêu cầu mới nổi về việc hiểu nó. Mặc dù nhiên, báo cáo tương tự cũng nhấn mạnh vấn đề sự khan hiếm kỹ năng trong lĩnh vực này.
Lý do chính của sự thiếu vắng nhân tài trong nghành nghề dịch vụ này là sự việc thiếu cụ thể về các kỹ năng quan trọng cho từng vai trò. Các công ty vẫn tìm cách thuê những người dân có bộ kỹ năng chuyên biệt, phù hợp thay vì những người dân có kĩ năng đa ngành nghề. Nếu bạn muốn tránh bị thêm mác là tín đồ tổng quát, trước tiên bạn phải hiểu sự biệt lập giữa cha vai trò dữ liệu hàng đầu Nhà khoa học dữ liệu, Kỹ sư dữ liệu và Nhà so sánh dữ liệu.
Đó là một trong quan niệm không nên lầm phổ cập rằng những vai trò được kể ở trên hoàn toàn có thể hoán đổi đến nhau. Vào suốt nội dung bài viết này, bọn họ sẽ tìm hiểu các trình bày công việc, phương châm trong một đội nhóm chức, cỗ kỹ năng quan trọng và nấc lương ước ao đợi của từng công việc và nghề nghiệp dữ liệu thú vị này.
1. Bên khoa học dữ liệu với công ty phân tích tài liệu với Kỹ sư dữ liệu: tế bào tả các bước và phương châm tổ chức
Nhà khoa học dữ liệu sử dụng các kỹ thuật dữ liệu cải thiện như phân cụm, mạng lưới thần kinh, cây đưa ra quyết định và phần lớn thứ tương tự như để thu được thông tin cụ thể về doanh nghiệp. Với phương châm này, bạn sẽ là người thời thượng nhất trong team và phải có trình độ sâu về vật dụng học, thống kê và cách xử lý dữ liệu. Bạn sẽ chịu trách nhiệm cách tân và phát triển những hiểu biết sâu sắc về doanh nghiệp hoàn toàn có thể hành động sau khoản thời gian họ thừa nhận được thông tin đầu vào từ bên phân tích tài liệu và Kỹ sư dữ liệu. Chúng ta nên có bộ kĩ năng của anh chị em phân tích tài liệu và kỹ sư dữ liệu. Tuy nhiên, vào trường hòa hợp của một nhà kỹ thuật dữ liệu, các bộ khả năng cần phải sâu sát và tương đối đầy đủ hơn.
Xem thêm: Bộ đề kiểm tra toán giữa kì 2 lớp 3 môn toán, đề kiểm tra giữa học kì ii lớp 3 kntt
Nhà phân tích dữ liệu giữ mục đích cấp đầu vào trong nhóm đối chiếu dữ liệu. Với sứ mệnh này, bạn cần thành thành thục trong vấn đề dịch dữ liệu số quý phái dạng nhưng mọi bạn trong tổ chức hoàn toàn có thể hiểu được. Không tính ra, bạn cần phải có trình độ chuyên môn thông thạo cần thiết trong một trong những lĩnh vực, bao gồm các ngôn từ lập trình như python, những công thế như excel, vẻ ngoài cơ bản về xử trí dữ liệu, report và lập mô hình. Với đủ kinh nghiệm, bạn cũng có thể dần dần hiện đại từ một bên phân tích dữ liệu để đảm nhận vai trò của một kỹ sư tài liệu và một nhà khoa học dữ liệu.
Kỹ sư tài liệu là trung gian giữa các nhà phân tích dữ liệu và nhà khoa học dữ liệu. Là một trong kỹ sư dữ liệu, bạn sẽ chịu trọng trách ghép nối và chuẩn bị dữ liệu cho những mục đích quản lý và vận hành hoặc phân tích. Các bạn sẽ cần tương đối nhiều kinh nghiệm trong bài toán xây dựng, cải tiến và phát triển và bảo trì kiến trúc dữ liệu cho vai trò này. Thông thường, với vai trò này, bạn sẽ làm câu hỏi với tài liệu lớn, tổng phù hợp các báo cáo về tài liệu đó và gửi cho những nhà khoa học dữ liệu để phân tích.
2. Công ty khoa học tài liệu với công ty phân tích dữ liệu với Kỹ sư dữ liệu: cỗ kỹ năng
Nhà khoa học tài liệu với bên phân tích tài liệu với Kỹ sư dữ liệu: nhiệm vụ công việc4.1 Nhà khoa học dữ liệu
Các trọng trách bạn nên gánh vác với tư cách là 1 trong nhà khoa học dữ liệu bao gồm:
Quản lý, khai quật và có tác dụng sạch tài liệu phi cấu tạo để chuẩn bị cho việc sử dụng thực tế. Phát triển các mô hình có thể chuyển động trên tài liệu lớnHiểu và lý giải phân tích dữ liệu lớn
Chịu nhiệm vụ về nhóm tài liệu và góp họ có được các mục tiêu tương ứng
Cung cấp tác dụng có ảnh hưởng tác động đến hiệu quả kinh doanh
4.2 Nhà đối chiếu dữ liệu
Là một nhà đối chiếu dữ liệu, bạn sẽ phải đảm nhận các trách nhiệm nắm thể, bao gồm:
Thu thập thông tin từ cơ sở dữ liệu với sự giúp đỡ của truy vấn vấnCho phép xử lý dữ liệu và tóm tắt kết quả
Sử dụng các thuật toán cơ bản trong các bước của chúng ta như hồi quy logistic, hồi quy đường tính, v.v.Sở hữu cùng thể hiện chuyên môn sâu về trộn dữ liệu, trực quan liêu hóa dữ liệu, phân tích cùng thống kê tài liệu khám phá
4.3 Kỹ sư dữ liệu
Trách nhiệm của người tiêu dùng trong sứ mệnh này là:
Khai thác dữ liệu để hiểu rõ hơn về dữ liệuChuyển đổi dữ liệu sai thành dạng rất có thể sử dụng để phân tích dữ liệu
Viết tróc nã vấn bên trên dữ liệu
Bảo trì kiến tạo và loài kiến trúc dữ liệu
Phát triển kho tài liệu lớn với việc trợ giúp của phụ mua chuyển đổi
5. Nhà khoa học dữ liệu với bên phân tích dữ liệu với Kỹ sư dữ liệu

X
Hiện ni FUNi
X là đơn vị huấn luyện và đào tạo lập trình trực tuyến nhận được sự tin cậy của rộng 20.000 học tập viên ở nhiều độ tuổi khác nhau. Với bí quyết học new lạ, tương xứng với đầy đủ người mắc và đắm say lập trình và sự dẫn dắt của 5000 mentor xuất sắc chuyên môn, FUNi
X đã trở thành trường đại học lập trình trực tuyến đường uy tín độc nhất vô nhị tại Việt Nam. Rõ ràng cách học tập của FUNi
X Way:
Học liệu MOOC trực quan, thực tếĐược dẫn dắt vì 5000 mentor và hannah ( cán bộ hướng dẫn) tận tâm
Đề cao tinh thần chủ đụng học tập cải thiện hiệu quả
Kiểm tra minh bạch, vấn đáp 1-1, làm dự án công trình thực tếHọc đến đâu cấp chứng từ đến đó, chứng từ FUNi
X FPT được hàng công ty lớn công nhận
FUNi
X liên kết với hàng nghìn doanh nghiệp technology thông tin trên toàn nước nhằm liên kết đầu ra mang đến sinh viên. Với tình trạng khan hiếm nhân sự IT xuất sắc như hiện nay, các doanh nghiệp đã nhà động tương tác với FUNi
X với mong mỏi muốn đạt được nhân sự ngay sau thời điểm học viên xuất sắc nghiệp khóa học.